Documente Academic
Documente Profesional
Documente Cultură
présentée à
par
Asmaa Amehraye
Je tiens d’abord à remercier Dominique PASTOR pour avoir encadré cette thèse
et pour m’avoir encouragée, motivée et conseillée tout au long de mes années de thèse
sans oublier les heures de discussions fructueuses au téléphones lors des périodes de
thèse passées au Maroc.
Je remercie également le professeur Driss Aboutajdine qui as cru en mes
compétences jusqu’au bout et m’a proposé cette thèse en cotutelle pour la première
fois entre l’Université MohamedV-Agdal et Télécom Bretagne.
Je remercie vivement les professeurs Régine LE BOUQUIN JEANNÈS et Yves
LAPRIE pour avoir accepté de rapporter cette thèse. Merci pour toutes vos remarques
et questions qui ont permis de mettre plus en valeur ce document de synthèse.
Mes remerciements vont également aux membres de mon jury : M. Jacques FRO-
MENT qui a accepté de présider la soutenance, M. Ahmed TAMTAOUI et M. Chris-
tophe BEUAGEANT pour l’intérêt qu’ils ont porté à mes travaux et finalement le
professeur Samir SAOUDI pour avoir accepté de diriger cette thèse et la mener à
terme surtout administrativement.
Je garde un souvenir chaleureux de l’équipe des permanents et des thésards du
département Signal et Communications pour leur esprit de famille. Je les remercie
pour tous les bons moments passés ensemble.
Un grand merci à tous les volontaires (permanents, thésards et stagiaires), des
différents départements de Télécom Bretagne, qui se sont pris la peine de passer une
heure et demi de tests d’écoute afin que je puisse reproduire une analyse subjective de
mes algorithmes.
Merci à tout ceux que j’ai connu de l’ensemble du personnel administratif et tech-
nique de TELECOM Bretagne pour leur gentillesse, disponibilité et efficacité.
Une pensée profonde et affectueuse à ma chère mama qui m’a toujours soutenu et
fait confiance, sans elle et feu mon père, je n’aurais jamais pu partir loin de mon pays
et faire cette thèse. Merci infiniment pour vos prières.
Mes vives remerciements à mes soeurs et à mon frère pour leur solidarité, leur
encouragements, leur patience et leur amour. Sachez que votre soutien est bien plus
puissant que vous ne l’imaginez.
A mon rayon de soleil qui a éclairé le ciel gris de la Bretagne, qui m’a encouragée,
soutenue et motivée sans cesse pour arriver au bout de cette thèse, un grand merci
pour tout.
Résumé
Speech enhancement has been extensively investigated in the last years giving rise
to spectacular results. However, some problems and questions remain open. One of
these problems is to reach a compromise between noise reduction, signal distorsion
and residual musical noise. The development of methods based on perceptual notions,
mainly on the masking phenomenon, gained a lot of interest these last decades. The
basic objective of perceptual filters is to reduce noise without introducing much signal
distorsion. One way to avoid superfluous distorsion is then to operate only in frequencies
where noise is perceptually significant. However, by so processing, the initially inaudible
noise, and as such not taken into account by the perceptual denoising, can become
audible and annoying if its maskers are filtered. This is what we call in this thesis the
MAN phenomenon (Maskee to Audible Noise).
The main contributions of this thesis are the following ones. We begin by illustrating
the MAN phenomenon, which, to our knowledge, has never been presented before.
We show the side effects of this phenomenon. Then, we propose a basic approach to
correct the MAN phenomenon thanks to a double filtering that attenuates noise in all
frequencies to avoid the production of this phenomenon.
We propose a second approach based on an optimal filter called anti-MAN filter.
It is frequency selective. In this criterion, we define the MAN phenomenon location to
attenuate the noise contributing to it.
Comparative evaluation based on objective and subjective criteria is introduced
for several noise types and several signal to noise conditions. Results revealed the
superiority of the proposed methods in comparison with recently perceptual methods
not taking the phenomenon MAN into account.
We also conceived two speech recognition systems with HTK (Hidden Markov Mo-
dels Tollkit) : the first one is based on monophones and the other one on triphones. The
training of these two systems was performed in the absence of noise ; this allowed us to
assess the impact of the enhancement on the speech recognition system performance
in presence of noise. Results show that the best methods regarding objective and even
subjective criteria are not necessarily those that return the more robust recognition
systems. The latters are in general more sensitive to distorsions.
key words : Perceptual enhancement, psycho-acoustic, Wiener filtering, frequency
masking, musical noise, signal distorsion, MAN phenomenon, subjective and objective
tests, speech recognition.
Table des matières
Résumé v
Acronymes xiii
Notations xv
1 Introduction générale 1
1.1 Présentation du problème . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Contexte, motivations et objectifs . . . . . . . . . . . . . . . . . . . . . 2
1.3 Plan du document . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
5 Estimation du bruit 63
5.1 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2 Estimateur de la borne essentielle (Essentiel Supremum Estimate) . . . 66
5.2.1 Cas du bruit blanc . . . . . . . . . . . . . . . . . . . . . . . . . 66
TABLE DES MATIÈRES xi
Bibliographie 159
Acronymes
7.1 La moyenne des scores MOS pour les auditeurs d’origine anglaise . . . 106
7.2 La moyenne des scores MOS pour les auditeurs de différentes nationalités106
7.3 La moyenne des scores MOS selon les échelles SIG, BACK et OVRL
pour les méthodes DF et AMPF dans les cas du bruit de voiture et du
bruit de conversation selon un rapport signal à bruit de 5 dB et 10 dB . 110
8.6 Taux de reconnaissance par monophones sur des signaux bruités par
un bruit de voiture et débruités par différentes méthodes en supposant
connaı̂tre la variance du bruit . . . . . . . . . . . . . . . . . . . . . . . 133
8.7 Taux de reconnaissance par monophones sur des signaux bruités par un
bruit blanc et débruités par différentes méthodes en estimant la variance
du bruit pendant les pauses fournies par le DAV G729 . . . . . . . . . . 133
8.8 Taux de reconnaissance par monophones sur des signaux bruités par un
bruit de conversation et débruités par différentes méthodes en estimant
la variance du bruit pendant les pauses fournies par le DAV G729 . . . 134
8.9 Taux de reconnaissance par monophones sur des signaux bruités par un
bruit de voiture et débruités par différentes méthodes en estimant la
variance du bruit pendant les pauses fournies par le DAV G729 . . . . . 134
8.10 Taux de reconnaissance par triphones sur des signaux bruités par un
bruit blanc et débruités par différentes méthodes en supposant connaı̂tre
la variance du bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.11 Taux de reconnaissance par triphones sur des signaux bruités par un
bruit de conversation et débruités par différentes méthodes en supposant
connaı̂tre la variance du bruit . . . . . . . . . . . . . . . . . . . . . . . 135
8.12 Taux de reconnaissance par triphones sur des signaux bruités par un
bruit de voiture et débruités par différentes méthodes en supposant
connaı̂tre la variance du bruit . . . . . . . . . . . . . . . . . . . . . . . 136
8.13 Taux de reconnaissance par triphones sur des signaux bruités par un
bruit blanc et débruités par différentes méthodes en estimant la variance
du bruit pendant les pauses fournies par le DAV G729 . . . . . . . . . . 136
8.14 Taux de reconnaissance par triphones sur des signaux bruités par un
bruit de conversation et débruités par différentes méthodes en estimant
la variance du bruit pendant les pauses fournies par le DAV G729 . . . 137
8.15 Taux de reconnaissance par triphones sur des signaux bruités par un
bruit de voiture et débruités par différentes méthodes en estimant la
variance du bruit pendant les pauses fournies par le DAV G729 . . . . . 137
fréquentiel est faite par le calcul de la courbe de masquage qui représente les points
de pression acoustique nécessaires pour qu’un son test soit perçu en présence d’un son
masquant.
L’intérêt s’est porté aussi sur l’amélioration des mesures de qualité de la parole en
vue d’une évaluation plus objective s’approchant au mieux du jugement de l’auditeur.
Bien que les tests subjectifs soient plus décisifs et traduisent l’opinion des sujets hu-
mains, leur coûteuse mise en œuvre a nécessité le développement d’autres critères. Les
plus usuels sont ceux évaluant la qualité de la parole débruitée en terme de distorsion
de forme en comparaison avec le signal de parole de référence. Certes, ce type de me-
sure délivre une information sur les performances du débruiteur, mais ne garantit pas
d’obtenir une qualité perçue qui peut satisfaire l’auditeur, d’où la proposition de me-
sures objectives de qualité se basant sur des notions de psychoacoustique pour simuler
la perception humaine sans avoir besoin d’effectuer des tests subjectifs.
L’axe psychoacoustique semble prometteur et ses bénéfices sont évidents sur les
systèmes de débruitage de la parole. La combinaison des deux constitue de nos jours
un champ d’étude qui peut encore évoluer si l’on arrive à surmonter certaines difficultés
en relation avec le calcul de la courbe de masquage et l’estimation du bruit.
de près et qui ne requiert aucun a priori sur les distributions des signaux à part des
hypothèses statistiques et de parcimonie sur les signaux. Quant au chapitre 6, nous
le consacrons à l’estimation de la courbe de masquage. Il nous a permis de parcourir
les quelques travaux peu nombreux sur la correction de l’estimation de la courbe de
masquage et de présenter deux approches constituant notre contribution par rapport
à cette partie.
Le chapitre 7 constitue la contribution majeure de cette thèse. Nous le commençons
en décrivant les limitations des approches perceptuelles qui traitent uniquement le bruit
audible. Ensuite, nous décrivons et illustrons un phénomène dénommé MAN (Maskee to
Audible Noise), nous montrons ses effets secondaires et nous enchaı̂nons en proposant
deux solutions donnant lieu à deux filtrages peceptuels dont l’un est optimal. Nous
évaluons l’apport des méthodes proposées par rapport à d’autres et nous concluons par
présenter et analyser les résultats obtenus.
Le dernier chapitre, avant la conclusion générale, concerne l’application du
débruitage à la reconnaissance automatique de la parole en présence du bruit. Nous
présentons le principe de fonctionnement des systèmes de reconnaissance de la parole
et nous décrivons les différentes classes de méthodes destinées à rendre ces systèmes
robustes au bruit. Le débruitage de la parole en fait partie, raison pour laquelle nous
avons conçu deux systèmes de références, qui vont nous permettre de voir l’influence
du débruitage sur les performances de ces systèmes en présence du bruit.
Enfin, ce mémoire s’achève par un chapitre de conclusion des principaux apports et
résultats et traçant à la fin les perspectives de recherche liées au débruitage perceptuel
et à la reconnaissance automatique de la parole.
2
CHAPITRE
Généralités sur le signal
de parole
Analyse LPC : Dans l’analyse par prédiction linéaire LPC, le conduit vocal est
modélisé par une fonction de transfert qui suit un modèle autorégressif. Cette analyse
est fort utilisée dans le codage de parole dans le but de réduire la redondance du signal
vocal, ou pour extraire des paramètres pertinents pour la reconnaissance de parole
[Young 06]. L’estimation des coefficients de la fonction de transfert du conduit vocal
est faite en supposant connaı̂tre le signal d’excitation. Pour les sons non voisés, le signal
d’excitation est un bruit blanc de moyenne nulle et de variance unité. Pour les sons
voisés, cette excitation est une suite d’impulsions d’amplitude unité. La fonction de
transfert du conduit vocal dans le domaine Z est donnée par
S(z) G
H(z) = = (2.1)
U(z) 1 − A(z)
Section 2.1 : La parole et le bruit 7
p
X
où A(z) = ak z −k est le prédicteur linéaire, ak sont les coefficients de prédiction,
k=1
S(z) est le signal de parole produit en sortie, U(z) est le signal d’excitation et G est un
gain. Le signal de parole s(n) à la sortie du modèle est donc représenté par la somme
d’une combinaison linéaire des échantillons précédents et de la fonction d’excitation,
tel que
p
X
s(n) = ak s(n − k) + Gu(n). (2.2)
k=1
s=u∗h (2.3)
TFD(s) = UH (2.4)
Le logarithme de l’amplitude transforme le produit de la TFD en somme. On obtient
alors :
log |S(ν)| = log |U| + log |H| (2.5)
Par transformation en cosinus discret (DCT), on obtient le cepstre. L’expression du
cepstre réel est donc :
c = DCT(log(TFD(s))). (2.6)
L’espace fréquentiel de représentation du cepstre est équivalent à un espace temporel.
A partir du cepstre (Fig. 2.2), il est possible de définir la fréquence fondamentale de la
source u en détectant les pics périodiques (harmoniques) au-delà d’un certain nombre
N de coefficients. En effet, les N premiers points du cepstre contiennent l’information
la plus pertinente sur le spectre et permettent d’obtenir un spectre lissé, débarrassé des
harmoniques dûs à la contribution de la source. Cependant, déterminer la fréquence
fondamentale d’un signal de parole reste encore un problème difficile. En effet, les
algorithmes classiques manquent de robustesse quand le bruit est présent, quand la
fréquence fondamentale change rapidement ou quand la valeur de celle-ci n’est pas
assez élevée.
8 CHAPITRE 2 : Généralités sur le signal de parole
Signal temporel
0.1
Amplitude
0.05
0
−0.05
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14
Temps (s)
50
Puissance (dB)
Spectre
0
−50
−100
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Fréquence (Hz)
400
Cepstre
Fréquence fondamentale
Amplitude
200
0
0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02
Quéfrence (s)
L’analyse cepstrale est basée sur un calcul de coefficients dits coefficients cepstraux
de Mel, soit en abrégé MFCC (Mel Frequency Cepstral Coefficients). Le calcul est en ef-
fet basé sur une échelle de Mel. Cette échelle se rapproche de la perception fréquentielle
de l’oreille. L’idée est de moyenner le spectre dans des bandes de fréquence correspon-
dant grossièrement au filtrage effectué par la membrane basilaire. L’échelle Mel est
approchée par un banc de 15 à 24 filtres triangulaires espacés linéairement jusqu’à
1 KHz, puis espacés logarithmiquement jusqu’aux fréquences maximales. Elle a été
conçue de telle façon que 1000 Hz correspondent à 1000mels. La formule de conversion
Fenêtrage
Banc de filtres Log| . | Transformée en MFCC
s(n) + FFT
Mel cosinus Discrét
pré−accentuation
Propriétés Types
Structure Continu/Impulsif/Périodique
Type d’interaction Additif/Multiplicatif/Convolutif
Comportement temporel Stationnaire/Non-stationnaire
Bande de fréquence étroit/large
Dépendance Corrélé/ Décorrélé
Propriétés statistiques Dépendant/Indépendant
Propriétés spatiales Cohérent/Incohérent
particulièrement tonal, d’où le caractère musical. Son énergie moyenne est plus faible
que celle du bruit initial, mais sa dispersion en fréquence est plus grande, ce qui le
rend plus gênant que le bruit de départ du point de vue perception. Parmi les raisons
d’apparition de ce type de bruit [Loizou 07, Cappe 94], on cite :
– Le traitement non linéaire des composantes négatives du signal débruité,
– L’estimée non précise de la densité spectrale de bruit,
– L’estimation basée sur des périodogrammes,
– La variabilité de la fonction de gain appliquée au signal bruité,
– La variance des estimateurs locaux de la densité spectrale des signaux...
Soient respectivement yk (t), sk (t) et bk (t), t = 0, 1, . . . , N − 1, le signal bruité, le
signal propre et le bruit dans la k ème trame. On a donc, yk (t) = sk (t) + bk (t). Les
Transformées de Fourier Discrètes (TFDs) de ces signaux sont respectivement notées
Yk (ν), Sk (ν) et Bk (ν), ν = 0, 1, . . . , N − 1 et nous avons Yk (ν) = Sk (ν) + Bk (ν). Ces
notations seront conservées tout au long de ce manuscrit.
Pour un problème de débruitage linéaire classique où l’on cherche un estimateur
Hk (ν) tel que Sbk (ν) = Hk (ν)Yk (ν), l’erreur dûe à ce filtrage est la suivante :
L’expression (Hk (ν) − 1)Sk (ν) représente la distorsion du signal tandis que
Hk (ν)Bk (ν) désigne le bruit résiduel contenant le bruit musical. Dans le cas où
0 ≤ Hk (ν) ≤ 1, il est généralement très difficile de réduire le bruit musical sans
apporter de distorsion sur le signal. Le besoin d’un compromis entre la distorsion et
le bruit musical s’avère donc le meilleur moyen pour augmenter les performances en
qualité et intelligibilité. Pour illustrer le bruit musical, on a choisi de représenter le
spectre d’amplitude, le long de plusieurs trames, d’un échantillon de signal de parole
auquel on a ajouté un bruit blanc gaussien à 5 dB. Ce signal bruité est par la suite
débruité par un filtrage de Wiener classique afin d’obtenir une estimée du signal propre
de départ. La figure 2.4, décrit, donc, la distribution aléatoire des pics spectraux du
bruit musical en sortie du filtre de Wiener.
Le chapitre IV présentera une synthèse des méthodes visant à traiter ce type de
bruit pour améliorer les performances du débruitage de la parole.
1.5
Amplitude
1
0.5
0
40
4000
30 3000
2000
1000
Numéro de la trame 20 0
Fréquence(Hz)
1.5
Amplitude
0.5
0
40
4000
30 3000
2000
1000
Numéro de la trame 20 0
Fréquence(Hz)
car des douleurs aiguës de l’oreille apparaissent à ce niveau. Il se situe à environ 130
dB. Expérimentalement, on s’arrête à 90 dB, car là d’ores et déjà les dégradations de
l’audition apparaissent [Zwicker 81].
Son pur, son complexe : Un son pur, désigné dans le jargon de la psychoacoustique
par le terme de tonale, génère une pression acoustique sinusoı̈dale dans le temps. Le
niveau acoustique de ce son est représenté sur une échelle logarithmique. Il a l’allure
d’une seule raie en fréquence. Un son pur est rarement rencontré dans la nature. Les
sons les plus fréquents sont complexes. Un son complexe est généré par une combinaison
12 CHAPITRE 2 : Généralités sur le signal de parole
Niveaux (dB)
Seuil de douleur
120
100
80
60 Aire d’audition
40
20
0
20 1000 20000
Sonie (Loudness) : La sonie est la perception de l’intensité sonore. C’est donc une
impression subjective où les sons s’ordonnent sur une échelle de faible à fort, de même
que dans la tonie (mesure de hauteur équivalente à la fréquence) les sons s’ordonnent
dans une échelle d’aigu, grave ou médium. La sonie est caractérisée par des lignes
isosoniques (Fig. 2.6), le lieu des points de même sonie. Pour mesurer la sonie d’un
son pur, on maintient constantes sa fréquence et sa durée. Par définition, à un son de
niveau acoustique 40 dB, de fréquence 1 kHz et de durée 1 s, on attribue arbitrairement
une sone, qui est l’unité de la sonie. On a alors 1 sone = 40 phones . La sonie varie
en proportion logarithmique avec l’échelle en phones (l’échelle des décibels dB). Une
augmentation de 10 dB correspond à une augmentation de 2 sones. Ainsi, pour basculer
de l’échelle de sone d’indice s à l’échelle de phone d’indice p, on a :
p−40
s=2 10 . (2.9)
Niveau d’intensité sonore : L’oreille n’a pas une sensibilité à l’intensité sonore
identique à toutes les fréquences. En effet, des sons d’intensité sonore égale n’ont pas la
même intensité perçue (sonie) selon qu’ils sont de fréquence basse, moyenne ou haute.
Ainsi, soient trois sons de même intensité sonore 40 dB et de fréquences 100Hz, 1kHz et
10kHz. Les sons de basse et haute fréquence seront plus faiblement perçus par rapport
au son de fréquence moyenne (autour de 1 kHz). Par définition, le niveau d’intensité
sonore, ayant pour unité le phone, indique le niveau de pression acoustique d’un son
pur de 1 KHz qui provoque la même sensation d’intensité sonore que le son test.
Exemple : Un son pur de fréquence 500Hz et qui est ressenti comme étant aussi fort
qu’un son pur de 1 kHz ayant un niveau de 50 dB a donc un niveau d’intensité sonore
égale à 50 dB (les courbes d’isosonie (2.6) que nous décrivons maintenant).
Courbes d’isosonie : Les courbes d’isosonie représentent les courbes d’égale in-
tensité sonore perçue (isosonique, c’est-à-dire ayant la même sonie). Deux sons purs
Section 2.2 : Notions de psychoacoustique 13
j 2
z(j) = 13 arctan(0.00076.j) + 3.5 arctan[( )] (2.10)
7500
avec j la fréquence en kHz.
que la sienne.
dB
(a)
Tonale masquante
Bruit masqué
(b)
dB
Bruit masquant
Tonale masquée
Figure 2.8 — Masquage fréquentiel : (a) Tonale Masquant un Bruit (b) Bruit Mas-
quant une Tonale
Pour simuler le fonctionnement de notre oreille, la notion de bande critique est incon-
tournable. Comme définie précédemment, une bande critique est la plage de fréquences
qui doit séparer deux fréquences de même intensité pour qu’elles soient perçues in-
dividuellement. Le spectre en Bark Bi est la sommation de toutes les énergies Pk (ν)
appartenant à la plage de fréquence définissant une bande critique i.
hi
X
Bi = Pk (ν) (2.13)
ν=bi
La convolution de cette fonction avec le spectre en Bark donne lieu au spectre en Bark
étalé Ci .
Ci = Si ∗ Bi . (2.15)
Pour décider entre ces deux seuils, on a recours à la mesure de la platitude du spectre
qui est définie par le rapport entre la moyenne géométrique et la moyenne arithmétique
du spectre en Bark du signal sur l’ensemble des bandes critiques N :
Gm
SFMdB = 10 log10 (2.16)
Am
Q PN
où Gm = N i=1 Bi et Am = N
1
i=1 Bi . Quand la mesure de la platitude du spectre
SFMdB est grande, le spectre est de puissance à peu près constante sur toutes les
fréquences (similarité avec le bruit blanc). Le spectre est dit dans ce cas plat ou lissé.
A l’inverse, quand la mesure SFMdB est petite, la puissance est relativement concentrée
dans des petites bandes de fréquences (similarité avec un mélange de sinusoı̈des). Le
spectre est ainsi hérissé.
Cette mesure nous permet donc de classer les signaux en signal tonal ou bruit
suivant un calcul de l’indice de tonalité α,
SFMdB
α = min ,1 . (2.17)
SFMdBmax
où SFMdBmax = −60 dB [Johnston 88], indique que le signal est d’une nature très
tonale et 0 ≤ α ≤ 1.
L’indice de tonalité est donc une mesure permettant de montrer si certaines tonales
ressortent du signal. En effet, plus le coefficient de tonalité est proche de 0, plus le
signal est assimilé à du bruit. A l’inverse, plus le coefficient de tonalité est proche de
1, plus le signal est à composantes tonales majoritaires.
– Si SFMdB = 0, alors α = 0. Il s’agit d’un bruit.
Section 2.2 : Notions de psychoacoustique 19
L’indice de tonalité est une mesure qui peut être utilisée comme un détecteur d’ac-
tivité vocale ou plutôt, comme un classificateur parole/bruit dont les performances
sont satisfaisantes par rapport à des classificateurs à base d’entropie ou employant
la variance de l’énergie normalisée. Ceci a été montré dans un travail [Manohar 06]
comparant les trois types de détecteurs parole/bruit pour des fins de débruitage de la
parole dans des environnements à bruits non-stationnaires.
L’indice α est alors utilisé pour introduire les deux seuils TMB et BMT via le seuil
de correction Oi ci dessous :
Ti = max{Ti , Ui }. (2.20)
où PN = 90, 302 dB est le terme de normalisation en dB et w(t) = 0.5 1 − cos( 2πt
N
)
est la fenêtre de Hanning.
avec
2 2 < ν < 63 (0, 17 − 5, 5kHz)
∆ν ∈ [2, 3] 63 ≤ ν < 127 (5, 5 − 11kHz) (2.24)
[2, 6] 127 ≤ ν ≥ 256 (11 − 20kHz).
Maximums locaux
100
90
80
70
60
dB
50
40
30
20
10
0
0 50 100 150 200 250
Fréquence (Hz)
1
X
PT M (ν) = 10 log10 100.1Pk (ν+j) . (2.25)
j=−1
Une fois les tonales déterminées, les composantes non tonales ou le bruit masquant
PBM (ν) sont identifiés par bande critique. Ils font partie des composantes spectrales
Pk (ν) qui n’appartiennent pas au voisinage ±∆ν des tonales. Le principe repose sur le
fait qu’une énergie de la bande critique qui n’est pas associée à une tonale masquante
Section 2.2 : Notions de psychoacoustique 21
où les Pk (j) sont différentes des PT M (ν, ν ± 1, ν ± ∆ν ), ν est la moyenne géométrique
des fréquences d’une bande critique (Eq. (2.26)) et bi et hi sont respectivement la
fréquence la plus basse et la fréquence la plus haute de chaque bande critique. À partir
de l’équation (2.26), on obtient ainsi une seule composante de bruit masquant qui
associe toutes les énergies des composantes spectrales d’une bande critique n’ayant pas
donné lieu à une composante tonale.
Composantes Tonales et non−Tonales
100
90
80
70
60
dB
50
40
30
20 Tonales
non−Tonales
10
0
0 50 100 150 200 250
Fréquence (Hz)
où z(j) est la fréquence en Bark et j la fréquence en Hz. Le terme E(i, j) exprime
l’étalement de l’effet de masquage de la fréquence j sur la fréquence i.
17∆z − 0.4PT M (j) + 11, −3 ≤ ∆z < −1
(0.4PT M (j) + 6)∆z , −1 ≤ ∆z < 0
E(i, j) = (2.29)
−17∆z , 0 ≤ ∆z < 1
(0.15PT M (j) − 17)∆z − 0.15PT M (j), −1 ≤ ∆z < 8
En ce qui concerne les bruits masquants, le seuil individuel est exprimé ainsi :
où SF (i, j) a la même expression que (2.29) en remplaçant juste PT M (j) par PBM (j).
L M
!
X X
T (i) = 10 log10 100.1Ta (i) + 100.1TT M (i,l) + 100.1TBM (i,m) (2.31)
l=1 m=1
85
80
75
70
dB
65
60
55
50
45
40
0 50 100 150 200 250
Fréquence (Hz)
2.3 Conclusion
Du fait que notre environnement est bruyant, la parole et le bruit sont donc deux
signaux qui coı̈ncident souvent. Dans ce chapitre, les propriétés et caractéristiques de
chacun d’eux ont été rappelées afin de mieux les traiter dans le cadre de cette thèse.
On a aussi défini et décrit le comportement du bruit musical. A cet effet, plus de détails
seront donnés ultérieurement pour décrire les méthodes de débruitage dont l’objectif
est de réduire ce type de bruit perceptuellement très gênant. En parlant de perception
de la parole, on a présenté quelques définitions de psychoacoustique indispensables pour
mieux comprendre le débruitage employant des notions perceptuelles. Le phénomène de
masquage est le point clé dans ce type d’approches. Pour modéliser ce phénomène, on
cherche à calculer une courbe de masquage correspondant à chaque signal en question.
Les deux modèles de calcul de la courbe de masquage présentés sont tous les deux
intéressants, mais présentent des différences surtout du point de vue coût de calcul. Le
choix entre les deux dépend surtout de l’application. Par exemple, si l’on procède à une
analyse faisant la distinction entre tonale et non tonale, il est plus intéressant d’utiliser
24 CHAPITRE 2 : Généralités sur le signal de parole
le modèle MPEG [Aicha 06]. Dans le cadre de cette thèse, on a utilisé le modèle de
Johnston qui présente une simplicité de calcul tout en donnant lieu à une courbe de
masquage aussi précise que celle de MPEG.
3
CHAPITRE
Évaluation de la qualité
et de l’intelligibilité de
la parole
utilisés surtout pour évaluer les codeurs de parole, la qualité du signal de parole dépend
de la personne qui la juge et l’évalue. Sa façon de percevoir met en jeu l’expérience
passée, l’environnement dans lequel elle s’est déroulée, son humeur et ses attentes.
Ainsi, afin de diminuer l’effet subjectif sur l’évaluation de la qualité vocale, les notes
des participants pour une condition de test donnée sont moyennées pour obtenir la
note moyenne d’opinion.
Dans ce qui suit et comme il est d’usage, on désigne par MOS, comme terme général,
les trois tests subjectifs déjà définis sauf précision. Par définition donc, le MOS est un
sondage auprès d’un échantillon de personnes représentatives du reste de la population.
Lors de ce sondage, les auditeurs sont invités à écouter et à juger. Le jugement se fait
à travers l’attribution d’une note sanctionnant la qualité perçue du signal de parole
qu’ils ont écouté. La moyenne des notes attribuées constitue donc le MOS. L’avantage
du MOS est qu’il quantifie la qualité perçue par les auditeurs participant aux tests.
C’est donc une évaluation réelle, fiable et correcte de la qualité des signaux mis en jeu.
Cependant, ce test est souvent écarté du fait qu’il requiert :
• Un grand nombre d’auditeurs
• Un équipement audio adapté
• Une formation des auditeurs à la bonne façon d’attribuer des notes pour que celles-ci
soient exploitables
• Une collecte d’informations et des traitements statistiques pour réduire l’aléa.
En outre, le MOS n’est pas standardisé et le processus de test ne peut pas être
complètement automatisé.
où v
u N
δjk uX (uijk − Ūjk )2
∆jk = 1.96 √ et δjk =t .
N i=1
(N − 1)
les notes non cohérentes. On définit pour cette raison les paramètres suivants : β2jk ,
m4 et m2 , qui sont le kurtosis et les moments empiriques d’ordre 4 et 2 tels que :
m4
PN
β2jk = (m2 )2
et mℓ = i=1 (uijk − Ūjk )ℓ , ℓ = 2, 4.
Selon cette recommandation, si 2 ≤ β2jk ≤ 4, la distribution des notes par présentation
est considérée comme normale. On calcule ainsi Li et Ri , deux compteurs associés à l’
observateur i, le test j et l’échantillon k tel que,
Li = Ri = 0 ;
Pour j = 1, 2, . . . , J et k = 1, 2, . . . , K
Si 2 ≤ β2jk ≤ 4, alors :
Si uijk ≥ Ūjk + 2δjk , alors Ri = Ri + 1
Si uijk ≤ Ūjk − 2δjk , alors Li = Li + 1
Sinon √
Si uijk ≥ Ūjk + 20δjk , alors Ri = Ri + 1
√
Si uijk ≤ Ūjk − 20δjk , alors Li = Li + 1
FinSi
FinPour.
où J et K sont respectivement le nombre total de conditions de tests et le nombre
total d’échantillons. À partir de Li et Ri , les relations suivantes permettent de rejeter
l’auditeur dont les résultats sont aberrants où J × K est le nombre total de notes
Li +Ri Li −Ri
attribuées par chaque utilisateur. Alors, si J×K > 0.05 et Li +Ri < 0.3, les notes du
Li +Ri
sujet i doivent être supprimées. A signaler que le rapport prend en compte les
J×K
Li −Ri
écarts importants par rapport à la moyenne et le rapport Li +Ri modélise les écarts
autour de la moyenne. Après l’élimination des sujets dont les notes ne pourraient pas
conduire à des estimations cohérentes, on passe à une analyse statistique plus poussée
des résultats et qui s’avère indispensable pour une présentation plus significative des
notes MOS. Cette analyse statistique est effectuée par le test de Student t-test et
l’analyse de la variance ANOVA. On présente les deux dans la section suivante.
t-test ou test de Student : C’est un test paramétrique qui repose sur des com-
paraisons de moyennes issues de deux échantillons indépendants (deux algorithmes de
test ou deux groupes par exemple). Il s’applique à tout test statistique dont la dis-
tribution est de type Student quand l’hypothèse nulle est vraie. Une variable T suit
une distribution de Student ou une loi de Student si elle est définie par le quotient
entre une variable aléatoire Z centrée et réduite et une variable U indépendante de Z
et distribuée suivant la loi du χ2 , tel que
Z
T =p (3.3)
U/k
H0 : ν1 = ν2 = ... = νM
H1 : Au moins une seule moyenne diffère des autres.
les variances entre groupes. Techniquement, l’ANOVA est un test unilatéral ; on cherche
seulement à savoir si la variance inter-groupe est plus grande que la variance intra-
groupe en calculant la statistique de Fisher :
variance inter-groupe
F = . (3.5)
variance intra-groupe
Cette statistique a une distribution F de degré de liberté (dl1 , dl2 ) tel que dl1 = M − 1
et dl2 = M(n − 1), avec M le nombre de populations ou de groupes et n est le nombre
d’échantillons par groupe. La valeur critique du test de statistique F issue de la table de
Fisher (Annexe D) dépend des degrés de liberté dl1 et dl2 ainsi que du paramètre α. On
compare cette valeur critique avec la valeur expérimentale obtenue par l’équation (3.5).
Si la valeur expérimentale est supérieure à la valeur critique, on rejette l’hypothèse H0
tout en concluant qu’au moins une des moyennes νi diffère des autres. Dans le cas
contraire, on accepte l’hypothèse H0 et on conclut que les moyennes de toutes les
populations sont égales.
Soit l’exemple suivant où on essaie de voir si trois machines (M = 3) ont un rende-
ment différent. On attribue 5 ouvriers (n = 5) par machine et on se fixe α = 0.05. Un
calcul d’ANOVA (sous Matlab) sur les rendements illustrés par le tableau 3.4 donne
lieu au résultat donné par la figure (3.1). Pour l’exemple précédent, on aboutit à une
26
25
24
Values
23
22
21
20
1 2 3
Column Number
D) et ce pour une valeur de α = 0.05. La décision prise est donc de rejeter l’hypothèse
H0 ce qui signifie qu’au moins une des moyennes νi diffère des autres.
Si l’hypothèse d’égalité des moyennes est rejetée, ANOVA ne fournit pas d’analyse
des raisons de ce rejet. La statistique a été amenée à développer un grand nombre
de tests consécutifs à une ANOVA ayant rejeté l’hypothèse nulle. Ils sont destinés à
analyser les raisons ayant induit ce rejet. Ces tests sont qualifiés de a posteriori ou post
hoc. Le test post hoc le plus connu est appelé LSD (Least Significant Difference), plus
de détails sur ce test sont donnés dans [Loizou 07].
Les mesures objectives de qualité des signaux vocaux les plus communément uti-
lisées sont citées et classées dans le tableau 3.5.
Tableau 3.5 — Classification des critères d’évaluation objective les plus com-
munément utilisés
Considérons les coefficients cepstraux ct (i) et cr (i) calculés respectivement sur les
trames d’indice i du signal-test à évaluer et de la référence. La distance cepstrale d’ordre
2 entre ces deux signaux est donnée par [Kobatake 94] :
p
X
dcep = (ct (i) − cr (i))2 (3.10)
i=1
CHAPITRE 3 :
34 Évaluation de la qualité et de l’intelligibilité de la parole
où p est l’ordre des coefficients LPC. Suite à cette écriture, la distance cepstrale
est tout simplement la distance euclidienne entre les coefficients cepstraux générés
récursivement à partir de l’analyse LPC.
3.3.5 PSQM
Le PSQM (Perceptual Speech Quality Measure) est une version typique aux signaux
de parole décrite par la norme P.861 [P.861 98]. Elle constitue donc un cas particulier du
critère PAQM (Perceptual Audio Quality Measure) [Beerendes 92] dédié aux signaux
audio en général. L’intérêt de concevoir une mesure uniquement pour la parole revient
aux différences de caractéristiques existant entre la parole et la musique. Le PSQM
exploite à son tour les propriétés de la perception auditive humaine pour évaluer la
qualité de la parole. La moyenne de la différence en sonie, désignée dans la norme par
le terme bruit perturbateur, constitue la note PSQM attribuée à la qualité du signal
codé.
3.3.6 PESQ
Le PESQ (Perceptual Evaluation of Speech Quality) est l’évaluation de la qualité
vocale perçue désignée dans la norme P.862 [P862 00] comme moyen adapté aux codecs
vocaux et aux mesures de bout en bout. De ce fait, d’autres facteurs supplémentaires
sont pris en considération pour mieux simuler les conditions réelles, à savoir le temps
de propagation, les distorsions dûes aux erreurs de transmission, les pertes de pa-
quets. . . Néanmoins, il existe bel et bien d’autres facteurs techniques et applications
[P862 00] pour lesquels la méthode d’évaluation PESQ n’a pas été encore validée à ce
jour, notamment les artefacts causés par les algorithmes de réduction de bruit ainsi
que les dégradations liées à l’interaction bidirectionnelle lors de la transmission comme
par exemple l’effet d’écho.
Section 3.4 : Conclusion 35
3.4 Conclusion
Les mesures objectives de qualité qui reposent sur des notions de psychoacoustique
permettent de prévoir les notes de qualité de perception qu’attribueraient au signal testé
les sujets participant à un essai d’écoute subjective. Elles permettent d’automatiser le
processus d’évaluation de la qualité et se prêtent plus à une éventuelle application en
temps réel. Elles sont donc indispensables pour les systèmes où l’homme fait partie
intégrante du processus de réception. Cependant, leur corrélation insuffisante avec les
résultats des tests subjectifs limite encore leur substitution complète aux méthodes
subjectives.
Il existe d’autres mesures de qualité qui ne requièrent pas de disposer d’un si-
gnal de référence. Elles sont de deux types, paramétriques et non-paramétriques,
et elles ont pour objectif d’évaluer en continu la qualité de la parole dans les
réseaux de télécommunications (voix sur IP, téléphone mobile,. . . ). Les mesures non-
paramétriques, dites basées sur le signal, comparent ce dernier avec un signal artificiel
issu d’une base de référence (codebook). Les mesures paramétriques telles que ITU-
T P.563 [Malfait 06] et le modèle E [G.107 03] sont basées sur des mesures physiques
(délai, écho, bruit,...) du système à évaluer et exploitent les propriétés du conduit vocal
pour déterminer la distorsion.
Pour la phase d’évaluation, notre choix s’est porté sur les mesures PESQ, MBSD
CHAPITRE 3 :
36 Évaluation de la qualité et de l’intelligibilité de la parole
comme mesures perceptuelles en raison de leur bonne corrélation avec les tests subjectifs
et le segSNR pour une évaluation du rapport signal à bruit des débruiteurs. Nous
avons également opté pour la recommandation UIT-T P.835 [P.835 03] pour les tests
subjectifs du fait qu’elle est spécialement dédiée aux applications d’annulation du bruit.
4
CHAPITRE
État de l’art du
débruitage
mono-capteur de la
parole
Soit y(t) un signal de parole bruité et échantillonné. Ce signal est divisé en trames
successives, d’indice k, qui comportent le même nombre d’échantillons noté N. Ce
nombre d’échantillons est choisi de manière à ce que la durée d’une trame soit de l’ordre
de 20 à 30 ms. On construit ainsi des trames où la parole est supposée stationnaire.
À partir du modèle yk (t) = sk (t) + bk (t), on cherche à restituer le signal propre sk (t)
CHAPITRE 4 :
38 État de l’art du débruitage mono-capteur de la parole
4.1.1 Principe
La soustraction spectrale est la méthode de débruitage la plus ancienne. Elle est
introduite dans [Boll 79]. Elle opère dans le domaine fréquentiel et a pour principe de
soustraire une estimée du bruit à partir du signal observé. Le bruit est supposé additif,
stationnaire ou légèrement variant ce qui nous permet de l’estimer pendant les périodes
de silence. Il existe deux versions de base de la soustraction spectrale se différenciant
l’une de l’autre par l’utilisation soit de la puissance soit de l’amplitude. Si
b
|S(ν)| b
= |Y (ν)| − |B(ν)|, (4.1)
il s’agit de la soustraction spectrale d’amplitude (SSA). Si, par contre, le bruit estimé
est donné par son spectre de puissance, on aura la soustraction spectrale de puissance
(SSP) :
b
|S(ν)| 2 b
= |Y (ν)|2 − |B(ν)| 2
. (4.2)
Vu que le second terme de l’équation (4.2) peut être négatif, on peut le rendre positif
en changeant de signe ou bien en l’annulant comme dans l’équation (4.3). Ceci fait
partie des premières améliorations apportées à la soustraction spectrale :
b
|Y (ν)|2 − |B(ν)| 2 b
si |Y (ν)|2 > |B(ν)| 2
b 2
|S(ν)| = (4.3)
0 sinon.
Les algorithmes de soustraction spectrale peuvent être étudiés sous un autre angle,
celui du filtrage du signal observé en se basant toujours sur une estimation du bruit.
La suppression devient donc une multiplication par un gain G(ν) comme ci-dessous :
b
|S(ν)| = G(ν).|Y (ν)|, 0 ≤ G(ν) ≤ 1. (4.5)
Section 4.1 : Soustraction spectrale 39
4.1.2 Paramétrisation
La soustraction spectrale est largement étudiée dans la littérature vu sa simplicité,
mais elle reste limitée par les artefacts qu’elle génère en sortie, à savoir la distorsion
du signal et le bruit musical. Les tentatives de réduction de celui-ci ont amené les
chercheurs à s’investir sur l’expression adéquate qui peut être le compromis entre la
quantité du bruit musical et la distorsion du signal. Ainsi, pour donner plus de souplesse
à la soustraction spectrale, plusieurs améliorations ont été apportées à cette technique.
L’objectif de cette section est de décrire les plus connues.
b
L’introduction de la quantité β|B(ν)| 2
, au lieu d’un zéro (comme dans l’équation (4.6)),
permet d’ajouter un bruit large bande qui, selon Berouti, va masquer les composantes
tonales voisines de même amplitude (ou d’amplitudes comparables). Les paramètres
α et β ont pour objectif de trouver un compromis entre la quantité du bruit résiduel,
celle du bruit musical et finalement la distorsion du signal. Ajuster convenablement ces
deux paramètres est une tâche qui influe beaucoup sur la qualité des résultats.
Les expériences [Berouti 79] ont montré que le paramètre α dépend du RSB seg-
mental, noté segSNR, selon l’équation,
segSNR
α = α0 − (4.7)
s
avec s = 20 3
pour α0 = 4. Pour une plage de segSNR variant de −5 dB à 5 dB, α0
est compris entre 3 et 6. Le paramètre β est très sensible au niveau de bruit. Pour de
très hauts niveaux de bruit (−5 dB), le paramètre β doit être compris dans l’intervalle
0.02 ≤ β ≤ 0.06. Pour des niveaux bas du bruit (0 dB ou 5 dB), il vaut mieux choisir
β tel que 0.005 ≤ β ≤ 0.02.
CHAPITRE 4 :
40 État de l’art du débruitage mono-capteur de la parole
Proposition de Boll : Le travail de Boll [Boll 79] repose également sur la soustrac-
tion spectrale, mais sa contribution apparaı̂t comme un facteur complémentaire. Le but
n’est donc pas de paramètrer la soustraction spectrale pour améliorer les performances,
mais plutôt d’étudier l’erreur qu’elle génère afin de réduire les artefacts au moyen de
quatre méthodes :
1. Moyenne d’amplitude :
b
S(ν) = [|Y (ν)| − µ(ν)]ei×arg Y (ν) (4.8)
où µ(ν) = E[|B(ν)|] est la moyenne du bruit calculée pendant les silences. Le filtre
équivalent est de la forme
µ(ν)
H(ν) = 1 − . (4.9)
|Y (ν)|
Soit ǫ(ν) l’erreur spectrale due au processus de soustraction. On a
b
ǫ(ν) = S(ν) − S(ν) = B(ν) − µ(ν)ei×arg Y (ν) (4.10)
où ǫ(ν) dépend à la fois de B(ν) et de sa moyenne µ(ν). Pour réduire ǫ(ν) il
faut que B(ν) P≃ µ(ν). Si on introduit la moyenne de l’amplitude du signal bruité
1 N −1
|Y (ν)| = N ν=0 |Y (ν)| dans l’équation (4.8), on obtient une nouvelle estimée
notée Sbm (ν) :
Sbm (ν) = [|Y (ν)| − µ(ν)]ei×arg Y (ν) . (4.11)
L’expression de l’erreur devient :
avec k l’indice de la trame, Sbk (ν) = HkR (ν).Yk (ν) où HR est donné par l’équation
(4.13), max |B R (ν)| est le maximum du bruit résiduel (B R (ν) = |B(ν)|−µ(ν)) me-
suré pendant les instants de silence et l’indice j désigne le numéro de la trame. La
réduction du bruit résiduel s’effectue ainsi en sélectionnant le minimum de l’am-
plitude estimée durant 3 trames adjacentes si l’amplitude dans la trame courante
j est inférieure au niveau du maximum du bruit résiduel B R (ν).
Section 4.1 : Soustraction spectrale 41
où α est un facteur de sur-soustraction (α > 1). Le spectre du signal bruité est diminué
plus que nécessaire ce qui entraı̂ne une diminution du bruit résiduel certes, mais aug-
mente en contrepartie la distorsion du signal. Le paramètre β, tel que 0 ≤ β << 1,
est un facteur qui permet d’introduire un bruit de fond léger pour masquer le bruit
résiduel.
Remarques :
1. Le choix de α et β est plus critique que celui de ηi , i = {1, 2}.
2. Si η1 = η2 = 1, il s’agit d’une soustraction spectrale d’amplitude.
3. Si η1 = 2, η2 = 0.5, il s’agit d’une soustraction spectrale de puissance.
4. Si η1 = 2, η2 = 1, il s’agit du filtrage de Wiener.
ont été étudiées dans plusieurs travaux [Virag 99, Udrea 08, Bhatnagar 02]. Elles sont
basées sur des notions psychoacoustiques. Nous décrivons ici la contribution de Virag
[Virag 99] qui a suscité beaucoup d’intérêt dans le domaine. Elle consiste à rendre le
bruit musical perceptuellement moins gênant en exploitant le phénomène de masquage.
On rappelle que ce dernier est modélisé par le calcul du seuil de masquage du signal
trame par trame et que tout bruit au-dessous de ce seuil est imperceptible à l’oreille
humaine. Les deux étapes clé de sa méthode sont :
– Le calcul du seuil de masquage du bruit par la procédure de Johnston à partir
d’une estimée du signal de parole issue de la soustraction spectrale classique. Elle
corrige cette courbe vu la différence qu’elle présente par rapport à la courbe de
masquage du signal propre. Cette différence est plus significative pour les bandes
critiques au delà de 15 (c’est-à-dire aux hautes fréquences). La correction proposée
est empirique et consiste à diminuer le seuil de masquage pour tenir compte de
l’effet tonal du bruit musical. En effet, la nature tonale du bruit musical semblable
à celle de la parole influence la précision de calcul du seuil de masquage de manière
à augmenter son niveau normal. La correction proposée ne peut être fiable que si
l’on arrive à localiser le bruit musical ou du moins l’estimer afin de contrôler le
niveau de diminution ou d’augmentation de cette courbe estimée. Plus de détails
sur l’estimation et la correction de la courbe de masquage seront donnés dans le
chapitre 5.
– Elle généralise les méthodes de soustraction spectrale selon une formule unique
(Eq. 4.17) et adapte les paramètres en fonction du seuil de masquage. Si le seuil
de masquage est au-dessus du bruit résiduel, ce dernier sera automatiquement
masqué. Il est inutile de le réduire pour éviter toute distorsion du signal de la
parole et les paramètres sont maintenus à leur minimum. Sinon, le bruit sera
perceptible et doit être réduit en augmentant les paramètres de soustraction.
Dans [Virag 99], l’adaptation des paramètres est régie par les deux formules ci
dessous :
α(ν) = Fα [αmin , αmax , T (ν)] (4.18)
β(ν) = Fβ [βmin, βmax , T (ν)] (4.19)
où T (ν) est le seuil de masquage, Fα et Fβ sont deux fonctions non linéaires
permettant une réduction maximale (resp. minimale) du bruit résiduel pour des
valeurs minimales (resp. maximales) de la courbe de masquage :
De même pour Fβ .
Pour les valeurs Tmin (ν) < T (ν) < Tmax (ν), Virag [Virag 99] suggère d’effectuer
une interpolation dépendante de la valeur de T (ν). Après des expériences avec
différents types de bruit et pour des valeurs de η = η1 = 2 ;η2 = η11 = 0.5, les
valeurs de α et β, ci-dessous, se sont avérées les plus appropriées dans le sens où
Section 4.2 : Filtrage de Wiener 43
D’après le théorème de projection, il y a une seule solution à (4.26). Elle est donnée
par le principe d’orthogonalité via l’équation :
E ǫ(ν)Y (ν)+ = 0. (4.27)
où Y (ν)+ ets le transposé conjugué de Y (ν). Tout calcul fait (Annexe B), on aboutit
à l’expression du filtre de Wiener suivante :
δ(ν)
W (ν) = (4.28)
δ(ν) + γ(ν)
où δ(ν) et γ(ν) sont respectivement les densités spectrales de puissance du signal de
parole et du bruit. Dans le problème de débruitage de la parole mono-capteur, on ne
dispose que du signal observé alors que l’expression (4.28) fait intervenir des quantités
a priori. L’une des façons d’estimer la densité spectrale de puissance du signal de parole
est de procéder à un calcul itératif du filtre de Wiener basée sur une modélisation LPC
du signal de parole. La mise à jour de la densité spectrale de puissance est faite à
chaque itération et déduite à partir des coefficients AR. Une des limitations de cette
méthode, comme pour tout processus itératif, est de choisir le moment où il est pertinent
CHAPITRE 4 :
44 État de l’art du débruitage mono-capteur de la parole
d’arrêter les itérations (la convergence est alors supposée atteinte), sans parler des coûts
de calculs qui sont très élevés. D’un autre point de vue, pour éviter le passage par
l’estimation de la densité spectrale de puissance du signal, on peut exprimer l’équation
(4.28) en terme de rapport signal à bruit a priori (Eq. 4.29) ce qui nous conduit à
un problème d’estimation du rapport signal à bruit (Eq. 4.30) au lieu de la densité
spectrale de puissance :
ξ(ν)
W (ν) = , (4.29)
1 + ξ(ν)
E[|S(ν)|2 ] δ(ν)
ξ(ν) = 2
= . (4.30)
E[|B(ν)| ] γ(ν)
Comme pour la soustraction spectrale, l’une des améliorations apportées au filtrage
de Wiener [Lim 79] est la paramétrisation de sa fonction de gain afin de la rendre plus
flexible selon l’équation (4.31) :
δ(ν) β
W (ν) = . (4.31)
δ(ν) + αγ(ν)
où δj ne désigne pas la densité spectrale de puissance du signal de parole dans un canal
de fréquence ν mais plutôt dans la bande critique j (idem pour γj la densité spectrale de
puissance du bruit) ; Kj , Tj sont respectivement le filtre de Wiener modifié à déterminer
Section 4.3 : MMSE et MMSE-LSA 45
δ
Kj = j . (4.35)
δj + max γj − Tj , 0
D’après cette équation, on remarque que le gain Kj décroı̂t à mesure que le bruit est
supérieur à la courbe de masquage, mais ce gain reste inférieur au gain du filtrage
optimal de Wiener (Eq. 4.28) ainsi qu’à celui du filtrage de Wiener généralisé (Eq.
4.31).
Dans un autre travail [Beaugeant 98], les auteurs proposent de pondérer le filtre de
Wiener perceptuellement sans affecter l’expression du filtre optimal. En effet, le but
est d’appliquer le filtrage de Wiener uniquement dans les fréquences où le bruit est
audible.
(
δ(ν)
δ(ν)+γ(ν)
si γ(ν) > T (ν)
Hk (ν) = (4.36)
1 ailleurs.
La fonction du gain de cette règle (tel que Ŝ(ν) = G(ν).Y (ν)), dans la trame k et à la
fréquence ν, est donnée par :
√ s h ξb (ν) i
π 1 ξbk (ν) k
Gk (ν) = F χk (ν) (4.37)
2 χk (ν) 1 + ξbk (ν) 1 + ξbk (ν)
où ξbk (ν) est l’estimée du rapport signal à bruit a priori dans la trame k donnée par
l’Eq. (4.39) et F est une fonction définie par :
−x h x x i
F (x) = exp (1 + x)I0 + xI1 (4.38)
2 2 2
où I0 (.) et I1 (.) sont respectivement les fonctions de Bessel modifiées d’ordre 0 et 1 et
l’expression de ξbk (ν) est la suivante :
Dans l’expression (4.39), χk (ν) est l’estimée de E[|Yk (ν)|2 ]/γk (ν), le Rapport Signal à
Bruit a posteriori. Afin d’éviter d’éventuelles valeurs négatives de χk (ν), la fonction
h permet de considérer seulement la partie positive : h(x) = x si x ≥ 0 et h(x) = 0
ailleurs. Cet estimateur (4.39) est récursif et s’avère performant du fait qu’il apporte
des améliorations sur la qualité du signal débruité. Il permet de réduire le bruit musical
et les distorsions du signal de par ses propriétés de lissage fréquentiel. Cet estimateur
est connu sous le nom de Directed-Decision. On s’aperçoit, à partir de (4.39) et (4.37),
que l’estimateur Gk (ν) dépend essentiellement des valeurs du spectre à court terme
mesurées dans les trames précédentes. Effectivement, l’estimée ξk (ν) prend en compte
la trame bruitée courante avec un poids de (1 − α) et la trame débruitée précédente
avec un poids de α (sachant que 0 ≤ α ≤ 1).
Dans [Cappe 94], une analyse asymptotique du gain Gk (ν) en fonction de ξk (ν)
montre que, pour des valeurs de ξk (ν) très petites, on applique une forte atténuation.
Dans ce cas de figure, le comportement de Gk (ν) en fonction de (χk (ν) − 1), en
fixant la valeur de ξk (ν), montre que pour des valeurs petites de ξk (ν) l’influence
de (χk (ν) − 1) devient importante. Cette influence est même contre intuitive puisque
des fortes atténuations sont appliquées quand (χk (ν) − 1) est grand, alors que la lo-
gique veut plutôt qu’on débruite plus quand le rapport signal à bruit est faible. Dans
[Cappe 94], l’auteur indique que cette contre intuition est utile pour le traitement de
segments de parole de faible énergie. Dans une comparaison entre le filtre de Wiener
et l’estimateur MMSE-STSA [Ephraim 84], les auteurs constatent que :
– l’erreur quadratique moyenne de l’estimateur MMSE-STSA ne peut pas dépasser
1
1 alors que pour le filtre de Wiener, elle peut même atteindre la valeur 1−π/4 .
– l’estimateur MMSE-LSA et le filtre de Wiener sont peu sensibles à des petites va-
riations dans l’estimation de ξk (ν). Ils tolèrent en l’occurrence une sur-estimation
de cette grandeur plutôt qu’une sous-estimation. Une sur-estimation de ξk (ν) im-
plique même une atténuation de l’erreur quadratique moyenne dans le cas du
filtre de Wiener. Ceci est dû au fait que le filtre de Wiener n’est pas optimal au
sens du MMSE quand il emploie l’expression (4.39).
Section 4.3 : MMSE et MMSE-LSA 47
La réduction du bruit musical est fortement liée à l’expression du RSB a priori (4.39),
qui constitue d’ailleurs l’originalité du travail présenté dans [Ephraim 84]. Analysant
cette expression :
– Si χk (ν) − 1 ≤ 0, alors ξk (ν) correspond à une version lissée du rapport signal à
bruit a posteriori. Ceci implique que la variance du RSB a priori est plus petite
que celle du RSB a posteriori. Puisque Gk (ν) dépend essentiellement de ξk (ν),
l’atténuation appliquée au signal bruité ne changera pas brusquement d’une trame
à l’autre, d’où la réduction de l’apparition du bruit musical.
– Si χk (ν) − 1 > 0, alors ξk (ν) est une version lissée et retardée d’une trame du
RSB a posteriori.
– Quand α diminue, les distorsions diminuent et le bruit musical augmente et
vice-versa. Sachant que si α diminue, le poids de h(χk (ν) − 1) augmente, on peut
donc conclure que le bruit musical est très sensible à ce terme.
où vk (ν) est donnée par l’équation (4.41). L’intégrale dans l’expression (4.43) est ap-
pelée intégrale exponentielle ; elle est approximée numériquement par
Z ∞ −t
e e−x X k!
dt ≈ .
x t x k xk
Etape I :
ξkDD (ν)
GDD
k (ν) = . (4.44)
ξkDD (ν) + 1
Section 4.3 : MMSE et MMSE-LSA 49
Parole
Silence Silence
Onset Offset
Etape II :
Le paramètre α′ joue le même rôle que α mais son inconvénient est de se baser
sur une information future χk+1 (ν) dont on ne dispose pas. Par approximation et dans
le but d’éviter des retards inutiles, les auteurs dans [Plapous 07] fixent la valeur de
α′ à 1, d’où l’expression 4.47. Le nouvel estimateur ξek (ν) a l’avantage de garder les
propriétés de ξkDD (ν) quand le rapport signal à bruit instantané est inférieur à 0 dB
et ainsi permet de réduire le bruit musical. Pour un rapport signal à bruit instantané
supérieur à 0 dB, ξek (ν) coı̈ncide avec ce dernier contrairement à ξkDD (ν) qui introduit
un retard.
Une autre amélioration [Cappe 94] consiste à seuiller la valeur minimale du RSB a
priori ξkDD (ν) à une valeur ξkmin (ν) = 15 dB (Eq. 4.48) afin de permettre de réduire le
bruit musical de faible énergie ce qui donne lieu à l’estimateur
n o
e DD min
ξk (ν) = max ξk (ν), ξk (ν) . (4.48)
Dans [Martin 03], forcer le terme χk (ν) − 1 à être positif introduit à son tour un
biais dans l’estimation du RSB a priori. La fonction h est donc omise dans la nouvelle
estimation (Eq. 4.49) :
n |G (ν)Y (ν)|2 o
k−1 k−1
ξek (ν) = max α + (1 − α)(χk (ν) − 1), ξkmin (ν) (4.49)
γk (ν)
Dans [Erkelens 07], l’auteur explique qu’un biais est introduit suite à l’emploi du terme
|Sbk−1 (ν)|2
γk (ν)
dans l’équation (4.39). L’espérance au carré de l’amplitude est utilisée au lieu
de l’espérance du carré de l’amplitude ce qui introduit un biais dans l’estimation de
CHAPITRE 4 :
50 État de l’art du débruitage mono-capteur de la parole
ξ DD (ν) surtout pour ξ DD (ν) << 1. La correction qu’il propose permet d’introduire
un facteur correctif de l’ordre de π4 ce qui donne lieu à l’expression du RSB a priori
suivante :
n π |G (ν)Y (ν)|2 o
k−1 k−1
ξek (ν) = max α + (1 − α)(χk (ν) − 1), ξkmin (ν) . (4.51)
4 γk (ν)
L’introduction du facteur π4 implique une sur-estimation du RSB a priori dont les
conséquences sont moins graves que celle provenant d’une sous-estimation [Ephraim 84]
de cette quantité.
Les autres améliorations apportées à l’estimateur ξkDD (ν) sont en relation avec le
paramètre α. En effet, quand α ≈ 1, l’approximation (Eq. 4.50) introduit un retard non
négligeable (de l’ordre d’une trame) pour les portions du signal correspondant à une
apparition brusque de la parole. Ceci introduit des atténuations indésirables de ce type
de composantes de signal de parole. Si l’on diminue α, en plus de l’apparition du bruit
musical, le même problème de délai se pose pour le cas des transitions parole/silence
(Offset sur la figure 4.2) [Cappe 94], d’où la suggestion d’adapter ce paramètre en
fonction du rapport signal à bruit. Dans [Beaugeant 99], les auteurs proposent d’ajuster
le paramètre α selon l’équation (4.52) :
ξkDD (ν)
α = αmax − λ (4.52)
ξkDD (ν) + 1
où λ > 1. Quand ξkDD (ν) est faible, on a α qui tend vers αmax . Dans ce cas, le bruit
musical diminue si αmax ≈ 1. Quand ξkDD (ν) est fort, α tend vers αmax − λ. La valeur
petite de α implique une adaptation rapide (réduction du délai) et une réduction des
distorsions. Dans [Beaugeant 99], des tests expérimentaux ont révélé que des valeurs
de αmax = 0.98 et λ = 0.06 donnent de meilleurs résultats.
La première étape est simple dans le cas où le bruit est blanc (on verra par la suite
ce qui se passe dans le cas où le bruit est coloré). La deuxième étape est indispensable
contrairement à la troisième qui est souvent omise pour éviter les distorsions puisque,
dans l’espace signal, le bruit et le signal interfèrent.
Comment peut on décomposer un vecteur de Rn en deux composantes orthogonales ?
Soient y, s et b les vecteurs correspondant respectivement au signal bruité, au signal
propre et au bruit, tels que :
y1 s1 b1
y2 s2 b2
y= .. , s = .. , b = ..
. . .
yq sq bq
on a
y = s + b. (4.53)
Ry = Rs + Rb . (4.54)
Rs = UΛs U T (4.55)
Rb = U(σ 2 I)U T (4.56)
Ry = U(Λs + σ 2 I)U T , (4.57)
Λs est la matrice diagonale contenant les valeurs propres λs de Rs ; U est une matrice
orthonormale en colonnes ; σ 2 est la variance du bruit et I est la matrice identité.
D’après les équations (4.55), (4.56) et (4.57), on remarque que les vecteurs propres
du bruit sont identiques aux vecteurs propres du signal de parole grâce à l’hypothèse
de bruit blanc. Ces vecteurs propres peuvent donc êtres calculés à partir de Ry (c-à-d
à partir du signal observé). En supposant le sous-espace signal de dimension p avec
p < q, la matrice d’autocorrélation Ry possède ainsi p valeurs propres λs non nulles si
λs > σ 2 . Dans ce cas, le bruit peut être séparé de la parole et Ry peut être réécrite en
supposant que les vecteurs propres sont en ordre décroissant :
Λs 0 2 Ip 0 T
Ry = Up Uq−p +σ Up Uq−p . (4.58)
0 0 0 Iq−p
est une sommation de filtrages intermédiaires appliqués sur chaque vecteur propre où
gi est le ième élément diagonal de G. La suppression de la contribution du bruit dans
le sous-espace signal se fait selon un critère dont l’objectif est de trouver les éléments
de la matrice G. Dans la littérature, plusieurs critères ont fait l’objet de travaux. Ils
sont de trois classes : temporels, fréquentiels et perceptuels [Ephraim 95], [Jabloun 03],
[Hermus 07], [Hu 06]. Ils sont tous basés sur la minimisation de la distorsion du signal
en contraignant le bruit résiduel à être au dessous d’un certain seuil (la courbe de
masquage dans le cas des estimateurs perceptuels).
min ε2s
G (4.60)
sous contrainte que ε2b ≤ qσ 2 ,
Section 4.4 : Méthodes à sous-espace signal 53
min ǫ2s
H
E|uTk ǫ2b | ≤ αk σ 2 k = 1, 2, ...p
sous contrainte que (4.65)
E|uTk ǫ2b | = 0 k = p + 1, ...q.
L’énergie du signal dans le sous-espace bruit est nulle pour tout composante spectrale k,
tel que p + 1 < k < q. La solution de ce problème est aussi donnée par le multiplicateur
de Lagrange qui débouche sur l’estimateur optimal H satisfaisant l’équation suivante :
HRs + σ 2 (UΛµ U T )H − Rs = 0 (4.66)
tel que Λµ = diag(µ1 , µ2 , ...µp ) est la matrice diagonale des multiplicateurs de Lagrange.
En utilisant la décomposition en valeurs propres de Rs (Eq. 4.55) et en l’injectant dans
(4.66) , on obtient :
(I − U T HU)Λ − σw
2
Λµ U T HU = 0.
Le bruit b̄ est de variance σb2 . En calculant les matrices d’autocorrélation des signaux
ȳ, s̄ et b̄, on obtient Rȳ = Rs̄ + I, avec Rs̄ = RRs RT . L’étape finale consiste à faire
l’inverse du blanchiment pour retrouver la bonne estimation du signal de parole. Soit
H̄ l’estimateur obtenu par un des problèmes d’optimisation déjà mentionnés, on a
ensuite :
b̄s = H̄ ȳ (4.72)
bs = Rb̄s. (4.73)
–
En outre, le débruitage à sous-espace signal est très coûteux en terme de calcul à
cause du calcul des matrices d’autocorrélation et surtout à cause de leur décomposition
en valeurs propres. Les deux opérations qui sont répétées pour chaque trame du signal.
b Y φ(ν) (ν)
S(ν) = . (4.77)
aφ(ν) (ν) + Y φ(ν) (ν)
Le paramètre φ(ν) représente le seuil minimal au-dessous duquel une forte suppres-
sion de bruit est produite. Le paramètre a(ν) contrôle le taux de suppression donné par
Y (ν)
a(ν)
. Tsoukalas suggère d’adapter a(ν) pour une valeur fixe de φ(ν). Les tests objectifs
ont révélé que l’algorithme n’est pas beaucoup influencé par le choix du paramètre
φ(ν) et qu’une valeur de φ(ν) = 1, pour toutes les bandes critiques, donne les meilleurs
résultats. Les tests d’intelligibilité ont montré, à leur tour, que l’algorithme basé sur
le minimum spectral ainsi que celui basé sur la courbe de masquage augmentent aussi
bien l’un que l’autre le taux d’intelligibilité avec 20% pour le premier et 13% pour le
second.
Dans les travaux [Virag 99, Tsoukalas 97, Gustafsson 98], l’incorporation des no-
tions psychoacoustiques, pour concevoir ou ajuster les filtres perceptuels proposés, se
fait de manière heuristique. Dans [Hu 04], la conception du débruiteur est ramenée à
un problème d’optimisation (minimisation) sous contrainte (courbe de masquage). Soit
ε l’erreur d’estimation dûe au filtrage linéaire H(ν)
e
ε(ν) = S(ν) − S(ν)
= (1 − H(ν))S(ν) − H(ν)B(ν). (4.78)
C’est un problème convexe dont la solution est facilement obtenue par la méthode du
multiplicateur de Lagrange en posant
N
X
J(H, µ1 , µ2 , ...µN ) = ε2s (ν) + µ(ν) ε2b (ν) − α(ν) .
ν=1
dJ
En résolvant l’équation dH
= 0, on aboutit au filtre linéaire (4.82) pour le problème
(4.81) :
δ(ν)
H(ν) = (4.82)
δ(ν) + µ(ν)γ(ν)
qui peut s’écrire également sous l’expression
ξ(ν)
H(ν) = ,
ξ(ν) + µ(ν)
Section 4.5 : Réducteurs perceptuels du bruit audible 57
δ(ν)
où ξ(ν) = γ(ν) est le rapport signal à bruit a priori. Le filtre H(ν) se ramène à un
simple filtrage de Wiener quand µ(ν) = 1. Le paramètre µ(ν) contrôle le rapport entre
l’atténuation spectrale et le rapport signal à bruit. Quand µ(ν) >> 1, les atténuations
augmentent pour un RSB faible. Ces atténuations sont faibles quand ce paramètre
devient très petit. Ce paramètre doit être soigneusement choisi pour éviter d’introduire
trop de distorsions du signal. Dans [Hu 04], ce choix est fait en exploitant la courbe
de masquage T (ν). Ainsi, dans le problème précédent (4.81), au lieu d’un seuil α
quelconque en contraignant le bruit résiduel à être au dessous de la courbe de masquage
T (ν), on aboutit à l’expression du filtre perceptuel optimal suivant :
1
Hopt (ν) = q . (4.83)
γ(ν)
1 + max T (ν)
− 1, 0
Dans [Gustafsson 98] et [Lee 04], les auteurs ont abouti à la même fonction de gain avec
un problème de minimisation sous contrainte qui est plus simple, en contraignant l’er-
reur entre le bruit résiduel H 2 (ν)γ(ν) et le niveau de bruit résiduel qualifié souhaitable
η 2 γ(ν) à être au-dessous de la courbe de masquage (Eq. 4.84) ;
Aucune contrainte n’est faite sur la distorsion du signal. Quand η > 0 cela signifie qu’on
souhaite garder un certain niveau de bruit résiduel qui va permettre de lisser le spectre
après filtrage ce qui donne lieu à un bruit résiduel plus stationnaire. La résolution de
l’équation (4.84) avec une condition supplémentaire H(ν) ≤ 1 donne lieu au filtre
s
n T (ν) o
H(ν) = min + η2, 1 . (4.85)
γ(ν)
Pour des objectifs audio [Lee 04], on se fixe η = 1 alors que dans le cas de la reconnais-
sance de la parole une valeur de η = 0.05 s’est avérée plus convenable pour diminuer
les distorsions.
Si nous revenons sur l’expression de l’erreur de filtrage (4.78), nous en déduisons
que la distorsion du signal se produit inévitablement quand on supprime le bruit.
D’ailleurs, plus nous supprimons le bruit, plus nous atténuons le signal de parole et
introduisons des distorsions. Le compromis entre suppression et atténuation doit être
optimisé selon un certain critère. Sans faire intervenir des notions psychoacoustiques,
la qualité du débruitage reste contrôlée uniquement par l’erreur totale ε2 (ν) (Eq. 4.78).
La minimisation de cette erreur donne lieu aux filtres optimaux Wiener ou MMSE.
Dans [Gustafsson 98] et [Yanpu 02], une étude géométrique de l’erreur de filtrage
ε(ν) permet d’illustrer l’impact des distorsions sur le bruit résiduel et vice-versa en
fonction du rapport signal à bruit a priori ξ(ν) (Fig. 4.4). Dans cette figure, pour
ξ(ν) = 1, le filtre optimal minimisant ε2 (ν) coı̈ncide avec l’intersection de ε2b (ν) et
ε2s (ν), c’est-à-dire ε2b (ν) = ε2s (ν). Dans le cas où ξ(ν) < 1, le filtre optimal donne lieu à
une minimisation du bruit résiduel au dépens de la distorsion du signal ε2b (ν) < ε2s (ν).
Dans le cas où ξ(ν) > 1, le filtre optimal donne lieu à une minimisation de la distorsion
du signal au dépens du bruit résiduel ε2b (ν) > ε2s (ν). En conclusion, on s’aperçoit que le
CHAPITRE 4 :
58 État de l’art du débruitage mono-capteur de la parole
ξ=1
ǫ2 ǫ2b
ǫ2s
T
G
0 Gopt 1
ξk < 1 ξk > 1
ǫ2b
ǫ2 ǫ2
ǫ2s
ǫ2b
ǫ2s
G G
0 Gopt 0 Gopt
filtrage optimal minimisant l’erreur quadratique moyenne ε2 (ν) ne peut pas contrôler
séparément les quantités ε2b et ε2s . Aussi, les améliorations apportées dans la littérature
visent à injecter des informations supplémentaires perceptuelles afin d’ajouter plus
de flexibilité à ces deux quantités et ainsi améliorer les performances. L’information
souvent exploitée est la courbe de masquage parce qu’elle modélise le phénomène de
masquage qui se produit au niveau de notre système d’audition et dont l’impact est
très déterminant. Dans la figure 4.5, on présente le premier cas de figure qui peut
se présenter : ε2 > Tk quel que soit ν. Il n’y a donc pas d’intersection entre l’erreur
totale ε2 et la courbe de masquage Tk . Cela signifie que, quel que soit le gain G(ν), il
est impossible de contraindre cette erreur à être au-dessous de T (ν) et la rendre ainsi
Section 4.5 : Réducteurs perceptuels du bruit audible 59
ξ=1
ǫ2 ǫ2b
ǫ2s
T
H
0 Gopt 1
ξ=1
ǫ2
ǫ2s ǫ2b T
H
0 G1 Gopt G2 1
inaudible.
Dans le cas où il y a intersection, on se donne simplement la contrainte d’avoir
ε2 < Tk sans imposer le minimum. Ce qui permet de jouer sur la distorsion et le bruit
résiduel tout en restant au dessous du seuil de maquage Tk . L’intersection entre le seuil
de masquage et ε2 donne lieu à deux filtres différents G1 et G2 ) représentant les points
d’intersection gauche et droit respectivement [Gustafsson 98].
p
δ(ν) ± δ(ν)T (ν) − γ(ν)δ(ν) + T (ν)γ(ν)
G1,2 (ν) = . (4.86)
γ(ν) + δ(ν)
CHAPITRE 4 :
60 État de l’art du débruitage mono-capteur de la parole
4.6 Conclusion
Dans de ce chapitre, nous avons présenté l’ensemble des techniques de réduction
de bruit les plus répandues dans la littérature. Les méthodes découlant de chaque
technique ont chacune leur intérêt et les améliorations qui leur ont été apportées au fil
du temps sont justifiées.
En résumant les difficultés, on s’aperçoit que toutes les techniques ont un point
commun, c’est la recherche d’un compromis entre bruit résiduel et distorsion du signal.
L’apport de l’aspect perceptuel dans les algorithmes de débruitage de la parole
est très prometteur. Les résultats montrent une nette amélioration par rapport aux
méthodes traditionnelles.
Un autre point de vue important est la complexité des algorithmes, Par exemple, les
méthodes à sous-espace signal, bien que performantes restent pénalisées par la charge
de calcul importante qu’elles demandent.
Enfin, compte tenu du niveau de complexité, les méthodes basées sur le filtrage de
Wiener restent très séduisantes du point de vue de leur simplicité et de leur flexibilité
par rapport aux améliorations (surtout perceptuelles) qui peuvent leur être apportées.
Nous aurons l’occasion de revenir sur cette technique au chapitre 6, notamment pour
présenter nos contributions sur ce sujet.
5
CHAPITRE
Estimation du bruit
suivante : h 2 i
E Pk (ν) − γk (ν) |Pk−1(ν) . (5.3)
La solution de ce problème nous amène à l’expression de α optimal suivante :
1
αkopt (ν) = Pk−1 (ν) 2 (5.4)
1+ γk (ν)
−1
2
où Pγk−1 (ν)
k (ν)
est une version lissée du rapport signal à bruit a posteriori χk (ν) = |Yk−1 (ν)|
γk (ν)
et 0 < αopt (ν) < 1 . Côté pratique, pour calculer αkopt (ν), on remplace γk (ν) par sa
valeur estimée dans la trame précédente b γk−1(ν). On limite également α à une valeur
maximale αmax = 0.96.
Puisqu’on se sert de l’information sur la trame précédente, l’estimée de la densité
spectrale du bruit présente un certain retard. Pour le compenser, un facteur de cor-
rection αc (ν) dont les valeurs sont choisies empiriquement plus grandes que 0.7 est
introduit dans l’Eq. (5.5) :
avec
1
α
bc (ν) = P PN −1 2 . (5.6)
N −1 2 −1
1+ ν=0 P k−1 (ν)/ ν=0 |Y k (ν)|
tous détails sur la dérivation de l’équation (5.6) sont présentés dans [Martin 01].
Pour conclure, le paramètre de lissage final α
bk (ν) est la multiplication du paramètre
opt
de lissage optimal αk (ν) par le facteur de correction αc (ν) et une pondération par la
valeur maximale αmax de α, ce qui donne lieu à l’équation suivante :
αmax αc (ν)
α
bk (ν) = Pk−1 (ν) 2 (5.7)
1+ γ
bk (ν)
−1
La méthode ainsi présentée par Martin [Martin 01] fournit une bonne estimée de
bruit, mais son inconvénient majeur est le délai de l’estimation qui, dans le pire cas,
Section 5.1 : État de l’art 65
atteint 2L. Une amélioration, apportée à cette méthode dans [Martin 01], consiste à
diviser le segment de recherche de longueur L en U fenêtres de V échantillons tel que :
L = U × V . De cette façon, le retard maximum est, cette fois-ci, de l’ordre de L + V
c’est-à-dire qu’on effectue une mise à jour du bruit dès la première fenêtre (de taille V )
du deuxième segment(de taille L), d’où L + V . Pour une fréquence d’échantillonnage
de 8 kHz, les valeurs de U = 8 et V = 12 se sont avérées les plus adéquates [Martin 01].
Cette amélioration accélère un peu le processus du suivi du minimum pour procéder à
une meilleure estimée dans le cas où la puissance du bruit augmente brusquement.
Dans un autre travail, Cohen [Cohen 02] a proposé un algorithme (MCRA, Minima
Controlled Recursive Averaging) basé sur la moyenne récursive des trames précedentes
du signal bruité. Cette moyenne est contrôlée par un paramètre de lissage dépendant
de la fréquence et dont la mise à jour est fonction de la probabilité de présence de la
parole dans chaque canal de fréquence. Les limitations de cette méthode résident dans
les retards que présente l’estimation par rapport aux changements brusques du niveau
de bruit. Soit
Pk (ν) = α̃k (ν)Pk−1 (ν) + (1 − α̃k (ν))|Yk (ν)|2 (5.9)
où, cette fois-ci, α̃k (ν) est donné par
et pk (ν) est la probabilité de présence du signal de parole dont l’expression est donnée
par,
n qk (ν) o−1
pk (ν) = 1 + 1 + ξk (ν) exp − vk (ν) (5.11)
1 − qk (ν)
où ξk (ν) est le rapport signal à bruit a priori, qk (ν) = P(Hk0 (ν)) est la probabilité a
priori d’absence du signal de parole (Hk1(ν) et Hk0 (ν) sont respectivement l’hypothèse
de présence et d’absence du signal de parole) et vk (ν) = χk (ν)ξk (ν)/(1 + ξk (ν)) tel que
χk (ν) est le rapport signal à bruit a posteriori.
Dans une version de l’algorithme (IMCRA, Improved Minima Controlled Recursive
Averaging) [Cohen 03], l’auteur apporte des amélioration à l’ancienne version qui sont
en relation avec le biais introduit par le calul de la probabilité de présence de la parole
(voir équations (5.9, 5.10 et 5.11). Pour compenser ce biais quand la parole est absente,
le périodogramme lissé est pondéré par un facteur β dépendant de la probabilité a priori
de l’absence du signal de parole qk (ν) = P(Hk0 (ν)). Pour calculer cette probabilité
dont dépend aussi le lissage du périodogramme (Eq. 5.9) à travers le paramètre de
lissage de l’équation (5.10). Son estimateur qbk (ν) requiert deux itérations de lissage
temps-fréquence et de suivi de minimum, la première itération pour mettre au point
un détecteur d’activité vocale dans chaque canal de fréquence et l’autre pour éliminer
les composantes puissantes du signal en présence de la parole pour faciliter le suivi du
minimum.
Vu que la probabilité d’absence du signal de parole est aussi basée sur une connais-
sance du minimum local, le retard de calcul en découlant est à peu près du même
ordre de grandeur que dans la version précédente surtout dans le cas où le bruit est
important, mais cette méthode donne de meilleurs performances que la version d’avant.
66 CHAPITRE 5 : Estimation du bruit
Dans un autre travail, Rangachari [Rangachari 04] propose une méthode qui permet
une mise à jour plus rapide, par rapport aux autres méthodes déjà citées, de l’estimée
du bruit dans chaque trame. Cette estimée est basée sur un détecteur d’activité vocale.
Lors des pauses, le coefficient de lissage est constant. La présence de parole est définie
par le rapport entre le signal bruité et son minimum local. Cette méthode parvient
rapidement à s’adapter à un changement brusque du niveau de bruit. Deux modofi-
cations ont été apportées à cette méthode dans [Rangachari 06]. Premièrement, plus
besoin d’un DAV explicite. Deuxièmement, l’estimation de la probabilité de présence de
parole (Eq. 5.12) exploite, cette fois-ci, la corrélation entre les composantes spectrales
de puissance adjacentes :
Si Pk (ν)/Pkmin (ν) > δ(ν), on pose Ik (ν) = 1, ce qui revient à considérer que la parole
est présente ; sinon, on pose Ik (ν) = 0 ce qui signifie que la parole est absente. Le
seuil δ(ν) dépend de la fréquence (contrairement à [Cohen 02] et [Cohen 03] où ce seuil
est fixé pour toutes les fréquences) et est déterminé expérimentalement. L’algorithme
proposé effectue une mise à jour de l’estimée du bruit dans chaque trame en utilisant
un facteur de lissage temps-fréquence calculé à partir de la probabilité de présence de
la parole.
Dans le contexte de la reconnaissance de la parole, des algorithmes d’estimation
récursive du bruit non stationnaire ont été proposés dans le domaine cepstral. Ils em-
ploient les GMM (Gaussian Mixture Model) pour modéliser le bruit [Deng 03]. Les
paramètres du bruit sont considérés comme déterministes et sont donc obtenus par
approches stochastiques itératives. L’estimation récursive emploie un facteur d’oubli
pour un compromis entre la précision de l’estimation et la rapidité avec laquelle les
changements brusques du bruit sont pris en compte.
Dans la section suivante, on présente un estimateur de bruit dont l’idée repose sur la
notion de parcimonie où un signal utile peut êre représenté par un nombre relativement
faible de valeurs d’amplitudes signficativement grandes.
où
R x I(kY k k ≤ σT ) est une fonction indicatrice de l’événement kYk k ≤ σT et Υq (x) =
q+d−1 −t2 /2
0
t e dt (d’après un calcul analytique présenté en détail dans [Pastor 07a]).
La variable aléatoire ∆m (σ, T ) représente physiquement un écart énergétique
sélectif qui tient compte uniquement des normes kYk kr inférieures à un certain seuil
σT . On élimine ainsi les portions où la paroles est présente. La quantité σ r−s Υ r (T )
Υs (T )
est calculée analytiquement et représente un niveau moyen énergétique auquel va
tendre le rapport à gauche dans l’équation (5.13) quand le nombre d’observations m
et l’amplitude des signaux sont suffisamment grands.
Le spectrogramme d’un signal de parole, c’est à dire la représentation temps-
fréquence de ce signal obtenue par Transformée de Fourier à court-terme, est une
représentation parcimonieuse du signal de parole dans le sens où seules quelques va-
leurs complexes parmi celles fournies par le calcul du spectrogramme ont des modules
significativement grands par rapport aux autres. Dans l’exemple d’un spectrogramme
de signal bruité (figure 5.1) , on voit bien que le bruit est plus présent que la parle
alors que la parole est d’énergie plus élevée. Le but de l’algorithme est d’estimer le
bruit dans les trous contenant alors que du bruit.
Selon ces hypothèses, σ0 est l’unique réel positif σ tel que, pour tout β0 ∈ (0, 1],
lim
lim sup ∆m (σ, T )
= 0 (5.14)
a(S)→∞ m ∞
68 CHAPITRE 5 : Estimation du bruit
où
a(S) = sup{α ∈ [0, ∞] : ∀k ∈ N, kSk k ≥ α}. (5.15)
est l’amplitude minimale des kSk k.
L’idée de ce théorème est de dire que l’écart type du bruit est le seul réel positif
pour lequel la convergence (5.14) est vérifiée lorsque le nombre d’observations m et
l’amplitude minimale a(S) des signaux utiles tendent vers l’infini. Cette convergence
peut s’expliquer en développant le rapport à gauche dans l’équation (5.13).
Selon la loi des grands nombres et quand m → ∞, on a
m
1 X
kYk kr I(kYk k ≤ σT ) ≈ E(kYk kr I(kYk k ≤ σT )). (5.16)
m k=1
On a alors,
m
X
On a alors, 1
m
kYk kr I(kYk k ≤ σT ) ≤ p E [kXk kr I(kXk k ≤ σT )] où p = P (εk = 0).
k=1
En fait, la théorie nous montre que cette inégalité est pratiquement une égalité de sorte
que nous avons
m
1 X
kYk kr I(kYk k ≤ σT ) ≈ p E [kXk kr I(kXk k ≤ σT )] (5.22)
m
k=1
Ainsi,
m
X
kYk kr I(kYk k ≤ σT )
k=1 E [kXk kr I(kXk k ≤ σT )]
m ≈ . (5.24)
X E [kXk ks I(kXk k ≤ σT )]
s
kYk k I(kYk k ≤ σT )
k=1
Les signaux Sk sont souvent à énergies E[|Sk |2 ] finies, on a alors ν = 2 (cf. (H4)).
En plus, du moment où on a l’inégalité 0 ≤ s < r ≤ 1, en choisissant r = 1 et s = 0
dans l’équation (5.13), l’algorithme de la borne essentielle estime l’écart type du bruit
σ0 par un minimum local du coût ∆m . Cette estimée, σ̃0 , est appelée estimée de la
borne essentielle.
Le calcul de la borne essentielle σ̃0 exige de connaı̂tre une borne inférieure de
l’amplitude des signaux, celle-ci n’est pas toujours connue. Dans sa première ver-
sion [Pastor 07a], l’algorithme exigeait une connaissance de l’amplitude minimale
des signaux. Dans sa version actuelle [Pastor 07b], l’algorithme s’affranchit de cette
contrainte en supposant a(S) = 0 qui est une borne inférieure triviale pour les normes
des signaux bi-dimensionnels dont la représentation est statistiquement parcimonieuse.
70 CHAPITRE 5 : Estimation du bruit
√
Puisque T = T a(S)σ
= T (0) = 2 (voir justification dans [Pastor 02]), ceci donne lieu
à une autre estimée σ
b0 par un minimum local de l’équation (5.26).
m
X √
kY kI(kY k ≤ σ 2)
k k √
Υ1 ( 2)
sup = k=1 m −σ √ . (5.26)
ℓ∈{1,...,L} X √ Υ0 ( 2)
I(kYk k ≤ σ 2)
k=1
L’algorithme est cette fois-ci appelé C-ESE, par référence à une estimée dans le cas
complexe de la borne essentielle. On gardera en dernier lieu une estimée C-ESE qui est
meilleure que les autres et qu’on note ici σ0∗ tel que
v
uX
u m √
u kY k k 2
I(kY k k ≤ σ
b 2)
u
u
σ0∗ = η u k=1 m . (5.27)
u X √
t I(kY k ≤ σ b 2)
k
k=1
La justification théorique de σ0∗ est un problème qui reste ouvert. D’après [Pastor 07b],
√
η est choisi proche de 1 et sa valeur est ajustée selon l’application. Une valeur de 2
s’avère meilleure pour le cas de signaux de parole bruités par un bruit blanc gaussien
dont on cherche l’écart type. Un résumé des principales étapes de l’algorithme C-ESE
est décrit dans le tableau 5.1.
Quant à la programmation, dans le cas d’un signal de parole bruité par un bruit
coloré, on découpe ce dernier en une suite de trames de N échantillons chacune. Puis,
chaque trame subit une Transformation de Fourier Discrète. Le résultat est stocké dans
une matrice complexe dont l’indice de ligne indique le numéro de la trame et l’indice
de colonne désigne le rang k de l’harmonique. Ensuite, nous appliquons l’algorithme C-
ESE pour chaque harmonique sur toutes les trames simultanément (voir schéma de la
figure 5.2) en considérant uniquement la moitié de la matrice, étant donnée la symétrie
72 CHAPITRE 5 : Estimation du bruit
C−ESE Y1 (N − 1) Y2 (N − 1) . . . . YK (N − 1) σ0∗ (N − 1)
Figure 5.2 — C-ESE appliqué à toutes les trames par canal de fréquence donné
dans le cas d’un bruit coloré
hermitienne de la TFD. Nous obtenons ainsi une estimée du spectre du bruit coloré γb
telle que :
γb(1) σ0∗ (1)
γb(2) 1
∗
σ0 (2)
.. = .. . (5.29)
. N .
γb(N − 1) σ0∗ (N − 1)
5.3 Simulations
Nous présentons ici quelques résultats de simulations pour illustrer le comportement
et les performances de chacune des méthodes suivantes : IMCRA [Cohen 03], MCRA2
[Rangachari 06], MS [Martin 01] et C-ESE [Pastor 07b]. Pour cela, nous considérons
un ensemble de 100 fichiers de parole choisis aléatoirement dans la base TIdigits et
bruités successivement par un bruit blanc gaussien généré par matlab et sauvegardé en
mémoire, un bruit Babble et un bruit de voiture (Volvo) de la base Noisex. Les signaux
de parole bruités sont ensuite décomposés en trames successives non chevauchantes et
de longueur N = 256 pour le cas de l’évaluation par l’algorithme C-ESE. Elles sont che-
vauchantes à 50%, fenêtrées par Hanning et de même taille pour le cas des algorithmes
IMCRA, MCRA2 et MS. Chaque méthode est ainsi mise dans ses meilleures condi-
tions de fonctionnement afin de la tester objectivement. Les méthodes sont comparées
en premier lieu par un critère objectif, qui est en l’occurrence l’erreur quadratique
moyenne normalisée MSE (Mean Square Error) [Rangachari 06], dont l’expression est
la suivante : 2
L−1 PN −1
1 X ν=0 σ bk2 (ν) − σk2 (ν)
MSE = PN −1 2 (5.30)
L k=0 ν=0 (σk (ν)) 2
2.5
IMCRA
MCRA2
2
MSE par trame
1.5
0.5
0
0 10 20 30 40 50 60 70 80 90 100
Numéro de trame
Figure 5.3 — Évolution du MSE par trame pour un signal de parole donné
trame à l’autre et qu’en faisant la moyenne on pourrait avoir une meilleure idée des
performances d’un algorithme. D’après cette même figure, on remarque que le MSE
correspondant aux premières trames s’approche plus de 0 ceci est du au fait que ces
trames correspondent à des moments de silence où seul le bruit est présent. Pour la
suite des évaluations des méthodes, on considère la moyenne du MSE présenté dans
l’équation (5.30).
D’après les tableaux 5.4, 5.5 et 5.6, l’algorithme C-ESE se distingue nettement
des autres méthodes avec des valeurs de MSE presque négligeables. Ceci montre que
l’algorithme est performant mais cette mesure objective reste insuffisante parce que
trop sensible aux valeurs aberrantes. En plus, elle ne fait pas la distinction entre sur-
estimation et sous-estimation du bruit [Rangachari 04].
Pour compléter notre analyse, nous avons utilisé une deuxième mesure objective,
le rapport signal à bruit segmental segSNR calculé en sortie d’un filtrage de Wiener
ajusté par une estimation de bruit provenant des quatre méthodes à comparer. Les
résultats sont présentés dans les tableaux 5.7, 5.8 et 5.9. D’après ces tableaux, le C-ESE
continue de donner de meilleurs résultats en cohérence avec la première évaluation par
MSE pour le cas du bruit blanc et du bruit Babble. Pour le cas du bruit de voiture c’est
l’algorithme du suivi de minimum MS de Martin qui donne les meilleures performances.
74 CHAPITRE 5 : Estimation du bruit
0.25
MS
IMCRA
MCRA2
0.2 C−ESE
0.15
MSE
0.1
0.05
0
0 5 10
SNR (dB)
Figure 5.4 — MSE correspondant à chaque estimateur dans le cas du bruit blanc
gaussien
1.8
MS
1.6 IMCRA
MCRA2
1.4 C−ESE
1.2
1
MSE
0.8
0.6
0.4
0.2
0
0 5 10
SNR (dB)
Figure 5.5 — MSE correspondant à chaque estimateur dans le cas du bruit Babble
10
MS
9 IMCRA
MCRA2
8 C−ESE
7
6
MSE
0
0 5 10
SNR (dB)
3.5
MS
3 IMCRA
MCRA2
2.5 C−ESE
segSNR (dB) 2
1.5
0.5
−0.5
−1
−1.5
0 5 10
SNR (dB)
0
segSNR (dB)
−1
−2
−3
−4
0 5 10
SNR (dB)
1
segSNR(dB)
−1
−2
−3
−4
0 5 10
SNR (dB)
5.4 Conclusion
Dans ce chapitre, nous avons présenté un aperçu de quelques méthodes usuelles
d’estimation du spectre de bruit. Ces méthodes sont essentiellement basées sur le suivi
du minimum du spectre du signal observé. Si elles ne requièrent pas un détecteur
d’activité vocale explicite, elles sont tout de même basées sur la probabilité de présence
de la parole. Cette information permet de changer le comportement des algorithmes
en fonction du résultat de la détection. Le calcul de cette probabilité est soit basé sur
un détecteur d’activité vocale moins sophistiqué (par seuillage), soit sur le suivi du
minimum lui même. Ce dernier est d’autant plus précis qu’il est considéré sur plusieurs
segments. L’inconvénient majeur de ce type de méthode est l’introduction de retard
d’estimation dont la conséquence immédiate est la lenteur d’adaptation de l’estimation
face aux changements brusques de l’énergie des bruits non-stationnaires.
Nous avons également présenté l’algorithme C-ESE dont le principe est différent : il
n’a besoin d’aucun a priori. Il est simplement conçu à base d’hypothèses statistiques et
de parcimonie des signaux. L’estimation de bruit par C-ESE donne lieu à une estimée
du spectre qui est précise du point de vue du critère de l’erreur quadratique moyenne
MSE. Cette estimée, injectée dans un système de débruitage de la parole par filtrage de
Wiener, permet d’augmenter le rapport signal à bruit segmental par rapport aux autres
méthodes évaluées. Cependant, cette estimation reste limitée pour plusieurs raisons.
Premièrement, l’algorithme C-ESE ne fonctionne pas en temps réel. Deuxièmement,
certains de ces paramètres sont ajustés de façon complètement heuristique et le champ
est encore ouvert pour toute justification théorique à ce propos. Enfin, cet algorithme
est moins rapide que les autres méthodes, ce qui est dû au fait qu’il traite toutes les
trames du signal simultanément au lieu de donner une estimation au fur et à mesure
de l’arrivée des trames.
De part sa précision, cet algorithme reste prometteur. Il serait même très intéressant
d’étudier la possibilité de le combiner avec des méthodes heuristiques décrites dans ce
chapitre afin de réduire la part d’empirisme de ces méthodes. On peut penser notam-
ment à la méthode de Martin qui recherche un minimum statistique qui pourrait être
remplacé par une estimée issue du C-ESE.
Lors de ces travaux de thèse, nous n’avons pas pu tester toutes les méthodes d’es-
timation du spectre de bruit, décrites auparavant, dans un système de débruitage. La
partie évalutaion des débruiteurs s’est principalement basée sur un estimateur de bruit
provenant d’une moyenne sur les instants de pauses fournis en sortie du détecteur
d’activité vocale du standard G729. A signaler par contre, qu’on a testé l’estimateur
C-ESE pour des fins de débruitage et que les résultats sont présentés dans l’article
[Pastor 07b]. Dans la suite de nos travaux et comme perspective à court terme, il se-
rait donc intéressant de compléter l’étude en étudiant également le gain (en MBSD et
SSNR) apporté par les autres méthodes d’estimations du spectre de bruit déjà évalués.
6
CHAPITRE
Estimation de la courbe
de masquage
Parmi les problématiques liées au débruitage perceptuel, et qui peuvent réduire ses
performances, on trouve l’estimation de la courbe de masquage (CM). À partir du
moment où cette courbe n’a de signification précise que si elle est calculée en se basant
sur le signal de parole propre, la difficulté est donc présente puisqu’on ne dispose pas
de cet a priori.
Jusqu’à quel point la précision de calcul de la courbe de masquage peut-elle influen-
cer les performances du débruitage de la parole ?
L’influence d’une mauvaise estimation de cette courbe peut être illustrée par deux
cas limites, à savoir une sur-estimation ou une sous-estimation de la courbe de masquage
réelle (Fig. 6.1). Partant du principe que le débruitage perceptuel traite essentiellement
(uniquement, dans plusieurs travaux) le bruit audible, une sur-estimation de la courbe
de masquage va laisser passer beaucoup de bruit considéré ainsi inaudible, ce qui va
introduire beaucoup de bruit résiduel. Une sous-estimation va entraı̂ner par contre des
distorsions superflues. Les deux cas ont des conséquences non négligeables.
Dans la littérature, peu de travaux ont abordé l’amélioration de l’estimation de
la courbe de masquage. L’intérêt s’est porté plus sur l’estimation du bruit malgré
le fait que les deux problèmes ont pratiquement le même niveau d’influence sur les
performances du débruitage perceptuel.
Dans cette partie, nous allons donner un aperçu sur quelques méthodes de la
littérature. Ensuite, nous allons proposer deux méthodes : la première est basée sur
le calcul de la courbe de masquage à partir de la densité spectrale de puissance issue
d’une modélisation Auto Régressive (AR) et la deuxième sur une correction consis-
tant à soustraire le bruit résiduel, non pas du signal de parole, mais de la courbe de
masquage et ce, en se basant sur l’évolution de deux paramètres influents, à savoir le
segSNR (Segmental Signal to Noise Ratio) et le NSNR (Noisy Signal to Noise Ratio).
On note que les figures illustrant les méthodes implémentées en plus de celles qu’on
a proposées correspondent au même signal de parole issu de la base Timit, échantillonné
à 8 kHz et corrompu par un bruit blanc à 5 dB.
78 CHAPITRE 6 : Estimation de la courbe de masquage
(a)
70
65
60
Spectre de puissance (dB)
55
50
45
40
35
30
CM réelle
25 CM estimée
DSP du BBG à 5dB
20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence (Hz)
(b)
70
60
Spectre de puissance (dB)
50
40
30
20
CM réelle
10 CM estimée
DSP du BBG à 5dB
10000
Amplitude
5000
−5000
0 50 100 150 200 250 300
80
Spectre de puissance (dB)
CM, SSP
CM, Wiener
60
CM réelle
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
2000
1000
Amplitude
−1000
−2000
0 50 100 150 200 250 300
60
Spectre de puissance (dB)
CM, SSP
50 CM, Wiener
CM réelle
40
30
20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
courbes des signaux bruités constituant le corpus d’apprentissage. Une fois le choix
effectué (suite à une minimisation de la distance entre la courbe de masquage du signal
bruité en entrée et celles appartenant au corpus d’apprentissage une à une), il exploite la
courbe de masquage du signal propre représentant le deuxième vecteur correspondant à
son choix. La méthode est prometteuse mais nous la considérons limitée par la nécessité
de connaı̂tre le bruit a priori et soulève ainsi exactement les mêmes difficultés que nous
pouvons relever au niveau des systèmes de reconnaissance de la parole envisageant de
bruiter les références [Mokbel 92].
se présentent :
1- NSNR = 0 dB
2- −1 ≤ NSNR ≤ 1 dB
3- 1 < NSNR ≤ 3 dB
4- |NSNR| > 3 dB.
ce cas est difficile à gérer. Néanmoins, il est toujours possible d’approcher l’allure de
la courbe de masquage du signal propre rien qu’en utilisant une valeur η constante
pour toutes les bandes critiques. Ceci permet d’éviter une amplification d’une portion
du spectre par rapport aux autres portions et ainsi un effet perceptuel désagréable.
Expérimentalement également, l’auteur trouve qu’il est plus approprié de réduire le
niveau de la courbe du signal bruité d’un facteur de α = 4 pour NSNR > 3 dB et de
α = 3 pour NSNR < −3 dB. L’effet de l’énergie du bruit est ainsi réduit.
La raison pour laquelle les auteurs se basent sur un signal de référence (signal
légèrement débruité) pour détecter le bruit musical au lieu du signal observé est que ce
dernier induit des fausses détections. Dans un signal bruité, surtout à des SNRs faibles,
certaines tonales de la parole peuvent être masquées par le bruit. Elles apparaı̂tront
suite au débruitage ce qui va entraı̂ner une augmentation du niveau de tonalité de
la bande critique en question, non pas à cause de la présence du bruit musical mais
plutôt par la présence du signal utile. Pour aboutir à un débruitage n’introduisant pas
84 CHAPITRE 6 : Estimation de la courbe de masquage
ck = Wk + γ si Wk + γ ≤ 1
W (6.9)
1 sinon.
où γ est fixé expérimentalement. Cette méthode est prometteuse dans le sens où elle
s’affranchit des erreurs d’estimation du signal de parole propre pour estimer la courbe
de masquage. Cependant, elle reste très influencée par la nature du débruitage donnant
lieu au signal de référence sur lequel est basée la détection des tonales du bruit musical.
Dans cette thèse, dans un but purement démonstratif et expérimental, nous avons
implémenté le principe de l’idée, mais en gardant un indice de tonalité constant sur
toutes les bandes critiques d’une trame donnée. L’adaptation ou la correction de cet
indice, pour neutraliser l’effet du bruit musical, se fait par la suite comme décrit aupa-
ravant, c’est-à-dire selon l’équation (6.7).
Les raisons pour lesquelles nous n’avons pas fait varier cet indice par bande critique
sont premièrement liées aux coûts de calcul qu’on reproche aussi au modèle MPEG.
Deuxièmement, nous avons adopté tout au long de ce mémoire le modèle de Johnston
dont l’estimation de l’indice de tonalité est calculée à partir de la mesure de la platitude
du spectre (Spectral Flatness Measure) sur toute la trame (voir les équations 2.16 et
6.5 section 2.2.2). L’indice de tonalité, de ce modèle, est considéré global dans le sens
où il est constant pour toutes les bandes critiques.
La figure 6.3 illustre l’estimation de la courbe de masquage obtenue par cette
procédure sur une trame de parole donnée. On constate qu’effectivement la méthode
améliore la précision de l’estimation pour les hautes fréquences en considérant un signal
de parole en sortie du filtrage de Wiener.
6.3 Contribution
À partir du signal débruité, la variance du bruit résiduel R(ν) dans une trame
donnée et à la fréquence ν peut être estimée pendant les périodes d’absence d’activité
vocale. Dans [Udrea 08] ainsi que [Boll 79], l’estimation du bruit résiduel est obtenue
en faisant la soustraction entre l’énergie instantanée du bruit et la moyenne de cette
énergie sur une trame de silence. Dans [Udrea 08], cette procédure est répétée pour L
trames de silence. Le bruit résiduel dans ce cas représente le maximum des différences
entre trames (Eq. 6.10).
n 1 X N o
b 2 b 2
R(ν) = max |B(ν)| − |B(ν)| . (6.10)
L N ν=1
Section 6.3 : Contribution 85
Amplitude 10000
5000
−5000
0 50 100 150 200 250 300
Spectre de puissance (dB)
80
CM wiener
60 CM Aicha wiener
CM clean
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
fréquences (Hz)
2000
1000
Amplitude
−1000
−2000
0 50 100 150 200 250 300
60
Spectre de puissance (dB)
CM wiener
CM Aicha wiener
50
CM clean
40
30
20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (dB)
Cette estimation du bruit résiduel est ensuite convertie en spectre en Bark comme suit :
hj
X
Rj = R(ν) (6.11)
ν=bj
10000
Amplitude
5000
−5000
0 50 100 150 200 250 300
Spectre de puissance (dB)
80
CM,SSP
60 CM,wiener
CM,sspec Udrea
40 CM, wiener Udrea
CM, clean
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
2000
1000
Amplitude
−1000
−2000
0 50 100 150 200 250 300
Spectre de puissance (dB)
60
CM,SSP
CM,wiener
40 CM,SSP (Udrea)
CM,wiener (Udrea)
20 CM, clean
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
D’après la figure (6.4), on constate que la correction proposée par Udrea, consistant
à baisser la courbe de masquage d’un niveau équivalent au bruit résiduel, apporte
une amélioration pour l’estimation issue de la soustraction spectrale. Elle biaise par
contre l’estimation qui provient du filtrage de Wiener. Vu que le filtrage de Wiener
Section 6.3 : Contribution 87
PN
|Sk (ν)|2
segSNR = 10 log10 PNν=1 (6.13)
bk (ν)|2
|B
ν=1
si NSNR < 0 dB, alors l’énergie du signal bruité est inférieure à l’énergie du bruit.
si segSNR < 0 dB, alors l’énergie du signal est inférieure à l’énergie du bruit.
Ce cas se présente quand le signal de parole est non voisé et à faible énergie ou quand
il n’y a pas d’activité vocale.
si NSNR > 0 dB, alors l’énergie du signal bruité est supérieure à l’énergie du bruit.
si segSNR > 0 dB, alors l’énergie du signal est supérieure à l’énergie du bruit.
Ce cas se présente quand le signal de parole est voisé et que le bruit est à faible énergie.
10000
5000
Amplitude
−5000
0 50 100 150 200 250 300
Spectre de puissance (dB)
80
CM,SSP
60 CM,wiener
CM,wiener corrigee
40 CM,sspec corrigee
CM, clean
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréqences (Hz)
2000
1000
Amplitude
−1000
−2000
0 50 100 150 200 250 300
Spectre de puissance (dB)
60
CM,SSP
50 CM,wiener
CM,wiener corrigé
40 CM,sspec (Udrea)
CM, clean
30
20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
bruit peut effectivement dans certains cas se produire pour les segments de parole non
voisés. Ces derniers ont un comportement et une ressemblance avec le bruit qui fait
en sorte que le détecteur d’activité vocale peut provoquer une fausse détection et que
l’estimation du bruit en dépendant soit biaisée.
Quand le segSNR et le NSNR sont tous les deux positifs (2ème cas) ou quand on
est face au 4ème cas, on augmente uniquement les hautes fréquences (bandes critiques
au delà de la 9ème pour le 2ème cas et au delà de la 7ème pour le 4ème cas). Comme
on peut le remarquer à partir de la figure 6.9, la courbe de masquage (avant notre
correction) est souvent légèrement sous-estimée pour les hautes fréquences ceci est dû
à l’atténuation inhérente des composantes du signal de parole après le filtrage linéaire
du signal bruité.
Cette procédure de correction est complètement heuristique dans le sens où elle
est basée sur plusieurs observations du comportement de la courbe de masquage vis
à vis du changement des valeurs du segSNR et du NSNR. Ces observations ont été
effectuées suite à plusieurs expériences menées sur différents signaux, différents types
de bruit et de rapports signal à bruit. Dans la figure (6.9), on présente le résultat de la
correction proposée mettant en avant des exemples de trames de parole correspondant
aux différents cas cités plus haut. L’expérience présentée concerne un échantillon de
parole de la base Timit sous-échantillonné à 8 kHz et corrompu par un bruit blanc à
5 dB.
D’après ces expérimentations, nous constatons que la méthode proposée apporte
une amélioration significative par rapport aux autres méthodes basées sur l’idée de la
correction de la courbe de masquage uniquement pour les hautes fréquences.
Le bruit b(n) représente l’erreur de prédiction, p est l’ordre du modèle et les coefficients
(ak )k=1...p sont les paramètres du modèle permettant d’estimer la densité spectrale de
puissance du signal s(n) selon l’équation (6.15) :
σ 2 (ν)
γ(ν) = p 2 . (6.15)
X
1 − ak exp{−i2πνk}
k=1
Dans la figure 6.6, on compare la densité spectrale du signal de parole calculée par
l’équation (6.15) et celle estimée à partir d’un périodogramme. On constate que l’esti-
90 CHAPITRE 6 : Estimation de la courbe de masquage
mation à base des coefficients LPC est lissée et peut donc atténuer l’effet indésirable
du bruit.
1
DSP par périodogramme
0.9 DSP du modèle AR
0.8
0.7
DSP normalisée
0.6
0.5
0.4
0.3
0.2
0.1
0
0 20 40 60 80 100 120 140
Echantillons
Nous avons calculé, dans un premier temps, la courbe de masquage issue du signal
de parole propre et la courbe de masquage calculée à partir de la densité spectrale
de puissance provenant du modèle AR (Eq. 6.15) appliquée directement au signal de
parole propre. Sur deux types de trames du signal données, la figure (6.7) illustre les
deux courbes et montre ainsi que la modélisation LPC du signal en absence du bruit
donne lieu à une courbe de masquage qui épouse parfaitement l’allure de la courbe
ordinaire.
L’estimation des coefficients LPC à partir d’un signal bruité est très sensible au
bruit, d’où l’intérêt de passer d’abord par un filtrage (Wiener par exemple) pour
atténuer le bruit additif avant de calculer la densité spectrale à partir des coefficients
AR. Nous calculons ensuite la courbe de masquage à partir de cette densité spectrale
du signal débruité que nous comparons avec la courbe de masquage du signal propre.
La figure 6.8 présente l’exemple de deux types de trames (les mêmes conservées tout au
long de ce chapitre pour des comparaisons cohérentes entre les différentes méthodes)
avec les deux méthodes de calcul de la courbe de masquage. Nous constatons, d’après
cette figure, que l’estimation de la courbe de masquage à partir d’une modélisation LPC
du signal de parole n’est pas très différente de celle provenant du filtrage par Wiener.
Elle est meilleure seulement. La proposition est ainsi prometteuse. Dans le chapitre
7, nous allons voir qu’il existe une méthode plus robuste pour calculer les coefficients
LPC en présence du bruit et ce en procédant dans le domaine de l’autocorrélation.
Cette technique est nommée SMC (Short-time Modified Coherence) et pourrait être
intéressante à appliquer ici à des fins d’estimation de la courbe de masquage. Par faute
de temps, nous n’avons pas pu implémenter et étudier cette méthode que nous avons
gardée comme perspective à court terme de ce chapitre.
Section 6.4 : Conclusion 91
6.4 Conclusion
Dans ce chapitre, nous avons évoqué l’impact d’une mauvaise estimation de la
courbe de masquage sur les performances des débruiteurs perceptuels. Cette influence
dépend de deux cas limites, liés souvent aux problèmes d’estimations, à savoir la sur-
estimation et la sous-estimation. Nous avons présenté les quelques méthodes d’état de
l’art visant à affiner l’estimation de la courbe de masquage. Elles opèrent différemment
mais se rejoignent sur l’idée d’apporter une modification plutôt aux hautes fréquences.
Il est vrai que le bruit résiduel est plus gênant dans les hautes fréquences car dans les
basses fréquences il est souvent masquée par la parole dont l’énergie est plus importante,
mais cela reste valable du côté perception. L’ajustement de la courbe de masquage, à
notre sens, devrait être également envisagé pour les basses fréquences, car un biais
d’estimation pour ces fréquences, surtout une sous-estimation, devient préjudiciable et
peut introduire beaucoup de distorsions du signal après débruitage.
Dans ce chapitre, nous avons proposé une méthode de correction guidée par la valeur
de deux paramètres qui sont le rapport signal bruité à bruit NSNR et le rapport signal
à bruit segmental segSNR. La méthode peut ainsi opérer sur toutes les fréquences ou
simplement sur quelques-unes. On a également présenté une deuxième méthode basée
sur l’estimation de la densité spectrale de puissance (DSP) du signal de parole à partir
d’une modélisation LPC. De par sa structure lissée, cette DSP peut réduire l’effet du
bruit résiduel à la sortie du filtre de Wiener qui biaise généralement l’estimation de la
courbe de masquage. La deuxième méthode, qui apporte une légère amélioration, reste
prometteuse surtout si l’on utilise d’autres variantes de l’analyse LPC connues pour
leur robustesse face au bruit, telle que la SMC souvent employée dans le domaine de
la reconnaissance de la parole et dont le principe sera donné au chapitre 7.
92 CHAPITRE 6 : Estimation de la courbe de masquage
10000
5000
−5000
0 50 100 150 200 250 300
80
CM, dsp AR
CM clean
60
dB
40
20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence en Hz
2000
1000
−1000
−2000
0 50 100 150 200 250 300
60
CM, dsp AR
CM clean
50
dB
40
30
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence en Hz
10000
5000
−5000
0 50 100 150 200 250 300
80
CM dsp AR wiener
60 CM wiener
CM clean
dB
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence en Hz
2000
1000
−1000
−2000
0 50 100 150 200 250 300
60
CM dsp AR wiener
CM wiener
40 CM clean
dB
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence en Hz
1000
−1000
−2000
0 50 100 150 200 250 300
60
CM wiener
50 CM (segSNR et NSNR)
CM clean
dB
40
30
20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
5000
−5000
0 50 100 150 200 250 300
80
CM wiener
60 CM (segSNR et NSNR)
CM clean
dB
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
−5000
0 50 100 150 200 250 300
80
CM wiener
60 CM (segSNR et NSNR)
CM clean
dB
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
−5000
0 50 100 150 200 250 300
80
CM wiener
60 CM (segSNR et NSNR)
CM clean
dB
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
dB zone MAN
120
100 masquant
80 courbe
de masquage
60
40
bruit audible Avant filtrage
20
0 masqué
Seuil d’audition
absolu Fréquences (Hz)
f0 f1 f2
dB
120
100
80
courbe masquant
de masquage
60
40 Après filtrage
bruit audible
20
0
Seuil d’audition
absolu masqué Fréquences (Hz)
f0 f1 f2
55
50
45
Puissance du signal (dB)
40
35
30
25
20 CM avant attenuation
CM après atténuation
15
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
80
Bruit initial
Bruit residuel
60 T (ν)
Puissance du signal (dB)
Tb(ν)
T ⋆(ν)
40
20
−20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
50 Bruit initial
Bruit residuel
45 T (ν)
Tb(ν)
puissance du signal (dB)
40
35
30
25
20
15
800 900 1000 1100 1200 1300 1400 1500 1600 1700
Fréquences (Hz)
Figure 7.3 — Apparition du phénomène MAN après filtrage du bruit audible uni-
quement
absolu. On effectue le débruitage du signal bruité par un filtrage perceptuel qui traite
uniquement le bruit audible (Eq. 4.35 adaptée au domaine de Fourier, voir Eq. 7.1 ).
Sur cette figure, en analysant le bruit résiduel, on constate que certaines compo-
santes du bruit additif, qui n’étaient pas audibles au départ, se retrouvent maintenant
au-dessus de la courbe de masquage Tb(ν) du signal débruité. Elles seront ainsi audibles
après débruitage. Si ce phénomène se produit répétitivement dans chaque trame, plu-
sieurs tonales de bruit, éparpiées en fréquences, vont ainsi apparaı̂tre et contribueront
à la perception du bruit musical.
Wiener ek ( )
S Estimation de la courbe
yk (t) = sk (t) + nk (t) Wk ( ) de masquage
Tk ( )
Hk ( )
Yk ( ) Réducteur de bruit Filtrage perceptuel
TFD
Fk ( ) Gk ( )
k ( ) bk ( )
S
DAV
s^(t)
7.2.1 Principe
Dans le but d’éviter l’apparition du phénomène MAN, pour les raisons citées
précédemment, notre première suggestion [Amehraye 08a] consiste à appliquer un
double filtrage dont le synoptique est décrit par la figure 7.4. Ce synoptique permet
d’améliorer le réducteur de bruit F (ν) grâce à une pondération perceptuelle à travers
un second filtrage G(ν).
La figure 7.4 pourrait certainement être envisagée pour plusieurs types de réducteurs
de bruit non perceptuels (Wiener, soustraction spectrale,...) suivis d’une pondération
de type perceptuel. Dans notre cas, nous avons considéré le filtre de Wiener (Eq. 4.29)
comme réducteur de bruit (Fk (ν) = Wk (ν)) de par ses performances reconnues. Nous
avons opté pour l’adaptation du filtre perceptuel de l’équation (4.35) au domaine de
Fourier, ce qui donne lieu à l’équation suivante
|Sek (ν)|2
Gk (ν) = (7.1)
|Sek (ν)|2 + max γk (ν) − Tk (ν), 0
CHAPITRE 7 :
100 Débruitage perceptuel de la parole - limitations et contributions
où |Sek (ν)| est l’amplitude du signal restitué à la sortie du filtrage de Wiener, Tk (ν) est
la courbe de masquage estimée et γk (ν) est la densité spectrale de puissance du bruit.
L’intérêt de l’approche du double filtrage est d’atténuer d’abord toutes les com-
posantes du bruit, même celles initialement inaudibles, par le biais du réducteur de
bruit, d’appliquer ensuite un filtrage perceptuel qui agira en accentuant le débruitage
dans les fréquences où le bruit est perceptuellement significatif. En procédant ainsi, on
limite l’apparition du phénomène MAN. Le double filtrage DF résultant a donc pour
expression
HkDF (ν) = Wk (ν)Gk (ν) (7.2)
0.04
q = 30
0.035
q = 20
0.03 q = 16
0.025
q = 10
C (ν )
0.02
0.015
q=4
0.01
q=1
0.005
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence (Hz)
0.9
0.8 H (ν)
k
0.7
0.6
0.5 H (ν)*C(ν)
k
0.4
0.3
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
Freq (Hz)
0.9
Wiener
0.8
(A)
(B)
(C)
0.7 DF
0.6
MBSD
0.5
0.4
0.3
0.2
0.1
0
−5 0 5 10 15 20
SNR (dB)
1
Wiener
0.9 (A)
(B)
0.8 (C)
DF
0.7
0.6
MBSD
0.5
0.4
0.3
0.2
0.1
0
−5 0 5 10 15 20
SNR (dB)
0.35
Wiener
(A)
0.3 (B)
(C)
DF
0.25
0.2
MBSD
0.15
0.1
0.05
0
−5 0 5 10 15 20
SNR (dB)
10
Wiener
(A)
8 (B)
(C)
6 DF
4
SSNR
−2
−4
−5 0 5 10 15 20
SNR (dB)
10
Wiener
(A)
(B)
(C)
DF
5
SSNR
−5
−5 0 5 10 15 20
SNR (dB)
14
Wiener
12 (A)
(B)
10 (C)
DF
8
6
SSNR
−2
−4
−5 0 5 10 15 20
SNR (dB)
3.2
Wiener
3 (A)
(B)
2.8 (C)
DF
PESQ 2.6
2.4
2.2
1.8
1.6
1.4
−5 0 5 10 15 20
SNR (dB)
3.5
Wiener
(A)
(B)
3 (C)
DF
2.5
PESQ
1.5
1
−5 0 5 10 15 20
SNR (dB)
4.2
Wiener
4 (A)
(B)
3.8 (C)
DF
3.6
3.4
PESQ
3.2
2.8
2.6
2.4
2.2
−5 0 5 10 15 20
SNR (dB)
Tableau 7.1 — La moyenne des scores MOS pour les auditeurs d’origine anglaise
Tableau 7.2 — La moyenne des scores MOS pour les auditeurs de différentes natio-
nalités
où T ⋆ (ν) et T (ν) sont respectivement le seuil d’audition absolu et la courbe de masquage
du signal. Le bruit appartenant à la zone M est typiquement candidat au phénomène
MAN.
Section 7.3 : Filtre optimal anti-MAN 107
Soit le gain h(ν) à la fréquence ν. Ce gain est appliqué individuellement sur chaque
fréquence ν selon la formule S(ν)b = h(ν)Y (ν). Soit J(ν) l’erreur quadratique moyenne
b
entre le signal propre S(ν) et le signal débruité S(ν),
h 2 i h 2 i
b
J(ν) = E S(ν) − S(ν) = E S(ν) − h(ν)Y (ν) (7.4)
2
= 1 − h(ν) δ(ν) + h(ν)2 γ(ν) (7.5)
Le critère global J¯(ν), comme le montre l’équation 7.6, est un critère sélectif en
fréquence. D’après cette équation, nous constatons que, quand le bruit est initiale-
ment audible (zone A), nous considérons uniquement la quantité du bruit audible
(γ(ν) − T (ν)) dans l’expression du MSE 7.5. L’atténuation du signal bruité dépendra
ainsi de cette quantité.
Dans la zone M, le bruit est initialement masqué mais risque de devenir audible
si ses masquants sont atténués d’où l’intérêt de l’atténuer aussi. Son atténuation n’a
guère besoin d’être contrôlée par un critère psychoacoustique, raison pour laquelle le
critère J(ν) n’est pas pénalisé.
Dans la zone I, le bruit est dit absolument inaudible, d’une part parce qu’il est
au-dessous du seuil d’audition absolu et, d’autre part, parce que ce seuil est constant,
c’est-à-dire qu’il ne sera pas atténué suite au filtrage. Il n’y a donc aucune raison
d’atténuer davantage ce bruit. Au contraire, ne pas l’atténuer va éviter d’introduire
¯
des distorsions inutiles du signal de parole. Le critère J(ν), dans cette zone, se ramène
à une minimisation du terme de distorsion du signal uniquement.
(a)
h (ν) , si T (ν) < γ(ν)
h(ν) = h(m) (ν) , si I(ν) < γ(ν) ≤ T (ν) (7.8)
1 , si γ(ν) ≤ T (ν)
où h(a) (ν) et h(m) (ν) sont les filtres optimaux au sens de la minimisation du critère
¯
J(ν) par zone de fréquence. Leurs expressions sont respectivement données par
δ(ν)
h(a) (ν) = (7.9)
δ(ν) + γ(ν) − T (ν)
δ(ν)
h(m) (ν) = (7.10)
δ(ν) + γ(ν)
Phénomène MAN
Puissance du signal (dB)
Fréquence (Hz)
même, conservé le même protocole de test pour garder une certaine compatibilité et
continuité des tests. La moyenne des scores MOS obtenus (voir tableau 7.3) montre
que le filtrage DF est mieux noté par les utilisateurs, mais cette supériorité n’est statis-
tiquement pas significative, ce qui nous laisse conclure que du point de vue perception
les deux algorithmes sont équivalents et meilleurs que les autres méthodes.
7.4 Conclusion
Dans ce chapitre, nous avons mis expérimentalement en évidence l’effet MAN (Mas-
kee to Audible Noise). Ce phénomène se manifeste par la perception, après débruitage,
de certaines composantes de bruit initialement inaudibles. Ceci est dû à l’atténuation
du signal de parole suite au filtrage linéaire du bruit additif et, par conséquent, à
l’atténuation de la courbe de masquage du signal restitué. Nous avons proposé deux
méthodes pour réduire son influence sur les performances du débruitage. L’une consiste
à appliquer un double filtrage réduisant toutes les fréquences du bruit et dont le prin-
cipal inconvénient est d’apporter quelques distorsions superflues. L’autre est basée sur
un filtrage optimal sélectif en fréquence et minimisant un critère global tenant compte
du phénomène MAN.
Sur la base de critère objectifs et subjectifs, les résultats expérimentaux obtenus
ont montré la supériorité des deux méthodes proposées par rapport à des méthodes
perceptuelles récentes ne considérant pas le phénomène MAN. Quel sera donc l’apport
de ces méthodes et du débruitage en général sur les performances d’un système de
reconnaissance de la parole en milieu bruité ? Cette question est traitée au chapitre
suivant.
Section 7.4 : Conclusion 111
0.25
Wiener
(A)
(B)
0.2 (C)
DF
AMPF
0.15
MBSD
0.1
0.05
0
−5 0 5 10 15 20
SNR (dB)
3.2
Wiener
3 (A)
(B)
2.8 (C)
DF
2.6 AMPF
PESQ
2.4
2.2
1.8
1.6
1.4
−5 0 5 10 15 20
SNR dB)
10
Wiener
(A)
8 (B)
(C)
DF
6
AMPF
SSNR
−2
−5 0 5 10 15 20
SNR (dB)
0.06
Wiener
(A)
0.055 (B)
(C)
0.05 DF
AMPF
0.045
MBSD
0.04
0.035
0.03
0.025
0.02
−5 0 5 10 15 20
SNR (dB)
4
Wiener
(A)
(B)
3.5 (C)
DF
AMPF
3
PESQ
2.5
1.5
−5 0 5 10 15 20
SNR (dB)
14
Wiener
12 (A)
(B)
(C)
10
DF
AMPF
8
SSNR
−2
−5 0 5 10 15 20
SNR (dB)
0.03
Wiener
(A)
(B)
0.025 (C)
DF
AMPF
0.02
MBSD
0.015
0.01
0.005
−5 0 5 10 15 20
SNR (dB)
4.6
Wiener
(A)
4.4
(B)
(C)
4.2 DF
AMPF
4
PESQ
3.8
3.6
3.4
3.2
−5 0 5 10 15 20
SNR (dB)
20
Wiener
(A)
(B)
15 (C)
DF
AMPF
10
SSNR
−5
−5 0 5 10 15 20
SNR(dB)
0.9
Wiener
0.8
(A)
(B)
(C)
0.7 DF
AMPF
0.6
MBSD
0.5
0.4
0.3
0.2
0.1
0
−5 0 5 10 15 20
SNR (dB)
3.2
Wiener
3 (A)
(B)
2.8 (C)
DF
2.6 AMPF
PESQ
2.4
2.2
1.8
1.6
1.4
−5 0 5 10 15 20
SNR (dB)
10
Wiener
(A)
8
(B)
(C)
6 DF
AMPF
4
SSNR
−2
−4
−5 0 5 10 15 20
SNR (dB)
1
Wiener
0.9 (A)
(B)
0.8 (C)
DF
0.7 AMPF
0.6
MBSD
0.5
0.4
0.3
0.2
0.1
0
−5 0 5 10 15 20
SNR (dB)
3.5
Wiener
(A)
(B)
replacemen 3 (C)
DF
AMPF
2.5
PESQ
1.5
1
−5 0 5 10 15 20
SNR (dB)
10
Wiener
(A)
(B)
(C)
DF
5 AMPF
SSNR
−5
−5 0 5 10 15 20
SNR (dB)
0.35
Wiener
(A)
0.3 (B)
(C)
DF
0.25 AMPF
0.2
MBSD
0.15
0.1
0.05
0
−5 0 5 10 15 20
SNR (dB)
4.2
Wiener
4 (A)
(B)
3.8 (C)
3.6
DF
AMPF
3.4
PESQ
3.2
2.8
2.6
2.4
2.2
−5 0 5 10 15 20
SNR (dB)
14
Wiener
12 (A)
(B)
10 (C)
DF
8 AMPF
6
SSNR
−2
−4
−5 0 5 10 15 20
SNR (dB)
2. L’analyse spectrale où l’on calcule les énergies à la sortie d’un banc de filtres
couvrant toute la bande de fréquences du signal.
3. L’analyse cepstrale où les paramètres sont calculés par la transformée en cosinus
inverse sur le logarithme de la distribution spectrale de l’énergie. Ces paramètres
sont appelés coefficients MFCC. Ils sont les plus souvent utilisés en raison de leur
robustesse.
Les vecteurs acoustiques en sortie de la paramétrisation vont servir d’observations dans
les Modèles de Markov cachés HMM (Hidden Markov Model). Dans la littérature, ces
derniers sont les plus utilisés dans le processus de la modélisation acoustique. Leur
but est de trouver la meilleure séquence de mots sous contrainte d’un lexique qui
définit les mots reconnaissables et d’une grammaire qui détermine les séquences de
mots valables ou, du moins, les plus probables.
Un HMM est un ensemble de nœuds (ou états) et de transitions (ou arcs) les reliant.
Le chemin emprunté par un processus aléatoire, modélisé par un HMM, est inconnu
du fait que les états parcourus ne sont pas directement observables, d’où l’appella-
tion modèle de Markov caché. La structure d’un HMM (Fig. 8.2) est définie par trois
paramètres principaux :
1. La matrice des probabilités d’émission des observations définissant l’ensemble
des lois d’émission, B = (bi (ot )) où bi (ot ) est la distribution de probabilité d’être
dans l’état qi et d’émettre l’observation oi . Ces distributions sont souvent de type
gaussien ou des combinaisons de gaussiennes.
2. La matrice des probabilités de transition, A = (aij ) où aij est la probabilité
de passer de l’état qi à l’état qj .
3. La matrice de la distribution initiale des états, π = (πi ) où πi est la probabilité
d’être dans l’état qi à l’instant initial.
q1 q2 q3 q4 q5
a12 a23 a34 a45
a24
o2 o3 o4
Figure 8.2 — Exemple de structure à 5 états d’un HMM. Les états q2 , q3 et q4 sont
émetteurs alors que l’état initial q1 et l’état final q5 ne génèrent pas d’observations
Section 8.2 : Principe de la reconnaissance vocale 121
Avec ces outils, la conception d’un système HMM doit répondre aux questions consti-
tuant les trois problématiques du processus de reconnaissance de la parole.
Etant donné la séquence d’observations O = (o1 , o2 , ..., oT ) et un HMM φ = (A, B, π) :
1. Comment calculer P (O | φ), la probabilité de la séquence d’observations, étant
donné le modèle HMM φ ? (modélisation acoustique).
2. Quelle est la séquence d’états Q = (q1 , q2 , ..., qT ) qui est la plus vraisemblable
étant donné la séquence d’observations O ? Ce problème correspond au processus
de décodage ou de reconnaissance.
3. Comment ajuster les paramètres du modèle HMM φ pour maximiser la probabilité
P (O | φ) ? Ce problème correspond au processus d’apprentissage.
La reconnaissance de la parole à base des HMMs est une modélisation stochastique
dont l’objectif est de trouver, parmi toutes les séquences de mots W possibles, la
séquence de mots Wc la plus probable connaissant les observés O (Eq. 8.1).
c = arg max P (W | O)
W (8.1)
W
La probabilité P (W | O) est une probabilité dont le calcul repose sur une modélisation
du canal acoustique qu’on ne peut pas calculer directement [Halton 06]. Cependant,
une réécriture ou simplification probabiliste, telle une décision bayesienne, permet de
décomposer cette probabilité en l’exprimant autrement. En effet, grâce à la formule
de Bayes1 appliquée à la probabilité P (W | O) (Eq. 8.2), on exprime le problème,
cette fois-ci, comme une recherche de la suite de mots W maximisant la probabilité
a priori P (W ) de leur apparition dans la langue (modélisation linguistique) et que
les paramètres acoustiques observés correspondent à cette suite de mots (modélisation
acoustique), P (O | W ). La formule finale (Eq. 8.3) ne fait pas intervenir P (O), la
probabilité d’occurrence de la chaı̂ne acoustique O, car elle est indépendante de W et
reste constante quand W varie.
P (O, W ) P (W )P (O | W )
arg max P (W | O) = arg max = arg max (8.2)
W W P (O) W P (O)
= arg max P (W )P (O | W ) (8.3)
W
précédé ou suivi d’un autre, par exemple [a]+[b] et les triphones qui tiennent compte
des phonèmes avant et après, comme [c]-[a]+[b]. Les diphones et triphones sont dits
modèles phonétiques contextuels.
ou
l’analyse standard LPC par une intégration en bandes critiques du spectre de puissance,
suivie d’une préaccentuation par des courbes d’isosonie, d’une conversion d’intensité
en sonie et finalement d’une modélisation tout pôle [Junqua 90]. Ses performances, en
présence du bruit, sont médiocres, d’où l’apparition de la RASTA (RelAtive Spec-
TrAl) [Hermansky 94] qui dérive de l’analyse PLP et dont le but est d’améliorer la
robustesse du système de reconnaissance en milieu bruité. En effet, après avoir effectué
la transformée de Fourier discrète à court terme, on calcule le spectre d’amplitude en
bandes critiques, on applique le logarithme pour récupérer l’enveloppe spectrale du
signal comme pour une analyse cepstrale. On effectue ensuite un filtre passe bande qui
a pour conséquence de supprimer les composantes constantes ou lentes du signal et on
réalise une compression de l’amplitude par l’application d’une racine cubique. Enfin,
on calcule les coefficients selon la méthode LPC classique.
La présence du bruit dégrade la qualité de l’estimation LPC [Lim 78], et les per-
formances des systèmes de Reconnaissance Automatique de la Parole utilisant cette
paramétrisation chutent rapidement lorsque le SNR diminue. Dans [Mansour 88], on
utilise la corrélation entre les segments adjacents du signal pour améliorer la robustesse
au bruit. On montre que l’autocorrélation d’un signal de parole obtenu par modélisation
1
tout pôle est elle même un signal auto-régressif dont la fonction de transfert est A(z) 2
[Mokbel 92] [Mansour 88]. De ce fait, il est possible d’utiliser l’autocorrélation pour
estimer A(z) et les coefficients LPC, ak z −k . L’intérêt de passer par l’autocorrélation
est de permettre d’isoler une partie de la contribution du bruit. Pour des bruits à den-
sité spectrale plate, par exemple le bruit blanc, on élimine de l’analyse les premiers
coefficients qui sont les plus entachés par le bruit. On obtient ainsi des coefficients de
prédiction non bruités. Pour résumer, au lieu d’effectuer une modélisation tout pôle du
signal temporel, l’autocorrélation du signal est d’abord calculée, suivie d’une compres-
sion en racine carrée dans le domaine spectral, avant d’effectuer une analyse LPC. Ces
opérations définissent la nouvelle paramétrisation SMC [Mansour 88]. Sur une tâche
de reconnaissance d’une quarantaine de mots isolés en parole propre, la SMC conduit
à l’obtention de résultats équivalents à ceux de la LPC. Par contre, en reconnaissance
de parole bruitée, la SMC s’avère plus efficace que la LPC [Mansour 88].
Pour trouver une transformation linéaire de l’espace paramètre qui minimise les
variances intra-classes, tout en maximisant les variances inter-classes, on a recours
à l’analyse linéaire discriminante LDA. Celle-ci permet de compresser l’information
et de la rendre plus discriminante. Dans [Siohan 94], la LDA permet d’obtenir un
paramétrage efficace pour la reconnaissance de la parole dans le bruit. Les performances
de la LDA sont meilleures que celles obtenues en utilisant différentes approches de
compensation de modèles et de transformation d’espace appliquées sur un paramétrage
cepstral. Par contre, la nature du bruit conditionne très fortement la robustesse des
paramètres issus de la LDA face aux variations du rapport signal à bruit.
Les modulations d’amplitude et de fréquence AM-FM décrivent le signal de parole
comme la somme de différents signaux représentant les fréquences formantiques, mo-
dulés en fréquence et en amplitude. Ces signaux tentent de modéliser certains aspects
du signal acoustique qui ne sont pas capturés par le modèle (source-filtre) de pro-
duction de la parole le plus communément utilisé [Dimitriadis 98]. Les paramètres de
modulation AM-FM ont deux avantages majeurs par rapport aux paramètres MFCC.
Section 8.3 : Reconnaissance de la parole en milieu bruité - Etat de l’art 125
modèles au bruit, appelée aussi bruitage des références [Mokbel 92]. Contrairement
à ce qui est fait par les techniques de débruitage du signal, dans cette catégorie de
techniques, le bruit n’est pas amoindri et sera donc présent lors de l’étape de recon-
naissance puisqu’il est considéré comme une partie du signal à traiter. En effet, les
signaux bruités sont utilisés pour adapter les paramètres des modèles de la parole,
telles que la moyenne et la variance, de façon à compenser les différences entre la base
d’apprentissage et la base de test.
La combinaison parallèle de modèles PMC initialement mis au point dans
[Young 92] et affinée par la suite dans [Gales 96] ne repose pas sur les données de parole
bruitée mais utilise plutôt les observations du bruit pour estimer les modèles dans le
nouvel environnement. Les nouveaux modèles de la parole sont alors une combinaison
entre les modèles initiaux et un modèle du bruit estimé à partir des observations de ce
dernier. Les modèles ainsi obtenus sont dits corrompus par du bruit. La reconnaissance
de la parole basée sur cette technique donne de bons résultats sur des digits isolés
[Gales 96]. Une utilisation de modèles de 2 à 4 états pour les bruits non stationnaires
améliore les résultats. Le seul inconvénient de cette méthode est qu’elle est coûteuse
du fait que chaque modèle doit être compensé.
Le maximum a posteriori MAP [Lee 91, Gauvain 94] et le maximum de vraisem-
blance de régression linéaire MLLR [Leggetter 95] sont des techniques employées pour
réestimer les modèles acoustiques afin de mieux représenter l’environnement de test à
partir des données disponibles. Ils étaient initialement conçus pour à fins d’adaptation
aux locuteurs. Mais qui dit adaptation au locuteur dit adaptation à l’environnement.
Dans le MAP, l’adaptation des modèles se base sur l’information a priori des modèles
de signaux propres lors de l’apprentissage et sur l’information a posteriori des obser-
vations bruitées. Ainsi, seules les observations ayant un grandde vraisemblance seront
utilisées pour l’adaptation. Quant au MLLR, on adapte la moyenne des gaussiennes
des modèles en la multipliant par une matrice issue du maximum de vraisemblance
[Gong 95]. L’avantage du MLLR en comparaison avec le MAP est qu’il permet une
bonne adaptation même si on ne dispose que de peu de données. Il a par contre un
mauvais comportement asymptotique dû à une saturation rapide du gain en perfor-
mance avec l’augmentation de la quantité de données. Dans ce dernier cas, c’est le
MAP qui l’emporte. On peut ainsi imaginer qu’une combinaison des deux apporte de
meilleurs résultats.
Une méthode simple et directe fondée sur les modèles est l’inclusion de toutes
les conditions de bruit de l’environnement de test dans le corpus d’apprentissage
[Furui 01]. En ce sens, la modélisation statistique sera en mesure de simuler toutes
les variabilités possibles, dans les vecteurs de paramètres, en raison du bruit externe.
Expérimentalement, il est démontré que le système de reconnaissance devient plus ro-
buste dans les environnements bruyants. Toutefois, cette méthode n’est pas réaliste
dans le sens où il est impossible d’inclure tous les types de bruit dans la phase d’ap-
prentissage des modèles. Une légère variante de cette approche consiste à inclure un
ensemble représentatif de différents bruits dans le corpus d’apprentissage et de faire
en sorte que les modèles statistiques soient généralisés au bruit invisible. Cette tech-
nique améliore les systèmes de Reconnaissance Automatique de la Parole, même si les
dégradations sont sévères, en comparaison avec les techniques d’adaptation des modèles
Section 8.3 : Reconnaissance de la parole en milieu bruité - Etat de l’art 127
Les attributs de forme ont l’inconvénient d’exiger un suivi précis des lèvres, ils sont donc
sensibles à l’image (qualité, résolution,...). La fusion d’attributs peut être effectuée par
simple concaténation des attributs audio et visuels ou par une concaténation précédée
d’une discrimination des paramètres pertinents sans a priori (LDA par exemple). L’in-
convénient de l’approche de fusion de paramètres, en général, est le fait qu’elle ne peut
128 CHAPITRE 8 : Reconnaissance de la parole
sur le corpus TIdigits à vocabulaire assez simple. TIdigits pour Texas Instruments
digits est parmi les premières bases de données de parole destinées à des applications
de traitement de la parole. Conçue initialement à des fins d’évaluation des algorithmes
de reconnaissance de la parole indépendante du locuteur, elle contient 77 séquences de
digits connectés prononcées par 326 locuteurs dont 114 femmes, 111 hommes, 51 filles
et 50 garçons.
En annexe D, on présente les étapes de conception des deux systèmes accompagnées
d’illustrations et de commentaires.
Monophones Triphones
Base de test (Acc%) 99.51 99.47
99.05 99.23
Base de développement (Acc%)
S= 66, I= 67 S= 84, I= 83
D’après ce tableau, nos deux systèmes basés sur une paramétrisation de type MFCC,
sur une modélisation statistique de type HMM et sur une transcription avec et sans
contexte, donnent de très bons résultats pour des fichiers de parole propres. Les per-
formances du système à base de triphones ne se distinguent pas nettement des perfor-
mances du système à base de monophones, ceci peut être expliqué par le fait que les
prononciations de la base de données TIdigits sont presque parfaites et les enregistre-
ments ne modélisent pas les effet de coarticulation, Lombard, stress, sans pour autant
oublier de signaler que cette base de parole reste trop petite.
Dans le reste de la partie expérimentale, nous considérons 250 fichiers de parole
choisis aléatoirement dans la base de test du corpus TIdigits, bruités additivement
par trois types de bruit (bruit blanc, bruit de conversation et bruit de voiture) à
différents rapports signal à bruit. Ils sont par la suite débruités par les différentes
méthodes déjà évaluées par des critères objectifs et subjectifs. Nous calculons les taux
de reconnaissance sur ces fichiers bruités puis débruités en considérant les deux systèmes
de reconnaissances conçus. Les résultats de la reconnaissance sur les fichiers bruités sont
présentés dans les tableaux 8.2 et 8.3 et ceux issus du débruitage sont présentés sur les
figures 8.4 à 8.15.
Les tableaux 8.2 et 8.3 donnent une idée sur la détérioration des performances des
systèmes de reconnaissance, en présence du bruit, quand ces systèmes sont conçus à
130 CHAPITRE 8 : Reconnaissance de la parole
Bruit blanc
Input SNR (dB) -5 0 5 10 15 20
%Acc 35.51 39.99 54.98 72.48 81.18 88.19
Bruit de voiture
Input SNR (dB) -5 0 5 10 15 20
%Acc 91.06 97.16 98.77 98.89 99.20 99.51
Bruit de conversation
Input SNR (dB) -5 0 5 10 15 20
%Acc 38.19 48.65 57.81 69.07 83.50 94.58
Bruit blanc
Input SNR (dB) -5 0 5 10 15 20
%Acc 35.57 41.65 61.00 77.21 86.78 92.63
Bruit de voiture
Input SNR (dB) -5 0 5 10 15 20
%Acc 88.10 96.73 98.52 99.32 99.20 99.51
Bruit de conversation
Input SNR (dB) -5 0 5 10 15 20
%Acc 38.19 47.23 56.33 70.60 85.51 96.89
q
zx2
P+ N
± zx P (1−P
N
)
+ zx2
4N 2
P± = zx2
(8.4)
1+ N
Cela signifie qu’il y a x% de chance que le taux réel (exact) se trouve dans cet
intervalle. Dans les figures 8.4 à 8.15, chaque résultat est accompagné de son intervalle
de confiance calculé à partir de l’équation 8.4. Ces intervalles sont très petits pour
toutes les situations expériementées sauf pour le cas du bruit de voiture pour une
variance de bruit connue (figures 8.6 et 8.12 ). Dans ce dernier cas, les résultats peuvent
être considérés statistiquement comparables du fait que les intervalles de confiance
accompagnant les mesures sont très larges.
8.6 Conclusion
Dans ce chapitre, nous avons étudié de près les systèmes de reconnaissance de la
parole en parcourant leur principe et les mesures de précautions prises pour les rendre
robustes face au bruit. Nous avons conçu deux systèmes (avec monophones et triphones)
sans condition de bruit, qui nous ont permis d’évaluer l’impact du débruitage sur les
performances de ces systèmes en présence du bruit. Les méthodes de débruitage qui se
distinguent par rapport à des critères objectifs et même subjectifs ne sont pas forcément
celles qui rendent les systèmes de reconnaissance plus robustes au bruit, ce qui rejoint
l’idée du premier chapitre où qualité et intelligibilité de la parole ont été différenciées.
Ceci est sans doute à cause de leur sensibilité face aux distorsions du signal plus qu’au
bruit de fond ou même au bruit musical. Néanmoins, l’apport du débruitage reste net,
surtout celui des méthodes perceptuelles par rapport aux méthodes usuelles. Comme
perspective de ce chapitre, il serait vraisemblablement judicieux de paramétrer les
algorithmes de débruitage perceptuel de façon à se donner un certain degré de liberté
pour ajuster les valeurs de ces paramètres de manière à réduire les types de distorsions
qui peuvent être destructives au système de reconnaissance de la parole.
132 CHAPITRE 8 : Reconnaissance de la parole
100
Wiener
(B)
(A)
90 (C)
DF
AMPF
80
70
Acurracy(%)
60
50
40
30
−5 0 5 10 15 20
SNR (dB)
Figure 8.4 — Taux de reconnaissance par monophones sur des signaux bruités
par un bruit blanc et débruités par différentes méthodes en supposant connaı̂tre la
variance du bruit
110
Wiener
(B)
(A)
100 (C)
DF
AMPF
90
80
Acurracy (%)
70
60
50
40
−5 0 5 10 15 20
SNR (dB)
Figure 8.5 — Taux de reconnaissance par monophones sur des signaux bruités par
un bruit de conversation et débruités par différentes méthodes en supposant connaı̂tre
la variance du bruit
Section 8.6 : Conclusion 133
101
100
99
98
Accuracy (%)
97
96
95
Wiener
(B)
94 (A)
(C)
DF
AMPF
93
−5 0 5 10 15 20
SNR (dB)
Figure 8.6 — Taux de reconnaissance par monophones sur des signaux bruités par
un bruit de voiture et débruités par différentes méthodes en supposant connaı̂tre la
variance du bruit
100
Wiener
(B)
(A)
(C)
90 DF
AMPF
80
Accuracy (%)
70
60
50
40
−5 0 5 10 15 20
SNR (dB)
Figure 8.7 — Taux de reconnaissance par monophones sur des signaux bruités par
un bruit blanc et débruités par différentes méthodes en estimant la variance du bruit
pendant les pauses fournies par le DAV G729
134 CHAPITRE 8 : Reconnaissance de la parole
100
Wiener
(B)
(A)
90 (C)
DF
AMPF
80
70
Accuracy (%)
60
50
40
30
−5 0 5 10 15 20
SNR (dB)
Figure 8.8 — Taux de reconnaissance par monophones sur des signaux bruités par
un bruit de conversation et débruités par différentes méthodes en estimant la variance
du bruit pendant les pauses fournies par le DAV G729
100
95
90
85
Accuracy (%)
80
75
70
Wiener
(B)
(A)
65 (C)
DF
AMPF
60
−5 0 5 10 15 20
SNR (dB)
Figure 8.9 — Taux de reconnaissance par monophones sur des signaux bruités par
un bruit de voiture et débruités par différentes méthodes en estimant la variance du
bruit pendant les pauses fournies par le DAV G729
Section 8.6 : Conclusion 135
100
Wiener
(B)
(A)
90 (C)
DF
AMPF
80
70
Accuracy (%)
60
50
40
30
−5 0 5 10 15 20
SNR (dB)
Figure 8.10 — Taux de reconnaissance par triphones sur des signaux bruités par un
bruit blanc et débruités par différentes méthodes en supposant connaı̂tre la variance
du bruit
110
100
90
80
Accuracy (%)
70
60
Wiener
(B)
50 (A)
(C)
DF
AMPF
40
−5 0 5 10 15 20
SNR (dB)
Figure 8.11 — Taux de reconnaissance par triphones sur des signaux bruités par
un bruit de conversation et débruités par différentes méthodes en supposant connaı̂tre
la variance du bruit
136 CHAPITRE 8 : Reconnaissance de la parole
101
Wiener
(B)
(A)
100 (C)
DF
AMPF
99
98
Accuracy (%)
97
96
95
94
−5 0 5 10 15 20
SNR (dB)
Figure 8.12 — Taux de reconnaissance par triphones sur des signaux bruités par
un bruit de voiture et débruités par différentes méthodes en supposant connaı̂tre la
variance du bruit
100
Wiener
(B)
(A)
90 (C)
DF
AMPF
80
70
Accuracy (%)
60
50
40
30
−5 0 5 10 15 20
SNR (dB)
Figure 8.13 — Taux de reconnaissance par triphones sur des signaux bruités par
un bruit blanc et débruités par différentes méthodes en estimant la variance du bruit
pendant les pauses fournies par le DAV G729
Section 8.6 : Conclusion 137
100
Wiener
(B)
(A)
(C)
90 DF
AMPF
80
Accuracy (%)
70
60
50
40
−5 0 5 10 15 20
SNR (dB)
Figure 8.14 — Taux de reconnaissance par triphones sur des signaux bruités par
un bruit de conversation et débruités par différentes méthodes en estimant la variance
du bruit pendant les pauses fournies par le DAV G729
100
95
90
85
Accuracy (%)
80
75
70
Wiener
(B)
65 (A)
(C)
DF
AMPF
60
−5 0 5 10 15 20
SNR (dB)
Figure 8.15 — Taux de reconnaissance par triphones sur des signaux bruités par
un bruit de voiture et débruités par différentes méthodes en estimant la variance du
bruit pendant les pauses fournies par le DAV G729
9
CHAPITRE
Conclusion générale
deux paramètres qui sont le rapport signal bruité à bruit (NSNR) et le rapport signal
à bruit segmental (segSNR). Cette méthode peut opérer sur toutes les fréquences ou
simplement sur quelques unes ; tout dépend essentiellement des paramètres segSNR et
NSNR. On a également proposé une deuxième méthode basée sur l’estimation de la
densité spectrale de puissance (DSP) du signal de parole à partir d’une modélisation
LPC (Linear Predictive Coding). De par sa structure lissée, cette DSP peut réduire
l’effet du bruit résiduel à la sortie de Wiener qui biaise généralement l’estimation de la
courbe de masquage. La deuxième méthode, qui apporte une légère amélioration, reste
prometteuse surtout si l’on utilise d’autres variantes de l’analyse LPC connues pour
leur robustesse au bruit, telle que la SMC (Short-time Modified Coherence) souvent
employée dans le domaine de la reconnaissance de la parole comme paramétrisation
robuste au bruit et qui consiste à calculer les coefficients de prédiction dans le domaine
de l’autocorrélation.
Dans la suite de nos contributions, nous avons étudié et mis en évidence un
phénomène nommé MAN (Maskee to Audible Noise). Ce phénomène se manifeste
par la perception, après débruitage, de certaines composantes de bruit initialement
inaudibles. Il se produit à cause de l’atténuation de la courbe de masquage du signal
restitué, en comparaison de celle du signal d’origine ; cette atténuation est consécutive
de l’atténuation du signal de parole suite au filtrage du bruit additif. Nous avons pro-
posé deux méthodes pour réduire l’influence de ce phénomène sur les performances du
débruitage perceptuel. L’une consiste à appliquer un double filtrage réduisant toutes
les fréquences du bruit et dont le principal inconvénient est d’apporter quelques distor-
sions superflues. L’autre est basée sur un filtrage optimal sélectif par zone de fréquence
du bruit et minimisant un critère global tenant compte du phénomène MAN.
Nous avons mis en place une étude expérimentale afin d’évaluer les algorithmes
proposés, premièrement, par le biais de trois critères objectifs (MBSD, PESQ et seg-
SNR) qui se sont révélés parfois incohérents laissant ainsi la question ouverte sur la
fiabilité de ces critères, deuxièmement, en organisant des tests d’écoute, selon la norme
P-835, en sollicitant la participation de plusieurs volontaires d’origine anglaise ou de
nationalités différentes. Enfin, nous avons conçu deux systèmes de reconnaissance de
la parole à base de monophones et de triphones qui nous ont permis d’étudier l’im-
pact du débruitage sur les performances des systèmes de reconnaissance en présence
de bruit. Notre conclusion à ce propos est que les méthodes de débruitage qui se
distinguent sur des critères objectifs et même subjectifs ne sont pas forcément celles
qui rendent les systèmes de reconnaissance plus robustes au bruit. Cette constata-
tion rejoint l’idée du premier chapitre où qualité et intelligibilité de la parole ont été
différenciées. Néanmoins, l’apport du débruitage sur les performances de ces systèmes
est avéré, surtout celui des méthodes perceptuelles par rapport aux méthodes usuelles.
sur la base d’un critère prenant en compte, cette fois-ci, la courbe de masquage après
débruitage afin de rendre tout type de bruit résiduel inaudible après le débruitage.
Dans l’optique de l’évolution de la courbe de masquage au cours du débruitage, il
serait intéressant d’étudier une estimation adaptative de cette courbe. L’étude d’une
relation récursive de cette courbe entre trames peut être envisagée comme objectif à
court terme. Pour donner du poids et de l’efficacité à cet évolution adaptative, il serait
plus raisonnable d’avoir au départ une estimation précise de la courbe de masquage
réelle (du signal propre). A ce sujet, nous suggérons (chapitre 6) d’implémenter la
paramétrisation SMC (Short-time Modified Coherence). Celle-ci, en milieu bruyant,
s’avère plus puissante que la modélisation LPC (Linear Predictive Coding). Son point
fort est de se baser sur la corrélation des segments adjacents du signal pour améliorer
la robustesse au bruit.
Comme suite de ce travail, il est aussi d’une grande importance d’étudier la faisabi-
lité d’un système complet basé sur le meilleur estimateur de bruit étudié, la meilleure
estimation de la courbe de masquage et le meilleur débruiteur perceptuel, tout ceci
dans le but de chercher à atteindre des performances maximales. Cet objectif n’est pas
aussi trivial qu’on pourrait l’imaginer.
Pour l’estimation du bruit, il serait très intéressant d’étudier la possibilité de combi-
ner l’algorithme C-ESE avec des méthodes heuristiques décrites dans le chapitre 5 afin
de réduire la part d’empirisme de ces méthodes. On peut penser, à titre d’exemple, à la
méthode de Martin qui recherche un minimum statistique qui pourrait être remplacé
par une estimée issue du C-ESE.
Il serait intéressant d’inclure le phénomène MAN dans les autres débruiteurs per-
ceptuels, qui ne traitent que le bruit audible.
Finalement, il peut être pertinent d’envisager de paramétrer les débruiteurs percep-
tuels afin de leur donner plus de souplesse et de diminuer les distorsions qu’ils peuvent
apporter. On pourrait ainsi les adapter aux contraintes des systèmes de reconnaissance
très sensibles aux distorsions.
A
ANNEXE
Echelle de notation de
la norme P-835
b
où Y (ν)+ désigne le transposé conjugué de Y (ν) et ε(ν) = S(ν) − S(ν), on a donc :
E ε(ν)Y (ν)+ = 0
h i
E S(ν) − W (ν)Y (ν) Y (ν)+ = 0
E S(ν)Y (ν)+
W (ν) = (B.0)
E Y (ν)Y (ν)+
Avec E Y (ν)Y (ν)+ supposée définie, positive et inversible. Pour le problème de
débruitage de la parole, auquel on s’intéresse ici, le bruit est supposé additif et décorrélé
du signal de parole, d’où :
E S(ν)Y (ν)+ = E S(ν) S(ν) + B(ν) (B.1)
= E S(ν)S(ν) + E S(ν)B(ν) (B.2)
= E S(ν)S(ν) (B.3)
2
= E S(ν) (B.4)
2 2
En choisissant les notations suivantes : E S(ν) = δ(ν) ; E B(ν) = γ(ν), l’ex-
pression finale de Wiener faisant intervenir les densités spectrales de puissance du bruit
et du signal est la suivante :
δ(ν)
W (ν) = (B.4)
δ(ν) + γ(ν)
C
ANNEXE
Tables statistiques
Cette annexe a pour objectif de présenter les étapes de la conception d’un système
de reconnaissance de la parole à petit vocabulaire en utilisant l’outil HTK.
f ; k ; n ; r ;s ;t ;v ;w ;z ;sil ;ah ;ao ;ax ;ay ;eh ;ey ;ih ;iy ;ow ;th ;uw
1
http ://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/Lexicon/VoxForge.tgz
150 ANNEXE D : Un Système de reconnaissance de la parole sous HTK
eight ey t sil
five f ay v sp
four f ao r sp
nine n ay n sp
oh ow sp
one w ah n sp
seven s eh v ax n sp
sil
six s ih k s sp
three th r iy sp
two t uw sp
zero z ih r ow sp
$digit = one|two|three|four|five|six|seven|eight|nine|zero|oh ;
(sil <$digit> sil)
mots.mlf phones.mlf
# !MLF !# # !MLF !#
"*/Z2273A.lab" "*/Z2273A.lab"
zero sil
two z
two ih
two r
seven ow
three t
. uw
"*/547A.lab" s
five eh
four v
seven ax
... ...etc
Tableau D.4 — Fichiers de transcription en mots et phonèmes
où mkphones0.led est un script permettant de remplacer chaque mot par la pronon-
ciation lui correspondant dans le dictionnaire et d’insérer un silence au début et à la
fin de chaque expression.
tissage permettant d’aboutir, à la fin, à des valeurs globales qui seront clonées pour
chaque état des modèles HMM.
2
détail de cet algorithme dans le livre d’HTK
154 ANNEXE D : Un Système de reconnaissance de la parole sous HTK
silence
1 2 3 4 5
Etat partagé
1 2 3
Sp
3
Le dictionnaire doit être classé par ordre alphabétique croissant (minuscule avant majuscule).
155
Amélioration des modèles : Les modèles obtenus peuvent être améliorés par uti-
lisation de densités de probabilités d’émission multi-gaussiennes au lieu de se contenter
d’une simple loi normale à matrice diagonale. Cela permet d’éviter certaines hypothèses
grossières sur la forme de la densité si le nombre de gaussiennes est suffisant. En effet, le
choix du nombre optimal de gaussiennes est un problème difficile. En pratique, la seule
recommandation donnée est l’augmentation incrémentale et progressive du nombre de
gaussiennes jusqu’à atteindre le nombre voulu. Une commande d’HTK HHEd (D.0.1)
réalise l’augmentation du nombre de gaussiennes via le script mkmu3.hed, où on aug-
mente progressivement le nombre de gaussiennes (1, 2, 4, 8, 12, 16). Chaque augmenta-
tion de gaussienne est suivie de deux réestimations des modèles avec HERest HERest.
Suite à cette procédure les modèles sont de plus en plus précis. Le seul inconvénient
est la charge des calculs qui augmente à son tour. Les derniers modèles estimés sont
sauvegardés dans le répertoire hmm30.
TC
Pour créer le fichier mktri.hed, on utilise le script perl maketrihed tel que,
que de %Acc, mais, par abus de langage, nous le noterons taux de reconnaissance.
on obtient,
Articles de revue :