Documente Academic
Documente Profesional
Documente Cultură
pour le grade de
DOCTEUR DE L’UNIVERSITÉ DE RENNES 1
Mention : Traitement du Signal et Télécommunications
École doctorale Matisse
présentée par
Sibiri TIEMOUNOU
Préparée à l’unité de recherche LTSI – INSERM UMR 1099
Laboratoire Traitement du Signal et de l’Image
UFR Informatique Électronique (ISTIC)
-3-
Table de matières
-4-
Table de matières
-5-
Table de matières
-6-
Liste des acronymes et abréviations
-7-
Liste des acronymes et abréviations
-8-
Introduction
Introduction
De nos jours, les systèmes de télécommunication sont en pleine évolution, marquée par l’apparition de
nouveaux réseaux d’accès, notamment mobiles, comme la 3G (UMTS, Universal Mobile
Telecommunications System) ou la 4G (LTE, Long-Term Evolution), et de nouveaux services repoussant
toujours plus loin les limites de l’innovation. Parmi ceux-ci, nous nous intéressons en particulier à la
VoIP (Voice over the Internet Protocol). Si la téléphonie dite « classique » a été initialement prévue pour
transmettre la voix sur une bande passante allant de 300 Hz à 3400 Hz (aussi appelée bande étroite ou NB,
Narrowband), les réseaux utilisant le transport sur IP permettent de transmettre ce que l’on appelle la
« voix HD » (Haute Définition), i.e. des communications téléphoniques en bande élargie ou WB,
WideBand (i.e. [50 Hz – 7000 Hz]). Ils rendent également possible l’utilisation d’applications de VoIP en
bande super-élargie ou SWB (Super WideBand), dont la bande de fréquences s’étend de 50 à 14000 Hz.
Ces différentes extensions de la bande audio améliorent nettement l’intelligibilité de la voix comparée à la
téléphonie classique. Cependant, elles ne sont pas sans risque. En effet, au-delà des conséquences en
termes de congestion de réseau (compensée par les techniques de codage à débit réduit), les dégradations
présentes dans les hautes fréquences deviennent audibles dans les communications téléphoniques en
bande élargie ou super-élargie, alors qu’elles sont atténuées dans le contexte en bande étroite. La qualité
vocale n’est donc pas nécessairement améliorée avec les nouvelles techniques de réseau et de traitement
de la voix.
Afin de faire face à la concurrence et de satisfaire aux exigences de leurs clients ainsi que des autorités
de régulations nationales, les opérateurs de télécommunications se doivent de connaître, et donc de
contrôler en permanence, la qualité de leurs services. C’est le cas en particulier des services de téléphonie.
Un des facteurs principaux de la qualité de ces services est la qualité vocale telle que perçue par les
utilisateurs. L’approche la plus fiable pour évaluer la qualité vocale est de recourir à ce que l’on appelle
des tests subjectifs, i.e. des tests durant lesquels les participants, qu’on soumet à des stimuli sonores issus
d’enregistrements effectués sur le service à évaluer, jugent la qualité telle qu’ils la perçoivent sur une
échelle de qualité bien définie. Cependant, la réalisation de ces tests subjectifs s’avère coûteuse en temps
et en moyens financiers. De plus, c’est une évaluation a posteriori, quand bien souvent le besoin est de
pouvoir réagir rapidement aux dégradations constatées. Comme alternative à ces tests subjectifs, des
méthodes de mesures dites « objectives », fondées soit sur une analyse du signal de parole soit sur des
informations issues du réseau, sont développées. En particulier, de nos jours, nous assistons à l’apparition
de méthodes de plus en plus « sophistiquées », fondées sur la modélisation du système auditif humain,
connues aussi sous le nom de modèles perceptifs, et dont le but est de prédire de manière automatique la
qualité vocale telle qu’elle serait déterminée lors d’un test subjectif formel. C’est à ces modèles que nous
nous sommes intéressés principalement dans le cadre de cette étude. Les plus connus et les plus utilisés de
ces modèles sont ceux normalisés au sein de l’Union Internationale des Télécommunications (UIT),
notamment ceux décrits dans les normes P.862 (ITU-T 2001) et P.863 (ITU-T 2011a). De tels modèles
ont été développés et entraînés afin de s’adapter aux nouvelles technologies de traitement et de
transmission de la voix sur les réseaux de télécommunications. Bien que ces modèles fassent preuve de
bonnes performances en matière de prédiction de la qualité vocale (en contexte d’écoute, i.e. sans prise en
compte d’éventuels retards et de l’écho), ils ne permettent pas d’établir de lien entre cette dégradation
perçue et sa cause. Autrement dit, ils ne fournissent pas d’information sur la nature des défauts à l’origine
-9-
Introduction
des dégradations perçues. Or, bien souvent, d’un point de vue opérationnel, la mesure de qualité vocale
(sous forme d’un scalaire quantifiant le degré de dégradation) est nettement insuffisante. Il faut la
compléter d’autres éléments de mesure afin de déterminer l’origine des défauts constatés, voire proposer
des actions correctives. Ces éléments peuvent être obtenus au niveau des équipements de réseau (qui
fournissent moult compteurs), par le biais de mesures au niveau du réseau de transmission (notamment IP)
ou d’accès (DSL, radio, etc.), ou encore par une analyse plus avancée du signal de parole.
L’objectif de nos recherches consiste à proposer un outil de diagnostic avancé des dégradations de la
qualité vocale qui, à partir d’une analyse du signal sonore (parole + bruits environnants), fournira des
informations plus spécifiques sur la nature des défauts perçus lors des communications téléphoniques et
d’orienter vers les causes possibles en vue d’une action d’amélioration. Pour ce faire, nous sommes partis
du constat fait dans la littérature, à savoir que l’analyse des défauts perçus lors des communications
téléphoniques conduit à une représentation multidimensionnelle de la qualité vocale. L’outil de diagnostic
proposé dans cette thèse va reposer sur la modélisation de quatre familles de défauts correspondant à
autant de dimensions perceptives (Bruyance, Continuité, Coloration et Sonie) couvrant l’ensemble des
défauts perçus lors des communications téléphoniques, et orthogonales entre elles (au moins pour les trois
premières). Cette approche multidimensionnelle nous permet de fournir, en complément de la note de
qualité vocale globale, des informations plus fines sur les principaux défauts présents sur le signal vocal.
De plus, notre outil de diagnostic sera conçu de sorte à couvrir les trois bandes audio utilisées en
téléphonie (bande étroite, bande élargie et bande super-élargie), avec une priorité pour les signaux en
bande super-élargie, la plus prometteuse (les futurs services de téléphonie seront en bande super-élargie)
mais aussi la plus pauvre à ce jour en études portant sur le diagnostic des dégradations des signaux de
parole.
Le premier chapitre sera consacré à un état de l’art sur la qualité vocale perçue dans les systèmes de
télécommunications et aux défauts altérant cette qualité. Après une description des éléments importants
présents dans les réseaux et systèmes de télécommunications actuels et à venir et leur impact sur la qualité
vocale, un état de l’art des méthodes d’évaluation subjective et objective de la qualité vocale sera dressé.
Les études portant sur l’identification des dimensions caractérisant l’espace perceptif de la qualité vocale
seront présentées et permettront de mettre en exergue l’intérêt des quatre dimensions perceptives pour
notre étude.
Chaque dimension perceptive peut être modélisée par au moins un estimateur de dégradation,
simplement appelé par la suite « indicateur de qualité ». La fiabilité de notre outil à obtenir des
informations sur chaque dimension repose sur la pertinence et la robustesse des indicateurs de qualité que
nous aurons sélectionnés. L’objet du chapitre 2 sera d’identifier certains de ces indicateurs. Pour ce faire,
nous avons décidé de nous intéresser en premier lieu aux modèles perceptifs les plus récents, parmi
lesquels la norme P.863 de l’UIT-T (ITU-T 2011a).
Les quatre chapitres suivants (chapitres 3 à 6) seront respectivement consacrés à la modélisation
proprement dite des quatre dimensions perceptives à partir d’indicateurs de qualité (dont ceux identifiés
au chapitre 2). La modélisation de la dimension Bruyance (chapitre 3) sera fondée sur des travaux réalisés
au sein d’Orange Labs (Leman 2011) portant sur l’élaboration d’un modèle fiable de classification
automatique des bruits de fond en contexte téléphonique en bande étroite, dont nous proposons d’élargir
le domaine d’application aux signaux en bande super-élargie. Concernant la modélisation de la dimension
Continuité (chapitre 4), elle reposera sur la quantification de trois familles de discontinuités perçues,
chacune représentée par un indicateur spécifique. Quant à la dimension Coloration (chapitre 5), nous
- 10 -
Introduction
- 11 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
Chapitre 1
La parole est un langage articulé humain, composé de signes audibles. C’est un élément essentiel dans
les relations humaines car elle permet de communiquer la pensée, les sentiments etc. Cette
communication peut être faite face-à-face (i.e. le locuteur et l’auditeur se parlent en se faisant face) ou au
moyen d’un système de télécommunications (i.e. communication à distance). Quel que soit le mode de
communication utilisé, l’information véhiculée dans le signal de parole doit être de bonne qualité afin de
faciliter sa compréhension. Cela est d’autant plus important dans les communications téléphoniques que
le signal de parole est soumis à des séries de traitement pouvant introduire des distorsions dans le signal
et impacter par conséquent la qualité du message vocal. Conscients de l’enjeu économique que cela
représente, les opérateurs de télécommunications se doivent de garantir une bonne qualité du signal de
parole transmis.
Dans ce chapitre, nous présenterons dans la section 1.1 le processus de production de la parole et sa
perception suivis d’une description de la qualité vocale dans la section 1.2. La section 1.3 sera consacrée
à une étude détaillée des éléments constitutifs des systèmes de transmission et leur impact sur la qualité
vocale. Les méthodes d’évaluation de la qualité vocale seront décrites dans la section 1.4 avant d’aborder
l’espace perceptif de cette qualité (cf. § 1.5).
La parole est produite à partir de l'appareil phonatoire décrit sur la Figure 1.1. Celui-ci est constitué de
trois parties essentielles :
la partie sous-glottique ou appareil respiratoire, constituée du diaphragme, des poumons et de
la trachée, est l'appareil de la soufflerie qui fournit l’énergie nécessaire à la phonation (i.e. acte de
la parole) en insufflant l’air vers la partie glottique ;
la partie glottique ou larynx assure le premier niveau de transformation de l'air pulmonaire en
vibration sonore audible. Elle est constituée essentiellement de cordes vocales qui, lors de la
phonation, vibrent en s'ouvrant et se fermant rapidement de manière quasi-périodique. Le taux de
cette vibration (ouverture-fermeture) correspond à la fréquence fondamentale (F0) de la voix
humaine et exprimée en Hertz (Hz). Cette fréquence fondamentale dépend du sexe et de l'âge du
locuteur. Ainsi, la fréquence F0 moyenne des hommes, femmes et enfants se situe respectivement
autour de 100 Hz, 200 Hz et 300 Hz (Shaughnessy 2000) ;
la partie supra-glottique ou conduit vocal est formée de la cavité orale (pharyngienne et
buccale) et des cavités nasales. Ces cavités transforment l'énergie acoustique induite par la partie
glottique en langage articulé grâce, essentiellement, à l’extrême mobilité de la langue et des
lèvres.
- 13 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
La bande passante produite par la parole humaine à la sortie de la bouche est généralement définie
dans la gamme (100-7000 Hz) (Deng and O’Shaughnessy 2003). C’est une bande contenant les
informations utiles à la bonne compréhension de la parole humaine.
Le son acoustique issu de la parole du locuteur est propagé via l’air, dans le cas d’une communication
face-à-face, ou à travers un système de transmission (cf. § 1.2) dans le cas d’une communication
téléphonique. Ce son est ensuite capté par le système auditif de l’auditeur qui transforme ce signal de
sorte que le cerveau puisse l'analyser. Le système auditif humain est composé de trois parties (cf. Figure
1.2) :
l’oreille externe, partie visible de l'oreille comprenant le pavillon et le conduit auditif, est le
canal par lequel le son est acheminé ;
l’oreille moyenne est constituée du tympan (ou membrane tympanique) et des osselets (marteau,
enclume, étrier). Ces deux éléments servent à amplifier les vibrations sonores pour les transmettre
à l'oreille interne ;
l’oreille interne ou la cochlée (ou encore limaçon) est l’organe essentiel de l’audition et a pour
rôle de convertir les vibrations sonores en impulsions neuro-électriques transmises au nerf auditif.
Ce dernier les conduit ensuite jusqu'au cerveau qui les interprète grâce à un processus cognitif.
Figure 1.1. Appareil phonatoire humain Figure 1.2. Système auditif humain
L’oreille humaine perçoit des sons dans des fréquences comprises entre 20 et 20000 Hz. Cet intervalle
varie d’un individu à l’autre et s’amenuise avec l’âge. Toutefois, il existe un seuil d’audition absolu en
dessous duquel l’oreille humaine ne perçoit pas de son. Une courbe du seuil d’audition absolu, illustrée
sur la Figure 1.3, a été proposée par Fletcher(Fletcher 1940) et dont l’équation est la suivante :
Sa f 3,4 f 1000
2
6,5e0,6 f 1000 3,3
103 f 1000 ,
0,8 4
(1.1)
où Sa f est le seuil absolu d’audition, exprimée en dB-SPL (SPL signifie Sound Pressure Level ou
niveau de pression du son) et f la fréquence exprimée en Hz. D’autre part, les études réalisées par
- 14 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
Fletcher (Fletcher 1940) ont montré que l’oreille interne est constituée d’un banc de filtres passe-bande se
chevauchant fortement appelées bandes critiques. Une bande critique correspond à l’écart minimal pour
que deux fréquences soient perceptivement discriminées. Dans cette bande, la puissance perçue par
l’oreille correspond à la somme de toutes les puissances des composantes fréquentielles comprises dans
cette bande.
Lorsque cette somme est supérieure au seuil d’audition absolu, le son présent dans cette bande est
considéré comme audible, sinon il est inaudible. Zwicker et al. (Zwicker et al. 1999) ont proposé une
échelle de mesure de la bande critique appelée l’échelle des barks dont la relation avec l’échelle des hertz
est donnée par :
- 15 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
2
0,76 f f
zB 13arctan 3,5arctan , (1.2)
1000 7500
où z B est une bande critique exprimée en Bark et f une fréquence exprimée en kHz. On distingue
généralement 25 bandes critiques, qui sont celles données dans le Tableau 1.1.
1.2.1. Définition
La qualité vocale est une notion subjective très complexe liée à la perception humaine. Jekosch
(Jekosch 2000) définit la qualité vocale comme étant le résultat d'un processus de perception et de
jugement, durant lequel l’individu établit une relation entre ce qu’il perçoit (i.e. l'événement sonore) et ce
qu’il désire ou attend (i.e. la référence interne). La Figure 1.4 décrit le mécanisme de jugement de la
qualité vocale par un auditeur.
D’après ce schéma, l’auditeur perçoit le signal acoustique, identifie ensuite les caractéristiques du
signal de parole telles que les informations phonétiques, le timbre, le niveau sonore, etc. et aboutit à une
composition des paramètres perçus. D’autre part, l’auditeur, en fonction de ses expériences personnelles,
ses connaissances passées, sa motivation, son humeur, crée mentalement des paramètres du signal
auxquels il s’attend ou qu’il désire (i.e. référence interne). Cela étant, le jugement de la qualité vocale est
réalisé sur la base d’une comparaison entre les paramètres perçus et les paramètres désirés.
En somme, la qualité vocale est une notion relative, dépendante de l’interprétation que chacun donne
du signal acoustique perçu et de la référence interne que l’on se crée. Toutefois, la qualité vocale peut être
1
Un phonème est défini comme un élément sonore distinctif du langage articulé.
- 16 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
quantifiée, soit à l’aide des tests subjectifs durant lesquels des groupes d’individus jugent la qualité vocale
sur une échelle spécifique, soit à l’aide de mesures objectives (cf. § 1.4).
Ajustement Perception
Composition Composition
des paramètres des paramètres
désirés perçus
Réflexion Réflexion
Paramètres Paramètres
Comparaison
désirés perçus
Jugement
Qualité
perçue
Description
Auditeur
Figure 1.4. Description du mécanisme de jugement de la qualité vocale par un auditeur, selon
Raake (Raake 2006) basée l'étude de Jekosch (Jekosch 2005). Les cercles correspondent aux
procédures et les rectangles aux transformations faites par l’auditeur
Dans le domaine des télécommunications, le terme le plus communément utilisé dans les
télécommunications quand on parle de qualité est la Qualité de Service ou QoS (Quality of Service).
Cette dernière est définie comme « l'ensemble des caractéristiques d'un service de télécommunications
permettant de satisfaire aux besoins explicites et implicites de l'utilisateur du service » (ITU-T 2008d).
Autrement dit, elle désigne l’ensemble des caractéristiques techniques d’un service permettant de
déterminer ou de prédire le degré de satisfaction des utilisateurs. La qualité vocale est une sous-partie
prépondérante de la QoS car elle a un impact direct sur l’acceptabilité d’un service et donc de son succès
commercial. Cette notion d’acceptabilité de service est connue sous le nom de Qualité d'Expérience ou
QoE (Quality of Experience) décrite dans la norme P.10/G.100 de l'UIT-T. La QoE désigne le degré
d'acceptabilité d'une application ou d'un service par l'utilisateur (ITU-T 2006c). A la différence de la QoS
- 17 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
qui est mesurable, la QoE s’estime en questionnant les utilisateurs eux-mêmes sur leur perception de
service proposé.
Dans les relations humaines, la conversation face-à-face est la plus couramment utilisée. Cependant,
cette forme de communication s’avère délicate quand le locuteur est éloigné de l’auditeur. Les systèmes
de transmission utilisés en télécommunications sont des moyens modernes de communication permettant
d’établir une conversation entre deux individus situés loin l’un de l’autre. L’objectif de ces systèmes est
de reproduire fidèlement la conversation face-à-face tout en conservant la quasi-totalité du message
contenu dans le signal de parole. Toutefois, le signal de parole, transmis via ces systèmes, est soumis à
des mécanismes de traitement introduisant ainsi des dégradations.
La Figure 1.4 décrit un exemple de scénario d’un système de transmission téléphonique. Tout d’abord,
à l’émission, le signal acoustique prononcé par le locuteur, aussi appelé signal utile, est capté par le
microphone du terminal téléphonique. Ce microphone capte en plus du signal utile, les signaux présents
dans l’environnement du locuteur tel que le bruit ou l’écho. Le signal résultant est ensuite converti en
signal électrique numérisé suivi d’un processus de suppression des signaux indésirables, codé et transmis
via un réseau. A la réception, le signal transmis est décodé et suite à des étapes d’amélioration de la
qualité du signal, le signal résultant est reconverti en signal acoustique. Ce signal acoustique parvient à
l’oreille de l’auditeur via l’écouteur de son terminal.
Cette partie décrit l'ensemble des éléments importants intervenant lors d’une communication
téléphonique et les dégradations qu’ils engendrent.
- 18 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
Les dégradations présentes dans ce réseau sont similaires à celles des réseaux analogiques auxquelles
s’ajoute le délai lié à la numérisation.
Signal dégradé
y(t) A
y(k) CNG Décodeur PLC
D
e(t) Réseau
AEC
Echo
A
NR DAV Codeur
D
s(t)
x(k)
Signal utile
n(t)
Bruit
Figure 1.4. Synthèse des éléments composant un système de transmission vocale. A/D représente un convertisseur
analogique/numérique, AEC (Acoustic Echo Canceller : annuleur d’écho), NR (Noise Reduction : réducteur de Bruit),
DAV (Détecteur d’Activité Vocale), PLC (Packet Loss Concealment : mécanisme de masquage de pertes de paquets) et
CNG (Confort Noise Generation : Générateur de bruit de confort)
- 19 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
Le mode d’envoi et de réception des paquets IP est particulier. En effet, les paquets sont acheminés
dans plusieurs réseaux indépendants les uns des autres, les routeurs assurant l'acheminement de chaque
paquet à travers le réseau en empruntant le chemin a priori le plus court. Cependant, il arrive parfois que
les paquets arrivent soit aléatoirement, soit en retard ou bien soient perdus. On assiste dès lors à un délai
variable en fonction du retard de chaque paquet au niveau du récepteur. Ce délai variable est appelé gigue.
Afin d’obtenir un signal continu, des buffers de gigue sont introduits au niveau du récepteur avant le
décodage afin d’annihiler l’effet de la gigue ou de remettre les paquets affluant dans le bon ordre.
Toutefois, la taille des buffers étant limitée, une gigue trop importante peut entraîner une surcharge des
buffers, conduisant ainsi à des pertes de paquets pouvant être aléatoires ou en rafales.
Les dégradations identifiées dans la VoIP sont généralement les pertes de paquets et le délai de bout
en bout mais aussi l’instabilité de la QoS dans le temps.
L’objectif du codage de la parole est de comprimer le signal de parole, i.e. de réduire le débit du signal
afin de l’adapter au canal de transmission. Le système de codage de la parole comprend le codeur et le
décodeur. Le codeur analyse le signal afin d’extraire un nombre réduit de paramètres pertinents
représentés par un nombre réduit de bits. Quant au décodeur, il utilise ces paramètres pour reconstruire un
signal de parole synthétique. Les algorithmes de codage de la parole peuvent être regroupés en quatre
catégories :
codage par forme d’onde (waveform coding) : c’est un ensemble de techniques visant à
reproduire le plus fidèlement possible la forme d’onde du signal de parole. On distingue les
techniques MIC (Modulation d’Impulsion Codée) ou PCM (Pulse Coding Modulation), MICDA
(MIC Différentiel Adaptatif) ou AD-PCM (Adaptive Differential PCM), MICDA-SB (MICDA en
Sous-Bande) ou SB-ADPCM (Sub-Band ADPCM) ;
codage par transformée (Transform Coding) : son but est de transformer le signal temporel
dans un espace de représentation où l’élimination de la redondance d’échantillons dans le signal
de parole est plus nette. Les techniques de type MDCT (Modified Discrete Cosine Transform) et
MLT (Modulated Lapped Transform) appartiennent à cette catégorie ;
codage paramétrique (parametric coding) : aussi appelés vocodeurs (voice coders), les codecs
paramétriques ont pour objectif de modéliser le processus de production de la parole afin de
transmettre seulement les paramètres importants d’un point de vue perceptif. On distingue
principalement les techniques LPC (Linear Predictive Coding), CELP (Coded-Excited Linear
Prediction) (Schroeder and Atal, 1985)] et ACELP (Algebriac CELP) ;
codage hybride (hybrid coding) : ce type de codage utilise au moins deux techniques de codage
(ex. PCM/MDCT).
Les codecs de la parole sont caractérisés par le débit utilisé, la taille de la fenêtre d’analyse du signal,
la complexité des algorithmes de codage et le délai lié au processus de codage et décodage du signal. La
qualité d’un codec réside dans un compromis entre ces différentes caractéristiques. Le Tableau 1.2
résume les différents codecs couramment utilisés dans les systèmes de télécommunications en fonction de
leurs caractéristiques.
- 20 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
Largeur de la bande
codec Type de codage Débits (kbits/s)
passante
G711 Forme d’onde (PCM) 64
G.726 Forme d’onde (ADPCM) 16 - 40
G.728 Paramétrique (CELP) 16
G.729 Paramétrique (CS-ACELP) 8 – 11,8
NB GSM-FR Paramétrique (RPE-LTP) 13
GSM-EFR Paramétrique (ACELP) 12.2
AMR Paramétrique (ACELP) 4,75 - 12,2
EVRC Paramétrique (RCELP) 0,8-8,55
iLBC Paramétrique (LPC) 13,33-15,2
G722 Forme d’onde (SB-ADPCM) 48 - 64
G722.1 Codage par transformée (MLT) 24 - 32
AMR-WB ou G722.2 Paramétrique (ACELP) 6,6 - 23,85
WB
G729.1 Hybride (CS-ACELP/TDAC) 14 - 32
G711.1 Hybride (Log.PCM/MDCT) 64 - 96
G718 Hybride (CELP/MDCT) 8 - 32
G722.1C Codage par transformée (MLT) 24 - 48
AMRWB+ Hybride (ACELP/TCX) 13,6 - 24
Speex Paramétrique (CELP) 2,15 – 44,2
SWB Hybride (CELP/MDCT/TD-
G718B 36 – 48
BWE)
Hybride (CELP/MDCT/TD-
G729.1E 36 – 64
BWE)
Tableau 1.2. Liste de quelques codecs utilisés dans les systèmes de télécommunications
Comme leur nom l’indique, ces systèmes sont des dispositifs de traitement de signal dont le but est
d’améliorer la qualité du signal transmis à travers les systèmes de télécommunications. On distingue
- 21 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
principalement les annuleurs d’écho, les réducteurs de bruit et les systèmes de contrôle automatique de
gain.
Il s’agit de l’interface physique entre l’utilisateur et le système de transmission. Elle sert à l’émission
et à la réception du signal. Cette interface peut être un casque audio, un terminal mains-libres ou un
combiné. La qualité de ces interfaces dépend de celle des deux transducteurs (microphone et haut-parleur),
et aussi des systèmes de traitement de signal tels que la réduction de bruit, les systèmes de réglage du
niveau sonore de la parole etc.
- 22 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
Les transducteurs peuvent engendrer des distorsions fréquentielles dues au couplage entre le terminal
et la tête de l’utilisateur. De plus, l’utilisation des terminaux mains-libres peut causer un effet de
réverbération acoustique2 ou d’écho influençant la réponse en fréquence de l’ensemble du système de
transmission.
Comme nous l’avons vu dans la section 1.2.2, la qualité vocale est un facteur important de la QoS.
Pour offrir des services de meilleure qualité à leurs clients, les opérateurs de télécommunications se
doivent d’évaluer en permanence la qualité vocale perçue par les utilisateurs. Cette évaluation consiste à
apprécier la capacité des services de télécommunications à transmettre fidèlement le contenu du signal
vocal en générant le moins possible de dégradations. Autrement dit, cela revient à mesurer l’impact des
différentes dégradations, introduites par ces systèmes, sur la qualité vocale. Cela étant, la qualité vocale
peut être évaluée soit à l'aide de tests subjectifs soit en utilisant des outils de mesures objectives. Cette
partie est consacrée à la description de ces différentes méthodes d'évaluation de la qualité. Avant
d’aborder ces différentes méthodes, il est nécessaire de se familiariser avec certaines définitions
couramment utilisées et définies dans la norme P.10 de l’UIT-T (ITU-T 2006c).
1.4.1. Définitions
Un modèle est dit paramétrique s’il utilise des mesures physiques du système à évaluer (i.e. des
informations issues des statistiques du réseau) pour estimer la qualité vocale.
Un modèle est dit basé sur le signal si la qualité vocale est prédite à partir d’une analyse basée sur le
signal de parole. Il est dit avec référence lorsque cette prédiction est obtenue en comparant un signal de
référence (i.e. le signal non dégradé) à un signal dégradé, signal résultant du passage du signal de
référence à travers un système de télécommunications. Il est dit sans référence si elle (i.e. la prédiction
de la qualité vocale) ne nécessite que le signal dégradé.
Une mesure est dite intrusive si elle nécessite l’introduction d’un signal (pas forcément de référence)
dans le système à évaluer.
Généralement, la note de la qualité vocale issue soit d’un test subjectif ou d’un modèle objectif s’écrit
sous la forme MOS-XQYZ dont la signification est donnée dans la Figure 1.5.
2
Les sons, quel que soit le milieu dans lequel ils se propagent, subissent des réflexions sur les solides qui les
entourent (sol, murs,…) et l’ensemble des réflexions est connu sous le nom de réverbération acoustique.
- 23 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
Figure 1.5. Récapitulatif des notes de la qualité définies en fonction du contexte d’évaluation, de la nature de la
mesure et de la largeur de la bande passante du système sous test
Le jugement de la qualité vocale est avant tout une notion subjective liée à la perception humaine. La
meilleure façon d'évaluer la qualité vocale est d'effectuer des tests dits « subjectifs ». Le test subjectif
consiste à faire appel à des utilisateurs et de leur demander leur opinion sur des séquences audio
impactées par une condition de dégradation, à l’aide d’une échelle de qualité. Notons que cette perception
de la qualité diffère d’une personne à une autre. Elle dépend de plusieurs facteurs tels que l’état
émotionnel de la personne, son âge, le contexte d’évaluation de la qualité (cf. § 1.4.1.1). En général, les
notes des participants pour une condition donnée sont moyennées afin d’obtenir une note d’opinion
moyenne ou MOS (Mean Opinion Score), comme définie dans la recommandation P.10 de l’UIT-T (ITU-
T 2006c)].
Les tests subjectifs se regroupent principalement en deux grandes catégories : la première catégorie
correspond aux tests consistant à noter la qualité sur une échelle unique ; on parle alors de test
d’évaluation unidimensionnelle de la qualité. Quant à la seconde catégorie de tests dite
multidimensionnelle, elle permet d’évaluer la qualité vocale sur plusieurs échelles.
Avant de décrire les différentes catégories de tests subjectifs, il est essentiel d’aborder les différents
contextes d’évaluation de la qualité vocale.
- 24 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
- 25 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
- 26 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
1.4.2.2.4. Test MUSHRA (MUlti Stimulus test with Hidden Reference and Anchor)
Le test MUSHRA est une méthode destinée à l’évaluation subjective des systèmes audio de qualité
moyenne. Il est défini dans la recommandation BS.1534 de l’UIT-R (ITU-R 2003). Ce test comporte deux
étapes. La première étape consiste à identifier l’échantillon de référence, caché parmi des séries
d’échantillons dégradés. Quant à la deuxième étape, elle consiste à demander aux auditeurs d’évaluer la
qualité vocale des échantillons dégradés par rapport au signal de référence identifié lors de la première
étape, sur une échelle continue représentée dans le Tableau 1.6. L’intérêt de cette méthode est qu’il est
possible de tester un maximum de 15 signaux sur une même interface avec au moins un signal de
référence caché.
- 27 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
les signaux de parole et du bruit de fond (e.g. l'intelligibilité, l'acceptabilité). Cependant, un tel test est très
coûteux et consommateur de temps puisque les participants doivent être formés à l'avance.
1.4.2.3.2. P.MULTI
Le P.MULTI est un projet actuellement piloté par la commission d’étude 12 de l’UIT-T (ITU-T 2011d)
visant à développer une méthode d’évaluation subjective multidimensionnelle de la qualité vocale. Ce
projet est très proche de l’approche du DAM (i.e. détectabilité des dégradations). La différence réside
dans le fait que, dans le P.MULTI, les participants évaluent les stimuli sur 7 échelles continues – allant de
0 (non détectable) à 5 (fortement détectable) – dont 3 sont destinées aux caractéristiques de la parole, 2 au
bruit de fond, les 2 dernières à la fois à la parole et au bruit de fond.
Les méthodes d’évaluation subjective de la qualité vocale sont des méthodes fiables puisqu’elles
représentent le jugement humain de la qualité vocale. Cependant, force est de reconnaître qu’elles sont
très coûteuses en temps et en moyens financiers (il faut rétribuer les participants aux tests). C’est la raison
pour laquelle des méthodes d’évaluation dites « objectives », de la qualité vocale sont proposées comme
alternative aux méthodes subjectives. Les méthodes objectives les plus classiques regroupent les mesures
simples de traitement de signal telles que le Rapport Signal-à-Bruit (RSB) simple ou segmental, la
distance cepstrale, l’Erreur Quadratique Moyenne (EQM), etc. dont le but est de fournir des informations
sur le degré d’une distorsion donnée (e.g. le RSB permet d’estimer le niveau du bruit par rapport à celui
du signal de parole). Le lecteur pourra trouver plus de détails sur ces méthodes dans (Zango 2013),
(Loizou 2013). Cependant, les études réalisées par Quackenbush (Quackenbush and Barnwell 1985), Lam
(Lam et al. 1996) et Côté (Côté et al. 2008) ont montré que ces méthodes ne sont pas correctement
corrélées aux notes subjectives. D’autres méthodes plus complexes et plus élaborées, appelées
« modèles », utilisent des fonctions mathématiques afin de prédire, de manière automatique, les notes
issues des tests subjectifs, tout en assurant une forte corrélation entre les notes prédites et les notes
subjectives.
Cette partie est consacrée à la description des modèles objectifs. Notons que suivant (Guéguin et al.
2008), les modèles objectifs actuels peuvent être catégorisés suivant trois critères :
la nature de l’information (extraite du réseau ou du signal) utilisée lors de la modélisation ;
- 28 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
1.4.3.1.1. Modèle E
Le modèle E est un modèle non intrusif de planification et de prévision de la qualité vocale de la
transmission de bout en bout. Il a été développé par l’ETSI (ETSI 1996) comme un outil bout-en-bout
pour les concepteurs de réseaux et normalisé plus tard par l’UIT dans la recommandation G.107 (ITU-T
2003a). Le modèle E permet de mesurer les dégradations dues à l’écho, au délai de transmission et celles
liées aux systèmes de transmission modernes tels que les dégradations non linéaires liées aux codecs à bas
débit. Il permet ainsi de prédire la qualité vocale dans un contexte de conversation. La qualité de
transmission est exprimée à l’aide d’un scalaire appelé « facteur d’évaluation de transmission », noté R ,
dont l’expression est donnée par :
R R0 I s I d I e,eff A (1.3)
où R0 représente le Rapport Signal-à-Bruit (RSB) incluant les sources de bruit telles que le bruit de
circuit (i.e. le bruit provenant du réseau) ou le bruit d’environnement du locuteur et de l’auditeur. Le
paramètre I s est une combinaison de toutes les dégradations présentes sur le signal de parole. Le facteur
I d quantifie les dégradations causées par le délai et l’écho. Quant au paramètre I e,eff , il permet d’estimer
l’ensemble des dégradations dues aux codecs bas-débit et aux pertes de paquets. Enfin, le facteur
d'avantage A permet au modèle E de prendre en compte l'indulgence des utilisateurs vis-à-vis de la
qualité des systèmes de communication utilisés (système filaire, mobile, le terminal utilisé, l'emploi du kit
mains-libres ou le combiné). Dans le contexte de la téléphonie en bande étroite, les valeurs de paramètre
R varient entre 0 (qualité très mauvaise) et 100 (qualité excellente). Par ailleurs, le facteur R peut être
transformé en note MOS (échelle variant de 1 à 5) comme suit :
1 si R 0
MOSCQE 1 0,035R R R 60 100 R 7.10 6
si 0 R 100 , (1.4)
4,5 si R 100
où MOSCQE est l’estimation de la qualité vocale en situation de conversation. Une version simplifiée du
modèle E a récemment été proposée dans (Assem 2013). Cette version prend uniquement en compte les
dégradations causées par les codecs et l’état du réseau. Son expression est donnée par :
R R0 I codec I packetloss I delay (1.5)
où les paramètres I codec , I packetloss et I delay permettent de quantifier respectivement les défauts introduits
par les codecs, les pertes de paquets et le délai de transmission.
Le modèle E était essentiellement destiné aux communications téléphoniques en bande étroite
jusqu’en 2011. Son extension aux transmissions en bande élargie est normalisée dans la recommandation
G.107.1 de l’UIT-T où la valeur maximale du facteur R est de 129 (ITU-T 2011b). Par ailleurs,
- 29 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
Wältermann et al. (Wältermann et al. 2010) ont proposé une version du modèle E dans un contexte
téléphonique en bande super-élargie, avec Rmax 179 .
1.4.3.1.2. Modèle CCI (Call Clarity Index ou indice de netteté des logatomes)
Le modèle CCI permet de prédire la qualité vocale en contexte de conversation et est défini dans la
recommandation P.562 de l’UIT-T (ITU-T 2004c). C’est un outil équivalent au modèle E mais applicable
en un point (mono-extrémité). La qualité vocale est prédite à partir des informations issues d’un dispositif
de mesure non intrusif appelé INMD (In-service Non-intrusive Measurement Devices), décrite dans la
norme P.561 de l’UIT-T (ITU-T 2002). Ce dispositif permet d’obtenir des informations relatives au
système de transmission (e.g. niveau sonore global de la parole, niveau de bruit, atténuation de l’écho,
etc.).
- 30 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
- 31 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
ks z
Pss l , z
Pss l , e jk , (1.9)
k ki z
- 32 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
une analyse statistique qui décrit la variation d'une variable aléatoire expliquée en fonction d'une
variable aléatoire explicative. Autrement dit, elle permet d’expliquer la relation entre les notes
subjectives et les valeurs des éléments qi à l’aide d’un polynôme de degré p . Une forme simple
de régression polynomiale couramment utilisée est la régression linéaire ( p 1 ) qui est une
combinaison des différents éléments d’estimation de qualité qi . L’équation (1.13) s’écrit alors
sous la forme :
M
MOS p a0 ai qi , (1.14)
i 1
où les ai sont des coefficients de pondération et M est le nombre total d’éléments de qualité.
Modélisation
Estimation de la
psycho-
qualité vocale
x(k) acoustique
Pré-traitement
Note
prédite
Représentation
Ajustement du
niveau sonore
Simulation de
Comparaison
la réponse en
Modélisation
Alignement
fréquence
Système à
temporel
cognitif
interne
tester
y(k)
s(k)
Correspondance temps-fréquence Pss(l,k) Prédistorsion Pss(l,z) Prédistorsion Lss(l,z)
Fenêtrage TFCT |·| de fréquence en intensité
- 33 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
bande-étroite dans un contexte d’écoute. Il fournit une note de prédiction de la qualité vocale sur une
échelle allant de -0,5 (dégradation très gênante) à 4,5 (dégradation imperceptible). Plus tard, cette note
prédite a été transformée à l’aide d’une fonction de correspondance de sorte qu’elle varie de 1 à 5 (échelle
MOS des tests subjectifs classiques définis dans la norme P.800 de l’UIT-T (ITU-T 1996)). Cette
fonction de correspondance a été normalisée par l’UIT-T sous la recommandation P.862.1 (ITU-T 2003b).
L’extension de PESQ à la bande élargie est définie dans la recommandation P.862.2 de l’ITU-T (ITU-T
2007a).
1.4.3.2.1.3. Modèle POLQA (Perceptual Objective Listening Quality Assessment)
Si PESQ permet d’obtenir une bonne prédiction de la qualité vocale dans le contexte de
communications téléphoniques classiques en bande étroite, il présente plusieurs limitations. En fait, avec
l’émergence de plus en plus importante des nouvelles technologies, en particulier la convergence des
services de la voix, des données et du multimédia, on assiste à l’apparition de nouveaux types de
dégradation tels que le time warping (délai variant dans le temps), des distorsions non linéaires produites
par les terminaux, etc. Ces nouvelles distorsions ont rendu le modèle PESQ obsolète. Par ailleurs, l’étude
effectuée par Côté et al. (Côté et al. 2006) a montré que son extension à la téléphonie en bande élargie
(ITU-T 2007a) ne tenait pas compte des bruits de quantification engendrés par certains codecs. Enfin,
PESQ ne permet pas d’obtenir d’informations précises sur la nature des dégradations présentes dans le
signal de parole (ITU-T 2004b). Il a ainsi été proposé dans (ITU-T 2007d) de développer un nouveau
modèle adapté aux nouveaux contextes de téléphonie et d’y intégrer la modélisation des familles de
défauts perçus appelées dimensions perceptives (cf. § 1.5), qui sont des éléments essentiels de notre étude.
C’est dans cette optique que l’ITU-T a initié un projet en 2007 dans le but de normaliser un nouveau
modèle objectif d’évaluation de la qualité vocale perçue, connu sous le nom de POLQA afin de pallier les
défauts du modèle PESQ.
POLQA est le fruit d’une collaboration entre trois compagnies (Opticom, Swissqual et TNO) et a été
normalisé par l’UIT-T en 2011 dans la recommandation P.863 (ITU-T 2011a). Contrairement à PESQ,
POLQA prend en compte en plus des signaux en bande étroite et en bande élargie, ceux en bande super-
élargie (50-14000 Hz). Il peut être utilisé pour l’évaluation de la qualité de transmission de la parole dans
les réseaux 3G, 4G/LTE et la VoIP, et des systèmes de traitement de la parole tels que les systèmes de
réductions de bruit etc.
POLQA prend uniquement en compte les dégradations liées au contexte d’écoute comme le bruit
ambiant au niveau du locuteur, les pertes de paquets… Les dégradations perçues lors d’une situation
conversationnelle telles que l’écho ou l’effet local ne sont pas prises en compte par ce modèle. Cependant,
contrairement aux modèles objectifs du contexte d’écoute, POLQA intègre un module estimant l’impact
de la réverbération sur la qualité qui est un phénomène plutôt lié au contexte de locution ou de
conversation. Par ailleurs, les signaux de référence et dégradé en entrée de ce modèle peuvent être de
nature électrique ou acoustique (i.e. les signaux sont capturés via une interface acoustique). Il fonctionne
en deux modes opératoires dont l’un est dédié exclusivement aux signaux audio en bande étroite (mode
NB) et l’autre permet une application aux signaux audio jusqu'en bande super-élargie (mode SWB) et
couvre les trois bandes audio (bande étroite, bande élargie et bande super-élargie). Il utilise
principalement le concept des modèles PSQM, PESQ ( (Rix et al. 2002) et (Beerends et al. 2002)) et des
approches proposées dans (Beerends et al. 2007). POLQA fournit une note globale de prédiction de la
qualité allant de 1 à 4,5 pour le mode NB et de 1 à 4,75 pour le mode SWB. Une description de ce modèle
sera détaillée dans le chapitre 2.
- 34 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
La Figure 1.9 récapitule l’ensemble des modèles objectifs basés sur le signal de parole avec référence
et normalisés par l’UIT-T.
Figure 1.9. Evolution des modèles objectifs de la qualité vocale normalisés par l’UIT-T
Le modèle DIAL (Diagnostic Instrumental Assessment of Listening quality) (Côté 2010b) a été
développé conjointement par Orange Labs et Deutsche Telecom. Il fut l’un des candidats à la compétition
du projet de normalisation de la norme POLQA. Tout comme le modèle POLQA, DIAL est un modèle
objectif avec référence destiné à la prédiction de la qualité vocale dans un contexte d’écoute (et ne
prenant pas en compte l’effet de réverbération). Il fonctionne aussi suivant les deux modes opératoires
NB et SWB couvrant ainsi les trois bandes audio. Sa particularité réside dans le fait qu’il est
explicitement basé sur la modélisation de quatre dimensions perceptives (Bruyance, Continuité,
Coloration et Sonie), décrites dans la section 1.5 et qui sont supposées couvrir l’ensemble des
dégradations présentes lors des communications téléphoniques. De plus, Il fournit non seulement une note
de prédiction de la qualité vocale globale MOS-LQO mais aussi une note pour chacune des 4 dimensions
perceptives. Il permet ainsi de prédire la qualité vocale et de diagnostiquer les dégradations perçues sur la
qualité vocale. Tout comme POLQA, ce modèle sera détaillé dans le chapitre 2.
- 35 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
vocale dans les communications téléphoniques en bande élargie. Il prend en compte les dégradations liées
à l’interface électro-acoustique des terminaux telles que celles dues aux transducteurs, etc.
1.4.3.2.1.6. Modèle PESQM (Perceptual Echo and Sidetone Quality Measure)
Le modèle PESQM (Appel and Beerends 2002) est l’équivalent du modèle PESQ dans le contexte de
locution. Le signal de référence est obtenu à partir du signal prononcé par le locuteur et capté par le
microphone du terminal. Quant au signal de référence, il correspond au signal du même locuteur diffusé
dans le haut-parleur du terminal. PESQM prend en compte les dégradations engendrées par le terminal
telles que l'écho et l’effet local.
1.4.2.3.1.7. Modèle objectif conversationnel
Un modèle objectif avec référence a été proposé dans (Guéguin et al. 2006c) pour évaluer la qualité
vocale dans un contexte conversationnel. Ce modèle combine à la fois les modèles perceptifs PESQ,
utilisé en contexte d’écoute, et PESQM utilisé en contexte de locution, comme montré Figure l.10. Il
fournit une note de prédiction de la qualité vocale estimée à partir de la combinaison linéaire des notes
prédites issues des modèles PESQ et PESQM et un indicateur estimant le délai de transmission. Notons
que ce modèle a fait l’objet d’une contribution au projet P.CQO (Project – Conversational Quality
Objective) (ITU-T 2013a) piloté par la commission 12 de l’UIT-T et visant à développer un modèle
objectif d’évaluation de la qualité vocale dans un contexte de conversation.
Combinaison
linéaire
MOSCQO
Figure 1.10. Principe de fonctionnement du modèle de conversation proposé dans (Guéguin et al. 2008)
- 36 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
Nous avons vu dans la section 1.4.2 que la qualité vocale est un phénomène multidimensionnel.
Plusieurs études ont été menées afin de caractériser l’espace perceptif de la qualité vocale (cf. Tableau
- 37 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
1.8). Le problème majeur dans ces différentes études est de représenter cet espace perceptif avec le
minimum d’attributs perceptifs de la qualité vocale. Une dimension de cet espace perceptif regroupe
l’ensemble des dégradations ayant les mêmes attributs perceptifs.
Dans cette section, nous abordons les différentes étapes de détermination de l’espace perceptif de la
qualité vocale avant d’exposer les principales études réalisées pour l’identification des dimensions
perceptives constituant cet espace.
- 38 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
Le Tableau 1.8 synthétise l’ensemble des attributs perceptifs associés aux dégradations perçues lors de
communications téléphoniques. Ces attributs ont été identifiés à l’issue d’études portant sur la
détermination des dimensions représentatives de l’espace perceptif de la qualité vocale.
De façon générale, les différents attributs perceptifs de la qualité vocale peuvent être regroupés en
quatre grandes dimensions perceptives :
Bruyance : identifiée par Gabrielsson (Gabrielsson and Sjögren 1979), Hall (Hall 2001), Mattila
(Mattila 2002a; 2002b), Wältermann et al. (Wältermann et al. 2006a; 2006b), Etame et al. (Etame
et al. 2010) et Zango (Zango 2013), cette dimension correspond à l’ensemble des bruits de fond
perçus sur le signal de parole. Ces bruits de fond peuvent soit provenir de l’environnement dans
lequel la communication téléphonique a lieu (e.g. bruit de car, de restaurant, etc.), soit être causés
par le réseau (bruit électrique), soit être engendrées par les codecs bas-débit (bruit de
- 39 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
quantification). Les études réalisées dans (Etame et al. 2010) ont montré que le bruit de fond
introduit par certains codecs est perceptible pendant les périodes d’activité vocale d’où l’attribut
bruit sur parole ;
Continuité : cette dimension caractérise l'ensemble des discontinuités perçues dans le signal de
parole qui peuvent être causées par des pertes de paquets ou de trames, des techniques de PLC,
des erreurs de bits lors de la transmission radio ou par des processus de traitement de signal tels
que le DAV, la réduction de bruit ou l’annulation d’écho. Elle est identifiée par Wältermann et al.
(Wältermann et al. 2006a; 2006b) et Leman (Leman 2011). Cette dimension prend en compte les
coupures (Petersen et al. 1997), (Sen 2001; Sen and Lu 2012), (Mattila 2002a; 2002b), (Bernex
and Barriac 2002) qui traduisent la perception de la perte d’une ou de plusieurs trames ;
Coloration : aussi appelée Directness/Frequency Content (Wältermann et al. 2006b), cette
dimension regroupe les dégradations liées à la réponse en fréquence de l’ensemble du système de
transmission. Autrement dit, elle est liée aux distorsions impactant l’aspect fréquentiel du signal
de parole (McDermott 1969), (Zango 2013) – par opposition à la dimension précédente qui traite
les distorsions dans le domaine temporel – et donc le naturel de la voix. McGee (McGee 1965),
Hall (Hall 2001) et Mattila (Mattila 2002a; 2002b) affectent à cette dimension l’attribut naturel
de la voix. Cet attribut est corrélé à l’attribut voix métallique/voix de robot identifié dans (Bernex
and Barriac 2002) afin de différencier la voix naturelle d’un individu et la voix synthétique issue
d’un système de traitement de signal tel que le codage. La dimension Coloration induit la notion
de brillance (Mattila 2002a) et reflète l’équilibre des niveaux fréquentiels du signal de parole.
Celle-ci est ainsi liée aux contenus des hautes ou basses fréquences d’où les attributs haute
fréquence (Gabrielsson and Sjögren 1979), (Petersen et al. 1997), (Mattila 2002b), Wältermann
et al. (Wältermann et al. 2006a) et (Sen and Lu 2012) et basse fréquence (Gabrielsson and
Sjögren 1979), (Petersen et al. 1997), Hall (Hall 2001), (Etame 2008) et (Sen and Lu 2012). La
brillance peut être impactée par les codecs bas-débit mais aussi par les systèmes d’amélioration
de la qualité vocale tels que les réducteurs de bruit, les annuleurs d’écho, etc. Par ailleurs, cette
dimension prend aussi en compte la clarté (McGee 1965), (McDermott 1969), (Gabrielsson and
Sjögren 1979), (Bappert and Blauert 1994) et (Zango 2013) de la voix définie par la facilité à
comprendre le contenu informationnel de la parole. Cet aspect de la parole englobe les
dégradations telles que la réverbération, l’écho (Zango 2013), la limitation de bande de
fréquences etc. La clarté de la voix est à rapprocher de l’intelligibilité qui correspond aux
processus auditif et cognitif d’un individu à identifier la signification d’un mot ou d’un groupe de
mots. D’autre part, les attributs sifflements et bulleux sont identifiés dans (Petersen et al. 1997),
(Sen 2001), (Mattila 2002a), (Bernex and Barriac 2002) et (Etame 2008) pour désigner les
sifflements perçus dus aux algorithmes de codage, aux PLC etc. Dans (Etame 2008) le sifflement
correspond à la présence d’une harmonique dans les hautes fréquences tandis que, pour Mattila
(Mattila 2002a), l’aspect bulleux correspond à une présence d’écho de faible intensité sur le
signal de parole.
Sonie : cette dimension, uniquement identifiée par McDermott (McDermott 1969), est relative à
une atténuation ou une amplification du niveau sonore global du signal de parole. Elle peut être
causée par des systèmes de traitement de signal tels que les transducteurs des terminaux
(microphone ou écouteur), etc.
Les études réalisées dans (Wältermann et al. 2006b) ont montré que les trois dimensions Bruyance,
Continuité et Coloration sont orthogonales, i.e. indépendantes les unes des autres, et couvrent un
nombre important de dégradations rencontrées lors des communications téléphoniques. Elles représentent
- 40 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
les dimensions les plus pertinentes de l’espace de la qualité vocale (cf. Tableau 1.8). Toutefois, les études
menées par McDermott (McDermott 1969) et Côté et al. (Côté et al. 2007) ont montré que la dimension
Sonie joue un rôle important sur la qualité vocale. En effet, lors d’une communication téléphonique, le
niveau sonore de la parole peut influencer la qualité vocale suivant qu’il est trop faible ou trop fort. Nous
pouvons donc considérer que ces quatre dimensions couvrent l’espace perceptif de la qualité vocale.
Dimensions
Haute fréquence
Basse fréquence
Brillance
de robot
Coupure
Naturel de la
voix
Coloration
Continuité
Conditions
Distorsion
Bruyance
Clarté
Sonie
Auteurs
McGee
Filtre X X
(1965)
McDermott
RTC X X X
(1969)
Gabrielsson Haut-
X X X X
(1979) parleur
Bappert
Codecs NB X X
(1994)
Petersen
Codecs NB X X X X
(1997)
Hall
Codecs NB X X X
(2001)
Mattila
GSM X X X X X
(2002a)
Mattila GSM
X X X X
(2002b) &Bruit
Bernex
VoIP (pp) X X X
(2002)
Wältermann RTC &VoIP
X X X
(2006a) (NB)
Wältermann RTC/VoIP
X X X
(2006b) (WB)
Etame
Codecs WB X X X X X
(2007)
Leman VoIP, RTC,
RNIS, GSM X X X
(2011)
Zango
Codecs WB X X X X
(2013)
Tableau 1.8. Synthèse des études portant sur la détermination des dimensions de l’espace perceptif de la qualité vocale
- 41 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
1.6. Conclusion
Dans ce chapitre, nous avons présenté les différents aspects de la transmission du signal de parole dans
un système de communication, depuis sa production jusqu’à sa perception. Nous avons vu que la qualité
vocale joue un rôle très important dans cette chaîne et demeure un enjeu économique incontournable pour
les opérateurs de télécommunications. Elle peut être impactée par les dégradations présentes dans
l’environnement telles que le bruit de fond mais aussi par les distorsions introduites par le système de
transmission telles que les coupures. Des mesures subjectives ou objectives sont utilisées afin d’évaluer
l’impact de ces dégradations sur la qualité vocale. Par ailleurs, la qualité vocale étant un phénomène
multidimensionnel, des études ont été réalisées afin d’identifier les dimensions caractérisant l’espace
perceptif de la qualité vocale. De ces études, il ressort que cet espace est composé de quatre dimensions
perceptives dont les trois premières sont orthogonales : la Bruyance relative au bruit de fond, la
Continuité adressant l’ensemble des discontinuités perçues, la Coloration regroupant les distorsions
impactant le naturel de la voix et la Sonie relative au niveau sonore global du signal de parole. Ces
dimensions couvrent ainsi l’ensemble des défauts perçus dans les communications téléphoniques et
constituent le cœur de notre étude. Chacune de ces dimensions est caractérisée par au moins un estimateur
de dégradation appelé indicateur de qualité. Une étude portant sur la performance des indicateurs de
qualité relative aux quatre dimensions perceptives sera présentée dans le chapitre suivant.
- 42 -
Chapitre 2 Indicateurs de qualité et performances
Chapitre 2
L’objet de notre étude consiste à développer un outil de diagnostic des dégradations de la qualité
vocale perçues dans les communications téléphoniques en bandes audio étroite, élargie et super-élargie,
fondé sur une analyse du signal. Autrement dit, il s’agit de développer un outil permettant d’orienter vers
les causes des dégradations perçues et de quantifier leur impact sur la qualité vocale. Dans le chapitre
précédent, nous avons vu que l’espace perceptif de la qualité vocale est constitué de quatre dimensions, à
savoir la Bruyance, la Continuité, la Coloration et la Sonie, chacune quantifiée par au moins un indicateur
de qualité. L’outil de diagnostic que nous allons développer sera fondé sur la modélisation de ces quatre
dimensions. D’autre part, il sera utilisé dans un contexte d’écoute (cf. chapitre 1, § 1.4.1.1), ce qui signifie
que les dégradations liées à des contextes conversationnels telles que l’écho, l’effet local, la réverbération
acoustique, ne seront pas prises en compte par cet outil. Dans un premier temps, l’outil à développer sera
principalement focalisé sur l’analyse des signaux audio en bande super-élargie. Il existe actuellement très
peu d’études portant sur le diagnostic des contenus audio dans cette bande. Pourtant, avec les innovations
technologiques dans le domaine des télécommunications, on assiste de plus en plus à l’extension de la
bande passante des systèmes téléphoniques classiques (i.e. bande étroite) aux contenus fréquentiels au-
delà de 7 kHz (i.e. bande super-élargie), améliorant ainsi l’intelligibilité de la parole. Toutefois, les
dégradations présentes dans les hautes fréquences deviennent audibles dans les communications
téléphoniques en bande super-élargie alors qu’elles sont atténuées dans le contexte en bande étroite, d’où
l’intérêt de concevoir un outil de diagnostic de dégradations perçus dans les communications
téléphoniques en bande super-élargie.
Concernant la modélisation des quatre dimensions perceptives, notre première démarche a consisté à
rechercher des indicateurs de qualité fiables et robustes vis-à-vis de ces dimensions, permettant ainsi
d’obtenir des informations spécifiques sur les dégradations présentes dans le signal de parole. Pour ce
faire, nous avons trouvé plus judicieux de nous intéresser, en premier lieu, aux indicateurs de qualité déjà
développés et plus particulièrement ceux présents dans des modèles objectifs d’évaluation de la qualité
vocale fondés sur une analyse du signal. Nous avons envisagé de développer de nouveaux indicateurs dès
lors que les indicateurs que nous avons identifiés dans les modèles ne sont pas fiables. Ceci étant, au
cours de notre étude, l’UIT-T venait de terminer le projet visant à normaliser le modèle POLQA (ITU-T
2011a) afin de pallier les défauts du modèle PESQ (ITU-T 2001) (cf. chapitre 1, § 1.4.3.2.1.3). Dans le
cadre de ce projet, Wältermann et al. (ITU-T 2007d) ont proposé d’introduire la modélisation des
dimensions perceptives dans le nouveau modèle. Comme nous l’avons vu dans le chapitre précédent, le
modèle DIAL (Côté 2010b), l’un des six modèles proposés comme candidat pour cette compétition, est
explicitement fondé sur les quatre dimensions énumérées plus haut. Quant au modèle POLQA, la
présence d’indicateurs de qualité qu’il intègre sous-entend une caractérisation implicite des quatre
dimensions perceptives, comme nous le verrons dans la section 2.2.
Aussi, dans notre étude, nous sommes nous particulièrement intéressés aux modèles DIAL et POLQA
pour trois raisons principales : (1) ils sont représentatifs des premiers modèles objectifs capables de
- 43 -
Chapitre 2 Indicateurs de qualité et performances
caractériser les défauts perçus dans les communications en bande super-élargie, (2) leurs codes nous sont
accessibles, (3) ils intègrent explicitement ou implicitement les quatre dimensions sur lesquelles notre
outil sera fondé. Par ailleurs, nous avons envisagé de considérer deux autres modèles fondés sur les trois
premières dimensions et destinés uniquement aux signaux en bande étroite respectivement proposés par
Leman (Leman 2011)] et Wältermann et al. (Wältermann et al. 2008). Le premier modèle, appelé
DESQHI (Diagnostic and Speech Quality using Hybrid Indicators), est hybride, i.e. il combine à la fois
des indicateurs paramétriques (issus des statistiques du réseau) et des indicateurs fondés sur une analyse
du signal. Sa particularité est qu’il fournit des informations sur les origines des dégradations perçues.
Nous avons aussi analysé ce modèle en raison de cette particularité. Quant au modèle proposé dans
(Wältermann et al. 2008)], la quasi-totalité des indicateurs de qualité qu’il intègre sont identifiables dans
le modèle DIAL et il ne fera donc pas l’objet de développement dans cette étude.
Il est essentiel de mentionner que notre objectif n’est pas d’évaluer les performances des modèles
définis ci-dessus du point de vue de la prédiction de la qualité mais vise plutôt à y rechercher des
indicateurs fiables et robustes pour un diagnostic avancé des dégradations perçues dans les
communications téléphoniques.
Dans ce chapitre, nous allons d’abord décrire le principe de fonctionnement des trois modèles étudiés
(POLQA, DIAL et DESQHI) suivi de l’identification des indicateurs de qualité intégrés dans ces modèles
et de l’évaluation de leurs performances.
Les modèles POLQA, DIAL et DESQHI ont déjà été introduits dans le chapitre précédent. Cette partie
est consacrée à la description du mécanisme de fonctionnement de ces modèles. La structure générale des
modèles avec référence, auxquels appartiennent les modèles POLQA et DIAL, a été décrite dans le
chapitre 1, §1.4.3.2.1. Dans cette partie, il s’agit de présenter les spécificités de chaque modèle.
Nous avons vu dans le chapitre 1, §1.4.3.2.1.3, que le modèle POLQA (ITU-T 2011a) fonctionne en
deux modes opératoires dont l’un (mode NB) est consacré exclusivement aux signaux audio en bande
étroite et l’autre (mode SWB) couvrant les trois bandes audio (bande étroite, bande élargie et bande
super-élargie). De plus, il fournit une note globale de prédiction de la qualité. La Figure 2.1 décrit le
mécanisme du modèle POLQA. Sa présentation originale telle que donnée dans la norme P.863 (ITU-T
2011a) a été modifiée afin de mettre en exergue les indicateurs de qualité dont certains sont explicitement
décrits dans la recommandation et d’autres que nous avons identifiés suite à l’analyse du modèle (cf.
Figure 2.1). Son fonctionnement comprend les étapes suivantes :
pré-traitement : dans un premier temps, le délai induit par le système de transmission est estimé
afin de synchroniser temporellement le signal dégradé sur le signal de référence. Dans POLQA,
l’algorithme de cet alignement temporel est fondé sur une technique de ré-échantillonnage. Tout
d’abord, les signaux de référence et dégradé sont divisés en trames de taille identique. Le délai
par trame entre les signaux de référence et dégradé est calculé suivi d’une estimation de la
fréquence d’échantillonnage de ces signaux. Si les fréquences d’échantillonnage estimées sont
différentes d’au moins 1%, le signal ayant la fréquence d’échantillonnage la plus élevée est sous-
échantillonné et le délai est à nouveau estimé. Le processus est répété jusqu’à ce que l’ensemble
- 44 -
Chapitre 2 Indicateurs de qualité et performances
des délais soit correctement calculé. Dans un second temps, les niveaux sonores des signaux de
référence et dégradé résultant de l’alignement temporel sont égalisés à un niveau d’écoute
étalonné correspondant à -26 dBoV. Enfin, pour simuler la réponse en fréquence d’un terminal
récepteur (e.g. un téléphone portable), des filtrages sont appliqués aux signaux de référence et
dégradé en fonction du mode opératoire. Ainsi, dans le mode NB, les deux signaux sont filtrés par
le filtre du Système de Référence Intermédiaire (SRI) (ITU-T 1988b) tandis que dans le mode
SWB, aucun filtrage n’est appliqué ;
modèle cœur : une fois le pré-traitement effectué, les signaux de référence et dégradé résultants
sont transformés en leur représentation interne dont les différentes étapes (correspondance temps-
fréquence, prédistorsion des fréquences et prédistorsion d’intensité) sont décrites dans le chapitre
1, § 1.4.3.2.1. Dans POLQA, la phase de correspondance temps-fréquence consiste d’abord à
multiplier les signaux de référence et dégradé par une fenêtre de Hanning suivant l’équation (1.6)
avec un recouvrement de 50%. L’expression de la fenêtre de Hanning (notée wH k ) est donnée
par :
k
wH k 0,5 1 cos 2 , 0 k N , (2.1)
N
où N est la taille de la taille de la fenêtre dont l’expression dépend de la fréquence
d’échantillonnage f e (en kHz) des signaux de référence et dégradé :
256, si 0 f e 9
512 , si 9 f e 18
N . (2.2)
1024, si 18 f e 36
2048, si 36 f e 72
Les signaux de référence et dégradé résultant du fenêtrage sont ensuite transformés dans le
domaine fréquentiel au moyen d’une transformée de Fourier à court-terme (cf. équation (1.7)). Il
s’ensuit l’estimation de la DSP des signaux de référence et dégradé suivant l’équation (1.8).
Notons qu’une des particularités du modèle POLQA est qu’il intègre une étape supplémentaire
consistant à synchroniser les signaux de référence et dégradé, issus de la phase de correspondance
temps-fréquence précédente, dans le domaine fréquentiel. Une fois cette étape achevée, la phase
de prédistorsion des fréquences est effectuée en transformant les signaux de référence et dégradé
du domaine fréquentiel au domaine des bandes critiques selon l’équation (1.9). Enfin, les deux
signaux issus du domaine des bandes critiques sont transformés en sonie suivant l’équation (1.11).
Dans POLQA, l’expression de la puissance de Zwicker est définie par :
0,22 zB Pfn , (2.3)
où z B est un paramètre dépendant de la bande critique z et définie par :
0,03z 1,06, si z 2
zB 1, si 2 z 22 , (2.4)
0, 2 z 22 1, si z 22
et Pfn est un facteur d’échelonnement dont l’équation est donnée par :
- 45 -
Chapitre 2 Indicateurs de qualité et performances
avec Px' x' la DSP en Bark du signal de référence résultant du pré-traitement. A partir de la
représentation interne des signaux de référence et dégradé, quatre variantes de densité de
similarité sont calculées. De ces variantes de similarité, deux densités de similarité finales sont
estimées, dont l’une permet de quantifier les distorsions liées aux systèmes de transmission et
l’autre quantifie les distorsions additives telles que le bruit présent dans le signal de parole. Par
ailleurs, POLQA intègre des indicateurs de qualité permettant de quantifier des dégradations
particulières de la qualité vocale. La description de ces indicateurs est détaillée dans la section
2.2 ;
modèle cognitif : après plusieurs étapes de compensation effectuées sur les deux densités de
similarité finales, ces dernières sont combinées aux indicateurs afin de produire la note globale
MOS-LQO de la qualité vocale.
Le modèle DIAL (Côté 2010b), tout comme POLQA, est un modèle avec référence fonctionnant
suivant les deux modes opératoires NB et SWB. Sa particularité est qu’il est explicitement fondé sur les
quatre dimensions perceptives (Bruyance, Continuité, Coloration et Sonie) et fournit, en plus d’une note
globale de prédiction de la qualité vocale, une note pour chacune des dimensions. La Figure 2.2 illustre le
principe du modèle DIAL dont le fonctionnement est le suivant :
pré-traitement : tout comme dans POLQA, cette étape inclut l’alignement temporel, la
normalisation du niveau des signaux de référence et dégradé à -26dBoV ainsi que la simulation
- 46 -
Chapitre 2 Indicateurs de qualité et performances
de la réponse en fréquence du terminal récepteur. L’alignement temporel de DIAL est fondé sur
celui de PESQ (ITU-T 2001) complété par un algorithme d’estimation de l’effet des délais variant
dans le temps (ou time warping). Quant à la simulation de la réponse en fréquence d’un terminal
récepteur en bande étroite (mode NB), les signaux de référence et dégradé sont filtrés par un filtre
à Réponse Impulsionnelle Finie (RIF) dont la réponse en fréquence est semblable à celle du filtre
SRI. En mode SWB, un filtre dont la réponse en fréquence est aplatie dans la bande (50-14000
Hz) est appliqué aux deux signaux ;
modèle cœur : le modèle cœur de DIAL est principalement fondé sur le modèle perceptif du
modèle TOSQA (ITU-T 1997a). Pour la phase de correspondance temps-fréquence, les deux
signaux sont pondérés par une fenêtre de Hanning de 16 ms de longueur (ce qui correspond à 128
échantillons en mode NB et 768 en mode SWB) avec un recouvrement de 50%. Les DSP en Bark
des signaux de référence et dégradé sont obtenues selon l’équation (1.8) (prédistorsion
fréquentielle). A la différence de POLQA, DIAL n’utilise pas d’alignement fréquentiel entre les
signaux de référence et dégradé. Enfin, la transformation en sonie des signaux de référence et
dégradé est effectuée suivant l’équation (1.11) (prédistorsion d’intensité). Dans DIAL, les
paramètres Sl et sont constants et valent respectivement 0,23 et 1,3733 . La particularité du
modèle cœur de DIAL est qu’il permet d’estimer les dégradations non linéaires introduites par
des systèmes de traitement de la parole tels les codecs à bas-débit. Il prend aussi en compte l’effet
des fortes discontinuités et des variations abruptes du bruit présentes pendant les périodes
d’activité vocale (ces périodes sont déterminées à l’aide d’un DAV). L’impact de ces
dégradations non linéaires est estimé à partir de la différence entre les représentations internes des
signaux de référence et dégradé ;
dimensions perceptives : les blocs 1 à 4 de la Figure 2.2 correspondent à la modélisation des
quatre dimensions perceptives dont les indicateurs seront détaillés dans la section 2.2 ;
modèle cognitif : la note globale MOS-LQO est obtenue en combinant les notes MOS prédites
issues du modèle cœur et des dimensions perceptives grâce à une technique d’apprentissage
automatique (ou machine learning) appelée méthode des k plus proches voisins (ou k-nearest
neighbors (k-NN)).
A la différence de POLQA et de DIAL, DESQHI (Leman 2011) est un modèle sans référence et
hybride destiné à la téléphonie en bande étroite. DESQHI est explicitement construit sur trois dimensions
perceptives : la Bruyance, la Continuité et la Coloration. Il faut souligner que la base sonore qui a été
utilisée dans (Leman 2011) pour la détermination de l’espace perceptif de la qualité ne contenait pas de
conditions relatives à l’atténuation/amplification du niveau sonore global du signal de parole. Ceci
expliquerait la raison pour laquelle la dimension Sonie n’a pas été prise en compte dans le modèle
DESQHI. Tout comme DIAL, DESQHI fournit, en plus de la prédiction de la qualité globale, une
prédiction pour chacune des dimensions. Du plus, une autre particularité du modèle est qu’il permet
d’identifier les causes éventuelles des dégradations présentes dans le signal de parole, notamment
l’identification du type de codage ou transcodage employé lors de la télécommunication.
Dans notre étude, nous nous intéressons essentiellement aux indicateurs fondés sur une analyse du
signal de parole. De ce fait, nous avons modifié la présentation générale de DESQHI afin de mettre
uniquement en exergue ces indicateurs (cf. Figure. 2.3). Son fonctionnement comprend (i) un module de
- 47 -
Chapitre 2 Indicateurs de qualité et performances
détection active de la voix (DAV) fondé sur l’annexe B de la recommandation G.729 de l’UIT-T (ITU-T
2006a), (ii) une modélisation des différentes dimensions perceptives et (iii) une prédiction de la qualité
globale MOS-LQO. Cette prédiction est obtenue par combinaison linéaire des notes MOS prédites
correspondant aux trois dimensions.
Dans la section 2.1, nous avons brièvement présenté de récents modèles d’évaluation objective de la
qualité vocale. Nous avons vu que les modèles DIAL et DESQHI sont explicitement fondés sur des
dimensions perceptives. Quant au modèle POLQA, il intègre des indicateurs de qualité caractérisant
implicitement les dimensions perceptives. Dans cette section, nous allons identifier les différents
indicateurs de qualité que renferment ces modèles.
Les études réalisées par Huo et al. (Huo 2008a, 2008b; 2007), Leman et al. (Leman et al. 2008) et
Scholz et al. (Scholz et al. 2006)], ont montré que les dimensions Bruyance, Continuité et Coloration
peuvent être divisées en sous-dimensions. Comme nous le verrons par la suite, la plupart de ces sous-
dimensions proposées dans (Huo et al. 2008a, 2008b; 2007) et (Scholz et al. 2006) sont modélisées dans
DIAL. De plus, notre analyse des indicateurs du modèle POLQA nous a permis de les rattacher à ces
sous-dimensions. Cependant, ces découpes en sous-dimensions sont quelque peu différentes de celles
proposées par Leman et al. (Leman et al. 2008) notamment celle de la dimension Bruyance, ce qui rend
difficile une comparaison entre les indicateurs de DESQHI d’une part et ceux de POLQA et DIAL d’autre
part. Cela étant, nous allons d’abord décrire les dimensions par rapport aux sous-dimensions sur
lesquelles les différents modèles sont fondés. Ensuite nous identifierons les indicateurs dans chaque
- 48 -
Chapitre 2 Indicateurs de qualité et performances
modèle par rapport aux sous-dimensions que ces modèles intègrent, puis nous établirons un
rapprochement entre les différents indicateurs identifiés.
Cette dimension regroupe l’ensemble des bruits de fond présents dans les communications
téléphoniques en plus du signal de parole. Ces bruits peuvent être issus de l’environnement (bruit de
restaurant, habitacle de voiture, …) ou artificiels (bruits issus des réseaux, bruits de quantification causés
par les codecs, …). Une étude réalisée par Huo et al. (Huo et al. 2008a) sur un ensemble de bruits
représentatifs de conditions réelles a permis de mettre en exergue trois sous-dimensions pour la
dimension Bruyance :
Bruit Corrélatif (ou Speech Contamination) : cette sous-dimension caractérise la perception du
bruit corrélé à la parole ;
Bruit Additif (ou Additive Noise Level) : cette sous-dimension décrit le niveau du bruit additif
présent dans le signal de parole pendant les périodes de silence ;
Coloration du Bruit (ou Noise Coloration) : cette sous-dimension reflète l’effet du contenu
spectral du bruit.
Dans DIAL, la modélisation de cette dimension n’est pas explicitement fondée sur ces trois sous-
dimensions. Néanmoins, elle intègre deux indicateurs qui, selon notre analyse, permettent de caractériser
les deux premières sous-dimensions. Il s’agit des indicateurs NoS (Noise on Speech) et Ln quantifiant
- 49 -
Chapitre 2 Indicateurs de qualité et performances
l’impact du bruit présent respectivement pendant les périodes d’activité vocale (sous-dimension Bruit
Corrélatif) et pendant les périodes de silence (sous-dimension Bruit Additif).
L’expression de l’indicateur NoS est donnée par :
1 1 L sup
z
Py' y' l,z
NoS 10.log10
L Z l 1 z 2 P l,z
, (2.6)
x' x'
où Z 2,zsup , Py' y' l,z est la DSP en Bark du signal dégradé issu du pré-traitement (cf. § 2.1.2),
L est le nombre total de trames d’activité vocale, l’expression de zsup étant donnée à l’équation (2.50).
Quant à l’estimation de l’indicateur Ln, elle est obtenue à partir du calcul de la DSP en Bark du bruit dont
l’expression est
1 24
Pn l n Py' y' l n ,z ,
24 z 1
(2.7)
où l n est une trame de silence. Le niveau équivalent du bruit Lneq s’exprime par :
Ln
1
Ln
P l
n
n
n
Lneq 10 log10 l 1
2
, (2.8)
pref
où Ln est le nombre total de trames de silence. Par ailleurs, afin de prendre en compte les variations
abruptes du niveau de bruit, une trame du bruit ayant une DSP
Pn l n 40dBSPL et
Pn l n 15 dB Lneq est considérée comme représentative d’une variation abrupte. Le niveau équivalent du
bruit Lneq est alors recalculé en ne prenant plus en compte ces trames. Ce processus est répété sur 10
itérations jusqu’à ce que les variations importantes du niveau du bruit soient détectées. L’énergie
moyenne globale du bruit nn z est donc calculée comme suit :
Ln' 1
1
nn z
Ln'
P l
n'
nn
n'
,z , (2.9)
l 0
où Ln' représente le nombre total de trames de bruit ne contenant pas de variation abrupte du niveau de
bruit. Le paramètre nn z transformé en sonie à court-terme suivant l’équation (1.12) devient alors
Lnn z . Dès lors, l’expression de l’indicateur Ln est donnée par :
24
Ln Lnn z . (2.10)
z 1
Dans POLQA, l’indicateur Noise permet de quantifier l’impact du bruit sur la qualité vocale pendant
les périodes de silence (sous-dimension Bruit Additif). Par ailleurs, lors du calcul des densités de
similarité finales, nous avons identifié un indicateur que nous avons nommé NoiseContrast, lequel permet
d’estimer les variations abruptes dans le spectre du bruit pendant les périodes de super-silence (ces
périodes correspondent aux trames du signal de référence où l’énergie est 35 dB en dessous de la
moyenne) et est donc rattaché à la sous-dimension Bruit Additif.
- 50 -
Chapitre 2 Indicateurs de qualité et performances
Le calcul de l’indicateur Noise est similaire à celui de l’indicateur quantifiant le bruit dans (Beerends
et al. 2007). La sonie du bruit est estimée à partir de la différence de sonie des signaux de référence et
dégradé pendant les périodes de silence. Son expression est donnée par l’équation suivante :
Ln Nb
1
Noise n
L
L l ,z L l ,z
n
y' y'
n
x' x'
n
(2.11)
l 1 z 1
où Lx' x' l n ,z et Ly' y' l n ,z représentent respectivement les sonies des signaux de référence et dégradé
dans la trame de silence l n . Pour le calcul de l’indicateur NoiseContrast, on détermine d’abord des zones
du signal de référence correspondant à sept trames consécutives de super-silence. Un paramètre a l m
est ensuite calculé à partir de la sonie à court-terme du signal dégradé sur ces zones et est défini par :
max L l m 3 0,2 ;1,5
y'
a lm (2.12)
m
max Ly' l 0,2 ,1,5
avec Ly' l m la sonie à court-terme du signal dégradé dans la trame de super-silence l m , et une
constante dont la valeur est égale à 0,3 en mode SWB et à 0,4 en mode NB. L’expression de
NoiseContrast est alors définie comme suit :
TS
1 , si a lm 1
m
l 1
NoiseContrast TS (2.13)
a l m , sinon
0 ,1
l m 1
Concernant DESQHI, Leman et al. (Leman et al. 2008) ont montré qu’en présence de bruit la qualité
vocale dépend non seulement de la nature et du niveau du bruit mais aussi de son contenu informationnel.
En effet, un bruit est considéré comme non gênant lorsque son origine est reconnue par l’auditeur, auquel
cas il est considéré comme étant une dégradation gênante. Dès lors, il a été proposé de répartir les bruits
de fond en quatre classes (ou sous-dimensions) suivant leur degré de tolérance :
Bruits intelligibles : cette classe est caractérisée par une forte indulgence lors de l’évaluation de la
qualité vocale et est constituée de bruits très fluctuants tels que la musique ;
Bruits d’environnement : composée de bruits de nature non stationnaire en général (bruit de ville,
de restaurant, etc.), cette classe provoque une certaine indulgence lors de l’évaluation de la qualité
vocale ;
Bruits de souffle : cette classe reflète les bruits de type stationnaire n’ayant pas de contenu
informationnel (bruits de quantification, bruit de sèche cheveux, etc.) ;
Bruits de grésillement : cette classe regroupe les bruits stationnaires provenant du réseau,
notamment le bruit électrique, et est caractérisée par une très forte dégradation de la qualité vocale.
Par ailleurs, Leman et al. ont proposé de classifier de manière automatique les bruits en fonction des
quatre sous-dimensions ci-dessus à l’aide de deux indicateurs (Leman et al. 2009b). Le premier indicateur,
Vn, représentant la variation sonore du bruit, correspond à l’écart-type des valeurs de l’énergie du bruit
par trame. Son expression est donnée par :
- 51 -
Chapitre 2 Indicateurs de qualité et performances
1 Ln
Vn std n b 2
k , (2.14)
L k 1
où bk représente le bruit à l’échantillon k et Ln est le nombre total de trames de silence. Le second
indicateur, SF (Flux Spectral, aussi appelé variation de l’amplitude du spectre) est une mesure permettant
d’estimer la vitesse de changement du spectre de puissance d’une trame donnée. Il est calculé à partir de
la corrélation croisée normalisée entre deux amplitudes successives du spectre comme suit :
1 Ln
a l k
n
1 ak l n
SF n 1 k
(2.15)
L l n 1
ak 2 l n 1 a2k l n
k k
où ak l correspond à l’amplitude du signal dégradé à la trame l . Les indicateurs Vn et SF étant calculés
uniquement pendant les périodes de silence, nous considérons qu’ils appartiennent forcément à la sous-
dimension Bruit Additif.
Cette dimension caractérise l’ensemble des discontinuités perçues dans le signal de parole qui peuvent
être causées par des pertes de paquets ou de trames, les mécanismes de corrections de pertes de paquets
(PLC (Packet Loss Concealment)), des erreurs de bits lors de la transmission radio ou par des processus
de traitement de signal tels que la réduction de bruit ou l’annulation d’écho. Les études effectuées dans
(Huo et al. 2008b) ont montré que la dimension Continuité peut être divisée en trois sous-dimensions :
Coupures : cette sous-dimension regroupe l’ensemble des interruptions perçues dans le signal. Par
exemple, celles-ci sont plus perçues lorsque la technique PLC consistant à insérer les trames de
silence est employée ;
Artéfacts Additifs : elle est relative aux artéfacts qui apparaissent souvent suite à l’utilisation de la
technique PLC qui consiste à remplacer la trame perdue par une répétition de trame ;
Bruit Musical : cette sous-dimension est caractéristique des bruits résiduels liés aux imperfections
du débruitage.
Fondé sur le modèle proposé par Huo et al. (Huo et al. 2008b), DIAL intègre trois indicateurs pour
caractériser uniquement les deux premières sous-dimensions. Les deux premiers indicateurs rL et rI
quantifient la sous-dimension Coupures et permettent d’estimer respectivement le taux d’interruptions
courtes et longues perçues dans le signal de la parole. Quant au troisième indicateur rA relatif à la sous-
dimension Artéfacts Additifs, il estime le taux d’artéfacts apparaissant dans le signal.
Pour calculer ces indicateurs, on modifie les DSP en Bark des signaux de référence et dégradé en
compensant l’influence de la réponse fréquentielle et des variations du gain introduites par le système de
transmission (Côté 2010b). Puis, les interruptions longues sont détectées lorsque la différence entre les
enveloppes spectrales des signaux de référence et dégradé résultant de la compensation est supérieure au
seuil RSB,Int l défini par :
0,2. RSBseg l 40
RSB, Int l e 10 , (2.16)
où RSBseg l est le Rapport Signal-à-Bruit segmental de la trame l dont l’équation est donnée par :
- 52 -
Chapitre 2 Indicateurs de qualité et performances
RSBseg l e x l Ln , (2.17)
Enfin, pour le calcul de l’indicateur rA, les pentes spectrales des signaux de référence et dégradé S xx l,z
et S yy l,z sont estimées comme suit :
P ' l , z 1
S xx l , z 10 log10 xx
P ' l , z
xx
, (2.21)
P ' yy l , z 1
S yy l , z 10 log10
P ' yy l , z
où P 'xx l , z et P ' yy l , z représentent respectivement la transformée en Bark des signaux de référence et
dégradé résultant de la compensation partielle. La distance de la pente spectrale pondérée (ou Weighted
Spectral Slope (WSS) distance en anglais) est alors calculée comme suit :
23
dWSS l W l , z . S xx l , z S yy l , z ,
2
(2.22)
z 1
où W l,z est une fonction de pondération dépendante du spectre du signal de parole. Les artéfacts sont
donc détectés dès lors que dWSS l est supérieure au seuil WSS l défini par :
WSS l max RSB,WSS l 1,5 floor 5 ; 30 , (2.23)
RSB,WSS l e
0,12. RSBseg l 60 , (2.24)
- 53 -
Chapitre 2 Indicateurs de qualité et performances
et floor est un paramètre dépendant de la distribution des valeurs de la distance WSS. Les indicateurs rL,
rI et rA représentent alors le taux de trames où les interruptions courtes et longues et les artéfacts
apparaissent respectivement dans le signal de parole.
Par ailleurs, nous avions souligné dans la section 2.1.2 que le modèle cœur de DIAL permet de
quantifier les dégradations non linéaires y compris l’effet de fortes discontinuités et des variations
brusques observées dans le bruit. Ces dégradations sont estimées à l’aide de l’indicateur Plin . Nous avons
ainsi considéré que cet indicateur quantifie les dimensions Continuité et Bruyance. Il est calculé à partir
de la densité de similarité, notée l , entre les sonies des signaux de référence et dégradé ( Lxx l,z et
Lyy l,z respectivement), dont l’expression est la suivante :
l 0,4 BB l 0,6 HB l , (2.25)
où LB l et HB l sont des densités de similarité calculées respectivement dans les régions basses et
hautes de l’échelle en Bark, respectivement notées z LB et z HB ( LB et HB signifient ‘Low Bark’ et
‘High Bark’ respectivement). Ces régions sont définies en fonction des modes opératoires :
en mode NB :
zLB 1,...,9 ; zHB 10,...,18 ; (2.26)
en mode SWB :
zLB 1,...,10 ; zHB 11,...,23 . (2.27)
L’expression de la densité LB l est donnée par :
2
Lxx l , z Lyy l , z dz Lx l Ly l
' LB LB
LB l zzLB (2.28)
2
Lxx l , z dz Lx l Lyy l , z dz Ly l
' 2 LB 2 2 LB
zzLB zzLB
où L'xx l,z est une version optimisée de la DSP en sonie du signal de référence (voir (Côté 2010b)).
Lx l Ltl y l , si Lx l Ltl y l
P l , (2.30)
Lx l , sinon
- 54 -
Chapitre 2 Indicateurs de qualité et performances
Quant à POLQA, des indicateurs de cette dimension n’y sont pas explicitement mentionnés. Dans
notre analyse, nous avons identifié deux indicateurs représentant les deux premières sous-dimensions. En
fait, lors de la représentation interne des signaux de référence et dégradé, une compensation partielle est
appliquée au signal de référence dans les parties où la sonie du signal dégradé est supérieure à celle du
signal de référence. Cette compensation est appliquée de sorte que la différence entre les sonies de ces
signaux reflète l’impact des coupures localement perçues pendant les périodes d’activité vocale (sous-
dimension Coupures). De cette différence, nous avons dérivé un indicateur que nous avons nommé
Timeclip dont l’expression est
L Nb
Timeclip Lyy l,z l Lxx l,z , (2.35)
l 1 z 1
où l est le facteur d’échelonnement estimé à partir du rapport des sonies à court-terme des signaux de
référence et dégradé. Par ailleurs, lors du calcul des densités de similarité finales, les distorsions causées
par les répétitions de trame sont quantifiées par un indicateur que nous avons nommé Framerepeat (sous-
dimension Artéfacts Additifs). Cet indicateur est calculé à partir de la comparaison entre les corrélations
des trames consécutives du signal de référence et les corrélations consécutives du signal dégradé.
- 55 -
Chapitre 2 Indicateurs de qualité et performances
1 L
Framerepeat Cory l Corx l ,
L l 2
(2.36)
où
Nb Nb Nb
X Y X Y
Corx l z 1 z 1 z 1
, (2.37)
Nb Nb
2
Nb Nb
2
X 2 X Y Y
2
z 1 z 1 z 1 z 1
avec X Lxx l 2,z et Y Lxx l,z . L’expression de Cory l est la même que celle de Corx l en
remplaçant X et Y par Lyy l 2,z et Lyy l,z respectivement.
Dans l’approche de DESQHI, les discontinuités perçues dans le signal de parole se présentent sous
forme de raies dans le domaine temporel et sont visibles dans les zones spectrales où l’énergie de la
parole est faible ( f 100Hz ). Ceci étant, la représentation de la dimension Continuité est fondée sur
l’analyse des composantes fréquentielles inférieures à 100 Hz. Dans cette optique, un filtre passe-bas
d’ordre 10 et de fréquence de coupure fc 80Hz est appliqué au signal dégradé. Le signal filtré résultant
est alors échantillonné à la fréquence d’échantillonnage fe 224Hz . Un algorithme de détection de
discontinuités, développé à partir de la méthode B définie dans la recommandation P.56 de l’UIT-T (ITU-
T 1993), est appliqué au signal filtré afin de distinguer les zones discontinues des zones continues. Dès
lors, cinq indicateurs sont extraits pour modéliser la dimension Continuité. Le premier indicateur I1
représente la moyenne de la DSP du signal filtré, sur la bande de fréquences centrée sur 64 Hz :
N
P i,
yy
I1 i 1
(2.38)
N
où N est le nombre d’échantillons. Le deuxième indicateur I2 est la moyenne des valeurs maximales des
zones discontinues du signal
1 n
I2 max Sd j ,
nd j 1
(2.39)
avec Sd j le signal filtré identifié dans la j ième zone de discontinuité et nd le nombre de zones de
discontinuité. Le troisième indicateur I3 correspond à l’écart-type des valeurs de DSP du signal dégradé,
sur la bande de fréquences centrée sur 64 Hz et défini par :
1 N
P i, Pyy
2
I3
N i 1
yy (2.40)
où Pyy représente la moyenne de la DSP. Quant au quatrième indicateur I4, il correspond à la
différence de niveau sonore moyen entre les zones de signal discontinu ( Sd ) et continu ( Sc )
I 4 10 log10 Sd 2 10 log10 Sc 2 . (2.41)
Enfin le cinquième indicateur I5 représente la moyenne du signal filtré S et est défini comme suit :
I 5 log10 S 2 . (2.42)
- 56 -
Chapitre 2 Indicateurs de qualité et performances
Ces indicateurs tels que définis dans (Leman 2011) ne permettent d’estimer que les dégradations liées aux
sous-dimensions Coupures et Artéfacts Additifs. Il faut souligner que les indicateurs I2 et I5 permettent
d’identifier la cause de la discontinuité du signal de parole à savoir s’il s’agit d’erreur de bits, de perte de
paquets ou si un algorithme PLC est utilisé ou non.
La dimension Coloration (ou Directness/Frequency Content) est liée aux caractéristiques de la réponse
fréquentielle de l’ensemble du système de transmission. Les études réalisées dans (Scholz et al. 2006) et
(Huo et al. 2007) ont montré que cette dimension peut être divisée en deux sous-dimensions :
Clarté (ou Directness) : cette sous-dimension représente la facilité à comprendre l’information
contenue dans la parole. Elle regroupe des distorsions fréquentielles spécifiques telles que les
réverbérations ou les limitations de bande de fréquences ou l’effet du codage ;
Contenu fréquentiel (ou Frequency Content) : aussi appelée Brillance (Wältermann et al. 2008),
cette sous-dimension est relative à la perception de l’équilibrage des niveaux fréquentiels des
échantillons sonores.
Dans DIAL, la modélisation de la dimension Coloration est fondée sur les approches proposées dans
(Scholz et al. 2006) et (Huo et al. 2007). Deux indicateurs sont utilisés pour quantifier cette dimension. Il
s’agit des indicateurs Erb (Equivalent Rectangular Bandwidth ou filtre rectangulaire équivalent) et fc
(fréquence centrale du gain du système de transmission) qui permettent d’estimer respectivement l’impact
de la limitation de bande de fréquences sur la qualité vocale (sous-dimension Clarté) et des contenus
fréquentiels pour une bande de fréquences fixée (sous-dimension Brillance).
Ces indicateurs sont calculés à partir du gain de la fonction de transfert du système. Tout d’abord, les
signaux de référence et dégradé, issus des alignements, temporel et de niveau sonore, sont divisés en
trames de 2048 échantillons avec un recouvrement de 75%, le fenêtrage utilisé étant celui de Hanning. La
taille de la fenêtre est la même pour les deux modes opératoires NB et SWB. La fonction de transfert du
système H l, est estimée uniquement sur les périodes d’activité vocale et est définie par :
Pxy l ,
H l, (2.43)
Pxx l ,
où et Pxy l, représentent respectivement la fréquence normalisée et la DSP croisée des signaux de
référence et dégradé dont l’expression s’écrit
Pxy l , X l , Y * l , , (2.44)
où X l, et Y l, sont respectivement les TFCT des signaux de référence et dégradé (cf. équation
(1.7)), Y * l , étant le conjugué de Y l, . Il s’ensuit l’expression du gain du système G l, ,
G l , 20 log10 H l , . (2.45)
G l, est ensuite transformée dans le domaine des bandes critiques suivant l’équation (1.9) et s’écrit
G l,z . Pour atténuer l’effet du bruit sur G l,z , celui-ci est analysé uniquement dans un intervalle
z zmin ,zmax déterminé en deux étapes : (i) les valeurs de G z sont amplifiées par une valeur
constante ST appelée « stopband » et les valeurs négatives résultantes sont fixées à 0 :
- 57 -
Chapitre 2 Indicateurs de qualité et performances
Enfin, pour déterminer les indicateurs Erb et fc, G l,z est décomposé comme suit :
G l, z G l , z G R l , z , (2.48)
où G l,z est une version lissée de G l,z et G R l,z représente le résidu. Les expressions de Erb et
fc sont alors données par :
zmax
G z dz
zmin
Erb
max G z , (2.49)
fc f inf . fsup
où finf et fsup correspondent à la représentation en fréquence des bandes critiques zinf et zsup dont les
équations sont données ci-dessous :
Erb
zinf zG
2
, (2.50)
Erb
zsup zG
2
où zG représente le centre de gravité de G l,z ,
zmax
z G l , z .zz
zG min
zmax
. (2.51)
z G l , z .z
min
Dans POLQA, nous avons identifié quatre indicateurs caractérisant la dimension Coloration dont les
trois premiers sont explicitement décrits dans la norme P.863 (ITU-T 2011a). Le premier indicateur Freq
permet d’estimer l’impact de l’ensemble des distorsions fréquentielles liées à la réponse fréquentielle du
système de transmission. D’après nos analyses, nous pensons que cet indicateur adresse les deux sous-
dimensions - Clarté et Brillance - à la fois. Le second indicateur, Reverb, quantifie l’effet de la
réverbération qui est inclus dans la sous-dimension Clarté. Quant au troisième indicateur Flatness, il est
utilisé pour mesurer l’impact des distorsions sur le niveau global du timbre de la voix. Enfin, le quatrième
indicateur que nous avons nommé Itimbre estime les distorsions sévères sur le timbre. Nous pensons que ces
deux derniers indicateurs adressent les deux sous-dimensions car la dimension Coloration est aussi
identifiée comme Timbre dans (Leman, 2012).
- 58 -
Chapitre 2 Indicateurs de qualité et performances
La procédure de calcul de l’indicateur Freq est similaire à celle de l’indicateur FRQ (Beerends et al.
2007). Cet indicateur Freq est calculé à partir de la sonie des signaux de référence et dégradé ( Lxx l , z et
Lyy l , z respectivement) uniquement sur les trames d’activité vocale. Notons que, dans POLQA, on
distingue trois catégories de trames : les trames d’activité vocale correspondant aux périodes dans le
signal de référence où l’énergie est 20 dB au-dessus de l’énergie moyenne globale, les trames de silence
correspondant aux trames du signal de référence dont l’énergie est 20 dB en dessous de la moyenne
(périodes de silence) et les trames de super-silence (cf. §2.2.1). Afin d’atténuer l’impact du bruit sur
l’indicateur Freq, deux versions lissées de la sonie du bruit ( Lbx z et Lby z ), estimées respectivement
à partir de Lxx l,z et Lyy l,z pendant les périodes de silence, sont soustraites de celles-ci. Les
expressions de Lbx z et Lby z sont les suivantes :
1
Ln 3
3
Lb , x z Lxx l n , z
l n 1
1
. (2.52)
Ln 3
3
Lb , y z Lyy l n , z
l n 1
Les sonies des signaux de référence et dégradé résultant de cette compensation, respectivement notées
L'xx l,z et L'yy l,z , ont pour équation :
L'xx l , z Lxx l , z 0,3 Lbx z
. (2.53)
L'yy l , z Lyy l , z 0,3 Lby z
Ces sonies résultantes sont ensuite intégrées sur l’axe des temps au moyen de la norme L p (cf. équation
(2.34)) comme suit :
1
1 L 2
2
L z L'xx l , z
'
x
L l 1
1
, (2.54)
1 L 2
2
L'y z L'yy l , z
L l 1
où L'x z et L' y z sont les sonies des signaux de référence et dégradé issues de cette intégration. Par
ailleurs, un facteur d’échelonnement est appliqué au signal dégradé afin de compenser les distorsions
fréquentielles ayant un impact négligeable sur la qualité vocale. Ce facteur d’échelonnement, noté c , est
calculé à partir des sonies L'x z et L' y z et défini par :
4
Nb ' 1
Lx z
4
c .
z 1
4
(2.55)
Nb
1
Ly z
' 4
z 1
- 59 -
Chapitre 2 Indicateurs de qualité et performances
La sonie du signal dégradé L' y z est multipliée par le facteur c et devient L"y z . Dès lors, deux
paramètres P1 et P2 sont extraits à partir de la différence des sonies L'x z et L"y z . Le premier
paramètre correspond à la somme de cette différence sur l’ensemble des bandes de Bark :
Nb '
1
2
Lx z Ly z , si L'x z L"y z
"
z 1
P1 1
. (2.56)
Nb
0,1 L'' z L' z 2 ,
y x sinon
z 1
Quant au second paramètre, il correspond aux variations instantanées de la différence entre L'x z et
L"y z :
N
b
1,5 1,5
P2 L'x z L''y z L'x z 1 L''y z 1 z 1 .
0 ,4
(2.57)
z 2
L’indicateur Freq est enfin obtenu à partir de la combinaison de ces deux paramètres :
Freq max log10 P1 P2 0,001 ; 2 . (2.58)
Pour le calcul de l’indicateur Reverb, l’énergie de trois types de son réfléchi est déterminée. Le
premier son réfléchi (le plus fort) correspond au son arrivant après le signal direct. Dans POLQA, le
signal direct correspond à l’ensemble des sons arrivant dans un intervalle de 60 ms. L’énergie du premier
son réfléchi est calculée en déterminant la valeur maximale de l’enveloppe de la réponse impulsionnelle
dont l’expression est :
h l TFCT 1 H l, , (2.59)
où h l est la réponse impulsionnelle, H l, est la fonction de transfert (cf. équation (2.43)). TFCT 1
correspond à l’inverse de la transformée de Fourier à court-terme. Le second son réfléchi est estimé dans
un intervalle en dehors de l’intervalle du son direct, sans prendre en compte les réflexions arrivant dans
un intervalle de 100 ms après le premier son réfléchi, et son énergie correspond à la valeur maximale de
h l estimée dans son intervalle d’arrivée. Quant au troisième son réfléchi, il est déterminé dans un
intervalle en dehors de l’intervalle d’arrivée du son direct et sans prendre en compte les réflexions
arrivant dans un intervalle de 100 ms après les premier et second sons réfléchis. Son énergie correspond
aussi à la valeur maximale de h l pendant son intervalle d’arrivée. L’indicateur Reverb est donc obtenu
en combinant l’énergie de ces trois sons réfléchis et son expression est donnée par :
Reverb E1 ind1 5 E2 ind2 10 E2 ind3 , (2.60)
où Ei i 1,2 ,3 et indi i 1,2 ,3 correspondent respectivement aux énergies des trois sons réfléchis et aux
indices de leur position dans l’enveloppe de la réponse impulsionnelle.
En ce qui concerne l’indicateur Flatness, il correspond à la platitude spectrale (ou spectral flatness) de
la densité de similarité (ITU-T 2011a). L’expression de la platitude spectrale d’un signal s k s’écrit :
1 N
exp log s k
platitude N k 1 , (2.61)
1 N
s k
N k 1
- 60 -
Chapitre 2 Indicateurs de qualité et performances
où Lxx l,z et Lyy l,z sont respectivement les sonies des signaux de référence et dégradé.
Dans DESQHI, la dimension Coloration est modélisée par l’indicateur Ind (que nous avons renommé
par la suite Icod). Cet indicateur permet de quantifier les dégradations causées par le codage de la parole.
Rappelons que, dans l’approche de DESQHI, la dimension Coloration est étroitement liée au type de
codage employé (Leman 2011). Par ailleurs, des études réalisées (Petersen et al. 1997), (Mattila 2002a) et
(Bappert and Blauert 1994) sur les techniques de codage du son et de la parole ont montré que parmi les
principaux attributs perceptifs associés à des signaux résultant de codage, on trouve la brillance (Mattila
2002a) et la clarté (Bappert and Blauert 1994). Nous pouvons alors considérer que
l’indicateur Icod quantifie à la fois les sous-dimensions Clarté et Brillance.
Pour l’estimation de l’indicateur Icod, le signal dégradé est analysé par trames de 32 ms avec un
recouvrement de 50%. Tout d’abord, une reconstruction du signal d’origine (i.e. le signal n’ayant pas été
dégradé) est effectuée à partir du signal dégradé à l’aide des coefficients LPC (Linear Predicting Coding)
à l’ordre dix :
x k a 2 y k 1 a 3 y k 2 ... a p 1 y k p , (2.64)
où x k et y k représentent respectivement les signaux reconstruit et dégradé pour l’échantillon k ,
a . et p p 10 étant respectivement les coefficients LPC et le nombre des coefficients LPC. Le résidu
entre le signal dégradé et le signal reconstruit est calculé comme suit :
res k y k x k , (2.65)
Par ailleurs, suivant la langue utilisée (français, anglais, japonais…), le temps d’attaque des syllabes est
très différent. Afin de s’affranchir de l’effet de la langue, un indicateur relatif au temps d’attaque est
combiné à l’indicateur résiduel des coefficients LPC. L’indicateur du temps d’attaque est calculé à partir
du signal reconstruit et s’exprime par :
1 N 1
att x k 1 x k , (2.66)
N k 1
avec N le nombre d’échantillons du signal reconstruit. Il s’ensuit l’expression de l’indicateur Icod :
1 N
res k
N k 1
Icod . (2.67)
att
Il faut noter que cet indicateur est utilisé pour identifier le type de codage employé lors d’une
communication téléphonique (Leman 2011).
- 61 -
Chapitre 2 Indicateurs de qualité et performances
La dimension Sonie représente l’ensemble des distorsions liées au niveau sonore de la parole perçu par
l’utilisateur. Les études réalisées par McDermott (McDermott 1969) ont ’montré l’utilité de cette
dimension dans l’évaluation de la qualité vocale. Jusqu’à présent, aucune découpe en sous-dimension n’a
été proposée pour la dimension Sonie.
Dans DIAL, cette dimension est caractérisée à l’aide de deux indicateurs : Ltl (Long-Term Loudness
ou sonie à long-terme du signal de parole) et Leq (Equivalent Continuous Sound Level ou niveau moyen
équivalent) représentant respectivement la sonie du signal dégradé perçue sur l’ensemble du signal
dégradé et l’énergie moyenne du signal dégradé calculée durant les périodes d’activité vocale. Ils sont
définis respectivement par :
a Ly l 1 Ltl y l Ltl y l
Ltl y l 1 , (2.68)
r L y l Ltl y l 1 Ltl y l
1 L
L Py l
Leq 10 log10 l 1 2 , (2.69)
pref
où Ly l représente la sonie du signal dégradé. Les paramètres a et r sont des valeurs constantes,
correspondant à 0,2 et 103 respectivement, et L est le nombre total de trames dans les périodes
d’activité vocale du signal dégradé.
Dans POLQA, l’indicateur Level est utilisé pour quantifier cette dimension. Il est défini par
Emax
Level , (2.70)
1 L
L yi 1000
2
i 1
où Emax est l’énergie maximale dont la valeur dépend du mode opératoire considéré (en mode NB,
Emax 1,4 107 et en mode SWB, Emax 5 106 ).
Il faut noter que cette dimension n’est pas prise en compte dans le modèle DESQHI pour les raisons
mentionnées dans la section 2.1.3.
Le Tableau 2.1 synthétise l’ensemble des indicateurs de qualité que nous avons identifiés dans les
modèles POLQA, DIAL et DESQHI pour caractériser les sous-dimensions perceptives considérées.
Comme on peut le remarquer dans le Tableau 2.1, nous n’avons pas trouvé dans ces modèles
d’indicateurs relatifs aux sous-dimensions Bruit Musical et Coloration du Bruit. Ce constat milite pour
une réflexion ultérieure quant à la définition de nouveaux indicateurs pour les modéliser.
- 62 -
Chapitre 2 Indicateurs de qualité et performances
Coloration du Bruit -- -- --
Plin
Coupures rI, rL Timeclip
I1, I2, I3, I4, I5
Continuité Artéfacts Additifs rA Framerepeat
Bruit Musical -- -- --
-- Ltl Level --
Sonie
-- Leq -- --
Tableau 2.1. Récapitulatif des indicateurs de qualité identifiés dans POLQA, DIAL et DESQHI
Evaluer les performances des indicateurs de qualité dans les conditions réelles de communication où
plusieurs dégradations peuvent apparaître simultanément s’avère une tâche difficile. En général, cette
évaluation est effectuée, du moins dans un premier temps, sur des conditions à dégradation unique. Nous
suivrons donc cette démarche. Ceci étant, nous décrirons d’abord dans cette section les différentes
méthodes d’évaluation des performances des indicateurs de qualité. Nous détaillerons ensuite la base
sonore que nous avons utilisée dans notre étude suivie de l’évaluation proprement dite des performances
de nos indicateurs de qualité.
D’autre part, si nous disposons effectivement du code de DIAL et de DESQHI, il n’en va pas de même
pour le modèle POLQA, pour lequel seules certaines parties du code étaient disponibles. Nous avons donc
implémenté les blocs manquants afin d’obtenir une version compilable du modèle. De plus, dans la
mesure où le modèle DESQHI ne tient compte que des signaux audio en bande étroite, nous avons
modifié certains paramètres, notamment la taille des trames, pour adapter le modèle aux signaux en bande
super-élargie.
Il existe principalement deux méthodes d’évaluation des performances des indicateurs : la méthode
graphique et la méthode objective.
- 63 -
Chapitre 2 Indicateurs de qualité et performances
indicateur. Les stimuli sont ensuite regroupés par condition de dégradation et on visualise graphiquement
les valeurs prises par chaque indicateur, comme le montre l’exemple de la Figure 2.4. Dès lors, deux
critères de visualisation graphique, que nous notons CG1 et CG2, sont nécessaires pour assurer la fiabilité
et la robustesse d’un indicateur :
CG1 : les valeurs prises par chaque indicateur doivent varier avec le degré de dégradation
(dégradation pour laquelle il a été conçu) et les variations des valeurs pour une même condition
doivent restées limitées ;
CG2 : pour les dégradations pour lesquelles un indicateur n’a pas été conçu, les valeurs prises par
l’indicateur doivent plus ou moins correspondre à ses valeurs initiales.
Cette approche est intéressante car elle permet d’apprécier la monotonie des indicateurs. Cependant, cette
méthode reste subjective et ne permet pas d’évaluer de manière qualitative les performances des
indicateurs. Sa mise en œuvre est d’autant plus coûteuse que le nombre d’indicateurs à évaluer est
important.
Erb Erb C1 C4 C5
C1 C8 C9 C10 24
25
20 23
15
Bark
22
Bark
10
21
5
0 20
1 36 71 106 141 1 36 71 106
Stimuli Stimuli
(a) (b)
Figure 2.4. Visualisation graphique des performances de l’indicateur Erb dans différentes conditions de dégradation : (a)
limitation de bande de fréquences (conditions C8, C9 et C10) et (b) pertes de paquets/trames (conditions C4 et C5). La
condition C1 représente la condition de référence. Les autres conditions sont détaillées dans le Tableau 2.2
- 64 -
Chapitre 2 Indicateurs de qualité et performances
conditions caractérisées par la présence d’autres dégradations que celle pour laquelle il a été
conçu.
Autrement dit, si l’on prend par exemple un indicateur conçu pour quantifier l’impact de la limitation
de bande de fréquences sur la qualité vocale, celui-ci doit présenter non seulement de bonnes
performances de prédiction de la qualité vocale (en termes de corrélation avec une notation subjective) en
présence de conditions présentant une limitation de bande de fréquences (critère CO1) et ne pas être
influencé par l’occurrence d’autres types de dégradation tels que les coupures ou le bruit additif d’où une
prédiction de bonne qualité vocale pour ceux-ci (critère CO2). Notons que, dans le cas d’un test subjectif,
notamment le test ACR (Absolute Category Rating (ITU-T 1996)), la qualité vocale est notée sur une
échelle allant de 1 à 5. Le seuil proposé dans le critère CO2 correspond au seuil minimal de qualité vocale
acceptable tel que proposé dans (Beerends et al. 2007) qui nous est apparu convenable.
La combinaison des critères CO1 et CO2 nous a semblé une approche efficace pour l’évaluation des
performances de nos indicateurs. En effet, si le premier critère permet d’évaluer la fiabilité d’un
indicateur à quantifier un type de dégradation donnée, le second critère permet de tester sa robustesse face
aux autres types de dégradation à l’aide d’un seuil minimal de qualité ( MOS p 3.0 ) qui permet de
déterminer si leur impact sur l’indicateur est acceptable ou pas. La philosophie de ces critères objectifs est
la même que celle des critères CG1 et CG2 de la méthode graphique, ce qui justifie le choix de ces
critères.
Pour évaluer qualitativement les performances des indicateurs identifiés dans les différents modèles,
nous avons considéré dans un premier temps des stimuli présentant chacun un seul type de dégradation
représentatif des dimensions perceptives. Ces stimuli ont été extraits des bases sonores élaborées par
l’UIT-T dans le cadre du développement de la norme P.863 (ITU-T 2011a). La particularité de ces bases
sonores est qu’elles ont été spécialement conçues pour tester les performances des systèmes vocaux en
bande super-élargie. De plus, les notes MOS subjectives associées aux stimuli sont disponibles. Par
ailleurs, il est important de mentionner que, durant la phase de sélection de cette norme, deux groupes de
bases sonores ont été construits. Le premier groupe a servi pour le développement et l’optimisation des
modèles candidats (phase d’apprentissage). Quant au second groupe, considéré comme inconnu des
modèles candidats, il a été utilisé pour valider la fiabilité des dits modèles. Ainsi, puisque le premier
groupe de stimuli est connu des modèles POLQA et DIAL, nous avons choisi d’évaluer les performances
des indicateurs sur des bases sonores inconnues de ces modèles, à savoir des bases issues du second
groupe.
Nous avons construit notre base de tests à partir de stimuli provenant de quatre de ces bases,
représentant différentes langues (français, néerlandais, suisse allemand et anglais britannique) et
considéré 14 conditions de dégradation décrites dans le Tableau 2.2. A l’exception de la condition C1 qui
ne contient pas de dégradation (condition de référence), les autres conditions correspondent à différents
niveaux d’une dégradation relative à une dimension perceptive. Ainsi, pour la dimension Bruyance, nous
avons considéré 2 conditions contenant des bruits non stationnaire et stationnaire (respectivement C2 et
C3). Concernant la dimension Continuité, 2 conditions avec des pertes de paquets à des taux de 2% et
20% respectivement sans codage (C4 et C5) ont été considérées pour la sous-dimension Coupures. Pour
simuler les artéfacts (sous-dimension Artéfacts Additifs), nous avons utilisé 2 conditions correspondant à
- 65 -
Chapitre 2 Indicateurs de qualité et performances
des pertes de paquets de 2% compensées par divers mécanismes de PLC associés à des codecs de parole
(C6 et C7). Quant à la dimension Coloration, nous avons pris en compte 3 conditions (C8, C9 et C10)
présentant des limitations de bande de fréquences (sous-dimension Clarté) et 2 conditions (C11 et C12)
simulant les distorsions liées à la réponse en fréquence d’un système de transmission, sans limitation de
bande de fréquences (sous-dimension Brillance). Nous n’avons pas trouvé de condition à dégradation
unique relative à l’impact de la réverbération. Enfin, pour la dimension Sonie, nous avons considéré 2
conditions avec une atténuation du niveau sonore du signal respectivement de 10 dB et 20 dB (C13 et
C14). Dix des quatorze conditions sont représentées par 36 stimuli (4 en français, 4 en néerlandais, 4 en
suisse allemand et 24 en anglais britannique) et sont considérées comme étant des conditions d’ancrage.
Pour les conditions C6 et C7, nous n’avons trouvé que 14 et 12 stimuli en anglais respectivement
impactés par celles-ci. De même, pour les conditions C11 et C12, nous n’avons que 8 stimuli en français.
Soulignons par ailleurs que, pour garantir la fiabilité de nos résultats, il est nécessaire de compenser
l’effet de la langue sur les notes MOS subjectives de notre base de tests en particulier pour les conditions
où plusieurs langues interviennent. En effet, l’étude menée par Zielinski et al. (Zielinski et al. 2008)
quant à l’effet du corpus sur le jugement de la qualité vocale a montré que la différence de sémantique,
par exemple, entre les termes « Assez bon » et « Médiocre » en Français, n’est pas identique à leurs
équivalents dans d’autres langues, notamment en Anglais avec « Fair » et « Poor ». Ils concluent dès lors
que le jugement de la qualité vocale diffère d’une langue à l’autre d’où l’intérêt de compenser cet effet.
Pour ce faire, nous avons appliqué sur notre base de test une procédure de normalisation telle que
suggérée dans (Côté 2010b). Cette procédure est appliquée uniquement sur les conditions présentant
plusieurs langues, i.e. les 10 conditions d’ancrage. Tout d’abord, pour chaque langue, les notes MOS
subjectives des stimuli sont moyennées par condition. On obtient ainsi 10 notes subjectives moyennes
MOS LQS par langue. Ensuite, pour chaque condition, les notes subjectives MOS LQS sont moyennées sur
l’ensemble des 4 langues, conduisant à 10 nouvelles notes subjectives moyennées MOS LQS . Dès lors,
pour chaque langue, une fonction g polynomiale d’ordre 3 est estimée entre les 10 notes subjectives
MOS LQS et les 10 notes subjectives MOS LQS . Cette fonction g est appliquée à l’ensemble des notes
subjectives associées aux stimuli dans chaque langue. Par conséquent, les nouvelles notes MOS
subjectives résultantes seront considérées pour l’application du critère CO1.
- 66 -
Chapitre 2 Indicateurs de qualité et performances
Dimensions/
Sous Conditions de dégradations Description des conditions
dimensions
SWB (C1) Signal de Référence
Signal de référence avec du bruit non stationnaire
SWB, Babble Noise, SNR = 20 dB (C2)
Bruyance
(bruit de restaurant)
Signal de référence avec du bruit stationnaire
SWB, Hoth Noise, SNR = 12 dB (C3)
(bruit de Hoth)
SWB 20% packet/frame loss (C5) Signal de référence ayant 20% de pertes de paquets
Continuité
- 67 -
Chapitre 2 Indicateurs de qualité et performances
Pour l’application des critères CO1 et CO2, il est préférable de transposer les valeurs des indicateurs
sur une échelle MOS. Pour cela, on détermine une fonction de mappage (i.e. assurant une projection des
valeurs de l’indicateur vers des valeurs sur l’échelle MOS) optimale pour chaque indicateur. Dans le
chapitre 1, § 1.4.3.2.1, nous avons vu qu’une fonction de mappage peut être estimée à partir d’une
méthode d’apprentissage automatique ou d’une régression polynomiale. Nous avons également vu que la
première approche est difficile à interpréter du fait de sa complexité et sa mise en œuvre requiert une
quantité importante de stimuli. Dans notre étude, nous avons opté pour la régression polynomiale de par
sa simplicité d’implémentation et d’interprétation, et sa capacité à établir une relation de causalité entre
les valeurs des indicateurs et les notes subjectives correspondantes sans requérir une grande quantité de
stimuli. Elle consiste à minimiser au sens des moindres carrés la quantité suivante :
2
M n j
MOS-LQS i a j I q i (2.71)
i 1 j 0
Où est l’erreur de prédiction, M et MOS-LQS correspondent respectivement au nombre total des
valeurs des indicateurs associées aux stimuli et aux notes subjectives correspondantes. Quant aux
paramètres a j j 1,...,n , ils représentent les coefficients du polynôme. Cependant, pour déterminer
qualitativement cette fonction de mappage d’un indicateur donné, il faut que les notes subjectives
reflètent entièrement l’impact de la dégradation considérée. C’est la raison principale pour laquelle nous
avons utilisé des conditions ne contenant qu’un seul type de dégradation.
Pour déterminer la fonction de mappage optimale de chaque indicateur, nous avons simulé, sous
Matlab, une régression polynomiale, à l’aide de la fonction « regress », dont un exemple est illustré
Figure 2.5 pour trois degrés de polynôme ( n 1 , 2 et 3 ). Les notes subjectives sont représentées en
fonction des valeurs de l’indicateur. L’idée est de faire varier l’ordre du polynôme jusqu’à obtenir un
meilleur compromis entre le coefficient de détermination (R2) et l’EQM. Cette procédure est appliquée à
l’ensemble des indicateurs. Nous avons trouvé que l’ordre optimal pour l’ensemble des indicateurs est
obtenu pour n 3 . Par conséquent, l’équation (1.13) devient
MOS p a3 I q3 a2 I q2 a1 I q a0 . (2.72)
2
Notons au passage que le coefficient de détermination (R ) permet d’apprécier la qualité de la régression.
Sa racine carrée correspond au coefficient de corrélation (celui de Pearson) entre les notes subjectives
et les notes vocales estimées (i.e. les notes prédites). C’est ce dernier coefficient qui est utilisé pour
évaluer les performances des indicateurs suivant le critère CO1. Quant au critère CO2, il consiste à
prédire la qualité en présence des défauts pour lesquels l’indicateur testé n’a pas été conçu, en utilisant
l’équation (2.72). La Figure 2.6 illustre l’exemple de la prédiction de la qualité vocale de l’indicateur
Freq en présence de défauts de la dimension Continuité. La note prédite globale pour cette dimension est
donc obtenue en moyennant les notes sur l’ensemble des stimuli (critère CO2).
Dans les sections suivantes, les différents indicateurs seront évalués suivant les critères CO1 et CO2.
- 68 -
Chapitre 2 Indicateurs de qualité et performances
4 4 4
MOS-LQS
MOS-LQS
3 3 3
2 2 2
2 4 6 8 2 4 6 8 2 4 6 8
Freq Freq Freq
4.5
3.5
MOS prédite
2.5
1.5
1
2 2.5 3 3.5 4
Freq
Figure 2.6. Prédiction de la qualité de l’indicateur Freq dans les
conditions C4-C7 de la dimension Continuité
- 69 -
Chapitre 2 Indicateurs de qualité et performances
Pour mémoire, comme Plin de DIAL et Ii (i = 1, …, 5) de DESQHI permettent d’estimer à la fois les sous-
dimensions Coupures et Artéfacts Additifs, les critères de performances de ces indicateurs sont donc
appliqués pour chaque sous-dimension.
Concernant la sous-dimension Coupures, le Tableau 2.4 montre que l’indicateur rL de DIAL respecte
les critères de performances ( 0,97 ; MOS p 4 ). L’indicateur Timeclip de POLQA présente
également de très bonnes performances en termes de corrélation ( 0,93 ) mais est impacté par les
artéfacts ( MOS p 1,62 ) et les défauts liés à la dimension Coloration ( MOS p 1,73 ). Les mêmes
résultats sont observés pour l’indicateur Plin de DIAL ( 0,97 ; MOS p 2,06 en présence d’artéfacts).
Les plus faibles performances en termes de corrélation sont obtenues par les indicateurs rI de DIAL et Ii (i
= 1, …, 5), qui ne remplissent pas le critère CO1. Quant aux indicateurs de la sous-dimension Artéfacts
Additifs, tous ne respectent pas le critère CO1. Néanmoins, on constate que l’indicateur rA de DIAL
présente une corrélation supérieure à 0,8 et respecte le critère CO2.
Pour conclure :
- seul l’indicateur rL de DIAL est pertinent pour quantifier qualitativement l’impact des coupures
sur la qualité vocale ;
- quant à la sous-dimension Artéfacts Additifs, l’indicateur rA semble être un bon candidat.
- 70 -
Chapitre 2 Indicateurs de qualité et performances
- 71 -
Chapitre 2 Indicateurs de qualité et performances
MOS p 4,5 ). L’indicateur Freq présente de bonnes performances en termes de corrélation ( 0,92 )
mais est impacté par les limitations de bande de fréquences ( MOS p 2,5 ).
Erb
de fréquences)
Ce résultat était attendu puisque cet indicateur permet de quantifier aussi bien la Brillance que la
Clarté. Quant aux indicateurs Flatness et Itimbre de POLQA, ils affichent une fois de plus les plus faibles
performances en termes de corrélation ( 0,49 et 0,53 respectivement).
En résumé :
- les indicateurs Erb et fc de DIAL sont fiables et robustes pour diagnostiquer respectivement les
limitations de bande de fréquences et la brillance ;
- l’indicateur Freq permet de diagnostiquer globalement la dimension Coloration ;
- quant à l’indicateur Icod de DESQHI, en dépit de ses faible performances en termes de prédiction
de la qualité en présence de limitation de bande de fréquences, il s’est révélé pertinent pour la
modélisation de la Brillance ;
- enfin, concernant les indicateurs Flatness et Itimbre de POLQA permettant de quantifier les
distorsions liées aux timbres de la voix, ils présentent les plus faibles performances en termes de
prédiction de la qualité. Ces résultats peuvent s’expliquer par le fait que les conditions de
dégradations relatives à la Coloration que nous avons considérées n’ont pas d’impact sur le timbre
de la voix. Par conséquent, les performances de ces indicateurs devront être vérifiées sur des bases
sonores dans lesquelles les distorsions liées au timbre seront explicitement présentes.
- 72 -
Chapitre 2 Indicateurs de qualité et performances
2.4. Conclusion
Dans ce chapitre, nous avons présenté les performances des indicateurs de qualité que nous avons
identifiés et extraits de 3 modèles objectifs récents d’évaluation de la qualité vocale (UIT-T P.863 ou
POLQA (ITU-T 2011a), DIAL (Côté 2010b) et DESQHI (Leman 2011). L’objectif principal était de
sélectionner des indicateurs fiables pour le diagnostic des défauts perçus dans un contexte de
communication téléphonique en bande super-élargie (50-14000 Hz). Pour ce faire, nous avons considéré
une base de test contenant des conditions de dégradation relatives aux quatre dimensions perceptives
présentées dans le chapitre 1 (Bruyance, Continuité, Coloration et Sonie) sur lesquelles sera fondé notre
futur outil de diagnostic. Les performances des indicateurs identifiés ont été évaluées sur la base de
critères objectifs spécifiques. Au vu des résultats obtenus, nous avons abouti aux conclusions suivantes :
pour la dimension Bruyance, seuls les indicateurs Noise de POLQA, Ln, NoS et Plin de DIAL sont
pertinents pour quantifier l’impact global du bruit sur la qualité vocale ;
concernant la dimension Continuité, nous avons trouvé que seul l’indicateur rL de DIAL est
pertinent pour le diagnostic des coupures apparaissant lors des communications téléphoniques.
Les indicateurs Timeclip de POLQA et Plin présentent de bonnes performances en termes de
prédiction de la qualité vocale en présence de coupures mais sont impactés par d’autres défauts
notamment par les artéfacts. Concernant l’effet des artéfacts, seul l’indicateur rA de DIAL obtient
les meilleures performances ( 0,81 ; MOS p 3 ). Par ailleurs, nous n’avons pas trouvé
d’indicateur pour quantifier la sous-dimension Bruit Musical. Par conséquent, nous envisageons
de développer de nouveaux indicateurs et/ou d’optimiser les indicateurs existants afin de
modéliser correctement cette sous-dimension ;
quant à la dimension Coloration, les indicateurs Freq de POLQA, Erb et fc de DIAL et Icod de
DESQHI sont fiables et robustes pour diagnostiquer respectivement les distorsions liées à la
réponse fréquentielle du système de transmission (tant les limitations de bande de fréquences que
la brillance), les limitations de bande de fréquences et la brillance du signal de parole. Concernant
les indicateurs Flatness, Itimbre de POLQA, les résultats que nous avons obtenus ne nous
permettent pas de conclure sur leurs performances. Par conséquent, l’évaluation de leurs
performances nécessitera de nouvelles bases sonores contenant des conditions relatives aux
distorsions du timbre. Quant à l’indicateur Reverb, ses performances n’ont pas été évaluées car
notre base de test ne contenait aucune condition relative à l’effet de réverbération. Cet indicateur
nécessite des investigations supplémentaires pour tester qualitativement ses performances.
- 73 -
Chapitre 2 Indicateurs de qualité et performances
enfin, pour la dimension Sonie, les indicateurs Level de POLQA, Leq et Ltl de DIAL, malgré une
corrélation relativement inférieure à 0,9 avec les notes subjectives, se révèlent fiables et robustes
pour le diagnostic de l’atténuation du niveau sonore global du signal de parole.
Pour la suite de notre étude, nous envisageons de modéliser la dimension Bruyance suivant l’approche
de Leman (Leman 2011) puisqu’elle permet de fournir des informations sur la nature du bruit de fond
perçu lors des communications téléphonique et donc d’orienter vers les causes possibles de ce bruit. En ce
qui concerne la modélisation de la dimension Continuité, elle sera fondée sur la découpe en sous-
dimensions proposée dans (Huo et al. 2008b) mais avec la prise en compte d’autres types de
discontinuités, notamment les variations abruptes observées dans le niveau sonore du signal de parole.
Quant à la dimension Coloration, nous disposons d’indicateurs fiables pour la modélisation des sous-
dimensions Clarté et Brillance. Cela étant, nous proposons de développer un module permettant
d’obtenir des informations sur la nature du/ou des codec(s) présent dans les systèmes de transmission.
Nous expliquerons ce choix au début du chapitre 5. Enfin, pour la dimension Sonie, sa modélisation ne
nécessitera pas d’importantes investigations puisque les différents indicateurs que nous avons présentés
sont fiables et robustes.
- 74 -
Chapitre 3 Modélisation de la dimension Bruyance
Chapitre 3
Nous avons vu, dans le chapitre 1, que la dimension Bruyance est relative à l’ensemble des bruits de
fond présents dans les conversations téléphoniques superposés ou non au signal de parole. Etant donné
que, dans notre étude, nous nous limitons au contexte d’écoute, les types de bruits considérés concernent
seulement ceux présents dans l’environnement du locuteur et ceux produits dans le réseau (i.e. on exclut
ceux présents dans l’environnement de l’auditeur). Par ailleurs, nous avons souligné dans le chapitre
précédent l’intérêt des travaux réalisés par Leman et al. (Leman et al. 2008; 2009b) sur la dimension
Bruyance dans la mesure où ils permettent d’obtenir des informations précises sur la nature du bruit et sur
son impact perceptif. Ces travaux vont nous servir de base pour la modélisation de la dimension Bruyance.
3.1. Hypothèses
Des tests subjectifs ont été menés par Leman et al. (Leman et al. 2008) sur une base sonore contenant
des conditions relatives aux bruits d'environnement (bruit de voiture, de restaurant, …) et de réseau (bruit
électrique, ….), afin d’étudier l’influence du bruit de fond sur la qualité vocale dans un contexte de
communication en bande étroite. L’analyse des résultats issus de ces tests a montré que la qualité vocale
dépend de trois facteurs :
le niveau sonore du bruit ;
les propriétés physiques du bruit : elles concernent la stationnarité du bruit, les bruits de réseau
étant généralement stationnaires tandis que ceux issus de l’environnement sont non stationnaires ;
le contenu informationnel : lorsque la source de bruit est identifiée par l’auditeur, ce bruit n’est
pas vraiment assimilé à une dégradation de la télécommunication mais davantage considéré
comme un bruit naturel. A contrario, lorsque le bruit n’est pas identifié, il est généralement
considéré comme étant une dégradation gênante.
Cette étude a permis de mettre en exergue quatre sous-dimensions ou classes de bruit (cf. Figure 3.1.a) :
Bruits intelligibles : constituée essentiellement de bruits très fluctuants tels que de la parole ou de
la musique, cette classe est caractérisée par une forte indulgence lors de l'évaluation de la qualité
vocale ;
Bruits d’environnement : cette classe concerne les bruits de nature non stationnaire en général
(bruit de ville, de restaurant, …) et pouvant fournir des informations supplémentaires à l'auditeur
notamment la localisation du locuteur. Ces types de bruit provoquent une certaine indulgence lors
de l’évaluation de la qualité vocale ;
Bruits de souffle : cette classe regroupe l'ensemble des bruits de type stationnaire et n'ayant pas de
contenu informationnel (bruits de quantification, bruit de sèche cheveux, …) ;
Bruits de grésillement : cette classe reflète les bruits stationnaires provenant du réseau, comme le
bruit électrique, et provoquant une très forte dégradation de la qualité vocale.
- 75 -
Chapitre 3 Modélisation de la dimension Bruyance
Sur la base de ces résultats, un modèle non intrusif (Leman et al. 2009b) fondé sur l’analyse du signal
de parole a été proposé afin de classifier automatiquement les bruits de fond en fonction de ces quatre
classes de bruits ainsi que pour prédire la qualité vocale de chaque classe. Les tests subjectifs décrits dans
(Leman et al. 2008) ont ensuite été étendus aux signaux en bande élargie et conduisent aux résultats
présentés sur la Figure 3.1.b. De cette étude, il ressort que les classes Bruits intelligibles,
d’environnement et de souffle ne se distinguent que pour des niveaux sonores élevés de bruits de fond
(Leman 2011).
Dans ce chapitre, nous proposons d’étendre le domaine d’application de ces études (Leman et al. 2008;
2009) aux signaux en bande super-élargie. Pour ce faire, dans un premier temps, un test subjectif a été
effectué afin d’analyser l’influence du bruit de fond sur la qualité vocale dans un contexte de
communication téléphonique en bande super-élargie. Puis, à partir des classes identifiées lors de l’analyse
des résultats du test subjectif, nous proposons une modélisation de la dimension Bruyance. Ce chapitre
s'attachera donc à présenter les tests subjectifs et leurs résultats (§ 3.2 et 3.3), ainsi que le modèle que
nous avons déduit pour la dimension Bruyance (§ 3.4).
(a) (b)
Figure 3.1. Evolution des notes subjectives en fonction du type du bruit et du niveau sonore du bruit dans un contexte
de communication téléphonique en (a) bande étroite et en (b) bande élargie, extrait de (Leman 2011)
Pour étudier qualitativement l’impact du bruit de fond sur la qualité vocale, un test subjectif a été
réalisé à partir d’une base sonore contenant des échantillons de parole dégradés par différentes conditions
de bruit. Les procédures de réalisation de ce test sont décrites dans cette partie.
- 76 -
Chapitre 3 Modélisation de la dimension Bruyance
3.2.1.2. Bruits
Tout comme dans (Leman et al. 2008), deux groupes de bruit de fond (bruits issus d’environnements
bruyants réels et bruits issus du réseau) ont été considérés, couvrant l’ensemble des bruits rencontrés lors
des communications téléphoniques :
bruits issus d’environnements bruyants réels : ces types de bruits concernent ceux présents
dans l’environnement où a lieu la communication. Dans notre étude, six bruits de fond (contre
trois utilisés dans (Leman et al. 2008)) ont été extraits dans la base sonore de l’ETSI (ETSI
2011) :
un bruit de salle de sport, enregistré dans une salle de gymnastique ;
un bruit d’école maternelle, composé d’un mélange de cris d’enfants ;
un bruit de TGV provenant de l'intérieur d’un TGV et présentant un mélange de parole et
de bruit stationnaire fortement dominant ;
un bruit de cantine constitué d’une conversation incompréhensible combinée à des bruits
d'assiettes entrechoquées ;
un bruit de trafic routier comprenant des bruits dus à l'accélération de voitures et à des
klaxons ;
un bruit de voiture enregistré à l’intérieur d’une voiture roulant à vitesse constante.
bruits issus du réseau : ces bruits peuvent provenir de phénomènes d’interférences liés au
courant alternatif (bruit électrique) ou être dus à des techniques de codage (bruit de
quantification). Trois bruits de réseau ont été considérés :
un bruit marron aléatoire ayant des composantes fréquentielles sur toute la bande et
présentant une diminution de 6 dB par octave ;
un bruit rose aléatoire ayant les mêmes caractéristiques que le bruit marron mais
présentant une diminution de 3 dB par octave ;
un bruit électrique simulé par un signal harmonique de forme rectangulaire (dans le
domaine temporel) et de fréquence fondamentale 50 Hz.
Ces neuf bruits sont échantillonnés à 48 kHz et quantifiés sur 16 bits. La DSP de ces différents bruits
est illustré sur la Figure 3.2. Afin de couvrir la gamme des niveaux de bruits rencontrés dans les
télécommunications actuelles, nous avons choisi, pour chaque bruit, cinq valeurs de RSB (0, 10, 20, 30 et
40 dB) soit un total de 45 conditions de dégradation.
- 77 -
Chapitre 3 Modélisation de la dimension Bruyance
Pour garantir la fiabilité des résultats du test subjectif, les neuf bruits considérés doivent avoir le même
niveau de perception. En effet, du point de vue de la perception humaine, il existe de grandes différences
dans le niveau perçu entre des bruits ayant le même RSB. Cet effet s’explique d’une part par la nature des
bruits (stationnaire ou non) et d’autre part par le fait que l’oreille humaine est moins sensible aux basses
fréquences qu’aux hautes fréquences. Pour pallier ces inconvénients, nous avons choisi de pré-filtrer ces
neuf bruits avec un filtre appelé filtre de pondération A (IEC 2005). Le filtre de pondération A est un
filtre de pondération fréquentielle dont le spectre correspond approximativement à l’inverse de la courbe
d’audition humaine (cf. Figure 1.3). L’intérêt de ce filtre est qu’il prend en compte la sensibilité de
l'oreille. En pondérant ainsi ces bruits, nous obtenons des bruits ayant le même niveau sonore perceptif
pour un même RSB. Le niveau du bruit est alors exprimé en dBA. Pour égaliser perceptivement le niveau
du bruit de fond, le filtre de pondération A qui est appliqué à un bruit a pour équation :
RA f
122002 f 4 f 2 122002 , (3.1)
f 2
20,6
2
f 2 2
107,7 f 737,9
2 2
où RA f est le filtre de pondération A, et f la fréquence en Hz. Un ajustement du niveau du bruit
résultant du filtrage est ensuite effectué afin d’obtenir le RSB désiré.
60 60
Bruit marron Bruit de TGV
Bruit rose Bruit de voiture
40 Bruit électrique 40 Bruit de salle de sport
20 20
DSP (dB)
DSP (dB)
0 0
-20 -20
-40 -40
-60 -60
0 4000 8000 12000 16000 0 4000 8000 12000 16000
Fréquence (Hz) Fréquence (Hz)
- 78 -
Chapitre 3 Modélisation de la dimension Bruyance
60
Bruit d'école maternelle
Bruit de trafic routier
40 Bruit de cantine
20
DSP (dB)
-20
-40
-60
0 4000 8000 12000 16000
Fréquence (Hz)
Figure 3.2. DSP des différents bruits de fond considérés lors de la construction de la base sonore
La Figure 3.3 décrit les différentes étapes de construction de la base sonore. Cette base est construite
de sorte à simuler des extraits de communication réelle en bande super-élargie, à partir des 12
échantillons de parole (cf. § 3.2.1.1) et des 9 bruits de fond (cf. § 3.2.1.2). Tout d’abord, les signaux de
parole et les bruits ont été sous-échantillonnés à 32 kHz (fréquence d’entrée du codec utilisé) puis soumis
à un filtrage afin d’obtenir une bande de fréquences allant de 50 à 14000 Hz (bande super-élargie). Les
signaux résultants ont ensuite été égalisés à -26 dBov conformément à la norme P.56 de l’UIT-T (UIT-T
1993). Le signal bruité est obtenu en mixant le signal de parole au bruit préalablement pondéré par le
filtre de pondération A (cf. § 3.2.2). Ce signal bruité a été égalisé à -26 dBov (l’ajout de bruit a modifié
ces niveaux, surtout à faibles RSB), codé puis décodé avec le codec SWB G.729.1 annexe E (ITU-T
2010b). Le signal dégradé est finalement obtenu en sur-échantillonnant le signal bruité résultant à 48 kHz.
Ce processus est appliqué à l’ensemble des douze signaux et des neuf bruits de fond aux cinq niveaux de
RSB présélectionnés soit un total de 540 stimuli (signaux dégradés). Par ailleurs, pour assurer la fiabilité
du test subjectif, trois nouvelles conditions de dégradation servant de conditions d’ancrage ont été
considérées. La première condition ne contient aucune dégradation (i.e. signal de référence). Quant à la
seconde condition, elle est relative à un simple codage en G.729.1 annexe E (ITU-T 2010b). La troisième
condition correspond à du bruit marron avec un niveau sonore de -5dB. Ces conditions ont été appliquées
aux 12 échantillons de parole pour un total de 36 stimuli supplémentaires. Au total 576 stimuli ont été
construits. Notons par ailleurs que les 36 stimuli supplémentaires ne serviront que pour le test subjectif.
Pour la suite de notre étude, nous ne considérons que les 540 stimuli.
- 79 -
Chapitre 3 Modélisation de la dimension Bruyance
Pondération
loi A
Le test subjectif a été réalisé à partir de la base sonore afin d’étudier l’influence du bruit de fond sur la
qualité vocale. Pour ce faire, 24 personnes naïves (dont 12 hommes et 12 femmes) âgées de 18 à 40 ans
ont été recrutées afin d’évaluer la qualité vocale des différents stimuli. Ce test a été réalisé par groupes de
huit sujets avec un ordre aléatoire de présentation des stimuli, et en utilisant des casques binauraux
« Sennheiser HD 280 pro ». La méthodologie du test subjectif considérée pour cette étude est la méthode
DCR (cf. chapitre 1, §1.4.2.2.2) en lieu et place de l’ACR couramment utilisée. Ce choix s’explique par le
fait qu’au sein de notre laboratoire de recherche nous ne disposons pas de conditions d’ancrage adaptées
au test ACR pour des signaux en bande super-élargie, ce qui n’est pas le cas pour le test DCR (cf. § 3.2.3).
Néanmoins, l’analyse des résultats de la méthode DCR est conduite semblablement à celle qui pourrait
être réalisée pour des résultats issus d’un test ACR.
Lors du test, les 576 stimuli introduits précédemment sont présentés aux participants. Ces derniers
écoutent successivement deux stimuli, dont le premier correspond au signal de référence et le second au
signal dégradé, et évaluent la qualité vocale du stimulus dégradé par rapport à celui de référence. Avant
de débuter le test proprement dit, une phase d’apprentissage est réalisée afin de s’assurer que les
participants respecteront bien les différentes consignes du test. La durée totale du test est de 2 heures,
phase d’apprentissage incluse. Le Tableau 3.1 résume le plan de test subjectif considéré dans notre étude.
Méthodologie du test subjectif DCR
Type de restitution sonore Ecoute binaurale avec le casque « Sennheiser HD 280 pro »
Participants au test 24 personnes (12 hommes et 12 femmes) âgées de 18 à 40 ans
Base sonore 576 stimuli (12 échantillons de parole × 48 conditions de dégradation)
Durée du test 2h
Tableau 3.1. Récapitulatif du plan de test subjectif
- 80 -
Chapitre 3 Modélisation de la dimension Bruyance
Lors de la construction de la base sonore (cf. 3.2.3), quatre variables ont été considérées : le type de
bruit (au nombre de 9), le niveau du bruit (en termes de RSB) (5), le locuteur (4) et la phrase prononcée
(3). Une analyse statistique a été effectuée sur les résultats issus du test subjectif afin de déterminer les
variables ayant une influence significative sur la qualité vocale en présence de bruit de fond. Dans notre
étude, nous avons adopté, tout comme dans (Leman et al. 2008), l’analyse de la variance ou ANOVA
(ANalysis Of VAriance) qui est une méthode appropriée à l’identification des variables les plus
significatives et les plus influentes sur les notes subjectives. Nous avons choisi l’ANOVA à mesures
répétées à 4 facteurs, les 24 participants octroyant chacun une note pour une même condition, les
conditions de dégradation étant constituées de 4 variables (type de bruit, RSB, phrase et locuteur).
L’intérêt de cette méthode est qu’elle permet de vérifier l’effet de l’interaction entre les variables sur la
qualité vocale. Toutefois, pour assurer l’efficacité de cette méthode d’analyse, les données doivent
obligatoirement avoir une distribution normale, ce qui a effectivement été vérifié grâce au test de
Lilliefors pour chaque condition de dégradation. Les résultats de cette analyse statistique sont présentés
dans le Tableau 3.2.
Effet SC DL MC F p
Type de bruit 217 8 27 81 0,000*
RSB 4374 4 1094 3265 0,000*
Locuteur 1 3 0 1 0.654
Phrase 1 2 0 1 0.422
Type de bruit & RSB 100 32 3 9 0,000*
Type de bruit & Locuteur 6 24 0 1 0.866
RSB & Locuteur 1 12 0 0 0.982
Type de bruit & Phrase 6 16 0 1 0.279
RSB & Phrase 6 8 1 2 0,023
Locuteur & Phrase 1 6 0 1 0.695
Type de bruit & RSB & Locuteur 25 96 0 1 0.946
Type de bruit & RSB & Phrase 63 64 1 3 0,020
Type de bruit & Locuteur & Phrase 10 48 0 1 0,984
RSB & Locuteur & Phrase 7 24 0 1 0,664
Type de bruit & RSB & Locuteur & Phrase 53 192 0 1 0,957
Tableau 3.2. ANOVA répétée à 4 facteurs sur les résultats du test subjectif. SC, DL, MC, F et p désignent respectivement
la somme des carrés des écarts, le degré de liberté, la moyenne au carré, la valeur statistique et la probabilité de
dépassement. (*) indique le rejet de l’hypothèse stipulant qu’une variable n’a pas d’effet sur les notes subjectives avec un
taux d’erreur de 5%
Dans l’analyse des résultats de l’ANOVA, deux facteurs importants sont à considérer : la valeur
statistique F et la probabilité de dépassement p. Le premier facteur permet de vérifier s’il existe un
effet d’une variable indépendante sur la variable dépendante (i.e. les notes subjectives). Sa valeur n’a
d’importance qu’en fonction de la probabilité de rejeter l’hypothèse selon laquelle une variable donnée
n’a pas d’effet sur les notes subjectives et représentée par des étoiles. Une seule étoile (*) indique que la
valeur statistique F est significative avec un taux d’erreur de 5%. L’absence d’étoile signifie que l’on ne
peut se prononcer sur l’influence de la variable concernée sur les notes subjectives. Par ailleurs, la valeur
- 81 -
Chapitre 3 Modélisation de la dimension Bruyance
statistique à elle seule ne permet pas d’appréhender qualitativement les résultats obtenus, d’où l’intérêt de
la probabilité de dépassement p. Le facteur p indique le niveau de significativité de la variable testée.
Ainsi, plus la valeur de p est petite (en règle générale, la valeur de p est comparée aux seuils 0,05, 0,01,
0,001, voire une valeur inférieure), plus la variable considérée a une influence significative sur les notes
subjectives. D’après le Tableau 3.2, on constate que trois variables influencent l’évaluation de la qualité
vocale :
RSB (F = 3265 ; p < 0,001) ;
Type de bruit (F = 81 ; p < 0,001) ;
Interaction Type de bruit & RSB (F = 9 ; p < 0,001).
Ainsi, il s'avère que la qualité vocale en présence de bruit de fond est influencée non seulement par le
niveau du bruit et le type de bruit, mais aussi par l’interaction de ces deux facteurs 3. Ces résultats étaient
attendus et confirment les conclusions d’A. Leman (Leman, 2012) sur les facteurs du bruit qui influencent
la qualité vocale. La Figure 3.4 illustre l’évolution des notes subjectives en fonction des types de bruit et
du RSB. Les différentes courbes sont obtenues en moyennant les notes subjectives suivant les 24
participants au test et les 12 phrases.
D’après la Figure 3.4, la qualité vocale décroît quasi-linéairement avec la diminution du RSB. De plus,
on distingue trois classes de bruit de fond dont les deux premières se différencient à partir d'un RSB
inférieur à 30 dB :
Classe 1 : cette classe regroupe les bruits ayant des notes DMOS les plus élevées et est constituée
par les bruits de voiture, de salle de sport, de trafic routier, de cantine, et d’école maternelle ;
Classe 2 : constituée des bruits marron, rose et de TGV, cette classe est relative aux bruits ayant
des notes DMOS inférieures à la première classe ;
Classe 3 : elle est relative aux bruits de note DMOS les plus faibles et comprend uniquement le
bruit électrique.
Une analyse plus approfondie de ces résultats révèle que la classe 1 est constituée de tous les bruits
issus de l’environnement (bruit de voiture, de salle de sport, de trafic routier, de cantine et d’école
maternelle). Tous ces bruits sont non stationnaires à l’exception du bruit de voiture. De plus, ces bruits
sont couramment rencontrés lors de communications téléphoniques et sont facilement identifiables, ce qui
les rend plus tolérables. Quant aux classes 2 et 3, elles contiennent essentiellement des bruits de nature
stationnaire (bruits marron, rose et de TGV pour la classe 2 et bruit électrique pour la classe 3),
caractéristique principale des bruits provenant du réseau. La différence entre ces deux classes vient du fait
que le bruit de la classe 3 est très rugueux et plus désagréable à l’écoute. L’origine des bruits appartenant
à ces classes n'est pas très souvent identifiable par les auditeurs. Les trois classes sont par conséquent
identifiées comme suit :
3
L’effet de l’interaction entre le type de bruit et le RSB sur la qualité vocale signifie que l’influence du type de bruit
sur la qualité vocale dépend du niveau sonore dudit bruit.
- 82 -
Chapitre 3 Modélisation de la dimension Bruyance
4.5
Bruit marron
Bruit rose
Bruit électrique
4
Bruit de voiture
Bruit d'école maternelle
Bruit de salle de sport
3.5 Bruit de TGV
Bruit de trafic routier
Bruit de cantine
3
DMOS
2.5
1.5
1
40 35 30 25 20 15 10 5 0
RSB (dBA)
Figure 3.4. Evolution des notes subjectives en fonction des types de bruit et du RSB
Classe 1 Bruit d’environnement : elle regroupe les bruits de fond entraînant une indulgence
lors de l’évaluation de la qualité vocale ;
Classe 2 Souffle : elle est relative aux bruits de fond qui provoquent une dégradation de la
qualité vocale perçue ;
Classe 3 Grésillement : elle correspond aux bruits (en l'occurrence le bruit électrique)
engendrant une forte dégradation de la qualité vocale.
Ces résultats renforcent les conclusions des travaux de Leman et al. (Leman et al. 2008) sur le contenu
informationnel du bruit de fond :
l’impact d’un bruit sur la qualité vocale n’est pas gênant dès lors qu’il est identifié par l’auditeur.
Toutefois, il est important de souligner que trois classes de bruits ont été identifiées dans le contexte
téléphonique en bande super-élargie contre quatre en bande étroite. Cette différence peut s’expliquer par
le fait que le passage de la bande étroite à la bande super-élargie a contribué à accroître l’intelligibilité et
le naturel de la voix de sorte que toutes les harmoniques qui étaient initialement filtrées dans la bande
étroite deviennent plus perceptibles en bande super-élargie. De ce fait, les bruits qui étaient initialement
imperceptibles dans le contexte téléphonique en bande étroite deviennent gênants dans le contexte de la
téléphonie en bande super-élargie.
- 83 -
Chapitre 3 Modélisation de la dimension Bruyance
Nous avons vu dans la section précédente que les bruits de fond peuvent être classés en trois classes
(Bruit d’environnement, Souffle et Grésillement) dans le contexte téléphonique en bande super-élargie.
Cette partie est consacrée à la description des différentes étapes de la modélisation de la dimension
Bruyance suivant ces 3 classes. Tout comme dans (Leman et al. 2009a), cette modélisation est constituée
de quatre modules, comme illustré à la Figure 3.5. Le premier module, correspondant à un Détecteur
d’Activité Vocale (DAV), permet de détecter les zones de silence où sera estimée l’énergie du bruit de
fond, qui constitue le second module. La classification automatique du bruit de fond en fonction des trois
classes décrites précédemment est effectuée dans le troisième module. Enfin le quatrième module est
utilisé pour la prédiction de la qualité vocale.
DAV
Classification
- 84 -
Chapitre 3 Modélisation de la dimension Bruyance
avons utilisé correspond à celui de DIAL (Côté, 2010b). De plus, le signal dégradé est analysé sur
une trame de 1024 échantillons avec un recouvrement de 50%. Six indicateurs ont également été
considérés, dont les trois premiers (Ln, Vn et SF) sont détaillés dans la section 2.2.3. Les trois
autres indicateurs sont le coefficient de corrélation entre le signal dégradé et ce même signal
décalé d’un échantillon (Corr_signal), la variation du taux de passage par zéro ou Zero Crossing
Rating (que nous avons notée ΔZCR) et le centre de gravité spectral ou Centroïde Spectral (CS),
dont les expressions sont respectivement données par :
y i y y i 1 y
N 1
Corr _ signal i 1
, (3.2)
y i y y i 1 y
N 1 2 N 1 2
i 1 i 1
f k a k
CS k 1
N
, (3.4)
f k
k 1
NoS (Côté 2010b) DSP du bruit présent sur les zones actives du signal de parole
Estimateur de dégradations non linéaires dues à la variation abrupte du
Plin (Côté 2010b) niveau de bruit
avec réf.
Noise (ITU-T 2011a) Niveau de bruit estimé pendant les périodes de silence
Variations abruptes dans le spectre du bruit observées pendant les périodes
NoiseContrast (ITU-T 2011a)
de silence
Ln (Côté 2010b) Niveau du bruit en sonie estimé pendant les périodes de silence
- 85 -
Chapitre 3 Modélisation de la dimension Bruyance
4
TANAGRA est un logiciel gratuit d’exploration de données (ou data mining en anglais) dont l’objectif principal
est de permettre aux chercheurs et étudiants de mener des études sur des données réelles et/ou synthétiques. Ce
logiciel contient une série de méthodes de fouilles de données issues du domaine de la statistique exploratoire, de
l'analyse de données, de l’apprentissage automatique et des bases de données.
- 86 -
Chapitre 3 Modélisation de la dimension Bruyance
SF < 0,0697
non oui
Vn < 2,9652
Grésillement
(Classe 3)
non oui
CS < 2726,7
non oui
Souffle
(Classe 2)
Bruit d’environnement
(Classe 1)
- 87 -
Chapitre 3 Modélisation de la dimension Bruyance
performance de bonne classification supérieure à 83%, ce qui reste un excellent résultat. Le taux le moins
élevé correspond à la classification des stimuli de la classe Bruit d’environnement. D’après la matrice de
confusion reportée dans le Tableau 3.7, on remarque que la quasi-totalité des stimuli de la classe Bruit
d’environnement qui ne sont pas correctement classifiés se retrouvent dans la classe Souffle. Ce fait a
déjà été souligné dans la section précédente.
Nous avons vu dans la section 3.3 que la qualité vocale en présence de bruits de fond dépend non
seulement de la nature et du niveau sonore du bruit mais aussi de l’interaction entre ces deux éléments.
Pour prédire qualitativement la qualité vocale, ces différentes informations doivent être prises en compte.
Pour cela, une prédiction de la qualité pour chaque classe de bruit et prenant en compte le niveau sonore
du bruit est proposée. Pour cette phase de prédiction, nous avons choisi l’indicateur Ln (Côté 2010b) dont
sa pertinence en termes de prédiction de la qualité vocale a déjà été démontrée dans le chapitre 2, §
2.3.3.1. Cet indicateur est appliqué aux 540 stimuli de la base sonore dont 405 stimuli ont été
aléatoirement choisis et utilisés lors de la phase d’apprentissage.
- 88 -
Chapitre 3 Modélisation de la dimension Bruyance
4 4 4
MOS-LQS
MOS-LQS
3 3 3
2 2 2
1 1 1
0 20 40 60 0 10 20 30 0 20 40 60
Ln (sone) Ln (sone) Ln (sone)
Les performances de la prédiction de la qualité vocale sont présentées dans le Tableau 3.9. Ces
performances sont exprimées en termes de corrélation entre les notes MOS subjectives et les notes MOS
prédites (ρ) et en termes d’EQM (ε) entre ces deux notes MOS. D’après le Tableau 3.9, on obtient des
performances de prédiction de la qualité vocale très significatives pour chacune des classes de bruits de
fond. Ces résultats étaient attendus car l’indicateur Ln correspond à la sonie du bruit de fond, estimée
pendant les périodes de silence de signal de parole, et reflétant le niveau d’intensité sonore du bruit de
fond tel que perçu par le système auditif humain.
- 89 -
Chapitre 3 Modélisation de la dimension Bruyance
4 4 4
MOS-LQS
MOS-LQS
3 3 3
2 2 2
1 1 1
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
M OSE M OSSo M OSG
Dans notre étude, nous avons considéré 164 stimuli extraits de la base sonore ayant servi lors de la
sélection du modèle POLQA (ITU-T 2011a). Parmi ces stimuli, 96 d’entre eux correspondent à quatre
conditions relatives à la classe Bruit d’environnement (bruit de rue à 15 et 20 dB de RSB, un bruit en
provenance d’un supermarché à 10 dB et un autre à 20 dB associé à des pertes de paquets de 6%), 47 à
trois conditions relevant de la classe Souffle (bruit de Hoth à 12 dB, bruit de souffle à 12 et 27 dB mixé
avec 10% de perte de paquets) et 21 sont dégradés par un bruit de Grésillement (en l’occurrence un
marteau piqueur). Pour évaluer les performances du modèle proposé du point de vue de la prédiction de la
qualité vocale, la base inconnue a été limitée à 109 stimuli présentant des conditions à dégradation unique
- 90 -
Chapitre 3 Modélisation de la dimension Bruyance
(dont 72 pour la classe Bruit d’environnement, 16 pour la classe Souffle et 21 pour la classe
Grésillement). Pour une validation sur des conditions comprenant plusieurs dégradations, on se reportera
au chapitre 7.
Les Tableaux 3.11 et 3.12 illustrent respectivement le taux de classification des bruits de fond du
modèle de la Bruyance et la matrice de confusion associée. D’après le Tableau 3.11, le modèle proposé
présente une performance globale de classification supérieure ou égale à 81,7%. La performance la plus
faible est observée au niveau de la classe Souffle (76,2% de bonne classification). On constate à partir de
la matrice de confusion (cf. Tableau 3.12) qu’une importante partie des stimuli de la classe Souffle
n’ayant pas été correctement classifiée est considérée comme appartenant à la classe Bruit
d’environnement. Cette performance s’explique par le fait que la plupart de ces stimuli sont dégradés par
des conditions contenant, en plus du bruit, des pertes de paquets qui modifient les caractéristiques du bruit.
- 91 -
Chapitre 3 Modélisation de la dimension Bruyance
Modèle de la Bruyance de
Modèle proposé
DIAL (Côté 2010b)
ρ 0,89 0,91
ε 0,25 0,12
Tableau 3.13. Performances de la prédiction de la qualité vocale de notre
modèle et de celles du modèle de la Bruyance proposé dans DIAL (Côté
2010b) sur la base sonore de POLQA
3.6. Conclusion
L’objectif de cette étude sur la dimension Bruyance était de déterminer les meilleurs indicateurs pour
prédire et quantifier efficacement une dégradation de qualité vocale en présence de bruit tout en prenant
en compte la cause du bruit. L’approche que nous avons adoptée, à la suite de travaux antérieurs
appliqués à la bande étroite (Leman et al. 2008), s’est montrée tout aussi efficace en contexte de
téléphonie en bande super-élargie. En effet, l’analyse des résultats de test subjectif que nous avons
conduit a permis de répartir les bruits de fond, en fonction de leur contenu informationnel et du degré de
tolérance qui en résulte, en trois classes (Bruit d’environnement, Souffle et Grésillement). Nous avons
non seulement pu classifier les différentes natures (et donc origines) de bruit, à l’aide de trois indicateurs
simples à déterminer et donc à implémenter dans des outils de mesure, mais nous avons aussi utilisé
l’indicateur Ln afin de prédire assez précisément la qualité vocale perçue résultante.
Nous sommes donc en mesure grâce à cette brique dédiée à la bruyance de connaître à la fois l’origine
d’un bruit et son impact sur la qualité perçue par l’utilisateur final, ce qui constitue les deux éléments
indispensables à un diagnostic efficace, et ce dans un contexte d’application élargi par rapport aux
travaux antérieurs.
- 92 -
Chapitre 4 Modélisation de la dimension Continuité
Chapitre 4
Dans ce chapitre, nous cherchons à modéliser la dimension Continuité. Cette dimension est relative
aux discontinuités perçues dans le signal de parole pouvant être causées par des pertes de paquets (ou de
trames) ou par des processus de traitement de signal comme la réduction de bruit ou l’annulation d’écho.
Notre objectif est de trouver des indicateurs de qualité permettant de mieux caractériser ladite dimension
et d’obtenir des informations spécifiques sur l’ensemble des différentes causes de discontinuité.
Nous avons vu dans le chapitre 2, § 2.2.2, que la dimension Continuité peut être divisée en trois sous-
dimensions (Huo et al. 2008b). La première sous-dimension Coupures caractérise les coupures perçues
dans le signal de parole. La deuxième sous-dimension Artéfacts Additifs est relative aux artéfacts
apparaissant très souvent suite à l'utilisation de certaines techniques PLC ou d’annulation d’écho. Ils sont
perçus sous forme de craquement et se traduisent par une forte augmentation du l’énergie du signal. Enfin
la troisième sous-dimension Bruit Musical correspond à l’effet des bruits résiduels liés aux imperfections
du débruitage. Toutefois, cette découpe ne prend pas en compte les variations abruptes du niveau sonore
du signal de parole dues aux systèmes de traitement du signal vocal tels que les systèmes de Contrôle
Automatique de Gain (CAG) et les réducteurs de bruit. Le CAG a pour rôle de maintenir le niveau du
signal de parole constant afin d’éviter une surcharge des canaux de transmission tout en ajustant le gain
du système. Cependant, un mauvais réglage de ce gain peut engendrer une amplification ou une
atténuation soudaine du niveau sonore. De même, une surestimation ou une sous-estimation du niveau de
bruit par un réducteur de bruit peut provoquer des variations du gain du système, notamment en situation
très bruitée. Nous proposons de nommer cet aspect de fluctuation du niveau sonore par Variation de Gain.
Nous supposons que la Variation de Gain englobe la sous-dimension Bruit Musical proposée dans (Huo
et al. 2008b) puisque ce phénomène se traduit également par une variation du gain du système.
Dans notre étude, nous considérerons donc la dimension Continuité caractérisée par les trois sous-
dimensions suivantes : Coupures, Artéfacts Additifs et Variation de Gain. Dans ce chapitre, une
modélisation de l’ensemble des discontinuités sera proposée, suivie d’une évaluation des performances du
modèle proposé.
Pour la modélisation de cette dimension, nous avons considéré trois indicateurs pour quantifier
l’ensemble des discontinuités. Les deux premiers indicateurs, appelés rL et rA (Côté 2010b), permettent
d’estimer respectivement le taux de trames audio perdues (Coupures) et le taux d’artéfacts (Artéfacts
Additifs) présents dans le signal de parole. Ces indicateurs ont été retenus à l’issue de l’étude sur la
performance des indicateurs présentée dans le chapitre 2. Quant à la sous-dimension Variation de Gain, il
n’existe, à notre connaissance, aucun indicateur dans la littérature la caractérisant. En revanche, dans le
modèle DIAL (Côté 2010b), les variations importantes observées dans le gain du système sont détectées
et compensées afin de limiter leur impact sur la représentation interne des signaux de référence et dégradé
- 93 -
Chapitre 4 Modélisation de la dimension Continuité
(cf. chapitre 1, §1.4.3.2.1). Cependant aucun indicateur explicite n’a été proposé. Pour pallier ce manque,
nous proposons un indicateur, noté VG par la suite.
Les variations abruptes observées dans le niveau sonore du signal dégradé se traduisent par une
variation du gain du système. Cela étant, la détection des zones du signal dégradé présentant des
variations abruptes du gain sera effectuée suivant l’approche proposée dans (Côté 2010b). L’indicateur VG
sera ainsi déterminé à partir de la sonie du signal dégradé dans lesdites zones.
Pour le calcul de cet indicateur, un prétraitement conforme à celui utilisé dans (Côté 2010b) est
appliqué aux signaux de référence et dégradé. Les signaux résultants sont ensuite divisés en trames de 16
ms (correspondant à 768 échantillons par trame, les signaux étant échantillonnés à 48 kHz) avec un
recouvrement de 50%, le fenêtrage utilisé étant celui de Hanning. Les DSP de ces signaux, estimés
pendant les périodes d’activité vocale, sont obtenues à partir de l’équation (1.8) suivie d’une conversion
dans le domaine de Bark suivant l’équation (1.9). Pour l’estimation du gain du système, l’influence du
bruit de fond et celle des deux autres types de discontinuités (i.e. coupures et artéfacts additifs) sont
partiellement compensées comme suit :
la DSP du bruit est déterminée à partir de celle du signal dégradé sur les périodes de silence et lui
est soustraite. L’expression de la DSP du signal dégradé résultant de cette compensation (et notée
P ' y l ) est donnée par :
P ' y l Py l Pb l , (4.1)
où 0,3 (cette valeur a été choisie de sorte à compenser l’effet d’une surestimation du niveau
de bruit) et Pb l correspond à la DSP du bruit d’équation
1
1 24
3
3
Pb l Pyy l n , z , (4.2)
24 z 1
où Pyy l n , z est la DSP en Bark du signal dégradé dans la trame de silence l n , et z une bande
critique ;
quant à la compensation de l’impact des coupures et artéfacts, elle consiste à supprimer, dans les
signaux de référence et dégradé, toutes les trames présentant des coupures ou des artéfacts. Les
signaux de référence et dégradé sont respectivement notés Px' l et Py'' l .
Le gain G l du système est calculé à partir du rapport de la DSP du signal de référence Px' l sur celle
du signal dégradé Py'' l :
P' l
G l 10 log10 x'' , (4.3)
Py l
avec 2 105 , une constante correspondant à 0 dBSPL. Dès lors, les variations abruptes sont détectées
2
- 94 -
Chapitre 4 Modélisation de la dimension Continuité
passe-bas (Côté 2010b). Comme nous l’avons mentionné précédemment, les zones du gain G l du
système présentant des variations brusques correspondent aux parties du signal dégradé présentant
également des variations importantes. Cela étant, pour refléter l’effet de ces variations tel qu’il est perçu
par le système auditif humain, la DSP du signal dégradé Py'' l est transformée en sonie suivant le modèle
de Zwicker et Fastl (Zwicker and Fastl 1999) et est notée L''y l . L’indicateur « VG » est alors estimé à
partir de L''y l dans les zones présentant des variations abruptes comme suit :
G l Gs l 6
1
1 Lv
2
L ' l
2
v v
VG v , l , (4.4)
G l Gs l 3
y
L l v 1
où Lv est le nombre total de trames présentant des variations abruptes du niveau sonore de la parole.
Deux objectifs sont visés pour la modélisation de la dimension Continuité. Le premier objectif est de
déterminer pour chaque indicateur un seuil minimal au-delà duquel la discontinuité correspondante est
perçue. Le second objectif vise à proposer une prédiction de la qualité vocale pour chacune des sous-
dimensions ainsi qu'une prédiction de la qualité vocale globale relative à la dimension Continuité. La
Figure 4.1 présente la structure générale du modèle de la Continuité.
MOSC
Figure 4.1. Vue générale de la modélisation de la dimension Continuité. MOSCO, MOSA, MOSV et MOSC
désignent respectivement les prédictions de la qualité vocale en présence de coupures, d’artéfacts additifs, de
variation de gain et de l’ensemble des discontinuités
- 95 -
Chapitre 4 Modélisation de la dimension Continuité
Pour notre étude, nous avons construit une base sonore à partir de quatre sous-ensembles de stimuli
extraits d’une base d’Orange Labs pour laquelle des notes subjectives étaient disponibles. Le premier
sous-ensemble, commun à l’analyse des trois indicateurs (rL, rA, et VG), comprend des stimuli impactés
par des dégradations autres que des discontinuités : elles correspondent à des conditions de filtrage, de
codage, de bruit de fond, et d'atténuation de niveau sonore, appliquées au signal de référence, comme
indiqué dans le Tableau 4.1 (10 conditions au total). Quant au deuxième sous-ensemble, il contient 8
conditions de dégradation correspondant à différents degrés de pertes de paquets/trames associées au
codec WB G.722 avec une technique PLC consistant en une insertion de trames de silence. Ce sous-
ensemble est utilisé pour tester l’efficience de l’indicateur rL sur les coupures. Concernant le troisième
sous-ensemble, pour tester l’indicateur rA, 18 conditions de pertes de paquets/trames associées aux codecs
SWB G.718 Annexe B et G.729.1 Annexe E, intégrant une PLC par répétition de trames, sont considérées
afin de simuler les artéfacts. Enfin, le quatrième sous-ensemble comprend 5 conditions dont 3 niveaux de
débruitage (peu agressif, agressif et très agressif) et 2 niveaux de CAG, et est utilisé pour tester
l’indicateur VG. Ces conditions ont été appliquées sur 24 doubles phrases pour un total de 240, 192, 432 et
120 stimuli pour les quatre sous-ensembles respectivement. Ces différents stimuli ont été échantillonnés à
48 kHz et filtrés dans la bande [50 – 14000 Hz]. Pour déterminer le seuil optimal de chaque indicateur,
une phase d’apprentissage est nécessaire.
Indicateurs de qualité
rL rA VG
Conditions
Signal de référence (non codé)
2 cond. de filtrage passe-bas (7 kHz et 10 kHz)
Conditions (cond.) ne contenant pas
3 cond. de codage (G722, G718B et G729.1E)
de discontinuités (240 stimuli)
2 cond. de bruit (voiture et restaurant, RSB = 20 dB)
2 cond. d’atténuation du niveau sonore (10 dB et 20 dB)
8 cond. : 1 codec 18 cond. : 2 codecs - 3 cond. de débruitage
Conditions contenant des (G722) associé à 1, 2, (G718B et G729.1E) associés (niveaux 1, 2, et 3)
discontinuités (24 stimuli/condition) 3, 4, 5, 6, 8 et 10% de à 1, 2, 3, 4, 5, 6, 8, 10 et 15% - 2 cond. de CAG (niveaux 1
PP/T de PP/T et 2)
Tableau 4.1. Synthèse des conditions de dégradation de la base sonore. Les cases grises correspondent aux conditions
utilisées lors de la prédiction de la qualité vocale. PP/T signifie Pertes de Paquets/Trames.
Les niveaux 1, 2 et 3 correspondent respectivement à « peu agressif », « agressif » et « très agressif »
Dans cette partie, on se propose de déterminer, pour chaque indicateur, un seuil minimal au-delà
duquel la discontinuité correspondante est perçue.
- 96 -
Chapitre 4 Modélisation de la dimension Continuité
La Figure 4.2 illustre l’arbre de décision obtenu par application de l’algorithme de décision pour
chaque indicateur. D’après cette figure, le signal est considéré comme continu (i.e. ne contenant pas de
discontinuités) si les valeurs de rL, rA et VG sont respectivement inférieures à 0,005, 0,0025 et 0,7563,
sinon il est diagnostiqué comme discontinu. Le Tableau 4.2 permet d'apprécier les performances des
arbres de décision proposés. Lors de la phase d'apprentissage, les taux de bonne détection de coupures et
d’artéfacts sont supérieurs à 90%. Si la performance la plus faible est obtenue par l’indicateur VG, elle
n’en reste pas moins significative (plus de 80% de bonne détection). Ceci s’explique par le fait que
l’indicateur VG est très sensible aux autres types de dégradation (e.g. présence de bruit, distorsions
fréquentielles) qui ont un impact sur l’estimation du gain du système.
Artéfacts
Sous-dimension Coupures Variation de Gain
Additifs
proportions 98,04% 88,3% 79,8%
correctement
88,32%
détectées
Tableau 4.3. Performances de détection de discontinuités sur la phase de validation
Le modèle proposé fournit également une prédiction de la qualité vocale globale relative à la
dimension Continuité et une prédiction pour chacune des sous-dimensions. La base sonore utilisée pour la
prédiction est celle du Tableau 4.1 (cellules grises). Pour la prédiction des différentes grandeurs, des
fonctions de mappage sont déterminées lors de la phase d’apprentissage.
- 97 -
Chapitre 4 Modélisation de la dimension Continuité
4 4 4 4
MOS-LQS
MOS-LQS
MOS-LQS
3 3 3 3
2 2 2 2
1 1 1 1
0 0.05 0.1 0 0.02 0.04 0 5 0 0.1 0.2
Taux de p ertes (rL ) Taux d'artéfacts (rA ) VG rL + rA + 0,03VG
- 98 -
Chapitre 4 Modélisation de la dimension Continuité
Artéfacts
Coupures Variation de Gain Continuité
Additifs
ρ 0,90 0,82 0,80 0,86
ε 0,12 0,19 0,29 0,24
Tableau 4.4. Performance de prédiction de la qualité vocale obtenue lors de la phase de validation
Dans la phase de validation, 898 stimuli ont été extraits de la base sonore de POLQA (ITU-T, 2011a)
incluant des conditions réalistes composées de dégradations multiples. Parmi ces stimuli, 242 présentent
des coupures, 226 des artéfacts, 120 des variations de gain dues au CAG et au débruitage, et 310 ne
présentent aucune discontinuité (les dégradations impactant ces stimuli relèvent de bruits non
stationnaires, de distorsions fréquentielles, …). Il faut noter que, pour un indicateur donné, les types de
discontinuité associés aux deux autres indicateurs ne sont pas considérés comme des défauts. Ainsi, les
898 stimuli sont considérés pour chaque indicateur.
Le Tableau 4.5 décrit la performance du modèle proposé en termes de détection de discontinuités. Le
modèle proposé présente un taux global de bonne détection supérieur à 80%. Les performances de
détection de coupures et d’artéfacts sont élevées, supérieures à 89% et 78% respectivement. La plus faible
performance est obtenue par l’indicateur VG (73%). Après analyse de nos résultats, il s’est avéré que
l’indicateur rA est surtout sensible aux conditions relatives aux distorsions fréquentielles et aux bruits non
stationnaires, masquant la détection des artéfacts additifs. Quant à l’indicateur VG, il est essentiellement
impacté par des conditions contenant du bruit non stationnaire, des distorsions fréquentielles et des pertes
de paquets/trames très importantes. La non robustesse de l’indicateur VG s’explique par le fait qu’il est
calculé à partir d’une estimation du gain du système de transmission qui est sujet à l’influence des
dégradations telles que le bruit de fond, les coupures, etc.
- 99 -
Chapitre 4 Modélisation de la dimension Continuité
Pour la validation de notre modèle en termes de prédiction, la base inconnue est limitée à 216 stimuli
dégradés par des conditions à dégradation unique, comme cela était le cas pour la dimension Bruyance (cf.
chapitre 3, § 3.5). Elle comprend 108 stimuli impactés par des pertes de paquets/trames à des taux de 0, 2
et 20% sans codage (sous-dimension Coupures), 84 stimuli dégradés par le codec G722.1C, qui
implémente une PLC par répétition de trames, associé à des pertes de paquets de 0% et 2% (pertes
aléatoires et en rafales) (sous-dimension Artéfacts Additifs) et 24 stimuli impactés par un débruitage
agressif sans codage (sous-dimension Variation de Gain). La performance de prédiction du modèle
proposé, résumée dans le Tableau 4.6, montre une corrélation d’environ 0,9 pour la sous-dimension
Coupures et une corrélation supérieure à 0,72 pour les deux autres sous-dimensions.
Nous avons comparé notre modèle au modèle de la dimension Continuité proposé dans (Côté 2010b)
qui est uniquement basé sur la modélisation des deux premières sous-dimensions (Coupures et Artéfacts
Additifs) et ne fournit qu’une prédiction de la qualité globale de la dimension. Le Tableau 4.6 révèle une
meilleure prédiction de la qualité globale (ρ = 0,81, ε = 0,32) comparé au modèle « de référence » (Côté
2010) (ρ = 0,80, ε = 0,49). Ce résultat s’explique de toute évidence par le fait que notre modèle prend en
compte l’impact de la variation de gain.
4.3. Conclusion
Au delà de deux indicateurs déjà présents dans la littérature, cet outil intègre un nouvel indicateur
permettant de caractériser l’ensemble des causes de discontinuités connues. Notre modèle se révèle un
outil efficace de diagnostic pour une application en contexte de supervision et d’optimisation des réseaux
de télécommunications tant du point de vue de la détection que de celui de l’identification et de l’impact
de la (ou des) discontinuité(s) présente(s). Une ultime étape consistera à optimiser les indicateurs
VG et rA en compensant l’effet de dégradations ne relevant pas du domaine des discontinuités.
- 100 -
Chapitre 5 Modélisation de la dimension Coloration
Chapitre 5
Nous avons vu dans le chapitre 1 que la dimension Coloration reflète l’ensemble des dégradations
impactant le naturel de la voix. Les études présentées dans (Scholz et al. 2006) et (Huo et al. 2007) ont
montré que la dimension Coloration peut être divisée en deux sous-dimensions (Clarté et Brillance) et
notre étude sur les performances des indicateurs de qualité a mis en évidence la pertinence de certains
d’entre eux pour caractériser ces deux sous-dimensions (cf. chapitre 2, §2.2.3 et 2.3.3.3). D’autre part, les
études rapportées dans (Leman 2011) ont conclu à l’étroite liaison entre la dimension Coloration et les
dégradations causées par les techniques de codage. Les autres causes trouvent leurs origines dans les
extrémités des systèmes de transmission notamment les terminaux. Puisque nous sommes dans un
contexte de diagnostic des systèmes de transmission excluant a priori les extrémités, notre objectif de
quantifier l’ensemble des défauts liés à la dimension Coloration peut ainsi être ramené à la quantification
de ceux engendrés par les codecs. Aussi, dans ce chapitre, proposons-nous de nous focaliser sur la
détermination de leur signature.
Nous appuyons notre étude sur des travaux récents développés dans (Leman 2011), (Zango 2013) et
(Etame et al. 2010). Dans l’étude de (Leman 2011) limitée aux codecs en bande étroite, Leman propose
un arbre de décision permettant d’identifier le type de codage ou de transcodage employé lors d’une
communication téléphonique. Cet arbre de décision utilise un indicateur de qualité fondé uniquement sur
l’analyse du signal dégradé (i.e. le signal codé). L’étude de Zango (Zango 2013), fondée sur celle
d’Etame et al. (Etame et al. 2010), vise à caractériser les dimensions perceptives des codecs de la parole
et du son. Son hypothèse repose sur l’aspect multidimensionnel de la qualité des codecs (Etame et al.
2010). Dans cette étude, des codecs en bande élargie et quelques-uns en bande super-élargie sont utilisés
afin de prendre en compte toutes les techniques de codage implémentées dans les codecs actuellement
présents dans les télécommunications et les applications multimédias. De cette étude, il ressort que la
qualité des codecs est représentée par quatre dimensions perceptives et qu’il existe une relation entre ces
dimensions et les techniques de codage associées à ces codecs. La première dimension, qualifiée par
l’attribut « Sourd », est représentative des codecs CELP. La seconde dimension, caractérisée par le
« Bruit de fond », est composée essentiellement des codecs par forme d’onde. Quant à la troisième
dimension, appelée « Echo/Réverbération », elle est caractéristique des codecs utilisant la technique par
transformée (MDCT et MLT). Enfin, la quatrième dimension, dénommée « Distorsion de la parole », est
relative aux codecs de type hybride (ex. MDCT/CELP).
Dans notre étude, en nous appuyant sur les conclusions de Leman (Leman 2011) et Zango (Zango
2013), nous proposons de développer une méthode générique de détermination de la signature des codecs
prenant en compte la grande majorité des codecs NB, WB et SWB.
- 101 -
Chapitre 5 Modélisation de la dimension Coloration
Les codecs que nous avons pris en compte dans notre étude sont ceux décrits dans le Tableau 5.1. Ces
codecs ont été choisis de sorte à prendre en compte toutes les techniques de codage intégrées dans les
systèmes de télécommunications actuels ou à venir, que ce soit pour une transmission en bande étroite,
élargie ou super-élargie. Ainsi, tout futur codec non considéré dans notre étude pourra être intégré a
priori dans une classe à partir de la connaissance que nous aurons des techniques qu’il met en œuvre, et
de leur similarité avec celles des codecs pris en compte dans notre étude. Ces différents codecs peuvent
être regroupés en quatre groupes selon les techniques de codage qu’ils intègrent :
groupe des codecs par forme d’onde : ces codecs visent à reproduire le plus fidèlement possible
la forme d’onde du signal de parole. La plus simple de ces techniques correspond à la Modulation
d’Impulsion Codée (MIC) ou PCM (Pulse Coding Modulation) qui consiste à échantillonner le
signal à 8 kHz et à quantifier chaque échantillon sur 8 bits. Elle utilise une loi logarithmique afin
de maintenir le rapport signal à bruit à peu près constant sur une large plage d’amplitude du
signal d’entrée. L’intérêt de cette technique réside dans le fait que le signal résultant n’est que
légèrement comprimé ce qui limite la dégradation de la qualité vocale. Elle est principalement
utilisée dans le codec G.711 (ITU-T 1988a) et dans la bande [50 Hz – 4000 Hz] de ses extensions
en bande élargie (G.711.1 (ITU-T 2008a)) et super-élargie (G.711.1 annexe D (ITU-T 2010a)).
D’autre part, il existe des variantes de cette technique, comme le MICDA (MIC Différentiel
Adaptatif) ou AD-PCM (Adaptive Differential PCM) employé notamment dans le codec G.726
(ITU-T 1990), et le MICDA-SB (MICDA en Sous-Bande) ou SB-ADPCM (Sub-Band ADPCM)
dans le codec G.722 (ITU-T 1988c), dont le but est de transmettre le signal de parole avec le
moins de débit possible en exploitant la corrélation entre les échantillons consécutifs du signal ;
groupe des codecs par transformée : ces codecs ont pour principe de convertir le signal temporel
dans un espace de représentation (en l’occurrence le domaine fréquentiel) où l’élimination de la
redondance due à la corrélation du signal est plus nette. Pour cela, au niveau du codeur, le signal
temporel est divisé par blocs et chaque bloc de signal est transformé en coefficients avant d’être
quantifié et transmis via le canal de transmission. A la réception, le décodeur restitue le signal de
parole en appliquant une transformation inverse sur le signal reçu quantifié. Les méthodes de
transformation les plus couramment utilisées sont les techniques MDCT (Princen and Bradley,
1986), employée dans le codec AAC-ELD (Lutzky 2008), et MLT dans le codec G.722.1 (ITU-T
2005)] et son annexe C (ITU-T 2008b) ;
groupe des codecs paramétriques : ce type de codec a pour objectif de modéliser le processus de
production de la parole. La plus simple des techniques de codage paramétrique est le codage
linéaire prédictif ou LPC (Linear Predictive Coding), utilisé dans le codec SILK5 (Anguera 2010),
qui consiste à modéliser le conduit vocal par un filtre de synthèse – le plus souvent un filtre
autorégressif – excité soit par un bruit blanc (pour les sons non voisés) soit par des impulsions
limitées à des bandes de fréquences dans lesquelles les harmoniques sont d’égale amplitude (pour
les sons non voisés). Une autre famille de codage paramétrique, appelée Analyse par Synthèse ou
AbS (Analysis by Synthesis), a pour but de sélectionner des séquences d’excitation optimale à
5
SILK est un codec développé par Skype pour des applications de téléphonie sur IP. Ce codec opère avec un débit
allant de 5 à 40 kbits/s et couvre les bandes téléphoniques étroite, élargie et super-élargie.
- 102 -
Chapitre 5 Modélisation de la dimension Coloration
Notons par ailleurs que certains codecs tels que G.729.1 et l’AMR WB+ utilisent une technique
supplémentaire appelée Time Domain-BandWidth Extension (TD-BWE) consistant en une extension
artificielle de la largeur de bande dans le domaine temporel. D’autre part, une autre technique, connue
sous le nom de Time-Domain Aliasing Cancellation (TDAC), employée dans le codec G.729.1 et son
annexe C, est une technique de codage similaire au MDCT dont le but est de supprimer les repliements
dans le domaine temporel.
Au total, 42 codecs à débits différents ont été sélectionnés dont la grande majorité des codecs WB et
SWB sont des extensions des codecs NB. Les débits considérés correspondent à ceux les plus utilisés
dans les systèmes actuels et/ou envisagés pour des usages à venir. En plus de ces codecs, nous avons pris
en compte des cas de transcodage rencontrés dans les systèmes de communications actuels, comme
illustré dans le Tableau 5.2. Comme on peut le remarquer dans ce tableau, les différents transcodages sont
réalisés en tenant compte de l’ordre des codecs, cela afin de vérifier l’existence d’une différence de
signature sur le signal de parole selon l’ordre considéré. Ainsi, nous avons considéré – en prenant en
compte l’ordre des codecs et les débits utilisés – 16 cas de transcodage pour les codecs NB et 4 cas pour
les codecs WB. Pour résumer, 62 codecs (i.e. codecs seuls ou transcodages) ont été pris en compte soit 26,
20 et 16 codecs respectivement en bandes étroite, élargie et super-élargie.
6
Speex est un codec libre sans brevet, développé dans le cadre d’un projet open source visant à créer un codec
optimisé pour la parole associant une bonne compréhension du signal transmis, ainsi qu'un fort taux de compression
des données possibles. Il est employé dans la VoIP, fonctionne avec un débit de 2 à 44 kbits/s, et couvre également
les trois bandes téléphoniques.
- 103 -
Chapitre 5 Modélisation de la dimension Coloration
Tableau 5.1. Récapitulatif des codecs considérés pour la détermination de leur signature. DECT signifie Digital
Enhanced Cordless Telecommunications et correspond à une norme de téléphonie sans-fil numérique utilisée en Europe
Une base sonore a été construite à partir de 12 échantillons de parole (dont 3 doubles-phrases prononcées
par 2 locuteurs hommes et femmes) extraits d’une base d’Orange Labs et sur lesquels sont appliqués les
62 codecs décrits dans la section précédente. Ces échantillons de parole sont échantillonnés à 48 kHz avec
une quantification sur 16 bits. La Figure 5.1 détaille les différentes étapes de construction de la base
sonore.
Pour chaque signal de parole, un ré-échantillonnage suivi d’une limitation de bande et d’un filtrage
spécifique sont appliqués en fonction des paramètres d’entrée des codecs comme illustré dans le Tableau
5.3. Ainsi, pour les codecs NB, les signaux de parole sont d’abord sous-échantillonnés à 8 kHz, leur
largeur de bande limitée à [300 Hz – 3400 Hz], et ils sont ensuite filtrés par le filtre SRI de l’UIT-T (ITU-
T 1988b) afin de simuler l’utilisation d’un terminal émetteur pour une communication en bande étroite.
- 104 -
Chapitre 5 Modélisation de la dimension Coloration
Concernant les codecs WB, les signaux sont sous-échantillonnés à 16 kHz, avec une bande de fréquences
limitée à [50 Hz – 7000 Hz] et filtrés par le filtre P.341 de l’UIT-T (ITU-T 1998a) pour simuler une
communication en bande élargie. Quant aux codecs SWB, les signaux sont uniquement sous-
échantillonnés à 32 kHz puis leur largeur de bande est limitée à la bande [50 Hz – 14000 Hz]. Aucun
filtrage spécifique n’est appliqué aux signaux de parole. Le signal résultant est ensuite soumis à une
égalisation du niveau sonore à -26 dBov (UIT-T 1993) puis codé. Dans le cas de codage simple, le signal
vocal est codé puis décodé par l’un des codecs décrits dans le Tableau 5.1. Dans le cas d’un transcodage,
notamment entre G.711 (64) et l’AMR (12,2), le signal vocal est d’abord codé et décodé en G.711 (64)
puis à nouveau codé et décodé en AMR (12,2). Le signal dégradé (i.e. codé) est enfin obtenu en ré-
échantillonnant à 48 kHz le signal issu du codage. Ce processus est appliqué à l’ensemble des 12
échantillons de parole et des 62 codecs, ce qui fait un total de 744 stimuli soit 312, 240 et 192 stimuli
pour les codecs NB, WB et SWB respectivement.
Largeur de bande
Transcodage (débits en kbits/s)
de fréquences
G.711 (64) * AMR (7,4) ; AMR (7,4) * G.711 (64)
G.711 (64) * AMR (12,2) ; AMR (12,2) * G.711 (64)
G.711 (64) * EVRC (8,85) ; EVRC (8,85) * G.711 (64)
G.711 (64) * SILK_NB (20) ; SILK_NB (20) * G.711 (64)
NB
G.711 (64) * Speex_NB (8) ; Speex_NB (8) * G.711 (64)
G.711 (64) * G.729 (8) ; G.729 (8) * G.711 (64)
G.729 (8) * AMR (7,4) ; AMR (7,4) * G.729 (8)
G.729 (8) * AMR (12,2) ; AMR (12,2) * G.729 (8)
AMR WB (12,65) * G.722 (64) ; G.722 (64) * AMR WB (12,65)
WB
AMR WB (12.65) * G.722.1 (32) ; G.722.1 (32) * AMR WB (12,65)
Tableau 5.2. Liste des transcodages retenus
Codecs
Codecs NB Codecs WB Codecs SWB
Spécifications
Fe (kHz) 8 16 32
Largeur de bande [300 Hz – 3400 Hz] [50 Hz – 7000 Hz] [50 Hz – 14000 Hz]
Filtre SRI (ITU-T 1988b) P.341 (ITU-T 1998a) --
Tableau 5.3. Récapitulatif des paramètres d’entrée des codecs
De l’analyse des codecs présentés dans le Tableau 5.1, nous dégageons deux caractéristiques majeures.
La première concerne le fait que tous les codecs n’ont pas la même largeur de bandes de fréquences.
Quant à la deuxième, nous constatons que la majeure partie des codecs WB et SWB sont hybrides et que
les différentes techniques de codage sont appliquées sur des bandes de fréquences bien précises. De plus,
les découpes des bandes diffèrent d’un codec à un autre.
- 105 -
Chapitre 5 Modélisation de la dimension Coloration
D’autre part, pour certains codecs, notamment l’AMR et l’AMR WB, le débit peut changer
instantanément au cours d’une communication téléphonique en fonction de l’évolution de l’état du réseau
et des ressources disponibles. Pour limiter la complexité de notre étude, nous ne considérerons que le cas
où le débit reste inchangé tout au long de la communication.
Signal vocal
Fe = 48 kHz, q = 16 bits Signal vocal Signal vocal Signal vocal
Passage à
2ème codage +
48 kHz
décodage
Signal dégradé
Fe = 48kHz, q = 16 bits
Signal vocal Signal vocal
Nous proposons de déterminer la signature des codecs en deux étapes principales prenant en compte
les caractéristiques décrites ci-dessus. La première étape consiste à distinguer automatiquement les codecs
en fonction de leur largeur de bande. Une fois cette étape réalisée, la seconde étape revient à tenir compte
de la seconde caractéristique évoquée plus haut. Pour cela, nous proposons d’analyser le signal de parole
par sous-bandes (de sorte à prendre en compte les découpes en sous-bandes des codecs) en fonction des
trois catégories de codecs (Codecs NB, WB et SWB) :
[300 Hz – 3400 Hz] pour les codecs NB ;
[50 Hz – 4000 Hz], [4000 Hz – 6400 Hz], [6400 Hz – 7000 Hz] pour les codecs WB ;
[50 Hz – 4000 Hz], [4000 Hz – 6400 Hz], [6400 Hz – 7000 Hz], [7000 Hz – 8000 Hz] et
[8000 Hz – 14000 Hz] pour les codecs SWB.
Des indicateurs de qualité décrits dans la section 5.3.3.1 sont appliqués dans chaque sous-bande et
serviront pour une classification fine des codecs.
Dans cette partie, nous cherchons à classifier les différents codecs en fonction de leur largeur de bande.
Pour cela, parmi les indicateurs identifiés au chapitre 2 pour cette dimension, nous avons retenu
l’indicateur Erb (Côté 2010b) permettant de quantifier les limitations de bande de fréquences. Les deux
autres indicateurs identifiés au chapitre 2, Freq et fc, respectivement représentatifs des distorsions
fréquentielles liées à la réponse fréquentielle du système de transmission (sous-dimensions Clarté et
- 106 -
Chapitre 5 Modélisation de la dimension Coloration
Brillance) et de la brillance du signal de parole (sous-dimension Brillance), ne sont pas a priori corrélés
à la largeur de bande et ne seront donc pas considérés dans la suite de ce chapitre.
Nous savons que les codecs sont répartis en fonction de la largeur de spectre qu’ils sont capables de
coder (NB, WB et SWB). La Figure 5.2, qui présente les DSP de différents codecs, illustre bien cette
distinction très nette entre les codecs NB, WB et SWB en fonction de leur largeur de bande. Ceci étant, si,
visuellement, la DSP permet de distinguer les codecs en fonction de leur largeur de bande, elle ne rend
pas de valeur scalaire, facilement utilisable en contexte de supervision, au contraire de l’indicateur Erb.
40 60
SILK_NB (20) SILK_WB (14,5)
Speex_NB (8) SILK_WB (24)
AMR (7,4) 40 Speex_WB (12,8)
20
AMR (12,2) Speex_WB (23,8)
EVRC (8,5) AMR WB (6,6)
GSM-FR(13) 20 AMR WB (12,65)
0
0
-20
-20
DSP (dB)
-60
-60
-80
-80
-100
-100
-120 -120
0 4000 8000 12000 16000 24000 0 4000 8000 12000 16000 24000
Fréquence (Hz) Fréquence (Hz)
(a) (b)
- 107 -
Chapitre 5 Modélisation de la dimension Coloration
60
SILK_SWB (32)
SILK_SWB (40)
Speex_SWB (24)
40 Speex_SWB (44)
AMR WB+ (16)
AMR WB+ (36)
20
0
DSP (dB)
-20
-40
-60
-80
0 4000 8000 12000 16000 24000
Fréquence (Hz)
(c)
Figure 5.2. DSP de quelques codecs (a) NB : SILK_NB (20), Speex_NB (8), AMR (7,4 et 12,2)), EVRC (8,5) et GSM-
FR (13), (b) WB : SILK_WB (14,5 et 24), Speex_WB (12,8 et 23,8), AMR WB (6,6 et 12,65)) et (c) SWB : SILK_SWB (32
et 40), Speex_SWB (24 et 44), AMR WB+ (16 et 36)
Nous avons adopté comme méthode de classification l’algorithme de décision proposé dans (Breiman
et al. 1993) pour les raisons mentionnées dans la section 3.4.1.3 du chapitre 3. L’indicateur Erb est
appliqué à l’ensemble des 744 stimuli, étiquetés en fonction des trois classes de largeur de bande (que
nous avons notées Codec NB, Codec WB et Codec SWB). Ainsi, les valeurs de l’indicateur Erb et les
étiquettes des stimuli sont les paramètres d’entrée de l’algorithme de décision. Une phase d’apprentissage
est opérée dans laquelle 558 stimuli (dont 234 pour les codecs NB, 180 pour les codecs WB et 144 pour
les codecs SWB) ont été aléatoirement sélectionnés. Les 186 stimuli restants serviront lors de la phase de
validation.
La Figure 5.3 présente l’arbre de décision proposé par l’algorithme de classification. Comme on peut
le remarquer, deux seuils ( 16, 29 et 19,91 ) permettent de classifier les codecs en fonction de leur largeur
de bande. En convertissant ces seuils, initialement exprimés en Bark, à l’échelle des Hertz suivant
l’équation (1.2), on obtient respectivement 3,4 kHz et 7 kHz correspondant aux largeurs de bande des
codecs NB et WB. Ainsi, lorsque la valeur de l’indicateur Erb est inférieure ou égale à 16,29 Bark (i.e.
3,4 kHz ), le codec appartient à la classe Codec NB. Sinon, il est de la classe Codec WB lorsque la valeur
de Erb est inférieure ou égale à 19,91 Bark (i.e. 7 kHz ) et de la classe Codec SWB lorsqu’elle est
supérieure.
Les performances de l’arbre de décision sont décrites dans le Tableau 5.4. Sans surprise, nous
constatons que tous les codecs sont correctement classifiés lors des phases d’apprentissage et de
validation. La Figure 5.4 illustre l’évolution des valeurs de l’indicateur Erb pour les trois types de codec
et atteste d’une nette séparation entre les codecs NB, WB et SWB. Ces différents résultats renforcent la
pertinence du choix de l’indicateur Erb.
- 108 -
Chapitre 5 Modélisation de la dimension Coloration
Erb ≤ 16,29
non oui
Erb ≤ 19,91
Codec NB
non oui
Classes de codecs
Codecs NB Codecs WB Codecs SWB Total
Phases d’étude
Phase d’apprentissage 100% 100% 100% 100%
Phase de validation 100% 100% 100% 100%
Tableau 5.4. Performances de classification des codecs en fonction de leur largeur de bande obtenues lors des phases
d’apprentissage et de validation
24
Codec NB
Codec WB
Codec SWB
22
20
18
Erb (Bark)
16
14
12
10
0 50 100 150 200 250 300
stimuli
Figure 5.4. Evolution des valeurs de l’indicateur Erb en fonction des stimuli codés avec les codecs NB, WB et SWB décrits
dans les Tableaux 5.1 et 5.2. Les pointillés en rouge représentent les deux seuils de décision proposés par l’algorithme de
classification utilisé dans notre étude
- 109 -
Chapitre 5 Modélisation de la dimension Coloration
Dans la section précédente, nous avons vu que les codecs peuvent être classifiés efficacement en
fonction de leur largeur de bande à l’aide de l’indicateur Erb. Dans cette partie, il s’agit d’une étude plus
fine de chacune des trois catégories de codecs. Pour cette deuxième étape, la détermination de classes
n’est pas aisée, même si des études antérieures peuvent éventuellement nous permettre d’orienter nos
choix. Entre autres, nous pouvons raisonnablement émettre l’hypothèse que les codecs peuvent se
distinguer à partir des techniques de codage qu’ils intègrent (Zango 2013). C’est la raison principale pour
laquelle nous avons décidé d’analyser les stimuli de parole par sous-bande (cf. § 5.3.1) et d’y appliquer
des indicateurs de qualité présentés dans la section 5.3.3.1. Ainsi, à partir des valeurs de ces indicateurs,
une méthode de classification sans connaissance a priori sera utilisée afin de déterminer les classes des
codecs. Il s’agit de la Classification Ascendante Hiérarchique (CAH) (Johnson 1967) (cf. § 5.3.3.2) dont
la particularité est de permettre de visualiser le regroupement progressif des données (i.e. des codecs dans
notre cas) à l’aide d’un dendrogramme (cf. § 5.3.3.3). On peut dès lors se faire une idée du nombre
adéquat de classes dans lesquelles les données peuvent être regroupées. Une fois les classes déterminées,
l’algorithme de décision (Breiman et al. 1993) sera appliqué afin de déterminer les seuils des indicateurs
les plus pertinents à la classification des codecs en fonction des classes obtenues.
- 110 -
Chapitre 5 Modélisation de la dimension Coloration
K X m, j
2
W j log10
2
M 1 j 1 X m, j Y m, j
10
RSBF
M m0 K
,
(5.2)
W j
j 1
où X m, j et Y m, j sont les amplitudes des j èmes composantes spectrales de la mème trame
des signaux de référence et dégradé. Le paramètre W j représente le coefficient de pondération
spectrale du RSB fréquentiel. Tout comme pour l’indicateur RSBseg, les valeurs de l’indicateur
RSBF sont limitées à l’intervalle [-15 dB ; 35 dB] ;
la distance de la pente spectrale pondérée correspond à la différence des pentes spectrales des
signaux de référence et dégradé proposée par Klatt (Klatt 1982) et est notée dWSS. Son équation est
donnée par :
L 24
d WSS W l , z S xx l , z S yy l , z ,
2
(5.3)
l 1 z 1
Comme mentionné plus haut, les huit indicateurs sont appliqués dans les sous-bandes décrites dans la
section 5.3.1 (une seule bande pour les codecs NB, trois et cinq sous-bandes pour les codecs WB et SWB
respectivement). Ainsi, nous disposons de 8 indicateurs pour les codecs NB, 24 pour les codecs WB et 40
pour les codecs SWB. Notons que les sous-bandes ont été obtenues en filtrant les signaux de parole par le
filtre de Butterworth d’ordre 7. L’intérêt de ce filtre linéaire réside dans son gain constant sur une large
bande passante ainsi que sa convergence rapide vers 0 dans la bande de coupure.
- 111 -
Chapitre 5 Modélisation de la dimension Coloration
où VAk et VBk , k 1,..., p , correspondent aux valeurs des variables associées aux éléments A
et B respectivement ;
le critère du saut maximal ou "complete linkage" : contrairement au critère précédent, le
critère du saut maximal détermine les distances entre classes à partir de la plus grande distance
existant entre deux individus de classes différentes (i.e. les voisins les plus éloignés) et est
défini par :
max I , J max d A, B , (5.6)
AI , BJ
le critère de la distance des centroïdes : comme son nom l’indique, ce critère est fondé sur la
distance entre les centroïdes (i.e. les centres de gravité) des classes prises deux à deux,
1
cent I , J d cI , cJ , avec cI A ,
card I AI
(5.7)
- 112 -
Chapitre 5 Modélisation de la dimension Coloration
valeur unique par indicateur pour chaque codec. Ainsi, chaque codec est représenté dans un espace à p
dimensions où p correspond au nombre d’indicateurs de qualité qui lui sont associés ( p 8 , 24 et 40
pour les codecs NB, WB et SWB respectivement). La distance euclidienne entre deux codecs ou groupes
de codecs est déterminée à partir de l’équation (5.5) et la distance entre les classes est calculée suivant
l’équation (5.6).
Les résultats issus de la méthode CAH se présentent sous forme d’un dendrogramme illustrant une
hiérarchie de partitions. Dans le dendrogramme, les hauteurs sont proportionnelles à la distance entre les
classes. Plus la hauteur est grande, plus les classes sont éloignées. On peut alors choisir le nombre de
classes a posteriori en tronquant l’arbre à un niveau de seuillage donné, le niveau dépendant des objectifs
fixés. Les sections suivantes décrivent les résultats de l’application de la méthode CAH à chaque groupe
de codecs.
- 113 -
Chapitre 5 Modélisation de la dimension Coloration
5 1
Distance d'éloignement
2
4
3
2
4
1
0
G.711(64)
G.726(32)
EVRC(8.5)
AMR(12.2)
SILK_NB(20)
G.729(8)
AMR(7.4)
Speex_NB(8)
GSM-FR(13)
AMR(12.2)*G.729(8)
G.729(8)*AMR(12.2)
AMR(7.4)*G.729(8)
G.729(8)*AMR(7.4)
EVRC(8.5)*G.711(64)
G.711(64)*EVRC(8.5)
SILK_NB(20)*G.711(64)
AMR(12.2)*G.711(64)
G.711(64)*AMR(12.2)
GSM-EFR(12.2)
G.711(64)*SILK_NB(20)
G.729(8)*G.711(64)
G.711(64)*G.729(8)
G.711(64)*AMR(7.4)
AMR(7.4)*G.711(64)
Speex_NB(8)*G.711(64)
G.711(64)*Speex_NB(8)
Figure 5.5. Dendrogramme obtenu par application de la méthode CAH sur les codecs NB
- 114 -
Chapitre 5 Modélisation de la dimension Coloration
1
8
distance d'éloignement
6
2
0
G.718(32)
G.718(24)
G.722(64)
G.722(48)
G.722.1(24)
G.729.1(20)
AMR WB(6.6)
G.711.1(96)
G.711.1(64)
G.722.1(32)
AMR WB(12.65)
SILK_WB(24)
SILK_WB(14.5)
G.729.1(32)
Speex_WB(23.8)
Speex_WB(12.8)
G.722.1(32)*AMR WB(12.5)
G.722(64)*AMR WB(12.5)
AMR WB(12.5)*G.722(64)
AMR WB(12.5)*G.722.1(32)
Figure 5.6. Dendrogramme obtenu par application de la méthode CAH sur les codecs WB
De façon générale, on remarque que ces deux classes sont caractérisées – de par la technique de codage
employée, de façon générale, dans la bande [50 Hz – 6400 Hz] – d’une part, par les codecs CELP/LPC et,
d’autre part, par les codecs par forme d’onde, exception faite du codec G.722.1 qui, selon le débit
considéré, appartient à la première ou à la deuxième classe. Plus avant, un deuxième seuillage fournit un
partitionnement supplémentaire des codecs de la Classe 1. Même si la découpe en 3 classes ne se justifie
pas pleinement pour du diagnostic en contexte opérationnel, elle sera néanmoins conservée par la suite.
La découpe qui aurait un intérêt du point de vue de l’application serait une distinction entre les codecs les
plus fréquemment utilisés, notamment SILK_WB et l’AMR WB, que nous ne pouvons malheureusement
pas mettre en évidence ici. Les trois classes conservées sont donc :
Classe 1 : G.718 (24 et 32), G.729.1 (32), G.722.1 (24) ;
Classe 2 : Speex_WB (12,8 et 23,8), SILK_WB (14,5 et 24), AMR WB (6,6 et 12,5), AMR WB
(12,5) * G.722 (64) (et son inverse), AMR WB (12,5) * G.722.1 (32) (et son inverse) ;
Classe 3 : G.711.1 (64 et 96), G.722.1 (32), G.722 (48 et 64)
- 115 -
Chapitre 5 Modélisation de la dimension Coloration
Classe 2 : cette classe regroupe les codecs G.718B (36 et 48), SILK_SWB (32 et 40),
Speex_SWB (24 et 44), G.729.1E (48 et 64), AMR WB+ (16 et 36) et G.722.1C (24). Excepté le
codec G.722.1C (24) qui est un codec par transformée, les autres codecs ont en commun la
technique de codage CELP/LPC dans la bande [50 Hz – 4000 Hz] ou [50 Hz – 6400 Hz].
Pour ce premier niveau de classification, si l’on compare les Figures 5.6 (codecs WB) et 5.7 (codecs
SWB), on obtient une configuration assez semblable, à savoir une séparation entre le codage CELP/LPC
et le codage par forme d’onde (auquel vient s’ajouter le codage par transformée dans le cas de la Figure
5.7). On peut aussi remarquer que le G.722.1C se repartit dans les deux classes en fonction du débit
considéré. Ce même constat a déjà été fait pour ce codec dans sa version en bande élargie G.722.1 (cf.
Figure 5.6), ce qui nous laisse penser que le débit des codecs a un impact sur la classification des codecs.
Comme dans le cas des codecs WB, on peut assez facilement mettre en évidence une classification à 3
classes qui sera celle conservée par la suite. Ces classes sont définies comme suit :
Classe 1 : AAC-ELD (48 et 64), G.722.1C (48)), G.711.1D (96 et 112) ;
Classe 2 : G.718B (36 et 48), SILK_SWB (32 et 40), Speex_SWB (24 et 44) ;
Classe 3 : G.729.1E (48 et 64), AMR WB+ (16 et 36) et G.722.1C (24).
Il est encore tôt pour savoir si cette découpe correspond bien à l’usage, encore limité aujourd’hui, qui sera
fait des divers codecs SWB, et permettra un bon diagnostic.
Dendrogramme : configuration avec 16 codecs
9
1
6
distance d'éloignement
2
3
0
G.711.1D(96)
G.718B(48)
G.718B(36)
G.711.1D(112)
AMR WB+(36)
AMR WB+(16)
AAC-ELD(64)
AAC-ELD(48)
G.722.1C(48)
G.729.1E(64)
G.729.1E(48)
G.722.1C(24)
SILK_SWB(40)
SILK_SWB(32)
Speex_SWB(44)
Speex_SWB(24)
Figure 5.7. Dendrogramme obtenu par application de la méthode CAH sur les codecs SWB
- 116 -
Chapitre 5 Modélisation de la dimension Coloration
Si nous obtenons une classification fine des codecs NB, il n'en va pas de même pour les codecs WB et
SWB, dont la grande majorité est hybride. Cependant, rappelons que la détermination des classes des
codecs est effectuée sur la base des valeurs des indicateurs de qualité que nous avons considérés. Cela
étant, nous pensons que, soit le nombre important d’indicateurs de qualité utilisés pour les codecs WB et
SWB (24 et 40 indicateurs pour les codecs WB et SWB respectivement contre 8 indicateurs pour les
codecs NB) peut engendrer un effet de masquage (i.e. les informations apportées par certains indicateurs
de qualité seraient masquées par celles d'autres indicateurs) empêchant un partitionnement plus fin des
codecs, soit aucun de ces indicateurs n’apporte d’informations supplémentaires quant à la distinction de
ces codecs. En pareille circonstance, on pourrait utiliser une méthode de sélection des indicateurs les plus
pertinents comme l’ACP (cf. chapitre 1, § 1.5.1.1.2) avant d'appliquer la CAH. Cela aurait pour effet de
ne retenir que les indicateurs qui apportent des informations utiles à la classification des codecs.
Par ailleurs, comme nous l’avons constaté avec le codec G.722.1 et son annexe C, le débit utilisé
semble avoir un effet sur l’appartenance du codec à une classe donnée.
Par conséquent, de nouvelles investigations sont nécessaires pour une analyse plus approfondie des
codecs WB et SWB.
- 117 -
Chapitre 5 Modélisation de la dimension Coloration
que les classes 4 et 5 forment une seule et même classe si l’on s'était limité au troisième seuillage (ce qui
laisse présager qu’elles présentent des caractéristiques quelque peu comparables).
non oui
RSBF < 16,38
1
RSBF < 19,05
G.711 (64) 2 3
G.726 (32) AMR (7,4) * G.729 (8) EVRC (8,85)
AMR (12,2) * G.729 (8) EVRC (8,85) * G.711 (64)
non oui
4 5
SILK_NB (20) AMR (12,2)
SILK_NB (20)*G.711 (64) AMR (12,2) * G.711 (64)
GSM-EFR
Figure 5.8. Arbre de décision pour la classification automatique des codecs NB. Les cases numérotées de 1 à 6
correspondent aux classes obtenues dans la section 5.3.3.3.1
Classes de codecs
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Total
Phases d’étude
Phase d’apprentissage 100% 100% 100% 100% 83,3% 95,6% 95,73%
Phase de validation 100% 100% 100% 100% 75% 93,3% 93,4%
Tableau 5.5. Performances de classification des codecs NB lors des phases d’apprentissage et de validation
Pour les codecs WB, on constate que l’algorithme de décision n’utilise que l’indicateur RSBseg et plus
précisément dans la bande [4000 Hz – 6400 Hz] pour les classifier en trois classes (cf. Figure 5.9). Même
si l’interprétation de ces résultats est assez délicate, nous pouvons néanmoins noter sur la Figure 5.9 que,
tout comme dans le cas des codecs NB, les codecs intégrant le codage par forme d’onde présentent les
plus forts rapports signal à bruit comparés à ceux utilisant le codage CELP/LPC. L’arbre de décision
proposé a un taux global de classification supérieur à 94% aussi bien pour la phase d’apprentissage que
pour celle de validation, témoignant ainsi de la fiabilité de l’indicateur sélectionné et des seuils de
décision proposés (cf. Tableau 5.6).
- 118 -
Chapitre 5 Modélisation de la dimension Coloration
non oui
RSBseg[4000 – 6400 Hz] < 6,35
1
G.718 (24 et 32)
G.729.1 (32)
non oui G.722.1 (24)
2 3
Speex_WB (12,8 et 23,8) G.711.1 (64 et 96)
SILK_WB (14,5 et 24) G.722.1 (32)
AMR WB (6,6 et 12,5) G.722 (48 et 64)
AMR WB (12,5) * G.722 (64)
AMR WB (12,5) * G.722.1 (32)
Figure 5.9. Arbre de décision pour la classification automatique des codecs WB. Les cases numérotées de 1 à 3
correspondent aux classes obtenues dans la section 5.3.3.3.2
Classes de codecs
Classe 1 Classe 2 Classe 3 Total
Phases d’étude
Phase d’apprentissage 96,3% 91,9% 96,3% 94%
Phase de validation 88,9% 93,9% 100% 95%
Tableau 5.6. Performances de classification de codecs WB lors des phases d’apprentissage et de validation
Concernant les codecs SWB, remarquons qu’aucun indicateur dans la bande de fréquences
caractéristique de la bande super-élargie n’a été sélectionné. Seul l’indicateur RSBseg dans les bandes
[50 Hz – 4000 Hz] et [4000 Hz – 6400 Hz] est retenu par l’algorithme de décision (cf. Figure 5.10). Dans
un premier temps, l’indicateur RSBseg dans la bande [4000 Hz – 6400 Hz] est utilisé pour distinguer les
codecs AAC-ELD (48 et 64), G.722.1C (48) et G.711.1D (96 et 112) des autres codecs. Rappelons que
les codecs AAC-ELD et G.722.1C sont des codecs par transformée tandis que le codec G.711.1D intègre
le codage par forme d’onde dans la bande [50 Hz – 4000 Hz] et le codage par transformée dans la bande
[4000 Hz – 8000 Hz] (cf. 5.3.3.3.3). Ces codecs ont donc en commun le codage par transformée dans la
bande [4000 Hz – 8000 Hz] et par conséquent dans la bande [4000 Hz – 6400 Hz], bande dans laquelle
l’indicateur RSBseg est considéré. Dans un second temps, le même indicateur est employé mais cette fois-
ci dans la bande [50 Hz – 4000 Hz] pour caractériser les codecs ayant en commun le codage CELP/LPC
dans cette bande. Le Tableau 5.7 présente les performances de l’arbre de décision pour la classification
des codecs SWB. On obtient un taux de classification supérieur à 90% dans les phases d’apprentissage et
de validation. Dans chacune de ces phases, les codecs de la Classe 1 sont correctement classifiés. Quant
aux codecs des Classes 2 et 3, on obtient une performance de classification supérieure à 86%. Les
éléments de la Classe 2 n’ayant pas été correctement classifiés se retrouvent dans la Classe 3 et vice-versa.
Ce fait a déjà été observé dans le cas des codecs NB.
- 119 -
Chapitre 5 Modélisation de la dimension Coloration
non oui
3 2
G.729.1E (48 et 64) G.718B (36 et 48)
AMR WB+ (16 et 36) SILK_SWB (32 et 40)
G.722.1C (24) Speex_SWB (24 et 44)
Figure 5.10. Arbre décision pour la classification automatique des codecs SWB. Les cases numérotées de 1 à 3
correspondent aux classes obtenues dans la section 5.3.3.3.3
Classes de codecs
Classe 1 Classe 2 Classe 3 Total
Phases d’étude
Phase d’apprentissage 100% 94,4% 87 % 93,8%
Phase de validation 100% 88,9% 86,7% 89,6%
Tableau 5.7. Performances de classification des codecs SWB lors des phases d’apprentissage et de validation
Nous avons vu dans la section précédente que les arbres de décision proposés pour la classification des
codecs NB, WB et SWB présentent de bonnes performances. Il s’agit maintenant d’évaluer ces
performances sur une base inconnue. Pour cela, le modèle global prenant en compte la classification des
codecs en fonction de leur largeur de bande a été considéré. Nous avons extrait 88 stimuli dans les bases
sonores de POLQA (ITU-T 2011a). Ainsi, pour les codecs NB, nous avons considéré 12 stimuli dégradés
par cinq conditions de codage simple (l’EVRC (8,85) associé à 0%, 2% et 10% de pertes de paquets et
l’AMR (12,2) associé à 2% de pertes de paquets) et 4 stimuli par une condition de transcodage de type
CELP-CELP (GSM-EFR (12,2) * GSM-EFR (12,2)) soit un total de 52 stimuli. Quant aux codecs WB,
20 stimuli sont obtenus en dégradant 4 signaux de parole par cinq conditions de dégradation (l’AMR WB
(6,6 et 12,65) associé à 1% de pertes de paquets, G.722.1 (32), G.722 (64) et G.711.1 (96) avec un bruit
de restaurant à 8 dB). Enfin, pour les codecs SWB, 16 stimuli sont relatifs à quatre conditions de
dégradation (Speex_SWB (44), l’AMR WB+ (24 et 32) et G.722.1C(24) associé à du bruit de souffle à 20
dB et 2% de pertes de paquets).
Le Tableau 5.8 illustre les performances de notre modèle et montre un taux global de bonne
classification de 82,9%. La performance la plus élevée est observée pour les codecs NB (86,5%), attestant
la robustesse du modèle en présence de coupures. La performance la plus faible concerne les codecs SWB
(75% de bonne classification). Les stimuli n’ayant pas été correctement classifiés concernent ceux qui
sont impactés par la condition contenant du bruit. Cela s’explique par le fait que l’indicateur RSBseg est
très sensible au niveau du bruit de fond présent dans le signal de parole. Ce même constat est également
observé pour les codecs WB. Notons au passage que du point de vue de la distinction des codecs en
fonction de leur largeur de bande, notre modèle obtient un taux de classification de 96,6%, ce qui renforce
une fois de plus la fiabilité et la robustesse de l’indicateur Erb.
- 120 -
Chapitre 5 Modélisation de la dimension Coloration
Tableau 5.8. Performances du modèle proposé en termes de classification des codecs sur une base
sonore inconnue
5.5. Conclusion
L’objectif de cette étude était de développer un outil capable de déterminer la signature des codecs NB,
WB et SWB tout en prenant en compte les contraintes liées à ces codecs. Sur la base des études effectuées
dans (Zango 2013) et (Leman 2011), des indicateurs de qualité ont été considérés pour une étude plus fine
des codecs. A l’issue de cette étude, nous avons conçu un outil permettant de classifier l’ensemble des
codecs NB, WB et SWB avec seulement trois indicateurs de qualité dont l’un, l’indicateur Erb, permet
d’obtenir des informations sur la largeur de bande des codecs et les deux autres, les indicateurs RSBseg et
RSBF, des informations complémentaires sur la nature des codecs. Dans le cas des codecs NB, l’outil
proposé fournit des informations plus fines sur les codecs très couramment utilisés dans les systèmes de
télécommunications. Notre outil se révèle très utile dans un contexte de diagnostic avancé des systèmes
de télécommunications en bande étroite puisqu’une connaissance sur le type de codec utilisé permet
d’obtenir d’autres informations supplémentaires notamment sur la nature de l’algorithme PLC. En
revanche, en ce qui concerne les codecs WB et SWB, de par leur caractère hybride, nous n’avons pas pu
obtenir d’informations plus précises. Néanmoins, comme nous l'avons constaté, ces codecs se distinguent
en fonction des techniques de codage qu’ils intègrent dans des bandes particulières (i.e. les bandes
[4000 Hz – 6400 Hz] et [50 Hz – 6400 Hz] pour les codecs WB et SWB, respectivement), ce qui demeure
une information capitale pour des études ultérieures. Une étude plus avancée sur les codecs WB et SWB
est nécessaire. On pourrait par exemple appliquer une ACP sur les indicateurs de qualité afin de ne
conserver que les plus pertinents à la détermination des classes des codecs. Cela permettrait sans doute de
comprendre aussi l’intérêt des indicateurs de qualité sélectionnés par l’algorithme dans la détermination
des classes des codecs.
- 121 -
Chapitre 6 Modélisation de la dimension Sonie
Chapitre 6
La dimension Sonie est relative à la perception du niveau sonore du signal de parole. Les facteurs
techniques impactant cette dimension sont principalement les caractéristiques du terminal (i.e. réglages du
microphone et du haut-parleur), ou le bruit présent sur le signal de parole. Bien que les réseaux soient en
théorie neutres en termes de niveaux, on peut aussi citer les éventuels gains que le signal peut subir lors
de transcodages. Comme nous l’avons mentionné dans le chapitre 2, § 1.5.2, la dimension Sonie joue un
rôle important dans la perception de la qualité vocale ((McDermott 1969) et (Côté et al. 2007)), que le
niveau sonore de la parole soit trop faible ou trop fort. C’est la raison pour laquelle les modèles récents
d’évaluation de la qualité vocale, tels que POLQA (ITU-T 2011a) et DIAL (Côté 2010b), prennent en
compte l’effet de cette dimension sur la qualité perçue. A l’heure actuelle, aucune découpe de la
dimension Sonie en sous-dimensions n’a été proposée mais des indicateurs de qualité permettent de
quantifier cette dimension.
En psycho-acoustique, la sonie est une grandeur subjective correspondant à l’équivalent sensoriel de
l’intensité physique d’un son. Autrement dit, elle correspond à la perception du niveau sonore d’un son
prenant en compte son contenu fréquentiel et sa durée. La dimension Sonie, que nous considérons ici,
représente l’impact de la sonie sur la qualité vocale. Dans ce chapitre, nous présenterons brièvement
quelques méthodes objectives d’estimation de la sonie, dont une est particulièrement utilisée dans les
modèles perceptifs d’évaluation de la qualité vocale, notamment POLQA. Les indicateurs de qualité de la
dimension Sonie proposés dans la littérature seront ensuite décrits. Enfin, nous analyserons leurs
performances, notre objectif étant de sélectionner les plus pertinents pour la caractérisation de la
dimension Sonie.
La sonie d’un son s’exprime en sone ou en phone. Le sone est une unité fondée sur une échelle
sensorielle établie par Stevens (Stevens 1936) à partir de tests psycho-acoustiques. Par convention, 1 sone
correspond à la sonie d’un son pur7 de fréquence 1000 Hz ayant un niveau de 40 dB SPL. Quant au phone,
c'est une unité proposée par Fletcher et Munson (Fletcher 1933) à partir des courbes d’isosonie8 et dont
l’échelle correspond à celle des dB SPL pour un son pur de 1000 Hz.
7
Un son pur correspond à un signal sinusoïdal dont la fréquence et l'amplitude maximale restent constantes au cours
du temps. Dans la nature, on trouve très rarement un son pur mais plutôt un son résultant d’un mélange de plusieurs
sons purs (son complexe).
8
Une courbe d’isosonie (ou courbe isosonique) désigne le niveau de pression acoustique en dB SPL, en fonction de
la fréquence, et ayant la même sensation d’intensité sonore pour l’oreille humaine.
- 123 -
Chapitre 6 Modélisation de la dimension Sonie
La mesure objective de la sonie de n’importe quel type de son est très complexe. Toutefois, il existe
des méthodes permettant d’estimer la sonie des sons stationnaires ou non.
Pour l’estimation de la sonie des sons stationnaires, on distingue principalement deux méthodes. Il
s’agit des modèles de Zwicker (Zwicker 1958) et de Moore et Glasberg [(Moore and Glasberg 1997)]
respectivement normalisés sous (ISO-532B 1975) et (ANSI-S3.4 2007). Ces modèles sont fondés sur la
modélisation du système auditif humain.
Selon (Zwicker 1958), la sonie est liée à la répartition de l’excitation, provoquée par un signal
acoustique, le long de la cochlée (cf. chapitre 1, § 1.1). De ce fait, l’estimation de la sonie revient à
transformer le signal acoustique en un signal d’excitation perçu au niveau de la cochlée. Cette
transformation s’effectue principalement en trois étapes comme illustré sur la Figure 6.1. La première
étape consiste à modéliser la cochlée qui, d’après Fletcher (Fletcher 1940), est constituée d’un banc de
filtres passe-bande se chevauchant fortement. Zwicker modélise ces filtres physiologiques par les bandes
critiques (cf. chapitre 1, § 1.1) qui sont des bandes spectrales adjacentes dont l’unité est le Bark. Le
nombre total de bandes critiques proposé est de 24 (cf. Tableau 1.1). Une fois cette modélisation effectuée,
le signal acoustique est filtré en fonction de ces bandes critiques. La deuxième étape revient à estimer la
courbe de masquage fréquentiel. Le masquage fréquentiel est un phénomène perceptif apparaissant
lorsqu’un son de faible intensité – qui serait parfaitement audible s’il était émis seul – est masqué par un
son de forte intensité (son masquant) et de fréquence voisine du premier son (cf. Figure 6.2). Cette courbe
de masquage est estimée dans chaque bande critique afin de ne considérer que les fréquences ayant une
énergie supérieure à cette courbe. Enfin, la troisième étape consiste à déterminer la densité de sonie du
signal acoustique, dont l’expression est donnée par l’équation (1.11).
Il est important de mentionner que les modèles perceptifs d’évaluation objective de qualité vocale tels
que PESQ (ITU-T 2001), POLQA (ITU-T 2011a) et DIAL (Côté 2010b) utilisent tous le modèle de sonie
de Zwicker (Zwicker 1958) pour la représentation interne des signaux de parole (cf. chapitre 1, §1.4.3.2.1).
Rappelons que le signal de parole est par nature non stationnaire, mais on peut le considérer comme
stationnaire sur une durée comprise entre 10 et 30 ms (Loizou 2013).
Signal acoustique
- 124 -
Chapitre 6 Modélisation de la dimension Sonie
Quant au modèle de Moore et Glasberg (Moore and Glasberg 1997), les étapes d’estimation de la
sonie sont les mêmes que celles de Zwicker (Zwicker 1958), mais il s’en différencie en revanche
principalement par les méthodes d’estimation des filtres physiologiques et de la courbe de masquage. Les
études réalisées par Molla et al. (Molla et al. 2010) sur les performances des algorithmes d’estimation des
sonies ont montré que les modèles de Zwicker et de Moore sont très pertinents pour l’estimation de la
sonie des sons stationnaires.
Le principe d’estimation de la sonie des sons non stationnaires est le même que celui des sons
stationnaires, mais en prenant en compte le phénomène de masquage temporel. La sonie est alors calculée
en fonction du temps. S'il n'existe pas actuellement de modèle normalisé d’estimation de la sonie des sons
non stationnaires, deux modèles sont bien connus à ce jour, les modèles de Zwicker et al. (Zwicker et al.
1984) et de Moore et Glasberg (Moore and Glasberg 1997). De plus en plus, des recherches sont
effectuées afin d’estimer efficacement la sonie de ces types de son (Chalupper and Fastl 2002).
Comme nous l’avons mentionné plus haut, notre objectif est de déterminer des indicateurs de qualité
permettant de quantifier l’impact de la sonie sur la qualité vocale. Pour cela, nous avons considéré cinq
indicateurs de qualité. Les trois premiers indicateurs sont les indicateurs Ltl, Leq de DIAL (Côté 2010b)
et Level de POLQA (ITU-T 2011a) estimant respectivement la sonie à long-terme de l’ensemble du signal
de parole, l’énergie moyenne et le niveau global du signal de parole pendant les périodes d’activité vocale.
Ces indicateurs sont décrits dans le chapitre 2, § 2.2.4. Les deux autres indicateurs de qualité sont les
indicateurs STLmax et LTLmax proposés dans (Glasberg and Moore 2002)]. L’indicateur STLmax traduit la
valeur maximale de la sonie à court-terme du signal de parole approchant le niveau d’isosonie des sons
non stationnaires. Quant à l’indicateur LTLmax, il traduit la valeur maximale de la sonie à long-terme
permettant d’estimer la sonie globale des sons variant lentement dans le temps. Notons que, pour le calcul
- 125 -
Chapitre 6 Modélisation de la dimension Sonie
de ces indicateurs, les auteurs ont proposé une approche d’estimation de l’effet de masquage temporel.
Toutefois, la mise en pratique de cette approche est très complexe, ce qui fait que nous avons calculé ces
indicateurs à partir des sonies à court et long-terme du signal dégradé (respectivement notées Ly l et
Ltl y l ) sans tenir compte du masquage temporel. Les expressions de STLmax et LTLmax sont définies
respectivement par :
STLmax max Ly l , (6.1)
1 l L
Les performances des cinq indicateurs sont évaluées suivant les critères objectifs CO1 et CO2 décrits
dans le chapitre 2, § 2.3.1.2. Rappelons que les performances des indicateurs Ltl, Leq et Level ont déjà été
présentées dans la section 2.3.3.4 de ce même chapitre. Dans cette partie, il s’agit d’évaluer les
performances des indicateurs STLmax et LTLmax suivant ces deux mêmes critères. Pour cela, nous avons
considéré les mêmes conditions de dégradation que celles utilisées pour les trois premiers indicateurs et
qui sont décrites dans le Tableau 2.2 du chapitre 2. Les performances des indicateurs STLmax et LTLmax
sont présentées dans le Tableau 6.1.
Les indicateurs STLmax et LTLmax respectent le critère CO2, mais pas le critère CO1 ( 0,9 ) et ne
permettent donc pas de quantifier efficacement l’impact de l’atténuation du niveau sonore sur la qualité
vocale. Cela pourrait s’expliquer par le fait que nous n’avons pas tenu compte de l’effet de masquage
temporel dans le calcul de ces indicateurs. Cependant, nous avons vu dans le chapitre 2, § 2.3.1.2, que les
indicateurs Ltl, Leq et Level sont fiables et robustes pour un diagnostic de l’atténuation du niveau sonore
global du signal de parole. Finalement, pour la modélisation de la dimension Sonie, nous avons opté pour
l’indicateur Leq, puisque c’est lui qui obtient la corrélation (entre les notes subjectives et les notes
prédites) la plus élevée ( 0,85 , contre 0,84 et 0,81 pour les indicateurs Ltl et Level respectivement).
La prédiction de la qualité vocale liée à la dimension Sonie s’écrit alors sous la forme (la fonction de
mappage de l’indicateur Leq correspond à celle obtenue dans le chapitre 2, § 2.3.3) :
MOS p 0,0003 Leq3 0.0676 Leq 2 4,8241 Leq 111,1613 , (6.3)
où MOS p est la qualité vocale prédite.
Pour un diagnostic avancé de la perception du niveau sonore de la parole, on se propose d’estimer, à
partir des valeurs de l’indicateur Leq, les variations (atténuation ou amplification) qui peuvent survenir
sur le niveau sonore global du signal de parole. Pour cela, nous avons considéré 24 signaux de parole à
bande super-élargie, échantillonnés à 48 kHz, avec une quantification sur 16 bits. Ces signaux sont
égalisés à un niveau nominal de -26 dBov suivant la norme P.56 de l’UIT-T (ITU-T 1993). Ce niveau
- 126 -
Chapitre 6 Modélisation de la dimension Sonie
nominal correspond à 73 dB SPL dans un contexte d’écoute binaurale (contexte d’écoute très utilisé pour
l’évaluation de la qualité vocale des signaux à bande super-élargie). Nous avons appliqué sur les 24
signaux, 7 niveaux sonores (53, 58, 63, 68, 73, 78 et 83 dB SPL) correspondant respectivement à des
gains réels de -20, -15, -10, -5, 0, +5 et +10 dB, soit un total de 168 stimuli. Pour estimer le gain du
niveau sonore du signal de parole, nous avons opté pour une simple régression linéaire, avec un intervalle
de confiance de 95%, entre les valeurs de l’indicateur Leq (obtenues en appliquant cet indicateur sur les
168 stimuli) et les niveaux sonores des stimuli. L’estimation de ce gain (notée g n ) s’écrit sous la forme :
g n 0,9987 Leq 73,9475 . (6.4)
Les performances de cette estimation sont déterminées en termes de corrélation ( ) – cette corrélation
correspond à la racine carrée du coefficient de détermination (R2) – et de l’EQM ( ) entre le gain réel et
le gain estimé. D’après la Figure 6.3, nous obtenons de très bonnes performances d’estimation du gain du
niveau sonore ( 0,99 ; 0,06 ). Ces résultats étaient attendus puisque l’indicateur Leq correspond à
la mesure en dB SPL de l’énergie moyenne du signal pendant les périodes d’activité vocale. Notons que
cet indicateur est d’ailleurs très largement utilisé dans les services de radiodiffusion du fait de sa
simplicité de mise en œuvre et de sa fiabilité dans l’estimation de l’intensité du niveau sonore de la parole
(ITU-R 2007).
R2 = 0,99 / = 0,06
15
10
0
Gain réel (dB)
-5
-10
-15
-20
-25
50 55 60 65 70 75 80 85
Leq (dB SPL)
- 127 -
Chapitre 6 Modélisation de la dimension Sonie
6.3. Conclusion
A l’issue d’une étude comparative des performances des indicateurs de la dimension Sonie, nous
avons choisi de modéliser ladite dimension à l’aide de l’indicateur Leq qui, conformément aux
conclusions du chapitre 2, s’est révélé robuste et fiable pour l’estimation de l’intensité du niveau sonore
de la parole. Par conséquent, il sera utilisé sans difficulté pour apporter l’information nécessaire à la
quantification des variations de niveau en complément à toute mesure de qualité vocale.
Au-delà de cette application simple à la mesure du niveau d’un signal vocal, il faut mentionner qu’à ce
jour il n’existe pas de méthode objective générique permettant de mesurer la sonie de n’importe quel type
de son. L’estimation effective de la sonie est toujours un sujet d’actualité en psycho-acoustique et des
recherches sont ainsi menées afin de développer un modèle générique de référence de la sonie des sons.
- 128 -
Chapitre 7 Performances de l’outil de diagnostic
Chapitre 7
Dans les chapitres 3 à 6, nous avons décrit la construction des différents blocs constitutifs de notre
outil de diagnostic à travers la modélisation des dimensions Bruyance, Continuité, Coloration et Sonie
respectivement. Si les résultats obtenus sont satisfaisants pour chaque bloc, nous devons maintenant
considérer l’outil dans sa globalité. Dans ce chapitre, nous présenterons sa structure globale et testerons
son efficacité sur de nouvelles bases sonores puis analyserons ses performances et les comparerons en
termes de prédiction de la qualité vocale liée à chaque dimension à celles du modèle DIAL (Côté 2010b).
Avant de décrire la structure globale de l’outil de diagnostic proposé, il est important de mentionner
que cet outil ne délivre pas une note de la qualité vocale globale mais vise plutôt, en complément à une
telle mesure, à fournir des informations plus spécifiques sur la nature des défauts présents sur le signal de
parole. Par exemple, en amont, le modèle POLQA (ITU-T 2011a) sera utilisé pour prédire la qualité
vocale ( MOS - LQO ). Notre outil sera alors utilisé dès lors que POLQA fournit une prédiction de la
qualité vocale en dessous d’un seuil minimal de qualité (dont la valeur dépendra du contexte), comme
illustré sur la Figure 7.1.
x(k) y(k)
Système de
communication
POLQA
MOS-LQO
MOS-LQO < α
Oui
Outil de diagnostic
La Figure 7.2 présente la structure globale de l’outil de diagnostic proposé, étant entendu que cet outil
requiert les signaux de référence x k et dégradé y k (en l’occurrence pour les indicateurs relevant des
dimensions Continuité et Coloration) et donc leur alignement temporel. L’algorithme d’alignement
- 129 -
Chapitre 7 Performances de l’outil de diagnostic
considéré correspond à celui utilisé dans le modèle DIAL (Côté 2010b), celui de POLQA n’étant pas
fourni de façon complète dans la norme P.863 (ITU-T 2011a). Les blocs numérotés de 1 à 4
correspondent aux modélisations des dimensions Bruyance, Continuité, Coloration et Sonie décrites
respectivement dans les chapitres 3 à 6.
x(k) y(k)
Alignement temporel
1 2 3 4
Bruyance
Bruyance Continuité Coloration Sonie
Concernant la dimension Bruyance (cf. Figure 7.3), notre outil fournit une classification automatique
des bruits de fond en trois classes ou sous-dimensions (Bruit d’environnement, Souffle et Grésillement)
à l’aide d’une combinaison des indicateurs SF (Flux Spectral), Vn (Variation sonore du bruit) et CS
(Centroïde Spectral). De plus, une prédiction de la qualité vocale liée à cette dimension (notée MOSB )
est proposée.
Bruyance
Quant à la dimension Continuité (cf. Figure 7.4), sa modélisation est fondée sur trois sous-dimensions
de discontinuités (Coupures, Artéfacts Additifs et Variation de Gain), chacune étant quantifiée par les
indicateurs rL (taux de coupures), rA (taux d’artéfacts) et VG respectivement. Notre outil fournit non
seulement des informations spécifiques quant à une présence éventuelle de discontinuités mais également
- 130 -
Chapitre 7 Performances de l’outil de diagnostic
une prédiction de la qualité vocale relative à la dimension Continuité (notée MOSC ) et à chaque sous-
dimension ( MOSCo , MOSA et MOSVG respectivement).
Continuité
En ce qui concerne la dimension Coloration, notre outil rend, dans un premier temps, une
classification des codecs en fonction de leur largeur de bande de fréquences à l’aide de l’indicateur Erb et,
dans un second temps, une classification fine de chaque groupe de codecs NB, WB et SWB, grâce aux
indicateurs RSBseg et RSBF (cf. Figure 7.5). Toutefois, il ne délivre pas de prédiction de la qualité vocale.
Pour compléter l’étude de cette dimension, nous proposons ici une prédiction de la qualité relative à cette
dimension à l’aide d’une combinaison des indicateurs Erb et fc (fréquence centrale du gain du système de
transmission). Lors de la phase d’apprentissage, nous avons considéré les stimuli ayant servi lors de
l’évaluation des performances des indicateurs de la dimension Coloration (cf. chapitre 2, § 2.3.2) ne
prenant pas en compte les stimuli en suisse allemand (qui seront utilisés lors de la phase de validation de
notre outil en termes de prédiction de la qualité vocale), ce qui nous fait un total de 136 stimuli. La
prédiction de la qualité vocale relative à la dimension Coloration, notée MOSCol , est obtenue à partir
d’une régression linéaire multiple entre les notes subjectives et les valeurs des indicateurs Erb et fc :
MOSCol 1,77 0,14 Erb 0,0004 fc . (7.1)
Les performances de prédiction sont évaluées en termes de corrélation entre les notes subjectives et les
notes prédites ( ) et d’erreur quadratique moyenne ( ) entre ces notes MOS. Comme on peut le
constater en visualisant la Figure 7.6, notre outil obtient des résultats très satisfaisants sur cette dimension
( 0,91 , 0,09 ).
- 131 -
Chapitre 7 Performances de l’outil de diagnostic
Coloration
MOSCol Calcul des indicateurs de qualité (Erb, fc, RSBseg, RSBF)
4.5
3.5
MOS-LQS
2.5
1.5
1
1 1.5 2 2.5 3 3.5 4 4.5 5
M OSCol
- 132 -
Chapitre 7 Performances de l’outil de diagnostic
Enfin, concernant la dimension Sonie (cf. Figure 7.7), nous proposons une estimation des variations
(amplification ou atténuation) du niveau sonore global de la parole et une prédiction de la qualité vocale à
l’aide de l’indicateur Leq (niveau moyen équivalent de la parole).
Sonie
MOSS Calcul de l’indicateur Leq
D’autre part, l’outil fonctionne à une fréquence d’échantillonnage interne de 48 kHz, lui permettant de
couvrir les bandes audio NB, WB et SWB. Rappelons que seule la dimension Coloration a été étudiée sur
des contenus dans les trois bandes audio, alors que les trois autres dimensions ont été optimisées pour les
signaux audio à bande SWB uniquement, pour les raisons que nous avons mentionnées dans
l’introduction du chapitre 2.
Notre outil de diagnostic sera évalué suivant ses capacités à fournir des informations sur la nature des
défauts présents sur le signal de parole (i.e. performances de détection de défauts) et aussi à prédire la
qualité vocale en présence de ces défauts. Pour cela, nous avons considéré des stimuli extraits de quatre
bases sonores développées pour la compétition POLQA (ITU-T 2011a) à l’UIT-T, comprenant des
enregistrements en langues française, néerlandaise, suisse allemande et anglaise britannique. Rappelons
qu’une des particularités de ces bases sonores est qu’elles ont été conçues pour évaluer les performances
des systèmes vocaux en bande super-élargie et que les notes subjectives associées à chaque stimulus sont
disponibles. Elles contiennent également des conditions à dégradations multiples reflétant les conditions
réelles de communications téléphoniques et décrites avec précision par leurs concepteurs, ce qui permet
d’identifier a priori les dimensions concernées par chaque condition. Néanmoins, nous avons recours à
des séries d’écoute quand cela s’avère nécessaire (description parfois trop ambigüe ou incomplète).
Les performances de notre outil en termes de détection des défauts sont évaluées pour chaque
dimension perceptive et non de manière globale. Les types de défauts contenus dans les conditions de
dégradation incluses dans les bases de données utilisées pour cette validation sont décrits dans le Tableau
7.1. Pour la dimension Bruyance, ces bases contiennent 408 stimuli impactés par des conditions de bruit
parmi lesquels 272 stimuli sont impactés par des bruits de la classe Bruit d’Environnement, 36 relatifs à
la classe Grésillement et 100 à la classe Souffle. Ces différents stimuli ont été répartis de sorte à mettre
en exergue les dégradations des autres dimensions perceptives comme illustré dans le Tableau 7.2. Cette
procédure est également appliquée aux dimensions Continuité et Coloration (cf. Tableaux 7.3 et 7.4).
Concernant la dimension Continuité, nous avons pu utiliser 1020 stimuli dont 432 stimuli ne contenant
aucune discontinuité (conditions relatives aux codages, distorsions fréquentielles, bruits de fond, etc.),
- 133 -
Chapitre 7 Performances de l’outil de diagnostic
242 contenant des coupures, 226 des artéfacts et 120 présentant des variations de gain du système. Quant
à la dimension Coloration, les bases disponibles contiennent 216 stimuli relatifs à des codecs NB, 108 à
des codecs WB et 96 à des codecs SWB, soit un total de 420 stimuli. Enfin, en ce qui concerne la
dimension Sonie, nous avons pu bénéficier de 1323 stimuli impactés par des variations du niveau sonore
global allant de -20 dB à + 5 dB.
Bruit de restaurant (RSB = 8, 15, 20 et 26 dB) ; bruit de rue (RSB = 7, 15, 27 et 30 dB) ; bruit de
supermarché (RSB = 8 et 28 dB) ; bruit de voiture (RSB = 25 dB) ; bruit de Hoth (RSB = 12 dB),
Bruyance
bruit de souffle (RSB = 12, 13, 15, 17, 27 et 28 dB) ; marteau piqueur (15 dB) ; bruit de souffle très
aigu (RSB = 5 dB)
Pertes de paquets aléatoires à 2, 5 et 20% sans PLC ; pertes de paquets à 2, 10% (pertes aléatoires), 1,
Continuité
2 et 3% (pertes en rafales) avec PLC (répétition de trames) ; AGC ; réduction de bruit
EVRC (5,8 et 9,3), GSM-EFR (12,2) * AMRNB (12,2), G.711 (64)* GSM-FR (13), GSM-FR (13) *
GSM-FR (13), G.711 (64) * GSM-EFR (12,2), G.726 (32) * G.711 (64) ; AMRWB (6,6 ; 12,65 ;
Coloration
14,25 et 23,85), G.722 (64), G729.1 (32), G.711.1 (96), G.718 (12), SILK_WB (24) ; AMRWB+
(32), Speex_SWB (44), SILK_SWB (40)
Sonie Niveaux sonores globaux : 53, 62, 63, 64, 67, 68, 69, 71, 72, 73 (niveau de référence), 75 et 78 dB
Tableau 7.1. Récapitulatif des dégradations utilisées lors de la validation de notre outil de diagnostic
- 134 -
Chapitre 7 Performances de l’outil de diagnostic
L’évaluation des performances de prédiction de notre outil pour des conditions à dégradations
multiples s’avère une tâche difficile. En effet, cette évaluation requiert que l’on dispose des notes
subjectives reflétant l’impact de chaque dégradation présente sur le signal de parole (ITU-T 2004b). Ainsi,
les notes subjectives disponibles dans les bases sonores de la compétition POLQA sont des notes MOS
globales, qui ne permettent pas d’évaluer qualitativement notre outil. Pour pallier ce problème, nous
avons considéré les notes subjectives issues d’un test multidimensionnel effectué sur l’une de ces bases
sonores (en l’occurrence la base sonore en suisse allemand) et rapporté dans (ITU-T 2012a). Dans ce test,
les participants jugeaient la qualité vocale des stimuli suivant les quatre dimensions considérées dans
notre étude (i.e. Bruyance, Continuité, Coloration et Sonie) sur une échelle continue allant de 1
(dégradation inaudible) à 1000 (dégradation très gênante). Cependant ces notes subjectives ne reflètent
que les dimensions perceptives concernées et, par conséquent, les performances de prédiction de notre
outil se limiteront uniquement à la prédiction vocale relative à chaque dimension et non aux sous-
dimensions.
Pour utiliser efficacement les notes subjectives obtenues dans (ITU-T 2012a), il est nécessaire de
transformer ces notes, initialement comprises entre 1 et 1000, vers l’échelle MOS allant de 1 (dégradation
très gênante) à 5 (dégradation inaudible). En supposant une relation linéaire entre ces deux échelles
(relation validée auprès des auteurs de (ITU-T 2012a)), nous avons déterminé une fonction de mappage
f dont l’équation s’écrit
f x 0,004 x 5,004 ; x 1, 1000 . (7.2)
Cette fonction est ainsi appliquée à l’ensemble des notes subjectives de (ITU-T 2012a).
Dans la section 7.3, nous présenterons les performances de notre outil en termes d’identification des
dégradations. Les performances de prédiction de la qualité vocale relative à chaque dimension de notre
outil seront décrites dans la section 7.4 et comparées aux performances du modèle DIAL (Côté 2010b).
Dans cette section, nous étudions les performances de notre outil en termes de détection. Pour les
dimensions Bruyance, Continuité et Coloration, les performances sont évaluées en fonction du taux de
bonne classification. Concernant la dimension Sonie, étant donné que notre outil fournit une estimation
des variations observées sur le niveau sonore global de parole, ses performances sont évaluées à partir des
calculs de la corrélation ( ) entre le gain réel et le gain estimé et de l’erreur quadratique moyenne ( )
entre ces gains.
- 135 -
Chapitre 7 Performances de l’outil de diagnostic
Les performances de classification automatique des bruits de fond en trois classes de bruit (Bruit
d’environnement, Souffle et Grésillement) sont illustrées sur la Figure 7.8. Notons que, pour cette phase
d’évaluation, nous considérons qu’il y a toujours du bruit de fond lors des communications téléphoniques.
C’est la raison principale pour laquelle nous n’avons utilisé pour cette validation que des conditions
contenant du bruit de fond.
Notre outil présente un taux de bonne classification supérieur à 82% pour les conditions présentant
uniquement du bruit de fond, le taux le plus élevé correspondant à la classe Grésillement (92% de bonne
classification). Pour des conditions à dégradations multiples, notre outil présente un taux de classification
des bruits de la classe Bruit d’environnement globalement satisfaisant sur l’ensemble des conditions
(81,25% de bonne classification). Les performances les plus faibles correspondent aux conditions
présentant, en plus du bruit de fond, une atténuation importante du niveau sonore de la parole (et du bruit).
Du fait de cette atténuation, les bruits de la classe Bruit d’environnement qui ne sont pas correctement
classifiés sont confondus avec les bruits de la classe Souffle. Quant à la classe Souffle, les performances
les plus faibles sont observées pour les conditions contenant des discontinuités. La présence de ces
discontinuités dans le signal de parole modifie la structure spectrale du bruit qui est ainsi assimilé par
notre outil à du bruit non stationnaire. Ce fait a déjà été constaté au chapitre 3, § 3.5.1. En ce qui concerne
les performances de notre outil pour la classification des bruits de la classe Grésillement, pour les
conditions à dégradations multiples, nous n’avons trouvé que des conditions contenant du bruit de
grésillement associé à une atténuation du niveau sonore de la parole, pour lesquelles notre outil obtient un
taux de bonne classification relativement élevé (66,7% de bonne classification). La quasi-totalité des
bruits de cette classe qui n’ont pas été correctement classifiés se confond avec les bruits de la classe
Souffle pour les mêmes raisons que celles mentionnées pour la classe Bruit d’environnement.
De façon générale, notre outil présente des résultats globalement satisfaisants pour la classification des
bruits des classes Bruit d’environnement et Grésillement représentant respectivement les bruits
caractéristiques de l’environnement bruyant réel de communication (i.e. bruits non stationnaires) et du
réseau (i.e. bruits fortement stationnaires). Si le taux de classification le plus faible est observé au niveau
de la classe Souffle, surtout pour des conditions contenant des discontinuités, notre outil obtient de
bonnes performances de classification des bruits de cette classe pour des conditions uniques de bruit de
fond.
- 136 -
Chapitre 7 Performances de l’outil de diagnostic
100%
Bruit d'environnement
90%
Souffle
Figure 7.8. Performances de notre outil en termes de classification des bruits de fond.
‘B.’, ‘Cont.’, ‘Col.’ et ‘S.’ désignent respectivement les dimensions Bruyance, Continuité, Coloration et Sonie
Dans cette partie, nous évaluons les performances de notre outil à détecter la présence de
discontinuités sur le signal de parole (cf. Figure 7.9). Rappelons que notre outil intègre la modélisation de
trois catégories de discontinuités (Coupures, Artéfacts Additifs et Variation de Gain) à l’aide des
indicateurs rL, rA et VG respectivement.
Pour les conditions ne présentant pas de discontinuités, les indicateurs rL et rA présentent plutôt une
bonne performance de classification (supérieure à 82 %) tandis que l’indicateur VG obtient un taux
relativement faible (71,76 % de bonne classification, donc près d’un tiers d’erreurs). Pour les conditions
contenant uniquement des discontinuités, notre outil obtient une performance de détection très élevée
(supérieure à 93 %). Quant aux conditions à dégradations multiples, on aboutit à de bonnes performances
de détection des coupures, attestant la fiabilité et la robustesse de l’indicateur rL. Le taux le plus faible
pour cet indicateur est obtenu pour les conditions contenant, en plus des coupures, une atténuation globale
du niveau sonore de la parole. Néanmoins, ce taux (75% de bonne classification) reste malgré tout très
satisfaisant. Quant à la sous-dimension Artéfacts Additifs (indicateur rA), les performances décroissent
plus ou moins linéairement avec le nombre de dégradations. Ce même constat est observé pour la sous-
dimension Variation de Gain (indicateur VG). Comme nous l’avons mentionné dans le chapitre 4, § 4.2,
les indicateurs rA et VG sont sensibles aux bruits non stationnaires, au niveau sonore global de la parole et
aux distorsions fréquentielles. Ils nécessitent par conséquent de nouvelles investigations afin de les
optimiser.
- 137 -
Chapitre 7 Performances de l’outil de diagnostic
100%
Coupures
90%
A.A.
Les performances de classifications des codecs NB, WB et SWB sont illustrées sur la Figure 7.10.
Rappelons que notre outil fournit une première classification correspondant à une distinction des codecs
en fonction de leur largeur de bande de fréquences et une seconde classification pour une répartition fine
des codecs NB, WB et SWB.
Concernant la première classification, notre outil présente un taux de bonne classification très élevé
(98,46% de bonne classification), démontrant ainsi la robustesse de notre outil à distinguer les codecs
selon leur largeur de bande, en présence d’autres dégradations (cf. Figure 7.10.a). Quant à la classification
fine des codecs NB, WB et SWB (seconde classification), notre outil aboutit à une performance de
classification supérieure à 85% pour des conditions présentant uniquement du codage (cf. Figure 7.10.b).
Signalons de plus que, pour les codecs NB, on disposait dans les bases de validation de cas de
transcodage (GSM-EFR (12,2) * AMRNB (12,2), GSM-FR (13) * GSM-FR (13), G.711 (64) * GSM-
EFR (12,2)), et que ces derniers ont été correctement identifiés par notre outil de diagnostic (classification
efficace à 99,64 %). Ces types de transcodage sont représentatifs des cas réels de communications
téléphoniques. Leur identification constitue le principal défi dans le contexte opérationnel et fait de notre
outil un atout majeur dans ce contexte.
Cependant, en présence d’autres dégradations, notamment le bruit de fond ou l’atténuation du niveau
sonore de la parole, notre outil présente de faibles taux de bonne classification. Notons que, lors de notre
étude sur la détermination de la signature des codecs, nous avons utilisé des conditions ne présentant pas
d’autre dégradation que du codage. De plus, les indicateurs RSBseg et RSBF, utilisés pour la classification
des codecs, sont sensibles aux variations observées sur le niveau sonore global et aux bruits de fond. Par
- 138 -
Chapitre 7 Performances de l’outil de diagnostic
conséquent, ces indicateurs devront être optimisés afin de les rendre robustes aux autres types de
dégradations, voire être complétés par d’autres.
100% 100%
NB
90%
90% WB
70% 60%
50%
60%
40%
50%
30%
40% 20%
30% 10%
0%
20%
10%
0%
NB WB SWB
(a) (b)
Figure 7.10. Performances de notre outil en termes de classification des codecs
(a) suivant la détermination de leur largeur de bande, toutes dégradations confondues,
(b) en fonction des différentes dégradations testées pour chaque type de codec (NB, WB et SWB)
‘B.’, ‘Cont.’, ‘Col.’ et ‘S.’ désignent respectivement les dimensions Bruyance, Continuité, Coloration et Sonie
La Figure 7.11 présente les performances de notre outil quant à l’estimation des variations du niveau
sonore de la parole. La corrélation s'avère très élevée entre le gain réel et le gain estimé ( 0,96 ) et
l’erreur de prédiction faible ( 0,55 ) attestant de la fiabilité et de la robustesse de l’indicateur Leq
intégré dans notre outil.
- 139 -
Chapitre 7 Performances de l’outil de diagnostic
= 0,96 / = 0,55
10
0
Gain réel (dB)
-5
-10
-15
-20
-25
-25 -20 -15 -10 -5 0 5 10
Gain estimé (dB)
Figure 7.11. Performances d’estimation des variations du niveau sonore global de la parole. et
désignent respectivement la corrélation et l’EQM de prédiction entre le gain réel et le gain estimé
Dans cette partie, nous présentons les performances de notre outil de diagnostic en termes de
prédiction de la qualité vocale relative aux quatre dimensions. Nous proposons également de comparer
ses performances à celles du modèle DIAL (Côté 2010b), qui va nous servir de référence unique. En effet,
nous n’avons pas trouvé dans la littérature d’autres modèles caractérisant les défauts perçus dans des
communications en bande super-élargie et fournissant une prédiction de la qualité vocale pour chacune
des dimensions perceptives intégrées dans notre outil. Le Tableau 7.5 détaille les performances
respectives de notre outil et de DIAL en termes de prédiction de la qualité vocale.
Concernant la dimension Bruyance, nous constatons que notre outil obtient quasiment les mêmes
performances de prédiction de la qualité vocale que le modèle DIAL. Pourtant, notre outil prend en
compte uniquement l’indicateur Ln (sonie du bruit estimée pendant les périodes de silence) tandis que le
modèle DIAL utilise, en plus de cet indicateur, l’indicateur NoS (énergie du bruit présent sur le signal de
parole) fondé sur une analyse des signaux de référence et dégradé.
Quant à la dimension Continuité, notre outil utilise une combinaison de trois indicateurs rL, rA et VG
pour la prédiction de la qualité vocale alors que DIAL utilise seulement les deux premiers. D’après le
Tableau 7.5, notre outil fournit la meilleure performance de prédiction de la qualité vocale en termes de
corrélation ( 0,75 pour notre outil et 0,70 pour le modèle DIAL). L’indicateur VG fournit des
informations supplémentaires quant aux variations abruptes pouvant survenir sur le niveau sonore de la
parole. En revanche, en termes d’erreur de prédiction, le modèle DIAL obtient des performances
supérieures à celles de notre outil ( 0,49 pour le modèle DIAL et 0,94 pour notre outil). Ceci
s’explique par la non robustesse de l’indicateur VG discutée précédemment.
- 140 -
Chapitre 7 Performances de l’outil de diagnostic
En ce qui concerne la dimension Coloration, notre outil obtient sensiblement les mêmes performances
en termes de corrélation entre les notes prédites et les notes subjectives mais avec une erreur de prédiction
moindre que le modèle DIAL ( 0,72 contre 2,25 ). Si les deux méthodes utilisent les mêmes
indicateurs (i.e. Erb et fc) pour la prédiction de la qualité vocale, la différence réside dans le calcul de la
fonction de mappage.
Enfin, pour la dimension Sonie, le modèle DIAL affiche des performances de prédiction de la qualité
vocale légèrement plus élevées que celles de notre outil ( 0,92 ; 0,38 pour le modèle DIAL et
0,87 ; 0,55 pour notre outil).
Ces performances, équivalentes à celles d’un modèle de complexité bien supérieure, font de notre outil un
candidat intéressant dans le cadre du projet P.AMD (Perceptual Approaches for Multi-Dimensional
Analysis) de l’UIT-T (ITU-T 2012b), dont l’objectif est de développer un modèle délivrant une note de
prédiction de la qualité vocale pour chaque dimension.
7.5. Conclusion
A la lumière des résultats obtenus et présentés dans ce chapitre, nous pouvons dégager les conclusions
suivantes :
pour la dimension Bruyance, notre outil se révèle pertinent pour l’identification des bruits issus
d’environnements bruyants réels (bruits de restaurant, de rue, etc.) et des bruits de grésillement
pouvant provenir soit du réseau soit de l’environnement. Toutefois, il présente de faibles
performances dans la détection des bruits de souffle en présence de discontinuités notamment de
coupures (pertes de paquets IP ou de trames radio, par exemple). Du point de vue de la prédiction
de la qualité vocale, notre outil obtient des performances similaires à celle du modèle DIAL,
nécessitant un seul indicateur (Ln) contre deux pour le modèle DIAL (Ln et NoS) ;
quant à la dimension Continuité, notre outil est fiable et robuste pour fournir des informations sur
une présence éventuelle de coupures sur le signal de parole. Concernant les artéfacts additifs et la
variation de gain du système de transmission, notre outil obtient de bonnes performances dans
l’identification de ces défauts pour des stimuli présentant uniquement ces types de défauts.
Cependant, en présence d’autres dégradations, notamment les bruits non stationnaires, les
performances de notre outil diminuent, du fait de la non robustesse des indicateurs de qualité que
nous avons considérés (i.e. les indicateurs rA et VG). En matière de prédiction de la qualité vocale,
notre outil présente de bonnes performances même si l’erreur de prédiction est relativement
élevée comparée à celle de DIAL ;
en ce qui concerne la dimension Coloration, notre outil s’avère très pertinent pour déterminer la
signature des codecs NB, WB et SWB pour des conditions ne présentant que du codage. En
- 141 -
Chapitre 7 Performances de l’outil de diagnostic
De manière générale, notre outil se révèle fiable et efficace pour fournir des informations sur un
certain nombre de dégradations (bruits issus d’environnement, bruits de grésillement, coupures, limitation
de la bande de fréquences et variation du niveau sonore global de la parole) couramment perçues lors des
communications téléphoniques. En revanche, de nouvelles investigations sont nécessaires afin
d’optimiser sa robustesse pour un diagnostic avancé de la qualité vocale et compenser les faiblesses
évoquées ci-dessus.
- 142 -
Conclusion et perspectives
Conclusion et perspectives
- 143 -
Conclusion et perspectives
Pour la modélisation de la dimension Bruyance, nous nous sommes appuyés sur les travaux effectués
dans (Leman 2011) et avons proposé d’élargir le domaine d’application aux signaux en bande super-
élargie. Les résultats que nous avons obtenus corroborent les conclusions des travaux antérieurs (Leman
et al. 2008), à savoir que l’impact d’un bruit de fond sur la qualité vocale est moins gênant dès lors qu’il
est identifié par l’auditeur. Ils nous ont d’autre part conduits à la répartition des bruits de fond en trois
classes (Bruit d’Environnement, Souffle et Grésillement).
Concernant la dimension Continuité, elle repose sur la modélisation de trois sous-dimensions
(Coupures, Artéfacts Additifs et Variation de Gain) dont les deux premières existaient déjà dans la
littérature alors que la troisième a été proposée dans notre étude afin de couvrir l’ensemble des
discontinuités perçues.
Quant à la modélisation de la dimension Coloration, nous nous sommes essentiellement focalisés sur
la conception d’une méthode générique déterminant la signature des codecs NB, WB et SWB. Ce choix
s’explique par le fait que le codage est le principal (sinon le seul) défaut de cette dimension qui trouve sa
source dans les réseaux. La première étape du bloc de notre modèle pour la Coloration consiste en un
module très fiable classifiant les codecs en fonction de leur largeur de bande de fréquences. La
classification plus fine des codecs est réalisée en partant de l’hypothèse que les codecs peuvent se
distinguer de par les techniques de codage qu’ils intègrent. Cette seconde étape donne entière satisfaction
pour les codecs NB. En revanche, nous ne sommes pas parvenus à une distinction plus fine des codecs
WB et SWB, en particulier à cause de leur caractère hybride.
Enfin, la modélisation de la dimension Sonie est fondée sur une estimation des variations observées
sur le niveau sonore global de la parole.
Nous avons conduit une étude de validation de notre outil de diagnostic sur des bases sonores
inconnues contenant diverses dégradations reflétant celles rencontrées lors de communications
téléphoniques réelles. Cette étude nous a permis de mettre en évidence la fiabilité de notre outil à fournir
des informations sur un certain nombre de défauts. Elle nous a aussi permis d’identifier des points à
améliorer. Pour résumer, l’outil de diagnostic que nous avons proposé s’est révélé fiable et robuste dans
les cas suivants :
l’identification des bruits non stationnaires issus d’environnements représentatifs des
communications téléphoniques quotidiennes, et des bruits stationnaires provenant du réseau ;
la prédiction de la qualité vocale en présence de bruit de fond ;
l’obtention d’information sur la présence de coupures perçues dans le signal de parole ;
la distinction des codecs NB, WB et SWB en fonction de leur largeur de bande de fréquences ;
la prédiction de la qualité vocale en présence de dégradations impactant le naturel de la voix
(limitation de bande de fréquences, distorsions fréquentielles, etc.) ;
l’apport d’information sur les variations perçues sur le niveau global de la parole et son impact
sur la qualité vocale.
Les cas où notre modèle ne parvient pas à fournir efficacement des informations sont les suivants :
l’identification des bruits de souffle en présence de discontinuités et en particulier de coupures ;
l’identification des bruits d’environnement et des bruits de réseau pour des variations importantes
du niveau sonore global de la parole ;
la détection d’artéfacts additifs et de variations abruptes du niveau sonore de la parole (sous-
dimension Variation de Gain) en présence de bruits non stationnaires ou de variations
importantes du niveau sonore global ;
- 144 -
Conclusion et perspectives
Les modélisations de chacune des quatre dimensions perceptives de notre outil de diagnostic peuvent
faire l’objet de compléments d’étude afin de corriger les défauts décrits ci-haut et ou de compléter notre
outil :
les performances de notre module de Bruyance étant limitées par les variations importantes
observées sur le niveau sonore global, on pourrait compenser l’effet de ces variations en
normalisant le niveau du signal à un niveau optimal préalablement défini (en l’occurrence, ce
niveau optimal correspond dans notre étude, tout comme dans POLQA (ITU-T 2011a), à 73 dB
SPL pour les signaux en bande super-élargie). Cette procédure pourra également être appliquée
aux modules de Continuité et de Coloration. Par ailleurs, pour un diagnostic plus avancé des
bruits de fond, il serait intéressant de peaufiner l’identification des bruits d’environnement, i.e.
savoir si le bruit provient par exemple d’un restaurant, d’un train ou d’une cantine scolaire, en
s’appuyant sur les travaux reportés dans (El-Maleh et al. 1999) dont le but était de proposer une
méthode robuste de classification de bruits issus d’environnements de communications
téléphoniques mobiles ;
concernant la dimension Continuité, une optimisation est nécessaire pour les indicateurs rA et VG
quantifiant respectivement les sous-dimensions Artéfacts Additifs et Variation de Gain. Bien que
lors du calcul de l’indicateur rA, le seuil de détection par trame des artéfacts additifs soit estimé en
tenant compte du niveau de bruit (chapitre 2, § 2.2.2), celui-ci ne prend pas en compte la nature
du bruit. Pour pallier ce problème, on pourrait ajuster ce seuil de détection suivant que le bruit est
de nature stationnaire ou non. L’information sur la nature du bruit pourrait être obtenue au niveau
du module de Bruyance. En ce qui concerne le calcul de l’indicateur VG, nous sommes partis de
l’hypothèse que les variations abruptes dans le niveau sonore (dues aux réducteurs de bruits ou
aux CAG) engendrent une variation de la fonction de gain du système de transmission. C’est la
raison pour laquelle nous avons déterminé l’indicateur VG à partir d’une estimation de cette
fonction de gain. Cependant cette fonction de gain est sujette à l’impact des dégradations telles
que le bruit de fond ou les distorsions fréquentielles expliquant la non robustesse de l’indicateur
VG. Par conséquent, l’indicateur VG pourrait être remplacé par un autre indicateur qui estime les
variations abruptes du niveau sonore à partir de la densité spectrale de puissance en sonie du
signal dégradé ;
quant à la modélisation de la dimension Coloration, il serait indispensable d’effectuer de
nouvelles investigations pour la détermination des signatures des codecs WB et SWB. Lors de
notre étude sur ces codecs, nous avons en effet analysé les signaux de parole par sous-bande – du
fait du caractère hybride des codecs –, ce qui nous a conduits à considérer un nombre important
d’indicateurs de qualité. On pourrait appliquer une ACP sur ces indicateurs afin, d’une part, de ne
retenir que les indicateurs pertinents à la classification des codecs dans les bandes de fréquences
les plus pertinentes et, d’autre part, de vérifier si les informations apportées par les indicateurs
retenus sont suffisantes pour un partitionnement plus fin des codecs WB et SWB. Une autre piste
que nous pourrions envisager concerne le fait que la plupart des codecs WB et SWB sont des
extensions des codecs NB. On pourrait alors considérer le partitionnement des codecs NB que
nous avons obtenu comme un bloc sous-jacent de la classification des codecs WB et SWB. Dans
ce cas, l’étude de ces derniers codecs reviendrait à analyser les signaux de parole dans les hautes
- 145 -
Conclusion et perspectives
fréquences. Au-delà de l’étude sur la signature des codecs, une étude approfondie sur la
dimension Coloration est nécessaire pour déterminer le nombre optimal et la nature des sous-
dimensions. En effet, nous avons vu dans l’état de l’art (chapitre 1) que certains auteurs ((Scholz
et al. 2006), (Huo et al. 2007)) considèrent que la dimension Coloration peut être divisée en deux
sous-dimensions (Clarté et Brillance), alors que, pour d’autres ((Etame et al. 2010), (Zango
2013)), la qualité vocale des codecs (cette qualité des codecs correspondant à la dimension
Coloration dans (Leman 2011) peut être projetée dans un espace perceptif à quatre dimensions, ce
qui laisse penser que la dimension Coloration n’est pas encore parfaitement caractérisée. Par
conséquent, des investigations supplémentaires permettraient une meilleure appréhension de cette
dimension ;
en ce qui concerne la dimension Sonie, même si notre outil fournit des informations très fiables
sur le niveau sonore global de la parole, il serait tout de même intéressant de déterminer
d’éventuelles sous-familles de cette dimension.
En l’état actuel, nous pensons que nos travaux peuvent apporter une contribution potentielle à
plusieurs projets étudiés par les questions de la Commission d’Etudes 12 de l’UIT-T :
P.AMD (ITU-T 2012b), mené par la Question 9 et visant à concevoir un modèle fournissant une
note de prédiction de la qualité vocale pour chaque dimension,
P.TCA (Technical Cause Analysis), mené par la Question 16 et destiné à la détermination
d’informations spécifiques sur la nature des défauts perçus lors des communications
téléphoniques permettant leur attribution à une ou plusieurs causes techniques dans les réseaux
et/ou les terminaux (ITU-T 2011c).
De plus, l’outil de diagnostic présenté dans ce mémoire doit pouvoir être mis en œuvre de façon à être
utilisé par les opérateurs de télécommunications pour la supervision des réseaux. Cela sous-entend une
réflexion sur les interfaces de capture du signal et leur localisation optimale dans les réseaux. La
complexité de l’outil devra aussi être considérée afin de le rendre compatible avec les outils de mesure et
de supervision du marché et ainsi ouvrir la voie à sa commercialisation. Enfin, étant donné que l’outil de
diagnostic que nous avons développé vise essentiellement à fournir des informations sur la nature des
défauts perçus, son utilisation concrète en contexte opérationnel sera à envisager en combinaison avec des
solutions correctives d’amélioration de la qualité vocale. Concernant cette ambitieuse perspective, nous
concédons que tout reste encore à faire.
- 146 -
Annexe A Coefficients des fonctions de mappage des indicateurs de qualité
Annexe A
Cette annexe récapitule les coefficients des fonctions de mappage des estimations de qualité vocale de
chaque dimension à partir des indicateurs de qualité dont les performances ont été étudiées dans le
chapitre 2. Ces coefficients ont été obtenus en appliquant une régression polynomiale d’ordre 3 entre les
valeurs des indicateurs de qualité et les notes subjectives. L’expression de la prédiction de la qualité
s’écrit sous la forme :
MOS p a3 I q3 a2 I q2 a1 I q a0 ,
où MOS p représente la note MOS prédite, I q , un indicateur donné et les paramètres a 3 , a 2 , a1 et a 0
sont les coefficients de la fonction de mappage associée à l’indicateur I q .
Coefficients
a3 a2 a1 a0
Indicateurs
Noise -0,0009 0,0334 -0,4426 4,6289
NoiseContrast -8644,945 27963,3306 -30093,8303 10779,7173
Ln 0,0003 -0,0101 0,0041 4,5232
NoS 0,0007 0,0076 -0,361 4,5801
- 147 -
Annexe A Coefficients des fonctions de mappage des indicateurs de qualité
Coefficients
a3 a2 a1 a0
Indicateurs
Timeclip 0,0007 0,001 -0,4525 5,2813
rL -4033,4436 1262,3727 -120,1405 4,5047
rI -7475,8321 1494,0525 -95,1342 3,07
I1 0 0 0,0003 0
I2 0 0 -0,0076 10,3697
I3 0 0 0,0002 0
I4 0,0001 -0,0063 0,1345 3,4091
I5 3,9625 -63,6125 341,0346 -607,943
Framerepeat -1236,3418 3896,532 -4086,0076 1429,5644
rA -6,056 11,1433 -5,9759 4,2306
Artéfacts Additifs (A.A.)
I1 0 0 0,0002 0
I2 0 0 -0,0074 15,6907
I3 0 0 0,0001 0
I4 0,0002 -0,0302 1,1056 -8,7521
I5 -8,2685 145,1785 -849,3013 1659,1893
Tableau 2. Récapitulatif des coefficients des fonctions de mappage des indicateurs de qualité
de la dimension Continuité
Coefficients
a3 a2 a1 a0
Indicateurs
Freq 0,0527 -0,7375 2,7738 1,5025
(limitation de bande
Erb
de fréquences)
- 148 -
Annexe A Coefficients des fonctions de mappage des indicateurs de qualité
Coefficients
a3 a2 a1 a0
Indicateurs
Level -705031,8236 2138845,8835 -2162871,7824 729063,1763
Leq 0,0003 -0,0676 4,8241 -111,1613
Ltl 0 -0,0024 0,1449 1,6060
Tableau 4. Récapitulatif des coefficients des fonctions de mappage des indicateurs de qualité
de la dimension Sonie
- 149 -
Annexe B Consigne du test d’évaluation de la qualité vocale – Méthode DCR
Annexe B
Bonjour,
Vous allez entendre à travers les deux oreillettes du casque Sennheiser HD 280 pro qui est devant vous
des paires d’échantillons de parole bruitée de longueur constante.
Chaque paire est constituée de deux échantillons séparés par une pause d’environ 500ms.
Dans la paire d’échantillons, le premier est la référence, le deuxième qui est traité est celui que vous
devez évaluer par rapport à la référence.
Pendant l’écoute, le bouton rouge qui est devant vous sera allumé.
Vous voudrez bien écouter chaque paire d’échantillons complètement. Puis, quand le bouton vert
s’allumera, vous donnerez votre jugement sur les modifications ressenties sur le deuxième
échantillon en appuyant sur le bouton approprié (chiffres de 1 à 5) selon l’échelle suivante :
2 : Dégradation gênante
Vous disposez de 5 secondes pour enregistrer votre réponse (temps pendant lequel le bouton vert reste
allumé).
Lorsque vous aurez donné votre opinion se produira une courte pause avant la paire suivante.
Nous commencerons par une séance d’apprentissage formée de quelques paires d’échantillons. Viendront
ensuite les séances d’une durée inférieure à 15 minutes chacune.
- 151 -
Bibliographie
3GPP (2000). TS 26.204. Speech codec speech processing functions; Adaptive Multi-Rate - Wideband
(AMR-WB) speech codec.
3GPP (2007). TS 26.290. Audio codec processing functions; Extended Adaptive Multi-Rate - Wideband
(AMR-WB+) codec.
3GPP (2009). TS 26.090. Adaptive Multi-Rate (AMR) speech codec. Valbonne, France.
Appel, R. and Beerends, J. G. (2002). "On the quality of hearing one's own voice". Journal of the Audio
Engineering Society, 50(4), 237-248.
Banzhaf, W., Nordin, P., Keller, R. E. and Francone, F. D. (1997). Genetic Programming: An
Introduction: On the Automatic Evolution of Computer Programs and Its Applications (The
Morgan Kaufmann Series in Artificial Intelligence).
Bappert, V. and Blauert, J. (1994). "Auditory quality evaluation of speech-coding systems". acta acustica,
2, 49-58.
Beerends, J. G., Busz, B., Oudshoorn, P., Van Vugt, J., Ahmed, K., and Niamut, O. (2007). "Degradation
decomposition of the perceived quality of speech signals on the basis of a perceptual modeling
approach". Journal of the Audio Engineering Society, 55(12), 1059-1076.
Beerends, J. G., Hekstra, A. P., Rix, A. W., and Hollier, M. P. (2002). "Perceptual evaluation of speech
quality (pesq) the new itu standard for end-to-end speech quality assessment part II:
psychoacoustic model". Journal of the Audio Engineering Society, 50(10), 765-778.
Beerends, J. G., and Stemerdink, J. A. (1994). "A perceptual speech-quality measure based on a
psychoacoustic sound representation". Journal of the Audio Engineering Society, 42(3), 115-123.
Bernex, E., and Barriac, V. (2002). "Architecture of non-intrusive perceived voice quality assessment".
Paper presented at the Measurement of Speech and Audio Quality in Networks, Prague.
Breiman, L., Frieman, J., Olshen, R., and Stone, C. (1993). Classification and regression trees. Chapman
and Hall.
Chalupper, J. and Fastl, H. (2002). "Dynamic loudness model (DLM) for normal and hearing-impaired
listeners". Acustica, 88, 378-386.
Combescure, P., Le Guyader, A. and Gilloire, A. (1982). "Quality evaluation of 32 kbit/s coded speech by
means of degradation category ratings". IEEE International Conference on Acoustics Speech and
Signal Processing (ICASSP'82).
Côté, N. (2010b). Integral and Diagnostic Intrusive Prediction of Speech Quality. Springer.
Côté, N., Gautier-Turbin, V. and Möller, S. (2007). Influence of loudness level on the overall quality of
transmitted speech. Audio Engineering Society Convention 123.
Côté, N., Gautier-Turbin, V. and Möller, S. (2008). Evaluation of Instrumental Quality Measures for
Wideband-Transmitted Speech. 2008 ITG, Conference on Voice Communication.
Côté, N., Gautier-Turbin, V., Raake, A. and Möller, S. (2006). Analysis of a quality prediction model for
wideband speech quality, the WB-PESQ. 2nd ISCA/DEGA Tutorial and Research Workshop on
Perceptual Quality of Systems, Berlin, Germany.
Deng, L. and O’Shaughnessy, D. (2003). Speech Processing: a Dynamic and Optimization-Oriented
Approach. Marcel Dekker, Inc., USA–New-York, NY.
El-Maleh, K., Samouelian, A., & Kabal, P. (1999). Frame-level noise classification in mobile
environments. IEEE Conference on Acoustics, speech, Signal Processing.
- 153 -
Etame, T., Le Bouquin Jeannes, R., Quinquis, C., Gros, L. and Faucon, G. (2010). "Towards a new
reference impairment system in the subjective evaluation of speech codecs". IEEE Transactions
on Audio, Speech, and Language Processing(99).
Etame, T. E. (2008). Thèse de doctorat: Conception de signaux de référence pour l'évaluation de la qualité
perçue des codeurs de la parole et du son, Université de Rennes 1.
ETSI (1996). ETR 250: Transmission and multiplexing (TM); Speech communication quality from mouth
to ear for 3.1 kHz handset telephony across networks.
ETSI (2011). EG 202 396-1 : Speech and multimedia Transmission Quality (STQ); Speech quality
performance in the presence of background noise; Part 1: Background noise simulation technique
and background noise database.
Falk, T., Qingfeng, X. and Wai-Yip, C. (2005). Non-Intrusive GMM-Based Speech Quality Measurement.
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP '05).
Fletcher, H. (1940). "Auditory patterns". Reviews of Modern Physics, 12(1), 47.
Gabrielsson, A. and Sjögren, H. (1979). "Perceived sound quality of sound reproducing systems". Journal
of the Acoustical Society of America, 65, 1019.
Glasberg, B. R. and Moore, B. C. J. (2002). "A model of loudness applicable to time-varying sounds".
Journal of the Acoustical Society of America, 50(5), 331-342.
Grancharov, V., Zhao, D. Y., Lindblom, J. and Kleijn, W. B. (2006). "Low-complexity, nonintrusive
speech quality assessment". IEEE Transactions on Audio, Speech, and Language Processing,
14(6), 1948-1956.
Guéguin, M. (2006a). Thèse de doctorat: Evaluation objective de la qualité vocale en contexte de
conversation, Université de Rennes1.
Guéguin, M., Le Bouquin-Jeannes, R., Faucon, G. and Barriac, V. (2006c). Towards an objective model
of the conversational speech quality. IEEE International Conference on Acoustics, Speech and
Signal Processing (ICASSP '06).
Guéguin, M., Le Bouquin-Jeannès, R., Gautier-Turbin, V., Faucon, G., & Barriac, V. (2008). "On the
evaluation of the conversational speech quality in telecommunications". EURASIP Journal on
Advances in Signal Processing, 2008, 93.
Hall, J. L. (2001). "Application of multidimensional scaling to subjective evaluation of coded speech".
Journal of the Acoustical Society of America, 110(4), 2167-2182.
Herlein, G. and Valin, J. (2007). RTP Payload Format for the Speex Codec. University of Sherbrooke.
Huo, L., Wältermann, M., Heute, U. and Moller, S. (2008a). Estimation Model for Speech-Quality
Dimension "Noisiness". Acoustics08, Paris, France.
Huo, L., Wältermann, M., Heute, U., & Moller, S. (2008b). Estimation of the Speech Quality Dimension
"Discontinuity". ITG-Conference on Speech Communication, Aachen, Germany.
Huo, L., Waltermann, M., Scholz, K., Raake, A., Heute, U. and Moller, S. (2007). Estimation Model for
the Speech-Quality Dimension. Applications of Signal Processing to Audio and Acoustics, 2007
IEEE Workshop on.
ITU-R (2003). Rec. BS.1534: Method for the subjective assessment of intermediate quality level of
coding systems. Geneva.
ITU-R (2007). Rec. BS.1770–1: Algorithms to Measure Audio Programme Loudness and Truepeak
Audio Level. Geneva
ITU-T (1988a). Rec. G.711: Pulse Code Modulation (PCM) of Voice Frequencies. Geneva.
ITU-T (1988b). Rec. P.48 : Specification for an intermediate reference system. Geneva.
ITU-T (1988c). Rec. G.722: 7 kHz audio-coding within 64 kbit/s. Geneva.
- 154 -
ITU-T (1990). Rec. G.726: 40, 32, 24, 16 kbit/s Adaptative Differential Pulse Code Modulation
(ADPCM). Geneva.
ITU-T (1993). Rec. P.56: Objective measurement of active speech level. Geneva.
ITU-T (1996). Rec. P.800: Methods for subjective determination of transmission quality. Geneva.
ITU-T (1997a). Contribution Com 12-34: TOSQA Telecommunication Objective Speech Quality
Assessment. Geneva.
ITU-T (1997b). Contribution COM 12-20: Improvement of the P.861 Perceptual Speech Quality Measure.
Geneva.
ITU-T (1998a). Rec. P.341: Transmission characteristics for wideband [50 Hz -7000 Hz] digital hands-
free telephony terminals. Geneva.
ITU-T (1998b). Rec. P.861: Objective quality measurement of telephorie-band [300Hz - 3400 Hz] speech
codecs. Geneva.
ITU-T (2000). Contribution Com 12-19 : Results of objective speech quality assessment of Wideband
speech using the advanced TOSQA–2001. Geneva.
ITU-T (2001). Rec. P.862: Perceptual Evaluation of Speech Quality Assessment of Narrowband
Telephone Networks and Speech Codecs. Geneva.
ITU-T (2002). Rec. P.561: In-service non-intrusive measurement device - Voice service measurements.
Geneva.
ITU-T (2003a). Rec. G.107: The E-model, a computational model for use in transmission planning.
Geneva.
ITU-T (2003b). P.862.1: Mapping function for transforming P.862 raw result scores to MOS-LQO
Geneva.
ITU-T (2003b). Rec. P.835: Subjective Test Methodology for Evaluating Speech Communication
Systems that Include Noise Suppression Algorithm. Geneva.
ITU-T (2003e). Rec. G.722.2: Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate
Wideband (AMR-WB). Geneva.
ITU-T (2004a). Rec. P.563: Single-ended method for objective speech quality assessment in narrow-band
telephony applications. Geneva.
ITU-T (2004b). Contribution COM 12-4: Speech degradation decomposition using a P.862 PESQ based
approach. Geneva.
ITU-T (2004c). Rec. P.562: Analysis and interpretation of INMD voice-service measurements. Geneva.
ITU-T (2005). Rec. G.722.1: Low-complexity coding at 24 and 32 Kbit/s for hands-free operation in
systems with low frame loss. Geneva.
ITU-T (2006a). Rec. G.729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited
linear prediction (CS-ACELP). Geneva.
ITU-T (2006b). Rec. G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable
wideband coder bitstream interoperable with G.729. Geneva.
ITU-T (2006c). Rec. P.10/G.100: Vocabulary for performance and quality of service. Geneva.
ITU-T (2007a). Rec. P.862.2: Wideband extension to Recommendation P.862 for the assessment of
wideband telephone networks and speech codecs. Geneva.
ITU-T (2007b). Rec. P.564: Conformance testing for voice over IP transmission quality assessment
models. Geneva.
ITU-T (2007d). Contribution COM 12-53: POLQA degradation decomposition: perceptual basis for
degradation indicators. Geneva.
ITU-T (2008a). Rec. G.711.1: Wideband embedded extension for G.711 pulse code modulation. Geneva.
ITU-T (2008b). Rec. G.722.1 annex C: The first ITU-T super wideband audio coder. Geneva.
- 155 -
ITU-T (2008c). Rec. G.718: Frame error robust narrow-band and Wideband embedded variable bit-rate
coding of speech and audio from 8-32 kbit/s. Geneva.
ITU-T (2008d). Rec. E.800: Definitions of terms related to quality of service. Geneva.
ITU-T (2010a). Rec. G.711.1 annex D: Wideband embedded extension for G.711 pulse code modulation-
New annex D with super wideband extension. Geneva.
ITU-T (2010b). Rec. G.729.1 annnex E : G.729-based embedded variable bit-rate coder: An 8-32 kbit/s
scalable wideband coder bitstream interoperable with G.729- New Annex E on super wideband
scalable extension. Geneva.
ITU-T (2010c). Rec. G.718 annex B: Frame error robust narrow-band and wideband embedded variable
bit-rate coding of speech and audio from 8-32 kbit/s - New Annex B on superwideband scalable
extension for ITU-T G.718 and corrections to main body fixed-point C-code and description text.
ITU-T (2011a). Rec. P.863: Perceptual objective listening quality assessment. Geneva.
ITU-T (2011b). Rec. G.107.1: Wideband E-model. Geneva.
ITU-T (2011c). Contribution COM 12-214: Benchmark proposal P.TCA. Geneva.
ITU-T (2011d). Contribution COM 12-Q7: P.MULTI – A proposed methodology and pilot test. Geneva.
ITU-T (2012a). Contribution COM 12-342: Results from a multidimensional rescaling experiment of a
P.OLQA SWB test database. Geneva.
ITU-T (2012b). Contribution COM 12-61: Proposed amendments to draft requirement proposal for
P.AMD. Geneva.
ITU-T (2012c). Rec. G.168: Digital network echo cancellers. Geneva.
Jekosch. (2000). Sprache hören und beurteilen. Qualitätsbeurteilung von Sprechtechnologien als
Forschung- und Dienstleistungsaufgabe. (Thèse d'habilitation).
Jekosch, U. (2005). Voice and Speech Quality Perception: Assessment and Evaluation Signals and
Communication Technology. Springer.
Johnson, S. C. (1967). "Hierarchical clustering schemes". Psychometrika, 32(3), 241-254.
Juric, P. (2001). Non-intrusive speech quality measurement. Contribution UIT-T COM, 12-27.
Kim, D. S. (2005). "ANIQUE: An auditory model for single-ended speech quality estimation". IEEE
Transactions on Speech and Audio Processing, 13(5), 821-831.
Klatt, D. (1982). Prediction of perceived phonetic distance from critical-band spectra: A first step. IEEE
International Conference on Acoustics, Speech, and Signal Processing (ICASSP '82).
Lam, K., Au, O., Chan, C., Hui, K. and Lau, S. (1996). Objective speech quality measure for cellular
phone. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP'96).
Leman, A. (2011). Thèse de doctorat: Diagnostic et évaluation automatique de la qualité vocale à partir
d'indicateurs hybrides (Modèle DESQHI). Institut National des Sciences Appliquées de Lyon.
Leman, A., Faure, J. and Parizet, E. (2008). Influence of informational content of background noise on
speech quality evaluation for VoIP application. Acoustics'08, Paris, France.
Leman, A., Faure, J. and Parizet, E. (2009a). Influence of Informational content of background noise on
speech quality evaluation for VoIP application. ITU-T, Contribution COM 12 - C 12-E, Q.15, 9,
8, 7/12.
Leman, A., Faure, J. and Parizet, E. (2009b). A non-intrusive signal-based model for speech quality
evaluation using automatic classification of background noises. Interspeech 2009, Brighton,
England.
Loizou, P. C. (2013). Speech enhancement: theory and practice. CRC press.
Malfait, L., Berger, J. and Kastner, M. (2006). "P.563-The ITU-T Standard for Single-Ended Speech
Quality Assessment". IEEE Transaction on Audio, Speech, and Language Processing, 14(6),
1924-1934.
- 156 -
Mattila, V. (2002a). "Ideal point modelling of speech quality in mobile communications based on
multidimensional scaling (MDS)". Journal of the Audio Engineering Society, 112, 1-14.
Mattila, V. (2002b). "Descriptive analysis and ideal point modelling of speech quality in mobile
communication". Journal of the Audio Engineering Society, 113, 1-18.
McDermott, B. J. (1969). "Multidimensional Analyses of Circuit Quality Judgments". Journal of the
Acoustical Society of America, 45(3), 774-781.
McGee, V. E. (1965). "Determining perceptual spaces for the quality of filtered speech". Journal of
Speech and Hearing Research, 8(1), 23.
McLachlan, G. J. and Peel, D. (2000). Finite mixture models (Vol. 299), Wiley-Interscience.
Molla, S., Boullet, I., Meunier, S., Rabau, G., Gauduin, B. and Boussard, P. (2010). Calcul des
indicateurs de sonie : revue des algorithmes et implémentation. 10ème Congrès Français
d'Acoustique, Lyon, France.
Möller, S. (2000). Assessment and Prediction of Speech Quality in Telecommunications (first ed.).
Kluwer Academic Publisher.
Moore and Glasberg. (1997). "A model for the prediction of the thresholds, loudness and partial
loudness". Journal of the Audio Engineering Society, 45(4), 224-240.
Osgood, C. E., Suci, G. J. and Tannenbaum, P. H. (1957). The mesurement of meaning. Universtiy of
Illinois Press.
Papamichalis, P. E. (1987). Practical Approaches to Speech. Englewood Cliffs, NJ.
Petersen, K. T., Hansen, S. D. and Sorensen, J. (1997). Speech quality assessment of compounded digital
telecommunication systems; perceptual dimensions. IEEE International Conference on Acoustics,
Speech, and Signal Processing (ICASSP '97).
Princen, J. and Bradley, A. (1986). "Analysis/synthesis filter bank design based on time domain aliasing
cancellation". IEEE Transactions on Acoustics, Speech and Signal Processing, 34(5), 1153-1161.
Quackenbush, S. and Barnwell III, T. (1985). Objective estimation of perceptually specific subjective
qualities. EEE International Conference on Acoustics, Speech, and Signal Processing,
(ICASSP'85).
Raake, A. (2006). Speech Quality of VoIP : Assessment and Prediction (1 ed.). Wiley.
Rix, A. and Gray, P. (2001). NiQA-Non-intrusive speech quality assessment. Contribution UIT-T COM.
Rix, A., Reynolds, R. and Hollier, M. (1999). Robust perceptual assessment of end-to-end audio quality.
IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.
Rix, A. W., Hollier, M. P., Hekstra, A. P. and Beerends, J. G. (2002). "Perceptual Evaluation of Speech
Quality (PESQ) The New ITU Standard for End-to-End Speech Quality Assessment Part I--
Time-Delay Compensation". Journal of the Audio Engineering Society, 50(10), 755-764.
Scholz, K., Wältermann, M., Huo, L., Raake, A., Möller, S. and Heute, U. (2006). Estimation of the
quality dimension" directness/frequency content" for the instrumental assessment of speech
quality. Interspeech, Pittsburgh, PA, USA.
Schroeder, M. and Atal, B. (1985). Code-excited linear prediction (CELP): High-quality speech at very
low bit rates. IEEE International Conference on Acoustics, Speech, and Signal Processing
(ICASSP '85).
Sen, D. (2001). Determining the dimensions of speech quality from PCA and MDS analysis of the
diagnostic Acceptability Measure. Measurement of speech and audio Quality in Networks
(MESAQIN), Prague.
Sen, D. and Lu, W. (2012). "Objective evaluation of speech signal quality by the prediction of multiple
foreground diagnostic acceptability measure attributes". Journal of the Acoustical Society of
America, 131, 4087.
- 157 -
Shaughnessy, D. (2000). Speech Communication: Human and Machine. Addison-Wesley, USA–New
York, NY.
Stevens, S. S. (1936). "A scale for the measurement of a psychological magnitude: loudness".
Psychological Review, 43(5), 405.
Thorpe, L. and Yang, W. (1999). Performance of current perceptual objective speech quality measures.
IEEE Workshop on Speech Coding Proceedings.
Tiémounou, S., Le Bouquin Jeannes, R. and Barriac, V. (2012b). Performance evaluation of quality
degradation indicators on super-wideband speech signals. EUSIPCO), Bucharest, Roumania.
Tiémounou, S., Le Bouquin Jeannès, R. and Barriac, V. (2012a). Visual comparison of perceptual
degradation indicators in two listening speech quality models. WSEAS, Saint-Malo, France.
Tribolet, J., Noll, P., McDermott, B. and Crochiere, R. (1978). A study of complexity and quality of
speech waveform coders. IEEE International Conference on Acoustics, Speech, and Signal
Processing (ICASSP '78).
UIT-T (1993). Rec. P.56 : Mesure objective du niveau vocal actif. Genève.
Voiers, W. (1977). Diagnostic acceptability measure for speech communication systems. IEEE
International Conference on Acoustics, Speech, and Signal Processing (ICASSP '77)
Wältermann, M., Raake, A. and Möller, S. (2006a). Perceptual Dimensions of Wideband-transmitted
speech. ISCA/DEGA Tutorial and Research Workshop on Perceptual Quality of Systems.
Wältermann, M., Raake, A. and Möller, S. (2006b). Underlying Quality Dimensions of Modern
Telephone Connections. Interspeech, Pittsburgh, Pennsylvania.
Wältermann, M., Scholz, K., Möller, S., Huo, L., Raake, A. and Heute, H. (2008). An Instrumental
Measure for End-to-end Speech Transmission Quality Based on perceptual Dimensions :
Framework and Realization. Interspeech, Brisbane, Australia.
Wältermann, M., Tucker, I., Raake, A. and Moller, S. (2010). Extension of the E-model towards super-
wideband speech transmission. IEEE International Conference on Acoustics Speech and Signal
Processing (ICASSP '10)
Zango, Y. (2013). Thèse de doctorat: Evaluation subjective de la qualité : proposition d’un système de
référence pour les codecs en bande élargie, Université de Rennes 1.
Zielinski, S., Rumsey, F. and Bech, S. (2008). "On Some Biases Encountered in Modem Audio Quality
Listening Tests: A Review". Journal of the Audio Engineering Society, 56(6), 427-451.
Zwicker, E. (1958). "Übe psychologieshe und methodishe grundlagen der lautheit". Acustica, 8, 237-258.
Zwicker, E. and Fastl, H. (1999). Psychoacoustics : Facts and Models. Springer.
Zwicker, E., Fastl, H. and Dallmayr, C. (1984). "Basic-program for calculating the loudness of sounds
from their 1/3-oct band spectra according to ISO 532 B". Acustica, 55, 63-67.
- 158 -
Résumé
Les opérateurs de télécommunications se doivent de maîtriser et d’évaluer la qualité des services qu’ils
offrent à leurs clients, dans un contexte en perpétuelle évolution. Comme alternative rapide et à moindre coût
aux évaluations fondées sur l’interrogation d’utilisateurs, des outils de mesure ont été développés, qui intègrent
des modèles permettant de prédire la qualité perçue. Cette thèse avait pour but de concevoir un outil de
diagnostic de qualité vocale (applicable aux services de téléphonie), complémentaire à de tels modèles
objectifs, afin d’obtenir des informations spécifiques sur la nature des défauts présents sur le signal audio et
d’orienter vers des causes potentielles de ces défauts. En partant de l’hypothèse que la qualité vocale est
multidimensionnelle, nous avons fondé l’outil de diagnostic sur la modélisation des quatre dimensions
identifiées dans la littérature : la Bruyance, représentative des bruits de fond, la Continuité, relative à la
perception des discontinuités dans le signal, la Coloration, liée aux distorsions du spectre de la voix, et la Sonie,
traduisant la perception du niveau sonore. Chacune de ces dimensions est quantifiée à l’aide d’indicateurs de
qualité issus de l’analyse du signal audio. Notre démarche a consisté, dans un premier temps, à rechercher dans
des modèles objectifs récents (notamment la norme P.863 de l’UIT-T) des indicateurs de qualité et à en
développer d’autres pour caractériser parfaitement chaque dimension. S’est ensuivie une étude de
performances de ces indicateurs, les plus pertinents devant être intégrés dans notre outil de diagnostic.
Finalement, pour chaque dimension, nous avons développé un module de classification automatique de défauts
perçus en fonction de la nature du défaut identifié dans le signal, ainsi qu’un module supplémentaire estimant
l’impact du défaut sur la qualité vocale. L’outil proposé couvre les trois bandes audio (bande étroite, bande
élargie et bande super-élargie) couramment utilisées dans les systèmes de télécommunications avec, toutefois,
une priorité pour les signaux en bande super-élargie, plus représentatifs des contenus audio qu’on sera amené à
rencontrer dans les futurs services de télécommunications.
Abstract
Quality of service is a huge issue for telecommunications operators since they have to master and evaluate it in
order to satisfy their customers. To replace expensive and time-consuming human judgment methods,
objective methods, integrating objective models providing a prediction of the perceived quality, have been
conceived. Our research aimed at developing a technical diagnostic method, complementary to objective voice
quality models, which provides specific information about the nature of the perceived voice quality
impairments and identifies the underlying technical causes. Assuming that speech quality is a
multidimensional phenomenon, our technical diagnostic method is built on the modelling of the four
perceptual dimensions identified in the literature: “Noisiness” relative to the perceived background noise,
“Continuity” linked to discontinuity, “Coloration” related to frequency–response degradations and “Loudness”
corresponding to the impact of the speech level, each one being quantified by quality degradation indicators
based on audio signal analysis. A crucial step of our research was to find and/or to develop relevant quality
degradation indicators to perfectly characterize each dimension. To do so, we identified quality degradation
indicators in the most recent objective voice quality models (particularly the ITU-T P.863 recommendation,
known as POLQA) and we analysed the performance of identified indicators. Then, the most relevant
indicators have been considered in our diagnostic method. Finally, for each dimension, we proposed a
detection block which automatically classifies a perceived degradation according to the nature of the defect
detected in the audio signal, and an additional block providing information about the impact of degradations on
speech quality. The proposed technical diagnostic method is designed to cover three bandwidths (Narrowband,
Wideband and Super Wideband) used in telecommunications systems with a priority investigation to Super
Wideband speech signals which remain very useful for future telephony applications.