TIEMOUNOU Sibiri PDF

ANNEE 2014
THÈSE / UNIVERSITÉ DE RENNES 1

sous le sceau de l’Université Européenne de Bretagne
pour le grade de
DOCTEUR DE L’UNIVERSITÉ DE RENNES 1
Mention : Traitement du Signal et Télécommunications
École doctorale Matisse
présentée par
Sibiri TIEMOUNOU
Préparée à l’unité de recherche LTSI – INSERM UMR 1099
Laboratoire Traitement du Signal et de l’Image
UFR Informatique Électronique (ISTIC)
Thèse soutenue à Rennes

le 17 février 2014
devant le jury composé de :

Développement d’une
méthode de diagnostic Gang FENG
Professeur à l'INP de Grenoble / rapporteur
technique des dégradations Etienne PARIZET

Professeur à l'INSA de Lyon / rapporteur
de qualité vocale perçue des Thierry CHONAVEL
Professeur à Telecom Bretagne / examinateur
communications Gaël MAHE
Maître de Conférences, Université Paris Descartes /
téléphoniques à partir d’une examinateur
Vincent BARRIAC
analyse du signal de parole Ingénieur Orange Labs Lannion / directeur de thèse
Régine LE BOUQUIN JEANNES
Professeur à l’Université de Rennes 1 / directeur de thèse
Table de matières
Table des matières
Table des matières ...................................................................................................................................... 3

Liste des acronymes et abréviations ......................................................................................................... 7
Introduction ................................................................................................................................................ 9
Chapitre 1 - Etat de l'art sur la qualité vocale dans les systèmes de télécommunications................. 13
1.1. Production et perception de la parole ........................................................................................ 13
1.2. Qualité vocale ........................................................................................................................... 16
1.2.1. Définition ............................................................................................................................... 16
1.2.2. Qualité de Service et Qualité d'Expérience ...................................................................... 17
1.3. Systèmes de transmission de la parole ...................................................................................... 18
1.3.1. Réseaux téléphoniques ...................................................................................................... 18
1.3.1.1. Réseau Téléphonique Commuté (RTC) .................................................................... 18
1.3.1.2. Réseaux numériques ................................................................................................. 18
1.3.1.3. Réseaux mobiles ....................................................................................................... 19
1.3.1.4. Voix sur IP (VoIP) .................................................................................................... 19
1.3.2. Codage de la parole........................................................................................................... 20
1.3.2.1. Détecteur d’Activité Vocale (DAV) ......................................................................... 21
1.3.2.2. Mécanisme de masquage des pertes de paquets........................................................ 21
1.3.3. Fonctionnalités d'amélioration du signal de parole ........................................................... 21
1.3.3.1. Annuleurs d'écho....................................................................................................... 22
1.3.3.2. Réducteurs de bruit ................................................................................................... 22
1.3.3.3. Systèmes de contrôle automatique de gain ............................................................... 22
1.3.4. Interface utilisateur ........................................................................................................... 22
1.4. Evaluation de la qualité vocale ................................................................................................. 23
1.4.1. Définitions ........................................................................................................................ 23
1.4.2. Evaluation subjective de la qualité vocale ........................................................................ 24
1.4.2.1. Contexte d’évaluation de la qualité vocale ............................................................... 24
1.4.2.1.1. Contexte d’écoute ................................................................................................ 25
1.4.2.1.2. Contexte de locution............................................................................................ 25
1.4.2.1.3. Contexte de conversation .................................................................................... 25
1.4.2.2. Evaluation unidimensionnelle de la qualité vocale ................................................... 25
1.4.2.2.1. Test ACR (Absolute Category Rating) ............................................................... 25
1.4.2.2.2. Test DCR (Degradation Category Rating) .......................................................... 26
1.4.2.2.3. Test CCR (Comparison Category Rating)........................................................... 26
1.4.2.2.4. Test MUSHRA (MUlti Stimulus test with Hidden Reference and Anchor) ....... 27
1.4.2.3. Evaluation multidimensionnelle de la qualité vocale ............................................... 27
1.4.2.3.1. DAM (Diagnostic Acceptability Measure) ......................................................... 27
1.4.2.3.2. P.MULTI ............................................................................................................. 28
1.4.2.3.3. Recommandation P.835 de l’UIT-T .................................................................... 28
1.4.3. Evaluation objective de la qualité vocale .......................................................................... 28
1.4.3.1. Modèles paramétriques ............................................................................................. 29
-3-
Table de matières
1.4.3.1.1. Modèle E ............................................................................................................. 29

1.4.3.1.2. Modèle CCI (Call Clarity Index ou indice de netteté des logatomes) ................. 30
1.4.3.1.3. Recommandation P.564 ...................................................................................... 30
1.4.3.2. Modèles basés sur le signal de parole ....................................................................... 30
1.4.3.2.1. Modèles avec référence ....................................................................................... 30
1.4.3.2.1.1. Modèle PSQM (Perceptual Speech-Quality Measure) ........................................ 33
1.4.3.2.1.2. Modèle PESQ (Perceptual Evaluation of Speech Quality).................................. 33
1.4.3.2.1.3. Modèle POLQA (Perceptual Objective Listening Quality Assessment) ............. 34
1.4.3.2.1.4. Modèle DIAL (Diagnostic Instrumental Assessment of Listening quality) ........ 35
1.4.3.2.1.5. Modèle TOSQA (Telecommunications Objective Speech Quality Assessment) 35
1.4.3.2.1.6. Modèle PESQM (Perceptual Echo and Sidetone Quality Measure) ................... 36
1.4.2.3.1.7. Modèle objectif conversationnel ......................................................................... 36
1.4.3.2.2. Modèles sans référence ..................................................................................... 36
1.4.3.2.2.1. Modèle P.563....................................................................................................... 37
1.4.3.2.2.2. Modèle DESQHI (Diagnostic and Speech Quality using Hybrid Indicators) ..... 37
1.4.3.2.2.3. Autres modèles sans référence ............................................................................ 37
1.5. Espace perceptif de la qualité vocale ........................................................................................ 37
1.5.1. Procédure d’identification des dimensions perceptives .................................................... 38
1.5.1.1. Réalisation de tests subjectifs ................................................................................... 38
1.5.1.1.1. Tests de dissimilarité ........................................................................................... 38
1.5.1.1.2. Test par Différentielle Sémantique (SD) ............................................................. 38
1.5.1.2. Extraction des dimensions perceptives ..................................................................... 39
1.5.1.1.1. Méthode d’Echelonnement MultiDimensionnel (EMD) ..................................... 39
1.5.1.1.2. Analyse en Composantes Principales (ACP) ...................................................... 39
1.5.1.2. Test de verbalisation ................................................................................................. 39
1.5.2. Dimensions perceptives de la qualité vocale .................................................................... 39
1.6. Conclusion ................................................................................................................................ 42
Chapitre 2 - Indicateurs de qualité et performances ............................................................................ 43
2.1. Etude de modèles récents .......................................................................................................... 44
2.1.1. Présentation du modèle POLQA ....................................................................................... 44
2.1.2. Présentation du modèle DIAL .......................................................................................... 46
2.1.3. Présentation du modèle DESQHI ..................................................................................... 47
2.2. Identification des indicateurs de qualité dans les modèles présentés ........................................ 48
2.2.1. Indicateurs de la dimension Bruyance .............................................................................. 49
2.2.2. Indicateurs de la dimension Continuité ............................................................................. 52
2.2.3. Indicateurs de la dimension Coloration ............................................................................ 57
2.2.4. Indicateurs de la dimension Sonie .................................................................................... 62
2.2.5. Récapitulatif des indicateurs identifiés dans les modèles objectifs................................... 62
2.3. Etude de performances des indicateurs de qualité .................................................................... 63
2.3.1. Description des méthodes d’évaluation des indicateurs de qualité ................................... 63
2.3.1.1. Méthode graphique ................................................................................................... 63
2.3.1.2. Méthode objective..................................................................................................... 64
2.3.2. Description de la base sonore ........................................................................................... 65
2.3.3. Evaluation des performances des indicateurs ................................................................... 68
-4-
Table de matières
2.3.3.1. Performances des indicateurs de la dimension Bruyance ......................................... 69

2.3.3.2. Performances des indicateurs de la dimension Continuité........................................ 70
2.3.3.3. Performances des indicateurs de la dimension Coloration ....................................... 71
2.3.3.4. Performances des indicateurs de la dimension Sonie ............................................... 72
2.4. Conclusion ................................................................................................................................ 73
Chapitre 3 - Modélisation de la dimension Bruyance ........................................................................... 75
3.1. Hypothèses ................................................................................................................................ 75
3.2. Réalisation du test subjectif d’évaluation de la qualité vocale .................................................. 76
3.2.1. Description des échantillons sonores ................................................................................ 77
3.2.1.1. Signaux de parole...................................................................................................... 77
3.2.1.2. Bruits......................................................................................................................... 77
3.2.2. Pré-égalisation du niveau sonore des bruits ...................................................................... 78
3.2.3. Construction de la base sonore ......................................................................................... 79
3.2.4. Plan du test subjectif ......................................................................................................... 80
3.3. Analyse des résultats du test subjectif ....................................................................................... 81
3.4. Modélisation de la dimension Bruyance ................................................................................... 84
3.4.1. Classification automatique des bruits de fond .................................................................. 84
3.4.1.1. Description des indicateurs de qualité ...................................................................... 84
3.4.1.2. Base sonore ............................................................................................................... 86
3.4.1.3. Phase d’apprentissage ............................................................................................... 86
3.4.1.4. Phase de validation ................................................................................................... 87
3.4.2. Prédiction de la qualité vocale en présence de bruit de fond ............................................ 88
3.5. Validation du modèle proposé sur des bases sonores inconnues .............................................. 90
3.5.1. Performance de classification ........................................................................................... 91
3.5.2. Performance de prédiction ................................................................................................ 91
3.6. Conclusion ................................................................................................................................ 92
Chapitre 4 - Modélisation de la dimension Continuité ......................................................................... 93
4.1. Modélisation de la Continuité ................................................................................................... 93
4.1.1. Modélisation de la sous-dimension Variation de Gain ..................................................... 94
4.1.2. Principe de la modélisation de la dimension Continuité ................................................... 95
4.1.3. Description de la base sonore ........................................................................................... 96
4.1.4. Détection automatique des discontinuités ......................................................................... 96
4.1.5. Prédiction de la qualité vocale en présence de discontinuités........................................... 97
4.2. Validation du modèle proposé sur une base sonore inconnue................................................... 99
4.3. Conclusion .............................................................................................................................. 100
-5-
Table de matières
Chapitre 5 - Modélisation de la dimension Coloration ....................................................................... 101

5.1. Description des codecs sélectionnés ....................................................................................... 102
5.2. Construction de la base sonore ................................................................................................ 104
5.3. Détermination de la signature des codecs ............................................................................... 105
5.3.1. Approche méthodologique .............................................................................................. 105
5.3.2. Détermination des largeurs de bande des codecs ............................................................ 106
5.3.3. Classification des codecs ................................................................................................ 110
5.3.3.1. Description des indicateurs de qualité .................................................................... 110
5.3.3.2. Description de la méthode CAH ............................................................................. 112
5.3.3.3. Application de la méthode CAH aux codecs .......................................................... 112
5.3.3.3.1. Cas des codecs NB ............................................................................................ 113
5.3.3.3.2. Cas des codecs WB ........................................................................................... 114
5.3.3.3.3. Cas des codecs SWB ......................................................................................... 115
5.3.3.3.4. Analyse des résultats ......................................................................................... 116
5.3.3.4. Classification automatique des codecs.................................................................... 117
5.4. Performances du modèle proposé ........................................................................................... 120
5.5. Conclusion .............................................................................................................................. 121
Chapitre 6 - Modélisation de la dimension Sonie ................................................................................ 123
6.1. Méthodes objectives d’estimation de la sonie ......................................................................... 123
6.1.1. Méthodes d’estimation de la sonie des sons stationnaires .............................................. 124
6.1.2. Méthodes d’estimation de la sonie des sons non stationnaires ....................................... 125
6.2. Indicateurs de qualité de la dimension Sonie et performances ............................................... 125
6.3. Conclusion .............................................................................................................................. 128
Chapitre 7 - Performances de l’outil de diagnostic ............................................................................ 129
7.1. Structure globale de l’outil de diagnostic................................................................................ 129
7.2. Description de la base sonore .................................................................................................. 133
7.3. Performances des modules de détection de dégradations ....................................................... 135
7.3.1. Performances de classification des bruits de fond .......................................................... 136
7.3.2. Performances de détection de discontinuités .................................................................. 137
7.3.3. Performances de classification des codecs...................................................................... 138
7.3.4. Performances d’estimation des variations du niveau sonore global de la parole ............ 139
7.4. Performances de prédiction de notre outil et comparaison avec DIAL .................................. 140
7.5. Conclusion .............................................................................................................................. 141
Conclusion et perspectives ..................................................................................................................... 143
Annexe A - Coefficients des fonctions de mappage des indicateurs de qualité ................................. 147
Annexe B - Consigne du test d’évaluation de la qualité vocale – Méthode DCR.............................. 151
Bibliographie........................................................................................................................................... 153
-6-
Liste des acronymes et abréviations
3GPP 3rd Generation Partnership Project

AAC Advanced Audio Coding
AbS Analysis by Synthesis
ACELP Algebraic Code-Excited Linear Prediction
ACP Analyse en Composantes Principales
ADPCM Adaptive Differential Pulse Code Modulation
AMR Adaptive Multi-Rate
AMR WB Adaptive Multi-Rate WideBand
ATC Adaptive Transform Coding
CAH Classification Ascendante Hiérarchique
CELP Coded-Excited Linear Prediction
CMOS Comparison MOS
CSB Codage en Sous Bande
DAM Diagnostic Acceptability Measure
dB deciBel
DCR Degradation Category Rating
DCT Discrete Cosine Transform
DESQHI Diagnostic and Speech Quality using Hybrid Indicators
DFT Discrete Fourier Transform
DIAL Diagnostic Instrumental Assessment of Listening quality
DMOS Degradation MOS
DPCM Differential Pulse Code Modulation
DSP Densité Spectrale de Puissance
EDGE Enhanced Data for GSM Evolution
EQM Erreur Quadratique Moyenne
ETSI European Telecommunications Standards Institute
FB Full-Band
FEC Frame Error Correction
GMM Gaussian Mixture Model
GPRS General Packet Radio Service
GSM Global System for Mobile communications
GSM - EFR GSM - Enhanced Full Rate
GSM - FR GSM - Full Rate
Hz Hertz
IP Internet Protocol
ITU International Telecommunication Union
kbit/s kilo-bits par seconde
kHz kilo Hertz
-7-
LTE Long Term Evolution

Mbit/s Mega-bits par seconde
MDCT Modified Discrete Cosine Transform
MDS MultiDimensional Scaling
MIC Modulation par Impulsions Codées
MICD MIC différentiel
MICDA Modulation par Impulsions Codées Adaptative
MIPS Million d’Instructions Par Seconde
MLT Modulated Lapped Transform
MOS Mean Opinion Score
MOS-LQO MOS Listening Quality Objective
MUSHRA MUltiple Stimuli with Hidden Reference and Anchor
NB NarrowBand
NMR Noise to Mask Ratio
PCM Pulse Code Modulation
PESQ Perceptual Evaluation of Speech Quality
PLC Packet Loss Cancealment
POLQA Perceptual Objective Listening Quality Assessment
PSQM Perceptual Speech-Quality Measure
RPE Regular Pulse Excitation
SWB Super WideBand
SMS Short Message Service
SPL Sound Pressure Level
STFT Short Term Fourier Transform
TDAC Time Domain Aliasing Cancellation
TDBWE Time-Domain Bandwidth Extension
TOSQA Telecommunications Objective Speech Quality Assessment
UIT Union Internationale des Télécommunications
UMTS Universal Mobile Telecommunication System
VAD Voice Activity Detection
VoIP Voice over IP
WB WideBand
WSS Weighted Spectral Slope
-8-
Introduction
Introduction
De nos jours, les systèmes de télécommunication sont en pleine évolution, marquée par l’apparition de
nouveaux réseaux d’accès, notamment mobiles, comme la 3G (UMTS, Universal Mobile
Telecommunications System) ou la 4G (LTE, Long-Term Evolution), et de nouveaux services repoussant
toujours plus loin les limites de l’innovation. Parmi ceux-ci, nous nous intéressons en particulier à la
VoIP (Voice over the Internet Protocol). Si la téléphonie dite « classique » a été initialement prévue pour
transmettre la voix sur une bande passante allant de 300 Hz à 3400 Hz (aussi appelée bande étroite ou NB,
Narrowband), les réseaux utilisant le transport sur IP permettent de transmettre ce que l’on appelle la
« voix HD » (Haute Définition), i.e. des communications téléphoniques en bande élargie ou WB,
WideBand (i.e. [50 Hz – 7000 Hz]). Ils rendent également possible l’utilisation d’applications de VoIP en
bande super-élargie ou SWB (Super WideBand), dont la bande de fréquences s’étend de 50 à 14000 Hz.
Ces différentes extensions de la bande audio améliorent nettement l’intelligibilité de la voix comparée à la
téléphonie classique. Cependant, elles ne sont pas sans risque. En effet, au-delà des conséquences en
termes de congestion de réseau (compensée par les techniques de codage à débit réduit), les dégradations
présentes dans les hautes fréquences deviennent audibles dans les communications téléphoniques en
bande élargie ou super-élargie, alors qu’elles sont atténuées dans le contexte en bande étroite. La qualité
vocale n’est donc pas nécessairement améliorée avec les nouvelles techniques de réseau et de traitement
de la voix.
Afin de faire face à la concurrence et de satisfaire aux exigences de leurs clients ainsi que des autorités
de régulations nationales, les opérateurs de télécommunications se doivent de connaître, et donc de
contrôler en permanence, la qualité de leurs services. C’est le cas en particulier des services de téléphonie.
Un des facteurs principaux de la qualité de ces services est la qualité vocale telle que perçue par les
utilisateurs. L’approche la plus fiable pour évaluer la qualité vocale est de recourir à ce que l’on appelle
des tests subjectifs, i.e. des tests durant lesquels les participants, qu’on soumet à des stimuli sonores issus
d’enregistrements effectués sur le service à évaluer, jugent la qualité telle qu’ils la perçoivent sur une
échelle de qualité bien définie. Cependant, la réalisation de ces tests subjectifs s’avère coûteuse en temps
et en moyens financiers. De plus, c’est une évaluation a posteriori, quand bien souvent le besoin est de
pouvoir réagir rapidement aux dégradations constatées. Comme alternative à ces tests subjectifs, des
méthodes de mesures dites « objectives », fondées soit sur une analyse du signal de parole soit sur des
informations issues du réseau, sont développées. En particulier, de nos jours, nous assistons à l’apparition
de méthodes de plus en plus « sophistiquées », fondées sur la modélisation du système auditif humain,
connues aussi sous le nom de modèles perceptifs, et dont le but est de prédire de manière automatique la
qualité vocale telle qu’elle serait déterminée lors d’un test subjectif formel. C’est à ces modèles que nous
nous sommes intéressés principalement dans le cadre de cette étude. Les plus connus et les plus utilisés de
ces modèles sont ceux normalisés au sein de l’Union Internationale des Télécommunications (UIT),
notamment ceux décrits dans les normes P.862 (ITU-T 2001) et P.863 (ITU-T 2011a). De tels modèles
ont été développés et entraînés afin de s’adapter aux nouvelles technologies de traitement et de
transmission de la voix sur les réseaux de télécommunications. Bien que ces modèles fassent preuve de
bonnes performances en matière de prédiction de la qualité vocale (en contexte d’écoute, i.e. sans prise en
compte d’éventuels retards et de l’écho), ils ne permettent pas d’établir de lien entre cette dégradation
perçue et sa cause. Autrement dit, ils ne fournissent pas d’information sur la nature des défauts à l’origine
-9-
Introduction
des dégradations perçues. Or, bien souvent, d’un point de vue opérationnel, la mesure de qualité vocale
(sous forme d’un scalaire quantifiant le degré de dégradation) est nettement insuffisante. Il faut la
compléter d’autres éléments de mesure afin de déterminer l’origine des défauts constatés, voire proposer
des actions correctives. Ces éléments peuvent être obtenus au niveau des équipements de réseau (qui
fournissent moult compteurs), par le biais de mesures au niveau du réseau de transmission (notamment IP)
ou d’accès (DSL, radio, etc.), ou encore par une analyse plus avancée du signal de parole.
L’objectif de nos recherches consiste à proposer un outil de diagnostic avancé des dégradations de la
qualité vocale qui, à partir d’une analyse du signal sonore (parole + bruits environnants), fournira des
informations plus spécifiques sur la nature des défauts perçus lors des communications téléphoniques et
d’orienter vers les causes possibles en vue d’une action d’amélioration. Pour ce faire, nous sommes partis
du constat fait dans la littérature, à savoir que l’analyse des défauts perçus lors des communications
téléphoniques conduit à une représentation multidimensionnelle de la qualité vocale. L’outil de diagnostic
proposé dans cette thèse va reposer sur la modélisation de quatre familles de défauts correspondant à
autant de dimensions perceptives (Bruyance, Continuité, Coloration et Sonie) couvrant l’ensemble des
défauts perçus lors des communications téléphoniques, et orthogonales entre elles (au moins pour les trois
premières). Cette approche multidimensionnelle nous permet de fournir, en complément de la note de
qualité vocale globale, des informations plus fines sur les principaux défauts présents sur le signal vocal.
De plus, notre outil de diagnostic sera conçu de sorte à couvrir les trois bandes audio utilisées en
téléphonie (bande étroite, bande élargie et bande super-élargie), avec une priorité pour les signaux en
bande super-élargie, la plus prometteuse (les futurs services de téléphonie seront en bande super-élargie)
mais aussi la plus pauvre à ce jour en études portant sur le diagnostic des dégradations des signaux de
parole.
Le premier chapitre sera consacré à un état de l’art sur la qualité vocale perçue dans les systèmes de
télécommunications et aux défauts altérant cette qualité. Après une description des éléments importants
présents dans les réseaux et systèmes de télécommunications actuels et à venir et leur impact sur la qualité
vocale, un état de l’art des méthodes d’évaluation subjective et objective de la qualité vocale sera dressé.
Les études portant sur l’identification des dimensions caractérisant l’espace perceptif de la qualité vocale
seront présentées et permettront de mettre en exergue l’intérêt des quatre dimensions perceptives pour
notre étude.
Chaque dimension perceptive peut être modélisée par au moins un estimateur de dégradation,
simplement appelé par la suite « indicateur de qualité ». La fiabilité de notre outil à obtenir des
informations sur chaque dimension repose sur la pertinence et la robustesse des indicateurs de qualité que
nous aurons sélectionnés. L’objet du chapitre 2 sera d’identifier certains de ces indicateurs. Pour ce faire,
nous avons décidé de nous intéresser en premier lieu aux modèles perceptifs les plus récents, parmi
lesquels la norme P.863 de l’UIT-T (ITU-T 2011a).
Les quatre chapitres suivants (chapitres 3 à 6) seront respectivement consacrés à la modélisation
proprement dite des quatre dimensions perceptives à partir d’indicateurs de qualité (dont ceux identifiés
au chapitre 2). La modélisation de la dimension Bruyance (chapitre 3) sera fondée sur des travaux réalisés
au sein d’Orange Labs (Leman 2011) portant sur l’élaboration d’un modèle fiable de classification
automatique des bruits de fond en contexte téléphonique en bande étroite, dont nous proposons d’élargir
le domaine d’application aux signaux en bande super-élargie. Concernant la modélisation de la dimension
Continuité (chapitre 4), elle reposera sur la quantification de trois familles de discontinuités perçues,
chacune représentée par un indicateur spécifique. Quant à la dimension Coloration (chapitre 5), nous
- 10 -
Introduction
proposerons une modélisation de cette dimension essentiellement orientée sur la détermination de la

signature des codecs à bande étroite, élargie ou super-élargie utilisés dans les systèmes de
télécommunications actuels ou à venir. En ce qui concerne la dimension Sonie (chapitre 6), nous
envisagerons une modélisation des variations observées sur le niveau sonore global.
Sera finalement présenté au chapitre 7 notre outil de diagnostic, constitué d’une combinaison des
différents indicateurs étudiés dans les chapitres précédents, dont nous analyserons les performances
globales, avant de conclure et de suggérer des perspectives à ce travail.
- 11 -
Chapitre 1 Etat de l’art sur la qualité vocale dans les systèmes de télécommunications
Chapitre 1
Etat de l'art sur la qualité vocale dans les systèmes de

télécommunications
La parole est un langage articulé humain, composé de signes audibles. C’est un élément essentiel dans
les relations humaines car elle permet de communiquer la pensée, les sentiments etc. Cette
communication peut être faite face-à-face (i.e. le locuteur et l’auditeur se parlent en se faisant face) ou au
moyen d’un système de télécommunications (i.e. communication à distance). Quel que soit le mode de
communication utilisé, l’information véhiculée dans le signal de parole doit être de bonne qualité afin de
faciliter sa compréhension. Cela est d’autant plus important dans les communications téléphoniques que
le signal de parole est soumis à des séries de traitement pouvant introduire des distorsions dans le signal
et impacter par conséquent la qualité du message vocal. Conscients de l’enjeu économique que cela
représente, les opérateurs de télécommunications se doivent de garantir une bonne qualité du signal de
parole transmis.
Dans ce chapitre, nous présenterons dans la section 1.1 le processus de production de la parole et sa
perception suivis d’une description de la qualité vocale dans la section 1.2. La section 1.3 sera consacrée
à une étude détaillée des éléments constitutifs des systèmes de transmission et leur impact sur la qualité
vocale. Les méthodes d’évaluation de la qualité vocale seront décrites dans la section 1.4 avant d’aborder
l’espace perceptif de cette qualité (cf. § 1.5).
1.1. Production et perception de la parole
La parole est produite à partir de l'appareil phonatoire décrit sur la Figure 1.1. Celui-ci est constitué de
trois parties essentielles :
 la partie sous-glottique ou appareil respiratoire, constituée du diaphragme, des poumons et de
la trachée, est l'appareil de la soufflerie qui fournit l’énergie nécessaire à la phonation (i.e. acte de
la parole) en insufflant l’air vers la partie glottique ;
 la partie glottique ou larynx assure le premier niveau de transformation de l'air pulmonaire en
vibration sonore audible. Elle est constituée essentiellement de cordes vocales qui, lors de la
phonation, vibrent en s'ouvrant et se fermant rapidement de manière quasi-périodique. Le taux de
cette vibration (ouverture-fermeture) correspond à la fréquence fondamentale (F0) de la voix
humaine et exprimée en Hertz (Hz). Cette fréquence fondamentale dépend du sexe et de l'âge du
locuteur. Ainsi, la fréquence F0 moyenne des hommes, femmes et enfants se situe respectivement
autour de 100 Hz, 200 Hz et 300 Hz (Shaughnessy 2000) ;
 la partie supra-glottique ou conduit vocal est formée de la cavité orale (pharyngienne et
buccale) et des cavités nasales. Ces cavités transforment l'énergie acoustique induite par la partie
glottique en langage articulé grâce, essentiellement, à l’extrême mobilité de la langue et des
lèvres.
- 13 -
La bande passante produite par la parole humaine à la sortie de la bouche est généralement définie
dans la gamme (100-7000 Hz) (Deng and O’Shaughnessy 2003). C’est une bande contenant les
informations utiles à la bonne compréhension de la parole humaine.
Le son acoustique issu de la parole du locuteur est propagé via l’air, dans le cas d’une communication
face-à-face, ou à travers un système de transmission (cf. § 1.2) dans le cas d’une communication
téléphonique. Ce son est ensuite capté par le système auditif de l’auditeur qui transforme ce signal de
sorte que le cerveau puisse l'analyser. Le système auditif humain est composé de trois parties (cf. Figure
1.2) :
 l’oreille externe, partie visible de l'oreille comprenant le pavillon et le conduit auditif, est le
canal par lequel le son est acheminé ;
 l’oreille moyenne est constituée du tympan (ou membrane tympanique) et des osselets (marteau,
enclume, étrier). Ces deux éléments servent à amplifier les vibrations sonores pour les transmettre
à l'oreille interne ;
 l’oreille interne ou la cochlée (ou encore limaçon) est l’organe essentiel de l’audition et a pour
rôle de convertir les vibrations sonores en impulsions neuro-électriques transmises au nerf auditif.
Ce dernier les conduit ensuite jusqu'au cerveau qui les interprète grâce à un processus cognitif.
Figure 1.1. Appareil phonatoire humain Figure 1.2. Système auditif humain
L’oreille humaine perçoit des sons dans des fréquences comprises entre 20 et 20000 Hz. Cet intervalle
varie d’un individu à l’autre et s’amenuise avec l’âge. Toutefois, il existe un seuil d’audition absolu en
dessous duquel l’oreille humaine ne perçoit pas de son. Une courbe du seuil d’audition absolu, illustrée
sur la Figure 1.3, a été proposée par Fletcher(Fletcher 1940) et dont l’équation est la suivante :
Sa  f   3,4  f 1000 
2
 6,5e0,6 f 1000 3,3
 103  f 1000  ,
0,8 4
(1.1)
où Sa  f  est le seuil absolu d’audition, exprimée en dB-SPL (SPL signifie Sound Pressure Level ou
niveau de pression du son) et f la fréquence exprimée en Hz. D’autre part, les études réalisées par
- 14 -
Fletcher (Fletcher 1940) ont montré que l’oreille interne est constituée d’un banc de filtres passe-bande se
chevauchant fortement appelées bandes critiques. Une bande critique correspond à l’écart minimal pour
que deux fréquences soient perceptivement discriminées. Dans cette bande, la puissance perçue par
l’oreille correspond à la somme de toutes les puissances des composantes fréquentielles comprises dans
cette bande.
Figure 1.3. Courbe du seuil d’audition absolu
Fréquence (Hz) Fréquence (Hz)

Bande Bande
critique critique
Basse Haute Largeur Basse Haute Largeur
0 0 100 100 13 2000 2320 320

1 100 200 100 14 2320 2700 380
2 200 300 100 15 2700 3150 450
3 300 400 100 16 3150 3700 550
4 400 510 110 17 3700 4400 700
5 510 630 120 18 4400 5300 800
6 630 770 140 19 5300 6400 1100
7 770 920 150 20 6400 7700 1300
8 920 1080 160 21 7700 9500 1800
9 1080 1270 190 22 9500 12000 2500
10 1270 1480 210 23 12000 15500 3500
11 1480 1720 240 24 15500 22050 6550
12 1720 2000 280
Tableau 1.1. Liste des bandes critiques composant le système auditif humain
Lorsque cette somme est supérieure au seuil d’audition absolu, le son présent dans cette bande est
considéré comme audible, sinon il est inaudible. Zwicker et al. (Zwicker et al. 1999) ont proposé une
échelle de mesure de la bande critique appelée l’échelle des barks dont la relation avec l’échelle des hertz
est donnée par :
- 15 -
2
 0,76 f   f 
zB  13arctan    3,5arctan   , (1.2)
 1000   7500 
où z B est une bande critique exprimée en Bark et f une fréquence exprimée en kHz. On distingue
généralement 25 bandes critiques, qui sont celles données dans le Tableau 1.1.
De façon générale, la perception de la parole représente l’ensemble des aptitudes auditives et

cognitives d'un individu lui permettant d’interpréter et de comprendre l'information contenue dans le
signal de parole. Le résultat du processus de reconnaissance de cette information est défini comme étant
la compréhension (Jekosch 2005). Raake (Raake 2006) et Möller (Möller 2000) considèrent que la
compréhension vocale correspond à la dernière étape du processus de la perception vocale. Ce processus
comprend quatre étapes successives :
 la compréhensibilité représente l’aptitude du signal acoustique à transmettre l'information
phonémique. Un niveau de compréhensibilité élevé correspond à une reconnaissance parfaite des
phonèmes1 constituant le signal de parole ;
 l’intelligibilité traduit les capacités d'un individu à extraire l’information contenue dans un signal
de parole sur la base d’une identification des phonèmes ;
 la communicabilité désigne la capacité d’un individu à comprendre le signal de parole tel que le
locuteur avait l’intention de dire ;
 la compréhension est le résultat final du processus de perception de la parole. Elle nécessite alors
que l’auditeur soit prêt et ait l’intention de comprendre le message contenu dans le signal de
parole prononcé par son locuteur.
1.2. Qualité vocale
1.2.1. Définition
La qualité vocale est une notion subjective très complexe liée à la perception humaine. Jekosch
(Jekosch 2000) définit la qualité vocale comme étant le résultat d'un processus de perception et de
jugement, durant lequel l’individu établit une relation entre ce qu’il perçoit (i.e. l'événement sonore) et ce
qu’il désire ou attend (i.e. la référence interne). La Figure 1.4 décrit le mécanisme de jugement de la
qualité vocale par un auditeur.
D’après ce schéma, l’auditeur perçoit le signal acoustique, identifie ensuite les caractéristiques du
signal de parole telles que les informations phonétiques, le timbre, le niveau sonore, etc. et aboutit à une
composition des paramètres perçus. D’autre part, l’auditeur, en fonction de ses expériences personnelles,
ses connaissances passées, sa motivation, son humeur, crée mentalement des paramètres du signal
auxquels il s’attend ou qu’il désire (i.e. référence interne). Cela étant, le jugement de la qualité vocale est
réalisé sur la base d’une comparaison entre les paramètres perçus et les paramètres désirés.
En somme, la qualité vocale est une notion relative, dépendante de l’interprétation que chacun donne
du signal acoustique perçu et de la référence interne que l’on se crée. Toutefois, la qualité vocale peut être
1
Un phonème est défini comme un élément sonore distinctif du langage articulé.
- 16 -
quantifiée, soit à l’aide des tests subjectifs durant lesquels des groupes d’individus jugent la qualité vocale
sur une échelle spécifique, soit à l’aide de mesures objectives (cf. § 1.4).
Facteurs variables Evènement sonore
Ajustement Perception
Composition Composition
des paramètres des paramètres
désirés perçus
Réflexion Réflexion
Paramètres Paramètres
Comparaison
désirés perçus
Jugement
Qualité
perçue
Description
Auditeur
Figure 1.4. Description du mécanisme de jugement de la qualité vocale par un auditeur, selon
Raake (Raake 2006) basée l'étude de Jekosch (Jekosch 2005). Les cercles correspondent aux
procédures et les rectangles aux transformations faites par l’auditeur
1.2.2. Qualité de Service et Qualité d'Expérience
Dans le domaine des télécommunications, le terme le plus communément utilisé dans les
télécommunications quand on parle de qualité est la Qualité de Service ou QoS (Quality of Service).
Cette dernière est définie comme « l'ensemble des caractéristiques d'un service de télécommunications
permettant de satisfaire aux besoins explicites et implicites de l'utilisateur du service » (ITU-T 2008d).
Autrement dit, elle désigne l’ensemble des caractéristiques techniques d’un service permettant de
déterminer ou de prédire le degré de satisfaction des utilisateurs. La qualité vocale est une sous-partie
prépondérante de la QoS car elle a un impact direct sur l’acceptabilité d’un service et donc de son succès
commercial. Cette notion d’acceptabilité de service est connue sous le nom de Qualité d'Expérience ou
QoE (Quality of Experience) décrite dans la norme P.10/G.100 de l'UIT-T. La QoE désigne le degré
d'acceptabilité d'une application ou d'un service par l'utilisateur (ITU-T 2006c). A la différence de la QoS
- 17 -
qui est mesurable, la QoE s’estime en questionnant les utilisateurs eux-mêmes sur leur perception de
service proposé.
1.3. Systèmes de transmission de la parole
Dans les relations humaines, la conversation face-à-face est la plus couramment utilisée. Cependant,
cette forme de communication s’avère délicate quand le locuteur est éloigné de l’auditeur. Les systèmes
de transmission utilisés en télécommunications sont des moyens modernes de communication permettant
d’établir une conversation entre deux individus situés loin l’un de l’autre. L’objectif de ces systèmes est
de reproduire fidèlement la conversation face-à-face tout en conservant la quasi-totalité du message
contenu dans le signal de parole. Toutefois, le signal de parole, transmis via ces systèmes, est soumis à
des mécanismes de traitement introduisant ainsi des dégradations.
La Figure 1.4 décrit un exemple de scénario d’un système de transmission téléphonique. Tout d’abord,
à l’émission, le signal acoustique prononcé par le locuteur, aussi appelé signal utile, est capté par le
microphone du terminal téléphonique. Ce microphone capte en plus du signal utile, les signaux présents
dans l’environnement du locuteur tel que le bruit ou l’écho. Le signal résultant est ensuite converti en
signal électrique numérisé suivi d’un processus de suppression des signaux indésirables, codé et transmis
via un réseau. A la réception, le signal transmis est décodé et suite à des étapes d’amélioration de la
qualité du signal, le signal résultant est reconverti en signal acoustique. Ce signal acoustique parvient à
l’oreille de l’auditeur via l’écouteur de son terminal.
Cette partie décrit l'ensemble des éléments importants intervenant lors d’une communication
téléphonique et les dégradations qu’ils engendrent.
1.3.1. Réseaux téléphoniques
On distingue principalement le Réseau Téléphonique Commuté (RTC) analogique, les réseaux

numériques, mobiles et la VoIP (Voice over IP).
1.3.1.1. Réseau Téléphonique Commuté (RTC)

Le RTC est un réseau téléphonique analogique dans lequel le signal vocal est transmis sur une paire de
fils de cuivre entre le poste de l’usager et le plus proche central téléphonique. Le terme commuté vient du
fait que les communications sont effectuées grâce à des commutateurs automatiques assurant une liaison
entre deux interlocuteurs. La bande passante se situe entre 300 Hz et 3400 Hz correspondant à la bande
étroite ou Narrowband (NB).
Les principales dégradations identifiées par ce type de réseau sont le bruit de fond, l'écho, le délai de
transmission et les dégradations liées au codage de la parole et la limitation de bande de fréquences.
1.3.1.2. Réseaux numériques

Les années 80 ont vu apparaître des systèmes numériques permettant de transmettre le signal de parole
en numérique et de bout en bout. Cela est rendu possible grâce au Réseau Numérique à Intégration de
Services (RNIS). Dans ce réseau, le signal de parole est transformé d’analogique en numérique dans le
codec du terminal du locuteur puis inversement transformé au niveau du terminal de l’auditeur.
L’avantage du RNIS est qu’il permet de transmettre en plus de la voix, toutes sortes de données
numériques avec un débit de 64 kbits/s.
- 18 -
Les dégradations présentes dans ce réseau sont similaires à celles des réseaux analogiques auxquelles
s’ajoute le délai lié à la numérisation.
Signal dégradé
y(t) A
y(k) CNG Décodeur PLC
D
e(t) Réseau
AEC
Echo
A
NR DAV Codeur
D
s(t)
x(k)
Signal utile
n(t)
Bruit
Figure 1.4. Synthèse des éléments composant un système de transmission vocale. A/D représente un convertisseur
analogique/numérique, AEC (Acoustic Echo Canceller : annuleur d’écho), NR (Noise Reduction : réducteur de Bruit),
DAV (Détecteur d’Activité Vocale), PLC (Packet Loss Concealment : mécanisme de masquage de pertes de paquets) et
CNG (Confort Noise Generation : Générateur de bruit de confort)
1.3.1.3. Réseaux mobiles

A la fin des années 90, des téléphonies dites mobiles, utilisant la technique de transmission mobile ou
GSM (Global System for Mobile communications), ont vu le jour. Aussi appelée seconde génération de
réseaux mobiles et noté 2G, le GSM est le standard le plus utilisé dans le monde. Il permet de transmettre
la voix ainsi que des données numériques telles que des messages textes ou SMS (Short Message Service)
ou des messages multimédia ou MMS (Multimedia Messaging Service). Grâce à l’évolution
technologique, le GSM a fait place à la troisième génération de réseau mobile (3G) basée sur la
technologie UMTS (Universal Mobile Telecommunications System). La 3G offre une bande passante
plus large que le GSM offrant de nouveaux services tels que la visiophonie. Avec cette technologie, on
assiste à des communications téléphoniques en bande élargie améliorant l’intelligibilité de la voix. Plus
récemment, une quatrième génération (4G) est en cours d’expansion. Elle est basée sur la technologie
LTE (Long Term Evolution). Cette nouvelle génération obtient un débit 10 fois plus rapide que la 3G et la
voix y sera transportée sur IP (Internet Protocol).
Compte tenu de la mobilité lors d’une communication, les dégradations présentes dans les réseaux
peuvent être multiples (e.g. bruits de nature non stationnaire, délai lié au traitement numérique, erreurs de
bit liées à transmission radio etc.).
1.3.1.4. Voix sur IP (VoIP)

La Voix sur IP est une technologie de communication vocale en pleine émergence permettant de
communiquer via des réseaux IP. Avec cette technologie, le signal vocal est numérisé, comprimé et
découpé en paquets IP au niveau de l’émetteur du terminal. A la réception, le signal subit une
transformation inverse afin de reconstituer le signal de parole. L’architecture du réseau VoIP est telle
qu’elle permet d’effectuer des communications téléphoniques en bande super-élargie.
- 19 -
Le mode d’envoi et de réception des paquets IP est particulier. En effet, les paquets sont acheminés
dans plusieurs réseaux indépendants les uns des autres, les routeurs assurant l'acheminement de chaque
paquet à travers le réseau en empruntant le chemin a priori le plus court. Cependant, il arrive parfois que
les paquets arrivent soit aléatoirement, soit en retard ou bien soient perdus. On assiste dès lors à un délai
variable en fonction du retard de chaque paquet au niveau du récepteur. Ce délai variable est appelé gigue.
Afin d’obtenir un signal continu, des buffers de gigue sont introduits au niveau du récepteur avant le
décodage afin d’annihiler l’effet de la gigue ou de remettre les paquets affluant dans le bon ordre.
Toutefois, la taille des buffers étant limitée, une gigue trop importante peut entraîner une surcharge des
buffers, conduisant ainsi à des pertes de paquets pouvant être aléatoires ou en rafales.
Les dégradations identifiées dans la VoIP sont généralement les pertes de paquets et le délai de bout
en bout mais aussi l’instabilité de la QoS dans le temps.
1.3.2. Codage de la parole
L’objectif du codage de la parole est de comprimer le signal de parole, i.e. de réduire le débit du signal
afin de l’adapter au canal de transmission. Le système de codage de la parole comprend le codeur et le
décodeur. Le codeur analyse le signal afin d’extraire un nombre réduit de paramètres pertinents
représentés par un nombre réduit de bits. Quant au décodeur, il utilise ces paramètres pour reconstruire un
signal de parole synthétique. Les algorithmes de codage de la parole peuvent être regroupés en quatre
catégories :
 codage par forme d’onde (waveform coding) : c’est un ensemble de techniques visant à
reproduire le plus fidèlement possible la forme d’onde du signal de parole. On distingue les
techniques MIC (Modulation d’Impulsion Codée) ou PCM (Pulse Coding Modulation), MICDA
(MIC Différentiel Adaptatif) ou AD-PCM (Adaptive Differential PCM), MICDA-SB (MICDA en
Sous-Bande) ou SB-ADPCM (Sub-Band ADPCM) ;
 codage par transformée (Transform Coding) : son but est de transformer le signal temporel
dans un espace de représentation où l’élimination de la redondance d’échantillons dans le signal
de parole est plus nette. Les techniques de type MDCT (Modified Discrete Cosine Transform) et
MLT (Modulated Lapped Transform) appartiennent à cette catégorie ;
 codage paramétrique (parametric coding) : aussi appelés vocodeurs (voice coders), les codecs
paramétriques ont pour objectif de modéliser le processus de production de la parole afin de
transmettre seulement les paramètres importants d’un point de vue perceptif. On distingue
principalement les techniques LPC (Linear Predictive Coding), CELP (Coded-Excited Linear
Prediction) (Schroeder and Atal, 1985)] et ACELP (Algebriac CELP) ;
 codage hybride (hybrid coding) : ce type de codage utilise au moins deux techniques de codage
(ex. PCM/MDCT).
Les codecs de la parole sont caractérisés par le débit utilisé, la taille de la fenêtre d’analyse du signal,
la complexité des algorithmes de codage et le délai lié au processus de codage et décodage du signal. La
qualité d’un codec réside dans un compromis entre ces différentes caractéristiques. Le Tableau 1.2
résume les différents codecs couramment utilisés dans les systèmes de télécommunications en fonction de
leurs caractéristiques.
- 20 -
1.3.2.1. Détecteur d’Activité Vocale (DAV)

Certains codecs de la parole intègrent des DAV afin de réduire les données envoyées dans les réseaux
mobiles ou en mode paquet. En fait, les DAV permettent de classifier le signal suivant qu’il contient ou
non des périodes d’activité vocale. Ainsi, seules les parties du signal correspondant aux périodes
d’activité vocale sont codées et transmises via le réseau. Dans le cas où une période de silence est
détectée, un bruit de confort est joué en réception afin d’éviter la sensation d’interruption de la
communication. Les imperfections des DAV peuvent introduire des coupures dans le signal de parole
généralement situées au début ou à la fin d’une zone d’activité vocale.
Largeur de la bande
codec Type de codage Débits (kbits/s)
passante
G711 Forme d’onde (PCM) 64
G.726 Forme d’onde (ADPCM) 16 - 40
G.728 Paramétrique (CELP) 16
G.729 Paramétrique (CS-ACELP) 8 – 11,8
NB GSM-FR Paramétrique (RPE-LTP) 13
GSM-EFR Paramétrique (ACELP) 12.2
AMR Paramétrique (ACELP) 4,75 - 12,2
EVRC Paramétrique (RCELP) 0,8-8,55
iLBC Paramétrique (LPC) 13,33-15,2
G722 Forme d’onde (SB-ADPCM) 48 - 64
G722.1 Codage par transformée (MLT) 24 - 32
AMR-WB ou G722.2 Paramétrique (ACELP) 6,6 - 23,85
WB
G729.1 Hybride (CS-ACELP/TDAC) 14 - 32
G711.1 Hybride (Log.PCM/MDCT) 64 - 96
G718 Hybride (CELP/MDCT) 8 - 32
G722.1C Codage par transformée (MLT) 24 - 48
AMRWB+ Hybride (ACELP/TCX) 13,6 - 24
Speex Paramétrique (CELP) 2,15 – 44,2
SWB Hybride (CELP/MDCT/TD-
G718B 36 – 48
BWE)
Hybride (CELP/MDCT/TD-
G729.1E 36 – 64
BWE)
Tableau 1.2. Liste de quelques codecs utilisés dans les systèmes de télécommunications
1.3.2.2. Mécanisme de masquage des pertes de paquets

Les pertes de paquets ou erreurs de bits survenant dans les réseaux de transmission se traduisent par
des pertes d’une ou de plusieurs de trames dans le signal de parole perçues comme des coupures. Pour
pallier l’effet de ces pertes sur la qualité vocale, des mécanismes de masquage des pertes de paquets ou
PLC (Packet Loss Concealment) sont introduits au niveau du décodeur afin de reconstruire les trames
perdues. Il existe principalement deux types d’algorithme PLC : la technique de type « insertion de trames
de silence » consistant à remplacer la trame perdue par des trames de silence et celle de type « répétition
de trame » qui reconstruit la trame perdue par répétition de la trame précédente.
1.3.3. Fonctionnalités d'amélioration du signal de parole
Comme leur nom l’indique, ces systèmes sont des dispositifs de traitement de signal dont le but est
d’améliorer la qualité du signal transmis à travers les systèmes de télécommunications. On distingue
- 21 -
principalement les annuleurs d’écho, les réducteurs de bruit et les systèmes de contrôle automatique de
gain.
1.3.3.1. Annuleurs d'écho

On parle d’écho lorsque la personne qui parle entend sa propre voix. Le phénomène d’écho se perçoit
lorsque des réflexions du signal se produisent et se combinent avec des délais importants. L’écho perçu
peut provenir soit de l’écho acoustique soit de l’écho électrique. Le premier cas survient généralement
lorsque le terminal est utilisé en mode mains libres. Quant au second cas, il survient lors du passage d’un
circuit téléphonique à 2 fils vers un autre à 4 fils. L’impact de l’écho sur la qualité vocale pour le locuteur
dépend de son temps de propagation et de la différence de niveau entre le signal original et le signal
d'écho reçu (ITU-T 2012c). Il a pour effet principal de réduire l’interactivité lors d’une communication
téléphonique. Afin d’atténuer son influence sur la qualité vocale, des systèmes d’annulation d’écho sont
intégrés au niveau des terminaux de communication. Ces systèmes peuvent introduire des distorsions
dans le signal de parole lors d’une mauvaise estimation de l’écho.
L’écho est à dissocier de l’effet local (ou sidetone) qui correspond au signal allant directement du
microphone au haut-parleur du même appareil téléphonique. Si l’affaiblissement de l’effet local est
insuffisant, le volume des signaux renvoyés est trop élevé et il en résulte une diminution de la satisfaction
du locuteur. A contrario, si cet affaiblissement est trop fort, il s’ensuit une sensation de vide.
1.3.3.2. Réducteurs de bruit

Suivant l’environnement dans lequel une communication téléphonique a lieu, la conversation peut être
perturbée par la présence de bruit (e.g. bruit en provenance d’une voiture, d’un restaurant, …). Les
algorithmes de réduction de bruit sont utilisés afin d’atténuer l’impact du bruit sur la qualité vocale
perçue. Ces algorithmes estiment le bruit, généralement pendant les périodes de silence de la parole, et
l’extraient du signal bruité de sorte à conserver le mieux possible le signal utile. Cependant, ces
réducteurs de bruit peuvent introduire des dégradations sur le signal de parole dans la mesure où une
sous-estimation du bruit peut causer un phénomène appelé bruit musical. A contrario, une surestimation
du bruit entraîne des distorsions d’ordre fréquentiel (e.g. suppression ou atténuation des contenus
fréquentiels du signal de parole, etc.) ou temporel (e.g. coupure, variation abrupte du niveau sonore, etc.)
dans le signal de parole surtout lorsque le niveau du bruit est important (Loizou, 2013).
1.3.3.3. Systèmes de contrôle automatique de gain

Ces systèmes ont pour but de maintenir le niveau du signal de parole constant afin d’éviter une
surcharge des canaux de transmission. Toutefois, un mauvais réglage du niveau peut engendrer une
sensation de fluctuation du niveau sonore.
1.3.4. Interface utilisateur
Il s’agit de l’interface physique entre l’utilisateur et le système de transmission. Elle sert à l’émission
et à la réception du signal. Cette interface peut être un casque audio, un terminal mains-libres ou un
combiné. La qualité de ces interfaces dépend de celle des deux transducteurs (microphone et haut-parleur),
et aussi des systèmes de traitement de signal tels que la réduction de bruit, les systèmes de réglage du
niveau sonore de la parole etc.
- 22 -
Les transducteurs peuvent engendrer des distorsions fréquentielles dues au couplage entre le terminal
et la tête de l’utilisateur. De plus, l’utilisation des terminaux mains-libres peut causer un effet de
réverbération acoustique2 ou d’écho influençant la réponse en fréquence de l’ensemble du système de
transmission.
1.4. Evaluation de la qualité vocale
Comme nous l’avons vu dans la section 1.2.2, la qualité vocale est un facteur important de la QoS.
Pour offrir des services de meilleure qualité à leurs clients, les opérateurs de télécommunications se
doivent d’évaluer en permanence la qualité vocale perçue par les utilisateurs. Cette évaluation consiste à
apprécier la capacité des services de télécommunications à transmettre fidèlement le contenu du signal
vocal en générant le moins possible de dégradations. Autrement dit, cela revient à mesurer l’impact des
différentes dégradations, introduites par ces systèmes, sur la qualité vocale. Cela étant, la qualité vocale
peut être évaluée soit à l'aide de tests subjectifs soit en utilisant des outils de mesures objectives. Cette
partie est consacrée à la description de ces différentes méthodes d'évaluation de la qualité. Avant
d’aborder ces différentes méthodes, il est nécessaire de se familiariser avec certaines définitions
couramment utilisées et définies dans la norme P.10 de l’UIT-T (ITU-T 2006c).
1.4.1. Définitions
Un modèle est dit paramétrique s’il utilise des mesures physiques du système à évaluer (i.e. des
informations issues des statistiques du réseau) pour estimer la qualité vocale.
Un modèle est dit basé sur le signal si la qualité vocale est prédite à partir d’une analyse basée sur le
signal de parole. Il est dit avec référence lorsque cette prédiction est obtenue en comparant un signal de
référence (i.e. le signal non dégradé) à un signal dégradé, signal résultant du passage du signal de
référence à travers un système de télécommunications. Il est dit sans référence si elle (i.e. la prédiction
de la qualité vocale) ne nécessite que le signal dégradé.
Une mesure est dite intrusive si elle nécessite l’introduction d’un signal (pas forcément de référence)
dans le système à évaluer.
Généralement, la note de la qualité vocale issue soit d’un test subjectif ou d’un modèle objectif s’écrit
sous la forme MOS-XQYZ dont la signification est donnée dans la Figure 1.5.
2
Les sons, quel que soit le milieu dans lequel ils se propagent, subissent des réflexions sur les solides qui les
entourent (sol, murs,…) et l’ensemble des réflexions est connu sous le nom de réverbération acoustique.
- 23 -
Figure 1.5. Récapitulatif des notes de la qualité définies en fonction du contexte d’évaluation, de la nature de la
mesure et de la largeur de la bande passante du système sous test
1.4.2. Evaluation subjective de la qualité vocale
Le jugement de la qualité vocale est avant tout une notion subjective liée à la perception humaine. La
meilleure façon d'évaluer la qualité vocale est d'effectuer des tests dits « subjectifs ». Le test subjectif
consiste à faire appel à des utilisateurs et de leur demander leur opinion sur des séquences audio
impactées par une condition de dégradation, à l’aide d’une échelle de qualité. Notons que cette perception
de la qualité diffère d’une personne à une autre. Elle dépend de plusieurs facteurs tels que l’état
émotionnel de la personne, son âge, le contexte d’évaluation de la qualité (cf. § 1.4.1.1). En général, les
notes des participants pour une condition donnée sont moyennées afin d’obtenir une note d’opinion
moyenne ou MOS (Mean Opinion Score), comme définie dans la recommandation P.10 de l’UIT-T (ITU-
T 2006c)].
Les tests subjectifs se regroupent principalement en deux grandes catégories : la première catégorie
correspond aux tests consistant à noter la qualité sur une échelle unique ; on parle alors de test
d’évaluation unidimensionnelle de la qualité. Quant à la seconde catégorie de tests dite
multidimensionnelle, elle permet d’évaluer la qualité vocale sur plusieurs échelles.
Avant de décrire les différentes catégories de tests subjectifs, il est essentiel d’aborder les différents
contextes d’évaluation de la qualité vocale.
1.4.2.1. Contexte d’évaluation de la qualité vocale

De façon générale, il existe trois contextes d’évaluation de la qualité vocale : le contexte d’écoute, le
contexte de locution et le contexte de conversation.
- 24 -
1.4.2.1.1. Contexte d’écoute

Il représente la situation où les participants aux tests subjectifs écoutent uniquement des échantillons
vocaux et donnent leur jugement sur la qualité vocale perçue. Dans une situation de communication réelle,
le contexte d’écoute correspond à la transmission unidirectionnelle, allant du locuteur vers l’auditeur. De
ce fait, seules les dégradations affectant la compréhensibilité du message vocal sont concernées. Il s’agit
notamment des distorsions liées au codage de la parole, au bruit présent au niveau du locuteur ou
engendré par le réseau, des pertes de paquets/trames etc. Les dégradations telles que l'écho de la voix du
locuteur, les dégradations liées à l’effet local ou au délai ne sont pas prises en compte dans ce contexte.
1.4.2.1.2. Contexte de locution

Il s’agit d’un contexte de test subjectif dans lequel les participants évaluent uniquement la qualité
vocale de leur propre voix. Pour ce faire, ceux-ci doivent parler dans le microphone du système de
transmission à tester et évaluer en même temps la qualité de leur propre voix perçue en retour. Les
dégradations prises en compte dans ce contexte sont celles qui affectent la facilité de parler telles que
l’écho, l’effet local, le bruit ambiant, etc.
1.4.2.1.3. Contexte de conversation

Le contexte de conversation correspond au cas réel de la communication téléphonique où le locuteur et
l’auditeur interagissent. La qualité vocale est évaluée sur la totalité de la transmission. Dans ce contexte,
la qualité vocale est affectée, d’une part, par les dégradations du contexte d’écoute ainsi que celles du
contexte de locution et, d’autre part, par les dégradations issues de l’interaction lors de la conversation
telles que l’effet du délai. Le délai a principalement pour effet d’atténuer l’interactivité entre les
interlocuteurs. La mise en pratique de ce contexte d’évaluation de la qualité est très complexe car il
n’existe pas de méthode proprement dite pour évaluer la qualité vocale pendant l’interaction de la
conversation (Guéguin 2006a).
1.4.2.2. Evaluation unidimensionnelle de la qualité vocale

Dans ce paragraphe, nous décrivons quatre tests d'évaluation unidimensionnelle de la qualité vocale
normalisés par l’UIT et utilisés dans le contexte d’écoute. Parmi ces tests, trois sont définis dans (ITU-T
1996). Il s'agit du test d’évaluation par catégorie absolue (Absolute Category Rating, ACR), de
dégradation (Degradation Category Rating, DCR) et de comparaison (Comparison Category Rating,
CCR). Quant au dernier test MUSHRA (MUlti Stimulus test with Hidden Reference and Anchor), il est
détaillé dans la recommandation BS.1534 de l’UIT-R (ITU-R 2003).
1.4.2.2.1. Test ACR (Absolute Category Rating)

Le test ACR est le test subjectif le plus couramment utilisé pour l’évaluation de la qualité vocale et
dont les procédures de réalisation sont décrites dans l’annexe B de la norme P.800 de l’UIT-T (ITU-T
1996). Lors de ce test, les auditeurs écoutent des échantillons sonores d’une durée d’environ 8 s et notent
la qualité qu’ils perçoivent sur une échelle catégorielle à cinq niveaux, allant de 1 (mauvaise qualité) à 5
(excellente qualité), comme l’indique le Tableau 1.3. La note moyenne donnée par l’ensemble des
auditeurs est appelée note MOS. Sa particularité par rapport aux autres types de test est que chaque
échantillon sonore est jugé dans l'absolu sans nécessiter une comparaison quelconque avec le signal de
référence. C’est un test simple à mettre en œuvre qui permet de couvrir une large gamme de dégradations.
- 25 -
Qualité de la parole Note

Excellente 5
Bonne 4
Passable 3
Médiocre 2
Mauvaise 1
Tableau 1.3. Echelle de qualité utilisée lors du test ACR
1.4.2.2.2. Test DCR (Degradation Category Rating)

Le test ACR a tendance à rendre moins efficace la distinction entre des systèmes vocaux de bonne
qualité, comme cela est mentionné dans (ITU-T 1996). Pour compenser cela, le test d’évaluation par
catégorie de comparaison (DCR) a initialement été proposé par Combescure et al. (Combescure et al.
1982) pour l’évaluation de systèmes vocaux de bonne qualité et adopté dans la recommandation P.800 à
l’annexe D de l’UIT-T. Durant le test DCR, les stimuli sont présentés aux auditeurs par paires (A-B) ou
par paires répétées (A-B-A-B), dans lesquelles A est l'échantillon de référence de qualité élevée et B le
même échantillon traité par le système testé (ou échantillon dégradé). Les auditeurs doivent alors évaluer
la qualité vocale de l’échantillon traité par rapport à l’échantillon de référence sur une échelle (cf. Tableau
1.4) à valeurs entières allant de 1 (dégradation très gênante) à 5 (dégradation inaudible). En moyennant,
par condition, les résultats de tous les auditeurs, on obtient la note d'appréciation moyenne de la
dégradation aussi appelée note DMOS (Degradation Mean Opinion Score). L’avantage de cette méthode
est qu’elle fournit une meilleure précision de la qualité, comparée à la méthode ACR.
Niveau de dégradation Note

Dégradation inaudible 5
Dégradation audible mais pas gênante 4
Dégradation un peu gênante 3
Dégradation gênante 2
Dégradation très gênante 1
Tableau. 1.4. Echelle de qualité utilisée lors du test DCR
1.4.2.2.3. Test CCR (Comparison Category Rating)

Le principe du test d'évaluation par catégorie de comparaison (CCR) est assez similaire à celui du test
DCR. La différence entre ces méthodes réside dans l'ordre de présentation des paires des échantillons
sonores. En effet, dans la procédure du test DCR, l’échantillon de référence est d’abord présenté, suivi de
l’échantillon dégradé, tandis que, dans celle du test CCR, ces échantillons sont présentés dans un ordre
aléatoire. De plus, dans le test CCR, les auditeurs évaluent la qualité vocale du second échantillon par
rapport à celle du premier à l’aide d’une échelle catégorielle à sept niveaux, allant de +3 (bien meilleure)
à -3 (beaucoup moins bonne), illustrée dans le Tableau 1.5. Les notes octroyées par les auditeurs pour une
condition donnée sont moyennées et l’on obtient la note moyenne d'opinion par comparaison ou note
CMOS (Comparison Mean Opinion Score). L’avantage de ce test par rapport au test DCR est qu'elle
permet d'évaluer la performance des systèmes vocaux aussi bien de bonne que de mauvaise qualité.
- 26 -
Qualité du 2nd échantillon par rapport à celle du 1er échantillon Note

Bien meilleure 3
Meilleure 2
Légèrement meilleure 1
A peu près équivalente 0
Un peu moins bonne -1
Moins bonne -2
Beaucoup moins bonne -3
Tab. 1.5. Echelle de qualité utilisée lors du test CCR
1.4.2.2.4. Test MUSHRA (MUlti Stimulus test with Hidden Reference and Anchor)
Le test MUSHRA est une méthode destinée à l’évaluation subjective des systèmes audio de qualité
moyenne. Il est défini dans la recommandation BS.1534 de l’UIT-R (ITU-R 2003). Ce test comporte deux
étapes. La première étape consiste à identifier l’échantillon de référence, caché parmi des séries
d’échantillons dégradés. Quant à la deuxième étape, elle consiste à demander aux auditeurs d’évaluer la
qualité vocale des échantillons dégradés par rapport au signal de référence identifié lors de la première
étape, sur une échelle continue représentée dans le Tableau 1.6. L’intérêt de cette méthode est qu’il est
possible de tester un maximum de 15 signaux sur une même interface avec au moins un signal de
référence caché.
Qualité de la parole Note

Excellente 80-100
Bonne 60-79
Passable 40-59
Médiocre 20-39
Mauvaise 0-19
Tableau 1.6. Echelle de qualité utilisée lors du test MUSHRA
1.4.2.3. Evaluation multidimensionnelle de la qualité vocale

Le principe de base des différents tests subjectifs détaillés précédemment consiste à évaluer la qualité
vocale perçue sur une échelle unique. Pour les tests décrits dans cette partie, on considère la qualité
vocale comme un phénomène multidimensionnel et on l’évalue par conséquent suivant plusieurs échelles.
1.4.2.3.1. DAM (Diagnostic Acceptability Measure)

Le DAM (Voiers 1977) est un test subjectif durant lequel il est demandé aux utilisateurs de noter la
détectabilité de variété de dégradations sur une échelle de 0 (fortement détectable) à 100 (indétectable).
L’hypothèse de base de cette méthode est que le jugement des participants porte plus sur la perceptibilité
ou la détectabilité d’une dégradation particulière plutôt que sur la qualité globale qui est sujette à divers
biais (e.g. état émotionnel).
Les participants évaluent les stimuli sur 20 échelles continues. Chaque échelle est dédiée à l'évaluation
d'une caractéristique spécifique de la qualité. Les 20 échelles sont divisées en trois catégories : (i) 10 sont
liées aux caractéristiques du signal vocal (e.g. interrompu, grinçant), (ii) 7 permettent de caractériser
l’impact du bruit de fond (e.g. sifflement, grésillement) et (iii) 3 couvrent à la fois les caractéristiques des
- 27 -
les signaux de parole et du bruit de fond (e.g. l'intelligibilité, l'acceptabilité). Cependant, un tel test est très
coûteux et consommateur de temps puisque les participants doivent être formés à l'avance.
1.4.2.3.2. P.MULTI
Le P.MULTI est un projet actuellement piloté par la commission d’étude 12 de l’UIT-T (ITU-T 2011d)
visant à développer une méthode d’évaluation subjective multidimensionnelle de la qualité vocale. Ce
projet est très proche de l’approche du DAM (i.e. détectabilité des dégradations). La différence réside
dans le fait que, dans le P.MULTI, les participants évaluent les stimuli sur 7 échelles continues – allant de
0 (non détectable) à 5 (fortement détectable) – dont 3 sont destinées aux caractéristiques de la parole, 2 au
bruit de fond, les 2 dernières à la fois à la parole et au bruit de fond.
1.4.2.3.3. Recommandation P.835 de l’UIT-T

Cette recommandation (ITU-T 2003b) décrit une procédure d'évaluation subjective des systèmes de
réduction du bruit de fond. Le but des algorithmes de réduction de bruit est de réduire le niveau du bruit
présent sur le signal de parole sans altérer les composantes du signal vocal. Cependant, ces algorithmes
peuvent introduire des dégradations dans le signal surtout sur les portions où le niveau de bruit est très
élevé. Dans ce contexte, il est difficile de savoir, lors d’un test subjectif, si la qualité globale reflète
l’impact de la distorsion dans le signal de parole ou du bruit résiduel ou des deux. C’est la raison pour
laquelle, dans la recommandation P.835, il est demandé au sujet d'écouter et d’octroyer trois notes de
qualité distinctives S-MOS (Speech only MOS), N-MOS (Noise only MOS) et G-MOS (Global MOS)
correspondant respectivement à la qualité vocale liée au signal de parole (i.e. sans tenir compte du bruit
de fond), au bruit de fond et au signal global (i.e. signal bruité) . Ce processus permet d’apprécier
l’impact de toutes les composantes.
1.4.3. Evaluation objective de la qualité vocale
Les méthodes d’évaluation subjective de la qualité vocale sont des méthodes fiables puisqu’elles
représentent le jugement humain de la qualité vocale. Cependant, force est de reconnaître qu’elles sont
très coûteuses en temps et en moyens financiers (il faut rétribuer les participants aux tests). C’est la raison
pour laquelle des méthodes d’évaluation dites « objectives », de la qualité vocale sont proposées comme
alternative aux méthodes subjectives. Les méthodes objectives les plus classiques regroupent les mesures
simples de traitement de signal telles que le Rapport Signal-à-Bruit (RSB) simple ou segmental, la
distance cepstrale, l’Erreur Quadratique Moyenne (EQM), etc. dont le but est de fournir des informations
sur le degré d’une distorsion donnée (e.g. le RSB permet d’estimer le niveau du bruit par rapport à celui
du signal de parole). Le lecteur pourra trouver plus de détails sur ces méthodes dans (Zango 2013),
(Loizou 2013). Cependant, les études réalisées par Quackenbush (Quackenbush and Barnwell 1985), Lam
(Lam et al. 1996) et Côté (Côté et al. 2008) ont montré que ces méthodes ne sont pas correctement
corrélées aux notes subjectives. D’autres méthodes plus complexes et plus élaborées, appelées
« modèles », utilisent des fonctions mathématiques afin de prédire, de manière automatique, les notes
issues des tests subjectifs, tout en assurant une forte corrélation entre les notes prédites et les notes
subjectives.
Cette partie est consacrée à la description des modèles objectifs. Notons que suivant (Guéguin et al.
2008), les modèles objectifs actuels peuvent être catégorisés suivant trois critères :
 la nature de l’information (extraite du réseau ou du signal) utilisée lors de la modélisation ;
- 28 -
 le type de mesure (avec ou sans référence) ;

 le contexte d'évaluation de la qualité vocale (écoute, locution ou conversation).
1.4.3.1. Modèles paramétriques

D’après (Guéguin 2006a), on distingue principalement deux types de modèles paramétriques : les
modèles de « bout en bout » i.e. des modèles analysant toute la chaîne de transmission et les modèles
mono-extrémité utilisant uniquement des informations disponibles en un point donné du réseau.
1.4.3.1.1. Modèle E
Le modèle E est un modèle non intrusif de planification et de prévision de la qualité vocale de la
transmission de bout en bout. Il a été développé par l’ETSI (ETSI 1996) comme un outil bout-en-bout
pour les concepteurs de réseaux et normalisé plus tard par l’UIT dans la recommandation G.107 (ITU-T
2003a). Le modèle E permet de mesurer les dégradations dues à l’écho, au délai de transmission et celles
liées aux systèmes de transmission modernes tels que les dégradations non linéaires liées aux codecs à bas
débit. Il permet ainsi de prédire la qualité vocale dans un contexte de conversation. La qualité de
transmission est exprimée à l’aide d’un scalaire appelé « facteur d’évaluation de transmission », noté R ,
dont l’expression est donnée par :
R  R0  I s  I d  I e,eff  A (1.3)
où R0 représente le Rapport Signal-à-Bruit (RSB) incluant les sources de bruit telles que le bruit de
circuit (i.e. le bruit provenant du réseau) ou le bruit d’environnement du locuteur et de l’auditeur. Le
paramètre I s est une combinaison de toutes les dégradations présentes sur le signal de parole. Le facteur
I d quantifie les dégradations causées par le délai et l’écho. Quant au paramètre I e,eff , il permet d’estimer
l’ensemble des dégradations dues aux codecs bas-débit et aux pertes de paquets. Enfin, le facteur
d'avantage A permet au modèle E de prendre en compte l'indulgence des utilisateurs vis-à-vis de la
qualité des systèmes de communication utilisés (système filaire, mobile, le terminal utilisé, l'emploi du kit
mains-libres ou le combiné). Dans le contexte de la téléphonie en bande étroite, les valeurs de paramètre
R varient entre 0 (qualité très mauvaise) et 100 (qualité excellente). Par ailleurs, le facteur R peut être
transformé en note MOS (échelle variant de 1 à 5) comme suit :
1 si R  0

MOSCQE  1  0,035R  R  R  60 100  R   7.10 6
si 0  R  100 , (1.4)
4,5 si R  100

où MOSCQE est l’estimation de la qualité vocale en situation de conversation. Une version simplifiée du
modèle E a récemment été proposée dans (Assem 2013). Cette version prend uniquement en compte les
dégradations causées par les codecs et l’état du réseau. Son expression est donnée par :
R  R0  I codec  I packetloss  I delay (1.5)
où les paramètres I codec , I packetloss et I delay permettent de quantifier respectivement les défauts introduits
par les codecs, les pertes de paquets et le délai de transmission.
Le modèle E était essentiellement destiné aux communications téléphoniques en bande étroite
jusqu’en 2011. Son extension aux transmissions en bande élargie est normalisée dans la recommandation
G.107.1 de l’UIT-T où la valeur maximale du facteur R est de 129 (ITU-T 2011b). Par ailleurs,
- 29 -
Wältermann et al. (Wältermann et al. 2010) ont proposé une version du modèle E dans un contexte
téléphonique en bande super-élargie, avec Rmax  179 .
1.4.3.1.2. Modèle CCI (Call Clarity Index ou indice de netteté des logatomes)
Le modèle CCI permet de prédire la qualité vocale en contexte de conversation et est défini dans la
recommandation P.562 de l’UIT-T (ITU-T 2004c). C’est un outil équivalent au modèle E mais applicable
en un point (mono-extrémité). La qualité vocale est prédite à partir des informations issues d’un dispositif
de mesure non intrusif appelé INMD (In-service Non-intrusive Measurement Devices), décrite dans la
norme P.561 de l’UIT-T (ITU-T 2002). Ce dispositif permet d’obtenir des informations relatives au
système de transmission (e.g. niveau sonore global de la parole, niveau de bruit, atténuation de l’écho,
etc.).
1.4.3.1.3. Recommandation P.564

La recommandation P.564 (ITU-T 2007b) définit un ensemble de critères minimaux de performance
que doivent atteindre les modèles objectifs en mono-extrémité dans un contexte d’écoute tels que
PsyVoIP (Rix and Gray 2001) et VQMon respectivement développés par Psytechnics et Telchemy. Ces
modèles sont principalement utilisés pour superviser en temps réel la qualité de transmission des réseaux
IP. Ils estiment la qualité vocale à partir des informations contenues dans les en-têtes des protocoles RTP
(Real-Time Protocol), UDP (User Datagram Protocol) et IP telles que le taux de pertes de paquets, le type
de codec utilisé, etc.
1.4.3.2. Modèles basés sur le signal de parole

L’intérêt des modèles paramétriques réside principalement dans leur rapidité d’exécution (i.e. qu’ils
utilisent très peu de ressources). Ils peuvent aussi être embarqués assez facilement dans des éléments de
réseau et des terminaux. Cependant, ils présentent des limites car toutes les informations de tout type de
transmission ne sont pas disponibles notamment celles du bruit présent sur le signal de parole (Leman
2011) d’où l’importance de disposer également de modèles basés sur le signal de parole. On distingue les
modèles basés sur le signal avec et sans référence dont les principes de fonctionnement général sont
illustrés dans la Figure 1.6.
Signal de référence Signal dégradé

Système à Mesure sans
évaluer référence
Prédiction de
la qualité
Mesure avec
référence
Figure 1.6. Principe de fonctionnement des modèles basés sur le signal
1.4.3.2.1. Modèles avec référence

Les modèles avec référence, présentés dans cette partie, concernent essentiellement les modèles dits
« perceptifs » fondés sur une modélisation du système auditif humain. Cette modélisation consiste à
transformer la représentation physique des signaux de référence et dégradé (signaux mesurés en décibels,
secondes ou Hertz) en une représentation psychophysique (ou représentation interne) de ces signaux
analogue à celle perçue par le système auditif humain. Ces modèles comparent un signal de référence
- 30 -
x  k  à un signal dégradé y  k  et produisent une note globale de la qualité, estimation de la note

qu’attribueraient au signal y  k  les participants à un test subjectif. De façon générale, la structure des
modèles perceptifs se compose essentiellement de trois grandes étapes (cf. Figure 1.7) :
 pré-traitement : cette étape comprend les alignements temporel et de niveau des signaux de
référence et dégradé ainsi que le filtrage de ces signaux afin de simuler la réponse en fréquence
d’un terminal récepteur. L’alignement temporel consiste à estimer le délai induit par le système
de transmission afin de synchroniser le signal dégradé sur le signal de référence. Quant à
l’alignement du niveau des signaux de référence et dégradé, il consiste à normaliser le niveau de
ces signaux par rapport à un niveau d’écoute étalonné (correspondant généralement à -26 dBoV).
Enfin, pour simuler la réponse en fréquence d'un terminal récepteur (e.g. un téléphone portable),
des filtrages sont appliqués aux signaux de référence et dégradé. La nature du filtre dépend de la
largeur de bande de fréquences des signaux. Par exemple, dans un contexte de communication en
bande étroite, le filtrage généralement utilisé est celui du Système de Référence Intermédiaire
(SRI) en réception définie dans la norme P.48 de l’UIT-T (ITU-T 1988b).
 modélisation psycho-acoustique : cette étape représente le cœur des modèles perceptifs. Une
fois la phase de pré-traitement effectuée, les signaux de référence et dégradé résultants sont
comparés en utilisant un modèle perceptif. Ce modèle perceptif transforme les deux signaux
(référence et dégradé) en une représentation interne. Cette représentation est analogue à la
représentation psychophysique des signaux audio dans un système auditif humain, compte tenu
de la fréquence perçue et de la sonie. Elle est opérée principalement en trois phases (cf. Figure
1.8) :
- correspondance temps-fréquence : les signaux de référence et dégradé sont divisés en
trames en les multipliant par une fenêtre de pondération w  k  . L’expression d’un signal
résultant est la suivante :
sw  k , l   s  k  l   M  M    w  k  , (1.6)
où M est le nombre total d'échantillons dans la trame l , sw  k ,l  est le signal fenêtré et
M correspond au taux de chevauchement des trames adjacentes. Le signal s  k 
correspond soit au signal de référence x  k  soit au signal dégradé y  k  . L’expression
de ces signaux dans le domaine fréquentiel est déterminée en utilisant une Transformée
de Fourier à Court-Terme (TFCT) comme suit :
M 1
S  l ,     sw  k , l   e jk , (1.7)
k 0
où S  l,  est la TFCT du signal s  k  et   k.2 M est la fréquence normalisée. Il

s'ensuit l'expression de la Densité Spectrale de Puissance (DSP) de s  k  :
Pss  l ,     S  l ,    S *  l ,   , (1.8)
où S *  l ,   est le conjugué de S  l,  .
- prédistorsion fréquentielle : cette étape consiste à transformer les signaux de référence et
dégradé de l’échelle des hertz à celle des barks (i.e. bande critique) dont la relation est
donnée par l’équation (1.2). La DSP résultant de cette transformation est appelée densité
de puissance fondamentale donnée par l’équation :
- 31 -
ks  z 
Pss  l , z     
Pss l , e jk , (1.9)
k  ki  z 
avec Pss  l,z  la DSP en Bark du signal s  k  dans la bande critique z . ki  z  et

ks  z  représentent les limites inférieure et supérieure de la bande critique z et sont
déterminées à partir de l'équation (1.2). La puissance moyenne du signal de la trame l est
donnée par l’expression suivante :
Nb
1
Px  l  
Nb
 P l,z  ,
z 1
ss (1.10)
où N b est le nombre total de bandes critiques.

- prédistorsion d’intensité : à ce niveau s’opère le passage de l’échelle des barks à l’échelle
des sones. Les densités de puissance résultantes sont alors appelées densités de sonie
comprimées. Ainsi, cette prédistorsion est obtenue en appliquant la loi de Zwicker
(Zwicker and Fastl 1999) aux densités de puissance fondamentale des signaux de
référence et dégradé comme suit :

 P  z   P  l,z   
Lss  l,z   Sl   0    0,5  0,5  ss  , (1.11)
 0,5   P0  z   
où Sl , P0  z  et  représentent respectivement le facteur d’échelonnement en sonie, le

seuil absolu d'audition et la puissance de Zwicker. La sonie à court-terme (ou Short-Term
Loudness) pour une trame l est obtenue en sommant la densité de sonie comprimée sur
l’ensemble des bandes critiques :
Nb
Ls  l    Lss  l,z  (1.12)
z 1
 estimation de la qualité vocale : à ce niveau s’effectue d’abord une comparaison de la

représentation interne des signaux de référence et dégradé. Le résultat de cette comparaison est
traduit en échelle MOS à l’aide d’une fonction de correspondance (i.e. modélisation cognitive),
similaire au processus cognitif employé par les participants d’un test subjectif pour juger la
qualité vocale. La note estimée s’écrit sous la forme (cela est valable pour tous les modèles
objectifs d’évaluation de la qualité vocale) :
MOS p  f  qi    , (1.13)
où MOS p est la note de qualité vocale prédite, f la fonction de correspondance, les qi des
éléments d’estimation de la qualité (dans le cas des modèles avec référence, il s’agit du signal
résultant de la comparaison de la représentation interne des signaux de référence et dégradé) et 
l'erreur de prédiction. La fonction f est inconnue mais peut être approchée en utilisant soit une
méthode d'apprentissage automatique (ou machine learning en anglais) soit une régression
polynomiale. La première approche regroupe les techniques telles que la méthode des k plus
proches voisins (ou k-nearest neighbors (k-NN)) (Côté 2010b), la programmation génétique (ou
genetic programming) (Banzhaf et al. 1997)] qui consiste à rechercher la meilleure
représentation de la variable expliquée (i.e. les notes subjectives) par les variables explicatives
(i.e. les éléments qi ) en utilisant toutes sortes d'outils (prise en compte des interactions, relations
logarithmiques, exponentielles ou encore polynomiales). Quant à la régression polynomiale, c'est
- 32 -
une analyse statistique qui décrit la variation d'une variable aléatoire expliquée en fonction d'une
variable aléatoire explicative. Autrement dit, elle permet d’expliquer la relation entre les notes
subjectives et les valeurs des éléments qi à l’aide d’un polynôme de degré p . Une forme simple
de régression polynomiale couramment utilisée est la régression linéaire ( p  1 ) qui est une
combinaison des différents éléments d’estimation de qualité qi . L’équation (1.13) s’écrit alors
sous la forme :
M
MOS p  a0   ai  qi , (1.14)
i 1
où les ai sont des coefficients de pondération et M est le nombre total d’éléments de qualité.
1.4.3.2.1.1. Modèle PSQM (Perceptual Speech-Quality Measure)

C’est un modèle perceptif proposé par Beerends et Stemnerdink (Beerends and Stemerdink 1994) et
normalisé par l’UIT-T sous le nom P.861 de l’UIT-T (ITU-T 1998b). Cette norme, aujourd’hui
supprimée, était destinée à l’estimation de la qualité des codecs de la parole utilisés dans la bande
téléphonique en bande étroite. Bien que présentant de bonne performance en termes de prédiction de la
qualité des codecs, le modèle PSQM s’avère inefficace pour l’évaluation de la qualité vocale des
systèmes introduisant des retards variables, comme la VoIP (Thorpe and Yang 1999).
Modélisation
Estimation de la
psycho-
qualité vocale
x(k) acoustique
Pré-traitement
Note
prédite
Représentation
Ajustement du
niveau sonore
Simulation de
Comparaison
la réponse en
Modélisation
Alignement
fréquence
Système à
temporel
cognitif
interne
tester
y(k)
Figure 1.7. Structure générale des modèles perceptifs
s(k)
Correspondance temps-fréquence Pss(l,k) Prédistorsion Pss(l,z) Prédistorsion Lss(l,z)
Fenêtrage TFCT |·| de fréquence en intensité
Figure 1.8. Etapes de la modélisation psycho-acoustique
1.4.3.2.1.2. Modèle PESQ (Perceptual Evaluation of Speech Quality)

Pour pallier les inconvénients du modèle PSQM, une compétition a été proposée par l’UIT-T afin de
normaliser un nouveau modèle objectif d’évaluation de la qualité, connu sous le nom de PESQ (ITU-T
2001).
PESQ, fruit de la mise en commun des avantages de deux modèles candidats PSQM+ (ITU-T 1997b)
pour son modèle psycho-acoustique et PAMS (Perceptual Analysis Measurement System) (Rix et al.
1999) pour son algorithme d’alignement temporel, fut normalisé en 2002 sous la recommandation P.862.
PESQ a été conçu pour l’évaluation de la qualité vocale dans les communications téléphoniques en
- 33 -
bande-étroite dans un contexte d’écoute. Il fournit une note de prédiction de la qualité vocale sur une
échelle allant de -0,5 (dégradation très gênante) à 4,5 (dégradation imperceptible). Plus tard, cette note
prédite a été transformée à l’aide d’une fonction de correspondance de sorte qu’elle varie de 1 à 5 (échelle
MOS des tests subjectifs classiques définis dans la norme P.800 de l’UIT-T (ITU-T 1996)). Cette
fonction de correspondance a été normalisée par l’UIT-T sous la recommandation P.862.1 (ITU-T 2003b).
L’extension de PESQ à la bande élargie est définie dans la recommandation P.862.2 de l’ITU-T (ITU-T
2007a).
1.4.3.2.1.3. Modèle POLQA (Perceptual Objective Listening Quality Assessment)
Si PESQ permet d’obtenir une bonne prédiction de la qualité vocale dans le contexte de
communications téléphoniques classiques en bande étroite, il présente plusieurs limitations. En fait, avec
l’émergence de plus en plus importante des nouvelles technologies, en particulier la convergence des
services de la voix, des données et du multimédia, on assiste à l’apparition de nouveaux types de
dégradation tels que le time warping (délai variant dans le temps), des distorsions non linéaires produites
par les terminaux, etc. Ces nouvelles distorsions ont rendu le modèle PESQ obsolète. Par ailleurs, l’étude
effectuée par Côté et al. (Côté et al. 2006) a montré que son extension à la téléphonie en bande élargie
(ITU-T 2007a) ne tenait pas compte des bruits de quantification engendrés par certains codecs. Enfin,
PESQ ne permet pas d’obtenir d’informations précises sur la nature des dégradations présentes dans le
signal de parole (ITU-T 2004b). Il a ainsi été proposé dans (ITU-T 2007d) de développer un nouveau
modèle adapté aux nouveaux contextes de téléphonie et d’y intégrer la modélisation des familles de
défauts perçus appelées dimensions perceptives (cf. § 1.5), qui sont des éléments essentiels de notre étude.
C’est dans cette optique que l’ITU-T a initié un projet en 2007 dans le but de normaliser un nouveau
modèle objectif d’évaluation de la qualité vocale perçue, connu sous le nom de POLQA afin de pallier les
défauts du modèle PESQ.
POLQA est le fruit d’une collaboration entre trois compagnies (Opticom, Swissqual et TNO) et a été
normalisé par l’UIT-T en 2011 dans la recommandation P.863 (ITU-T 2011a). Contrairement à PESQ,
POLQA prend en compte en plus des signaux en bande étroite et en bande élargie, ceux en bande super-
élargie (50-14000 Hz). Il peut être utilisé pour l’évaluation de la qualité de transmission de la parole dans
les réseaux 3G, 4G/LTE et la VoIP, et des systèmes de traitement de la parole tels que les systèmes de
réductions de bruit etc.
POLQA prend uniquement en compte les dégradations liées au contexte d’écoute comme le bruit
ambiant au niveau du locuteur, les pertes de paquets… Les dégradations perçues lors d’une situation
conversationnelle telles que l’écho ou l’effet local ne sont pas prises en compte par ce modèle. Cependant,
contrairement aux modèles objectifs du contexte d’écoute, POLQA intègre un module estimant l’impact
de la réverbération sur la qualité qui est un phénomène plutôt lié au contexte de locution ou de
conversation. Par ailleurs, les signaux de référence et dégradé en entrée de ce modèle peuvent être de
nature électrique ou acoustique (i.e. les signaux sont capturés via une interface acoustique). Il fonctionne
en deux modes opératoires dont l’un est dédié exclusivement aux signaux audio en bande étroite (mode
NB) et l’autre permet une application aux signaux audio jusqu'en bande super-élargie (mode SWB) et
couvre les trois bandes audio (bande étroite, bande élargie et bande super-élargie). Il utilise
principalement le concept des modèles PSQM, PESQ ( (Rix et al. 2002) et (Beerends et al. 2002)) et des
approches proposées dans (Beerends et al. 2007). POLQA fournit une note globale de prédiction de la
qualité allant de 1 à 4,5 pour le mode NB et de 1 à 4,75 pour le mode SWB. Une description de ce modèle
sera détaillée dans le chapitre 2.
- 34 -
La Figure 1.9 récapitule l’ensemble des modèles objectifs basés sur le signal de parole avec référence
et normalisés par l’UIT-T.
Figure 1.9. Evolution des modèles objectifs de la qualité vocale normalisés par l’UIT-T
1.4.3.2.1.4. Modèle DIAL (Diagnostic Instrumental Assessment of Listening quality)
Le modèle DIAL (Diagnostic Instrumental Assessment of Listening quality) (Côté 2010b) a été
développé conjointement par Orange Labs et Deutsche Telecom. Il fut l’un des candidats à la compétition
du projet de normalisation de la norme POLQA. Tout comme le modèle POLQA, DIAL est un modèle
objectif avec référence destiné à la prédiction de la qualité vocale dans un contexte d’écoute (et ne
prenant pas en compte l’effet de réverbération). Il fonctionne aussi suivant les deux modes opératoires
NB et SWB couvrant ainsi les trois bandes audio. Sa particularité réside dans le fait qu’il est
explicitement basé sur la modélisation de quatre dimensions perceptives (Bruyance, Continuité,
Coloration et Sonie), décrites dans la section 1.5 et qui sont supposées couvrir l’ensemble des
dégradations présentes lors des communications téléphoniques. De plus, Il fournit non seulement une note
de prédiction de la qualité vocale globale MOS-LQO mais aussi une note pour chacune des 4 dimensions
perceptives. Il permet ainsi de prédire la qualité vocale et de diagnostiquer les dégradations perçues sur la
qualité vocale. Tout comme POLQA, ce modèle sera détaillé dans le chapitre 2.
1.4.3.2.1.5. Modèle TOSQA (Telecommunications Objective Speech Quality Assessment)

Le modèle TOSQA (ITU-T 1997a) fut l’un des candidats à la compétition de la normalisation du
modèle PESQ. Contrairement aux modèles décrits précédemment qui prédisent la qualité vocale à partir
de la différence entre les représentations internes des signaux de référence et dégradé, le modèle TOSQA
utilise une corrélation entre ces signaux pour estimer la qualité vocale. TOSQA fournit, en plus d’une
note prédite de la qualité vocale appelée TMOS (TOSQA-MOS), un facteur de dégradation noté Ie
correspondant à la dégradation relative au codage de la parole, aux pertes de paquets etc. et des
informations concernant le délai introduit par les systèmes de transmission. Une version améliorée de ce
modèle appelée TOSQA2001 a été proposée dans (ITU-T 2000). Ce modèle permet d’évaluer la qualité
- 35 -
vocale dans les communications téléphoniques en bande élargie. Il prend en compte les dégradations liées
à l’interface électro-acoustique des terminaux telles que celles dues aux transducteurs, etc.
1.4.3.2.1.6. Modèle PESQM (Perceptual Echo and Sidetone Quality Measure)
Le modèle PESQM (Appel and Beerends 2002) est l’équivalent du modèle PESQ dans le contexte de
locution. Le signal de référence est obtenu à partir du signal prononcé par le locuteur et capté par le
microphone du terminal. Quant au signal de référence, il correspond au signal du même locuteur diffusé
dans le haut-parleur du terminal. PESQM prend en compte les dégradations engendrées par le terminal
telles que l'écho et l’effet local.
1.4.2.3.1.7. Modèle objectif conversationnel
Un modèle objectif avec référence a été proposé dans (Guéguin et al. 2006c) pour évaluer la qualité
vocale dans un contexte conversationnel. Ce modèle combine à la fois les modèles perceptifs PESQ,
utilisé en contexte d’écoute, et PESQM utilisé en contexte de locution, comme montré Figure l.10. Il
fournit une note de prédiction de la qualité vocale estimée à partir de la combinaison linéaire des notes
prédites issues des modèles PESQ et PESQM et un indicateur estimant le délai de transmission. Notons
que ce modèle a fait l’objet d’une contribution au projet P.CQO (Project – Conversational Quality
Objective) (ITU-T 2013a) piloté par la commission 12 de l’UIT-T et visant à développer un modèle
objectif d’évaluation de la qualité vocale dans un contexte de conversation.
xpesq(k) ypesq(k) xpesqm(k) ypesqm(k)

Mesure
Mesure du
délai
Modèle Modèle
PESQ PESQM
Intégration Impact du délai

MOSLQO estimé lors des tests MOSSQO
subjectifs
Combinaison
linéaire
MOSCQO
Figure 1.10. Principe de fonctionnement du modèle de conversation proposé dans (Guéguin et al. 2008)
1.4.3.2.2. Modèles sans référence

L’avantage des modèles avec référence présentés dans le paragraphe précédent réside dans leur
performance à estimer de manière fiable la qualité vocale telle que perçue par les utilisateurs. Cependant,
ils nécessitent un signal de référence et ne peuvent donc pas être utilisés pour évaluer la qualité vocale
dans des communications en temps réel sans les perturber. C’est la raison pour laquelle d’autres modèles,
ne nécessitant pas de référence, ont été proposés.
- 36 -
1.4.3.2.2.1. Modèle P.563

Il est l’équivalent sans référence de PESQ et décrit dans la recommandation P.563 l’UIT-T (ITU-T
2004a). Ce modèle a initialement été proposé par Malfait (Malfait et al. 2006) à partir de la combinaison
des modèles non intrusifs NiQA (Non-intrusive Network Assessment) (Rix and Gray 2001)] et NINA
(Non-Intrusive Network Assessment) (Juric 2001). Il reconstruit artificiellement le signal original à partir
du signal dégradé en utilisant les coefficients LPC (Linear Predicting Coding). Ce signal reconstruit est
ensuite comparé au signal dégradé afin d’extraire des paramètres nécessaires à l’estimation de la qualité
vocale.
Le modèle P.563 est destiné aux communications téléphoniques en bande étroite en tenant compte des
dégradations telles que celles produites par les algorithmes d’annulation d'écho ou de réduction de bruit,
les pertes de paquets, le transcodage etc.
1.4.3.2.2.2. Modèle DESQHI (Diagnostic and Speech Quality using Hybrid Indicators)
DESQHI (Leman 2011) est un modèle sans référence de diagnostic et d’évaluation objective de la
qualité vocale appliqué à la téléphonie en bande étroite. La particularité de ce modèle est qu’il utilise à la
fois des informations issues du réseau (modèle paramétrique) et une analyse basée sur le signal dégradé.
C'est donc un modèle hybride. Comparé aux autres modèles sans référence basés sur le signal (e.g. P.563
(ITU-T 2004a)) et paramétriques (e.g. le modèle E (ITU-T 2003a)), ce modèle hybride permet d’obtenir
des informations plus précises des défauts impactant la qualité vocale. Tout comme DIAL, DESQHI,
explicitement basé sur la modélisation de trois dimensions perceptives (Bruyance, Continuité et
Coloration) sera détaillé dans le chapitre 2.
1.4.3.2.2.3. Autres modèles sans référence
Un modèle sans référence et non intrusif appelé ANIQUE (Auditory Non intrusive QUality Estimation)
a été proposé par Kim (Kim 2005). Ce modèle utilise une modélisation du fonctionnement du système
auditif humain à partir du signal dégradé afin d’en extraire l’enveloppe temporelle, essentielle à
l’estimation de la qualité vocale.
Falk et al. (Falk et al. 2005) ont proposé un modèle sans référence et non intrusif basé sur une
approche de mélange gaussien notée GMM (Gaussian Mixture Model) (McLachlan and Peel 2000). Cette
méthode est utilisée afin de reconstruire le signal de référence à partir du seul signal dégradé. A partir de
la comparaison de ces signaux, 51 indicateurs sont extraits et combinés afin d’estimer la qualité vocale.
Un autre modèle sans référence et non intrusif nommé LCQA (Low Complexity Quality Assesment) a
été proposé dans (Grancharov et al. 2006). Contrairement au modèle de Falk, le modèle LCQA ne
reconstruit pas le signal de référence et les dégradations ne sont pas explicitement modélisées. Il exploite
les informations sur certaines caractéristiques du signal dégradé disponibles dans les codecs présents dans
le réseau. A partir de ces informations, 11 indicateurs sont déduits et combinés grâce au modèle GMM
afin de fournir une note de prédiction de la qualité vocale.
Par ailleurs, un projet dénommé P.SELQ (Project – Single-Ended Perceptual Estimation of Listening
Quality) (ITU-T 2013b) est actuellement en cours d’étude par le groupe 12 de l’UIT-T dont le but est de
développer un modèle sans référence et non intrusif dans un contexte d’écoute. Ce modèle sera destiné à
l’évaluation de la qualité vocale des communications en temps réel.
1.5. Espace perceptif de la qualité vocale
Nous avons vu dans la section 1.4.2 que la qualité vocale est un phénomène multidimensionnel.
Plusieurs études ont été menées afin de caractériser l’espace perceptif de la qualité vocale (cf. Tableau
- 37 -
1.8). Le problème majeur dans ces différentes études est de représenter cet espace perceptif avec le
minimum d’attributs perceptifs de la qualité vocale. Une dimension de cet espace perceptif regroupe
l’ensemble des dégradations ayant les mêmes attributs perceptifs.
Dans cette section, nous abordons les différentes étapes de détermination de l’espace perceptif de la
qualité vocale avant d’exposer les principales études réalisées pour l’identification des dimensions
perceptives constituant cet espace.
1.5.1. Procédure d’identification des dimensions perceptives
En fonction des méthodes d’analyses multidimensionnelles utilisées, on peut distinguer, de façon

générale, trois étapes pour la détermination de l’espace perceptif de la qualité vocale : (i) la réalisation de
tests subjectifs, (ii) l’extraction des dimensions perceptives et (iii) le test de verbalisation.
1.5.1.1. Réalisation de tests subjectifs

Les tests subjectifs généralement utilisés pour la détermination de l’espace perceptif regroupent des
tests déjà détaillés dans la section 1.4.2 tels que le DAM (Sen 2001; Sen and Lu 2012)ou l’ACR, mais
aussi des tests de dissimilarité et des tests par différentielle sémantique (ou Semantic Differential, noté
SD), ces deux types de tests étant exclusivement utilisés dans l’identification de dimensions perceptives.
1.5.1.1.1. Tests de dissimilarité

C’est un ensemble de tests subjectifs ayant pour but d’évaluer la dissimilarité entre les échantillons
sonores. On distingue trois types de test de dissimilarité. Le premier test de dissimilarité, nommé test de
comparaison par paire, consiste à demander aux participants de comparer les échantillons par paire en
utilisant une échelle continue allant d’ « identiques » à « très différents ». Quant au second test, dit test de
comparaison par triade, il consiste à présenter successivement trois échantillons vocaux et à demander
aux participants de déterminer la paire d’échantillons la plus similaire ainsi que la paire d’échantillons la
plus différente. Ce jugement est effectué à l’aide d’une échelle à trois niveaux – 0, 1 et 2 – et
correspondant respectivement à la paire la plus similaire, la paire intermédiaire et la paire la plus
différente. Dans le troisième type de test, appelé test de classification libre, il est demandé aux
participants de regrouper les stimuli suivant leurs ressemblances perceptives. Des stimuli jugés similaires
sont regroupés dans un même groupe, et des stimuli jugés différents se trouvent dans des groupes
différents. La dissimilarité est obtenue en accordant la valeur 0 à deux stimuli apparaissant dans un même
groupe, et 1 à deux stimuli placés dans des groupes différents.
Les tests de dissimilarité sont utilisés lorsque l’on ne dispose d’aucune connaissance a priori des
attributs perceptifs représentatifs de l’espace perceptif de la qualité vocale.
1.5.1.1.2. Test par Différentielle Sémantique (SD)

Il s’agit d’une approche proposée par Osgood et al. (Osgood et al. 1957) afin de déterminer les
différences de sémantique associées à un mot par différents participants. Lors de ce test, une liste
d’attributs répartis par paire d’adjectifs antonymes (e.g. continu/discontinu, intelligible/inintelligible, etc.)
est proposée. Il est demandé aux participants de juger l’intensité et la polarité des dégradations qu’ils
perçoivent à l’aide de la liste d’attributs déjà préétablie. La difficulté de ce test réside dans le fait que
cette liste d’attributs doit être claire et concise afin d’orienter plus facilement les participants.
- 38 -
1.5.1.2. Extraction des dimensions perceptives

Les résultats issus des tests subjectifs sont présentés sous forme d’une matrice appelée matrice de
dissimilarité. Ils sont analysés suivant des méthodes d’analyses multidimensionnelles afin d’extraire les
dimensions perceptives. Les méthodes les plus couramment utilisées sont l’Echelonnement
MultiDimensionnel (EMD) ou Multidimensional Scaling, noté MDS, et l’Analyse en Composantes
Principales (ACP) (ou Principal Component Analysis, noté PCA).
1.5.1.1.1. Méthode d’Echelonnement MultiDimensionnel (EMD)

L’EMD est un ensemble d’outils d’analyse statistique de similarité ou de dissimilarité des données.
Elle consiste à représenter les dissimilarités par des distances qui, le plus souvent, sont des distances
euclidiennes pouvant être représentées dans un espace perceptif constitué d'un nombre minimal de
dimensions.
1.5.1.1.2. Analyse en Composantes Principales (ACP)

Elle fait partie des familles de méthodes descriptives multidimensionnelles permettant de synthétiser
des données statistiques complexes. Elle consiste à projeter les données dans un espace de dimension
réduite afin de mettre en évidence d’éventuelles structures (i.e. attributs perceptifs) les plus pertinentes au
sein des données. Les attributs les plus pertinents sont présentés en fonction de leur importance. L’ACP
est généralement utilisée pour l’analyse de résultats issus de tests par différentielle sémantique.
1.5.1.2. Test de verbalisation

Une fois que l’ensemble des dimensions est déterminé, la prochaine étape consiste à octroyer un
attribut perceptif à chaque dimension. Cette procédure d’identification est connue sous le nom de test de
verbalisation, où l’on peut distinguer deux catégories. Le test de verbalisation dit « libre » consiste à
demander aux participants de décrire les défauts qu’ils perçoivent sur la qualité vocale en utilisant leur
propre vocabulaire. Ces attributs sont ensuite regroupés suivant leur ressemblance, les plus pertinents et
les plus utilisés étant retenus pour la description de la dimension. Dans le cas du test de verbalisation dit
« forcé », il est demandé aux participants de caractériser les stimuli à l’aide d’une liste d’attributs
prédéfinie, très similaire au test par différentielle sémantique.
1.5.2. Dimensions perceptives de la qualité vocale
Le Tableau 1.8 synthétise l’ensemble des attributs perceptifs associés aux dégradations perçues lors de
communications téléphoniques. Ces attributs ont été identifiés à l’issue d’études portant sur la
détermination des dimensions représentatives de l’espace perceptif de la qualité vocale.
De façon générale, les différents attributs perceptifs de la qualité vocale peuvent être regroupés en
quatre grandes dimensions perceptives :
 Bruyance : identifiée par Gabrielsson (Gabrielsson and Sjögren 1979), Hall (Hall 2001), Mattila
(Mattila 2002a; 2002b), Wältermann et al. (Wältermann et al. 2006a; 2006b), Etame et al. (Etame
et al. 2010) et Zango (Zango 2013), cette dimension correspond à l’ensemble des bruits de fond
perçus sur le signal de parole. Ces bruits de fond peuvent soit provenir de l’environnement dans
lequel la communication téléphonique a lieu (e.g. bruit de car, de restaurant, etc.), soit être causés
par le réseau (bruit électrique), soit être engendrées par les codecs bas-débit (bruit de
- 39 -
quantification). Les études réalisées dans (Etame et al. 2010) ont montré que le bruit de fond
introduit par certains codecs est perceptible pendant les périodes d’activité vocale d’où l’attribut
bruit sur parole ;
 Continuité : cette dimension caractérise l'ensemble des discontinuités perçues dans le signal de
parole qui peuvent être causées par des pertes de paquets ou de trames, des techniques de PLC,
des erreurs de bits lors de la transmission radio ou par des processus de traitement de signal tels
que le DAV, la réduction de bruit ou l’annulation d’écho. Elle est identifiée par Wältermann et al.
(Wältermann et al. 2006a; 2006b) et Leman (Leman 2011). Cette dimension prend en compte les
coupures (Petersen et al. 1997), (Sen 2001; Sen and Lu 2012), (Mattila 2002a; 2002b), (Bernex
and Barriac 2002) qui traduisent la perception de la perte d’une ou de plusieurs trames ;
 Coloration : aussi appelée Directness/Frequency Content (Wältermann et al. 2006b), cette
dimension regroupe les dégradations liées à la réponse en fréquence de l’ensemble du système de
transmission. Autrement dit, elle est liée aux distorsions impactant l’aspect fréquentiel du signal
de parole (McDermott 1969), (Zango 2013) – par opposition à la dimension précédente qui traite
les distorsions dans le domaine temporel – et donc le naturel de la voix. McGee (McGee 1965),
Hall (Hall 2001) et Mattila (Mattila 2002a; 2002b) affectent à cette dimension l’attribut naturel
de la voix. Cet attribut est corrélé à l’attribut voix métallique/voix de robot identifié dans (Bernex
and Barriac 2002) afin de différencier la voix naturelle d’un individu et la voix synthétique issue
d’un système de traitement de signal tel que le codage. La dimension Coloration induit la notion
de brillance (Mattila 2002a) et reflète l’équilibre des niveaux fréquentiels du signal de parole.
Celle-ci est ainsi liée aux contenus des hautes ou basses fréquences d’où les attributs haute
fréquence (Gabrielsson and Sjögren 1979), (Petersen et al. 1997), (Mattila 2002b), Wältermann
et al. (Wältermann et al. 2006a) et (Sen and Lu 2012) et basse fréquence (Gabrielsson and
Sjögren 1979), (Petersen et al. 1997), Hall (Hall 2001), (Etame 2008) et (Sen and Lu 2012). La
brillance peut être impactée par les codecs bas-débit mais aussi par les systèmes d’amélioration
de la qualité vocale tels que les réducteurs de bruit, les annuleurs d’écho, etc. Par ailleurs, cette
dimension prend aussi en compte la clarté (McGee 1965), (McDermott 1969), (Gabrielsson and
Sjögren 1979), (Bappert and Blauert 1994) et (Zango 2013) de la voix définie par la facilité à
comprendre le contenu informationnel de la parole. Cet aspect de la parole englobe les
dégradations telles que la réverbération, l’écho (Zango 2013), la limitation de bande de
fréquences etc. La clarté de la voix est à rapprocher de l’intelligibilité qui correspond aux
processus auditif et cognitif d’un individu à identifier la signification d’un mot ou d’un groupe de
mots. D’autre part, les attributs sifflements et bulleux sont identifiés dans (Petersen et al. 1997),
(Sen 2001), (Mattila 2002a), (Bernex and Barriac 2002) et (Etame 2008) pour désigner les
sifflements perçus dus aux algorithmes de codage, aux PLC etc. Dans (Etame 2008) le sifflement
correspond à la présence d’une harmonique dans les hautes fréquences tandis que, pour Mattila
(Mattila 2002a), l’aspect bulleux correspond à une présence d’écho de faible intensité sur le
signal de parole.
 Sonie : cette dimension, uniquement identifiée par McDermott (McDermott 1969), est relative à
une atténuation ou une amplification du niveau sonore global du signal de parole. Elle peut être
causée par des systèmes de traitement de signal tels que les transducteurs des terminaux
(microphone ou écouteur), etc.
Les études réalisées dans (Wältermann et al. 2006b) ont montré que les trois dimensions Bruyance,
Continuité et Coloration sont orthogonales, i.e. indépendantes les unes des autres, et couvrent un
nombre important de dégradations rencontrées lors des communications téléphoniques. Elles représentent
- 40 -
les dimensions les plus pertinentes de l’espace de la qualité vocale (cf. Tableau 1.8). Toutefois, les études
menées par McDermott (McDermott 1969) et Côté et al. (Côté et al. 2007) ont montré que la dimension
Sonie joue un rôle important sur la qualité vocale. En effet, lors d’une communication téléphonique, le
niveau sonore de la parole peut influencer la qualité vocale suivant qu’il est trop faible ou trop fort. Nous
pouvons donc considérer que ces quatre dimensions couvrent l’espace perceptif de la qualité vocale.
Dimensions
voix métallique/ voix

Echo/Réverbération
Sifflement, bulleux
Bruit sur la parole
Haute fréquence
Basse fréquence
Brillance
de robot
Coupure
Naturel de la
voix
Coloration
Continuité
Conditions
Distorsion
Bruyance
Clarté
Sonie
Auteurs
McGee
Filtre X X
(1965)
McDermott
RTC X X X
(1969)
Gabrielsson Haut-
X X X X
(1979) parleur
Bappert
Codecs NB X X
(1994)
Petersen
Codecs NB X X X X
(1997)
Hall
Codecs NB X X X
(2001)
Sen (2001) Codecs NB X X
Mattila
GSM X X X X X
(2002a)
Mattila GSM
X X X X
(2002b) &Bruit
Bernex
VoIP (pp) X X X
(2002)
Wältermann RTC &VoIP
X X X
(2006a) (NB)
Wältermann RTC/VoIP
X X X
(2006b) (WB)
Etame
Codecs WB X X X X X
(2007)
Leman VoIP, RTC,
RNIS, GSM X X X
(2011)
Sen (2012) Codecs NB X X X
Zango
Codecs WB X X X X
(2013)
Tableau 1.8. Synthèse des études portant sur la détermination des dimensions de l’espace perceptif de la qualité vocale
- 41 -
1.6. Conclusion
Dans ce chapitre, nous avons présenté les différents aspects de la transmission du signal de parole dans
un système de communication, depuis sa production jusqu’à sa perception. Nous avons vu que la qualité
vocale joue un rôle très important dans cette chaîne et demeure un enjeu économique incontournable pour
les opérateurs de télécommunications. Elle peut être impactée par les dégradations présentes dans
l’environnement telles que le bruit de fond mais aussi par les distorsions introduites par le système de
transmission telles que les coupures. Des mesures subjectives ou objectives sont utilisées afin d’évaluer
l’impact de ces dégradations sur la qualité vocale. Par ailleurs, la qualité vocale étant un phénomène
multidimensionnel, des études ont été réalisées afin d’identifier les dimensions caractérisant l’espace
perceptif de la qualité vocale. De ces études, il ressort que cet espace est composé de quatre dimensions
perceptives dont les trois premières sont orthogonales : la Bruyance relative au bruit de fond, la
Continuité adressant l’ensemble des discontinuités perçues, la Coloration regroupant les distorsions
impactant le naturel de la voix et la Sonie relative au niveau sonore global du signal de parole. Ces
dimensions couvrent ainsi l’ensemble des défauts perçus dans les communications téléphoniques et
constituent le cœur de notre étude. Chacune de ces dimensions est caractérisée par au moins un estimateur
de dégradation appelé indicateur de qualité. Une étude portant sur la performance des indicateurs de
qualité relative aux quatre dimensions perceptives sera présentée dans le chapitre suivant.
- 42 -
Chapitre 2 Indicateurs de qualité et performances
Chapitre 2
Indicateurs de qualité et performances
L’objet de notre étude consiste à développer un outil de diagnostic des dégradations de la qualité
vocale perçues dans les communications téléphoniques en bandes audio étroite, élargie et super-élargie,
fondé sur une analyse du signal. Autrement dit, il s’agit de développer un outil permettant d’orienter vers
les causes des dégradations perçues et de quantifier leur impact sur la qualité vocale. Dans le chapitre
précédent, nous avons vu que l’espace perceptif de la qualité vocale est constitué de quatre dimensions, à
savoir la Bruyance, la Continuité, la Coloration et la Sonie, chacune quantifiée par au moins un indicateur
de qualité. L’outil de diagnostic que nous allons développer sera fondé sur la modélisation de ces quatre
dimensions. D’autre part, il sera utilisé dans un contexte d’écoute (cf. chapitre 1, § 1.4.1.1), ce qui signifie
que les dégradations liées à des contextes conversationnels telles que l’écho, l’effet local, la réverbération
acoustique, ne seront pas prises en compte par cet outil. Dans un premier temps, l’outil à développer sera
principalement focalisé sur l’analyse des signaux audio en bande super-élargie. Il existe actuellement très
peu d’études portant sur le diagnostic des contenus audio dans cette bande. Pourtant, avec les innovations
technologiques dans le domaine des télécommunications, on assiste de plus en plus à l’extension de la
bande passante des systèmes téléphoniques classiques (i.e. bande étroite) aux contenus fréquentiels au-
delà de 7 kHz (i.e. bande super-élargie), améliorant ainsi l’intelligibilité de la parole. Toutefois, les
dégradations présentes dans les hautes fréquences deviennent audibles dans les communications
téléphoniques en bande super-élargie alors qu’elles sont atténuées dans le contexte en bande étroite, d’où
l’intérêt de concevoir un outil de diagnostic de dégradations perçus dans les communications
téléphoniques en bande super-élargie.
Concernant la modélisation des quatre dimensions perceptives, notre première démarche a consisté à
rechercher des indicateurs de qualité fiables et robustes vis-à-vis de ces dimensions, permettant ainsi
d’obtenir des informations spécifiques sur les dégradations présentes dans le signal de parole. Pour ce
faire, nous avons trouvé plus judicieux de nous intéresser, en premier lieu, aux indicateurs de qualité déjà
développés et plus particulièrement ceux présents dans des modèles objectifs d’évaluation de la qualité
vocale fondés sur une analyse du signal. Nous avons envisagé de développer de nouveaux indicateurs dès
lors que les indicateurs que nous avons identifiés dans les modèles ne sont pas fiables. Ceci étant, au
cours de notre étude, l’UIT-T venait de terminer le projet visant à normaliser le modèle POLQA (ITU-T
2011a) afin de pallier les défauts du modèle PESQ (ITU-T 2001) (cf. chapitre 1, § 1.4.3.2.1.3). Dans le
cadre de ce projet, Wältermann et al. (ITU-T 2007d) ont proposé d’introduire la modélisation des
dimensions perceptives dans le nouveau modèle. Comme nous l’avons vu dans le chapitre précédent, le
modèle DIAL (Côté 2010b), l’un des six modèles proposés comme candidat pour cette compétition, est
explicitement fondé sur les quatre dimensions énumérées plus haut. Quant au modèle POLQA, la
présence d’indicateurs de qualité qu’il intègre sous-entend une caractérisation implicite des quatre
dimensions perceptives, comme nous le verrons dans la section 2.2.
Aussi, dans notre étude, nous sommes nous particulièrement intéressés aux modèles DIAL et POLQA
pour trois raisons principales : (1) ils sont représentatifs des premiers modèles objectifs capables de
- 43 -
caractériser les défauts perçus dans les communications en bande super-élargie, (2) leurs codes nous sont
accessibles, (3) ils intègrent explicitement ou implicitement les quatre dimensions sur lesquelles notre
outil sera fondé. Par ailleurs, nous avons envisagé de considérer deux autres modèles fondés sur les trois
premières dimensions et destinés uniquement aux signaux en bande étroite respectivement proposés par
Leman (Leman 2011)] et Wältermann et al. (Wältermann et al. 2008). Le premier modèle, appelé
DESQHI (Diagnostic and Speech Quality using Hybrid Indicators), est hybride, i.e. il combine à la fois
des indicateurs paramétriques (issus des statistiques du réseau) et des indicateurs fondés sur une analyse
du signal. Sa particularité est qu’il fournit des informations sur les origines des dégradations perçues.
Nous avons aussi analysé ce modèle en raison de cette particularité. Quant au modèle proposé dans
(Wältermann et al. 2008)], la quasi-totalité des indicateurs de qualité qu’il intègre sont identifiables dans
le modèle DIAL et il ne fera donc pas l’objet de développement dans cette étude.
Il est essentiel de mentionner que notre objectif n’est pas d’évaluer les performances des modèles
définis ci-dessus du point de vue de la prédiction de la qualité mais vise plutôt à y rechercher des
indicateurs fiables et robustes pour un diagnostic avancé des dégradations perçues dans les
communications téléphoniques.
Dans ce chapitre, nous allons d’abord décrire le principe de fonctionnement des trois modèles étudiés
(POLQA, DIAL et DESQHI) suivi de l’identification des indicateurs de qualité intégrés dans ces modèles
et de l’évaluation de leurs performances.
2.1. Etude de modèles récents
Les modèles POLQA, DIAL et DESQHI ont déjà été introduits dans le chapitre précédent. Cette partie
est consacrée à la description du mécanisme de fonctionnement de ces modèles. La structure générale des
modèles avec référence, auxquels appartiennent les modèles POLQA et DIAL, a été décrite dans le
chapitre 1, §1.4.3.2.1. Dans cette partie, il s’agit de présenter les spécificités de chaque modèle.
2.1.1. Présentation du modèle POLQA
Nous avons vu dans le chapitre 1, §1.4.3.2.1.3, que le modèle POLQA (ITU-T 2011a) fonctionne en
deux modes opératoires dont l’un (mode NB) est consacré exclusivement aux signaux audio en bande
étroite et l’autre (mode SWB) couvrant les trois bandes audio (bande étroite, bande élargie et bande
super-élargie). De plus, il fournit une note globale de prédiction de la qualité. La Figure 2.1 décrit le
mécanisme du modèle POLQA. Sa présentation originale telle que donnée dans la norme P.863 (ITU-T
2011a) a été modifiée afin de mettre en exergue les indicateurs de qualité dont certains sont explicitement
décrits dans la recommandation et d’autres que nous avons identifiés suite à l’analyse du modèle (cf.
Figure 2.1). Son fonctionnement comprend les étapes suivantes :
 pré-traitement : dans un premier temps, le délai induit par le système de transmission est estimé
afin de synchroniser temporellement le signal dégradé sur le signal de référence. Dans POLQA,
l’algorithme de cet alignement temporel est fondé sur une technique de ré-échantillonnage. Tout
d’abord, les signaux de référence et dégradé sont divisés en trames de taille identique. Le délai
par trame entre les signaux de référence et dégradé est calculé suivi d’une estimation de la
fréquence d’échantillonnage de ces signaux. Si les fréquences d’échantillonnage estimées sont
différentes d’au moins 1%, le signal ayant la fréquence d’échantillonnage la plus élevée est sous-
échantillonné et le délai est à nouveau estimé. Le processus est répété jusqu’à ce que l’ensemble
- 44 -
des délais soit correctement calculé. Dans un second temps, les niveaux sonores des signaux de
référence et dégradé résultant de l’alignement temporel sont égalisés à un niveau d’écoute
étalonné correspondant à -26 dBoV. Enfin, pour simuler la réponse en fréquence d’un terminal
récepteur (e.g. un téléphone portable), des filtrages sont appliqués aux signaux de référence et
dégradé en fonction du mode opératoire. Ainsi, dans le mode NB, les deux signaux sont filtrés par
le filtre du Système de Référence Intermédiaire (SRI) (ITU-T 1988b) tandis que dans le mode
SWB, aucun filtrage n’est appliqué ;
 modèle cœur : une fois le pré-traitement effectué, les signaux de référence et dégradé résultants
sont transformés en leur représentation interne dont les différentes étapes (correspondance temps-
fréquence, prédistorsion des fréquences et prédistorsion d’intensité) sont décrites dans le chapitre
1, § 1.4.3.2.1. Dans POLQA, la phase de correspondance temps-fréquence consiste d’abord à
multiplier les signaux de référence et dégradé par une fenêtre de Hanning suivant l’équation (1.6)
avec un recouvrement de 50%. L’expression de la fenêtre de Hanning (notée wH  k  ) est donnée
par :
  k 
wH  k   0,5 1  cos  2    , 0  k  N , (2.1)
  N 
où N est la taille de la taille de la fenêtre dont l’expression dépend de la fréquence
d’échantillonnage f e (en kHz) des signaux de référence et dégradé :
256, si 0  f e  9

512 , si 9  f e  18
N  . (2.2)
1024, si 18  f e  36
2048, si 36  f e  72

Les signaux de référence et dégradé résultant du fenêtrage sont ensuite transformés dans le
domaine fréquentiel au moyen d’une transformée de Fourier à court-terme (cf. équation (1.7)). Il
s’ensuit l’estimation de la DSP des signaux de référence et dégradé suivant l’équation (1.8).
Notons qu’une des particularités du modèle POLQA est qu’il intègre une étape supplémentaire
consistant à synchroniser les signaux de référence et dégradé, issus de la phase de correspondance
temps-fréquence précédente, dans le domaine fréquentiel. Une fois cette étape achevée, la phase
de prédistorsion des fréquences est effectuée en transformant les signaux de référence et dégradé
du domaine fréquentiel au domaine des bandes critiques selon l’équation (1.9). Enfin, les deux
signaux issus du domaine des bandes critiques sont transformés en sonie suivant l’équation (1.11).
Dans POLQA, l’expression de la puissance de Zwicker  est définie par :
  0,22  zB  Pfn , (2.3)
où z B est un paramètre dépendant de la bande critique z et définie par :
0,03z  1,06, si z  2

zB  1, si 2  z  22 , (2.4)
0, 2 z  22  1, si z  22
  
et Pfn est un facteur d’échelonnement dont l’équation est donnée par :
Pfn   Px' x'  l,z   600

0 ,008
, (2.5)
- 45 -
avec Px' x' la DSP en Bark du signal de référence résultant du pré-traitement. A partir de la
représentation interne des signaux de référence et dégradé, quatre variantes de densité de
similarité sont calculées. De ces variantes de similarité, deux densités de similarité finales sont
estimées, dont l’une permet de quantifier les distorsions liées aux systèmes de transmission et
l’autre quantifie les distorsions additives telles que le bruit présent dans le signal de parole. Par
ailleurs, POLQA intègre des indicateurs de qualité permettant de quantifier des dégradations
particulières de la qualité vocale. La description de ces indicateurs est détaillée dans la section
2.2 ;
 modèle cognitif : après plusieurs étapes de compensation effectuées sur les deux densités de
similarité finales, ces dernières sont combinées aux indicateurs afin de produire la note globale
MOS-LQO de la qualité vocale.
Figure 2.1. Structure générale modifiée du modèle POLQA
2.1.2. Présentation du modèle DIAL
Le modèle DIAL (Côté 2010b), tout comme POLQA, est un modèle avec référence fonctionnant
suivant les deux modes opératoires NB et SWB. Sa particularité est qu’il est explicitement fondé sur les
quatre dimensions perceptives (Bruyance, Continuité, Coloration et Sonie) et fournit, en plus d’une note
globale de prédiction de la qualité vocale, une note pour chacune des dimensions. La Figure 2.2 illustre le
principe du modèle DIAL dont le fonctionnement est le suivant :
 pré-traitement : tout comme dans POLQA, cette étape inclut l’alignement temporel, la
normalisation du niveau des signaux de référence et dégradé à -26dBoV ainsi que la simulation
- 46 -
de la réponse en fréquence du terminal récepteur. L’alignement temporel de DIAL est fondé sur
celui de PESQ (ITU-T 2001) complété par un algorithme d’estimation de l’effet des délais variant
dans le temps (ou time warping). Quant à la simulation de la réponse en fréquence d’un terminal
récepteur en bande étroite (mode NB), les signaux de référence et dégradé sont filtrés par un filtre
à Réponse Impulsionnelle Finie (RIF) dont la réponse en fréquence est semblable à celle du filtre
SRI. En mode SWB, un filtre dont la réponse en fréquence est aplatie dans la bande (50-14000
Hz) est appliqué aux deux signaux ;
 modèle cœur : le modèle cœur de DIAL est principalement fondé sur le modèle perceptif du
modèle TOSQA (ITU-T 1997a). Pour la phase de correspondance temps-fréquence, les deux
signaux sont pondérés par une fenêtre de Hanning de 16 ms de longueur (ce qui correspond à 128
échantillons en mode NB et 768 en mode SWB) avec un recouvrement de 50%. Les DSP en Bark
des signaux de référence et dégradé sont obtenues selon l’équation (1.8) (prédistorsion
fréquentielle). A la différence de POLQA, DIAL n’utilise pas d’alignement fréquentiel entre les
signaux de référence et dégradé. Enfin, la transformation en sonie des signaux de référence et
dégradé est effectuée suivant l’équation (1.11) (prédistorsion d’intensité). Dans DIAL, les
paramètres Sl et  sont constants et valent respectivement 0,23 et 1,3733 . La particularité du
modèle cœur de DIAL est qu’il permet d’estimer les dégradations non linéaires introduites par
des systèmes de traitement de la parole tels les codecs à bas-débit. Il prend aussi en compte l’effet
des fortes discontinuités et des variations abruptes du bruit présentes pendant les périodes
d’activité vocale (ces périodes sont déterminées à l’aide d’un DAV). L’impact de ces
dégradations non linéaires est estimé à partir de la différence entre les représentations internes des
signaux de référence et dégradé ;
 dimensions perceptives : les blocs 1 à 4 de la Figure 2.2 correspondent à la modélisation des
quatre dimensions perceptives dont les indicateurs seront détaillés dans la section 2.2 ;
 modèle cognitif : la note globale MOS-LQO est obtenue en combinant les notes MOS prédites
issues du modèle cœur et des dimensions perceptives grâce à une technique d’apprentissage
automatique (ou machine learning) appelée méthode des k plus proches voisins (ou k-nearest
neighbors (k-NN)).
2.1.3. Présentation du modèle DESQHI
A la différence de POLQA et de DIAL, DESQHI (Leman 2011) est un modèle sans référence et
hybride destiné à la téléphonie en bande étroite. DESQHI est explicitement construit sur trois dimensions
perceptives : la Bruyance, la Continuité et la Coloration. Il faut souligner que la base sonore qui a été
utilisée dans (Leman 2011) pour la détermination de l’espace perceptif de la qualité ne contenait pas de
conditions relatives à l’atténuation/amplification du niveau sonore global du signal de parole. Ceci
expliquerait la raison pour laquelle la dimension Sonie n’a pas été prise en compte dans le modèle
DESQHI. Tout comme DIAL, DESQHI fournit, en plus de la prédiction de la qualité globale, une
prédiction pour chacune des dimensions. Du plus, une autre particularité du modèle est qu’il permet
d’identifier les causes éventuelles des dégradations présentes dans le signal de parole, notamment
l’identification du type de codage ou transcodage employé lors de la télécommunication.
Dans notre étude, nous nous intéressons essentiellement aux indicateurs fondés sur une analyse du
signal de parole. De ce fait, nous avons modifié la présentation générale de DESQHI afin de mettre
uniquement en exergue ces indicateurs (cf. Figure. 2.3). Son fonctionnement comprend (i) un module de
- 47 -
détection active de la voix (DAV) fondé sur l’annexe B de la recommandation G.729 de l’UIT-T (ITU-T
2006a), (ii) une modélisation des différentes dimensions perceptives et (iii) une prédiction de la qualité
globale MOS-LQO. Cette prédiction est obtenue par combinaison linéaire des notes MOS prédites
correspondant aux trois dimensions.
Figure 2.2. Vue d’ensemble du modèle DIAL
2.2. Identification des indicateurs de qualité dans les modèles présentés
Dans la section 2.1, nous avons brièvement présenté de récents modèles d’évaluation objective de la
qualité vocale. Nous avons vu que les modèles DIAL et DESQHI sont explicitement fondés sur des
dimensions perceptives. Quant au modèle POLQA, il intègre des indicateurs de qualité caractérisant
implicitement les dimensions perceptives. Dans cette section, nous allons identifier les différents
indicateurs de qualité que renferment ces modèles.
Les études réalisées par Huo et al. (Huo 2008a, 2008b; 2007), Leman et al. (Leman et al. 2008) et
Scholz et al. (Scholz et al. 2006)], ont montré que les dimensions Bruyance, Continuité et Coloration
peuvent être divisées en sous-dimensions. Comme nous le verrons par la suite, la plupart de ces sous-
dimensions proposées dans (Huo et al. 2008a, 2008b; 2007) et (Scholz et al. 2006) sont modélisées dans
DIAL. De plus, notre analyse des indicateurs du modèle POLQA nous a permis de les rattacher à ces
sous-dimensions. Cependant, ces découpes en sous-dimensions sont quelque peu différentes de celles
proposées par Leman et al. (Leman et al. 2008) notamment celle de la dimension Bruyance, ce qui rend
difficile une comparaison entre les indicateurs de DESQHI d’une part et ceux de POLQA et DIAL d’autre
part. Cela étant, nous allons d’abord décrire les dimensions par rapport aux sous-dimensions sur
lesquelles les différents modèles sont fondés. Ensuite nous identifierons les indicateurs dans chaque
- 48 -
modèle par rapport aux sous-dimensions que ces modèles intègrent, puis nous établirons un
rapprochement entre les différents indicateurs identifiés.
Figure 2.3. Structure générale modifiée du modèle DESQHI
2.2.1. Indicateurs de la dimension Bruyance
Cette dimension regroupe l’ensemble des bruits de fond présents dans les communications
téléphoniques en plus du signal de parole. Ces bruits peuvent être issus de l’environnement (bruit de
restaurant, habitacle de voiture, …) ou artificiels (bruits issus des réseaux, bruits de quantification causés
par les codecs, …). Une étude réalisée par Huo et al. (Huo et al. 2008a) sur un ensemble de bruits
représentatifs de conditions réelles a permis de mettre en exergue trois sous-dimensions pour la
dimension Bruyance :
 Bruit Corrélatif (ou Speech Contamination) : cette sous-dimension caractérise la perception du
bruit corrélé à la parole ;
 Bruit Additif (ou Additive Noise Level) : cette sous-dimension décrit le niveau du bruit additif
présent dans le signal de parole pendant les périodes de silence ;
 Coloration du Bruit (ou Noise Coloration) : cette sous-dimension reflète l’effet du contenu
spectral du bruit.
Dans DIAL, la modélisation de cette dimension n’est pas explicitement fondée sur ces trois sous-
dimensions. Néanmoins, elle intègre deux indicateurs qui, selon notre analyse, permettent de caractériser
les deux premières sous-dimensions. Il s’agit des indicateurs NoS (Noise on Speech) et Ln quantifiant
- 49 -
l’impact du bruit présent respectivement pendant les périodes d’activité vocale (sous-dimension Bruit
Corrélatif) et pendant les périodes de silence (sous-dimension Bruit Additif).
L’expression de l’indicateur NoS est donnée par :
1 1 L sup 
z
 Py' y'  l,z   
NoS   10.log10 
L Z l 1 z  2   P  l,z   
, (2.6)
 x' x' 
où Z   2,zsup  , Py' y'  l,z  est la DSP en Bark du signal dégradé issu du pré-traitement (cf. § 2.1.2),
L est le nombre total de trames d’activité vocale, l’expression de zsup étant donnée à l’équation (2.50).
Quant à l’estimation de l’indicateur Ln, elle est obtenue à partir du calcul de la DSP en Bark du bruit dont
l’expression est
1 24
 
Pn l n   Py' y' l n ,z ,
24 z 1
  (2.7)
où l n est une trame de silence. Le niveau équivalent du bruit Lneq s’exprime par :
Ln
1
Ln
 P l 
n
n
n
Lneq  10  log10 l 1
2
, (2.8)
pref
où Ln est le nombre total de trames de silence. Par ailleurs, afin de prendre en compte les variations
abruptes du niveau de bruit, une trame du bruit ayant une DSP  
Pn l n  40dBSPL et
 
Pn l n  15 dB  Lneq est considérée comme représentative d’une variation abrupte. Le niveau équivalent du
bruit Lneq est alors recalculé en ne prenant plus en compte ces trames. Ce processus est répété sur 10
itérations jusqu’à ce que les variations importantes du niveau du bruit soient détectées. L’énergie
moyenne globale du bruit  nn  z  est donc calculée comme suit :
Ln' 1
1
 nn  z  
Ln'
 P l
n'
nn
n'
,z ,  (2.9)
l 0
où Ln' représente le nombre total de trames de bruit ne contenant pas de variation abrupte du niveau de
bruit. Le paramètre  nn  z  transformé en sonie à court-terme suivant l’équation (1.12) devient alors
Lnn  z  . Dès lors, l’expression de l’indicateur Ln est donnée par :
24
Ln   Lnn  z  . (2.10)
z 1
Dans POLQA, l’indicateur Noise permet de quantifier l’impact du bruit sur la qualité vocale pendant
les périodes de silence (sous-dimension Bruit Additif). Par ailleurs, lors du calcul des densités de
similarité finales, nous avons identifié un indicateur que nous avons nommé NoiseContrast, lequel permet
d’estimer les variations abruptes dans le spectre du bruit pendant les périodes de super-silence (ces
périodes correspondent aux trames du signal de référence où l’énergie est 35 dB en dessous de la
moyenne) et est donc rattaché à la sous-dimension Bruit Additif.
- 50 -
Le calcul de l’indicateur Noise est similaire à celui de l’indicateur quantifiant le bruit dans (Beerends
et al. 2007). La sonie du bruit est estimée à partir de la différence de sonie des signaux de référence et
dégradé pendant les périodes de silence. Son expression est donnée par l’équation suivante :
Ln Nb
1
Noise  n
L
 L  l ,z   L l ,z 
n
y' y'
n
x' x'
n
(2.11)
l 1 z 1
   
où Lx' x' l n ,z et Ly' y' l n ,z représentent respectivement les sonies des signaux de référence et dégradé
dans la trame de silence l n . Pour le calcul de l’indicateur NoiseContrast, on détermine d’abord des zones
du signal de référence correspondant à sept trames consécutives de super-silence. Un paramètre a l m  
est ensuite calculé à partir de la sonie à court-terme du signal dégradé sur ces zones et est défini par :
   


 max L l m  3  0,2 ;1,5 
   
y'
a lm (2.12)
 m
 
 max Ly' l  0,2 ,1,5   

 
avec Ly' l m la sonie à court-terme du signal dégradé dans la trame de super-silence l m , et  une
constante dont la valeur est égale à 0,3 en mode SWB et à 0,4 en mode NB. L’expression de
NoiseContrast est alors définie comme suit :
 TS
 1 , si  a lm 1  
 m
l 1
NoiseContrast   TS (2.13)
 
 a l m , sinon
0 ,1

l m 1
où TS est le nombre total de zones de sept trames consécutives de super-silence.
Concernant DESQHI, Leman et al. (Leman et al. 2008) ont montré qu’en présence de bruit la qualité
vocale dépend non seulement de la nature et du niveau du bruit mais aussi de son contenu informationnel.
En effet, un bruit est considéré comme non gênant lorsque son origine est reconnue par l’auditeur, auquel
cas il est considéré comme étant une dégradation gênante. Dès lors, il a été proposé de répartir les bruits
de fond en quatre classes (ou sous-dimensions) suivant leur degré de tolérance :
 Bruits intelligibles : cette classe est caractérisée par une forte indulgence lors de l’évaluation de la
qualité vocale et est constituée de bruits très fluctuants tels que la musique ;
 Bruits d’environnement : composée de bruits de nature non stationnaire en général (bruit de ville,
de restaurant, etc.), cette classe provoque une certaine indulgence lors de l’évaluation de la qualité
vocale ;
 Bruits de souffle : cette classe reflète les bruits de type stationnaire n’ayant pas de contenu
informationnel (bruits de quantification, bruit de sèche cheveux, etc.) ;
 Bruits de grésillement : cette classe regroupe les bruits stationnaires provenant du réseau,
notamment le bruit électrique, et est caractérisée par une très forte dégradation de la qualité vocale.
Par ailleurs, Leman et al. ont proposé de classifier de manière automatique les bruits en fonction des
quatre sous-dimensions ci-dessus à l’aide de deux indicateurs (Leman et al. 2009b). Le premier indicateur,
Vn, représentant la variation sonore du bruit, correspond à l’écart-type des valeurs de l’énergie du bruit
par trame. Son expression est donnée par :
- 51 -
 1 Ln 
Vn  std  n b 2
k  , (2.14)
L k 1 
où bk représente le bruit à l’échantillon k et Ln est le nombre total de trames de silence. Le second
indicateur, SF (Flux Spectral, aussi appelé variation de l’amplitude du spectre) est une mesure permettant
d’estimer la vitesse de changement du spectre de puissance d’une trame donnée. Il est calculé à partir de
la corrélation croisée normalisée entre deux amplitudes successives du spectre comme suit :
1 Ln

  a l k
n
  
 1  ak l n 

SF  n  1  k
 (2.15)
L l n 1 
 
 ak 2 l n  1    a2k l n  

 k k 
où ak  l  correspond à l’amplitude du signal dégradé à la trame l . Les indicateurs Vn et SF étant calculés
uniquement pendant les périodes de silence, nous considérons qu’ils appartiennent forcément à la sous-
dimension Bruit Additif.
2.2.2. Indicateurs de la dimension Continuité
Cette dimension caractérise l’ensemble des discontinuités perçues dans le signal de parole qui peuvent
être causées par des pertes de paquets ou de trames, les mécanismes de corrections de pertes de paquets
(PLC (Packet Loss Concealment)), des erreurs de bits lors de la transmission radio ou par des processus
de traitement de signal tels que la réduction de bruit ou l’annulation d’écho. Les études effectuées dans
(Huo et al. 2008b) ont montré que la dimension Continuité peut être divisée en trois sous-dimensions :
 Coupures : cette sous-dimension regroupe l’ensemble des interruptions perçues dans le signal. Par
exemple, celles-ci sont plus perçues lorsque la technique PLC consistant à insérer les trames de
silence est employée ;
 Artéfacts Additifs : elle est relative aux artéfacts qui apparaissent souvent suite à l’utilisation de la
technique PLC qui consiste à remplacer la trame perdue par une répétition de trame ;
 Bruit Musical : cette sous-dimension est caractéristique des bruits résiduels liés aux imperfections
du débruitage.
Fondé sur le modèle proposé par Huo et al. (Huo et al. 2008b), DIAL intègre trois indicateurs pour
caractériser uniquement les deux premières sous-dimensions. Les deux premiers indicateurs rL et rI
quantifient la sous-dimension Coupures et permettent d’estimer respectivement le taux d’interruptions
courtes et longues perçues dans le signal de la parole. Quant au troisième indicateur rA relatif à la sous-
dimension Artéfacts Additifs, il estime le taux d’artéfacts apparaissant dans le signal.
Pour calculer ces indicateurs, on modifie les DSP en Bark des signaux de référence et dégradé en
compensant l’influence de la réponse fréquentielle et des variations du gain introduites par le système de
transmission (Côté 2010b). Puis, les interruptions longues sont détectées lorsque la différence entre les
enveloppes spectrales des signaux de référence et dégradé résultant de la compensation est supérieure au
seuil  RSB,Int  l  défini par :

0,2. RSBseg  l   40 
 RSB, Int  l   e  10 , (2.16)
où RSBseg  l  est le Rapport Signal-à-Bruit segmental de la trame l dont l’équation est donnée par :
- 52 -
RSBseg  l   e x  l   Ln , (2.17)
avec e x  l  l’enveloppe du signal de référence dans la trame l ,

 P'  l  
e x  l   10  log10  x2  , (2.18)
 pref 
 
avec pref  2.105 Pa le seuil auditif d’un son pur à la fréquence 1 kHz et P' x  l  la DSP moyenne en
Bark du signal de référence (cf. équation (1.10)), résultant des compensations partielles, sur la trame l .
Quant au paramètre Ln , son expression est donnée par l’équation (2.10). Pour la détection d’interruptions
courtes, les variations instantanées dans les enveloppes des signaux de référence et dégradé
(respectivement notées de x  l  et de y  l  ) sont calculées comme suit :
d e x  l   e x  l  1  e x  l 
. (2.19)
d e y  l   e y  l  1  e y  l 
Il y a détection d’interruptions courtes lorsque la différence entre de x  l  et de y  l  est supérieure au

seuil  RSB,var  l  défini par :
 RSB ,var  l   max e 

0 ,55. RSBseg  l  50 

;4 . (2.20)
Enfin, pour le calcul de l’indicateur rA, les pentes spectrales des signaux de référence et dégradé S xx  l,z 
et S yy  l,z  sont estimées comme suit :
 P '  l , z  1 
S xx  l , z   10  log10  xx
 P '  l , z  
 xx 
, (2.21)
 P ' yy  l , z  1 
S yy  l , z   10  log10 
 P ' yy  l , z  
 
où P 'xx  l , z  et P ' yy  l , z  représentent respectivement la transformée en Bark des signaux de référence et
dégradé résultant de la compensation partielle. La distance de la pente spectrale pondérée (ou Weighted
Spectral Slope (WSS) distance en anglais) est alors calculée comme suit :
23
dWSS  l   W  l , z . S xx  l , z   S yy  l , z   ,
2
(2.22)
z 1
où W  l,z  est une fonction de pondération dépendante du spectre du signal de parole. Les artéfacts sont
donc détectés dès lors que dWSS  l  est supérieure au seuil WSS  l  défini par :

 WSS  l   max  RSB,WSS  l   1,5 floor  5 ; 30 ,  (2.23)
où  RSB,WSS  l  est un paramètre dépendant de RSBseg  l  ,
 RSB,WSS  l   e

0,12. RSBseg  l 60 , (2.24)
- 53 -
et  floor est un paramètre dépendant de la distribution des valeurs de la distance WSS. Les indicateurs rL,
rI et rA représentent alors le taux de trames où les interruptions courtes et longues et les artéfacts
apparaissent respectivement dans le signal de parole.
Par ailleurs, nous avions souligné dans la section 2.1.2 que le modèle cœur de DIAL permet de
quantifier les dégradations non linéaires y compris l’effet de fortes discontinuités et des variations
brusques observées dans le bruit. Ces dégradations sont estimées à l’aide de l’indicateur Plin . Nous avons
ainsi considéré que cet indicateur quantifie les dimensions Continuité et Bruyance. Il est calculé à partir
de la densité de similarité, notée   l  , entre les sonies des signaux de référence et dégradé ( Lxx  l,z  et
Lyy  l,z  respectivement), dont l’expression est la suivante :
  l   0,4  BB  l   0,6  HB  l  , (2.25)
où LB  l  et HB  l  sont des densités de similarité calculées respectivement dans les régions basses et
hautes de l’échelle en Bark, respectivement notées z LB et z HB ( LB et HB signifient ‘Low Bark’ et
‘High Bark’ respectivement). Ces régions sont définies en fonction des modes opératoires :
 en mode NB :
zLB  1,...,9 ; zHB  10,...,18 ; (2.26)
 en mode SWB :
zLB  1,...,10 ; zHB  11,...,23 . (2.27)
L’expression de la densité LB  l  est donnée par :
2
 
  Lxx  l , z   Lyy  l , z   dz  Lx  l   Ly  l  
' LB LB
 LB  l    zzLB  (2.28)
  2
  Lxx  l , z   dz  Lx  l     Lyy  l , z   dz  Ly  l  
' 2 LB 2 2 LB
 zzLB  zzLB 
où L'xx  l,z  est une version optimisée de la DSP en sonie du signal de référence (voir (Côté 2010b)).
x  l  et Ly  l  représentent respectivement la sonie à court-terme des signaux de référence et dégradé

LLB LB
dans la régions basses de Bark z LB . Le paramètre dz correspond à la largeur de bande de la région z LB

(i.e. 9 en mode NB et 10 en mode SWB). Quant à l’expression de HB  l  , elle est identique à celle de
LB  l  en remplaçant la région z LB par z HB . Une nouvelle grandeur notée Plin  l  est calculée à partir
de la similarité globale   l  comme suit :
Plin  l   1,906  45,308  arctan 2,17     l   0,998 . (2.29)
Les valeurs négatives de Plin  l  sont ensuite mises à zéro. Afin de compenser l’effet des dégradations
linéaires telles que le bruit et l’atténuation/amplification du niveau sonore global du signal de parole sur
Plin  l  , un facteur de compensation appelé "Attenuation Pattern" et noté AP  l  est appliqué sur Plin  l  .
Pour le calcul du facteur AP  l  , une grandeur notée P  l  est déterminée comme suit :
 Lx  l   Ltl y  l  , si Lx  l   Ltl y  l 

P  l    , (2.30)

 Lx  l  , sinon
- 54 -
où Lx  l  est la sonie à court-terme du signal de référence et Ltl y  l  la sonie à long-terme du signal

dégradé dont l’expression est celle de l’équation (2.68). La grandeur P  l  est ensuite amplifiée par une
estimation de la sonie du bruit dans les zones où l’énergie du signal de parole est faible. Sa nouvelle
expression devient alors :
 Ln ,
 si P  l   Ln
P '  l    . (2.31)
P  l  , sinon

Une fois cette amplification effectuée, le facteur AP  l  est obtenu en normalisant à 1 la grandeur P '  l 
comme suit :
P '  l 
AP  l   . (2.32)
Ltl y  l 
Le facteur de compensation ainsi obtenu est appliqué à l’expression en linéaire de densité de similarité
Plin  l  et devient :
P 'lin  l   Plin  l   AP  l  . (2.33)
Pour déterminer l’expression de l’indicateur Plin , la norme L p  p  2  est appliquée à Plin
'
 l  par syllabe
'
(au moyen d’un algorithme de détection de syllabe) et devient Plin  syllabe  . L’indicateur Plin est alors
'
obtenu en intégrant Plin  syllabe  sur l’ensemble des trames de parole au moyen de la norme Lp  p  2 .
L’équation de la norme L p est la suivante :
1
1 L p p
L p    degradation  l   (2.34)
 L l 1 
où degradation est la portion de signal sur laquelle la norme L p est appliquée.
Quant à POLQA, des indicateurs de cette dimension n’y sont pas explicitement mentionnés. Dans
notre analyse, nous avons identifié deux indicateurs représentant les deux premières sous-dimensions. En
fait, lors de la représentation interne des signaux de référence et dégradé, une compensation partielle est
appliquée au signal de référence dans les parties où la sonie du signal dégradé est supérieure à celle du
signal de référence. Cette compensation est appliquée de sorte que la différence entre les sonies de ces
signaux reflète l’impact des coupures localement perçues pendant les périodes d’activité vocale (sous-
dimension Coupures). De cette différence, nous avons dérivé un indicateur que nous avons nommé
Timeclip dont l’expression est
L Nb
Timeclip   Lyy  l,z     l   Lxx  l,z  , (2.35)
l 1 z 1
où   l  est le facteur d’échelonnement estimé à partir du rapport des sonies à court-terme des signaux de
référence et dégradé. Par ailleurs, lors du calcul des densités de similarité finales, les distorsions causées
par les répétitions de trame sont quantifiées par un indicateur que nous avons nommé Framerepeat (sous-
dimension Artéfacts Additifs). Cet indicateur est calculé à partir de la comparaison entre les corrélations
des trames consécutives du signal de référence et les corrélations consécutives du signal dégradé.
- 55 -
1 L
Framerepeat   Cory  l   Corx  l  ,
L l 2
(2.36)
où
Nb Nb Nb
 X  Y   X  Y
Corx  l   z 1 z 1 z 1
, (2.37)
 Nb  Nb 
2
  Nb  Nb  
2
 X 2  X     Y   Y  
2
 z 1  z 1    z 1  z 1  
  
avec X  Lxx  l  2,z  et Y  Lxx  l,z  . L’expression de Cory  l  est la même que celle de Corx  l  en
remplaçant X et Y par Lyy  l  2,z  et Lyy  l,z  respectivement.
Dans l’approche de DESQHI, les discontinuités perçues dans le signal de parole se présentent sous
forme de raies dans le domaine temporel et sont visibles dans les zones spectrales où l’énergie de la
parole est faible ( f  100Hz ). Ceci étant, la représentation de la dimension Continuité est fondée sur
l’analyse des composantes fréquentielles inférieures à 100 Hz. Dans cette optique, un filtre passe-bas
d’ordre 10 et de fréquence de coupure fc  80Hz est appliqué au signal dégradé. Le signal filtré résultant
est alors échantillonné à la fréquence d’échantillonnage fe  224Hz . Un algorithme de détection de
discontinuités, développé à partir de la méthode B définie dans la recommandation P.56 de l’UIT-T (ITU-
T 1993), est appliqué au signal filtré afin de distinguer les zones discontinues des zones continues. Dès
lors, cinq indicateurs sont extraits pour modéliser la dimension Continuité. Le premier indicateur I1
représente la moyenne de la DSP du signal filtré, sur la bande de fréquences centrée sur 64 Hz :
N
 P  i, 
yy
I1  i 1
(2.38)
N
où N est le nombre d’échantillons. Le deuxième indicateur I2 est la moyenne des valeurs maximales des
zones discontinues du signal
1 n
I2   max Sd  j   ,
nd j 1 
(2.39)
avec Sd  j  le signal filtré identifié dans la j ième zone de discontinuité et nd le nombre de zones de
discontinuité. Le troisième indicateur I3 correspond à l’écart-type des valeurs de DSP du signal dégradé,
sur la bande de fréquences centrée sur 64 Hz et défini par :
1 N  
P  i,   Pyy    
2
I3  
N i 1 
yy  (2.40)

où Pyy    représente la moyenne de la DSP. Quant au quatrième indicateur I4, il correspond à la
différence de niveau sonore moyen entre les zones de signal discontinu ( Sd ) et continu ( Sc )
 
I 4  10  log10 Sd 2  10  log10 Sc 2 .   (2.41)
Enfin le cinquième indicateur I5 représente la moyenne du signal filtré S et est défini comme suit :
I 5  log10 S 2 .   (2.42)
- 56 -
Ces indicateurs tels que définis dans (Leman 2011) ne permettent d’estimer que les dégradations liées aux
sous-dimensions Coupures et Artéfacts Additifs. Il faut souligner que les indicateurs I2 et I5 permettent
d’identifier la cause de la discontinuité du signal de parole à savoir s’il s’agit d’erreur de bits, de perte de
paquets ou si un algorithme PLC est utilisé ou non.
2.2.3. Indicateurs de la dimension Coloration
La dimension Coloration (ou Directness/Frequency Content) est liée aux caractéristiques de la réponse
fréquentielle de l’ensemble du système de transmission. Les études réalisées dans (Scholz et al. 2006) et
(Huo et al. 2007) ont montré que cette dimension peut être divisée en deux sous-dimensions :
 Clarté (ou Directness) : cette sous-dimension représente la facilité à comprendre l’information
contenue dans la parole. Elle regroupe des distorsions fréquentielles spécifiques telles que les
réverbérations ou les limitations de bande de fréquences ou l’effet du codage ;
 Contenu fréquentiel (ou Frequency Content) : aussi appelée Brillance (Wältermann et al. 2008),
cette sous-dimension est relative à la perception de l’équilibrage des niveaux fréquentiels des
échantillons sonores.
Dans DIAL, la modélisation de la dimension Coloration est fondée sur les approches proposées dans
(Scholz et al. 2006) et (Huo et al. 2007). Deux indicateurs sont utilisés pour quantifier cette dimension. Il
s’agit des indicateurs Erb (Equivalent Rectangular Bandwidth ou filtre rectangulaire équivalent) et fc
(fréquence centrale du gain du système de transmission) qui permettent d’estimer respectivement l’impact
de la limitation de bande de fréquences sur la qualité vocale (sous-dimension Clarté) et des contenus
fréquentiels pour une bande de fréquences fixée (sous-dimension Brillance).
Ces indicateurs sont calculés à partir du gain de la fonction de transfert du système. Tout d’abord, les
signaux de référence et dégradé, issus des alignements, temporel et de niveau sonore, sont divisés en
trames de 2048 échantillons avec un recouvrement de 75%, le fenêtrage utilisé étant celui de Hanning. La
taille de la fenêtre est la même pour les deux modes opératoires NB et SWB. La fonction de transfert du
système H  l,  est estimée uniquement sur les périodes d’activité vocale et est définie par :
Pxy  l ,  
H l,   (2.43)
Pxx  l ,  
où  et Pxy  l,  représentent respectivement la fréquence normalisée et la DSP croisée des signaux de
référence et dégradé dont l’expression s’écrit
Pxy  l ,     X  l ,    Y *  l ,   , (2.44)
où X  l,  et Y  l,  sont respectivement les TFCT des signaux de référence et dégradé (cf. équation
(1.7)), Y *  l ,   étant le conjugué de Y  l,  . Il s’ensuit l’expression du gain du système G  l,  ,
G  l ,    20  log10 H  l ,   . (2.45)
G  l,  est ensuite transformée dans le domaine des bandes critiques suivant l’équation (1.9) et s’écrit
G  l,z  . Pour atténuer l’effet du bruit sur G  l,z  , celui-ci est analysé uniquement dans un intervalle
z   zmin ,zmax  déterminé en deux étapes : (i) les valeurs de G  z  sont amplifiées par une valeur
constante ST appelée « stopband » et les valeurs négatives résultantes sont fixées à 0 :
- 57 -
max G  l , z   ST ,0 , si z   zmin , zmax 


G l, z    ; (2.46)

 0, sinon
(ii) les paramètres zmin et zmax sont alors déterminés de sorte que :
G  zmin   0,5 max G  l , z   

z0,..., zlim 
. (2.47)
G  zmax   0,5  max G  l , z   
z zlim ,...,24
Enfin, pour déterminer les indicateurs Erb et fc, G  l,z  est décomposé comme suit :
G l, z   G l , z   G R l , z  , (2.48)
où G  l,z  est une version lissée de G  l,z  et G R  l,z  représente le résidu. Les expressions de Erb et
fc sont alors données par :
zmax
 G  z  dz
zmin
Erb 
max G  z  , (2.49)
fc  f inf . fsup
où finf et fsup correspondent à la représentation en fréquence des bandes critiques zinf et zsup dont les
équations sont données ci-dessous :
Erb
zinf  zG 
2
, (2.50)
Erb
zsup  zG 
2
où zG représente le centre de gravité de G  l,z  ,
zmax
z G  l , z  .zz
zG  min
zmax
. (2.51)
z G  l , z  .z
min
Les indicateurs Erb et fc sont respectivement exprimés en Bark et en Hz.
Dans POLQA, nous avons identifié quatre indicateurs caractérisant la dimension Coloration dont les
trois premiers sont explicitement décrits dans la norme P.863 (ITU-T 2011a). Le premier indicateur Freq
permet d’estimer l’impact de l’ensemble des distorsions fréquentielles liées à la réponse fréquentielle du
système de transmission. D’après nos analyses, nous pensons que cet indicateur adresse les deux sous-
dimensions - Clarté et Brillance - à la fois. Le second indicateur, Reverb, quantifie l’effet de la
réverbération qui est inclus dans la sous-dimension Clarté. Quant au troisième indicateur Flatness, il est
utilisé pour mesurer l’impact des distorsions sur le niveau global du timbre de la voix. Enfin, le quatrième
indicateur que nous avons nommé Itimbre estime les distorsions sévères sur le timbre. Nous pensons que ces
deux derniers indicateurs adressent les deux sous-dimensions car la dimension Coloration est aussi
identifiée comme Timbre dans (Leman, 2012).
- 58 -
La procédure de calcul de l’indicateur Freq est similaire à celle de l’indicateur FRQ (Beerends et al.
2007). Cet indicateur Freq est calculé à partir de la sonie des signaux de référence et dégradé ( Lxx  l , z  et
Lyy  l , z  respectivement) uniquement sur les trames d’activité vocale. Notons que, dans POLQA, on
distingue trois catégories de trames : les trames d’activité vocale correspondant aux périodes dans le
signal de référence où l’énergie est 20 dB au-dessus de l’énergie moyenne globale, les trames de silence
correspondant aux trames du signal de référence dont l’énergie est 20 dB en dessous de la moyenne
(périodes de silence) et les trames de super-silence (cf. §2.2.1). Afin d’atténuer l’impact du bruit sur
l’indicateur Freq, deux versions lissées de la sonie du bruit ( Lbx  z  et Lby  z  ), estimées respectivement
à partir de Lxx  l,z  et Lyy  l,z  pendant les périodes de silence, sont soustraites de celles-ci. Les
expressions de Lbx  z  et Lby  z  sont les suivantes :
1
 Ln 3

3

Lb , x  z     Lxx l n , z  
 l n 1 
1
. (2.52)
 Ln 3

3
Lb , y  z     Lyy l n , z   
 l n 1 
Les sonies des signaux de référence et dégradé résultant de cette compensation, respectivement notées
L'xx  l,z  et L'yy  l,z  , ont pour équation :
L'xx  l , z   Lxx  l , z   0,3  Lbx  z 
. (2.53)
L'yy  l , z   Lyy  l , z   0,3  Lby  z 
Ces sonies résultantes sont ensuite intégrées sur l’axe des temps au moyen de la norme L p (cf. équation
(2.34)) comme suit :
1
1 L 2
2
L  z     L'xx  l , z  
'
x
 L l 1 
1
, (2.54)
1 L 2
2
L'y  z     L'yy  l , z  
 L l 1 
où L'x  z  et L' y  z  sont les sonies des signaux de référence et dégradé issues de cette intégration. Par
ailleurs, un facteur d’échelonnement est appliqué au signal dégradé afin de compenser les distorsions
fréquentielles ayant un impact négligeable sur la qualité vocale. Ce facteur d’échelonnement, noté c , est
calculé à partir des sonies L'x  z  et L' y  z  et défini par :
4
 Nb ' 1 
  Lx  z  
4
c   .
z 1
4
(2.55)
 Nb
1 
  Ly  z  
' 4
 z 1 
- 59 -
La sonie du signal dégradé L' y  z  est multipliée par le facteur c et devient L"y  z  . Dès lors, deux
paramètres P1 et P2 sont extraits à partir de la différence des sonies L'x  z  et L"y  z  . Le premier
paramètre correspond à la somme de cette différence sur l’ensemble des bandes de Bark :
 Nb  ' 
1
2
   Lx  z   Ly  z   , si L'x  z   L"y  z 
"
 z 1  
P1   1
. (2.56)
Nb
0,1   L'' z  L' z  2 ,
  y   x   sinon
z 1 
 
Quant au second paramètre, il correspond aux variations instantanées de la différence entre L'x  z  et
L"y  z  :
N
b
 1,5 1,5

P2     L'x  z   L''y  z    L'x  z  1  L''y  z  1    z  1 .
0 ,4
(2.57)
z 2 
    
L’indicateur Freq est enfin obtenu à partir de la combinaison de ces deux paramètres :
Freq  max log10  P1  P2  0,001 ; 2 . (2.58)
Pour le calcul de l’indicateur Reverb, l’énergie de trois types de son réfléchi est déterminée. Le
premier son réfléchi (le plus fort) correspond au son arrivant après le signal direct. Dans POLQA, le
signal direct correspond à l’ensemble des sons arrivant dans un intervalle de 60 ms. L’énergie du premier
son réfléchi est calculée en déterminant la valeur maximale de l’enveloppe de la réponse impulsionnelle
dont l’expression est :
h  l   TFCT 1  H  l,   , (2.59)
où h  l  est la réponse impulsionnelle, H  l,  est la fonction de transfert (cf. équation (2.43)). TFCT 1
correspond à l’inverse de la transformée de Fourier à court-terme. Le second son réfléchi est estimé dans
un intervalle en dehors de l’intervalle du son direct, sans prendre en compte les réflexions arrivant dans
un intervalle de 100 ms après le premier son réfléchi, et son énergie correspond à la valeur maximale de
h  l  estimée dans son intervalle d’arrivée. Quant au troisième son réfléchi, il est déterminé dans un
intervalle en dehors de l’intervalle d’arrivée du son direct et sans prendre en compte les réflexions
arrivant dans un intervalle de 100 ms après les premier et second sons réfléchis. Son énergie correspond
aussi à la valeur maximale de h  l  pendant son intervalle d’arrivée. L’indicateur Reverb est donc obtenu
en combinant l’énergie de ces trois sons réfléchis et son expression est donnée par :
Reverb   E1  ind1   5   E2  ind2   10   E2  ind3  , (2.60)
où Ei i 1,2 ,3 et indi i 1,2 ,3 correspondent respectivement aux énergies des trois sons réfléchis et aux
indices de leur position dans l’enveloppe de la réponse impulsionnelle.
En ce qui concerne l’indicateur Flatness, il correspond à la platitude spectrale (ou spectral flatness) de
la densité de similarité (ITU-T 2011a). L’expression de la platitude spectrale d’un signal s  k  s’écrit :
1 N 
exp   log  s  k   
platitude   N k 1 , (2.61)
1 N
 s k 
N k 1
- 60 -
où N est le nombre total d’échantillons contenus dans le signal s  k  .

Enfin, l’expression de l’indicateur Itimbre est donnée par l’équation suivante :
1 L
I timbre   Tx  l   Ty  l  , (2.62)
L l 1
où Tx  l  et Ty  l  représentent des variations de timbre dans les signaux de référence et dégradé et sont
définies comme suit :
Tx  l    Lxx  l , z    Lxx  l , z 
z 7 z 12
, (2.63)
Tx  l    Lyy  l , z    Lyy  l , z 
z 7 z 12
où Lxx  l,z  et Lyy  l,z  sont respectivement les sonies des signaux de référence et dégradé.
Dans DESQHI, la dimension Coloration est modélisée par l’indicateur Ind (que nous avons renommé
par la suite Icod). Cet indicateur permet de quantifier les dégradations causées par le codage de la parole.
Rappelons que, dans l’approche de DESQHI, la dimension Coloration est étroitement liée au type de
codage employé (Leman 2011). Par ailleurs, des études réalisées (Petersen et al. 1997), (Mattila 2002a) et
(Bappert and Blauert 1994) sur les techniques de codage du son et de la parole ont montré que parmi les
principaux attributs perceptifs associés à des signaux résultant de codage, on trouve la brillance (Mattila
2002a) et la clarté (Bappert and Blauert 1994). Nous pouvons alors considérer que
l’indicateur Icod quantifie à la fois les sous-dimensions Clarté et Brillance.
Pour l’estimation de l’indicateur Icod, le signal dégradé est analysé par trames de 32 ms avec un
recouvrement de 50%. Tout d’abord, une reconstruction du signal d’origine (i.e. le signal n’ayant pas été
dégradé) est effectuée à partir du signal dégradé à l’aide des coefficients LPC (Linear Predicting Coding)
à l’ordre dix :
x  k   a  2  y  k  1  a  3  y  k  2  ...  a  p  1  y  k  p  , (2.64)
où x  k  et y  k  représentent respectivement les signaux reconstruit et dégradé pour l’échantillon k ,
a  . et p  p  10  étant respectivement les coefficients LPC et le nombre des coefficients LPC. Le résidu
entre le signal dégradé et le signal reconstruit est calculé comme suit :
res  k   y  k   x  k  , (2.65)
Par ailleurs, suivant la langue utilisée (français, anglais, japonais…), le temps d’attaque des syllabes est
très différent. Afin de s’affranchir de l’effet de la langue, un indicateur relatif au temps d’attaque est
combiné à l’indicateur résiduel des coefficients LPC. L’indicateur du temps d’attaque est calculé à partir
du signal reconstruit et s’exprime par :
1 N 1
att   x  k  1  x  k  , (2.66)
N k 1
avec N le nombre d’échantillons du signal reconstruit. Il s’ensuit l’expression de l’indicateur Icod :
1 N
 res  k 
N k 1
Icod  . (2.67)
att
Il faut noter que cet indicateur est utilisé pour identifier le type de codage employé lors d’une
communication téléphonique (Leman 2011).
- 61 -
2.2.4. Indicateurs de la dimension Sonie
La dimension Sonie représente l’ensemble des distorsions liées au niveau sonore de la parole perçu par
l’utilisateur. Les études réalisées par McDermott (McDermott 1969) ont ’montré l’utilité de cette
dimension dans l’évaluation de la qualité vocale. Jusqu’à présent, aucune découpe en sous-dimension n’a
été proposée pour la dimension Sonie.
Dans DIAL, cette dimension est caractérisée à l’aide de deux indicateurs : Ltl (Long-Term Loudness
ou sonie à long-terme du signal de parole) et Leq (Equivalent Continuous Sound Level ou niveau moyen
équivalent) représentant respectivement la sonie du signal dégradé perçue sur l’ensemble du signal
dégradé et l’énergie moyenne du signal dégradé calculée durant les périodes d’activité vocale. Ils sont
définis respectivement par :
 a   Ly  l  1  Ltl y  l    Ltl y  l 

Ltl y  l  1   , (2.68)
 
 r   L y  l   Ltl y  l  1   Ltl y  l 
1 L 
 L  Py  l  
Leq  10  log10  l 1 2 , (2.69)
 pref 
 
 
où Ly  l  représente la sonie du signal dégradé. Les paramètres  a et  r sont des valeurs constantes,
correspondant à 0,2 et 103 respectivement, et L est le nombre total de trames dans les périodes
d’activité vocale du signal dégradé.
Dans POLQA, l’indicateur Level est utilisé pour quantifier cette dimension. Il est défini par
Emax
Level  , (2.70)
1 L

 L  yi  1000 
2
 i 1 
où Emax est l’énergie maximale dont la valeur dépend du mode opératoire considéré (en mode NB,
Emax  1,4 107 et en mode SWB, Emax  5 106 ).
Il faut noter que cette dimension n’est pas prise en compte dans le modèle DESQHI pour les raisons
mentionnées dans la section 2.1.3.
2.2.5. Récapitulatif des indicateurs identifiés dans les modèles objectifs
Le Tableau 2.1 synthétise l’ensemble des indicateurs de qualité que nous avons identifiés dans les
modèles POLQA, DIAL et DESQHI pour caractériser les sous-dimensions perceptives considérées.
Comme on peut le remarquer dans le Tableau 2.1, nous n’avons pas trouvé dans ces modèles
d’indicateurs relatifs aux sous-dimensions Bruit Musical et Coloration du Bruit. Ce constat milite pour
une réflexion ultérieure quant à la définition de nouveaux indicateurs pour les modéliser.
- 62 -
Dimensions Sous-dimensions DIAL POLQA DESQHI
Bruit Corrélatif NoS -- --
Bruyance Bruit additif Ln NoiseContrast, Noise SF, Vn
Coloration du Bruit -- -- --
Plin
Coupures rI, rL Timeclip
I1, I2, I3, I4, I5
Continuité Artéfacts Additifs rA Framerepeat
Bruit Musical -- -- --
Clarté Erb Reverb Freq, Flatness,

Coloration Icod
Brillance fc -- Itimbre
-- Ltl Level --
Sonie
-- Leq -- --
Tableau 2.1. Récapitulatif des indicateurs de qualité identifiés dans POLQA, DIAL et DESQHI
2.3. Etude de performances des indicateurs de qualité
Evaluer les performances des indicateurs de qualité dans les conditions réelles de communication où
plusieurs dégradations peuvent apparaître simultanément s’avère une tâche difficile. En général, cette
évaluation est effectuée, du moins dans un premier temps, sur des conditions à dégradation unique. Nous
suivrons donc cette démarche. Ceci étant, nous décrirons d’abord dans cette section les différentes
méthodes d’évaluation des performances des indicateurs de qualité. Nous détaillerons ensuite la base
sonore que nous avons utilisée dans notre étude suivie de l’évaluation proprement dite des performances
de nos indicateurs de qualité.
D’autre part, si nous disposons effectivement du code de DIAL et de DESQHI, il n’en va pas de même
pour le modèle POLQA, pour lequel seules certaines parties du code étaient disponibles. Nous avons donc
implémenté les blocs manquants afin d’obtenir une version compilable du modèle. De plus, dans la
mesure où le modèle DESQHI ne tient compte que des signaux audio en bande étroite, nous avons
modifié certains paramètres, notamment la taille des trames, pour adapter le modèle aux signaux en bande
super-élargie.
2.3.1. Description des méthodes d’évaluation des indicateurs de qualité
Il existe principalement deux méthodes d’évaluation des performances des indicateurs : la méthode
graphique et la méthode objective.
2.3.1.1. Méthode graphique

L’évaluation graphique des performances des indicateurs consiste à observer l’évolution des valeurs
prises par les indicateurs pour différents degrés de dégradation à l’aide d’une représentation graphique
(Tiémounou et al. 2012a). Pour ce faire, pour chaque indicateur, on considère d’une part des stimuli
impactés par différentes conditions de dégradation, conditions pour lesquelles l’indicateur a été conçu, et
ce à différents degrés, et d’autre part les mêmes stimuli non dégradés correspondant aux conditions de
référence. Les conditions de référence permettent de connaître les valeurs initiales prises par chaque
- 63 -
indicateur. Les stimuli sont ensuite regroupés par condition de dégradation et on visualise graphiquement
les valeurs prises par chaque indicateur, comme le montre l’exemple de la Figure 2.4. Dès lors, deux
critères de visualisation graphique, que nous notons CG1 et CG2, sont nécessaires pour assurer la fiabilité
et la robustesse d’un indicateur :
 CG1 : les valeurs prises par chaque indicateur doivent varier avec le degré de dégradation
(dégradation pour laquelle il a été conçu) et les variations des valeurs pour une même condition
doivent restées limitées ;
 CG2 : pour les dégradations pour lesquelles un indicateur n’a pas été conçu, les valeurs prises par
l’indicateur doivent plus ou moins correspondre à ses valeurs initiales.
Cette approche est intéressante car elle permet d’apprécier la monotonie des indicateurs. Cependant, cette
méthode reste subjective et ne permet pas d’évaluer de manière qualitative les performances des
indicateurs. Sa mise en œuvre est d’autant plus coûteuse que le nombre d’indicateurs à évaluer est
important.
Erb Erb C1 C4 C5
C1 C8 C9 C10 24
25
20 23
15
Bark
22
Bark
10
21
5
0 20
1 36 71 106 141 1 36 71 106
Stimuli Stimuli
(a) (b)
Figure 2.4. Visualisation graphique des performances de l’indicateur Erb dans différentes conditions de dégradation : (a)
limitation de bande de fréquences (conditions C8, C9 et C10) et (b) pertes de paquets/trames (conditions C4 et C5). La
condition C1 représente la condition de référence. Les autres conditions sont détaillées dans le Tableau 2.2
2.3.1.2. Méthode objective

A la différence de la méthode graphique, l’approche objective consiste à évaluer les performances des
indicateurs à l’aide d’outils statistiques, notamment en calculant la corrélation entre les valeurs des
indicateurs et les notes subjectives associées à des conditions à dégradation unique (Tiémounou et al.
2012b). Par ailleurs, deux critères d’évaluation objective des performances des indicateurs de qualité,
notés CO1 et CO2, ont été suggérés dans (Beerends et al. 2007) et (ITU-T 2011c) et sont définis comme
suit :
 CO1 : un indicateur doit être capable de prédire la qualité vocale en présence de la dégradation
pour laquelle il a été conçu, avec une forte corrélation (de préférence une corrélation 
supérieure ou égale à 0,9 ) entre les valeurs données par cet indicateur dans des conditions où
cette dégradation est la seule présente et la qualité vocale (évaluée lors de tests subjectifs d’écoute)
pour ces mêmes conditions ;
 CO2 : un indicateur doit avoir une bonne capacité de discrimination, i.e. il doit prédire un bon
niveau de qualité vocale (correspondant à une note prédite supérieure ou égale à 3 ) dans des
- 64 -
conditions caractérisées par la présence d’autres dégradations que celle pour laquelle il a été
conçu.
Autrement dit, si l’on prend par exemple un indicateur conçu pour quantifier l’impact de la limitation
de bande de fréquences sur la qualité vocale, celui-ci doit présenter non seulement de bonnes
performances de prédiction de la qualité vocale (en termes de corrélation avec une notation subjective) en
présence de conditions présentant une limitation de bande de fréquences (critère CO1) et ne pas être
influencé par l’occurrence d’autres types de dégradation tels que les coupures ou le bruit additif d’où une
prédiction de bonne qualité vocale pour ceux-ci (critère CO2). Notons que, dans le cas d’un test subjectif,
notamment le test ACR (Absolute Category Rating (ITU-T 1996)), la qualité vocale est notée sur une
échelle allant de 1 à 5. Le seuil proposé dans le critère CO2 correspond au seuil minimal de qualité vocale
acceptable tel que proposé dans (Beerends et al. 2007) qui nous est apparu convenable.
La combinaison des critères CO1 et CO2 nous a semblé une approche efficace pour l’évaluation des
performances de nos indicateurs. En effet, si le premier critère permet d’évaluer la fiabilité d’un
indicateur à quantifier un type de dégradation donnée, le second critère permet de tester sa robustesse face
aux autres types de dégradation à l’aide d’un seuil minimal de qualité ( MOS p  3.0 ) qui permet de
déterminer si leur impact sur l’indicateur est acceptable ou pas. La philosophie de ces critères objectifs est
la même que celle des critères CG1 et CG2 de la méthode graphique, ce qui justifie le choix de ces
critères.
2.3.2. Description de la base sonore
Pour évaluer qualitativement les performances des indicateurs identifiés dans les différents modèles,
nous avons considéré dans un premier temps des stimuli présentant chacun un seul type de dégradation
représentatif des dimensions perceptives. Ces stimuli ont été extraits des bases sonores élaborées par
l’UIT-T dans le cadre du développement de la norme P.863 (ITU-T 2011a). La particularité de ces bases
sonores est qu’elles ont été spécialement conçues pour tester les performances des systèmes vocaux en
bande super-élargie. De plus, les notes MOS subjectives associées aux stimuli sont disponibles. Par
ailleurs, il est important de mentionner que, durant la phase de sélection de cette norme, deux groupes de
bases sonores ont été construits. Le premier groupe a servi pour le développement et l’optimisation des
modèles candidats (phase d’apprentissage). Quant au second groupe, considéré comme inconnu des
modèles candidats, il a été utilisé pour valider la fiabilité des dits modèles. Ainsi, puisque le premier
groupe de stimuli est connu des modèles POLQA et DIAL, nous avons choisi d’évaluer les performances
des indicateurs sur des bases sonores inconnues de ces modèles, à savoir des bases issues du second
groupe.
Nous avons construit notre base de tests à partir de stimuli provenant de quatre de ces bases,
représentant différentes langues (français, néerlandais, suisse allemand et anglais britannique) et
considéré 14 conditions de dégradation décrites dans le Tableau 2.2. A l’exception de la condition C1 qui
ne contient pas de dégradation (condition de référence), les autres conditions correspondent à différents
niveaux d’une dégradation relative à une dimension perceptive. Ainsi, pour la dimension Bruyance, nous
avons considéré 2 conditions contenant des bruits non stationnaire et stationnaire (respectivement C2 et
C3). Concernant la dimension Continuité, 2 conditions avec des pertes de paquets à des taux de 2% et
20% respectivement sans codage (C4 et C5) ont été considérées pour la sous-dimension Coupures. Pour
simuler les artéfacts (sous-dimension Artéfacts Additifs), nous avons utilisé 2 conditions correspondant à
- 65 -
des pertes de paquets de 2% compensées par divers mécanismes de PLC associés à des codecs de parole
(C6 et C7). Quant à la dimension Coloration, nous avons pris en compte 3 conditions (C8, C9 et C10)
présentant des limitations de bande de fréquences (sous-dimension Clarté) et 2 conditions (C11 et C12)
simulant les distorsions liées à la réponse en fréquence d’un système de transmission, sans limitation de
bande de fréquences (sous-dimension Brillance). Nous n’avons pas trouvé de condition à dégradation
unique relative à l’impact de la réverbération. Enfin, pour la dimension Sonie, nous avons considéré 2
conditions avec une atténuation du niveau sonore du signal respectivement de 10 dB et 20 dB (C13 et
C14). Dix des quatorze conditions sont représentées par 36 stimuli (4 en français, 4 en néerlandais, 4 en
suisse allemand et 24 en anglais britannique) et sont considérées comme étant des conditions d’ancrage.
Pour les conditions C6 et C7, nous n’avons trouvé que 14 et 12 stimuli en anglais respectivement
impactés par celles-ci. De même, pour les conditions C11 et C12, nous n’avons que 8 stimuli en français.
Soulignons par ailleurs que, pour garantir la fiabilité de nos résultats, il est nécessaire de compenser
l’effet de la langue sur les notes MOS subjectives de notre base de tests en particulier pour les conditions
où plusieurs langues interviennent. En effet, l’étude menée par Zielinski et al. (Zielinski et al. 2008)
quant à l’effet du corpus sur le jugement de la qualité vocale a montré que la différence de sémantique,
par exemple, entre les termes « Assez bon » et « Médiocre » en Français, n’est pas identique à leurs
équivalents dans d’autres langues, notamment en Anglais avec « Fair » et « Poor ». Ils concluent dès lors
que le jugement de la qualité vocale diffère d’une langue à l’autre d’où l’intérêt de compenser cet effet.
Pour ce faire, nous avons appliqué sur notre base de test une procédure de normalisation telle que
suggérée dans (Côté 2010b). Cette procédure est appliquée uniquement sur les conditions présentant
plusieurs langues, i.e. les 10 conditions d’ancrage. Tout d’abord, pour chaque langue, les notes MOS
subjectives des stimuli sont moyennées par condition. On obtient ainsi 10 notes subjectives moyennes
MOS LQS par langue. Ensuite, pour chaque condition, les notes subjectives MOS LQS sont moyennées sur
l’ensemble des 4 langues, conduisant à 10 nouvelles notes subjectives moyennées MOS LQS . Dès lors,
pour chaque langue, une fonction g polynomiale d’ordre 3 est estimée entre les 10 notes subjectives
MOS LQS et les 10 notes subjectives MOS LQS . Cette fonction g est appliquée à l’ensemble des notes
subjectives associées aux stimuli dans chaque langue. Par conséquent, les nouvelles notes MOS
subjectives résultantes seront considérées pour l’application du critère CO1.
- 66 -
Dimensions/
Sous Conditions de dégradations Description des conditions
dimensions
SWB (C1) Signal de Référence
Signal de référence avec du bruit non stationnaire
SWB, Babble Noise, SNR = 20 dB (C2)
Bruyance
(bruit de restaurant)
Signal de référence avec du bruit stationnaire
SWB, Hoth Noise, SNR = 12 dB (C3)
(bruit de Hoth)
SWB 2% packet/frame loss (C4) Signal de référence ayant 2% de pertes de paquets

Coupures
SWB 20% packet/frame loss (C5) Signal de référence ayant 20% de pertes de paquets
Continuité
Signal de référence codé en G722.1C

SWB, G722.1C (32), 2% PL (C6)
Artéfacts
combiné à 2% de pertes aléatoires de paquets

Additifs
Signal de référence codé en AMRWB

SWB, AMRWB+ (32), 2% PL (C7)
combiné à 2% de pertes aléatoires de paquets
SWB 100-5000 Hz (C8) Signal de référence limité à (100-5000 Hz)
Signal de référence limité à (300-3400 Hz) + Filtrage

Clarté
SWB mIRSsend + IRSrcv (C9) SRI (Système de Référence Intermédiaire) modifié

au niveau de l’émetteur et simple à la réception
SWB 500-2500 Hz (C10) Signal de référence limité à (500-2500 Hz)

Coloration
Signal de référence impacté par de faibles intensités

SWB frequency response distortion low (C11) de distorsions fréquentielles,
largeur de bande (50-14000 Hz)
Brillance
Signal de référence impacté par de distorsions

SWB frequency response distortion medium (C12) fréquentielles d’intensité moyenne, largeur de bande
(50-14000Hz)
Niveau sonore du signal de référence atténué de 10

SWB, Level -10 dB (C13)
dB
Sonie
Niveau sonore du signal de référence atténué de 20

SWB, Level -20 dB (C14)
dB
Tableau 2.2. Récapitulatif des conditions de dégradations utilisées pour tester les performances des indicateurs de qualité.
La deuxième colonne (Conditions de dégradations) correspond à la description des conditions de dégradations telle que
définie dans la norme P.863 (ITU-T 2011a)
- 67 -
2.3.3. Evaluation des performances des indicateurs
Pour l’application des critères CO1 et CO2, il est préférable de transposer les valeurs des indicateurs
sur une échelle MOS. Pour cela, on détermine une fonction de mappage (i.e. assurant une projection des
valeurs de l’indicateur vers des valeurs sur l’échelle MOS) optimale pour chaque indicateur. Dans le
chapitre 1, § 1.4.3.2.1, nous avons vu qu’une fonction de mappage peut être estimée à partir d’une
méthode d’apprentissage automatique ou d’une régression polynomiale. Nous avons également vu que la
première approche est difficile à interpréter du fait de sa complexité et sa mise en œuvre requiert une
quantité importante de stimuli. Dans notre étude, nous avons opté pour la régression polynomiale de par
sa simplicité d’implémentation et d’interprétation, et sa capacité à établir une relation de causalité entre
les valeurs des indicateurs et les notes subjectives correspondantes sans requérir une grande quantité de
stimuli. Elle consiste à minimiser au sens des moindres carrés la quantité suivante :
2
M  n j
    MOS-LQS  i    a j   I q  i    (2.71)
i 1  j 0 
Où  est l’erreur de prédiction, M et MOS-LQS correspondent respectivement au nombre total des
valeurs des indicateurs associées aux stimuli et aux notes subjectives correspondantes. Quant aux
paramètres a j  j 1,...,n  , ils représentent les coefficients du polynôme. Cependant, pour déterminer
qualitativement cette fonction de mappage d’un indicateur donné, il faut que les notes subjectives
reflètent entièrement l’impact de la dégradation considérée. C’est la raison principale pour laquelle nous
avons utilisé des conditions ne contenant qu’un seul type de dégradation.
Pour déterminer la fonction de mappage optimale de chaque indicateur, nous avons simulé, sous
Matlab, une régression polynomiale, à l’aide de la fonction « regress », dont un exemple est illustré
Figure 2.5 pour trois degrés de polynôme ( n  1 , 2 et 3 ). Les notes subjectives sont représentées en
fonction des valeurs de l’indicateur. L’idée est de faire varier l’ordre du polynôme jusqu’à obtenir un
meilleur compromis entre le coefficient de détermination (R2) et l’EQM. Cette procédure est appliquée à
l’ensemble des indicateurs. Nous avons trouvé que l’ordre optimal pour l’ensemble des indicateurs est
obtenu pour n  3 . Par conséquent, l’équation (1.13) devient
MOS p  a3  I q3  a2  I q2  a1  I q  a0 . (2.72)
2
Notons au passage que le coefficient de détermination (R ) permet d’apprécier la qualité de la régression.
Sa racine carrée correspond au coefficient de corrélation  (celui de Pearson) entre les notes subjectives
et les notes vocales estimées (i.e. les notes prédites). C’est ce dernier coefficient qui est utilisé pour
évaluer les performances des indicateurs suivant le critère CO1. Quant au critère CO2, il consiste à
prédire la qualité en présence des défauts pour lesquels l’indicateur testé n’a pas été conçu, en utilisant
l’équation (2.72). La Figure 2.6 illustre l’exemple de la prédiction de la qualité vocale de l’indicateur
Freq en présence de défauts de la dimension Continuité. La note prédite globale pour cette dimension est
donc obtenue en moyennant les notes sur l’ensemble des stimuli (critère CO2).
Dans les sections suivantes, les différents indicateurs seront évalués suivant les critères CO1 et CO2.
- 68 -
2.3.3.1. Performances des indicateurs de la dimension Bruyance

Rappelons que pour les conditions utilisées pour tester les performances des indicateurs de cette
dimension, le bruit est présent à la fois dans les zones d’activité vocale et de silence. D’après le Tableau
2.3, les indicateurs Noise de POLQA et Ln, NoS et Plin de DIAL remplissent les conditions des critères de
performances (   0,9 et MOS p  3 ). Les plus faibles performances en termes de corrélation sont
obtenues par les indicateurs NoiseContrast de POLQA et Vn et SF de DESQHI (   0,73 ; 0,73 et
0,77 respectivement) qui ne respectent donc pas le critère CO1. Néanmoins, on constate qu’ils sont
robustes aux autres types de dégradations ( MOS p  3 ).
En conséquence, les indicateurs Noise, Ln, NoS et Plin sont fiables et robustes pour le diagnostic des
défauts de la dimension Bruyance.
n = 1, R2 = 0,8 /  = 0,09 n = 3, R2 = 0,83 /  = 0,08 n = 3, R2 = 0,84 /  = 0,07
5 5 5
MOS-LQS MOSLQS MOS-LQS
Fonct ion de mappage Fonct ion de mappage Fonct ion de mappage
4.5 4.5 4.5
4 4 4
MOS-LQS
MOS-LQS
3.5 3.5 MOS-LQS 3.5
3 3 3
2.5 2.5 2.5
2 2 2
2 4 6 8 2 4 6 8 2 4 6 8
Freq Freq Freq
(a) (b) (c)

Figure 2.5. Détermination de la fonction de mappage optimale à l’aide de la fonction « regress » de Matlab : régression
polynomiale d’ordre n avec (a) n = 1, (b) n = 2 et (c) n = 3
MOSp = 0.054*Freq3 -0.75*Freq2+ 2.8*Freq + 1.4

5
4.5
3.5
MOS prédite
2.5
1.5
1
2 2.5 3 3.5 4
Freq
Figure 2.6. Prédiction de la qualité de l’indicateur Freq dans les
conditions C4-C7 de la dimension Continuité
- 69 -
Conditions C1, C2, C3 C4, …, C7 C8,…, C12 C13, C14

Indicateurs (Bruyance) (Continuité) (Coloration) (Sonie)
Noise 0,95 4,01 4,19 4,49
NoiseContrast 0,73 4,20 4,75 4,18
Ln 0,95 4,50 4,50 4,50
NoS 0,93 4,29 4,35 4,45
Plin 0,94 3,65 3,46 4,49
Vn 0,73 4,75 4,75 4,75
SF 0,77 4,24 4,37 4,30
Tableau 2.3. Performances des indicateurs de la dimension Bruyance suivant les critères CO1 et CO2. Les cellules en gris
représentent les corrélations entre les nouvelles notes subjectives résultant de la compensation du corpus (cf. § 2.3.2) et les
notes prédites issues des indicateurs CO1. Les autres valeurs correspondent aux notes prédites suivant le critère (CO2).
Les conditions en gris sont celles utilisées pour l’application du critère CO1
2.3.3.2. Performances des indicateurs de la dimension Continuité
Pour mémoire, comme Plin de DIAL et Ii (i = 1, …, 5) de DESQHI permettent d’estimer à la fois les sous-
dimensions Coupures et Artéfacts Additifs, les critères de performances de ces indicateurs sont donc
appliqués pour chaque sous-dimension.
Concernant la sous-dimension Coupures, le Tableau 2.4 montre que l’indicateur rL de DIAL respecte
les critères de performances (   0,97 ; MOS p  4 ). L’indicateur Timeclip de POLQA présente
également de très bonnes performances en termes de corrélation (   0,93 ) mais est impacté par les
artéfacts ( MOS p  1,62 ) et les défauts liés à la dimension Coloration ( MOS p  1,73 ). Les mêmes
résultats sont observés pour l’indicateur Plin de DIAL (   0,97 ; MOS p  2,06 en présence d’artéfacts).
Les plus faibles performances en termes de corrélation sont obtenues par les indicateurs rI de DIAL et Ii (i
= 1, …, 5), qui ne remplissent pas le critère CO1. Quant aux indicateurs de la sous-dimension Artéfacts
Additifs, tous ne respectent pas le critère CO1. Néanmoins, on constate que l’indicateur rA de DIAL
présente une corrélation supérieure à 0,8 et respecte le critère CO2.
Pour conclure :
- seul l’indicateur rL de DIAL est pertinent pour quantifier qualitativement l’impact des coupures
sur la qualité vocale ;
- quant à la sous-dimension Artéfacts Additifs, l’indicateur rA semble être un bon candidat.
- 70 -
C1, C4, C5 C1, C6, C7

Conditions C2, C3 C8,…, C12 C13, C14
Coupures A.A.
Indicateurs (Bruyance) (Coloration) (Sonie)
(Continuité)
Timeclip 4,75 0,93 1,62 1,73 4,75
rL 4,49 0,97 4,41 4,09 4,49
rI 3,10 0,22 3,09 3,10 3,10
Plin 4,75 0,97 2,06 4,75 4,46

Coupures
I1 2,95 0,22 1,26 4,75 1,00

I2 2,98 0,12 4,52 2,97 4,75
I3 3,02 0,18 1,37 4,75 1,00
I4 4,07 0,64 3,16 3,07 3,44
I5 3,17 0,27 4,75 3,87 4,75
Framerepeat 3,73 3,79 0,20 3,78 3,77
rA 3,01 4,17 0,81 3,28 3,10
Artéfacts Additifs (A.A.)
Plin 4,75 4,06 0,78 4,10 4,51

I1 3,56 1,51 0,68 3,74 1,00
I2 3,90 4,75 0,45 3,94 4,75
I3 3,75 1,53 0,79 3,81 1,00
I4 2,11 3,67 0,25 3,18 3,63
I5 3,92 4,75 0,30 4,10 4,75
Tableau 2.4. Performances des indicateurs de la dimension Continuité suivant les critères CO1 et CO2. Les cellules en gris
notes prédites issues des indicateurs CO1. Les autres valeurs correspondent aux notes prédites suivant le critère CO2. Les
conditions en gris sont celles utilisées pour l’application du critère CO1
2.3.3.3. Performances des indicateurs de la dimension Coloration

Les performances des indicateurs de cette dimension sont illustrées dans le Tableau 2.5. Dans la
section 2.2.3, nous avons montré que les indicateurs Freq, Flatness, Itimbre de POLQA et Icod de DESQHI
quantifient à la fois les sous-dimensions Clarté et Brillance. Par conséquent, les critères CO1 et CO2 sont
appliqués sur ces indicateurs pour chaque sous-dimension. Par ailleurs, dans notre base de test, nous ne
disposons pas de conditions relatives à la réverbération. Il s’ensuit que les performances de l’indicateur
Reverb de POLQA ne pourront être évaluées.
Du point de vue de la sous-dimension Clarté, le Tableau 2.5 montre que les indicateurs Freq de
POLQA et Erb de DIAL respectent les deux critères de performances (   0,92 ; MOS p  3,5 ). Quant
aux indicateurs Flatness et Itimbre de POLQA et Icod de DESQHI, ils présentent les plus faibles
performances en termes de corrélation (   0,14 , 0,23 et 0,1 respectivement) et ne sont donc pas fiables
pour la quantification des limitations de bande de fréquences. Concernant la sous-dimension Brillance, on
note que les indicateurs fc de DIAL et Icod de DESQHI remplissent les critères CO1 et CO2 (   0,9 et
- 71 -
MOS p  4,5 ). L’indicateur Freq présente de bonnes performances en termes de corrélation (   0,92 )
mais est impacté par les limitations de bande de fréquences ( MOS p  2,5 ).
C1, C8, C9, C10 C1, C11, C12

Conditions C2, C3 C4,…, C7 C13, C14
Clarté Brillance
Indicateurs (Bruyance) (Continuité) (Sonie)
(Coloration)
Freq 4,47 4,54 0,92 3,57 4,50
(limitation de bande
Erb
de fréquences)
4,44 4,41 0,92 4,10 4,50

Clarté
Flatness 3,48 3,54 0,14 3,42 3,50

Itimbre 3,2 3,2 0,23 3,2 3,2
Icod 1,10 3,65 0,1 3,64 3,64
Freq 4,65 4,66 2,59 0,89 4,54
fc 4,75 4,75 4,23 0,91 4,75
Brillance
Flatness 3,30 4,69 4,75 0,49 4,15

Itimbre 3,41 3,52 3,78 0,53 3,1
Icod 4,75 4,75 4,75 0,86 4,75
Tableau 2.5. Performances des indicateurs de la dimension Coloration suivant les critères CO1 et CO2. Les cellules en gris
notes prédites issues des indicateurs (CO1). Les autres valeurs correspondent aux notes prédites suivant le critère (CO2).
Ce résultat était attendu puisque cet indicateur permet de quantifier aussi bien la Brillance que la
Clarté. Quant aux indicateurs Flatness et Itimbre de POLQA, ils affichent une fois de plus les plus faibles
performances en termes de corrélation (   0,49 et 0,53 respectivement).
En résumé :
- les indicateurs Erb et fc de DIAL sont fiables et robustes pour diagnostiquer respectivement les
limitations de bande de fréquences et la brillance ;
- l’indicateur Freq permet de diagnostiquer globalement la dimension Coloration ;
- quant à l’indicateur Icod de DESQHI, en dépit de ses faible performances en termes de prédiction
de la qualité en présence de limitation de bande de fréquences, il s’est révélé pertinent pour la
modélisation de la Brillance ;
- enfin, concernant les indicateurs Flatness et Itimbre de POLQA permettant de quantifier les
distorsions liées aux timbres de la voix, ils présentent les plus faibles performances en termes de
prédiction de la qualité. Ces résultats peuvent s’expliquer par le fait que les conditions de
dégradations relatives à la Coloration que nous avons considérées n’ont pas d’impact sur le timbre
de la voix. Par conséquent, les performances de ces indicateurs devront être vérifiées sur des bases
sonores dans lesquelles les distorsions liées au timbre seront explicitement présentes.
2.3.3.4. Performances des indicateurs de la dimension Sonie

Les indicateurs Level de POLQA et Leq et Ltl de DIAL ne respectent pas le critère CO1 comme cela est
illustré dans le Tableau 2.6. Néanmoins, ces trois indicateurs ont une corrélation supérieure à 0,82 et une
prédiction de la qualité supérieure à 4,5 pour les autres types de défauts.
- 72 -
Conditions C2, C3 C4, …, C7 C8,…, C12 C1, C13, C14

Level 4,38 4,57 4,63 0,82
Leq 4,53 4,57 4,49 0,85
Ltl 4,49 4,48 4,48 0,84
Tableau 2.6. Performances des indicateurs de la dimension Sonie suivant les critères CO1 et CO2. Les cellules en gris
notes prédites issues des indicateurs CO1. Les autres valeurs correspondent aux notes prédites suivant le critère CO2.
2.4. Conclusion
Dans ce chapitre, nous avons présenté les performances des indicateurs de qualité que nous avons
identifiés et extraits de 3 modèles objectifs récents d’évaluation de la qualité vocale (UIT-T P.863 ou
POLQA (ITU-T 2011a), DIAL (Côté 2010b) et DESQHI (Leman 2011). L’objectif principal était de
sélectionner des indicateurs fiables pour le diagnostic des défauts perçus dans un contexte de
communication téléphonique en bande super-élargie (50-14000 Hz). Pour ce faire, nous avons considéré
une base de test contenant des conditions de dégradation relatives aux quatre dimensions perceptives
présentées dans le chapitre 1 (Bruyance, Continuité, Coloration et Sonie) sur lesquelles sera fondé notre
futur outil de diagnostic. Les performances des indicateurs identifiés ont été évaluées sur la base de
critères objectifs spécifiques. Au vu des résultats obtenus, nous avons abouti aux conclusions suivantes :
 pour la dimension Bruyance, seuls les indicateurs Noise de POLQA, Ln, NoS et Plin de DIAL sont
pertinents pour quantifier l’impact global du bruit sur la qualité vocale ;
 concernant la dimension Continuité, nous avons trouvé que seul l’indicateur rL de DIAL est
pertinent pour le diagnostic des coupures apparaissant lors des communications téléphoniques.
Les indicateurs Timeclip de POLQA et Plin présentent de bonnes performances en termes de
prédiction de la qualité vocale en présence de coupures mais sont impactés par d’autres défauts
notamment par les artéfacts. Concernant l’effet des artéfacts, seul l’indicateur rA de DIAL obtient
les meilleures performances (   0,81 ; MOS p  3 ). Par ailleurs, nous n’avons pas trouvé
d’indicateur pour quantifier la sous-dimension Bruit Musical. Par conséquent, nous envisageons
de développer de nouveaux indicateurs et/ou d’optimiser les indicateurs existants afin de
modéliser correctement cette sous-dimension ;
 quant à la dimension Coloration, les indicateurs Freq de POLQA, Erb et fc de DIAL et Icod de
DESQHI sont fiables et robustes pour diagnostiquer respectivement les distorsions liées à la
réponse fréquentielle du système de transmission (tant les limitations de bande de fréquences que
la brillance), les limitations de bande de fréquences et la brillance du signal de parole. Concernant
les indicateurs Flatness, Itimbre de POLQA, les résultats que nous avons obtenus ne nous
permettent pas de conclure sur leurs performances. Par conséquent, l’évaluation de leurs
performances nécessitera de nouvelles bases sonores contenant des conditions relatives aux
distorsions du timbre. Quant à l’indicateur Reverb, ses performances n’ont pas été évaluées car
notre base de test ne contenait aucune condition relative à l’effet de réverbération. Cet indicateur
nécessite des investigations supplémentaires pour tester qualitativement ses performances.
- 73 -
 enfin, pour la dimension Sonie, les indicateurs Level de POLQA, Leq et Ltl de DIAL, malgré une
corrélation relativement inférieure à 0,9 avec les notes subjectives, se révèlent fiables et robustes
pour le diagnostic de l’atténuation du niveau sonore global du signal de parole.
Pour la suite de notre étude, nous envisageons de modéliser la dimension Bruyance suivant l’approche
de Leman (Leman 2011) puisqu’elle permet de fournir des informations sur la nature du bruit de fond
perçu lors des communications téléphonique et donc d’orienter vers les causes possibles de ce bruit. En ce
qui concerne la modélisation de la dimension Continuité, elle sera fondée sur la découpe en sous-
dimensions proposée dans (Huo et al. 2008b) mais avec la prise en compte d’autres types de
discontinuités, notamment les variations abruptes observées dans le niveau sonore du signal de parole.
Quant à la dimension Coloration, nous disposons d’indicateurs fiables pour la modélisation des sous-
dimensions Clarté et Brillance. Cela étant, nous proposons de développer un module permettant
d’obtenir des informations sur la nature du/ou des codec(s) présent dans les systèmes de transmission.
Nous expliquerons ce choix au début du chapitre 5. Enfin, pour la dimension Sonie, sa modélisation ne
nécessitera pas d’importantes investigations puisque les différents indicateurs que nous avons présentés
sont fiables et robustes.
- 74 -
Chapitre 3 Modélisation de la dimension Bruyance
Chapitre 3
Modélisation de la dimension Bruyance
Nous avons vu, dans le chapitre 1, que la dimension Bruyance est relative à l’ensemble des bruits de
fond présents dans les conversations téléphoniques superposés ou non au signal de parole. Etant donné
que, dans notre étude, nous nous limitons au contexte d’écoute, les types de bruits considérés concernent
seulement ceux présents dans l’environnement du locuteur et ceux produits dans le réseau (i.e. on exclut
ceux présents dans l’environnement de l’auditeur). Par ailleurs, nous avons souligné dans le chapitre
précédent l’intérêt des travaux réalisés par Leman et al. (Leman et al. 2008; 2009b) sur la dimension
Bruyance dans la mesure où ils permettent d’obtenir des informations précises sur la nature du bruit et sur
son impact perceptif. Ces travaux vont nous servir de base pour la modélisation de la dimension Bruyance.
3.1. Hypothèses
Des tests subjectifs ont été menés par Leman et al. (Leman et al. 2008) sur une base sonore contenant
des conditions relatives aux bruits d'environnement (bruit de voiture, de restaurant, …) et de réseau (bruit
électrique, ….), afin d’étudier l’influence du bruit de fond sur la qualité vocale dans un contexte de
communication en bande étroite. L’analyse des résultats issus de ces tests a montré que la qualité vocale
dépend de trois facteurs :
 le niveau sonore du bruit ;
 les propriétés physiques du bruit : elles concernent la stationnarité du bruit, les bruits de réseau
étant généralement stationnaires tandis que ceux issus de l’environnement sont non stationnaires ;
 le contenu informationnel : lorsque la source de bruit est identifiée par l’auditeur, ce bruit n’est
pas vraiment assimilé à une dégradation de la télécommunication mais davantage considéré
comme un bruit naturel. A contrario, lorsque le bruit n’est pas identifié, il est généralement
considéré comme étant une dégradation gênante.
Cette étude a permis de mettre en exergue quatre sous-dimensions ou classes de bruit (cf. Figure 3.1.a) :
 Bruits intelligibles : constituée essentiellement de bruits très fluctuants tels que de la parole ou de
la musique, cette classe est caractérisée par une forte indulgence lors de l'évaluation de la qualité
vocale ;
 Bruits d’environnement : cette classe concerne les bruits de nature non stationnaire en général
(bruit de ville, de restaurant, …) et pouvant fournir des informations supplémentaires à l'auditeur
notamment la localisation du locuteur. Ces types de bruit provoquent une certaine indulgence lors
de l’évaluation de la qualité vocale ;
 Bruits de souffle : cette classe regroupe l'ensemble des bruits de type stationnaire et n'ayant pas de
contenu informationnel (bruits de quantification, bruit de sèche cheveux, …) ;
 Bruits de grésillement : cette classe reflète les bruits stationnaires provenant du réseau, comme le
bruit électrique, et provoquant une très forte dégradation de la qualité vocale.
- 75 -
Sur la base de ces résultats, un modèle non intrusif (Leman et al. 2009b) fondé sur l’analyse du signal
de parole a été proposé afin de classifier automatiquement les bruits de fond en fonction de ces quatre
classes de bruits ainsi que pour prédire la qualité vocale de chaque classe. Les tests subjectifs décrits dans
(Leman et al. 2008) ont ensuite été étendus aux signaux en bande élargie et conduisent aux résultats
présentés sur la Figure 3.1.b. De cette étude, il ressort que les classes Bruits intelligibles,
d’environnement et de souffle ne se distinguent que pour des niveaux sonores élevés de bruits de fond
(Leman 2011).
Dans ce chapitre, nous proposons d’étendre le domaine d’application de ces études (Leman et al. 2008;
2009) aux signaux en bande super-élargie. Pour ce faire, dans un premier temps, un test subjectif a été
effectué afin d’analyser l’influence du bruit de fond sur la qualité vocale dans un contexte de
communication téléphonique en bande super-élargie. Puis, à partir des classes identifiées lors de l’analyse
des résultats du test subjectif, nous proposons une modélisation de la dimension Bruyance. Ce chapitre
s'attachera donc à présenter les tests subjectifs et leurs résultats (§ 3.2 et 3.3), ainsi que le modèle que
nous avons déduit pour la dimension Bruyance (§ 3.4).
(a) (b)
Figure 3.1. Evolution des notes subjectives en fonction du type du bruit et du niveau sonore du bruit dans un contexte
de communication téléphonique en (a) bande étroite et en (b) bande élargie, extrait de (Leman 2011)
3.2. Réalisation du test subjectif d’évaluation de la qualité vocale
Pour étudier qualitativement l’impact du bruit de fond sur la qualité vocale, un test subjectif a été
réalisé à partir d’une base sonore contenant des échantillons de parole dégradés par différentes conditions
de bruit. Les procédures de réalisation de ce test sont décrites dans cette partie.
- 76 -
3.2.1. Description des échantillons sonores
3.2.1.1. Signaux de parole

Trois doubles-phrases prononcées par quatre locuteurs (deux hommes et deux femmes) ont été
sélectionnées dans une base sonore phonétiquement équilibrée d’Orange Labs, soit 12 échantillons de
parole. Un silence de deux secondes est présent au milieu de chaque double-phrase, ce qui permet de bien
percevoir l’effet du bruit de fond dans chaque échantillon. La durée totale de chaque échantillon est de
huit secondes. Ces signaux de parole ont ensuite été échantillonnés à 48 kHz, avec une quantification sur
16 bits et ensuite dégradés par l’ajout de bruits de natures différentes et décrits dans la section suivante.
3.2.1.2. Bruits
Tout comme dans (Leman et al. 2008), deux groupes de bruit de fond (bruits issus d’environnements
bruyants réels et bruits issus du réseau) ont été considérés, couvrant l’ensemble des bruits rencontrés lors
des communications téléphoniques :
 bruits issus d’environnements bruyants réels : ces types de bruits concernent ceux présents
dans l’environnement où a lieu la communication. Dans notre étude, six bruits de fond (contre
trois utilisés dans (Leman et al. 2008)) ont été extraits dans la base sonore de l’ETSI (ETSI
2011) :
 un bruit de salle de sport, enregistré dans une salle de gymnastique ;
 un bruit d’école maternelle, composé d’un mélange de cris d’enfants ;
 un bruit de TGV provenant de l'intérieur d’un TGV et présentant un mélange de parole et
de bruit stationnaire fortement dominant ;
 un bruit de cantine constitué d’une conversation incompréhensible combinée à des bruits
d'assiettes entrechoquées ;
 un bruit de trafic routier comprenant des bruits dus à l'accélération de voitures et à des
klaxons ;
 un bruit de voiture enregistré à l’intérieur d’une voiture roulant à vitesse constante.
 bruits issus du réseau : ces bruits peuvent provenir de phénomènes d’interférences liés au
courant alternatif (bruit électrique) ou être dus à des techniques de codage (bruit de
quantification). Trois bruits de réseau ont été considérés :
 un bruit marron aléatoire ayant des composantes fréquentielles sur toute la bande et
présentant une diminution de 6 dB par octave ;
 un bruit rose aléatoire ayant les mêmes caractéristiques que le bruit marron mais
présentant une diminution de 3 dB par octave ;
 un bruit électrique simulé par un signal harmonique de forme rectangulaire (dans le
domaine temporel) et de fréquence fondamentale 50 Hz.
Ces neuf bruits sont échantillonnés à 48 kHz et quantifiés sur 16 bits. La DSP de ces différents bruits
est illustré sur la Figure 3.2. Afin de couvrir la gamme des niveaux de bruits rencontrés dans les
télécommunications actuelles, nous avons choisi, pour chaque bruit, cinq valeurs de RSB (0, 10, 20, 30 et
40 dB) soit un total de 45 conditions de dégradation.
- 77 -
3.2.2. Pré-égalisation du niveau sonore des bruits
Pour garantir la fiabilité des résultats du test subjectif, les neuf bruits considérés doivent avoir le même
niveau de perception. En effet, du point de vue de la perception humaine, il existe de grandes différences
dans le niveau perçu entre des bruits ayant le même RSB. Cet effet s’explique d’une part par la nature des
bruits (stationnaire ou non) et d’autre part par le fait que l’oreille humaine est moins sensible aux basses
fréquences qu’aux hautes fréquences. Pour pallier ces inconvénients, nous avons choisi de pré-filtrer ces
neuf bruits avec un filtre appelé filtre de pondération A (IEC 2005). Le filtre de pondération A est un
filtre de pondération fréquentielle dont le spectre correspond approximativement à l’inverse de la courbe
d’audition humaine (cf. Figure 1.3). L’intérêt de ce filtre est qu’il prend en compte la sensibilité de
l'oreille. En pondérant ainsi ces bruits, nous obtenons des bruits ayant le même niveau sonore perceptif
pour un même RSB. Le niveau du bruit est alors exprimé en dBA. Pour égaliser perceptivement le niveau
du bruit de fond, le filtre de pondération A qui est appliqué à un bruit a pour équation :
RA  f  

122002  f 4  f 2  122002  , (3.1)
f 2
  20,6  
2
 f 2 2

 107,7   f   737,9 
2 2

où RA  f  est le filtre de pondération A, et f la fréquence en Hz. Un ajustement du niveau du bruit
résultant du filtrage est ensuite effectué afin d’obtenir le RSB désiré.
60 60
Bruit marron Bruit de TGV
Bruit rose Bruit de voiture
40 Bruit électrique 40 Bruit de salle de sport
20 20
DSP (dB)
DSP (dB)
0 0
-20 -20
-40 -40
-60 -60
0 4000 8000 12000 16000 0 4000 8000 12000 16000
- 78 -
60
Bruit d'école maternelle
Bruit de trafic routier
40 Bruit de cantine
20
DSP (dB)
-20
-40
-60
0 4000 8000 12000 16000
Fréquence (Hz)
Figure 3.2. DSP des différents bruits de fond considérés lors de la construction de la base sonore
3.2.3. Construction de la base sonore
La Figure 3.3 décrit les différentes étapes de construction de la base sonore. Cette base est construite
de sorte à simuler des extraits de communication réelle en bande super-élargie, à partir des 12
échantillons de parole (cf. § 3.2.1.1) et des 9 bruits de fond (cf. § 3.2.1.2). Tout d’abord, les signaux de
parole et les bruits ont été sous-échantillonnés à 32 kHz (fréquence d’entrée du codec utilisé) puis soumis
à un filtrage afin d’obtenir une bande de fréquences allant de 50 à 14000 Hz (bande super-élargie). Les
signaux résultants ont ensuite été égalisés à -26 dBov conformément à la norme P.56 de l’UIT-T (UIT-T
1993). Le signal bruité est obtenu en mixant le signal de parole au bruit préalablement pondéré par le
filtre de pondération A (cf. § 3.2.2). Ce signal bruité a été égalisé à -26 dBov (l’ajout de bruit a modifié
ces niveaux, surtout à faibles RSB), codé puis décodé avec le codec SWB G.729.1 annexe E (ITU-T
2010b). Le signal dégradé est finalement obtenu en sur-échantillonnant le signal bruité résultant à 48 kHz.
Ce processus est appliqué à l’ensemble des douze signaux et des neuf bruits de fond aux cinq niveaux de
RSB présélectionnés soit un total de 540 stimuli (signaux dégradés). Par ailleurs, pour assurer la fiabilité
du test subjectif, trois nouvelles conditions de dégradation servant de conditions d’ancrage ont été
considérées. La première condition ne contient aucune dégradation (i.e. signal de référence). Quant à la
seconde condition, elle est relative à un simple codage en G.729.1 annexe E (ITU-T 2010b). La troisième
condition correspond à du bruit marron avec un niveau sonore de -5dB. Ces conditions ont été appliquées
aux 12 échantillons de parole pour un total de 36 stimuli supplémentaires. Au total 576 stimuli ont été
construits. Notons par ailleurs que les 36 stimuli supplémentaires ne serviront que pour le test subjectif.
Pour la suite de notre étude, nous ne considérons que les 540 stimuli.
- 79 -
Passage à 32 Egalisation à Mixage

kHz + filtrage -26dBov
[50-14000 Hz] (ITU-T P56)
Signal vocal Signal vocal Signal vocal

Fe = 48 kHz, q = 16 bits Signal vocal
+
Bruit
Bruit Gain
Bruit Bruit
Fe = 48 kHz, q = 16 bits
Pondération
loi A
Passage à Codage+Décodage Egalisation à

48kHz (G729.1E) -26dBov
Signal dégradé Signal bruité Signal bruité Signal bruité

Fe = 48 kHz, q = 16 bits
Figure 3.3. Récapitulatif des étapes de construction de la base sonore
3.2.4. Plan du test subjectif
Le test subjectif a été réalisé à partir de la base sonore afin d’étudier l’influence du bruit de fond sur la
qualité vocale. Pour ce faire, 24 personnes naïves (dont 12 hommes et 12 femmes) âgées de 18 à 40 ans
ont été recrutées afin d’évaluer la qualité vocale des différents stimuli. Ce test a été réalisé par groupes de
huit sujets avec un ordre aléatoire de présentation des stimuli, et en utilisant des casques binauraux
« Sennheiser HD 280 pro ». La méthodologie du test subjectif considérée pour cette étude est la méthode
DCR (cf. chapitre 1, §1.4.2.2.2) en lieu et place de l’ACR couramment utilisée. Ce choix s’explique par le
fait qu’au sein de notre laboratoire de recherche nous ne disposons pas de conditions d’ancrage adaptées
au test ACR pour des signaux en bande super-élargie, ce qui n’est pas le cas pour le test DCR (cf. § 3.2.3).
Néanmoins, l’analyse des résultats de la méthode DCR est conduite semblablement à celle qui pourrait
être réalisée pour des résultats issus d’un test ACR.
Lors du test, les 576 stimuli introduits précédemment sont présentés aux participants. Ces derniers
écoutent successivement deux stimuli, dont le premier correspond au signal de référence et le second au
signal dégradé, et évaluent la qualité vocale du stimulus dégradé par rapport à celui de référence. Avant
de débuter le test proprement dit, une phase d’apprentissage est réalisée afin de s’assurer que les
participants respecteront bien les différentes consignes du test. La durée totale du test est de 2 heures,
phase d’apprentissage incluse. Le Tableau 3.1 résume le plan de test subjectif considéré dans notre étude.
Méthodologie du test subjectif DCR
Type de restitution sonore Ecoute binaurale avec le casque « Sennheiser HD 280 pro »
Participants au test 24 personnes (12 hommes et 12 femmes) âgées de 18 à 40 ans
Base sonore 576 stimuli (12 échantillons de parole × 48 conditions de dégradation)
Durée du test 2h
Tableau 3.1. Récapitulatif du plan de test subjectif
- 80 -
3.3. Analyse des résultats du test subjectif
Lors de la construction de la base sonore (cf. 3.2.3), quatre variables ont été considérées : le type de
bruit (au nombre de 9), le niveau du bruit (en termes de RSB) (5), le locuteur (4) et la phrase prononcée
(3). Une analyse statistique a été effectuée sur les résultats issus du test subjectif afin de déterminer les
variables ayant une influence significative sur la qualité vocale en présence de bruit de fond. Dans notre
étude, nous avons adopté, tout comme dans (Leman et al. 2008), l’analyse de la variance ou ANOVA
(ANalysis Of VAriance) qui est une méthode appropriée à l’identification des variables les plus
significatives et les plus influentes sur les notes subjectives. Nous avons choisi l’ANOVA à mesures
répétées à 4 facteurs, les 24 participants octroyant chacun une note pour une même condition, les
conditions de dégradation étant constituées de 4 variables (type de bruit, RSB, phrase et locuteur).
L’intérêt de cette méthode est qu’elle permet de vérifier l’effet de l’interaction entre les variables sur la
qualité vocale. Toutefois, pour assurer l’efficacité de cette méthode d’analyse, les données doivent
obligatoirement avoir une distribution normale, ce qui a effectivement été vérifié grâce au test de
Lilliefors pour chaque condition de dégradation. Les résultats de cette analyse statistique sont présentés
dans le Tableau 3.2.
Effet SC DL MC F p
Type de bruit 217 8 27 81 0,000*
RSB 4374 4 1094 3265 0,000*
Locuteur 1 3 0 1 0.654
Phrase 1 2 0 1 0.422
Type de bruit & RSB 100 32 3 9 0,000*
Type de bruit & Locuteur 6 24 0 1 0.866
RSB & Locuteur 1 12 0 0 0.982
Type de bruit & Phrase 6 16 0 1 0.279
RSB & Phrase 6 8 1 2 0,023
Locuteur & Phrase 1 6 0 1 0.695
Type de bruit & RSB & Locuteur 25 96 0 1 0.946
Type de bruit & RSB & Phrase 63 64 1 3 0,020
Type de bruit & Locuteur & Phrase 10 48 0 1 0,984
RSB & Locuteur & Phrase 7 24 0 1 0,664
Type de bruit & RSB & Locuteur & Phrase 53 192 0 1 0,957
Tableau 3.2. ANOVA répétée à 4 facteurs sur les résultats du test subjectif. SC, DL, MC, F et p désignent respectivement
la somme des carrés des écarts, le degré de liberté, la moyenne au carré, la valeur statistique et la probabilité de
dépassement. (*) indique le rejet de l’hypothèse stipulant qu’une variable n’a pas d’effet sur les notes subjectives avec un
taux d’erreur de 5%
Dans l’analyse des résultats de l’ANOVA, deux facteurs importants sont à considérer : la valeur
statistique F et la probabilité de dépassement p. Le premier facteur permet de vérifier s’il existe un
effet d’une variable indépendante sur la variable dépendante (i.e. les notes subjectives). Sa valeur n’a
d’importance qu’en fonction de la probabilité de rejeter l’hypothèse selon laquelle une variable donnée
n’a pas d’effet sur les notes subjectives et représentée par des étoiles. Une seule étoile (*) indique que la
valeur statistique F est significative avec un taux d’erreur de 5%. L’absence d’étoile signifie que l’on ne
peut se prononcer sur l’influence de la variable concernée sur les notes subjectives. Par ailleurs, la valeur
- 81 -
statistique à elle seule ne permet pas d’appréhender qualitativement les résultats obtenus, d’où l’intérêt de
la probabilité de dépassement p. Le facteur p indique le niveau de significativité de la variable testée.
Ainsi, plus la valeur de p est petite (en règle générale, la valeur de p est comparée aux seuils 0,05, 0,01,
0,001, voire une valeur inférieure), plus la variable considérée a une influence significative sur les notes
subjectives. D’après le Tableau 3.2, on constate que trois variables influencent l’évaluation de la qualité
vocale :
 RSB (F = 3265 ; p < 0,001) ;
 Type de bruit (F = 81 ; p < 0,001) ;
 Interaction Type de bruit & RSB (F = 9 ; p < 0,001).
Ainsi, il s'avère que la qualité vocale en présence de bruit de fond est influencée non seulement par le
niveau du bruit et le type de bruit, mais aussi par l’interaction de ces deux facteurs 3. Ces résultats étaient
attendus et confirment les conclusions d’A. Leman (Leman, 2012) sur les facteurs du bruit qui influencent
la qualité vocale. La Figure 3.4 illustre l’évolution des notes subjectives en fonction des types de bruit et
du RSB. Les différentes courbes sont obtenues en moyennant les notes subjectives suivant les 24
participants au test et les 12 phrases.
D’après la Figure 3.4, la qualité vocale décroît quasi-linéairement avec la diminution du RSB. De plus,
on distingue trois classes de bruit de fond dont les deux premières se différencient à partir d'un RSB
inférieur à 30 dB :
 Classe 1 : cette classe regroupe les bruits ayant des notes DMOS les plus élevées et est constituée
par les bruits de voiture, de salle de sport, de trafic routier, de cantine, et d’école maternelle ;
 Classe 2 : constituée des bruits marron, rose et de TGV, cette classe est relative aux bruits ayant
des notes DMOS inférieures à la première classe ;
 Classe 3 : elle est relative aux bruits de note DMOS les plus faibles et comprend uniquement le
bruit électrique.
Une analyse plus approfondie de ces résultats révèle que la classe 1 est constituée de tous les bruits
issus de l’environnement (bruit de voiture, de salle de sport, de trafic routier, de cantine et d’école
maternelle). Tous ces bruits sont non stationnaires à l’exception du bruit de voiture. De plus, ces bruits
sont couramment rencontrés lors de communications téléphoniques et sont facilement identifiables, ce qui
les rend plus tolérables. Quant aux classes 2 et 3, elles contiennent essentiellement des bruits de nature
stationnaire (bruits marron, rose et de TGV pour la classe 2 et bruit électrique pour la classe 3),
caractéristique principale des bruits provenant du réseau. La différence entre ces deux classes vient du fait
que le bruit de la classe 3 est très rugueux et plus désagréable à l’écoute. L’origine des bruits appartenant
à ces classes n'est pas très souvent identifiable par les auditeurs. Les trois classes sont par conséquent
identifiées comme suit :
3
L’effet de l’interaction entre le type de bruit et le RSB sur la qualité vocale signifie que l’influence du type de bruit
sur la qualité vocale dépend du niveau sonore dudit bruit.
- 82 -
4.5
Bruit marron
Bruit rose
Bruit électrique
4
Bruit de voiture
Bruit d'école maternelle
Bruit de salle de sport
3.5 Bruit de TGV
Bruit de trafic routier
Bruit de cantine
3
DMOS
2.5
1.5
1
40 35 30 25 20 15 10 5 0
RSB (dBA)
Figure 3.4. Evolution des notes subjectives en fonction des types de bruit et du RSB
 Classe 1  Bruit d’environnement : elle regroupe les bruits de fond entraînant une indulgence
lors de l’évaluation de la qualité vocale ;
 Classe 2  Souffle : elle est relative aux bruits de fond qui provoquent une dégradation de la
qualité vocale perçue ;
 Classe 3  Grésillement : elle correspond aux bruits (en l'occurrence le bruit électrique)
engendrant une forte dégradation de la qualité vocale.
Ces résultats renforcent les conclusions des travaux de Leman et al. (Leman et al. 2008) sur le contenu
informationnel du bruit de fond :
l’impact d’un bruit sur la qualité vocale n’est pas gênant dès lors qu’il est identifié par l’auditeur.
Toutefois, il est important de souligner que trois classes de bruits ont été identifiées dans le contexte
téléphonique en bande super-élargie contre quatre en bande étroite. Cette différence peut s’expliquer par
le fait que le passage de la bande étroite à la bande super-élargie a contribué à accroître l’intelligibilité et
le naturel de la voix de sorte que toutes les harmoniques qui étaient initialement filtrées dans la bande
étroite deviennent plus perceptibles en bande super-élargie. De ce fait, les bruits qui étaient initialement
imperceptibles dans le contexte téléphonique en bande étroite deviennent gênants dans le contexte de la
téléphonie en bande super-élargie.
- 83 -
3.4. Modélisation de la dimension Bruyance
Nous avons vu dans la section précédente que les bruits de fond peuvent être classés en trois classes
(Bruit d’environnement, Souffle et Grésillement) dans le contexte téléphonique en bande super-élargie.
Cette partie est consacrée à la description des différentes étapes de la modélisation de la dimension
Bruyance suivant ces 3 classes. Tout comme dans (Leman et al. 2009a), cette modélisation est constituée
de quatre modules, comme illustré à la Figure 3.5. Le premier module, correspondant à un Détecteur
d’Activité Vocale (DAV), permet de détecter les zones de silence où sera estimée l’énergie du bruit de
fond, qui constitue le second module. La classification automatique du bruit de fond en fonction des trois
classes décrites précédemment est effectuée dans le troisième module. Enfin le quatrième module est
utilisé pour la prédiction de la qualité vocale.
DAV
Estimation du bruit de fond
Classification
Environnement Souffle Grésillement
Prédiction de la qualité vocale
MOSE MOSSo MOSG
Figure 3.5. Aperçu général de la modélisation de la Bruyance
3.4.1. Classification automatique des bruits de fond
3.4.1.1. Description des indicateurs de qualité

Dans notre étude, deux types d’indicateurs ont été considérés (c.f. Tableau 3.3), les indicateurs avec et
sans référence :
 indicateurs avec référence : le calcul de ces indicateurs se fonde sur une analyse des signaux de
référence et dégradé. Quatre indicateurs ont été pris en compte. Il s’agit des indicateurs NoS, Plin
du modèle DIAL (Côté 2010b), Noise et NoiseContrast du modèle POLQA (ITU-T 2011a),
décrits dans la section 2.2.3. Ces indicateurs utilisent l’algorithme de DAV intégré dans les
modèles d’où ils proviennent ;
 indicateurs sans référence : comme leur nom l’indique, ces indicateurs sont déterminés à partir
du signal dégradé uniquement. Pour le calcul de ces indicateurs, l’algorithme de DAV que nous
- 84 -
avons utilisé correspond à celui de DIAL (Côté, 2010b). De plus, le signal dégradé est analysé sur
une trame de 1024 échantillons avec un recouvrement de 50%. Six indicateurs ont également été
considérés, dont les trois premiers (Ln, Vn et SF) sont détaillés dans la section 2.2.3. Les trois
autres indicateurs sont le coefficient de corrélation entre le signal dégradé et ce même signal
décalé d’un échantillon (Corr_signal), la variation du taux de passage par zéro ou Zero Crossing
Rating (que nous avons notée ΔZCR) et le centre de gravité spectral ou Centroïde Spectral (CS),
dont les expressions sont respectivement données par :
  y  i   y    y i  1  y 
N 1
Corr _ signal  i 1
, (3.2)
  y i   y    y i  1  y 
N 1 2 N 1 2

i 1 i 1
où y  i  , y et N représentent respectivement le signal dégradé, la moyenne du signal dégradé et

le nombre total d’échantillons,
 N sgn  y  i, l    sgn  y  i  1, l   
ZCR  std   , (3.3)
 i 1 2 
 
où sgn  y  i, l   représente la fonction signe du signal dégradé au ième échantillon de la trame l , et
N
 f k   a k 
CS  k 1
N
, (3.4)
 f k 
k 1
où f  k  (en Hz) est la fréquence de la k ème

raie fréquentielle et a  k  son amplitude. Notons que,
pour le calcul de l’indicateur CS, le recouvrement entre les trames n’est pas pris compte. Ces cinq
indicateurs sans référence sont appliqués sur le bruit estimé pendant les périodes de silence.
Indicateurs de qualité Nature Description
NoS (Côté 2010b) DSP du bruit présent sur les zones actives du signal de parole
Estimateur de dégradations non linéaires dues à la variation abrupte du
Plin (Côté 2010b) niveau de bruit
avec réf.
Noise (ITU-T 2011a) Niveau de bruit estimé pendant les périodes de silence
Variations abruptes dans le spectre du bruit observées pendant les périodes
NoiseContrast (ITU-T 2011a)
de silence
Ln (Côté 2010b) Niveau du bruit en sonie estimé pendant les périodes de silence
Vn (Leman, 2012) Indice de stationnarité d’un son

Mesure de la vitesse de changement d’amplitude entre deux trames
SF (Leman 2011)
sans réf. successives
Corr_signal (Leman 2011) Indice sur la nature harmonique d’un signal
ΔZCR (Leman 2011) Information sur le voisement d’un signal
CS (Leman 2011) Centre de gravité de la distribution de l’énergie du spectre d’un signal
Tableau 3.3. Récapitulatif des indicateurs de qualité considérés pour la classification des bruits de fond
- 85 -
3.4.1.2. Base sonore

Comme nous l’avons mentionné dans la section 3.2.3, nous ne prenons en compte que 540 stimuli sur
les 576 stimuli (les 36 autres stimuli ayant seulement servi de conditions d’ancrage pour le test subjectif).
Ces 540 stimuli ont été obtenus à partir des 12 échantillons de parole et des 9 bruits de fond, et ce pour 5
niveaux sonores. Toutefois, à l’écoute, les stimuli présentant un RSB à 40 dBA sont similaires à des
stimuli non bruités, i.e. l’énergie du bruit est trop faible pour distinguer avec exactitude la nature du bruit,
ce qui peut biaiser la classification. C'est la raison pour laquelle les stimuli présentant un RSB de 40 dBA
n’ont pas été pris en compte. Par conséquent, un total de 432 stimuli (12 échantillons de parole × 9 bruits
de fond × 4 RSB) a été considéré lors de la classification.
3.4.1.3. Phase d’apprentissage

La phase d’apprentissage est l’étape au cours de laquelle les indicateurs les plus pertinents pour
classifier les bruits de fond en fonction des trois classes sont sélectionnés. Pour ce faire, les 10 indicateurs
décrits dans le Tableau 3.3 ont été calculés sur les 432 stimuli. De plus, les stimuli sont étiquetés en
fonction des trois classes déterminées dans la section 3.3.
Nous avons adopté comme méthode de classification l’arbre binaire de décision de Breiman et al.
(Breiman et al. 1993). L’intérêt de cette méthode réside non seulement dans sa lisibilité (i.e. l’arbre de
décision proposé est facilement interprétable et mis en œuvre) mais aussi dans sa capacité à sélectionner
automatiquement les variables les plus pertinentes parmi un nombre important d’indicateurs. Les
paramètres d'entrée de cette méthode sont constitués de 10 × 432 valeurs des indicateurs et des classes
attribuées aux 432 bruits de fond. La méthode de classification a été mise en œuvre sous TANAGRA4 :
324 stimuli ont été aléatoirement sélectionnés et utilisés lors de la phase d’apprentissage, et les 108
stimuli restants utilisés dans la phase de validation.
L’arbre de décision proposé par la méthode de classification est illustré sur la Figure 3.6. Trois
indicateurs, à savoir SF (Flux Spectral), Vn (Variation du niveau du bruit) et CS (Centroïde Spectral) ont
finalement été retenus pour la classification automatique des bruits de fond en classes. Dans un premier
temps, l'indicateur fréquentiel SF est utilisé comme premier niveau par l’algorithme de classification. Cet
indicateur permet de détecter les variations brusques présentes dans le spectre du bruit. Plus sa valeur est
proche de 0, plus les trames successives sont semblables, permettant ainsi la classification du bruit de la
classe Grésillement (le seuil retenu étant 0,0697). Dans une seconde étape, l'indicateur temporel Vn est
pris en considération. Etant donné que cet indicateur mesure la variation du niveau sonore du bruit de
fond, les valeurs les plus élevées de cet indicateur permettent de détecter les bruits de type non
stationnaire de la classe Bruit d’environnement tandis que ses plus faibles valeurs permettent de
discriminer les autres bruits de nature stationnaire (i.e. provenant des classes Bruit d’environnement et
Souffle) (le seuil proposé est 2,9652). Enfin, les bruits stationnaires restants sont classifiés suivant leur
impact sur la qualité vocale (en se basant sur les résultats du test subjectif) à l’aide de l’indicateur CS
désignant le centre de gravité du bruit. Ainsi, si l’indicateur CS est supérieur au seuil 2726,7, le bruit
appartient à la classe Bruit d’environnement, sinon il est considéré comme relevant de la classe Souffle.
4
TANAGRA est un logiciel gratuit d’exploration de données (ou data mining en anglais) dont l’objectif principal
est de permettre aux chercheurs et étudiants de mener des études sur des données réelles et/ou synthétiques. Ce
logiciel contient une série de méthodes de fouilles de données issues du domaine de la statistique exploratoire, de
l'analyse de données, de l’apprentissage automatique et des bases de données.
- 86 -
SF < 0,0697
non oui
Vn < 2,9652
Grésillement
(Classe 3)
non oui
CS < 2726,7
non oui
Souffle
(Classe 2)
Bruit d’environnement
(Classe 1)
Figure 3.6. Arbre binaire de classification des bruits de fond
Le Tableau 3.4 présente les performances de la classification obtenues lors de l’apprentissage. Le

pourcentage global de bruits de fond correctement classifiés est de 91,4%. Les bruits des classes Souffle
et Grésillement ont tous été parfaitement classifiés. Quant aux bruits de la classe Bruit d’environnement,
l’arbre de décision proposé présente un taux de classification plus faible (84,4%). Le Tableau 3.5 illustre
la matrice de confusion associée à la classification et nous permet de constater que certains stimuli de la
classe Bruit d’environnement sont considérés comme appartenant à la classe Souffle. Ces stimuli
correspondent aux stimuli dégradés par le bruit de voiture, ce bruit présentant les mêmes caractéristiques
spectrales que les bruits de la classe Souffle.
Classes Bruit d’environnement Souffle Grésillement

Pourcentages de 84,4% 100% 100%
bruits correctement
91,4%
classés
Tableau 3.4. Performances de la classification de l’arbre de décision proposé lors de l’apprentissage
Bruit d’environnement Souffle Grésillement Total

Bruit d’environnement 152 28 0 180
Souffle 0 108 0 108
Grésillement 0 0 36 36
Total 152 136 36 324
Tableau 3.5. Matrice de confusion associée à la classification du bruit lors de l’apprentissage
3.4.1.4. Phase de validation

Les 108 stimuli n’ayant pas été utilisés lors de l’apprentissage sont considérés afin de tester les
performances de l’arbre de décision proposé. Celui-ci présente une performance globale de 89,8% de
classification, comme cela est illustré dans le Tableau 3.6. Si la performance la plus élevée est observée
pour les bruits de la classe Souffle, les classes Grésillement et Bruit d’environnement présentent une
- 87 -
performance de bonne classification supérieure à 83%, ce qui reste un excellent résultat. Le taux le moins
élevé correspond à la classification des stimuli de la classe Bruit d’environnement. D’après la matrice de
confusion reportée dans le Tableau 3.7, on remarque que la quasi-totalité des stimuli de la classe Bruit
d’environnement qui ne sont pas correctement classifiés se retrouvent dans la classe Souffle. Ce fait a
déjà été souligné dans la section précédente.

Pourcentages de 83,3% 100% 91,6%
bruits
correctement 89,8%
classés
Tableau 3.6. Performance de la classification de l’arbre de décision proposé lors de la validation
Classes Bruit d’environnement Souffle Grésillement Total

Souffle 0 36 0 36
Total 50 46 12 108
Tableau 3.7. Matrice de confusion associée à la classification du bruit lors de la validation
3.4.2. Prédiction de la qualité vocale en présence de bruit de fond
Nous avons vu dans la section 3.3 que la qualité vocale en présence de bruits de fond dépend non
seulement de la nature et du niveau sonore du bruit mais aussi de l’interaction entre ces deux éléments.
Pour prédire qualitativement la qualité vocale, ces différentes informations doivent être prises en compte.
Pour cela, une prédiction de la qualité pour chaque classe de bruit et prenant en compte le niveau sonore
du bruit est proposée. Pour cette phase de prédiction, nous avons choisi l’indicateur Ln (Côté 2010b) dont
sa pertinence en termes de prédiction de la qualité vocale a déjà été démontrée dans le chapitre 2, §
2.3.3.1. Cet indicateur est appliqué aux 540 stimuli de la base sonore dont 405 stimuli ont été
aléatoirement choisis et utilisés lors de la phase d’apprentissage.

Les notes subjectives sont regroupées en fonction des trois classes de bruit (Bruit d’environnement,
Souffle et Grésillement). Pour chacune des classes, la fonction de mappage est obtenue à partir d’une
régression polynomiale d’ordre n  2 entre les notes subjectives et les valeurs de l’indicateur Ln (cf.
Figure 3.7). Le Tableau 3.8 résume les fonctions de mappage obtenues pour chacune classe de bruit.
- 88 -
Classe 1 : Bruit d'environnement Classe 2 : Souffle Classe 3 : Grésillement

5 5 5
R2=0,9 / =0,06 R2=0,93 / =0,03 R2=0,94 / =0,02
4.5 4.5 4.5
4 4 4
3.5 3.5 3.5

MOS-LQS
MOS-LQS
MOS-LQS
3 3 3
2.5 2.5 2.5
2 2 2
1.5 1.5 1.5
1 1 1
0 20 40 60 0 10 20 30 0 20 40 60
Ln (sone) Ln (sone) Ln (sone)
(a) (b) (c)

Figure 3.7. Estimation des fonctions de mappage pour les classes (a) Bruit d’environnement, (b) Souffle et
(c) Grésillement. R 2 correspond au coefficient de détermination et  l’EQM de prédiction
Classes Fonction de mappage

Bruit d’environnement MOSE  0,0009  Ln2  0,111  Ln  4,42
Souffle MOSSo  0,0011  Ln2  0,131  Ln  4,58
Grésillement MOSG  0,0027  Ln2  0,183  Ln  4,09
Tableau 3.8. Prédiction de la qualité vocale en présence de bruit de fond
en fonction du niveau sonore du bruit pour chacune des trois classes de bruit de fond
Les performances de la prédiction de la qualité vocale sont présentées dans le Tableau 3.9. Ces
performances sont exprimées en termes de corrélation entre les notes MOS subjectives et les notes MOS
prédites (ρ) et en termes d’EQM (ε) entre ces deux notes MOS. D’après le Tableau 3.9, on obtient des
performances de prédiction de la qualité vocale très significatives pour chacune des classes de bruits de
fond. Ces résultats étaient attendus car l’indicateur Ln correspond à la sonie du bruit de fond, estimée
pendant les périodes de silence de signal de parole, et reflétant le niveau d’intensité sonore du bruit de
fond tel que perçu par le système auditif humain.

ρ 0,95 0,96 0,97
ε 0,06 0,03 0,02
Tableau 3.9. Performances de la prédiction de la qualité vocale en présence de bruit de
fond obtenues lors de la phase d’apprentissage
- 89 -

Les 135 stimuli restants sont utilisés lors de la phase de validation. Les résultats présentés dans le
Tableau 3.10 confirment une fois de plus la fiabilité de l’indicateur Ln en matière de prédiction de la
qualité vocale.
Classe 1 : Bruit d'environnement Classe 2 : Souffle Classe 3 : Grésillement
5 5 5
=0,92 / =0,08 =0,96 / =0,04 =0,97 / =0,02
4.5 4.5 4.5
4 4 4
3.5 3.5 3.5

MOS-LQS
MOS-LQS
MOS-LQS
3 3 3
2.5 2.5 2.5
2 2 2
1.5 1.5 1.5
1 1 1
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
M OSE M OSSo M OSG
(a) (b) (c)

Figure 3.8. Prédiction de la qualité vocale lors de la phase de validation pour les classes (a) Bruit d’environnement,
(b) Souffle et (c) Grésillement.  et  correspondent respectivement à la corrélation
et l’erreur de prédiction entre les notes prédites et les notes subjectives

ρ 0,92 0,96 0,97
ε 0,08 0,04 0,02
Tableau 3.10. Performances de la prédiction de la qualité vocale en présence de bruit de
fond obtenues lors de la phase de validation
3.5. Validation du modèle proposé sur des bases sonores inconnues
Dans notre étude, nous avons considéré 164 stimuli extraits de la base sonore ayant servi lors de la
sélection du modèle POLQA (ITU-T 2011a). Parmi ces stimuli, 96 d’entre eux correspondent à quatre
conditions relatives à la classe Bruit d’environnement (bruit de rue à 15 et 20 dB de RSB, un bruit en
provenance d’un supermarché à 10 dB et un autre à 20 dB associé à des pertes de paquets de 6%), 47 à
trois conditions relevant de la classe Souffle (bruit de Hoth à 12 dB, bruit de souffle à 12 et 27 dB mixé
avec 10% de perte de paquets) et 21 sont dégradés par un bruit de Grésillement (en l’occurrence un
marteau piqueur). Pour évaluer les performances du modèle proposé du point de vue de la prédiction de la
qualité vocale, la base inconnue a été limitée à 109 stimuli présentant des conditions à dégradation unique
- 90 -
(dont 72 pour la classe Bruit d’environnement, 16 pour la classe Souffle et 21 pour la classe
Grésillement). Pour une validation sur des conditions comprenant plusieurs dégradations, on se reportera
au chapitre 7.
3.5.1. Performance de classification
Les Tableaux 3.11 et 3.12 illustrent respectivement le taux de classification des bruits de fond du
modèle de la Bruyance et la matrice de confusion associée. D’après le Tableau 3.11, le modèle proposé
présente une performance globale de classification supérieure ou égale à 81,7%. La performance la plus
faible est observée au niveau de la classe Souffle (76,2% de bonne classification). On constate à partir de
la matrice de confusion (cf. Tableau 3.12) qu’une importante partie des stimuli de la classe Souffle
n’ayant pas été correctement classifiée est considérée comme appartenant à la classe Bruit
d’environnement. Cette performance s’explique par le fait que la plupart de ces stimuli sont dégradés par
des conditions contenant, en plus du bruit, des pertes de paquets qui modifient les caractéristiques du bruit.

Pourcentages de bruits 82,29% 76,6% 90,5%
correctement classés 81,7%
Tableau 3.11. Performances du modèle de la Bruyance en termes de classification de bruit de fond
obtenues sur une base sonore inconnue au modèle
Classes Bruit d’environnement Souffle Grésillement Total

Souffle 10 36 1 47
Total 90 49 25 164
Tableau 3.12. Matrice de confusion de la classification du bruit lors de la validation
3.5.2. Performance de prédiction
La prédiction de la qualité vocale a été réalisée en prenant en compte le module de la détection et de la

prédiction de la qualité vocale des trois classes de bruit de fond. Les performances de prédiction de notre
modèle sont comparées à celles de la modélisation de la dimension Bruyance proposée dans le modèle
DIAL (Côté 2010b), comme cela est illustré dans le Tableau 3.13. D’après ce tableau, notre modèle
obtient quasiment les mêmes performances de prédiction de la qualité que celles du modèle proposé dans
DIAL. Il est important de mentionner que tandis que notre modèle utilise uniquement l’indicateur Ln pour
la prédiction de la qualité vocale, le modèle de la Bruyance de DIAL utilise une combinaison cet
indicateur et avec l’indicateur NoS (cf. Tableau 3.3). D’autre part, le facteur incontournable de notre
modèle, comparé à celui proposé dans DIAL (Côté 2010b), est qu’il permet, en plus de prédire la qualité
vocale en présence de bruit de fond, d’obtenir des informations sur la nature du bruit de fond perçu lors
des communications téléphoniques.
- 91 -
Modèle de la Bruyance de
Modèle proposé
DIAL (Côté 2010b)
ρ 0,89 0,91
ε 0,25 0,12
Tableau 3.13. Performances de la prédiction de la qualité vocale de notre
modèle et de celles du modèle de la Bruyance proposé dans DIAL (Côté
2010b) sur la base sonore de POLQA
3.6. Conclusion
L’objectif de cette étude sur la dimension Bruyance était de déterminer les meilleurs indicateurs pour
prédire et quantifier efficacement une dégradation de qualité vocale en présence de bruit tout en prenant
en compte la cause du bruit. L’approche que nous avons adoptée, à la suite de travaux antérieurs
appliqués à la bande étroite (Leman et al. 2008), s’est montrée tout aussi efficace en contexte de
téléphonie en bande super-élargie. En effet, l’analyse des résultats de test subjectif que nous avons
conduit a permis de répartir les bruits de fond, en fonction de leur contenu informationnel et du degré de
tolérance qui en résulte, en trois classes (Bruit d’environnement, Souffle et Grésillement). Nous avons
non seulement pu classifier les différentes natures (et donc origines) de bruit, à l’aide de trois indicateurs
simples à déterminer et donc à implémenter dans des outils de mesure, mais nous avons aussi utilisé
l’indicateur Ln afin de prédire assez précisément la qualité vocale perçue résultante.
Nous sommes donc en mesure grâce à cette brique dédiée à la bruyance de connaître à la fois l’origine
d’un bruit et son impact sur la qualité perçue par l’utilisateur final, ce qui constitue les deux éléments
indispensables à un diagnostic efficace, et ce dans un contexte d’application élargi par rapport aux
travaux antérieurs.
- 92 -
Chapitre 4 Modélisation de la dimension Continuité
Chapitre 4
Modélisation de la dimension Continuité
Dans ce chapitre, nous cherchons à modéliser la dimension Continuité. Cette dimension est relative
aux discontinuités perçues dans le signal de parole pouvant être causées par des pertes de paquets (ou de
trames) ou par des processus de traitement de signal comme la réduction de bruit ou l’annulation d’écho.
Notre objectif est de trouver des indicateurs de qualité permettant de mieux caractériser ladite dimension
et d’obtenir des informations spécifiques sur l’ensemble des différentes causes de discontinuité.
Nous avons vu dans le chapitre 2, § 2.2.2, que la dimension Continuité peut être divisée en trois sous-
dimensions (Huo et al. 2008b). La première sous-dimension Coupures caractérise les coupures perçues
dans le signal de parole. La deuxième sous-dimension Artéfacts Additifs est relative aux artéfacts
apparaissant très souvent suite à l'utilisation de certaines techniques PLC ou d’annulation d’écho. Ils sont
perçus sous forme de craquement et se traduisent par une forte augmentation du l’énergie du signal. Enfin
la troisième sous-dimension Bruit Musical correspond à l’effet des bruits résiduels liés aux imperfections
du débruitage. Toutefois, cette découpe ne prend pas en compte les variations abruptes du niveau sonore
du signal de parole dues aux systèmes de traitement du signal vocal tels que les systèmes de Contrôle
Automatique de Gain (CAG) et les réducteurs de bruit. Le CAG a pour rôle de maintenir le niveau du
signal de parole constant afin d’éviter une surcharge des canaux de transmission tout en ajustant le gain
du système. Cependant, un mauvais réglage de ce gain peut engendrer une amplification ou une
atténuation soudaine du niveau sonore. De même, une surestimation ou une sous-estimation du niveau de
bruit par un réducteur de bruit peut provoquer des variations du gain du système, notamment en situation
très bruitée. Nous proposons de nommer cet aspect de fluctuation du niveau sonore par Variation de Gain.
Nous supposons que la Variation de Gain englobe la sous-dimension Bruit Musical proposée dans (Huo
et al. 2008b) puisque ce phénomène se traduit également par une variation du gain du système.
Dans notre étude, nous considérerons donc la dimension Continuité caractérisée par les trois sous-
dimensions suivantes : Coupures, Artéfacts Additifs et Variation de Gain. Dans ce chapitre, une
modélisation de l’ensemble des discontinuités sera proposée, suivie d’une évaluation des performances du
modèle proposé.
4.1. Modélisation de la Continuité
Pour la modélisation de cette dimension, nous avons considéré trois indicateurs pour quantifier
l’ensemble des discontinuités. Les deux premiers indicateurs, appelés rL et rA (Côté 2010b), permettent
d’estimer respectivement le taux de trames audio perdues (Coupures) et le taux d’artéfacts (Artéfacts
Additifs) présents dans le signal de parole. Ces indicateurs ont été retenus à l’issue de l’étude sur la
performance des indicateurs présentée dans le chapitre 2. Quant à la sous-dimension Variation de Gain, il
n’existe, à notre connaissance, aucun indicateur dans la littérature la caractérisant. En revanche, dans le
modèle DIAL (Côté 2010b), les variations importantes observées dans le gain du système sont détectées
et compensées afin de limiter leur impact sur la représentation interne des signaux de référence et dégradé
- 93 -
(cf. chapitre 1, §1.4.3.2.1). Cependant aucun indicateur explicite n’a été proposé. Pour pallier ce manque,
nous proposons un indicateur, noté VG par la suite.
4.1.1. Modélisation de la sous-dimension Variation de Gain
Les variations abruptes observées dans le niveau sonore du signal dégradé se traduisent par une
variation du gain du système. Cela étant, la détection des zones du signal dégradé présentant des
variations abruptes du gain sera effectuée suivant l’approche proposée dans (Côté 2010b). L’indicateur VG
sera ainsi déterminé à partir de la sonie du signal dégradé dans lesdites zones.
Pour le calcul de cet indicateur, un prétraitement conforme à celui utilisé dans (Côté 2010b) est
appliqué aux signaux de référence et dégradé. Les signaux résultants sont ensuite divisés en trames de 16
ms (correspondant à 768 échantillons par trame, les signaux étant échantillonnés à 48 kHz) avec un
recouvrement de 50%, le fenêtrage utilisé étant celui de Hanning. Les DSP de ces signaux, estimés
pendant les périodes d’activité vocale, sont obtenues à partir de l’équation (1.8) suivie d’une conversion
dans le domaine de Bark suivant l’équation (1.9). Pour l’estimation du gain du système, l’influence du
bruit de fond et celle des deux autres types de discontinuités (i.e. coupures et artéfacts additifs) sont
partiellement compensées comme suit :
 la DSP du bruit est déterminée à partir de celle du signal dégradé sur les périodes de silence et lui
est soustraite. L’expression de la DSP du signal dégradé résultant de cette compensation (et notée
P ' y  l  ) est donnée par :
P ' y  l   Py  l     Pb  l  , (4.1)
où   0,3 (cette valeur a été choisie de sorte à compenser l’effet d’une surestimation du niveau
de bruit) et Pb  l  correspond à la DSP du bruit d’équation
1
 1 24
    3
3
Pb  l     Pyy l n , z  , (4.2)
 24 z 1 
 
où Pyy l n , z est la DSP en Bark du signal dégradé dans la trame de silence l n , et z une bande
critique ;
 quant à la compensation de l’impact des coupures et artéfacts, elle consiste à supprimer, dans les
signaux de référence et dégradé, toutes les trames présentant des coupures ou des artéfacts. Les
signaux de référence et dégradé sont respectivement notés Px'  l  et Py''  l  .
Le gain G  l  du système est calculé à partir du rapport de la DSP du signal de référence Px'  l  sur celle
du signal dégradé Py''  l  :
 P'  l    
G  l   10  log10  x'' , (4.3)
 Py  l    
 
avec    2 105  , une constante correspondant à 0 dBSPL. Dès lors, les variations abruptes sont détectées
2
dans le gain G  l  dans les cas où G  l   Gs  l   6 (atténuation brusque) ou G  l   Gs  l   3

(amplification brusque), avec Gs  l  une version lissée du gain G  l  obtenue en lui appliquant un filtre
- 94 -
passe-bas (Côté 2010b). Comme nous l’avons mentionné précédemment, les zones du gain G  l  du
système présentant des variations brusques correspondent aux parties du signal dégradé présentant
également des variations importantes. Cela étant, pour refléter l’effet de ces variations tel qu’il est perçu
par le système auditif humain, la DSP du signal dégradé Py''  l  est transformée en sonie suivant le modèle
de Zwicker et Fastl (Zwicker and Fastl 1999) et est notée L''y  l  . L’indicateur « VG » est alors estimé à
partir de L''y  l  dans les zones présentant des variations abruptes comme suit :
G  l   Gs  l   6
1
 1 Lv 
2

 L ' l 
2
v v
VG   v  , l   , (4.4)
G  l   Gs  l   3
y
L l v 1  
où Lv est le nombre total de trames présentant des variations abruptes du niveau sonore de la parole.
4.1.2. Principe de la modélisation de la dimension Continuité
Deux objectifs sont visés pour la modélisation de la dimension Continuité. Le premier objectif est de
déterminer pour chaque indicateur un seuil minimal au-delà duquel la discontinuité correspondante est
perçue. Le second objectif vise à proposer une prédiction de la qualité vocale pour chacune des sous-
dimensions ainsi qu'une prédiction de la qualité vocale globale relative à la dimension Continuité. La
Figure 4.1 présente la structure générale du modèle de la Continuité.
Calcul des indicateurs de discontinuités

rL rA VG
Détection de discontinuités Information sur

la présence d’une
Coupures Artéfacts Additifs Variation de Gain discontinuité et
sa nature
Prédiction de la qualité vocale
MOSCO MOSA MOSV
MOSC
Figure 4.1. Vue générale de la modélisation de la dimension Continuité. MOSCO, MOSA, MOSV et MOSC
désignent respectivement les prédictions de la qualité vocale en présence de coupures, d’artéfacts additifs, de
variation de gain et de l’ensemble des discontinuités
- 95 -
4.1.3. Description de la base sonore
Pour notre étude, nous avons construit une base sonore à partir de quatre sous-ensembles de stimuli
extraits d’une base d’Orange Labs pour laquelle des notes subjectives étaient disponibles. Le premier
sous-ensemble, commun à l’analyse des trois indicateurs (rL, rA, et VG), comprend des stimuli impactés
par des dégradations autres que des discontinuités : elles correspondent à des conditions de filtrage, de
codage, de bruit de fond, et d'atténuation de niveau sonore, appliquées au signal de référence, comme
indiqué dans le Tableau 4.1 (10 conditions au total). Quant au deuxième sous-ensemble, il contient 8
conditions de dégradation correspondant à différents degrés de pertes de paquets/trames associées au
codec WB G.722 avec une technique PLC consistant en une insertion de trames de silence. Ce sous-
ensemble est utilisé pour tester l’efficience de l’indicateur rL sur les coupures. Concernant le troisième
sous-ensemble, pour tester l’indicateur rA, 18 conditions de pertes de paquets/trames associées aux codecs
SWB G.718 Annexe B et G.729.1 Annexe E, intégrant une PLC par répétition de trames, sont considérées
afin de simuler les artéfacts. Enfin, le quatrième sous-ensemble comprend 5 conditions dont 3 niveaux de
débruitage (peu agressif, agressif et très agressif) et 2 niveaux de CAG, et est utilisé pour tester
l’indicateur VG. Ces conditions ont été appliquées sur 24 doubles phrases pour un total de 240, 192, 432 et
120 stimuli pour les quatre sous-ensembles respectivement. Ces différents stimuli ont été échantillonnés à
48 kHz et filtrés dans la bande [50 – 14000 Hz]. Pour déterminer le seuil optimal de chaque indicateur,
une phase d’apprentissage est nécessaire.
Indicateurs de qualité
rL rA VG
Conditions
Signal de référence (non codé)
2 cond. de filtrage passe-bas (7 kHz et 10 kHz)
Conditions (cond.) ne contenant pas
3 cond. de codage (G722, G718B et G729.1E)
de discontinuités (240 stimuli)
2 cond. de bruit (voiture et restaurant, RSB = 20 dB)
2 cond. d’atténuation du niveau sonore (10 dB et 20 dB)
8 cond. : 1 codec 18 cond. : 2 codecs - 3 cond. de débruitage
Conditions contenant des (G722) associé à 1, 2, (G718B et G729.1E) associés (niveaux 1, 2, et 3)
discontinuités (24 stimuli/condition) 3, 4, 5, 6, 8 et 10% de à 1, 2, 3, 4, 5, 6, 8, 10 et 15% - 2 cond. de CAG (niveaux 1
PP/T de PP/T et 2)
Tableau 4.1. Synthèse des conditions de dégradation de la base sonore. Les cases grises correspondent aux conditions
utilisées lors de la prédiction de la qualité vocale. PP/T signifie Pertes de Paquets/Trames.
Les niveaux 1, 2 et 3 correspondent respectivement à « peu agressif », « agressif » et « très agressif »
4.1.4. Détection automatique des discontinuités
Dans cette partie, on se propose de déterminer, pour chaque indicateur, un seuil minimal au-delà
duquel la discontinuité correspondante est perçue.

Pour la phase d’apprentissage, 738 stimuli ont été utilisés. De plus, nous avons adopté comme
méthode d’apprentissage l’arbre binaire de décision (Breiman et al. 1993) pour les raison décrites dans le
chapitre 3, § 3.4.1.3. Ainsi, pour chaque indicateur, nous avons considéré deux classes de stimuli, la
première correspondant aux stimuli ne contenant pas de discontinuités (étiquetée par Classe 1) et la
deuxième relative aux discontinuités de l’indicateur considéré (étiquetée par Classe 2). Les entrées de
cette méthode de décision sont les valeurs de l’indicateur associées aux stimuli et les deux classes
correspondantes.
- 96 -
La Figure 4.2 illustre l’arbre de décision obtenu par application de l’algorithme de décision pour
chaque indicateur. D’après cette figure, le signal est considéré comme continu (i.e. ne contenant pas de
discontinuités) si les valeurs de rL, rA et VG sont respectivement inférieures à 0,005, 0,0025 et 0,7563,
sinon il est diagnostiqué comme discontinu. Le Tableau 4.2 permet d'apprécier les performances des
arbres de décision proposés. Lors de la phase d'apprentissage, les taux de bonne détection de coupures et
d’artéfacts sont supérieurs à 90%. Si la performance la plus faible est obtenue par l’indicateur VG, elle
n’en reste pas moins significative (plus de 80% de bonne détection). Ceci s’explique par le fait que
l’indicateur VG est très sensible aux autres types de dégradation (e.g. présence de bruit, distorsions
fréquentielles) qui ont un impact sur l’estimation du gain du système.
rL < 0,005 rA < 0,0025 VG < 0,7563
oui non oui non oui non
Classe 1 Classe 2 Classe 1 Classe 2 Classe 1 Classe 2

(a) (b) (c)
Figure 4.2. Seuil de décision des indicateurs (a) rL (Coupures), (b) rA (Artéfacts Additifs) et (c) VG (Variation de Gain).
La classe 1 désigne le groupe de stimuli ne présentant pas la discontinuité et la classe 2,
le groupe de stimuli impacté par des discontinuités concernées
Sous-dimension Coupures Artéfacts Additifs Variation de Gain

99,4% 90,53% 82,14%
Taux de bonne détection
91,1%
Tableau 4.2. Performances de détection de discontinuités sur la phase d’apprentissage

Les 246 stimuli restants sont utilisés pour tester les performances des arbres de décision proposés lors
de l’apprentissage. Les résultats de cette phase de validation (cf. Tableau 4.3) sont très proches de ceux de
la phase d’apprentissage, ce qui démontre la pertinence de notre modèle.
Artéfacts
Sous-dimension Coupures Variation de Gain
Additifs
proportions 98,04% 88,3% 79,8%
correctement
88,32%
détectées
Tableau 4.3. Performances de détection de discontinuités sur la phase de validation
4.1.5. Prédiction de la qualité vocale en présence de discontinuités
Le modèle proposé fournit également une prédiction de la qualité vocale globale relative à la
dimension Continuité et une prédiction pour chacune des sous-dimensions. La base sonore utilisée pour la
prédiction est celle du Tableau 4.1 (cellules grises). Pour la prédiction des différentes grandeurs, des
fonctions de mappage sont déterminées lors de la phase d’apprentissage.
- 97 -

Les fonctions de mappage sont estimées à partir des valeurs des indicateurs et des notes subjectives
correspondantes (cf. § 4.1.3). Les conditions utilisées dans cette partie correspondent aux cellules grises
du Tableau 4.1. Ces fonctions correspondent, pour chaque sous-dimension, à des régressions
polynomiales d’ordre 3. La qualité vocale prédite s’exprime sous la forme :
MOS p  a0  a1  Ind  a2  Ind 2  a3  Ind 3 , (4.5)
où MOS p correspond à la note MOS prédite, les paramètres ai ( i = 0,…,3) sont les coefficients de la
fonction de mappage et Ind correspond à la valeur de l’indicateur considéré. Les coefficients des
fonctions de mappage sont décrits dans le Tableau 4.3. La Figure 4.3 illustre l’estimation des fonctions de
mappage pour les trois sous-dimensions et la dimension Continuité. Il faut noter que, pour la prédiction
de la qualité vocale globale de la dimension Continuité, Ind est défini comme suit :
Ind    rL   rA    VG , (4.6)
où les coefficients  ,  et  sont déterminés de sorte à optimiser la performance de la prédiction, et
valent respectivement 1, 1 et 0,03. Lors de cet apprentissage, 75% des stimuli ont été utilisés. Les
performances de la prédiction sont évaluées en termes (i) de corrélation (ρ) entre les notes MOS
subjectives et les notes MOS prédites, et (ii) d’EQM (ε) entre ces notes. D’après le Tableau 4.3, l’outil
proposé présente une meilleure prédiction de la sous-dimension Coupures en termes de corrélation
(   0,92 ). Quant à la prédiction des sous-dimensions Artéfacts Additifs et Variation de Gain, les
performances s’avèrent relativement inférieures (   0,86 et 0,84 respectivement). Enfin, la performance
de prédiction de la dimension Continuité est globalement satisfaisante (   0,88 ;   0,19 ).
Coupures Artéfacts Additifs Variation de Gain Continuité

5 5 5 5
R2=0,84 / =0,09 R2=0,75 / =0,14 R2=0,72 / =0,22 R2=0,78 / =0,19
4.5 4.5 4.5 4.5
4 4 4 4
3.5 3.5 3.5 3.5

MOS-LQS
MOS-LQS
MOS-LQS
MOS-LQS
3 3 3 3
2.5 2.5 2.5 2.5
2 2 2 2
1.5 1.5 1.5 1.5
1 1 1 1
0 0.05 0.1 0 0.02 0.04 0 5 0 0.1 0.2
Taux de p ertes (rL ) Taux d'artéfacts (rA ) VG rL + rA + 0,03VG
(a) (b) (c) (d)

Figure 4.3. Estimation de la fonction de mappage pour les sous-dimensions
(a) Coupures, (b) Artéfacts Additifs, (c) Variation de Gain et (d) la dimension Continuité.
R 2 correspond au coefficient de détermination et  l’EQM de prédiction
- 98 -
Coupures Artéfacts Additifs Variation de Gain Continuité

 0,92 0,86 0,84 0,88
 0,09 0,14 0,22 0,19
Tableau 4.3. Performance de prédiction de la qualité vocale obtenue lors de la phase d’apprentissage.
ρ désigne la corrélation entre les notes MOS subjectives et les notes MOS prédites et  l’EQM entre ces notes

Le Tableau 4.4 décrit les performances du modèle proposé sur les stimuli n’ayant pas été utilisés lors
de la phase d’apprentissage. D’après ce tableau, le modèle proposé présente une performance globale en
termes de corrélation entre les notes MOS et les notes MOS subjectives supérieure à 0,90 pour la sous-
dimension Coupures et une corrélation supérieure à 0,80 pour les deux autres sous-dimensions. Quant à la
prédiction de la dimension Continuité, le modèle proposé présente une corrélation de 0,86.
Artéfacts
Coupures Variation de Gain Continuité
Additifs
ρ 0,90 0,82 0,80 0,86
ε 0,12 0,19 0,29 0,24
Tableau 4.4. Performance de prédiction de la qualité vocale obtenue lors de la phase de validation
4.2. Validation du modèle proposé sur une base sonore inconnue
Dans la phase de validation, 898 stimuli ont été extraits de la base sonore de POLQA (ITU-T, 2011a)
incluant des conditions réalistes composées de dégradations multiples. Parmi ces stimuli, 242 présentent
des coupures, 226 des artéfacts, 120 des variations de gain dues au CAG et au débruitage, et 310 ne
présentent aucune discontinuité (les dégradations impactant ces stimuli relèvent de bruits non
stationnaires, de distorsions fréquentielles, …). Il faut noter que, pour un indicateur donné, les types de
discontinuité associés aux deux autres indicateurs ne sont pas considérés comme des défauts. Ainsi, les
898 stimuli sont considérés pour chaque indicateur.
Le Tableau 4.5 décrit la performance du modèle proposé en termes de détection de discontinuités. Le
modèle proposé présente un taux global de bonne détection supérieur à 80%. Les performances de
détection de coupures et d’artéfacts sont élevées, supérieures à 89% et 78% respectivement. La plus faible
performance est obtenue par l’indicateur VG (73%). Après analyse de nos résultats, il s’est avéré que
l’indicateur rA est surtout sensible aux conditions relatives aux distorsions fréquentielles et aux bruits non
stationnaires, masquant la détection des artéfacts additifs. Quant à l’indicateur VG, il est essentiellement
impacté par des conditions contenant du bruit non stationnaire, des distorsions fréquentielles et des pertes
de paquets/trames très importantes. La non robustesse de l’indicateur VG s’explique par le fait qu’il est
calculé à partir d’une estimation du gain du système de transmission qui est sujet à l’influence des
dégradations telles que le bruit de fond, les coupures, etc.
Sous-dimension Coupures Artéfacts Additifs Variation de Gain

proportions 89,4% 78,62% 73%
correctement
80,3%
détectées
Tableau 4.5 : Performance du modèle proposé en termes de détection des discontinuités sur la base inconnue
- 99 -
Pour la validation de notre modèle en termes de prédiction, la base inconnue est limitée à 216 stimuli
dégradés par des conditions à dégradation unique, comme cela était le cas pour la dimension Bruyance (cf.
chapitre 3, § 3.5). Elle comprend 108 stimuli impactés par des pertes de paquets/trames à des taux de 0, 2
et 20% sans codage (sous-dimension Coupures), 84 stimuli dégradés par le codec G722.1C, qui
implémente une PLC par répétition de trames, associé à des pertes de paquets de 0% et 2% (pertes
aléatoires et en rafales) (sous-dimension Artéfacts Additifs) et 24 stimuli impactés par un débruitage
agressif sans codage (sous-dimension Variation de Gain). La performance de prédiction du modèle
proposé, résumée dans le Tableau 4.6, montre une corrélation d’environ 0,9 pour la sous-dimension
Coupures et une corrélation supérieure à 0,72 pour les deux autres sous-dimensions.
Nous avons comparé notre modèle au modèle de la dimension Continuité proposé dans (Côté 2010b)
qui est uniquement basé sur la modélisation des deux premières sous-dimensions (Coupures et Artéfacts
Additifs) et ne fournit qu’une prédiction de la qualité globale de la dimension. Le Tableau 4.6 révèle une
meilleure prédiction de la qualité globale (ρ = 0,81, ε = 0,32) comparé au modèle « de référence » (Côté
2010) (ρ = 0,80, ε = 0,49). Ce résultat s’explique de toute évidence par le fait que notre modèle prend en
compte l’impact de la variation de gain.
Artéfacts Modèle proposé dans

Coupures Variation de Gain Continuité
Additifs (Côté, 2010b)
ρ 0,89 0,77 0,72 0,81 0,80
ε 0,19 0,25 0,35 0,32 0,49

Tableau 4.6. Performance de prédiction de la qualité vocale du modèle proposé sur la base inconnue
4.3. Conclusion
Au delà de deux indicateurs déjà présents dans la littérature, cet outil intègre un nouvel indicateur
permettant de caractériser l’ensemble des causes de discontinuités connues. Notre modèle se révèle un
outil efficace de diagnostic pour une application en contexte de supervision et d’optimisation des réseaux
de télécommunications tant du point de vue de la détection que de celui de l’identification et de l’impact
de la (ou des) discontinuité(s) présente(s). Une ultime étape consistera à optimiser les indicateurs
VG et rA en compensant l’effet de dégradations ne relevant pas du domaine des discontinuités.
- 100 -
Chapitre 5 Modélisation de la dimension Coloration
Chapitre 5
Modélisation de la dimension Coloration
Nous avons vu dans le chapitre 1 que la dimension Coloration reflète l’ensemble des dégradations
impactant le naturel de la voix. Les études présentées dans (Scholz et al. 2006) et (Huo et al. 2007) ont
montré que la dimension Coloration peut être divisée en deux sous-dimensions (Clarté et Brillance) et
notre étude sur les performances des indicateurs de qualité a mis en évidence la pertinence de certains
d’entre eux pour caractériser ces deux sous-dimensions (cf. chapitre 2, §2.2.3 et 2.3.3.3). D’autre part, les
études rapportées dans (Leman 2011) ont conclu à l’étroite liaison entre la dimension Coloration et les
dégradations causées par les techniques de codage. Les autres causes trouvent leurs origines dans les
extrémités des systèmes de transmission notamment les terminaux. Puisque nous sommes dans un
contexte de diagnostic des systèmes de transmission excluant a priori les extrémités, notre objectif de
quantifier l’ensemble des défauts liés à la dimension Coloration peut ainsi être ramené à la quantification
de ceux engendrés par les codecs. Aussi, dans ce chapitre, proposons-nous de nous focaliser sur la
détermination de leur signature.
Nous appuyons notre étude sur des travaux récents développés dans (Leman 2011), (Zango 2013) et
(Etame et al. 2010). Dans l’étude de (Leman 2011) limitée aux codecs en bande étroite, Leman propose
un arbre de décision permettant d’identifier le type de codage ou de transcodage employé lors d’une
communication téléphonique. Cet arbre de décision utilise un indicateur de qualité fondé uniquement sur
l’analyse du signal dégradé (i.e. le signal codé). L’étude de Zango (Zango 2013), fondée sur celle
d’Etame et al. (Etame et al. 2010), vise à caractériser les dimensions perceptives des codecs de la parole
et du son. Son hypothèse repose sur l’aspect multidimensionnel de la qualité des codecs (Etame et al.
2010). Dans cette étude, des codecs en bande élargie et quelques-uns en bande super-élargie sont utilisés
afin de prendre en compte toutes les techniques de codage implémentées dans les codecs actuellement
présents dans les télécommunications et les applications multimédias. De cette étude, il ressort que la
qualité des codecs est représentée par quatre dimensions perceptives et qu’il existe une relation entre ces
dimensions et les techniques de codage associées à ces codecs. La première dimension, qualifiée par
l’attribut « Sourd », est représentative des codecs CELP. La seconde dimension, caractérisée par le
« Bruit de fond », est composée essentiellement des codecs par forme d’onde. Quant à la troisième
dimension, appelée « Echo/Réverbération », elle est caractéristique des codecs utilisant la technique par
transformée (MDCT et MLT). Enfin, la quatrième dimension, dénommée « Distorsion de la parole », est
relative aux codecs de type hybride (ex. MDCT/CELP).
Dans notre étude, en nous appuyant sur les conclusions de Leman (Leman 2011) et Zango (Zango
2013), nous proposons de développer une méthode générique de détermination de la signature des codecs
prenant en compte la grande majorité des codecs NB, WB et SWB.
- 101 -
5.1. Description des codecs sélectionnés
Les codecs que nous avons pris en compte dans notre étude sont ceux décrits dans le Tableau 5.1. Ces
codecs ont été choisis de sorte à prendre en compte toutes les techniques de codage intégrées dans les
systèmes de télécommunications actuels ou à venir, que ce soit pour une transmission en bande étroite,
élargie ou super-élargie. Ainsi, tout futur codec non considéré dans notre étude pourra être intégré a
priori dans une classe à partir de la connaissance que nous aurons des techniques qu’il met en œuvre, et
de leur similarité avec celles des codecs pris en compte dans notre étude. Ces différents codecs peuvent
être regroupés en quatre groupes selon les techniques de codage qu’ils intègrent :
 groupe des codecs par forme d’onde : ces codecs visent à reproduire le plus fidèlement possible
la forme d’onde du signal de parole. La plus simple de ces techniques correspond à la Modulation
d’Impulsion Codée (MIC) ou PCM (Pulse Coding Modulation) qui consiste à échantillonner le
signal à 8 kHz et à quantifier chaque échantillon sur 8 bits. Elle utilise une loi logarithmique afin
de maintenir le rapport signal à bruit à peu près constant sur une large plage d’amplitude du
signal d’entrée. L’intérêt de cette technique réside dans le fait que le signal résultant n’est que
légèrement comprimé ce qui limite la dégradation de la qualité vocale. Elle est principalement
utilisée dans le codec G.711 (ITU-T 1988a) et dans la bande [50 Hz – 4000 Hz] de ses extensions
en bande élargie (G.711.1 (ITU-T 2008a)) et super-élargie (G.711.1 annexe D (ITU-T 2010a)).
D’autre part, il existe des variantes de cette technique, comme le MICDA (MIC Différentiel
Adaptatif) ou AD-PCM (Adaptive Differential PCM) employé notamment dans le codec G.726
(ITU-T 1990), et le MICDA-SB (MICDA en Sous-Bande) ou SB-ADPCM (Sub-Band ADPCM)
dans le codec G.722 (ITU-T 1988c), dont le but est de transmettre le signal de parole avec le
moins de débit possible en exploitant la corrélation entre les échantillons consécutifs du signal ;
 groupe des codecs par transformée : ces codecs ont pour principe de convertir le signal temporel
dans un espace de représentation (en l’occurrence le domaine fréquentiel) où l’élimination de la
redondance due à la corrélation du signal est plus nette. Pour cela, au niveau du codeur, le signal
temporel est divisé par blocs et chaque bloc de signal est transformé en coefficients avant d’être
quantifié et transmis via le canal de transmission. A la réception, le décodeur restitue le signal de
parole en appliquant une transformation inverse sur le signal reçu quantifié. Les méthodes de
transformation les plus couramment utilisées sont les techniques MDCT (Princen and Bradley,
1986), employée dans le codec AAC-ELD (Lutzky 2008), et MLT dans le codec G.722.1 (ITU-T
2005)] et son annexe C (ITU-T 2008b) ;
 groupe des codecs paramétriques : ce type de codec a pour objectif de modéliser le processus de
production de la parole. La plus simple des techniques de codage paramétrique est le codage
linéaire prédictif ou LPC (Linear Predictive Coding), utilisé dans le codec SILK5 (Anguera 2010),
qui consiste à modéliser le conduit vocal par un filtre de synthèse – le plus souvent un filtre
autorégressif – excité soit par un bruit blanc (pour les sons non voisés) soit par des impulsions
limitées à des bandes de fréquences dans lesquelles les harmoniques sont d’égale amplitude (pour
les sons non voisés). Une autre famille de codage paramétrique, appelée Analyse par Synthèse ou
AbS (Analysis by Synthesis), a pour but de sélectionner des séquences d’excitation optimale à
5
SILK est un codec développé par Skype pour des applications de téléphonie sur IP. Ce codec opère avec un débit
allant de 5 à 40 kbits/s et couvre les bandes téléphoniques étroite, élargie et super-élargie.
- 102 -
l’aide d’un dictionnaire d’excitations pour alimenter le filtre de synthèse du décodeur. On

distingue les techniques RPE-LTP (Regular Pulse Excitation- Long Term Prediction), CELP et
ses variantes ACELP, RCELP (Relaxed CELP) et CS-CELP (Conjugate Structure CELP). Ces
techniques sont utilisées dans les codecs Speex6 (Herlein and Valin 2007), G.729 (ITU-T 2006a)],
GSM-EFR (3GPP 1996), GSM-FR (GSM06.10 1993), EVRC (Spanias 1998), AMR (3GPP 2009)
et son équivalent en bande élargie AMR WB ((3GPP 2000) (aussi connue sous le nom de G.722.2
(ITU-T, 2003e)) ;
 groupe de codecs hybrides : ces types de codec combinent deux techniques de codage. Ce groupe
rassemble G.718 (ITU-T 2008c) et son annexe B (ITU-T 2010c), G.729.1 (ITU-T 2006b) et son
annexe E (ITU-T 2010b), G.711.1 (ITU-T 2008a) et son annexe D (ITU-T 2010a) et AMR WB+
(3GPP 2007).
Notons par ailleurs que certains codecs tels que G.729.1 et l’AMR WB+ utilisent une technique
supplémentaire appelée Time Domain-BandWidth Extension (TD-BWE) consistant en une extension
artificielle de la largeur de bande dans le domaine temporel. D’autre part, une autre technique, connue
sous le nom de Time-Domain Aliasing Cancellation (TDAC), employée dans le codec G.729.1 et son
annexe C, est une technique de codage similaire au MDCT dont le but est de supprimer les repliements
dans le domaine temporel.
Au total, 42 codecs à débits différents ont été sélectionnés dont la grande majorité des codecs WB et
SWB sont des extensions des codecs NB. Les débits considérés correspondent à ceux les plus utilisés
dans les systèmes actuels et/ou envisagés pour des usages à venir. En plus de ces codecs, nous avons pris
en compte des cas de transcodage rencontrés dans les systèmes de communications actuels, comme
illustré dans le Tableau 5.2. Comme on peut le remarquer dans ce tableau, les différents transcodages sont
réalisés en tenant compte de l’ordre des codecs, cela afin de vérifier l’existence d’une différence de
signature sur le signal de parole selon l’ordre considéré. Ainsi, nous avons considéré – en prenant en
compte l’ordre des codecs et les débits utilisés – 16 cas de transcodage pour les codecs NB et 4 cas pour
les codecs WB. Pour résumer, 62 codecs (i.e. codecs seuls ou transcodages) ont été pris en compte soit 26,
20 et 16 codecs respectivement en bandes étroite, élargie et super-élargie.
6
Speex est un codec libre sans brevet, développé dans le cadre d’un projet open source visant à créer un codec
optimisé pour la parole associant une bonne compréhension du signal transmis, ainsi qu'un fort taux de compression
des données possibles. Il est employé dans la VoIP, fonctionne avec un débit de 2 à 44 kbits/s, et couvre également
les trois bandes téléphoniques.
- 103 -
Largeur débits Domaines

Codecs Type de codage
de bande (kbits/s) d’application
G.711 64 Log. PCM RTC, RNIS, VoIP
G.726 32 AD-PCM DECT
G.729 8 CS-ACELP VoIP
GSM-FR 13 RPE-LTP GSM
NB GSM-EFR 12,2 ACELP GSM

AMR 7,4 et 12,2 ACELP GSM, UMTS
EVRC 8,5 RCELP CDMA, VoIP
SILK_NB 20 LPC Skype
Speex_NB 8 CELP VoIP
G.722 48 et 64 SB-ADPCM VoIP
G.722.1 24 et 32 MLT VoIP, streaming
AMR WB ou G.722.2 6,6 et 12,65 ACELP 3G, VoIP
CELP ([50 Hz – 4000 Hz]) ; TD-BWE ([4000 Hz – 7000 Hz]) ;
G.729.1 20 et 32 VoIP
WB MDCT/TDAC ([50 Hz – 7000 Hz])
G.711.1 64 et 96 Log.PCM ([50 Hz – 4000 Hz]) ; MDCT ([4000 Hz – 7000 Hz]) VoIP
SILK_WB 14,5 et 24 LPC Skype
Speex_WB 12,8 et 23,8 CELP VoIP
G.718 24 et 32 CELP ([50 Hz – 6400 Hz]) ; MDCT ([6400 Hz – 7000 Hz]) VoIP
G.722.1C 24 et 48 MLT VoIP
AMR WB+ 16 et 36 ACELP ([0 Hz – 6400 Hz]) ; TD-BWE ([6400 Hz – 12800 Hz]) VoIP
Speex_SWB 24 et 44 CELP VoIP
SILK_SWB 32 et 40 LPC Skype
AAC-ELD 48 et 64 MDCT VoIP
SWB CELP ([50 Hz – 6400 Hz]), MDCT ([6400 Hz – 7000 Hz]),
G.718B 36 et 48 VoIP
MDCT, TD-BWE ([7000 Hz – 14000 Hz])
PCM ([50 Hz – 4000 Hz]) ; MDCT ([4000 Hz – 8000 Hz]) ;
G.711.1D 96 et 112 VoIP
MDCT/TD-BWE ([8000 Hz – 16000 Hz])
CELP ([50 Hz – 4000 Hz]) ; TD-BWE ([4000 Hz – 7000 Hz]) ;
G.729.1E 48 et 64 VoIP
TDAC ([50 Hz – 7000 Hz]) ; MDCT ([7000 Hz – 14000 Hz])
Tableau 5.1. Récapitulatif des codecs considérés pour la détermination de leur signature. DECT signifie Digital
Enhanced Cordless Telecommunications et correspond à une norme de téléphonie sans-fil numérique utilisée en Europe
5.2. Construction de la base sonore
Une base sonore a été construite à partir de 12 échantillons de parole (dont 3 doubles-phrases prononcées
par 2 locuteurs hommes et femmes) extraits d’une base d’Orange Labs et sur lesquels sont appliqués les
62 codecs décrits dans la section précédente. Ces échantillons de parole sont échantillonnés à 48 kHz avec
une quantification sur 16 bits. La Figure 5.1 détaille les différentes étapes de construction de la base
sonore.
Pour chaque signal de parole, un ré-échantillonnage suivi d’une limitation de bande et d’un filtrage
spécifique sont appliqués en fonction des paramètres d’entrée des codecs comme illustré dans le Tableau
5.3. Ainsi, pour les codecs NB, les signaux de parole sont d’abord sous-échantillonnés à 8 kHz, leur
largeur de bande limitée à [300 Hz – 3400 Hz], et ils sont ensuite filtrés par le filtre SRI de l’UIT-T (ITU-
T 1988b) afin de simuler l’utilisation d’un terminal émetteur pour une communication en bande étroite.
- 104 -
Concernant les codecs WB, les signaux sont sous-échantillonnés à 16 kHz, avec une bande de fréquences
limitée à [50 Hz – 7000 Hz] et filtrés par le filtre P.341 de l’UIT-T (ITU-T 1998a) pour simuler une
communication en bande élargie. Quant aux codecs SWB, les signaux sont uniquement sous-
échantillonnés à 32 kHz puis leur largeur de bande est limitée à la bande [50 Hz – 14000 Hz]. Aucun
filtrage spécifique n’est appliqué aux signaux de parole. Le signal résultant est ensuite soumis à une
égalisation du niveau sonore à -26 dBov (UIT-T 1993) puis codé. Dans le cas de codage simple, le signal
vocal est codé puis décodé par l’un des codecs décrits dans le Tableau 5.1. Dans le cas d’un transcodage,
notamment entre G.711 (64) et l’AMR (12,2), le signal vocal est d’abord codé et décodé en G.711 (64)
puis à nouveau codé et décodé en AMR (12,2). Le signal dégradé (i.e. codé) est enfin obtenu en ré-
échantillonnant à 48 kHz le signal issu du codage. Ce processus est appliqué à l’ensemble des 12
échantillons de parole et des 62 codecs, ce qui fait un total de 744 stimuli soit 312, 240 et 192 stimuli
pour les codecs NB, WB et SWB respectivement.
Largeur de bande
Transcodage (débits en kbits/s)
de fréquences
G.711 (64) * AMR (7,4) ; AMR (7,4) * G.711 (64)
G.711 (64) * AMR (12,2) ; AMR (12,2) * G.711 (64)
G.711 (64) * EVRC (8,85) ; EVRC (8,85) * G.711 (64)
G.711 (64) * SILK_NB (20) ; SILK_NB (20) * G.711 (64)
NB
G.711 (64) * Speex_NB (8) ; Speex_NB (8) * G.711 (64)
G.711 (64) * G.729 (8) ; G.729 (8) * G.711 (64)
G.729 (8) * AMR (7,4) ; AMR (7,4) * G.729 (8)
G.729 (8) * AMR (12,2) ; AMR (12,2) * G.729 (8)
AMR WB (12,65) * G.722 (64) ; G.722 (64) * AMR WB (12,65)
WB
AMR WB (12.65) * G.722.1 (32) ; G.722.1 (32) * AMR WB (12,65)
Tableau 5.2. Liste des transcodages retenus
Codecs
Codecs NB Codecs WB Codecs SWB
Spécifications
Fe (kHz) 8 16 32
Largeur de bande [300 Hz – 3400 Hz] [50 Hz – 7000 Hz] [50 Hz – 14000 Hz]
Filtre SRI (ITU-T 1988b) P.341 (ITU-T 1998a) --
Tableau 5.3. Récapitulatif des paramètres d’entrée des codecs
5.3. Détermination de la signature des codecs
5.3.1. Approche méthodologique
De l’analyse des codecs présentés dans le Tableau 5.1, nous dégageons deux caractéristiques majeures.
La première concerne le fait que tous les codecs n’ont pas la même largeur de bandes de fréquences.
Quant à la deuxième, nous constatons que la majeure partie des codecs WB et SWB sont hybrides et que
les différentes techniques de codage sont appliquées sur des bandes de fréquences bien précises. De plus,
les découpes des bandes diffèrent d’un codec à un autre.
- 105 -
D’autre part, pour certains codecs, notamment l’AMR et l’AMR WB, le débit peut changer
instantanément au cours d’une communication téléphonique en fonction de l’évolution de l’état du réseau
et des ressources disponibles. Pour limiter la complexité de notre étude, nous ne considérerons que le cas
où le débit reste inchangé tout au long de la communication.
Ré-échantillonnage Egalisation à 1er codage +

+ Filtrage -26dBoV décodage
(ITU-T P56)
Signal vocal
Fe = 48 kHz, q = 16 bits Signal vocal Signal vocal Signal vocal
Passage à
2ème codage +
48 kHz
décodage
Signal dégradé
Fe = 48kHz, q = 16 bits
Signal vocal Signal vocal
Figure 5.1. Construction de la base sonore
Nous proposons de déterminer la signature des codecs en deux étapes principales prenant en compte
les caractéristiques décrites ci-dessus. La première étape consiste à distinguer automatiquement les codecs
en fonction de leur largeur de bande. Une fois cette étape réalisée, la seconde étape revient à tenir compte
de la seconde caractéristique évoquée plus haut. Pour cela, nous proposons d’analyser le signal de parole
par sous-bandes (de sorte à prendre en compte les découpes en sous-bandes des codecs) en fonction des
trois catégories de codecs (Codecs NB, WB et SWB) :
 [300 Hz – 3400 Hz] pour les codecs NB ;
 [50 Hz – 4000 Hz], [4000 Hz – 6400 Hz], [6400 Hz – 7000 Hz] pour les codecs WB ;
 [50 Hz – 4000 Hz], [4000 Hz – 6400 Hz], [6400 Hz – 7000 Hz], [7000 Hz – 8000 Hz] et
[8000 Hz – 14000 Hz] pour les codecs SWB.
Des indicateurs de qualité décrits dans la section 5.3.3.1 sont appliqués dans chaque sous-bande et
serviront pour une classification fine des codecs.
5.3.2. Détermination des largeurs de bande des codecs
Dans cette partie, nous cherchons à classifier les différents codecs en fonction de leur largeur de bande.
Pour cela, parmi les indicateurs identifiés au chapitre 2 pour cette dimension, nous avons retenu
l’indicateur Erb (Côté 2010b) permettant de quantifier les limitations de bande de fréquences. Les deux
autres indicateurs identifiés au chapitre 2, Freq et fc, respectivement représentatifs des distorsions
fréquentielles liées à la réponse fréquentielle du système de transmission (sous-dimensions Clarté et
- 106 -
Brillance) et de la brillance du signal de parole (sous-dimension Brillance), ne sont pas a priori corrélés
à la largeur de bande et ne seront donc pas considérés dans la suite de ce chapitre.
Nous savons que les codecs sont répartis en fonction de la largeur de spectre qu’ils sont capables de
coder (NB, WB et SWB). La Figure 5.2, qui présente les DSP de différents codecs, illustre bien cette
distinction très nette entre les codecs NB, WB et SWB en fonction de leur largeur de bande. Ceci étant, si,
visuellement, la DSP permet de distinguer les codecs en fonction de leur largeur de bande, elle ne rend
pas de valeur scalaire, facilement utilisable en contexte de supervision, au contraire de l’indicateur Erb.
40 60
SILK_NB (20) SILK_WB (14,5)
Speex_NB (8) SILK_WB (24)
AMR (7,4) 40 Speex_WB (12,8)
20
AMR (12,2) Speex_WB (23,8)
EVRC (8,5) AMR WB (6,6)
GSM-FR(13) 20 AMR WB (12,65)
0
0
-20
-20
DSP (dB)
-40 DSP (dB)

-40
-60
-60
-80
-80
-100
-100
-120 -120
0 4000 8000 12000 16000 24000 0 4000 8000 12000 16000 24000
(a) (b)
- 107 -
60
SILK_SWB (32)
SILK_SWB (40)
Speex_SWB (24)
40 Speex_SWB (44)
AMR WB+ (16)
AMR WB+ (36)
20
0
DSP (dB)
-20
-40
-60
-80
0 4000 8000 12000 16000 24000
Fréquence (Hz)
(c)
Figure 5.2. DSP de quelques codecs (a) NB : SILK_NB (20), Speex_NB (8), AMR (7,4 et 12,2)), EVRC (8,5) et GSM-
FR (13), (b) WB : SILK_WB (14,5 et 24), Speex_WB (12,8 et 23,8), AMR WB (6,6 et 12,65)) et (c) SWB : SILK_SWB (32
et 40), Speex_SWB (24 et 44), AMR WB+ (16 et 36)
Nous avons adopté comme méthode de classification l’algorithme de décision proposé dans (Breiman
et al. 1993) pour les raisons mentionnées dans la section 3.4.1.3 du chapitre 3. L’indicateur Erb est
appliqué à l’ensemble des 744 stimuli, étiquetés en fonction des trois classes de largeur de bande (que
nous avons notées Codec NB, Codec WB et Codec SWB). Ainsi, les valeurs de l’indicateur Erb et les
étiquettes des stimuli sont les paramètres d’entrée de l’algorithme de décision. Une phase d’apprentissage
est opérée dans laquelle 558 stimuli (dont 234 pour les codecs NB, 180 pour les codecs WB et 144 pour
les codecs SWB) ont été aléatoirement sélectionnés. Les 186 stimuli restants serviront lors de la phase de
validation.
La Figure 5.3 présente l’arbre de décision proposé par l’algorithme de classification. Comme on peut
le remarquer, deux seuils ( 16, 29 et 19,91 ) permettent de classifier les codecs en fonction de leur largeur
de bande. En convertissant ces seuils, initialement exprimés en Bark, à l’échelle des Hertz suivant
l’équation (1.2), on obtient respectivement 3,4 kHz et  7 kHz correspondant aux largeurs de bande des
codecs NB et WB. Ainsi, lorsque la valeur de l’indicateur Erb est inférieure ou égale à 16,29 Bark (i.e.
3,4 kHz ), le codec appartient à la classe Codec NB. Sinon, il est de la classe Codec WB lorsque la valeur
de Erb est inférieure ou égale à 19,91 Bark (i.e.  7 kHz ) et de la classe Codec SWB lorsqu’elle est
supérieure.
Les performances de l’arbre de décision sont décrites dans le Tableau 5.4. Sans surprise, nous
constatons que tous les codecs sont correctement classifiés lors des phases d’apprentissage et de
validation. La Figure 5.4 illustre l’évolution des valeurs de l’indicateur Erb pour les trois types de codec
et atteste d’une nette séparation entre les codecs NB, WB et SWB. Ces différents résultats renforcent la
pertinence du choix de l’indicateur Erb.
- 108 -
Erb ≤ 16,29
non oui
Erb ≤ 19,91
Codec NB
non oui
Codec SWB Codec WB
Figure 5.3. Arbre décision pour la classification automatique des codecs en

fonction de la largeur de la bande de fréquences
Classes de codecs
Codecs NB Codecs WB Codecs SWB Total
Phases d’étude
Phase d’apprentissage 100% 100% 100% 100%
Phase de validation 100% 100% 100% 100%
Tableau 5.4. Performances de classification des codecs en fonction de leur largeur de bande obtenues lors des phases
d’apprentissage et de validation
24
Codec NB
Codec WB
Codec SWB
22
20
18
Erb (Bark)
16
14
12
10
0 50 100 150 200 250 300
stimuli
Figure 5.4. Evolution des valeurs de l’indicateur Erb en fonction des stimuli codés avec les codecs NB, WB et SWB décrits
dans les Tableaux 5.1 et 5.2. Les pointillés en rouge représentent les deux seuils de décision proposés par l’algorithme de
classification utilisé dans notre étude
- 109 -
5.3.3. Classification des codecs
Dans la section précédente, nous avons vu que les codecs peuvent être classifiés efficacement en
fonction de leur largeur de bande à l’aide de l’indicateur Erb. Dans cette partie, il s’agit d’une étude plus
fine de chacune des trois catégories de codecs. Pour cette deuxième étape, la détermination de classes
n’est pas aisée, même si des études antérieures peuvent éventuellement nous permettre d’orienter nos
choix. Entre autres, nous pouvons raisonnablement émettre l’hypothèse que les codecs peuvent se
distinguer à partir des techniques de codage qu’ils intègrent (Zango 2013). C’est la raison principale pour
laquelle nous avons décidé d’analyser les stimuli de parole par sous-bande (cf. § 5.3.1) et d’y appliquer
des indicateurs de qualité présentés dans la section 5.3.3.1. Ainsi, à partir des valeurs de ces indicateurs,
une méthode de classification sans connaissance a priori sera utilisée afin de déterminer les classes des
codecs. Il s’agit de la Classification Ascendante Hiérarchique (CAH) (Johnson 1967) (cf. § 5.3.3.2) dont
la particularité est de permettre de visualiser le regroupement progressif des données (i.e. des codecs dans
notre cas) à l’aide d’un dendrogramme (cf. § 5.3.3.3). On peut dès lors se faire une idée du nombre
adéquat de classes dans lesquelles les données peuvent être regroupées. Une fois les classes déterminées,
l’algorithme de décision (Breiman et al. 1993) sera appliqué afin de déterminer les seuils des indicateurs
les plus pertinents à la classification des codecs en fonction des classes obtenues.
5.3.3.1. Description des indicateurs de qualité

Huit indicateurs de qualité ont été considérés dont cinq ont été introduits dans les chapitres 2 (Reverb,
Itimbre, Flatness et Icod) et 3 (CS), les trois autres ayant été choisis pour leur pertinence dans la
caractérisation des quatre dimensions de l’espace perceptif de la qualité des codecs (RSBseg, RSBF et
dWSS rappelés ci-après). Tous ces indicateurs sont calculés uniquement dans les zones d’activité vocale,
car nous avons supposé que la perception des dégradations engendrées par les codecs concerne en priorité
ces zones. On distingue six indicateurs avec référence et deux indicateurs sans référence.
Concernant les indicateurs avec référence, les deux premiers correspondent aux indicateurs Itimbre et
Flatness de POLQA (ITU-T, 2011a) qui permettent d’estimer les distorsions du timbre de la voix. Ces
indicateurs ont été sélectionnés, car nous savions que les dégradations engendrées par les codecs peuvent
impacter le timbre de la voix. L’indicateur Reverb de POLQA est également considéré afin d’estimer la
réverbération introduite par les codecs par transformée (dimension « Echo/Réverbération »). Ces trois
indicateurs sont décrits dans le chapitre 2, §2.2.3. Quant aux trois autres indicateurs, ils représentent des
mesures de distance entre les signaux de référence et dégradé quantifiant les distorsions et/ou le bruit de
fond présent sur le signal de parole après codage et sont décrits comme suit :
 le RSB segmental noté RSBseg (exprimé en dB) s’opère dans domaine temporel et est défini par :
 L 1

10 M   x2  m  L  l  
RSBseg  
M m 1
log10  L 1

l 0 ,

(5.1)
   x  m  L  l   y  m  L  l 
2

 l 0 
où x . et y . correspondent respectivement aux signaux de référence et dégradé, M est le
nombre total de trames, et L la longueur d’une trame. Les valeurs de l’indicateur RSBseg sont
limitées à l’intervalle [-15 dB ; 35 dB] afin de compenser l’effet des coupures et de la dynamique
du signal de parole (Papamichalis 1987) ;
 le RSB fréquentiel (noté RSBF), est l’équivalent du RSB segmental dans le domaine fréquentiel
(Tribolet et al. 1978). Son expression est la suivante :
- 110 -
 K X  m, j 
2

 W  j   log10 
 
2
M 1  j 1 X  m, j   Y  m, j  
10 
RSBF  
M m0  K
,

(5.2)
  W  j 
 j 1

 
où X  m, j  et Y  m, j  sont les amplitudes des j èmes composantes spectrales de la mème trame
des signaux de référence et dégradé. Le paramètre W  j  représente le coefficient de pondération
spectrale du RSB fréquentiel. Tout comme pour l’indicateur RSBseg, les valeurs de l’indicateur
RSBF sont limitées à l’intervalle [-15 dB ; 35 dB] ;
 la distance de la pente spectrale pondérée correspond à la différence des pentes spectrales des
signaux de référence et dégradé proposée par Klatt (Klatt 1982) et est notée dWSS. Son équation est
donnée par :
L 24
d WSS  W  l , z   S xx  l , z   S yy  l , z   ,
2
(5.3)
l 1 z 1
où S xx  l , z  , S yy  l , z  et W  l , z  représentent respectivement les pentes spectrales des signaux

de référence (i.e. le signal non codé) et dégradé et la fonction de pondération dont le calcul est
décrit à la section 2.2.2.
Pour assurer l’efficacité de ces indicateurs, les signaux de référence et dégradé doivent être alignés.
Pour ce faire, nous avons considéré l’algorithme d’alignement temporel des signaux de référence et
dégradé du modèle DIAL (Côté 2010b). Les signaux résultant de l’alignement temporel sont ensuite
divisés en trames de 30 ms (correspondant chacune à 1440 échantillons), avec un recouvrement de 75%,
le fenêtrage utilisé étant celui de Hanning.
Quant aux indicateurs sans référence :
 l’indicateur Icod (cf. chapitre 2, § 2.2.1) proposé dans (Leman 2011) a pour but de caractériser les
dégradations liées au codage de la parole dans un contexte de communication téléphonique en
bande étroite. Pour le calcul de cet indicateur, la taille des trames a été modifiée – elle passe de
256 à 1536 échantillons, ce qui correspond à une durée de 32 ms – afin de l’adapter aux signaux
échantillonnés à 48 kHz ;
 le centre de gravité spectral (noté CS), décrit dans la section 3.4.1.1, est un indicateur fournissant
des informations sur répartition fréquentielle d’un signal donné. Cet indicateur est utilisé par
Etame (Etame et al. 2010) afin de caractériser les dégradations liées aux codeurs CELP.
Comme mentionné plus haut, les huit indicateurs sont appliqués dans les sous-bandes décrites dans la
section 5.3.1 (une seule bande pour les codecs NB, trois et cinq sous-bandes pour les codecs WB et SWB
respectivement). Ainsi, nous disposons de 8 indicateurs pour les codecs NB, 24 pour les codecs WB et 40
pour les codecs SWB. Notons que les sous-bandes ont été obtenues en filtrant les signaux de parole par le
filtre de Butterworth d’ordre 7. L’intérêt de ce filtre linéaire réside dans son gain constant sur une large
bande passante ainsi que sa convergence rapide vers 0 dans la bande de coupure.
- 111 -
5.3.3.2. Description de la méthode CAH

La méthode CAH est une méthode de classification visant à répartir n individus, caractérisés par p
variables, en un nombre m de classes de sorte que les individus appartenant à une classe donnée aient les
mêmes caractéristiques et que des individus de classes distinctes soient très peu ressemblants. Cette
méthode de classification est dite ‘ascendante’, car elle part des observations individuelles, et
‘hiérarchique’ puisqu’elle produit des classes de plus en plus vastes, incluant des sous-groupes en leur
sein. La méthode CAH requiert que l’on définisse une mesure de distance entre les classes appelée critère
d’agrégation. Nous présentons ici les critères d’agrégation les plus utilisés :
 le critère du saut minimal ou "single linkage" : dans ce critère, la distance entre deux classes
est déterminée à partir de la plus petite distance entre deux individus de ces classes. En notant
I et J deux groupes d’individus, le critère du saut minimal est défini par :
 min  I , J   min d  A, B  , (5.4)
AI , BJ
où d  A, B  est la mesure de dissimilarité entre les éléments A et B appartement

respectivement au classes I et J . Très souvent, la mesure de dissimilarité utilisée correspond
à la distance euclidienne et dans ce cas d  A, B  s’écrit sous la forme :
p
d  A, B    V  VBk  ,
2
Ak (5.5)
k 1
où VAk et VBk , k  1,..., p , correspondent aux valeurs des variables associées aux éléments A
et B respectivement ;
 le critère du saut maximal ou "complete linkage" : contrairement au critère précédent, le
critère du saut maximal détermine les distances entre classes à partir de la plus grande distance
existant entre deux individus de classes différentes (i.e. les voisins les plus éloignés) et est
défini par :
 max  I , J   max d  A, B  , (5.6)
AI , BJ
 le critère de la distance des centroïdes : comme son nom l’indique, ce critère est fondé sur la
distance entre les centroïdes (i.e. les centres de gravité) des classes prises deux à deux,
1
 cent  I , J   d  cI , cJ  , avec cI  A ,
card  I  AI
(5.7)
où card  I  est le cardinal de I .
5.3.3.3. Application de la méthode CAH aux codecs

La méthode CAH est appliquée séparément sur les trois catégories de codecs (Codecs NB, WB et
SWB). Dans notre cas, les individus et les variables correspondent respectivement aux codecs et aux
indicateurs de qualité. Notre choix du critère d’agrégation porte sur le critère du saut maximal du fait
qu’il permet d’obtenir des classes éloignées entre elles et donc dissemblables.
Avant l’application de la méthode CAH, un traitement spécifique est appliqué aux valeurs des
indicateurs de qualité pour chaque groupe de codecs. Les indicateurs de qualité prenant leurs valeurs sur
des échelles difficilement comparables, les variables ont préalablement été centrées et réduites (moyenne
nulle et écart-type égal à 1). De plus, étant donné que chaque codec est représenté par 12 stimuli, les
valeurs centrées et réduites des indicateurs sont moyennées suivant ces 12 stimuli de sorte à obtenir une
- 112 -
valeur unique par indicateur pour chaque codec. Ainsi, chaque codec est représenté dans un espace à p
dimensions où p correspond au nombre d’indicateurs de qualité qui lui sont associés ( p  8 , 24 et 40
pour les codecs NB, WB et SWB respectivement). La distance euclidienne entre deux codecs ou groupes
de codecs est déterminée à partir de l’équation (5.5) et la distance entre les classes est calculée suivant
l’équation (5.6).
Les résultats issus de la méthode CAH se présentent sous forme d’un dendrogramme illustrant une
hiérarchie de partitions. Dans le dendrogramme, les hauteurs sont proportionnelles à la distance entre les
classes. Plus la hauteur est grande, plus les classes sont éloignées. On peut alors choisir le nombre de
classes a posteriori en tronquant l’arbre à un niveau de seuillage donné, le niveau dépendant des objectifs
fixés. Les sections suivantes décrivent les résultats de l’application de la méthode CAH à chaque groupe
de codecs.
5.3.3.3.1. Cas des codecs NB

La Figure 5.5 présente le dendrogramme des codecs NB. Nous constatons, à partir du premier
seuillage, un partitionnement net des codecs en deux grandes classes :
 Classe 1 : constituée des G.711 (64) et G.726 (32), cette classe regroupe les codecs de type
codage par forme d’onde ;
 Classe 2 : cette classe regroupe tous les codecs caractérisés par le codage paramétrique (i.e. les 24
autres codecs).
Ce partitionnement en deux classes montre bien une distinction des codecs en fonction des techniques de
codage qu’ils intègrent. Assez naturellement, on peut dégager deux autres niveaux de seuillage conduisant
respectivement à 3 ou 4 classes. Ces seuillages fournissent un partitionnement plus fin des codecs
paramétriques. Un œil avisé pourrait également considérer un quatrième niveau de seuillage conduisant à
6 classes. Comme nous l’avons mentionné plus haut, le nombre de classes retenues dépend de l’objectif
visé, qui en l’occurrence consiste à distinguer les codecs les plus communément utilisés. Or, nous
constatons qu’avec ce quatrième niveau de seuillage, nous avons bien une distinction, d’une part, entre les
transcodages de type CELP-CELP (G.729 *AMR) et le codage en EVRC et, d’autre part, entre le codage
en SILK_NB et en AMR (12,2), ce qui ne serait pas le cas si l’on ne retenait que 3 ou 4 classes. Nous
avons ainsi décidé de retenir ce quatrième seuillage. Les 6 classes obtenues sont définies comme suit :
 Classe 1 : cette classe est constituée par les codecs par forme d’onde (G.711 (64) et G.726 (32)) ;
 Classe 2 : représentée par les transcodages AMR (7,4 et 12,2) * G.729 (8) et leur transcodage
inverse (i.e. G.729 (8) * AMR (7,4 et 12,2)), cette classe regroupe les transcodages de type
CELP-CELP ;
 Classe 3 : cette classe est caractérisée par les codecs EVRC (8,5), G.711 (64) * EVRC (8,5) (et
son inverse) ;
 Classe 4 : cette classe regroupe les codecs de type LPC (forme simple du codage paramétrique) à
savoir SILK_NB (20), SILK_NB (20) * G.711 (64) (et son inverse) ;
 Classe 5 : cette classe concerne les codecs AMR (12,2), AMR (12,2) * G.711 (64) (et son inverse)
et GSM-EFR (12,2) ;
 Classe 6 : cette classe est constituée par les codecs G.729 (8) * G.711 (64) (et son inverse), G.729
(8), G.711 (64) * AMR (7,4) (et son inverse), AMR (7,4), Speex_NB (8), Speex_NB (8)* G.711
(64) (et son inverse) et GSM-FR (13).
- 113 -
Dendrogramme : configuration avec 26 codecs

7
5 1
Distance d'éloignement
2
4
3
2
4
1
0
G.711(64)
G.726(32)
EVRC(8.5)
AMR(12.2)
SILK_NB(20)
G.729(8)
AMR(7.4)
Speex_NB(8)
GSM-FR(13)
AMR(12.2)*G.729(8)
G.729(8)*AMR(12.2)
AMR(7.4)*G.729(8)
G.729(8)*AMR(7.4)
EVRC(8.5)*G.711(64)
G.711(64)*EVRC(8.5)
SILK_NB(20)*G.711(64)
AMR(12.2)*G.711(64)
G.711(64)*AMR(12.2)
GSM-EFR(12.2)
G.711(64)*SILK_NB(20)
G.729(8)*G.711(64)
G.711(64)*G.729(8)
G.711(64)*AMR(7.4)
AMR(7.4)*G.711(64)
Speex_NB(8)*G.711(64)
G.711(64)*Speex_NB(8)
Figure 5.5. Dendrogramme obtenu par application de la méthode CAH sur les codecs NB
5.3.3.3.2. Cas des codecs WB

Les résultats de l’application de la méthode CAH sont illustrés sur la Figure 5.6. Rappelons que les
codecs NB sont caractérisés par deux techniques de codage à savoir les codages par forme d’onde et les
codages paramétriques. Quant aux codecs WB et SWB, on distingue, en plus de ces deux techniques, le
codage par transformée et le codage hybride. D’après la Figure 5.6, à partir d’un premier seuillage, on
distingue deux grandes classes de codecs à savoir :
 Classe 1 : cette classe regroupe les codecs G.718 (24 et 32), G.729.1 (20 et 32), Speex_WB (12,8
et 23,8), SILK_WB (14,5 et 24), AMR WB (6,6 et 12,5), AMR WB (12,5) * G.722 (64) (et son
inverse), AMR WB (12,5) * G.722.1 (32) (et son inverse) et G.722.1 (24). Tous ces codecs ont en
commun la technique CELP ou LPC (que nous notons par la suite CELP/LPC) dans la bande
[50 Hz – 4000 Hz] ou [50 Hz – 6400 Hz] suivant les codecs, à l’exception du codec G.722.1 (24)
qui appartient au groupe des codecs par transformée (cf. Tableau 5.1) ;
 Classe 2 : cette classe comprend les codecs G.711.1 (64 et 96), G.722 (48 et 64) et G.722.1 (32)
caractérisés par le codage par forme d’onde dans la bande [50 Hz – 4000 Hz] (le codec G.722
étant codé par cette technique sur toute sa bande), excepté le codec G.722.1 (32) qui est un codec
par transformée.
- 114 -

10
1
8
distance d'éloignement
6
2
0
G.718(32)
G.718(24)
G.722(64)
G.722(48)
G.722.1(24)
G.729.1(20)
AMR WB(6.6)
G.711.1(96)
G.711.1(64)
G.722.1(32)
AMR WB(12.65)
SILK_WB(24)
SILK_WB(14.5)
G.729.1(32)
Speex_WB(23.8)
Speex_WB(12.8)
G.722.1(32)*AMR WB(12.5)
G.722(64)*AMR WB(12.5)
AMR WB(12.5)*G.722(64)
AMR WB(12.5)*G.722.1(32)
Figure 5.6. Dendrogramme obtenu par application de la méthode CAH sur les codecs WB
De façon générale, on remarque que ces deux classes sont caractérisées – de par la technique de codage
employée, de façon générale, dans la bande [50 Hz – 6400 Hz] – d’une part, par les codecs CELP/LPC et,
d’autre part, par les codecs par forme d’onde, exception faite du codec G.722.1 qui, selon le débit
considéré, appartient à la première ou à la deuxième classe. Plus avant, un deuxième seuillage fournit un
partitionnement supplémentaire des codecs de la Classe 1. Même si la découpe en 3 classes ne se justifie
pas pleinement pour du diagnostic en contexte opérationnel, elle sera néanmoins conservée par la suite.
La découpe qui aurait un intérêt du point de vue de l’application serait une distinction entre les codecs les
plus fréquemment utilisés, notamment SILK_WB et l’AMR WB, que nous ne pouvons malheureusement
pas mettre en évidence ici. Les trois classes conservées sont donc :
 Classe 1 : G.718 (24 et 32), G.729.1 (32), G.722.1 (24) ;
 Classe 2 : Speex_WB (12,8 et 23,8), SILK_WB (14,5 et 24), AMR WB (6,6 et 12,5), AMR WB
(12,5) * G.722 (64) (et son inverse), AMR WB (12,5) * G.722.1 (32) (et son inverse) ;
 Classe 3 : G.711.1 (64 et 96), G.722.1 (32), G.722 (48 et 64)
5.3.3.3.3. Cas des codecs SWB

La Figure 5.7 illustre le dendrogramme des codecs SWB. On obtient un partitionnement logique en deux
classes au niveau du premier seuillage :
 Classe 1 : cette classe comprend les codecs par transformée (AAC-ELD (48 et 64) et G.722.1C
(48)) et les codecs G.711.1 (96 et 112) caractérisés par le codage par forme d’onde dans la bande
[50 Hz – 4000 Hz] et le codage par transformée dans la bande [4000 Hz – 8000 Hz] ;
- 115 -
Classe 2 : cette classe regroupe les codecs G.718B (36 et 48), SILK_SWB (32 et 40),

Speex_SWB (24 et 44), G.729.1E (48 et 64), AMR WB+ (16 et 36) et G.722.1C (24). Excepté le
codec G.722.1C (24) qui est un codec par transformée, les autres codecs ont en commun la
technique de codage CELP/LPC dans la bande [50 Hz – 4000 Hz] ou [50 Hz – 6400 Hz].
Pour ce premier niveau de classification, si l’on compare les Figures 5.6 (codecs WB) et 5.7 (codecs
SWB), on obtient une configuration assez semblable, à savoir une séparation entre le codage CELP/LPC
et le codage par forme d’onde (auquel vient s’ajouter le codage par transformée dans le cas de la Figure
5.7). On peut aussi remarquer que le G.722.1C se repartit dans les deux classes en fonction du débit
considéré. Ce même constat a déjà été fait pour ce codec dans sa version en bande élargie G.722.1 (cf.
Figure 5.6), ce qui nous laisse penser que le débit des codecs a un impact sur la classification des codecs.
Comme dans le cas des codecs WB, on peut assez facilement mettre en évidence une classification à 3
classes qui sera celle conservée par la suite. Ces classes sont définies comme suit :
 Classe 1 : AAC-ELD (48 et 64), G.722.1C (48)), G.711.1D (96 et 112) ;
 Classe 2 : G.718B (36 et 48), SILK_SWB (32 et 40), Speex_SWB (24 et 44) ;
 Classe 3 : G.729.1E (48 et 64), AMR WB+ (16 et 36) et G.722.1C (24).
Il est encore tôt pour savoir si cette découpe correspond bien à l’usage, encore limité aujourd’hui, qui sera
fait des divers codecs SWB, et permettra un bon diagnostic.
9
1
6
distance d'éloignement
2
3
0
G.711.1D(96)
G.718B(48)
G.718B(36)
G.711.1D(112)
AMR WB+(36)
AMR WB+(16)
AAC-ELD(64)
AAC-ELD(48)
G.722.1C(48)
G.729.1E(64)
G.729.1E(48)
G.722.1C(24)
SILK_SWB(40)
SILK_SWB(32)
Speex_SWB(44)
Speex_SWB(24)
Figure 5.7. Dendrogramme obtenu par application de la méthode CAH sur les codecs SWB
5.3.3.3.4. Analyse des résultats

De manière générale, nous constatons que les codecs NB peuvent se distinguer en fonction des
techniques de codage qu’ils intègrent. Quant aux codecs WB et SWB, la distinction (au sein de chaque
groupe) se fait à partir des techniques de codage présentes dans des bandes particulières (cf. Tableau 5.1).
- 116 -
Si nous obtenons une classification fine des codecs NB, il n'en va pas de même pour les codecs WB et
SWB, dont la grande majorité est hybride. Cependant, rappelons que la détermination des classes des
codecs est effectuée sur la base des valeurs des indicateurs de qualité que nous avons considérés. Cela
étant, nous pensons que, soit le nombre important d’indicateurs de qualité utilisés pour les codecs WB et
SWB (24 et 40 indicateurs pour les codecs WB et SWB respectivement contre 8 indicateurs pour les
codecs NB) peut engendrer un effet de masquage (i.e. les informations apportées par certains indicateurs
de qualité seraient masquées par celles d'autres indicateurs) empêchant un partitionnement plus fin des
codecs, soit aucun de ces indicateurs n’apporte d’informations supplémentaires quant à la distinction de
ces codecs. En pareille circonstance, on pourrait utiliser une méthode de sélection des indicateurs les plus
pertinents comme l’ACP (cf. chapitre 1, § 1.5.1.1.2) avant d'appliquer la CAH. Cela aurait pour effet de
ne retenir que les indicateurs qui apportent des informations utiles à la classification des codecs.
Par ailleurs, comme nous l’avons constaté avec le codec G.722.1 et son annexe C, le débit utilisé
semble avoir un effet sur l’appartenance du codec à une classe donnée.
Par conséquent, de nouvelles investigations sont nécessaires pour une analyse plus approfondie des
codecs WB et SWB.
5.3.3.4. Classification automatique des codecs

Dans la section précédente, nous avons déterminé les classes des trois catégories de codecs (codecs
NB, WB et SWB). Dans cette partie, nous allons appliquer l’algorithme de décision (Breiman et al. 1993)]
dans le but d’estimer les seuils des indicateurs les plus pertinents à la classification des codecs en fonction
des classes obtenues. Pour cela, on considère les 744 stimuli de la base sonore qui sont étiquetés en
fonction des classes obtenues. Pour chaque groupe de codecs, les paramètres d’entrée de l’algorithme de
décision correspondent aux valeurs des indicateurs de qualité (8 × 312 valeurs d’indicateurs pour les
codecs NB, 24 × 240 pour les codecs WB et 40 × 192 pour les codecs SWB) et aux étiquettes des stimuli.
Lors de la phase d’apprentissage, nous avons considéré 75% des stimuli de chaque groupe (i.e. 234, 180
et 144 stimuli pour les codecs NB, WB et SWB respectivement), les 25% de stimuli restants étant utilisés
lors de la phase de validation. Les arbres de décision proposés par l’algorithme de décision lors de la
phase d’apprentissage pour chaque groupe sont illustrés sur les Figures 5.8 à 5.10.
Pour les codecs NB, on remarque que seuls deux indicateurs de qualité sont sélectionnés par
l’algorithme de décision (cf. Figure 5.8). Il s’agit des indicateurs RSBseg et RSBF s’exerçant dans les
domaines temporel et fréquentiel respectivement. Ces indicateurs fournissent des informations sur la
différence de niveau existante entre le signal de référence non codé et le signal codé aussi bien dans le
domaine temporel que fréquentiel, ce qui fait d’eux des indicateurs pertinents à la classification des
codecs. De plus, la configuration de l’arbre de décision correspond au dendrogramme des codecs NB (cf.
Figure 5.5). On peut remarquer que les codecs par forme d’onde présentent le rapport signal à bruit le
plus élevé ( RSBseg  15,33 dB ) comparé aux autres codecs caractérisés par le codage paramétrique. Cela
s’explique par le fait que les codecs par forme d’onde produisent moins de dégradations dans le signal de
parole. Par ailleurs, les classes constituées des codecs CELP ont les rapports signal à bruit (dans le
domaine temporel et fréquentiel) les plus faibles. Ces codecs sont caractérisés par de faibles énergies dans
les hautes fréquences. D’après le Tableau 5.5, l’arbre de décision proposé présente une performance
globale de classification des codecs NB supérieure à 93% pour les phases d’apprentissage et de validation.
A l'exception des codecs de la Classe 5, tous les codecs ont quasiment été correctement classifiés. Les
éléments de la Classe 5 qui n’ont pas été correctement classifiés se retrouvent dans la Classe 4. Rappelons
- 117 -
que les classes 4 et 5 forment une seule et même classe si l’on s'était limité au troisième seuillage (ce qui
laisse présager qu’elles présentent des caractéristiques quelque peu comparables).
RSBseg < 3,89
non oui
RSBF < 16,38
RSBseg < 1,50

non oui
RSBseg < 15,33
6
G.729 (8) * G.711 (64)
G.711 (64) * AMR WB (7,4) non oui
AMR (7,4) * Speex_NB (8)
non oui Speex_NB (8) * G.711 (64)
GSM-FR
1
RSBF < 19,05
G.711 (64) 2 3
G.726 (32) AMR (7,4) * G.729 (8) EVRC (8,85)
AMR (12,2) * G.729 (8) EVRC (8,85) * G.711 (64)
non oui
4 5
SILK_NB (20) AMR (12,2)
SILK_NB (20)*G.711 (64) AMR (12,2) * G.711 (64)
GSM-EFR
Figure 5.8. Arbre de décision pour la classification automatique des codecs NB. Les cases numérotées de 1 à 6
correspondent aux classes obtenues dans la section 5.3.3.3.1
Classes de codecs
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Total
Phases d’étude
Phase d’apprentissage 100% 100% 100% 100% 83,3% 95,6% 95,73%
Phase de validation 100% 100% 100% 100% 75% 93,3% 93,4%
Tableau 5.5. Performances de classification des codecs NB lors des phases d’apprentissage et de validation
Pour les codecs WB, on constate que l’algorithme de décision n’utilise que l’indicateur RSBseg et plus
précisément dans la bande [4000 Hz – 6400 Hz] pour les classifier en trois classes (cf. Figure 5.9). Même
si l’interprétation de ces résultats est assez délicate, nous pouvons néanmoins noter sur la Figure 5.9 que,
tout comme dans le cas des codecs NB, les codecs intégrant le codage par forme d’onde présentent les
plus forts rapports signal à bruit comparés à ceux utilisant le codage CELP/LPC. L’arbre de décision
proposé a un taux global de classification supérieur à 94% aussi bien pour la phase d’apprentissage que
pour celle de validation, témoignant ainsi de la fiabilité de l’indicateur sélectionné et des seuils de
décision proposés (cf. Tableau 5.6).
- 118 -
RSBseg[4000 – 6400 Hz] < 2,93
non oui
RSBseg[4000 – 6400 Hz] < 6,35
1
G.718 (24 et 32)
G.729.1 (32)
non oui G.722.1 (24)
2 3
Speex_WB (12,8 et 23,8) G.711.1 (64 et 96)
SILK_WB (14,5 et 24) G.722.1 (32)
AMR WB (6,6 et 12,5) G.722 (48 et 64)
AMR WB (12,5) * G.722 (64)
AMR WB (12,5) * G.722.1 (32)
Figure 5.9. Arbre de décision pour la classification automatique des codecs WB. Les cases numérotées de 1 à 3
Classes de codecs
Classe 1 Classe 2 Classe 3 Total
Phases d’étude
Phase d’apprentissage 96,3% 91,9% 96,3% 94%
Phase de validation 88,9% 93,9% 100% 95%
Tableau 5.6. Performances de classification de codecs WB lors des phases d’apprentissage et de validation
Concernant les codecs SWB, remarquons qu’aucun indicateur dans la bande de fréquences
caractéristique de la bande super-élargie n’a été sélectionné. Seul l’indicateur RSBseg dans les bandes
[50 Hz – 4000 Hz] et [4000 Hz – 6400 Hz] est retenu par l’algorithme de décision (cf. Figure 5.10). Dans
un premier temps, l’indicateur RSBseg dans la bande [4000 Hz – 6400 Hz] est utilisé pour distinguer les
codecs AAC-ELD (48 et 64), G.722.1C (48) et G.711.1D (96 et 112) des autres codecs. Rappelons que
les codecs AAC-ELD et G.722.1C sont des codecs par transformée tandis que le codec G.711.1D intègre
le codage par forme d’onde dans la bande [50 Hz – 4000 Hz] et le codage par transformée dans la bande
[4000 Hz – 8000 Hz] (cf. 5.3.3.3.3). Ces codecs ont donc en commun le codage par transformée dans la
bande [4000 Hz – 8000 Hz] et par conséquent dans la bande [4000 Hz – 6400 Hz], bande dans laquelle
l’indicateur RSBseg est considéré. Dans un second temps, le même indicateur est employé mais cette fois-
ci dans la bande [50 Hz – 4000 Hz] pour caractériser les codecs ayant en commun le codage CELP/LPC
dans cette bande. Le Tableau 5.7 présente les performances de l’arbre de décision pour la classification
des codecs SWB. On obtient un taux de classification supérieur à 90% dans les phases d’apprentissage et
de validation. Dans chacune de ces phases, les codecs de la Classe 1 sont correctement classifiés. Quant
aux codecs des Classes 2 et 3, on obtient une performance de classification supérieure à 86%. Les
éléments de la Classe 2 n’ayant pas été correctement classifiés se retrouvent dans la Classe 3 et vice-versa.
Ce fait a déjà été observé dans le cas des codecs NB.
- 119 -
RSBseg[4000 – 6400 Hz] < 6,25
non oui
RSBseg[50 – 4000 Hz] < 9,33

1
AAC-ELD (48 et 64)
G.722.1C (48)
G.711.1D (96 et 112) non oui
3 2
G.729.1E (48 et 64) G.718B (36 et 48)
AMR WB+ (16 et 36) SILK_SWB (32 et 40)
G.722.1C (24) Speex_SWB (24 et 44)
Figure 5.10. Arbre décision pour la classification automatique des codecs SWB. Les cases numérotées de 1 à 3
Classes de codecs
Classe 1 Classe 2 Classe 3 Total
Phases d’étude
Phase d’apprentissage 100% 94,4% 87 % 93,8%
Phase de validation 100% 88,9% 86,7% 89,6%
Tableau 5.7. Performances de classification des codecs SWB lors des phases d’apprentissage et de validation
5.4. Performances du modèle proposé
Nous avons vu dans la section précédente que les arbres de décision proposés pour la classification des
codecs NB, WB et SWB présentent de bonnes performances. Il s’agit maintenant d’évaluer ces
performances sur une base inconnue. Pour cela, le modèle global prenant en compte la classification des
codecs en fonction de leur largeur de bande a été considéré. Nous avons extrait 88 stimuli dans les bases
sonores de POLQA (ITU-T 2011a). Ainsi, pour les codecs NB, nous avons considéré 12 stimuli dégradés
par cinq conditions de codage simple (l’EVRC (8,85) associé à 0%, 2% et 10% de pertes de paquets et
l’AMR (12,2) associé à 2% de pertes de paquets) et 4 stimuli par une condition de transcodage de type
CELP-CELP (GSM-EFR (12,2) * GSM-EFR (12,2)) soit un total de 52 stimuli. Quant aux codecs WB,
20 stimuli sont obtenus en dégradant 4 signaux de parole par cinq conditions de dégradation (l’AMR WB
(6,6 et 12,65) associé à 1% de pertes de paquets, G.722.1 (32), G.722 (64) et G.711.1 (96) avec un bruit
de restaurant à 8 dB). Enfin, pour les codecs SWB, 16 stimuli sont relatifs à quatre conditions de
dégradation (Speex_SWB (44), l’AMR WB+ (24 et 32) et G.722.1C(24) associé à du bruit de souffle à 20
dB et 2% de pertes de paquets).
Le Tableau 5.8 illustre les performances de notre modèle et montre un taux global de bonne
classification de 82,9%. La performance la plus élevée est observée pour les codecs NB (86,5%), attestant
la robustesse du modèle en présence de coupures. La performance la plus faible concerne les codecs SWB
(75% de bonne classification). Les stimuli n’ayant pas été correctement classifiés concernent ceux qui
sont impactés par la condition contenant du bruit. Cela s’explique par le fait que l’indicateur RSBseg est
très sensible au niveau du bruit de fond présent dans le signal de parole. Ce même constat est également
observé pour les codecs WB. Notons au passage que du point de vue de la distinction des codecs en
fonction de leur largeur de bande, notre modèle obtient un taux de classification de 96,6%, ce qui renforce
une fois de plus la fiabilité et la robustesse de l’indicateur Erb.
- 120 -
Groupes de codecs Codecs NB Codecs WB Codecs SWB
Pourcentage de codecs 86,5% 80% 75%

correctement classés 82,9%
Tableau 5.8. Performances du modèle proposé en termes de classification des codecs sur une base
sonore inconnue
5.5. Conclusion
L’objectif de cette étude était de développer un outil capable de déterminer la signature des codecs NB,
WB et SWB tout en prenant en compte les contraintes liées à ces codecs. Sur la base des études effectuées
dans (Zango 2013) et (Leman 2011), des indicateurs de qualité ont été considérés pour une étude plus fine
des codecs. A l’issue de cette étude, nous avons conçu un outil permettant de classifier l’ensemble des
codecs NB, WB et SWB avec seulement trois indicateurs de qualité dont l’un, l’indicateur Erb, permet
d’obtenir des informations sur la largeur de bande des codecs et les deux autres, les indicateurs RSBseg et
RSBF, des informations complémentaires sur la nature des codecs. Dans le cas des codecs NB, l’outil
proposé fournit des informations plus fines sur les codecs très couramment utilisés dans les systèmes de
télécommunications. Notre outil se révèle très utile dans un contexte de diagnostic avancé des systèmes
de télécommunications en bande étroite puisqu’une connaissance sur le type de codec utilisé permet
d’obtenir d’autres informations supplémentaires notamment sur la nature de l’algorithme PLC. En
revanche, en ce qui concerne les codecs WB et SWB, de par leur caractère hybride, nous n’avons pas pu
obtenir d’informations plus précises. Néanmoins, comme nous l'avons constaté, ces codecs se distinguent
en fonction des techniques de codage qu’ils intègrent dans des bandes particulières (i.e. les bandes
[4000 Hz – 6400 Hz] et [50 Hz – 6400 Hz] pour les codecs WB et SWB, respectivement), ce qui demeure
une information capitale pour des études ultérieures. Une étude plus avancée sur les codecs WB et SWB
est nécessaire. On pourrait par exemple appliquer une ACP sur les indicateurs de qualité afin de ne
conserver que les plus pertinents à la détermination des classes des codecs. Cela permettrait sans doute de
comprendre aussi l’intérêt des indicateurs de qualité sélectionnés par l’algorithme dans la détermination
des classes des codecs.
- 121 -
Chapitre 6 Modélisation de la dimension Sonie
Chapitre 6
Modélisation de la dimension Sonie
La dimension Sonie est relative à la perception du niveau sonore du signal de parole. Les facteurs
techniques impactant cette dimension sont principalement les caractéristiques du terminal (i.e. réglages du
microphone et du haut-parleur), ou le bruit présent sur le signal de parole. Bien que les réseaux soient en
théorie neutres en termes de niveaux, on peut aussi citer les éventuels gains que le signal peut subir lors
de transcodages. Comme nous l’avons mentionné dans le chapitre 2, § 1.5.2, la dimension Sonie joue un
rôle important dans la perception de la qualité vocale ((McDermott 1969) et (Côté et al. 2007)), que le
niveau sonore de la parole soit trop faible ou trop fort. C’est la raison pour laquelle les modèles récents
d’évaluation de la qualité vocale, tels que POLQA (ITU-T 2011a) et DIAL (Côté 2010b), prennent en
compte l’effet de cette dimension sur la qualité perçue. A l’heure actuelle, aucune découpe de la
dimension Sonie en sous-dimensions n’a été proposée mais des indicateurs de qualité permettent de
quantifier cette dimension.
En psycho-acoustique, la sonie est une grandeur subjective correspondant à l’équivalent sensoriel de
l’intensité physique d’un son. Autrement dit, elle correspond à la perception du niveau sonore d’un son
prenant en compte son contenu fréquentiel et sa durée. La dimension Sonie, que nous considérons ici,
représente l’impact de la sonie sur la qualité vocale. Dans ce chapitre, nous présenterons brièvement
quelques méthodes objectives d’estimation de la sonie, dont une est particulièrement utilisée dans les
modèles perceptifs d’évaluation de la qualité vocale, notamment POLQA. Les indicateurs de qualité de la
dimension Sonie proposés dans la littérature seront ensuite décrits. Enfin, nous analyserons leurs
performances, notre objectif étant de sélectionner les plus pertinents pour la caractérisation de la
dimension Sonie.
6.1. Méthodes objectives d’estimation de la sonie
La sonie d’un son s’exprime en sone ou en phone. Le sone est une unité fondée sur une échelle
sensorielle établie par Stevens (Stevens 1936) à partir de tests psycho-acoustiques. Par convention, 1 sone
correspond à la sonie d’un son pur7 de fréquence 1000 Hz ayant un niveau de 40 dB SPL. Quant au phone,
c'est une unité proposée par Fletcher et Munson (Fletcher 1933) à partir des courbes d’isosonie8 et dont
l’échelle correspond à celle des dB SPL pour un son pur de 1000 Hz.
7
Un son pur correspond à un signal sinusoïdal dont la fréquence et l'amplitude maximale restent constantes au cours
du temps. Dans la nature, on trouve très rarement un son pur mais plutôt un son résultant d’un mélange de plusieurs
sons purs (son complexe).
8
Une courbe d’isosonie (ou courbe isosonique) désigne le niveau de pression acoustique en dB SPL, en fonction de
la fréquence, et ayant la même sensation d’intensité sonore pour l’oreille humaine.
- 123 -
La mesure objective de la sonie de n’importe quel type de son est très complexe. Toutefois, il existe
des méthodes permettant d’estimer la sonie des sons stationnaires ou non.
6.1.1. Méthodes d’estimation de la sonie des sons stationnaires
Pour l’estimation de la sonie des sons stationnaires, on distingue principalement deux méthodes. Il
s’agit des modèles de Zwicker (Zwicker 1958) et de Moore et Glasberg [(Moore and Glasberg 1997)]
respectivement normalisés sous (ISO-532B 1975) et (ANSI-S3.4 2007). Ces modèles sont fondés sur la
modélisation du système auditif humain.
Selon (Zwicker 1958), la sonie est liée à la répartition de l’excitation, provoquée par un signal
acoustique, le long de la cochlée (cf. chapitre 1, § 1.1). De ce fait, l’estimation de la sonie revient à
transformer le signal acoustique en un signal d’excitation perçu au niveau de la cochlée. Cette
transformation s’effectue principalement en trois étapes comme illustré sur la Figure 6.1. La première
étape consiste à modéliser la cochlée qui, d’après Fletcher (Fletcher 1940), est constituée d’un banc de
filtres passe-bande se chevauchant fortement. Zwicker modélise ces filtres physiologiques par les bandes
critiques (cf. chapitre 1, § 1.1) qui sont des bandes spectrales adjacentes dont l’unité est le Bark. Le
nombre total de bandes critiques proposé est de 24 (cf. Tableau 1.1). Une fois cette modélisation effectuée,
le signal acoustique est filtré en fonction de ces bandes critiques. La deuxième étape revient à estimer la
courbe de masquage fréquentiel. Le masquage fréquentiel est un phénomène perceptif apparaissant
lorsqu’un son de faible intensité – qui serait parfaitement audible s’il était émis seul – est masqué par un
son de forte intensité (son masquant) et de fréquence voisine du premier son (cf. Figure 6.2). Cette courbe
de masquage est estimée dans chaque bande critique afin de ne considérer que les fréquences ayant une
énergie supérieure à cette courbe. Enfin, la troisième étape consiste à déterminer la densité de sonie du
signal acoustique, dont l’expression est donnée par l’équation (1.11).
Il est important de mentionner que les modèles perceptifs d’évaluation objective de qualité vocale tels
que PESQ (ITU-T 2001), POLQA (ITU-T 2011a) et DIAL (Côté 2010b) utilisent tous le modèle de sonie
de Zwicker (Zwicker 1958) pour la représentation interne des signaux de parole (cf. chapitre 1, §1.4.3.2.1).
Rappelons que le signal de parole est par nature non stationnaire, mais on peut le considérer comme
stationnaire sur une durée comprise entre 10 et 30 ms (Loizou 2013).
Signal acoustique
Filtrage par bande critique
Estimation de la courbe de masquage fréquentielle
Calcul de la sonie spécifique (ou densité de sonie)
Figure 6.1. Etapes d’estimation de la sonie pour les sons stationnaires
- 124 -
Figure 6.2. Effet de masquage fréquentiel, extrait de (Amehraye 2009)
Quant au modèle de Moore et Glasberg (Moore and Glasberg 1997), les étapes d’estimation de la
sonie sont les mêmes que celles de Zwicker (Zwicker 1958), mais il s’en différencie en revanche
principalement par les méthodes d’estimation des filtres physiologiques et de la courbe de masquage. Les
études réalisées par Molla et al. (Molla et al. 2010) sur les performances des algorithmes d’estimation des
sonies ont montré que les modèles de Zwicker et de Moore sont très pertinents pour l’estimation de la
sonie des sons stationnaires.
6.1.2. Méthodes d’estimation de la sonie des sons non stationnaires
Le principe d’estimation de la sonie des sons non stationnaires est le même que celui des sons
stationnaires, mais en prenant en compte le phénomène de masquage temporel. La sonie est alors calculée
en fonction du temps. S'il n'existe pas actuellement de modèle normalisé d’estimation de la sonie des sons
non stationnaires, deux modèles sont bien connus à ce jour, les modèles de Zwicker et al. (Zwicker et al.
1984) et de Moore et Glasberg (Moore and Glasberg 1997). De plus en plus, des recherches sont
effectuées afin d’estimer efficacement la sonie de ces types de son (Chalupper and Fastl 2002).
6.2. Indicateurs de qualité de la dimension Sonie et performances
Comme nous l’avons mentionné plus haut, notre objectif est de déterminer des indicateurs de qualité
permettant de quantifier l’impact de la sonie sur la qualité vocale. Pour cela, nous avons considéré cinq
indicateurs de qualité. Les trois premiers indicateurs sont les indicateurs Ltl, Leq de DIAL (Côté 2010b)
et Level de POLQA (ITU-T 2011a) estimant respectivement la sonie à long-terme de l’ensemble du signal
de parole, l’énergie moyenne et le niveau global du signal de parole pendant les périodes d’activité vocale.
Ces indicateurs sont décrits dans le chapitre 2, § 2.2.4. Les deux autres indicateurs de qualité sont les
indicateurs STLmax et LTLmax proposés dans (Glasberg and Moore 2002)]. L’indicateur STLmax traduit la
valeur maximale de la sonie à court-terme du signal de parole approchant le niveau d’isosonie des sons
non stationnaires. Quant à l’indicateur LTLmax, il traduit la valeur maximale de la sonie à long-terme
permettant d’estimer la sonie globale des sons variant lentement dans le temps. Notons que, pour le calcul
- 125 -
de ces indicateurs, les auteurs ont proposé une approche d’estimation de l’effet de masquage temporel.
Toutefois, la mise en pratique de cette approche est très complexe, ce qui fait que nous avons calculé ces
indicateurs à partir des sonies à court et long-terme du signal dégradé (respectivement notées Ly  l  et
Ltl y  l  ) sans tenir compte du masquage temporel. Les expressions de STLmax et LTLmax sont définies
respectivement par :
STLmax  max  Ly  l   , (6.1)
1 l  L
LTLmax  max  Ltl y  l   . (6.2)

1 l  L
Les performances des cinq indicateurs sont évaluées suivant les critères objectifs CO1 et CO2 décrits
dans le chapitre 2, § 2.3.1.2. Rappelons que les performances des indicateurs Ltl, Leq et Level ont déjà été
présentées dans la section 2.3.3.4 de ce même chapitre. Dans cette partie, il s’agit d’évaluer les
performances des indicateurs STLmax et LTLmax suivant ces deux mêmes critères. Pour cela, nous avons
considéré les mêmes conditions de dégradation que celles utilisées pour les trois premiers indicateurs et
qui sont décrites dans le Tableau 2.2 du chapitre 2. Les performances des indicateurs STLmax et LTLmax
sont présentées dans le Tableau 6.1.
Conditions C2, C3 C4, …, C7 C8,…, C12 C1, C13, C14

STLmax 3,70 3,70 3,63 0,42
LTLmax 4,75 4,75 4,75 0,42
Tableau 6.1. Performances des indicateurs STLmax et LTLmax suivant les critères CO1 et CO2. Les cellules en gris
représentent les corrélations entre les nouvelles notes subjectives résultant de la compensation du corpus (cf. chapitre 2 §
2.3.2) et les notes prédites issues des indicateurs CO1. Les autres valeurs correspondent aux notes prédites suivant le
critère CO2. Les conditions en gris sont celles utilisées pour l’application du critère CO2
Les indicateurs STLmax et LTLmax respectent le critère CO2, mais pas le critère CO1 (   0,9 ) et ne
permettent donc pas de quantifier efficacement l’impact de l’atténuation du niveau sonore sur la qualité
vocale. Cela pourrait s’expliquer par le fait que nous n’avons pas tenu compte de l’effet de masquage
temporel dans le calcul de ces indicateurs. Cependant, nous avons vu dans le chapitre 2, § 2.3.1.2, que les
indicateurs Ltl, Leq et Level sont fiables et robustes pour un diagnostic de l’atténuation du niveau sonore
global du signal de parole. Finalement, pour la modélisation de la dimension Sonie, nous avons opté pour
l’indicateur Leq, puisque c’est lui qui obtient la corrélation (entre les notes subjectives et les notes
prédites) la plus élevée (   0,85 , contre 0,84 et 0,81 pour les indicateurs Ltl et Level respectivement).
La prédiction de la qualité vocale liée à la dimension Sonie s’écrit alors sous la forme (la fonction de
mappage de l’indicateur Leq correspond à celle obtenue dans le chapitre 2, § 2.3.3) :
MOS p  0,0003  Leq3  0.0676  Leq 2  4,8241  Leq  111,1613 , (6.3)
où MOS p est la qualité vocale prédite.
Pour un diagnostic avancé de la perception du niveau sonore de la parole, on se propose d’estimer, à
partir des valeurs de l’indicateur Leq, les variations (atténuation ou amplification) qui peuvent survenir
sur le niveau sonore global du signal de parole. Pour cela, nous avons considéré 24 signaux de parole à
bande super-élargie, échantillonnés à 48 kHz, avec une quantification sur 16 bits. Ces signaux sont
égalisés à un niveau nominal de -26 dBov suivant la norme P.56 de l’UIT-T (ITU-T 1993). Ce niveau
- 126 -
nominal correspond à 73 dB SPL dans un contexte d’écoute binaurale (contexte d’écoute très utilisé pour
l’évaluation de la qualité vocale des signaux à bande super-élargie). Nous avons appliqué sur les 24
signaux, 7 niveaux sonores (53, 58, 63, 68, 73, 78 et 83 dB SPL) correspondant respectivement à des
gains réels de -20, -15, -10, -5, 0, +5 et +10 dB, soit un total de 168 stimuli. Pour estimer le gain du
niveau sonore du signal de parole, nous avons opté pour une simple régression linéaire, avec un intervalle
de confiance de 95%, entre les valeurs de l’indicateur Leq (obtenues en appliquant cet indicateur sur les
168 stimuli) et les niveaux sonores des stimuli. L’estimation de ce gain (notée g n ) s’écrit sous la forme :
g n  0,9987  Leq  73,9475 . (6.4)
Les performances de cette estimation sont déterminées en termes de corrélation (  ) – cette corrélation
correspond à la racine carrée du coefficient de détermination (R2) – et de l’EQM (  ) entre le gain réel et
le gain estimé. D’après la Figure 6.3, nous obtenons de très bonnes performances d’estimation du gain du
niveau sonore (   0,99 ;   0,06 ). Ces résultats étaient attendus puisque l’indicateur Leq correspond à
la mesure en dB SPL de l’énergie moyenne du signal pendant les périodes d’activité vocale. Notons que
cet indicateur est d’ailleurs très largement utilisé dans les services de radiodiffusion du fait de sa
simplicité de mise en œuvre et de sa fiabilité dans l’estimation de l’intensité du niveau sonore de la parole
(ITU-R 2007).
R2 = 0,99 /  = 0,06
15
10
0
Gain réel (dB)
-5
-10
-15
-20
-25
50 55 60 65 70 75 80 85
Leq (dB SPL)
Figure 6.3. Estimation du gain du niveau sonore global du signal de parole.

R 2 et  désignent respectivement le coefficient de détermination et l’erreur de prédiction
- 127 -
6.3. Conclusion
A l’issue d’une étude comparative des performances des indicateurs de la dimension Sonie, nous
avons choisi de modéliser ladite dimension à l’aide de l’indicateur Leq qui, conformément aux
conclusions du chapitre 2, s’est révélé robuste et fiable pour l’estimation de l’intensité du niveau sonore
de la parole. Par conséquent, il sera utilisé sans difficulté pour apporter l’information nécessaire à la
quantification des variations de niveau en complément à toute mesure de qualité vocale.
Au-delà de cette application simple à la mesure du niveau d’un signal vocal, il faut mentionner qu’à ce
jour il n’existe pas de méthode objective générique permettant de mesurer la sonie de n’importe quel type
de son. L’estimation effective de la sonie est toujours un sujet d’actualité en psycho-acoustique et des
recherches sont ainsi menées afin de développer un modèle générique de référence de la sonie des sons.
- 128 -
Chapitre 7 Performances de l’outil de diagnostic
Chapitre 7
Performances de l’outil de diagnostic
Dans les chapitres 3 à 6, nous avons décrit la construction des différents blocs constitutifs de notre
outil de diagnostic à travers la modélisation des dimensions Bruyance, Continuité, Coloration et Sonie
respectivement. Si les résultats obtenus sont satisfaisants pour chaque bloc, nous devons maintenant
considérer l’outil dans sa globalité. Dans ce chapitre, nous présenterons sa structure globale et testerons
son efficacité sur de nouvelles bases sonores puis analyserons ses performances et les comparerons en
termes de prédiction de la qualité vocale liée à chaque dimension à celles du modèle DIAL (Côté 2010b).
7.1. Structure globale de l’outil de diagnostic
Avant de décrire la structure globale de l’outil de diagnostic proposé, il est important de mentionner
que cet outil ne délivre pas une note de la qualité vocale globale mais vise plutôt, en complément à une
telle mesure, à fournir des informations plus spécifiques sur la nature des défauts présents sur le signal de
parole. Par exemple, en amont, le modèle POLQA (ITU-T 2011a) sera utilisé pour prédire la qualité
vocale ( MOS - LQO ). Notre outil sera alors utilisé dès lors que POLQA fournit une prédiction de la
qualité vocale en dessous d’un seuil minimal de qualité (dont la valeur dépendra du contexte), comme
illustré sur la Figure 7.1.
x(k) y(k)
Système de
communication
POLQA
MOS-LQO
MOS-LQO < α
Oui
Outil de diagnostic
Figure 7.1. Cas d’utilisation de notre outil de diagnostic

‘α’ correspond au seuil minimal de qualité vocale acceptable
La Figure 7.2 présente la structure globale de l’outil de diagnostic proposé, étant entendu que cet outil
requiert les signaux de référence x  k  et dégradé y  k  (en l’occurrence pour les indicateurs relevant des
dimensions Continuité et Coloration) et donc leur alignement temporel. L’algorithme d’alignement
- 129 -
considéré correspond à celui utilisé dans le modèle DIAL (Côté 2010b), celui de POLQA n’étant pas
fourni de façon complète dans la norme P.863 (ITU-T 2011a). Les blocs numérotés de 1 à 4
correspondent aux modélisations des dimensions Bruyance, Continuité, Coloration et Sonie décrites
respectivement dans les chapitres 3 à 6.
x(k) y(k)
Alignement temporel
y'(k) x'(k) y'(k) y'(k)
1 2 3 4
Bruyance
Bruyance Continuité Coloration Sonie
Figure 7.2. Vue d’ensemble de l’outil de diagnostic proposé
Concernant la dimension Bruyance (cf. Figure 7.3), notre outil fournit une classification automatique
des bruits de fond en trois classes ou sous-dimensions (Bruit d’environnement, Souffle et Grésillement)
à l’aide d’une combinaison des indicateurs SF (Flux Spectral), Vn (Variation sonore du bruit) et CS
(Centroïde Spectral). De plus, une prédiction de la qualité vocale liée à cette dimension (notée MOSB )
est proposée.
Bruyance
Calcul des indicateurs de qualité (SF, Vn, CS, Ln)

MOSB
Classification automatique des bruits de fond (SF, Vn, CS)
Bruit d’environnement Souffle Grésillement
Figure 7.3. Modélisation de la dimension Bruyance
Quant à la dimension Continuité (cf. Figure 7.4), sa modélisation est fondée sur trois sous-dimensions
de discontinuités (Coupures, Artéfacts Additifs et Variation de Gain), chacune étant quantifiée par les
indicateurs rL (taux de coupures), rA (taux d’artéfacts) et VG respectivement. Notre outil fournit non
seulement des informations spécifiques quant à une présence éventuelle de discontinuités mais également
- 130 -
une prédiction de la qualité vocale relative à la dimension Continuité (notée MOSC ) et à chaque sous-
dimension ( MOSCo , MOSA et MOSVG respectivement).
Continuité
MOSC Calcul des indicateurs de qualité (rL, rA, VG)
Détection automatique de discontinuités

MOSCo
MOSA
MOSVG Coupures (rL) Artéfacts A. (rA) Variation de G. (VG)
Oui Non Oui Non Oui Non
Figure 7.4. Modélisation de la dimension Continuité
En ce qui concerne la dimension Coloration, notre outil rend, dans un premier temps, une
classification des codecs en fonction de leur largeur de bande de fréquences à l’aide de l’indicateur Erb et,
dans un second temps, une classification fine de chaque groupe de codecs NB, WB et SWB, grâce aux
indicateurs RSBseg et RSBF (cf. Figure 7.5). Toutefois, il ne délivre pas de prédiction de la qualité vocale.
Pour compléter l’étude de cette dimension, nous proposons ici une prédiction de la qualité relative à cette
dimension à l’aide d’une combinaison des indicateurs Erb et fc (fréquence centrale du gain du système de
transmission). Lors de la phase d’apprentissage, nous avons considéré les stimuli ayant servi lors de
l’évaluation des performances des indicateurs de la dimension Coloration (cf. chapitre 2, § 2.3.2) ne
prenant pas en compte les stimuli en suisse allemand (qui seront utilisés lors de la phase de validation de
notre outil en termes de prédiction de la qualité vocale), ce qui nous fait un total de 136 stimuli. La
prédiction de la qualité vocale relative à la dimension Coloration, notée MOSCol , est obtenue à partir
d’une régression linéaire multiple entre les notes subjectives et les valeurs des indicateurs Erb et fc :
MOSCol  1,77  0,14  Erb  0,0004 fc . (7.1)
Les performances de prédiction sont évaluées en termes de corrélation entre les notes subjectives et les
notes prédites (  ) et d’erreur quadratique moyenne (  ) entre ces notes MOS. Comme on peut le
constater en visualisant la Figure 7.6, notre outil obtient des résultats très satisfaisants sur cette dimension
(   0,91 ,   0,09 ).
- 131 -
Coloration
MOSCol Calcul des indicateurs de qualité (Erb, fc, RSBseg, RSBF)
Classification des codecs suivant leur largeur de bande (Erb)

Classification fine des codecs NB, WB et SWB (RSBseg, RSBF)
G.718 (24 et 32) ; G.729.1 (32) AAC-ELD (48 et 64)

G.711 (64) ; G.726 (32)
G.722.1 (24) G.722.1C (48)
G.711.1D (96 et 112)
AMR (7,4) * G729 (8)
Speex_WB (12,8 et 23,8)
AMR (12,2) * G729 (8)
SILK_WB (14,5 et 24) G.718B (36 et 48)
AMR WB (6,6 et 12,5) SILK_SWB (32 et 40)
EVRC (8,85)
AMR WB (12,5) * G.722 (64) Speex_SWB (24 et 44)
EVRC (8,85) * G.711 (64)
AMR WB (12,5) * G.722.1 (32)
G.729.1E (48 et 64)
SILK_NB (20)
G.711.1 (64 et 96) AMR WB+ (16 et 36)
SILK_NB (20)*G.711 (64)
G.722.1 (32) G.722.1C (24)
G.722 (48 et 64)

AMR (12,2)
AMR (12,2) * G.711 (64)
GSM-EFR
G.729 (8) * G.711 (64)

G.711 (64) * AMR WB (7,4)
AMR (7,4) * Speex_NB (8)
Speex_NB (8) * G.711 (64)
GSM-FR
Figure 7.5. Modélisation de la dimension Coloration

R2 = 0,82 /  = 0,09
5
4.5
3.5
MOS-LQS
2.5
1.5
1
1 1.5 2 2.5 3 3.5 4 4.5 5
M OSCol
Figure 7.6. Prédiction de la qualité vocale relative à la dimension Coloration.

R 2 désigne le coefficient de détermination et  l’EQM de prédiction
entre les notes subjectives et les notes prédites
- 132 -
Enfin, concernant la dimension Sonie (cf. Figure 7.7), nous proposons une estimation des variations
(amplification ou atténuation) du niveau sonore global de la parole et une prédiction de la qualité vocale à
l’aide de l’indicateur Leq (niveau moyen équivalent de la parole).
Sonie
MOSS Calcul de l’indicateur Leq
Estimation des variations du niveau sonore global
Figure 7.7. Modélisation de la dimension Sonie
D’autre part, l’outil fonctionne à une fréquence d’échantillonnage interne de 48 kHz, lui permettant de
couvrir les bandes audio NB, WB et SWB. Rappelons que seule la dimension Coloration a été étudiée sur
des contenus dans les trois bandes audio, alors que les trois autres dimensions ont été optimisées pour les
signaux audio à bande SWB uniquement, pour les raisons que nous avons mentionnées dans
l’introduction du chapitre 2.
7.2. Description de la base sonore
Notre outil de diagnostic sera évalué suivant ses capacités à fournir des informations sur la nature des
défauts présents sur le signal de parole (i.e. performances de détection de défauts) et aussi à prédire la
qualité vocale en présence de ces défauts. Pour cela, nous avons considéré des stimuli extraits de quatre
bases sonores développées pour la compétition POLQA (ITU-T 2011a) à l’UIT-T, comprenant des
enregistrements en langues française, néerlandaise, suisse allemande et anglaise britannique. Rappelons
qu’une des particularités de ces bases sonores est qu’elles ont été conçues pour évaluer les performances
des systèmes vocaux en bande super-élargie et que les notes subjectives associées à chaque stimulus sont
disponibles. Elles contiennent également des conditions à dégradations multiples reflétant les conditions
réelles de communications téléphoniques et décrites avec précision par leurs concepteurs, ce qui permet
d’identifier a priori les dimensions concernées par chaque condition. Néanmoins, nous avons recours à
des séries d’écoute quand cela s’avère nécessaire (description parfois trop ambigüe ou incomplète).
Les performances de notre outil en termes de détection des défauts sont évaluées pour chaque
dimension perceptive et non de manière globale. Les types de défauts contenus dans les conditions de
dégradation incluses dans les bases de données utilisées pour cette validation sont décrits dans le Tableau
7.1. Pour la dimension Bruyance, ces bases contiennent 408 stimuli impactés par des conditions de bruit
parmi lesquels 272 stimuli sont impactés par des bruits de la classe Bruit d’Environnement, 36 relatifs à
la classe Grésillement et 100 à la classe Souffle. Ces différents stimuli ont été répartis de sorte à mettre
en exergue les dégradations des autres dimensions perceptives comme illustré dans le Tableau 7.2. Cette
procédure est également appliquée aux dimensions Continuité et Coloration (cf. Tableaux 7.3 et 7.4).
Concernant la dimension Continuité, nous avons pu utiliser 1020 stimuli dont 432 stimuli ne contenant
aucune discontinuité (conditions relatives aux codages, distorsions fréquentielles, bruits de fond, etc.),
- 133 -
242 contenant des coupures, 226 des artéfacts et 120 présentant des variations de gain du système. Quant
à la dimension Coloration, les bases disponibles contiennent 216 stimuli relatifs à des codecs NB, 108 à
des codecs WB et 96 à des codecs SWB, soit un total de 420 stimuli. Enfin, en ce qui concerne la
dimension Sonie, nous avons pu bénéficier de 1323 stimuli impactés par des variations du niveau sonore
global allant de -20 dB à + 5 dB.
Dimensions perceptives Description des dégradations
Bruit de restaurant (RSB = 8, 15, 20 et 26 dB) ; bruit de rue (RSB = 7, 15, 27 et 30 dB) ; bruit de
supermarché (RSB = 8 et 28 dB) ; bruit de voiture (RSB = 25 dB) ; bruit de Hoth (RSB = 12 dB),
Bruyance
bruit de souffle (RSB = 12, 13, 15, 17, 27 et 28 dB) ; marteau piqueur (15 dB) ; bruit de souffle très
aigu (RSB = 5 dB)
Pertes de paquets aléatoires à 2, 5 et 20% sans PLC ; pertes de paquets à 2, 10% (pertes aléatoires), 1,
Continuité
2 et 3% (pertes en rafales) avec PLC (répétition de trames) ; AGC ; réduction de bruit
EVRC (5,8 et 9,3), GSM-EFR (12,2) * AMRNB (12,2), G.711 (64)* GSM-FR (13), GSM-FR (13) *
GSM-FR (13), G.711 (64) * GSM-EFR (12,2), G.726 (32) * G.711 (64) ; AMRWB (6,6 ; 12,65 ;
Coloration
14,25 et 23,85), G.722 (64), G729.1 (32), G.711.1 (96), G.718 (12), SILK_WB (24) ; AMRWB+
(32), Speex_SWB (44), SILK_SWB (40)
Sonie Niveaux sonores globaux : 53, 62, 63, 64, 67, 68, 69, 71, 72, 73 (niveau de référence), 75 et 78 dB
Tableau 7.1. Récapitulatif des dégradations utilisées lors de la validation de notre outil de diagnostic
Bruit d’environnement Souffle Grésillement

Bruyance 36 36 24
Bruyance, Continuité 20 24 --
Bruyance, Coloration 112 12 --
Bruyance, Sonie 12 8 12
Bruyance, Continuité,
20 12 --
Coloration
Bruyance, Continuité,
72 8 --
Coloration, Sonie
Tableau 7.2. Répartition des stimuli ayant servi pour l’évaluation des performances de notre outil en termes
d’identification des bruits de fond
Coupures Artéfacts Additifs Variation de Gain

Conditions sans discontinuité 432
Continuité 108 84 16
Continuité, Bruyance 24 12 32
Continuité, Coloration 28 32 20
Continuité, Sonie 12 20 12
Continuité, Bruyance,
22 52 16
Coloration
Continuité, Bruyance,
48 16 24
Coloration, Sonie
Tableau 7.3. Répartition des stimuli ayant servi pour l’évaluation des performances de notre outil en termes de
détection de discontinuités
- 134 -

Coloration 40 16 28
Coloration, Bruyance 72 32 24
Coloration, Continuité 12 12 8
Coloration, Sonie 56 8 4
Coloration, Bruyance,
20 28 24
Continuité
Coloration, Bruyance,
16 12 8
Continuité, Sonie
Tableau 7.4. Répartition des stimuli ayant servi pour l’évaluation des performances de notre outil en termes
d’identification des codecs
L’évaluation des performances de prédiction de notre outil pour des conditions à dégradations
multiples s’avère une tâche difficile. En effet, cette évaluation requiert que l’on dispose des notes
subjectives reflétant l’impact de chaque dégradation présente sur le signal de parole (ITU-T 2004b). Ainsi,
les notes subjectives disponibles dans les bases sonores de la compétition POLQA sont des notes MOS
globales, qui ne permettent pas d’évaluer qualitativement notre outil. Pour pallier ce problème, nous
avons considéré les notes subjectives issues d’un test multidimensionnel effectué sur l’une de ces bases
sonores (en l’occurrence la base sonore en suisse allemand) et rapporté dans (ITU-T 2012a). Dans ce test,
les participants jugeaient la qualité vocale des stimuli suivant les quatre dimensions considérées dans
notre étude (i.e. Bruyance, Continuité, Coloration et Sonie) sur une échelle continue allant de 1
(dégradation inaudible) à 1000 (dégradation très gênante). Cependant ces notes subjectives ne reflètent
que les dimensions perceptives concernées et, par conséquent, les performances de prédiction de notre
outil se limiteront uniquement à la prédiction vocale relative à chaque dimension et non aux sous-
dimensions.
Pour utiliser efficacement les notes subjectives obtenues dans (ITU-T 2012a), il est nécessaire de
transformer ces notes, initialement comprises entre 1 et 1000, vers l’échelle MOS allant de 1 (dégradation
très gênante) à 5 (dégradation inaudible). En supposant une relation linéaire entre ces deux échelles
(relation validée auprès des auteurs de (ITU-T 2012a)), nous avons déterminé une fonction de mappage
f dont l’équation s’écrit
f x   0,004 x  5,004 ; x  1, 1000 . (7.2)
Cette fonction est ainsi appliquée à l’ensemble des notes subjectives de (ITU-T 2012a).
Dans la section 7.3, nous présenterons les performances de notre outil en termes d’identification des
dégradations. Les performances de prédiction de la qualité vocale relative à chaque dimension de notre
outil seront décrites dans la section 7.4 et comparées aux performances du modèle DIAL (Côté 2010b).
7.3. Performances des modules de détection de dégradations
Dans cette section, nous étudions les performances de notre outil en termes de détection. Pour les
dimensions Bruyance, Continuité et Coloration, les performances sont évaluées en fonction du taux de
bonne classification. Concernant la dimension Sonie, étant donné que notre outil fournit une estimation
des variations observées sur le niveau sonore global de parole, ses performances sont évaluées à partir des
calculs de la corrélation (  ) entre le gain réel et le gain estimé et de l’erreur quadratique moyenne (  )
entre ces gains.
- 135 -
7.3.1. Performances de classification des bruits de fond
Les performances de classification automatique des bruits de fond en trois classes de bruit (Bruit
d’environnement, Souffle et Grésillement) sont illustrées sur la Figure 7.8. Notons que, pour cette phase
d’évaluation, nous considérons qu’il y a toujours du bruit de fond lors des communications téléphoniques.
C’est la raison principale pour laquelle nous n’avons utilisé pour cette validation que des conditions
contenant du bruit de fond.
Notre outil présente un taux de bonne classification supérieur à 82% pour les conditions présentant
uniquement du bruit de fond, le taux le plus élevé correspondant à la classe Grésillement (92% de bonne
classification). Pour des conditions à dégradations multiples, notre outil présente un taux de classification
des bruits de la classe Bruit d’environnement globalement satisfaisant sur l’ensemble des conditions
(81,25% de bonne classification). Les performances les plus faibles correspondent aux conditions
présentant, en plus du bruit de fond, une atténuation importante du niveau sonore de la parole (et du bruit).
Du fait de cette atténuation, les bruits de la classe Bruit d’environnement qui ne sont pas correctement
classifiés sont confondus avec les bruits de la classe Souffle. Quant à la classe Souffle, les performances
les plus faibles sont observées pour les conditions contenant des discontinuités. La présence de ces
discontinuités dans le signal de parole modifie la structure spectrale du bruit qui est ainsi assimilé par
notre outil à du bruit non stationnaire. Ce fait a déjà été constaté au chapitre 3, § 3.5.1. En ce qui concerne
les performances de notre outil pour la classification des bruits de la classe Grésillement, pour les
conditions à dégradations multiples, nous n’avons trouvé que des conditions contenant du bruit de
grésillement associé à une atténuation du niveau sonore de la parole, pour lesquelles notre outil obtient un
taux de bonne classification relativement élevé (66,7% de bonne classification). La quasi-totalité des
bruits de cette classe qui n’ont pas été correctement classifiés se confond avec les bruits de la classe
Souffle pour les mêmes raisons que celles mentionnées pour la classe Bruit d’environnement.
De façon générale, notre outil présente des résultats globalement satisfaisants pour la classification des
bruits des classes Bruit d’environnement et Grésillement représentant respectivement les bruits
caractéristiques de l’environnement bruyant réel de communication (i.e. bruits non stationnaires) et du
réseau (i.e. bruits fortement stationnaires). Si le taux de classification le plus faible est observé au niveau
de la classe Souffle, surtout pour des conditions contenant des discontinuités, notre outil obtient de
bonnes performances de classification des bruits de cette classe pour des conditions uniques de bruit de
fond.
- 136 -
100%
Bruit d'environnement
90%
Souffle
Taux de bonne classification

80%
Grésillement
70%
60%
50%
40%
30%
20%
10%
0%
Figure 7.8. Performances de notre outil en termes de classification des bruits de fond.
‘B.’, ‘Cont.’, ‘Col.’ et ‘S.’ désignent respectivement les dimensions Bruyance, Continuité, Coloration et Sonie
7.3.2. Performances de détection de discontinuités
Dans cette partie, nous évaluons les performances de notre outil à détecter la présence de
discontinuités sur le signal de parole (cf. Figure 7.9). Rappelons que notre outil intègre la modélisation de
trois catégories de discontinuités (Coupures, Artéfacts Additifs et Variation de Gain) à l’aide des
indicateurs rL, rA et VG respectivement.
Pour les conditions ne présentant pas de discontinuités, les indicateurs rL et rA présentent plutôt une
bonne performance de classification (supérieure à 82 %) tandis que l’indicateur VG obtient un taux
relativement faible (71,76 % de bonne classification, donc près d’un tiers d’erreurs). Pour les conditions
contenant uniquement des discontinuités, notre outil obtient une performance de détection très élevée
(supérieure à 93 %). Quant aux conditions à dégradations multiples, on aboutit à de bonnes performances
de détection des coupures, attestant la fiabilité et la robustesse de l’indicateur rL. Le taux le plus faible
pour cet indicateur est obtenu pour les conditions contenant, en plus des coupures, une atténuation globale
du niveau sonore de la parole. Néanmoins, ce taux (75% de bonne classification) reste malgré tout très
satisfaisant. Quant à la sous-dimension Artéfacts Additifs (indicateur rA), les performances décroissent
plus ou moins linéairement avec le nombre de dégradations. Ce même constat est observé pour la sous-
dimension Variation de Gain (indicateur VG). Comme nous l’avons mentionné dans le chapitre 4, § 4.2,
les indicateurs rA et VG sont sensibles aux bruits non stationnaires, au niveau sonore global de la parole et
aux distorsions fréquentielles. Ils nécessitent par conséquent de nouvelles investigations afin de les
optimiser.
- 137 -
100%
Coupures
90%
A.A.

80%
V.G.
70%
60%
50%
40%
30%
20%
10%
0%
Figure 7.9. Performances de notre outil en termes de détection de discontinuités.

‘Sans disc’ désigne les conditions ne présentant pas de discontinuités,
‘B.’, ‘Cont.’, ‘Col.’ et ‘S.’ désignent respectivement les dimensions Bruyance, Continuité, Coloration et Sonie,
‘A.A.’ et ‘V.G.’ représentent les sous-dimensions Artéfacts Additifs et Variation de Gain respectivement
7.3.3. Performances de classification des codecs
Les performances de classifications des codecs NB, WB et SWB sont illustrées sur la Figure 7.10.
Rappelons que notre outil fournit une première classification correspondant à une distinction des codecs
en fonction de leur largeur de bande de fréquences et une seconde classification pour une répartition fine
des codecs NB, WB et SWB.
Concernant la première classification, notre outil présente un taux de bonne classification très élevé
(98,46% de bonne classification), démontrant ainsi la robustesse de notre outil à distinguer les codecs
selon leur largeur de bande, en présence d’autres dégradations (cf. Figure 7.10.a). Quant à la classification
fine des codecs NB, WB et SWB (seconde classification), notre outil aboutit à une performance de
classification supérieure à 85% pour des conditions présentant uniquement du codage (cf. Figure 7.10.b).
Signalons de plus que, pour les codecs NB, on disposait dans les bases de validation de cas de
transcodage (GSM-EFR (12,2) * AMRNB (12,2), GSM-FR (13) * GSM-FR (13), G.711 (64) * GSM-
EFR (12,2)), et que ces derniers ont été correctement identifiés par notre outil de diagnostic (classification
efficace à 99,64 %). Ces types de transcodage sont représentatifs des cas réels de communications
téléphoniques. Leur identification constitue le principal défi dans le contexte opérationnel et fait de notre
outil un atout majeur dans ce contexte.
Cependant, en présence d’autres dégradations, notamment le bruit de fond ou l’atténuation du niveau
sonore de la parole, notre outil présente de faibles taux de bonne classification. Notons que, lors de notre
étude sur la détermination de la signature des codecs, nous avons utilisé des conditions ne présentant pas
d’autre dégradation que du codage. De plus, les indicateurs RSBseg et RSBF, utilisés pour la classification
des codecs, sont sensibles aux variations observées sur le niveau sonore global et aux bruits de fond. Par
- 138 -
conséquent, ces indicateurs devront être optimisés afin de les rendre robustes aux autres types de
dégradations, voire être complétés par d’autres.
100% 100%
NB
90%
90% WB

80%
80% SWB
70%
70% 60%
50%
60%
40%
50%
30%
40% 20%
30% 10%
0%
20%
10%
0%
NB WB SWB
(a) (b)
Figure 7.10. Performances de notre outil en termes de classification des codecs
(a) suivant la détermination de leur largeur de bande, toutes dégradations confondues,
(b) en fonction des différentes dégradations testées pour chaque type de codec (NB, WB et SWB)
‘B.’, ‘Cont.’, ‘Col.’ et ‘S.’ désignent respectivement les dimensions Bruyance, Continuité, Coloration et Sonie
7.3.4. Performances d’estimation des variations du niveau sonore global de la parole
La Figure 7.11 présente les performances de notre outil quant à l’estimation des variations du niveau
sonore de la parole. La corrélation s'avère très élevée entre le gain réel et le gain estimé (   0,96 ) et
l’erreur de prédiction faible (   0,55 ) attestant de la fiabilité et de la robustesse de l’indicateur Leq
intégré dans notre outil.
- 139 -
 = 0,96 /  = 0,55
10
0
Gain réel (dB)
-5
-10
-15
-20
-25
-25 -20 -15 -10 -5 0 5 10
Gain estimé (dB)
Figure 7.11. Performances d’estimation des variations du niveau sonore global de la parole.  et 
désignent respectivement la corrélation et l’EQM de prédiction entre le gain réel et le gain estimé
7.4. Performances de prédiction de notre outil et comparaison avec DIAL
Dans cette partie, nous présentons les performances de notre outil de diagnostic en termes de
prédiction de la qualité vocale relative aux quatre dimensions. Nous proposons également de comparer
ses performances à celles du modèle DIAL (Côté 2010b), qui va nous servir de référence unique. En effet,
nous n’avons pas trouvé dans la littérature d’autres modèles caractérisant les défauts perçus dans des
communications en bande super-élargie et fournissant une prédiction de la qualité vocale pour chacune
des dimensions perceptives intégrées dans notre outil. Le Tableau 7.5 détaille les performances
respectives de notre outil et de DIAL en termes de prédiction de la qualité vocale.
Concernant la dimension Bruyance, nous constatons que notre outil obtient quasiment les mêmes
performances de prédiction de la qualité vocale que le modèle DIAL. Pourtant, notre outil prend en
compte uniquement l’indicateur Ln (sonie du bruit estimée pendant les périodes de silence) tandis que le
modèle DIAL utilise, en plus de cet indicateur, l’indicateur NoS (énergie du bruit présent sur le signal de
parole) fondé sur une analyse des signaux de référence et dégradé.
Quant à la dimension Continuité, notre outil utilise une combinaison de trois indicateurs rL, rA et VG
pour la prédiction de la qualité vocale alors que DIAL utilise seulement les deux premiers. D’après le
Tableau 7.5, notre outil fournit la meilleure performance de prédiction de la qualité vocale en termes de
corrélation (   0,75 pour notre outil et   0,70 pour le modèle DIAL). L’indicateur VG fournit des
informations supplémentaires quant aux variations abruptes pouvant survenir sur le niveau sonore de la
parole. En revanche, en termes d’erreur de prédiction, le modèle DIAL obtient des performances
supérieures à celles de notre outil (   0,49 pour le modèle DIAL et   0,94 pour notre outil). Ceci
s’explique par la non robustesse de l’indicateur VG discutée précédemment.
- 140 -
En ce qui concerne la dimension Coloration, notre outil obtient sensiblement les mêmes performances
en termes de corrélation entre les notes prédites et les notes subjectives mais avec une erreur de prédiction
moindre que le modèle DIAL (   0,72 contre   2,25 ). Si les deux méthodes utilisent les mêmes
indicateurs (i.e. Erb et fc) pour la prédiction de la qualité vocale, la différence réside dans le calcul de la
fonction de mappage.
Enfin, pour la dimension Sonie, le modèle DIAL affiche des performances de prédiction de la qualité
vocale légèrement plus élevées que celles de notre outil (   0,92 ;   0,38 pour le modèle DIAL et
  0,87 ;   0,55 pour notre outil).
Outil de diagnostic proposé Modèle DIAL (Côté 2010b)
Bruyance   0,81 ;   0,96   0,82 ;   0,7

Continuité   0,75 ;   0,94   0,70 ;   0,49
Coloration   0,86 ;   0,72   0,88 ;   2,25
Sonie   0,87 ;   0,55   0,92 ;   0,38
Tableau 7.5. Performances de la prédiction de la qualité vocale de notre outil et celles du modèle DIAL (Côté 2010b)
Ces performances, équivalentes à celles d’un modèle de complexité bien supérieure, font de notre outil un
candidat intéressant dans le cadre du projet P.AMD (Perceptual Approaches for Multi-Dimensional
Analysis) de l’UIT-T (ITU-T 2012b), dont l’objectif est de développer un modèle délivrant une note de
prédiction de la qualité vocale pour chaque dimension.
7.5. Conclusion
A la lumière des résultats obtenus et présentés dans ce chapitre, nous pouvons dégager les conclusions
suivantes :
 pour la dimension Bruyance, notre outil se révèle pertinent pour l’identification des bruits issus
d’environnements bruyants réels (bruits de restaurant, de rue, etc.) et des bruits de grésillement
pouvant provenir soit du réseau soit de l’environnement. Toutefois, il présente de faibles
performances dans la détection des bruits de souffle en présence de discontinuités notamment de
coupures (pertes de paquets IP ou de trames radio, par exemple). Du point de vue de la prédiction
de la qualité vocale, notre outil obtient des performances similaires à celle du modèle DIAL,
nécessitant un seul indicateur (Ln) contre deux pour le modèle DIAL (Ln et NoS) ;
 quant à la dimension Continuité, notre outil est fiable et robuste pour fournir des informations sur
une présence éventuelle de coupures sur le signal de parole. Concernant les artéfacts additifs et la
variation de gain du système de transmission, notre outil obtient de bonnes performances dans
l’identification de ces défauts pour des stimuli présentant uniquement ces types de défauts.
Cependant, en présence d’autres dégradations, notamment les bruits non stationnaires, les
performances de notre outil diminuent, du fait de la non robustesse des indicateurs de qualité que
nous avons considérés (i.e. les indicateurs rA et VG). En matière de prédiction de la qualité vocale,
notre outil présente de bonnes performances même si l’erreur de prédiction est relativement
élevée comparée à celle de DIAL ;
 en ce qui concerne la dimension Coloration, notre outil s’avère très pertinent pour déterminer la
signature des codecs NB, WB et SWB pour des conditions ne présentant que du codage. En
- 141 -
revanche, il présente de faibles taux de classification en présence d’autres types de dégradation,

notamment du bruit de fond et des variations du niveau sonore global de la parole. En outre, il est
fiable et robuste pour la distinction des codecs NB, WB et SWB en fonction de la largeur de
bande. En matière de prédiction de la qualité vocale relative à cette dimension, notre outil fournit
de bonnes performances, comparables à celles du modèle DIAL ;
 enfin pour la dimension Sonie, notre outil est fiable et robuste pour un diagnostic avancé des
variations (amplification ou atténuation) observées sur le niveau sonore global de la parole.
De manière générale, notre outil se révèle fiable et efficace pour fournir des informations sur un
certain nombre de dégradations (bruits issus d’environnement, bruits de grésillement, coupures, limitation
de la bande de fréquences et variation du niveau sonore global de la parole) couramment perçues lors des
communications téléphoniques. En revanche, de nouvelles investigations sont nécessaires afin
d’optimiser sa robustesse pour un diagnostic avancé de la qualité vocale et compenser les faiblesses
évoquées ci-dessus.
- 142 -
Conclusion et perspectives
Les services de télécommunications sont de plus en plus nombreux et variés en conséquence de

l’apparition des nouvelles technologies. Entre autres nouvelles possibilités offertes par ces technologies,
l’extension de la bande passante des systèmes téléphoniques classiques aux contenus fréquentiels au-delà
de 7 kHz figure en bonne place. Les opérateurs de téléphonie ont cependant plus que jamais besoin de
superviser la qualité des services qu’ils proposent. La qualité vocale, élément essentiel de cette qualité de
service pour les services vocaux, peut être évaluée par des campagnes de tests subjectifs en demandant
directement l’avis aux utilisateurs. Cependant ces tests sont très coûteux et peu adaptés à la supervision
des services de télécommunications. Les modèles objectifs sont proposés comme alternative aux tests
subjectifs afin d’évaluer la qualité vocale à moindre coût et en temps réel. Si ces modèles sont
généralement fiables en matière de prédiction de qualité vocale globale, ils ne permettent cependant pas
d’établir de lien entre cette dégradation perçue et sa cause.
Nos travaux avaient pour but de concevoir un outil, complémentaire à de tels modèles objectifs,
permettant d’obtenir des informations spécifiques sur la nature des défauts présents sur le signal de parole
afin d’orienter vers les causes possibles. Notre étude a reposé sur l’hypothèse de la nature
multidimensionnelle de la qualité vocale. A travers l’état de l’art que nous avons mené sur l’espace
perceptif de la qualité vocale, il s’est avéré que cet espace est composé de quatre dimensions perceptives
dont les trois premières sont orthogonales.
La première dimension appelée Bruyance est relative au bruit de fond présent dans le signal de parole.
La deuxième dimension, caractérisant la Continuité, est essentiellement liée aux pertes de paquets, aux
erreurs de bits, et aux ruptures dans le niveau sonore. Quant à la troisième dimension, nommée Coloration,
elle regroupe les dégradations liées à la réponse en fréquence de l’ensemble du système de transmission et
impactant le naturel de la voix. Enfin la quatrième dimension, notée Sonie, est relative à la perception du
niveau sonore du signal de parole. Ces quatre dimensions perceptives regroupent l’ensemble des
dégradations perçues lors des communications téléphoniques.
Notre outil de diagnostic est fondé sur la modélisation de ces quatre dimensions à partir d’une analyse
du signal audio, permettant de fournir des informations sur les caractéristiques du défaut perçu, et
d’envisager une identification de son origine. Il a été développé de façon à couvrir les trois bandes audio
(bande étroite, bande élargie et bande super-élargie) couramment utilisées dans les systèmes de
télécommunications avec, toutefois, une priorité pour les signaux en bande super-élargie, les services de
téléphonie convergeant vers cette bande. Notre outil de diagnostic n’est pas un modèle objectif de
prédiction de la qualité vocale globale comme cela est notamment le cas du modèle défini dans la norme
P.863 (POLQA) de l’UIT (ITU-T 2011a) mais une méthode complémentaire aux modèles objectifs,
apportant des informations sur les défauts présents sur le signal de parole.
Chaque dimension perceptive étant quantifiée par des indicateurs de qualité, une démarche cruciale de
notre étude a consisté à rechercher des indicateurs de qualité pertinents, en particulier dans des modèles
objectifs récents comme POLQA (ITU-T 2011a), DIAL (Côté 2010b) et DESHQI (Leman, 2012).
L’étude approfondie de ces modèles nous a montré qu’ils intègrent implicitement ou explicitement les
quatre dimensions perceptives. Nous avons ensuite étudié les performances de ces indicateurs de qualité
(ainsi que d’autres développés par ailleurs), ce qui nous a conduits à établir une synthèse d’indicateurs
fiables et robustes à intégrer dans notre outil.
- 143 -
Pour la modélisation de la dimension Bruyance, nous nous sommes appuyés sur les travaux effectués
dans (Leman 2011) et avons proposé d’élargir le domaine d’application aux signaux en bande super-
élargie. Les résultats que nous avons obtenus corroborent les conclusions des travaux antérieurs (Leman
et al. 2008), à savoir que l’impact d’un bruit de fond sur la qualité vocale est moins gênant dès lors qu’il
est identifié par l’auditeur. Ils nous ont d’autre part conduits à la répartition des bruits de fond en trois
classes (Bruit d’Environnement, Souffle et Grésillement).
Concernant la dimension Continuité, elle repose sur la modélisation de trois sous-dimensions
(Coupures, Artéfacts Additifs et Variation de Gain) dont les deux premières existaient déjà dans la
littérature alors que la troisième a été proposée dans notre étude afin de couvrir l’ensemble des
discontinuités perçues.
Quant à la modélisation de la dimension Coloration, nous nous sommes essentiellement focalisés sur
la conception d’une méthode générique déterminant la signature des codecs NB, WB et SWB. Ce choix
s’explique par le fait que le codage est le principal (sinon le seul) défaut de cette dimension qui trouve sa
source dans les réseaux. La première étape du bloc de notre modèle pour la Coloration consiste en un
module très fiable classifiant les codecs en fonction de leur largeur de bande de fréquences. La
classification plus fine des codecs est réalisée en partant de l’hypothèse que les codecs peuvent se
distinguer de par les techniques de codage qu’ils intègrent. Cette seconde étape donne entière satisfaction
pour les codecs NB. En revanche, nous ne sommes pas parvenus à une distinction plus fine des codecs
WB et SWB, en particulier à cause de leur caractère hybride.
Enfin, la modélisation de la dimension Sonie est fondée sur une estimation des variations observées
sur le niveau sonore global de la parole.
Nous avons conduit une étude de validation de notre outil de diagnostic sur des bases sonores
inconnues contenant diverses dégradations reflétant celles rencontrées lors de communications
téléphoniques réelles. Cette étude nous a permis de mettre en évidence la fiabilité de notre outil à fournir
des informations sur un certain nombre de défauts. Elle nous a aussi permis d’identifier des points à
améliorer. Pour résumer, l’outil de diagnostic que nous avons proposé s’est révélé fiable et robuste dans
les cas suivants :
 l’identification des bruits non stationnaires issus d’environnements représentatifs des
communications téléphoniques quotidiennes, et des bruits stationnaires provenant du réseau ;
 la prédiction de la qualité vocale en présence de bruit de fond ;
 l’obtention d’information sur la présence de coupures perçues dans le signal de parole ;
 la distinction des codecs NB, WB et SWB en fonction de leur largeur de bande de fréquences ;
 la prédiction de la qualité vocale en présence de dégradations impactant le naturel de la voix
(limitation de bande de fréquences, distorsions fréquentielles, etc.) ;
 l’apport d’information sur les variations perçues sur le niveau global de la parole et son impact
sur la qualité vocale.
Les cas où notre modèle ne parvient pas à fournir efficacement des informations sont les suivants :
 l’identification des bruits de souffle en présence de discontinuités et en particulier de coupures ;
 l’identification des bruits d’environnement et des bruits de réseau pour des variations importantes
du niveau sonore global de la parole ;
 la détection d’artéfacts additifs et de variations abruptes du niveau sonore de la parole (sous-
dimension Variation de Gain) en présence de bruits non stationnaires ou de variations
importantes du niveau sonore global ;
- 144 -
 la classification fine des codecs NB, WB et SWB en présence de bruits, de pertes de

paquets/trames importantes dans le signal de parole ou de variations importantes du niveau
sonore global.
Les modélisations de chacune des quatre dimensions perceptives de notre outil de diagnostic peuvent
faire l’objet de compléments d’étude afin de corriger les défauts décrits ci-haut et ou de compléter notre
outil :
 les performances de notre module de Bruyance étant limitées par les variations importantes
observées sur le niveau sonore global, on pourrait compenser l’effet de ces variations en
normalisant le niveau du signal à un niveau optimal préalablement défini (en l’occurrence, ce
niveau optimal correspond dans notre étude, tout comme dans POLQA (ITU-T 2011a), à 73 dB
SPL pour les signaux en bande super-élargie). Cette procédure pourra également être appliquée
aux modules de Continuité et de Coloration. Par ailleurs, pour un diagnostic plus avancé des
bruits de fond, il serait intéressant de peaufiner l’identification des bruits d’environnement, i.e.
savoir si le bruit provient par exemple d’un restaurant, d’un train ou d’une cantine scolaire, en
s’appuyant sur les travaux reportés dans (El-Maleh et al. 1999) dont le but était de proposer une
méthode robuste de classification de bruits issus d’environnements de communications
téléphoniques mobiles ;
 concernant la dimension Continuité, une optimisation est nécessaire pour les indicateurs rA et VG
quantifiant respectivement les sous-dimensions Artéfacts Additifs et Variation de Gain. Bien que
lors du calcul de l’indicateur rA, le seuil de détection par trame des artéfacts additifs soit estimé en
tenant compte du niveau de bruit (chapitre 2, § 2.2.2), celui-ci ne prend pas en compte la nature
du bruit. Pour pallier ce problème, on pourrait ajuster ce seuil de détection suivant que le bruit est
de nature stationnaire ou non. L’information sur la nature du bruit pourrait être obtenue au niveau
du module de Bruyance. En ce qui concerne le calcul de l’indicateur VG, nous sommes partis de
l’hypothèse que les variations abruptes dans le niveau sonore (dues aux réducteurs de bruits ou
aux CAG) engendrent une variation de la fonction de gain du système de transmission. C’est la
raison pour laquelle nous avons déterminé l’indicateur VG à partir d’une estimation de cette
fonction de gain. Cependant cette fonction de gain est sujette à l’impact des dégradations telles
que le bruit de fond ou les distorsions fréquentielles expliquant la non robustesse de l’indicateur
VG. Par conséquent, l’indicateur VG pourrait être remplacé par un autre indicateur qui estime les
variations abruptes du niveau sonore à partir de la densité spectrale de puissance en sonie du
signal dégradé ;
 quant à la modélisation de la dimension Coloration, il serait indispensable d’effectuer de
nouvelles investigations pour la détermination des signatures des codecs WB et SWB. Lors de
notre étude sur ces codecs, nous avons en effet analysé les signaux de parole par sous-bande – du
fait du caractère hybride des codecs –, ce qui nous a conduits à considérer un nombre important
d’indicateurs de qualité. On pourrait appliquer une ACP sur ces indicateurs afin, d’une part, de ne
retenir que les indicateurs pertinents à la classification des codecs dans les bandes de fréquences
les plus pertinentes et, d’autre part, de vérifier si les informations apportées par les indicateurs
retenus sont suffisantes pour un partitionnement plus fin des codecs WB et SWB. Une autre piste
que nous pourrions envisager concerne le fait que la plupart des codecs WB et SWB sont des
extensions des codecs NB. On pourrait alors considérer le partitionnement des codecs NB que
nous avons obtenu comme un bloc sous-jacent de la classification des codecs WB et SWB. Dans
ce cas, l’étude de ces derniers codecs reviendrait à analyser les signaux de parole dans les hautes
- 145 -
fréquences. Au-delà de l’étude sur la signature des codecs, une étude approfondie sur la
dimension Coloration est nécessaire pour déterminer le nombre optimal et la nature des sous-
dimensions. En effet, nous avons vu dans l’état de l’art (chapitre 1) que certains auteurs ((Scholz
et al. 2006), (Huo et al. 2007)) considèrent que la dimension Coloration peut être divisée en deux
sous-dimensions (Clarté et Brillance), alors que, pour d’autres ((Etame et al. 2010), (Zango
2013)), la qualité vocale des codecs (cette qualité des codecs correspondant à la dimension
Coloration dans (Leman 2011) peut être projetée dans un espace perceptif à quatre dimensions, ce
qui laisse penser que la dimension Coloration n’est pas encore parfaitement caractérisée. Par
conséquent, des investigations supplémentaires permettraient une meilleure appréhension de cette
dimension ;
 en ce qui concerne la dimension Sonie, même si notre outil fournit des informations très fiables
sur le niveau sonore global de la parole, il serait tout de même intéressant de déterminer
d’éventuelles sous-familles de cette dimension.
En l’état actuel, nous pensons que nos travaux peuvent apporter une contribution potentielle à
plusieurs projets étudiés par les questions de la Commission d’Etudes 12 de l’UIT-T :
 P.AMD (ITU-T 2012b), mené par la Question 9 et visant à concevoir un modèle fournissant une
note de prédiction de la qualité vocale pour chaque dimension,
 P.TCA (Technical Cause Analysis), mené par la Question 16 et destiné à la détermination
d’informations spécifiques sur la nature des défauts perçus lors des communications
téléphoniques permettant leur attribution à une ou plusieurs causes techniques dans les réseaux
et/ou les terminaux (ITU-T 2011c).
De plus, l’outil de diagnostic présenté dans ce mémoire doit pouvoir être mis en œuvre de façon à être
utilisé par les opérateurs de télécommunications pour la supervision des réseaux. Cela sous-entend une
réflexion sur les interfaces de capture du signal et leur localisation optimale dans les réseaux. La
complexité de l’outil devra aussi être considérée afin de le rendre compatible avec les outils de mesure et
de supervision du marché et ainsi ouvrir la voie à sa commercialisation. Enfin, étant donné que l’outil de
diagnostic que nous avons développé vise essentiellement à fournir des informations sur la nature des
défauts perçus, son utilisation concrète en contexte opérationnel sera à envisager en combinaison avec des
solutions correctives d’amélioration de la qualité vocale. Concernant cette ambitieuse perspective, nous
concédons que tout reste encore à faire.
- 146 -
Annexe A Coefficients des fonctions de mappage des indicateurs de qualité
Annexe A
Coefficients des fonctions de mappage des indicateurs

de qualité
Cette annexe récapitule les coefficients des fonctions de mappage des estimations de qualité vocale de
chaque dimension à partir des indicateurs de qualité dont les performances ont été étudiées dans le
chapitre 2. Ces coefficients ont été obtenus en appliquant une régression polynomiale d’ordre 3 entre les
valeurs des indicateurs de qualité et les notes subjectives. L’expression de la prédiction de la qualité
s’écrit sous la forme :
MOS p  a3  I q3  a2  I q2  a1  I q  a0 ,
où MOS p représente la note MOS prédite, I q , un indicateur donné et les paramètres a 3 , a 2 , a1 et a 0
sont les coefficients de la fonction de mappage associée à l’indicateur I q .
Coefficients
a3 a2 a1 a0
Indicateurs
Noise -0,0009 0,0334 -0,4426 4,6289
NoiseContrast -8644,945 27963,3306 -30093,8303 10779,7173
Ln 0,0003 -0,0101 0,0041 4,5232
NoS 0,0007 0,0076 -0,361 4,5801
Plin 0,0001 -0,0014 -0,1272 4,5409
Vn -8644,945 27963,3306 -30093,8303 10779,7173

SF 1973,3494 -629,1993 43,4039 4,1462
Tableau 1. Récapitulatif des coefficients des fonctions de mappage des indicateurs de qualité
de la dimension Bruyance
- 147 -
Coefficients
a3 a2 a1 a0
Indicateurs
Timeclip 0,0007 0,001 -0,4525 5,2813
rL -4033,4436 1262,3727 -120,1405 4,5047
rI -7475,8321 1494,0525 -95,1342 3,07
Plin 0,0012 -0,014 -0,3015 4,5571

Coupures
I1 0 0 0,0003 0
I2 0 0 -0,0076 10,3697
I3 0 0 0,0002 0
I4 0,0001 -0,0063 0,1345 3,4091
I5 3,9625 -63,6125 341,0346 -607,943
Framerepeat -1236,3418 3896,532 -4086,0076 1429,5644
rA -6,056 11,1433 -5,9759 4,2306
Artéfacts Additifs (A.A.)
Plin -0,0008 0,0497 -0,4955 4,6597
I1 0 0 0,0002 0
I2 0 0 -0,0074 15,6907
I3 0 0 0,0001 0
I4 0,0002 -0,0302 1,1056 -8,7521
I5 -8,2685 145,1785 -849,3013 1659,1893
de la dimension Continuité
Coefficients
a3 a2 a1 a0
Indicateurs
Freq 0,0527 -0,7375 2,7738 1,5025
(limitation de bande
Erb
de fréquences)
0,0007 -0,0394 0,852 -2,8265

Clarté
Flatness -235,2778 551,0432 -426,0093 112,2315

Itimbre 0,00021 0 -1,745 2,452
Icod -3649,0669 586,4335 -17,7546 3,7216
Freq -0,1045 0,7906 -1,7394 5,6962
fc 0 0 0,0202 -5,2841
Brillance
Flatness 3357,0934 -7454,0341 5511,5422 -1353,0463

Itimbre 0,001 0,120 -0,897 2,874
Icod 20421211,2 -411357,437 2354,5087 0,3328
de la dimension Coloration
- 148 -
Coefficients
a3 a2 a1 a0
Indicateurs
Level -705031,8236 2138845,8835 -2162871,7824 729063,1763
Leq 0,0003 -0,0676 4,8241 -111,1613
Ltl 0 -0,0024 0,1449 1,6060
de la dimension Sonie
- 149 -
Annexe B Consigne du test d’évaluation de la qualité vocale – Méthode DCR
Annexe B
Consigne du test d’évaluation de la qualité vocale –

Méthode DCR
Bonjour,
Vous allez entendre à travers les deux oreillettes du casque Sennheiser HD 280 pro qui est devant vous
des paires d’échantillons de parole bruitée de longueur constante.
Chaque paire est constituée de deux échantillons séparés par une pause d’environ 500ms.
Dans la paire d’échantillons, le premier est la référence, le deuxième qui est traité est celui que vous
devez évaluer par rapport à la référence.
Pendant l’écoute, le bouton rouge qui est devant vous sera allumé.
Vous voudrez bien écouter chaque paire d’échantillons complètement. Puis, quand le bouton vert
s’allumera, vous donnerez votre jugement sur les modifications ressenties sur le deuxième
échantillon en appuyant sur le bouton approprié (chiffres de 1 à 5) selon l’échelle suivante :
5 : Dégradation imperceptible ou même parfois amélioration
4 : Dégradation perceptible mais non gênante
3 : Dégradation un peu gênante
2 : Dégradation gênante
1 : Dégradation très gênante
Vous disposez de 5 secondes pour enregistrer votre réponse (temps pendant lequel le bouton vert reste
allumé).
Lorsque vous aurez donné votre opinion se produira une courte pause avant la paire suivante.
Nous commencerons par une séance d’apprentissage formée de quelques paires d’échantillons. Viendront
ensuite les séances d’une durée inférieure à 15 minutes chacune.
Merci de votre participation et bon courage.
- 151 -
Bibliographie
3GPP (2000). TS 26.204. Speech codec speech processing functions; Adaptive Multi-Rate - Wideband
(AMR-WB) speech codec.
3GPP (2007). TS 26.290. Audio codec processing functions; Extended Adaptive Multi-Rate - Wideband
(AMR-WB+) codec.
3GPP (2009). TS 26.090. Adaptive Multi-Rate (AMR) speech codec. Valbonne, France.
Appel, R. and Beerends, J. G. (2002). "On the quality of hearing one's own voice". Journal of the Audio
Engineering Society, 50(4), 237-248.
Banzhaf, W., Nordin, P., Keller, R. E. and Francone, F. D. (1997). Genetic Programming: An
Introduction: On the Automatic Evolution of Computer Programs and Its Applications (The
Morgan Kaufmann Series in Artificial Intelligence).
Bappert, V. and Blauert, J. (1994). "Auditory quality evaluation of speech-coding systems". acta acustica,
2, 49-58.
Beerends, J. G., Busz, B., Oudshoorn, P., Van Vugt, J., Ahmed, K., and Niamut, O. (2007). "Degradation
decomposition of the perceived quality of speech signals on the basis of a perceptual modeling
approach". Journal of the Audio Engineering Society, 55(12), 1059-1076.
Beerends, J. G., Hekstra, A. P., Rix, A. W., and Hollier, M. P. (2002). "Perceptual evaluation of speech
quality (pesq) the new itu standard for end-to-end speech quality assessment part II:
psychoacoustic model". Journal of the Audio Engineering Society, 50(10), 765-778.
Beerends, J. G., and Stemerdink, J. A. (1994). "A perceptual speech-quality measure based on a
psychoacoustic sound representation". Journal of the Audio Engineering Society, 42(3), 115-123.
Bernex, E., and Barriac, V. (2002). "Architecture of non-intrusive perceived voice quality assessment".
Paper presented at the Measurement of Speech and Audio Quality in Networks, Prague.
Breiman, L., Frieman, J., Olshen, R., and Stone, C. (1993). Classification and regression trees. Chapman
and Hall.
Chalupper, J. and Fastl, H. (2002). "Dynamic loudness model (DLM) for normal and hearing-impaired
listeners". Acustica, 88, 378-386.
Combescure, P., Le Guyader, A. and Gilloire, A. (1982). "Quality evaluation of 32 kbit/s coded speech by
means of degradation category ratings". IEEE International Conference on Acoustics Speech and
Signal Processing (ICASSP'82).
Côté, N. (2010b). Integral and Diagnostic Intrusive Prediction of Speech Quality. Springer.
Côté, N., Gautier-Turbin, V. and Möller, S. (2007). Influence of loudness level on the overall quality of
transmitted speech. Audio Engineering Society Convention 123.
Côté, N., Gautier-Turbin, V. and Möller, S. (2008). Evaluation of Instrumental Quality Measures for
Wideband-Transmitted Speech. 2008 ITG, Conference on Voice Communication.
Côté, N., Gautier-Turbin, V., Raake, A. and Möller, S. (2006). Analysis of a quality prediction model for
wideband speech quality, the WB-PESQ. 2nd ISCA/DEGA Tutorial and Research Workshop on
Perceptual Quality of Systems, Berlin, Germany.
Deng, L. and O’Shaughnessy, D. (2003). Speech Processing: a Dynamic and Optimization-Oriented
Approach. Marcel Dekker, Inc., USA–New-York, NY.
El-Maleh, K., Samouelian, A., & Kabal, P. (1999). Frame-level noise classification in mobile
environments. IEEE Conference on Acoustics, speech, Signal Processing.
- 153 -
Etame, T., Le Bouquin Jeannes, R., Quinquis, C., Gros, L. and Faucon, G. (2010). "Towards a new
reference impairment system in the subjective evaluation of speech codecs". IEEE Transactions
on Audio, Speech, and Language Processing(99).
Etame, T. E. (2008). Thèse de doctorat: Conception de signaux de référence pour l'évaluation de la qualité
perçue des codeurs de la parole et du son, Université de Rennes 1.
ETSI (1996). ETR 250: Transmission and multiplexing (TM); Speech communication quality from mouth
to ear for 3.1 kHz handset telephony across networks.
ETSI (2011). EG 202 396-1 : Speech and multimedia Transmission Quality (STQ); Speech quality
performance in the presence of background noise; Part 1: Background noise simulation technique
and background noise database.
Falk, T., Qingfeng, X. and Wai-Yip, C. (2005). Non-Intrusive GMM-Based Speech Quality Measurement.
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP '05).
Fletcher, H. (1940). "Auditory patterns". Reviews of Modern Physics, 12(1), 47.
Gabrielsson, A. and Sjögren, H. (1979). "Perceived sound quality of sound reproducing systems". Journal
of the Acoustical Society of America, 65, 1019.
Glasberg, B. R. and Moore, B. C. J. (2002). "A model of loudness applicable to time-varying sounds".
Journal of the Acoustical Society of America, 50(5), 331-342.
Grancharov, V., Zhao, D. Y., Lindblom, J. and Kleijn, W. B. (2006). "Low-complexity, nonintrusive
speech quality assessment". IEEE Transactions on Audio, Speech, and Language Processing,
14(6), 1948-1956.
Guéguin, M. (2006a). Thèse de doctorat: Evaluation objective de la qualité vocale en contexte de
conversation, Université de Rennes1.
Guéguin, M., Le Bouquin-Jeannes, R., Faucon, G. and Barriac, V. (2006c). Towards an objective model
of the conversational speech quality. IEEE International Conference on Acoustics, Speech and
Signal Processing (ICASSP '06).
Guéguin, M., Le Bouquin-Jeannès, R., Gautier-Turbin, V., Faucon, G., & Barriac, V. (2008). "On the
evaluation of the conversational speech quality in telecommunications". EURASIP Journal on
Advances in Signal Processing, 2008, 93.
Hall, J. L. (2001). "Application of multidimensional scaling to subjective evaluation of coded speech".
Journal of the Acoustical Society of America, 110(4), 2167-2182.
Herlein, G. and Valin, J. (2007). RTP Payload Format for the Speex Codec. University of Sherbrooke.
Huo, L., Wältermann, M., Heute, U. and Moller, S. (2008a). Estimation Model for Speech-Quality
Dimension "Noisiness". Acoustics08, Paris, France.
Huo, L., Wältermann, M., Heute, U., & Moller, S. (2008b). Estimation of the Speech Quality Dimension
"Discontinuity". ITG-Conference on Speech Communication, Aachen, Germany.
Huo, L., Waltermann, M., Scholz, K., Raake, A., Heute, U. and Moller, S. (2007). Estimation Model for
the Speech-Quality Dimension. Applications of Signal Processing to Audio and Acoustics, 2007
IEEE Workshop on.
ITU-R (2003). Rec. BS.1534: Method for the subjective assessment of intermediate quality level of
coding systems. Geneva.
ITU-R (2007). Rec. BS.1770–1: Algorithms to Measure Audio Programme Loudness and Truepeak
Audio Level. Geneva
ITU-T (1988a). Rec. G.711: Pulse Code Modulation (PCM) of Voice Frequencies. Geneva.
ITU-T (1988b). Rec. P.48 : Specification for an intermediate reference system. Geneva.
ITU-T (1988c). Rec. G.722: 7 kHz audio-coding within 64 kbit/s. Geneva.
- 154 -
ITU-T (1990). Rec. G.726: 40, 32, 24, 16 kbit/s Adaptative Differential Pulse Code Modulation
(ADPCM). Geneva.
ITU-T (1993). Rec. P.56: Objective measurement of active speech level. Geneva.
ITU-T (1996). Rec. P.800: Methods for subjective determination of transmission quality. Geneva.
ITU-T (1997a). Contribution Com 12-34: TOSQA Telecommunication Objective Speech Quality
Assessment. Geneva.
ITU-T (1997b). Contribution COM 12-20: Improvement of the P.861 Perceptual Speech Quality Measure.
Geneva.
ITU-T (1998a). Rec. P.341: Transmission characteristics for wideband [50 Hz -7000 Hz] digital hands-
free telephony terminals. Geneva.
ITU-T (1998b). Rec. P.861: Objective quality measurement of telephorie-band [300Hz - 3400 Hz] speech
codecs. Geneva.
ITU-T (2000). Contribution Com 12-19 : Results of objective speech quality assessment of Wideband
speech using the advanced TOSQA–2001. Geneva.
ITU-T (2001). Rec. P.862: Perceptual Evaluation of Speech Quality Assessment of Narrowband
Telephone Networks and Speech Codecs. Geneva.
ITU-T (2002). Rec. P.561: In-service non-intrusive measurement device - Voice service measurements.
Geneva.
ITU-T (2003a). Rec. G.107: The E-model, a computational model for use in transmission planning.
Geneva.
ITU-T (2003b). P.862.1: Mapping function for transforming P.862 raw result scores to MOS-LQO
Geneva.
ITU-T (2003b). Rec. P.835: Subjective Test Methodology for Evaluating Speech Communication
Systems that Include Noise Suppression Algorithm. Geneva.
ITU-T (2003e). Rec. G.722.2: Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate
Wideband (AMR-WB). Geneva.
ITU-T (2004a). Rec. P.563: Single-ended method for objective speech quality assessment in narrow-band
telephony applications. Geneva.
ITU-T (2004b). Contribution COM 12-4: Speech degradation decomposition using a P.862 PESQ based
approach. Geneva.
ITU-T (2004c). Rec. P.562: Analysis and interpretation of INMD voice-service measurements. Geneva.
ITU-T (2005). Rec. G.722.1: Low-complexity coding at 24 and 32 Kbit/s for hands-free operation in
systems with low frame loss. Geneva.
ITU-T (2006a). Rec. G.729: Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited
linear prediction (CS-ACELP). Geneva.
ITU-T (2006b). Rec. G.729.1: G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable
wideband coder bitstream interoperable with G.729. Geneva.
ITU-T (2006c). Rec. P.10/G.100: Vocabulary for performance and quality of service. Geneva.
ITU-T (2007a). Rec. P.862.2: Wideband extension to Recommendation P.862 for the assessment of
wideband telephone networks and speech codecs. Geneva.
ITU-T (2007b). Rec. P.564: Conformance testing for voice over IP transmission quality assessment
models. Geneva.
ITU-T (2007d). Contribution COM 12-53: POLQA degradation decomposition: perceptual basis for
degradation indicators. Geneva.
ITU-T (2008a). Rec. G.711.1: Wideband embedded extension for G.711 pulse code modulation. Geneva.
ITU-T (2008b). Rec. G.722.1 annex C: The first ITU-T super wideband audio coder. Geneva.
- 155 -
ITU-T (2008c). Rec. G.718: Frame error robust narrow-band and Wideband embedded variable bit-rate
coding of speech and audio from 8-32 kbit/s. Geneva.
ITU-T (2008d). Rec. E.800: Definitions of terms related to quality of service. Geneva.
ITU-T (2010a). Rec. G.711.1 annex D: Wideband embedded extension for G.711 pulse code modulation-
New annex D with super wideband extension. Geneva.
ITU-T (2010b). Rec. G.729.1 annnex E : G.729-based embedded variable bit-rate coder: An 8-32 kbit/s
scalable wideband coder bitstream interoperable with G.729- New Annex E on super wideband
scalable extension. Geneva.
ITU-T (2010c). Rec. G.718 annex B: Frame error robust narrow-band and wideband embedded variable
bit-rate coding of speech and audio from 8-32 kbit/s - New Annex B on superwideband scalable
extension for ITU-T G.718 and corrections to main body fixed-point C-code and description text.
ITU-T (2011a). Rec. P.863: Perceptual objective listening quality assessment. Geneva.
ITU-T (2011b). Rec. G.107.1: Wideband E-model. Geneva.
ITU-T (2011c). Contribution COM 12-214: Benchmark proposal P.TCA. Geneva.
ITU-T (2011d). Contribution COM 12-Q7: P.MULTI – A proposed methodology and pilot test. Geneva.
ITU-T (2012a). Contribution COM 12-342: Results from a multidimensional rescaling experiment of a
P.OLQA SWB test database. Geneva.
ITU-T (2012b). Contribution COM 12-61: Proposed amendments to draft requirement proposal for
P.AMD. Geneva.
ITU-T (2012c). Rec. G.168: Digital network echo cancellers. Geneva.
Jekosch. (2000). Sprache hören und beurteilen. Qualitätsbeurteilung von Sprechtechnologien als
Forschung- und Dienstleistungsaufgabe. (Thèse d'habilitation).
Jekosch, U. (2005). Voice and Speech Quality Perception: Assessment and Evaluation Signals and
Communication Technology. Springer.
Johnson, S. C. (1967). "Hierarchical clustering schemes". Psychometrika, 32(3), 241-254.
Juric, P. (2001). Non-intrusive speech quality measurement. Contribution UIT-T COM, 12-27.
Kim, D. S. (2005). "ANIQUE: An auditory model for single-ended speech quality estimation". IEEE
Transactions on Speech and Audio Processing, 13(5), 821-831.
Klatt, D. (1982). Prediction of perceived phonetic distance from critical-band spectra: A first step. IEEE
International Conference on Acoustics, Speech, and Signal Processing (ICASSP '82).
Lam, K., Au, O., Chan, C., Hui, K. and Lau, S. (1996). Objective speech quality measure for cellular
phone. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP'96).
Leman, A. (2011). Thèse de doctorat: Diagnostic et évaluation automatique de la qualité vocale à partir
d'indicateurs hybrides (Modèle DESQHI). Institut National des Sciences Appliquées de Lyon.
Leman, A., Faure, J. and Parizet, E. (2008). Influence of informational content of background noise on
speech quality evaluation for VoIP application. Acoustics'08, Paris, France.
Leman, A., Faure, J. and Parizet, E. (2009a). Influence of Informational content of background noise on
speech quality evaluation for VoIP application. ITU-T, Contribution COM 12 - C 12-E, Q.15, 9,
8, 7/12.
Leman, A., Faure, J. and Parizet, E. (2009b). A non-intrusive signal-based model for speech quality
evaluation using automatic classification of background noises. Interspeech 2009, Brighton,
England.
Loizou, P. C. (2013). Speech enhancement: theory and practice. CRC press.
Malfait, L., Berger, J. and Kastner, M. (2006). "P.563-The ITU-T Standard for Single-Ended Speech
Quality Assessment". IEEE Transaction on Audio, Speech, and Language Processing, 14(6),
1924-1934.
- 156 -
Mattila, V. (2002a). "Ideal point modelling of speech quality in mobile communications based on
multidimensional scaling (MDS)". Journal of the Audio Engineering Society, 112, 1-14.
Mattila, V. (2002b). "Descriptive analysis and ideal point modelling of speech quality in mobile
communication". Journal of the Audio Engineering Society, 113, 1-18.
McDermott, B. J. (1969). "Multidimensional Analyses of Circuit Quality Judgments". Journal of the
Acoustical Society of America, 45(3), 774-781.
McGee, V. E. (1965). "Determining perceptual spaces for the quality of filtered speech". Journal of
Speech and Hearing Research, 8(1), 23.
McLachlan, G. J. and Peel, D. (2000). Finite mixture models (Vol. 299), Wiley-Interscience.
Molla, S., Boullet, I., Meunier, S., Rabau, G., Gauduin, B. and Boussard, P. (2010). Calcul des
indicateurs de sonie : revue des algorithmes et implémentation. 10ème Congrès Français
d'Acoustique, Lyon, France.
Möller, S. (2000). Assessment and Prediction of Speech Quality in Telecommunications (first ed.).
Kluwer Academic Publisher.
Moore and Glasberg. (1997). "A model for the prediction of the thresholds, loudness and partial
loudness". Journal of the Audio Engineering Society, 45(4), 224-240.
Osgood, C. E., Suci, G. J. and Tannenbaum, P. H. (1957). The mesurement of meaning. Universtiy of
Illinois Press.
Papamichalis, P. E. (1987). Practical Approaches to Speech. Englewood Cliffs, NJ.
Petersen, K. T., Hansen, S. D. and Sorensen, J. (1997). Speech quality assessment of compounded digital
telecommunication systems; perceptual dimensions. IEEE International Conference on Acoustics,
Speech, and Signal Processing (ICASSP '97).
Princen, J. and Bradley, A. (1986). "Analysis/synthesis filter bank design based on time domain aliasing
cancellation". IEEE Transactions on Acoustics, Speech and Signal Processing, 34(5), 1153-1161.
Quackenbush, S. and Barnwell III, T. (1985). Objective estimation of perceptually specific subjective
qualities. EEE International Conference on Acoustics, Speech, and Signal Processing,
(ICASSP'85).
Raake, A. (2006). Speech Quality of VoIP : Assessment and Prediction (1 ed.). Wiley.
Rix, A. and Gray, P. (2001). NiQA-Non-intrusive speech quality assessment. Contribution UIT-T COM.
Rix, A., Reynolds, R. and Hollier, M. (1999). Robust perceptual assessment of end-to-end audio quality.
IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.
Rix, A. W., Hollier, M. P., Hekstra, A. P. and Beerends, J. G. (2002). "Perceptual Evaluation of Speech
Quality (PESQ) The New ITU Standard for End-to-End Speech Quality Assessment Part I--
Time-Delay Compensation". Journal of the Audio Engineering Society, 50(10), 755-764.
Scholz, K., Wältermann, M., Huo, L., Raake, A., Möller, S. and Heute, U. (2006). Estimation of the
quality dimension" directness/frequency content" for the instrumental assessment of speech
quality. Interspeech, Pittsburgh, PA, USA.
Schroeder, M. and Atal, B. (1985). Code-excited linear prediction (CELP): High-quality speech at very
low bit rates. IEEE International Conference on Acoustics, Speech, and Signal Processing
(ICASSP '85).
Sen, D. (2001). Determining the dimensions of speech quality from PCA and MDS analysis of the
diagnostic Acceptability Measure. Measurement of speech and audio Quality in Networks
(MESAQIN), Prague.
Sen, D. and Lu, W. (2012). "Objective evaluation of speech signal quality by the prediction of multiple
foreground diagnostic acceptability measure attributes". Journal of the Acoustical Society of
America, 131, 4087.
- 157 -
Shaughnessy, D. (2000). Speech Communication: Human and Machine. Addison-Wesley, USA–New
York, NY.
Stevens, S. S. (1936). "A scale for the measurement of a psychological magnitude: loudness".
Psychological Review, 43(5), 405.
Thorpe, L. and Yang, W. (1999). Performance of current perceptual objective speech quality measures.
IEEE Workshop on Speech Coding Proceedings.
Tiémounou, S., Le Bouquin Jeannes, R. and Barriac, V. (2012b). Performance evaluation of quality
degradation indicators on super-wideband speech signals. EUSIPCO), Bucharest, Roumania.
Tiémounou, S., Le Bouquin Jeannès, R. and Barriac, V. (2012a). Visual comparison of perceptual
degradation indicators in two listening speech quality models. WSEAS, Saint-Malo, France.
Tribolet, J., Noll, P., McDermott, B. and Crochiere, R. (1978). A study of complexity and quality of
speech waveform coders. IEEE International Conference on Acoustics, Speech, and Signal
Processing (ICASSP '78).
UIT-T (1993). Rec. P.56 : Mesure objective du niveau vocal actif. Genève.
Voiers, W. (1977). Diagnostic acceptability measure for speech communication systems. IEEE
International Conference on Acoustics, Speech, and Signal Processing (ICASSP '77)
Wältermann, M., Raake, A. and Möller, S. (2006a). Perceptual Dimensions of Wideband-transmitted
speech. ISCA/DEGA Tutorial and Research Workshop on Perceptual Quality of Systems.
Wältermann, M., Raake, A. and Möller, S. (2006b). Underlying Quality Dimensions of Modern
Telephone Connections. Interspeech, Pittsburgh, Pennsylvania.
Wältermann, M., Scholz, K., Möller, S., Huo, L., Raake, A. and Heute, H. (2008). An Instrumental
Measure for End-to-end Speech Transmission Quality Based on perceptual Dimensions :
Framework and Realization. Interspeech, Brisbane, Australia.
Wältermann, M., Tucker, I., Raake, A. and Moller, S. (2010). Extension of the E-model towards super-
wideband speech transmission. IEEE International Conference on Acoustics Speech and Signal
Processing (ICASSP '10)
Zango, Y. (2013). Thèse de doctorat: Evaluation subjective de la qualité : proposition d’un système de
référence pour les codecs en bande élargie, Université de Rennes 1.
Zielinski, S., Rumsey, F. and Bech, S. (2008). "On Some Biases Encountered in Modem Audio Quality
Listening Tests: A Review". Journal of the Audio Engineering Society, 56(6), 427-451.
Zwicker, E. (1958). "Übe psychologieshe und methodishe grundlagen der lautheit". Acustica, 8, 237-258.
Zwicker, E. and Fastl, H. (1999). Psychoacoustics : Facts and Models. Springer.
Zwicker, E., Fastl, H. and Dallmayr, C. (1984). "Basic-program for calculating the loudness of sounds
from their 1/3-oct band spectra according to ISO 532 B". Acustica, 55, 63-67.
- 158 -
Résumé
Les opérateurs de télécommunications se doivent de maîtriser et d’évaluer la qualité des services qu’ils
offrent à leurs clients, dans un contexte en perpétuelle évolution. Comme alternative rapide et à moindre coût
aux évaluations fondées sur l’interrogation d’utilisateurs, des outils de mesure ont été développés, qui intègrent
des modèles permettant de prédire la qualité perçue. Cette thèse avait pour but de concevoir un outil de
diagnostic de qualité vocale (applicable aux services de téléphonie), complémentaire à de tels modèles
objectifs, afin d’obtenir des informations spécifiques sur la nature des défauts présents sur le signal audio et
d’orienter vers des causes potentielles de ces défauts. En partant de l’hypothèse que la qualité vocale est
multidimensionnelle, nous avons fondé l’outil de diagnostic sur la modélisation des quatre dimensions
identifiées dans la littérature : la Bruyance, représentative des bruits de fond, la Continuité, relative à la
perception des discontinuités dans le signal, la Coloration, liée aux distorsions du spectre de la voix, et la Sonie,
traduisant la perception du niveau sonore. Chacune de ces dimensions est quantifiée à l’aide d’indicateurs de
qualité issus de l’analyse du signal audio. Notre démarche a consisté, dans un premier temps, à rechercher dans
des modèles objectifs récents (notamment la norme P.863 de l’UIT-T) des indicateurs de qualité et à en
développer d’autres pour caractériser parfaitement chaque dimension. S’est ensuivie une étude de
performances de ces indicateurs, les plus pertinents devant être intégrés dans notre outil de diagnostic.
Finalement, pour chaque dimension, nous avons développé un module de classification automatique de défauts
perçus en fonction de la nature du défaut identifié dans le signal, ainsi qu’un module supplémentaire estimant
l’impact du défaut sur la qualité vocale. L’outil proposé couvre les trois bandes audio (bande étroite, bande
élargie et bande super-élargie) couramment utilisées dans les systèmes de télécommunications avec, toutefois,
une priorité pour les signaux en bande super-élargie, plus représentatifs des contenus audio qu’on sera amené à
rencontrer dans les futurs services de télécommunications.
Abstract
Quality of service is a huge issue for telecommunications operators since they have to master and evaluate it in
order to satisfy their customers. To replace expensive and time-consuming human judgment methods,
objective methods, integrating objective models providing a prediction of the perceived quality, have been
conceived. Our research aimed at developing a technical diagnostic method, complementary to objective voice
quality models, which provides specific information about the nature of the perceived voice quality
impairments and identifies the underlying technical causes. Assuming that speech quality is a
multidimensional phenomenon, our technical diagnostic method is built on the modelling of the four
perceptual dimensions identified in the literature: “Noisiness” relative to the perceived background noise,
“Continuity” linked to discontinuity, “Coloration” related to frequency–response degradations and “Loudness”
corresponding to the impact of the speech level, each one being quantified by quality degradation indicators
based on audio signal analysis. A crucial step of our research was to find and/or to develop relevant quality
degradation indicators to perfectly characterize each dimension. To do so, we identified quality degradation
indicators in the most recent objective voice quality models (particularly the ITU-T P.863 recommendation,
known as POLQA) and we analysed the performance of identified indicators. Then, the most relevant
indicators have been considered in our diagnostic method. Finally, for each dimension, we proposed a
detection block which automatically classifies a perceived degradation according to the nature of the defect
detected in the audio signal, and an additional block providing information about the impact of degradations on
speech quality. The proposed technical diagnostic method is designed to cover three bandwidths (Narrowband,
Wideband and Super Wideband) used in telecommunications systems with a priority investigation to Super
Wideband speech signals which remain very useful for future telephony applications.

TIEMOUNOU Sibiri PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

TIEMOUNOU Sibiri PDF

Încărcat de

Drepturi de autor:

Formate disponibile

ANNEE 2014

THÈSE / UNIVERSITÉ DE RENNES 1

Thèse soutenue à Rennes

devant le jury composé de :

technique des dégradations Etienne PARIZET

Table des matières

Table des matières ...................................................................................................................................... 3

1.4.3.1.1. Modèle E ............................................................................................................. 29

2.3.3.1. Performances des indicateurs de la dimension Bruyance ......................................... 69

Chapitre 5 - Modélisation de la dimension Coloration ....................................................................... 101

Liste des acronymes et abréviations

3GPP 3rd Generation Partnership Project

LTE Long Term Evolution

proposerons une modélisation de cette dimension essentiellement orientée sur la détermination de la

Etat de l'art sur la qualité vocale dans les systèmes de

1.1. Production et perception de la parole

Figure 1.3. Courbe du seuil d’audition absolu

Fréquence (Hz) Fréquence (Hz)

0 0 100 100 13 2000 2320 320

De façon générale, la perception de la parole représente l’ensemble des aptitudes auditives et

1.2. Qualité vocale

Facteurs variables Evènement sonore

1.2.2. Qualité de Service et Qualité d'Expérience

1.3. Systèmes de transmission de la parole

1.3.1. Réseaux téléphoniques

On distingue principalement le Réseau Téléphonique Commuté (RTC) analogique, les réseaux

1.3.1.1. Réseau Téléphonique Commuté (RTC)

1.3.1.2. Réseaux numériques

1.3.1.3. Réseaux mobiles

1.3.1.4. Voix sur IP (VoIP)

1.3.2. Codage de la parole

1.3.2.1. Détecteur d’Activité Vocale (DAV)

1.3.2.2. Mécanisme de masquage des pertes de paquets

1.3.3. Fonctionnalités d'amélioration du signal de parole

1.3.3.1. Annuleurs d'écho

1.3.3.2. Réducteurs de bruit

1.3.3.3. Systèmes de contrôle automatique de gain

1.3.4. Interface utilisateur

1.4. Evaluation de la qualité vocale

1.4.2. Evaluation subjective de la qualité vocale

1.4.2.1. Contexte d’évaluation de la qualité vocale

1.4.2.1.1. Contexte d’écoute

1.4.2.1.2. Contexte de locution

1.4.2.1.3. Contexte de conversation

1.4.2.2. Evaluation unidimensionnelle de la qualité vocale

1.4.2.2.1. Test ACR (Absolute Category Rating)

Qualité de la parole Note

1.4.2.2.2. Test DCR (Degradation Category Rating)

Niveau de dégradation Note

1.4.2.2.3. Test CCR (Comparison Category Rating)

Qualité du 2nd échantillon par rapport à celle du 1er échantillon Note

Qualité de la parole Note

1.4.2.3. Evaluation multidimensionnelle de la qualité vocale

1.4.2.3.1. DAM (Diagnostic Acceptability Measure)

1.4.2.3.3. Recommandation P.835 de l’UIT-T

1.4.3. Evaluation objective de la qualité vocale

 le type de mesure (avec ou sans référence) ;

1.4.3.1. Modèles paramétriques

1.4.3.1.3. Recommandation P.564

1.4.3.2. Modèles basés sur le signal de parole

Signal de référence Signal dégradé

Figure 1.6. Principe de fonctionnement des modèles basés sur le signal

1.4.3.2.1. Modèles avec référence