Sunteți pe pagina 1din 12

// sas.

render(24243);

Object 1

MP3, AAC, OGG... Voyage au coeur de la


compression audio destructive
Un accronyme (mé)connu de tous
Publié le 10/04/15 à 14h00 par Benoît Campion (@Lino_kitsune)

Entre vives critiques sur sa mauvaise qualité et nouvelles promesses de contenus de meilleure qualité, il
devient difficile pour l'utilisateur de savoir ce qu'il peut réellement attendre de ce fameux "MP3". Pour
éclaircir ce brouillard, nous vous proposons un point sur les différents formats audio compressés
destructifs.

Genèse de la compression de données audio


Depuis l'avènement du numérique dans les années 80, les professionnels de l'audio travaillent avec des
fichiers numériques bruts non compressés, qui se retrouvent sur les "Compact Discs" sous la forme d'un
fichier audio stéréophonique. Le format de ce fichier audio, le PCM, porte l'extension .WAV sous
Windows ou AIFF sous Mac OS et affiche une résolution de 16 bits ainsi qu'une fréquence
d'échantillonnage de 44,1 kHz. Pour un fichier (stéréo) de 3 min 30 s, il suffit d'effectuer les opérations
suivantes pour connaître sa taille et son débit :

Il est évident qu'avec les débits Internet et les tailles phénoménales de stockage dont nous disposons
aujourd'hui, les valeurs ci-dessus paraissent dérisoires. Cependant, à l'époque, elles présentaient un
véritable enjeu : le problème principal était de pouvoir transférer et d'héberger ces fichiers avec des
capacités de stockages, des bandes passantes ou des débits extrêmement réduits. Les données audio
devaient donc être compressées afin de réduire la taille des fichiers... tout en conservant tant que faire se
pouvait la qualité. C'est ainsi que naquirent les fameux formats compressés lossy (avec perte).
Le fameux MP3, premier format de compression, s'imposa rapidement comme le format audio le plus
populaire. Comme bon nombre d'innovations sonores, ce format provient d'un travail de recherche en
communications, dont le but était d'alléger le poids des informations sonores transmisses en éliminant les
fréquences jugées inutiles tout en préservant au maximum la qualité (ou tout du moins l'intelligibilité). En
1987, le centre de recherche allemand Fraunhofer Institut Integrierte Schaltungen continue ces recherches
sous le projet EUREKA project EU147, Digital Audio Broadcasting (DAB) avec une équipe constituée de
plusieurs chercheurs, dont Dieter Seitzer et Karlheinz Brandenburg. La chanson Tom's Diner de Suzanne
Vega servit de test durant les premières recherches. Ryan McGuire, un étudiant de l'université de Virginie
a d'ailleurs très récemment élaboré un projet qui vise à montrer les pertes engendrées par le MP3 en
extrayant uniquement les informations perdues dans un fichier audio.

Karlheinz Brandenburg, l'un des créateurs du MP3

Au fil de son avancée, l'algorithme est intégré en 1992 dans la norme du Moving Picture Expert Group
(MPEG-1), suivi quelques mois plus tard de la première version du logiciel capable de convertir les
fichiers MP3. Le MPEG-1 se développa et devint le MPEG-2 en 1994. Grâce aux joies d'Internet, le
format et son encodage se trouvent piratés et utilisés en masse, et menacent en un temps record l'industrie
du CD. En 1998, Fraunhofer réclame des droits quant à l'utilisation du MP3, mais cela n'empêche pas sa
prolifération, notamment sur les sites dédiés aux artistes indépendants et des sites comme mp3.com.

À gauche : le premier lecteur mp3 commercialisé, le Saehan's MPMan F10. À droite : le logo de Napster

Et c'est l'effet boule de neige : arrivent ensuite les premiers lecteurs MP3 et les premiers sites et logiciels
d'échange de fichiers comme Napster, avec des centaines de millions de fichiers disponibles, talonnés par
tant d'autres. Le MP3 devient le vecteur incontournable du piratage de fichiers, propulsé par Internet. Son
nom devient alors, par abus de langage, le seul représentant de tous les fichiers audio compressés et même
des baladeurs numériques, que l'on appellera vulgairement "lecteurs MP3" ou même "MP3" tout court.

Qu'est-ce que la compression audio destructive ?


Mais qu'est-ce qu'un format compressé, au juste ? C'est un fichier issu d'une compression audionumérique
des données qui engendre une suppression IRRÉVERSIBLE de certaines fréquences qui sont, en
principe, très peu perceptibles par notre oreille. Ce format permet d'atteindre des taux de compression
allant jusqu'à 30:1 et intègre plusieurs degrés de complexité en fonction du niveau de compression et du
débit envisagé.

Seuil de perception de l'audition humaine. Source : www.pfast.fr

La compression audio par réduction de débit repose sur les caractéristiques de notre oreille : les défauts de
l'audition humaine sont exploités pour créer des algorithmes permettant de supprimer les informations les
moins perceptibles. Tout d'abord, rappelons que la plage des fréquences audibles, captées par nos cellules
ciliées, s'étend de 20 Hz à 20 kHz à la naissance, puis s'amoindrit au fil des années. Cependant, l'oreille ne
perçoit pas de manière linéaire (avec la même intensité) toutes les fréquences : pour une même pression
acoustique, les médiums seront bien mieux perçus que les basses et les aigus, qui devront être boostés
pour atteindre le même niveau d'intelligibilité. Beaucoup de formats profitent de cette perception moindre
des fréquences extrêmes pour y déplacer les divers bruits (bruit propre, bruit de quantification...). Un
autre phénomène psycho-acoustique très utilisé dans la compression de données est l'effet de masquage :
chaque transitoire (pic d'amplitude) masque une certaine quantité d'informations sonores en aval, mais
également en amont (pré-écho, post-écho). L'algorithme de compression détecte ces pics, applique un
filtre acoustique et supprime les informations que l'oreille ne perçoit pas, informations jugées non
pertinentes. On parle donc de codecs "perceptuels" : ils utilisent ainsi la perception auditive humaine et
ses défauts pour optimiser leur poids, afin de faciliter transfert et stockage.

Le Fraunhofer Institute à Schmallenberg

Vous l'aurez deviné, c'est aux frontières de cette notion floue de "pertinence" qu'il y a débat. Si ces
informations étaient entièrement inutiles, aucune différence de qualité ne se ressentirait, or nous
rencontrons tous les jours des fichiers compressés qui offrent une différence de qualité absolument
flagrante avec le fichier original. À l'inverse, nombre d'études en double aveugle prouvent que faire la
différence entre un fichier non compressé et certaines de ses versions lossy est parfois extrêmement
délicat. Il existe donc plusieurs compressions destructives, le résultat prenant plus ou moins en compte la
qualité subjective de perception (que l'on ne peut correctement estimer qu'avec des enquêtes auprès
d'échantillons d'auditeurs), le coût de production, les ressources de calcul, le débit numérique et les
contraintes de diffusion.

Codec ou contenant ?
La confusion entre le codec et son extension n'est pas rare. Le codec, abréviation de codeur-décodeur, est
le programme qui transforme le signal en fichier, et inversement. L'extension indique le conteneur qui
encapsule le fichier, une fois celui-ci compressé.
Prenons l'OGG Vorbis, par exemple : ici, le Vorbis, codec relativement récent né le 19 juillet 2002, est
l'algorithme qui transforme le signal en fichier compressé, et inversement. L'OGG est le conteneur dans
lequel ce fichier est encapsulé. Le codec Vorbis utilise la compression dite VBR (Variable BitRate, ou
compression à débit variable), ce qui lui permet d'allouer plus d'informations à la conversion des passages
complexes et à l'inverse, de ne pas octroyer d'informations inutiles à des passages plus pauvres. Ce débit
variable s'oppose au CBR (Constant BitRate), technique plus simple dans laquelle le taux
d'échantillonnage reste fixe quelle que soit la complexité du passage converti. Pour la petite histoire, ce
codec doit son nom à un personnage de Terry Pratchett, le diacre Vorbis, dans Les Petits Dieux.

L'extension est néanmoins liée au codec, certaines portant même un nom identique. C'est le cas du WMA
et du MP3 bien sûr, qui ont eu plusieurs encodeurs tout au long de leur histoire (Professional et Voice
pour le premier, LAME et Fraunhofer pour le second). Les codecs ont évolué au fil du temps, toujours
dans le but d'affiner la qualité perceptuelle de l'encodage et d'optimiser le poids du fichier. Ainsi, certains
codecs d'aujourd'hui à 128 kbits/s offrent une fidélité au morceau original jugée deux fois supérieure à
celle des premiers MP3 à 320 kbits/s.

Comparaison des codecs


La théorie
Il est bien tentant d'utiliser une courbe de réponse en fréquence pour comparer les différents formats de
compression destructive, c'est un bien piètre indicateur de qualité perceptuelle. En effet, un codec peut
choisir de réduire la précision des fréquences les plus élevés et les moins audibles, voire d'appliquer un
coupe-haut aux alentours de 16 kHz, pour allouer une plus grande quantité de bits et donc offrir une
précision accrue aux fréquences plus audibles. La courbe de réponse en fréquence peut donc être
tronquée, mais la qualité améliorée.

Considérons un autre outil d'analyse audio plus adapté : le spectrogramme. Cette mesure permet
d'observer l'évolution de l'énergie en fonction des fréquences et du temps, et met ainsi en lumière certains
défauts engendrés par la compression destructive. C'est un graphe à trois variables : la fréquence
s'échelonne en ordonnée de 20 à 20 000 Hz, le temps évolue en abscisse et la puissance se lit en couleurs,
de la plus froide à la plus chaude (ou du blanc au noir dans certaines représentations plus anciennes). Les
castagnettes par exemple, source percussive riche, précise et rapide, trahissent particulièrement bien les
problèmes d'encodage de transitoires, notamment les effets de pré- et post-écho. Mais le spectrogramme a
malheureusement lui aussi ses limites, ne permettant pas de juger de manière globale et complète le degré
de transparence perceptuelle d'un codec. La vérité est qu'aucune mesure à ce jour ne permet de déterminer
de manière absolue la transparence d'un codec perceptuel, et pour cause : tout est dans le titre. Le test
ultime reste, comme son nom l'indique, le test perceptuel.

On soumet une population (un échantillon de personnes) à un test d'écoute durant lequel il leur est
demandé de noter des extraits audio de 30 secondes sur une échelle allant de 1 à 5 (les chiffres n'étant pas
toujours visibles, ce sont parfois des textes), la note la plus basse représentant une dégradation du fichier
original très dérangeante et la note la plus haute, une dégradation imperceptible. Les tests sont réalisés en
double aveugle : ni la population interrogée, ni les encadrants du test ne connaissent la qualité des
fichiers. Les résultats de chaque codec sont ensuite pondérés et génèrent aussi des intervalles de
fluctuation asymptotique au seuil de 95% : comme un élève passant son Bac, chaque codec aura une
moyenne, ou "espérance" selon le terme statistique consacré. Cependant, on ne saurait réduire son résultat
uniquement à sa moyenne : un intervalle dit "de confiance", centré autour de cette moyenne, reflètera au
travers de sa longueur d'autres informations, comme l'écart (ou "variance") entre les différentes notes
qu'on lui aura attribué. Voici un exemple de résultats de tests, où l'on voit bien les intervalles de confiance
de chaque codec.

Les codecs LAME et iTunes ont été glissés dans le test comme références respectivement haute et basse :
c'est la performance relative des autres codecs qui est étudiée ici.
L'interprétation des résultats est simple : si l'intersection de deux intervalles est vide (ils ne se
chevauchent pas), on peut conclure avec une fiabilité de plus de 95% que l'un des codecs est supérieur à
l'autre. Dans le cas contraire, on ne peut pas en déduire qu'ils sont équivalents mais seulement que le test
n'est pas concluant (population pas assez grande, pas assez d'extraits, ...). Sur l'extrait Pop music with
artifical stereo (résultats ci-dessus à gauche), il est clair que les codecs HE-V1 (CT et Nero) sont
nettement supérieurs aux autres. En revanche, pour l'extrait de guitare acoustique (résultats ci-dessus à
droite), le test n'est pas concluant. On voit bien au travers de cet exemple que la performance des codecs
varie fortement d'un type de musique à un autre.

La pratique
Il existe une grande variété de formats compressés utilisés au sein des systèmes d'exploitation et dans la
majorité des services de streaming audio, et la qualité qu'ils offrent reste sujette à maints débats. Pour
vous faire votre propre opinion, nous vous encourageons à prendre le temps d'aller dans votre
médiathèque, d'en sortir votre CD préféré, d'écouter votre morceau phare dans son format original (en
WAV), puis de l'encoder et de l'écouter en différents formats (MP3, OGG, AAC, ...) car comme nous
l'avons vu précédemment, une mesure seule ne saurait refléter à elle seule la performance globale d'un
codec. Nous allons néanmoins observer au spectrogramme le comportement de castagnettes (WAV, extrait
de 35 secondes, 8.88 Mo, piste stéréo en haut) sous l'effet de diverses compressions destructives (piste
stéréo, située en bas).

Commençons cette observation par la star des formats compressés : le MP3. Les différents débits
disponibles ont bien entendu une incidence directe sur la qualité et le respect du fichier audio original.

Spectrogramme des castagnettes en MP3 VBR0 — LAME 240 kbits/s

Sans surprise, la qualité de restitution du MP3 décroît très fortement au fil de la baisse de débit. En VBR
V0 (LAME 240 kbits/s et taille finale de 824 Ko, qualité la plus répandue), le rendu est toutefois très
correct, avec un respect acceptable des timbres, de la phase et de la précision globale du morceau. Grand
intérêt du MP3, la taille du fichier original à été diminué de plus de dix fois. Quelques artefacts liés à la
conversion sont toutefois présents, notamment dans les fréquences les plus aigües, ce qui s'entend surtout
au niveau de la largeur stéréophonique. Le spectrogramme permet de mettre le doigt sur l'étalement
temporel en pré et post écho surtout au niveau des attaques très courtes (transitoires) et enchaînées
rapidement.
Spectrogramme des castagnettes en MP3 128 kbits/s

Pour les débits les plus bas, très utilisés dans la plupart des contenus audio en ligne jusqu'à récemment,
les défauts de ce codec sont flagrants : essayez par exemple d'écouter ces différences sur un morceau avec
des cymbales ou des guitares saturées très en avant ou encore avec des éléments percussifs aux attaques et
rythmes très rapides ; l'altération sonore est sans équivoque.

Spectrogramme des castagnettes en WMA VBR98

Regardons ensuite ce qui se passe du côté du WMA de Microsoft ("Windows Media Audio"), lancé en
1999, qui existe en plusieurs versions (Pro, Lossless et Voice). Nous avons choisit d'encoder notre fichier
en WMA VBR98 (901 Ko et de meilleure qualité que le WMA 192 kbits/s CBR proposé par le lecteur
Windows Media Player). On remarque les mêmes défauts d'étalement temporel que le codec précédent, en
plus d'un sacrifice des plus hautes fréquences.
Spectrogramme des castagnettes en Vorbis VBR 350 kbits/s

Passons au Vorbis, dont la particularité est un brevet totalement libre et ouvert. Il est entre autres utilisé
par Spotify (voir notre analyse des différents services de streaming audio Premium). Voyons son effet sur
notre morceau de référence, dans deux encodages : le premier (ci-dessus), en VBR 350 kbits/s, génère un
fichier de 935 Ko et le second (ci-dessous), en VBR 500 kbits/s, un fichier de 1.29 Mo.

Spectrogramme des castagnettes en Vorbis VBR 500 kbits/s

Le Vorbis fait un très bon travail d'encodage en respectant à la fois les timbres et l'ensemble des
informations sonores sur toute la plage fréquentielle, avec une belle précision générale. Comme on peut le
percevoir et aussi le vérifier sur le spectrogramme, l'étalement en pré- et post-écho est vraiment réduit. À
ce niveau, on peut dire sans hésiter que les différences entre le fichier d'origine et le fichier encodé sont
imperceptibles, même pour des oreilles très éduquées. Double avantage, le gain en espace de stockage est
aussi efficace qu'avec d'autres formats de compression : l'optimisation est donc excellente.
Spectrogramme des castagnettes en AAC CBR 320 kbits/s

L'AAC ("Advanced Audio Coding"), né en 1997, revêtait différentes versions et profils jusqu'en 2009. Il
est aujourd'hui notamment utilisé par Apple avec une extension de fichier ".m4a". Nous avons choisi
d'encoder notre morceau dans deux versions : ci-dessus, l'encodage en CBR 320 kbits/s (1.35 Mo) et ci-
dessous, en VBR 224 kbits/s (625 Ko).

Spectrogramme des castagnettes en AAC VBR 224 kbits/s

À qualité maximale (VBR 244 kbits/s), l'AAC est plus fidèle et plus efficace que le MP3. La précision
d'encodage est bonne, mais légèrement inférieure à l'OGG : la différence peut être perçue dans les plus
hautes fréquences, l'AAC faisant le choix d'une efficacité concentrée sur une bande de fréquence plus
restreinte et sur une limitation des effets de pré- et post-écho. Sans surprise, entre les différents débits, le
CBR 320 est moins efficace et porte plus préjudice au signal d'origine, même si cela est loin d'être
flagrant comme avec le WMA et MP3.
Spectrogramme des castagnettes en Opus VBR 320 kbits/s

Enfin, tapi dans l'ombre, se trouve un autre format de compression destructive beaucoup moins populaire
mais pourtant très répandu : Opus. Ce format totalement libre développé par l'Internet Engineereng Task
Force (IETF) a vu le jour en 2012. Ce codec a principalement été mis au point et optimisé pour s'adapter
au mieux aux variations de bande passantes, et utilise pour ce deux algorithmes : SILK (Skype) adapté
pour la voix humaines, et CELT (créé par la fondation Xiph.org) orienté musique. Opus a la capacité de
choisir le plus adapté en fonction de la bande passante et du son à transmettre ou de combiner les deux.
Les logiciels de VoIP (Teamspeak, Mumble...), certains navigateurs (Firefox, Thunderbird, Chrome,
Chromium...) et systèmes d'exploitation (GNU/Linux Debian 7, Android mobile, Windows avec
l'installation de certains logiciels...) utilisent ce format. Eh oui, rien que ça ! Nous avons encodé notre
fichier dans ce format en VBR 320 kbits/s (1.15 Mo). Dans sa meilleure qualité (VBR 320 kbits/s), l'Opus
s'en tire lui aussi très bien, avec des effets de pré- et post-écho ténus — pour ne pas dire inexistants.
L'ensemble du spectre audible est fidèlement reproduit, toutefois le rendu par rapport au fichier original
est à l'instar de l'AAC légèrement en-deçà de ce dont est capable l'OGG Vorbis en terme de sensation d'air
et de largeur spatiale. Ne vous fiez pas entièrement au spectrogramme en ce qui concerne le fin nuage
dans les hautes fréquences, qui doit provenir d'un artefact de conversion indécelable à l'oreille.

Conclusion
La seule manière de comparer des codecs perceptuels de manière concluante reste d'effectuer des tests
perceptuels en double aveugle. Là encore, départager MP3, AAC, WMA, Ogg Vorbis et autres n'est pas
une mince affaire, puisque leur performance varie non seulement d'une personne à l'autre, mais également
d'un type de musique à l'autre. Il est néanmoins possible de tirer la conclusion, d'une part, que toutes les
compressions destructives ne se valent pas, et d'une autre, que la différence entre les meilleures
compression destructives et le fichier d'origine est quasiment imperceptible pour le commun des mortels.
Parmi eux, le Vorbis brille encore un peu plus grâce à un excellent rapport transparence/taille. Mais le
principal reste de vous fier à vos oreilles... elles vous le rendront bien !

Ne pas confondre compression des données et compression dynamique


Attention, le terme "compression" ne désigne pas toujours une compression de données en audio. En
effet, la compression peut concerner également la dynamique d'un signal, qui consiste à réduire l'écart
entre les sons les plus faibles et les plus forts, que cela soit pour la musique, le cinéma, la télévision ou la
radio par exemple. Typiquement, c'est à cause de la compression de dynamique que les pubs diffusées à la
télévision entre les films sont perçues comme beaucoup plus fortes, alors que vous n'avez pas modifié le
volume d'écoute, tout comme la différence entre les radios et les morceaux de musique. Depuis de
nombreuses années, beaucoup d'abus de compression de dynamique soulèvent la question de la Loudness
War ou guerre des niveaux, omniprésente dans tous ces domaines.