Cours (Audio Numérique)

module i325
cours 5:
Audio numérique
Dominique Burki
sommaire
0. Introduction
-la production et la reproduction sonore
-la réception et la perception des sons
-la transmission des sons
1. Quelques notions de psychoacoustique

1.1 définitions
1.2 domaines d’application
1.3 perception acoustique
2. Reproduction sonore, traitement du signal

2.1. Captation
2.2 Signal
-périodicité
-onde
-amplitude
-dynamique
2.3 Représentation temps et fréquence
-représentation fréquencielle
-représentation temps et fréquence
2.4 Numérisation
-échantillonage
-quantification
-reproduction et spatialisation
3.synthèse sonore
3.1 modélisation
3.2 synthèse: modèles et procédés
3.3 synthèse: dispositifs
4.codage et compression audio-numérique

4.1 principe
4.2 procédés
-masque
-joint stéréo
-code de Huffman
4.3 formats audios numériques
0. Introduction
L’étude des sons peut s’étendre sur de nombreux champs: physique,
acoustique, psychoacoustique, etc… Il serait certainement utile d’approfondir
chacun de ces domaines, dans le cadre réduit de notre propos nous nous
attachons à quelques aspects en rapport avec l’audio numérique.
Nous survolons ici des notions ayant un rapport avec au moins trois domaines:
-la production et la reproduction sonore

Dans ce domaine, nous nous penchons sur quelques procédés de captation, de
traitement et de représentation d’un signal: échantillonage, interprétation et
mise en forme du signal, technologie… Puis nous explorons quelques dispositifs
de contrôle et de synthèse musicale.
-la réception et la perception des sons

Hormis ses caractéristiques physiques, le son est avant tout une question de
perception.
Ce phénomène fait l’objet d’une science qui étudie la réception du son par notre
système auditif: la psychoacoustique. Les domaines d’investigation de cette
discipline et leur retombées sont nombreuses: acoustique environnementale
(nuisances sonores etc…), design sonore (salle de concert, habitacle d’un
véhicule etc…), mesure et modélisation des sensations sonores (formats et
codecs de diffusion, standards audio etc…). Nous nous interessons ici à ce
dernier aspect.
-la transmission des sons

D’un point de vue de la physique le son est une modification mécanique du
milieu dans lequel il se propage. En pratique il s’agit de micro variations de la
pression de l’air ambiant, ces perturbations ce propagent de proche en proche
sous la forme d’une onde acoustique.
Cette dernière a diverses caractèristiques: intensité, fréquence, rayons sonores,
dispersion etc…
Dans le cadre de l’audio numérique, la transmission sonore se résume à la

transmission de données, nous rappelons ici quelques principes.
1. Quelques notions de psychoacoustique
1.1 définitions
La psychoacoustique rassemble et décrit les relations qui existent entre le
phénomène acoustique physique, la perception que nous permet notre oreille et
la description que nous en faisons.
Le phénomène de la perception audio est complexe dans la mesure où il est en

général associé à un contexte: mémoire, sémantique, spatialité, etc…
L’organisation que nous faisons des évenements sonores tient pour partie du
domaine de la psychologie perceptive.
1.2 domaines d’application

La psychoacoustique couvre de nombreux champs d’application:
-sociologie, marketing: perception et classification des bruits, étude d’impact

des musiques d’ambiance, de publicité, d’annonce...
-urbanisme et environnement: mesures et protection contre la fatigue auditive

au travail, dispositifs de protection sonore…
-ergonomie : systèmes d’aide à la navigation, message d’information ou

d’alarme, reconnaissance des bruits-marins, système experts de
reconnaissance, aide à la décision, aide à la spatialisation
-musique : aide à la composition
-traitement du signal : codage psychoacoustique (MiniDisque de Sony, DCC -

fini-, DAB, MPEG-audio, téléphone cellulaire, INMARSAT...),
-restitution sonore : spatialisation, matériel HIFI...
-multimédia : spatialisation (virtualisation de l’espace sonore) des sources

sonores, richesse de l’environnement sonore des jeux, synthèse musicale...
-physiologie et neurologie : traitement des troubles auditifs
1.3 perception acoustique

La psychoacoustique rend compte de l’ensemble du phénomène perceptif, elle
permet de décrire et de quantifier les diverses composant du son:
- Limites perceptives:
l’oreille humaine perçoit un son pur dans l’intervalle de 20 à 20000 Hz. Cet
intervalle est variable selon les individus et décroit avec l’age.
-Seuil d’audibilité: c’est le seuil en deçà duquel l’oreille ne perçoit pas de son.
Ce seuil est aussi le zéro de l’échelle des décibels (dBa), respectivement des
phones (unité psychoacoustique). La perception des rapports d’intensité sonore
(sonie) varie en proportion logarithmique avec l’échelle en phones.
-Dynamique: la dynamique de l’oreille varie en fonction de la fréquence. Dans
les graves elle est limitée à 50 dB, elle avoisine les 120 dB à 3000 Hz.
-Phénomène de masquage: lorsque le niveau de bruit est trop important

l’oreille ne recoit pas un son pur.
L’étude précise de ce phénomène fait apparaître une bande critique à l’intérieur
de laquelle un son n’est pas masqué. Elle permet de montrer que notre oreille
fonctionne de façon sélective en fonction des fréquences.
Ces observations et la description précise des courbes de masquage trouve une
application directe dans les techniques de numérisation et de compression (voir
plus loin). Il s’agit de décrire précisément à un instant donné la courbe de
masquage du son à traiter.
-Hauteur tonale: la perception de hauteur d’un son est en rapport avec la

périodicité de ce dernier. L’analyse du spectre sonore montre, à l’exception des
sons purs, la présence d’une fréquence fondamentale et celle de plusieurs
partielles.
Pour l’oreille la hauteur des sons est ambigüe à une octave près (confusion
possible entre un La à 440 HZ et à 220Hz). La notion musicale de gamme
illustre bien ce phénomène.
L’oreille subit des déviations de perception en fonction de l’intensité de son et
du niveau du bruit ambiant.
-Perception de l’espace: la disposition de nos oreilles nous permet de

reconstruire une spatialisation de nos perceptions sonores. La distance entre la
source sonore et l’une ou l’autre de nos oreilles n’est pas identique: les sons
perçus sont de ce fait déphasés. Ce phénomène ainsi que l’intensité du son et
les diverses réflexions de l’onde sonore nous permettent de reconstruire
mentalement un espace sonore et de situer une source sonore dans l’espace.
Dans le cadre de la reproduction des sons une restitution spatiale fidèle à
l’original est l’un des problèmes les plus complexes à résoudre.
-Timbre: il s’agit d’une notion très subjective et difficile à mesurer qui prend en
compte les divers aspects du spectre sonore: hauteur, temps d’attaque,
fréquences partielles, harmoniques, durée, modulation…).
Le timbre est ce qui nous permet de reconnaître un instrument d’un autre (voir
chapitre 2)
2. Reproduction sonore, traitement du signal
Sans rentrer dans les détails d’un cours de traitement des signaux, ces
quelques rappels sont incontournables pour comprendre les techniques de
traitement et de transmission d’un signal.
2.1. Captation
La captation d’une source sonore se fait en général à l’aide d’un microphone.
Les surpressions et dépressions locales de l’air, produites par la propagation du
son, produisent des mouvements sur une membrane.
Ces mouvements génèrent un courant électrique par induction magnétique.
C’est ce courant, ou plus précisément ses variations dans le temps qui
constituent le signal.
Le microphone transforme ainsi un signal de pression acoustique en signal

électrique proportionnel à cette pression.
bobine et aimant
d’induction
membrane
courant induit
ondes acoustiques
Schéma de principe d’un microphone dynamique.
Ce type de micro est le plus courant, simple de conception, robuste et fiable il a

en revanche une bande passante limitée de 50 à 18000Hz environ et un niveau
de signal relativement faible.
Hormis le microphone dynamique à bobine décrit ci-dessus, il existe divers

types de microphones qui ont été développés en fonction de besoins
spécifiques mais aussi pour améliorer les performances acoustiques du
procédé.
Il n’y à pas de système optimal, chaque type à ses avantages et inconvénient.
Le choix d’un micro dépend du type de source sonore à enregistrer. Une des
principales caractéristiques des micros est leur directivité. Un micro est en effet
doté d’un angle de prise de son spécifique:
-cardioïde: profondeur de champs faible (2,5m), peu de sons provenant

de l’arrière. C’est le type le plus utilisé en studio ou sur une scène. Il existe
divers dérivés de ce type.
-cardilignes: micro très directionnel qui permet de capturer des sons
distants (animaux, espionnage, etc…).
-omnidirectionnel: ce type de micro capture un son proche de l’écoute
humaine, sur 360°, c’est le micro idéal pour les reportages.
-……
Une autre caractéristique des micros est liée à leur conception technique. Types
de micros:
-microphone à ruban: la membrane est ici remplacée par une lame
métallique en accordéon, ce type de micros est plus sensible au basses
fréquences. Il a une meilleure restitution du timbre. Sa bande passante est en
revanche plus limitée.
-micro électro-statique. ce type de micro a besoin d’une alimentation, il
fonctionne sur le principe d’un condensateur à capacité variable. Ce type de
micro a un niveau de sortie plus élevé que le micro à membrane (5 à 20 fois
selon modèle), il convient pour capturer des sons de très faible intensité. La
bande passante est d’environ 20 à 20’000 Hz pour ce type de micros.
2.2 Signal
L’observation du signal issu d’un microphone à l’aide d’un oscilloscope permet
d’en décrire un certain nombre de caractéristiques, liées à des phénomènes
perceptifs:
-périodicité
La période de signal caractérise la perception de hauteur du son: plus la
période est petite, plus le son perçu est aigu et inversement, plus la période est
grande, plus le son perçu est grave.
fig.- (Illustration Microsoft)
-présence d’une forme d’onde

Dans une certaine mesure, la forme d’onde est caractéristique du timbre du son
perçu. Dans la cas de la parole, c’est le seul critère qui différencie les
phonèmes.
Dans le cas d’un son pur (son fondamental) cette onde a la forme d’une
sinusoïde.
Tout son est en réalité composé d’un son fondamental et d’une série
d’harmoniques. bien que nous ne percevons qu’un ensemble, chaque son
possède une série d’harmoniques propres qui permettent de le distinguer d’un
autre. Ces harmoniques sont propres à chaque instrument de musique: ainsi un
LA (440 hz) présente une forme d’onde caractéristique pour chaque instrument.
fig.- Ondes sonores d'instruments de musique. Les ondes correspondant au

violon, à la flûte et au diapason présentent la même distance de crête à crête
lorsque ces trois instruments jouent la même note. (Illustration Microsoft)
S’agissant de la voix humaine, les harmoniques (empreinte sonore) sont

typiques pour un individu et une langue. Ces propriétés sont bien connues à
travers les recherches menées en reconnaissance et en synthèse vocale.
-amplitude
L’amplitude sonore correspond à l’intensité, elle est mesurée en décibels
acoustiques (dBa). 0 dba correspond à notre seuil d’audition. Le carré de
l’amplitude du signal est proportionnel à la sensation d’intensité sonore.
Quelques valeurs typiques d’intensité sonore:
-dynamique
C’est la différence entre le signal le plus faible et le plus fort admissible par
notre oreille. Celle-ci s’étend de 30 à 140 dBa. La dynamique est variable en
fonction des sources sonores: importante dans un concert classique et à
l’inverse faible dans un concert amplifié. Du point de vue du signal, la
dynamique caractérise qualitativement le support d’enregistrement: plus elle
est élevée plus le rapport signal/bruit est favorable.
2.3 Représentation temps et fréquence
-représentation fréquencielle
Le signal observé à l’aide de l’oscilloscope est une représentation visuelle et
temporelle du phénomène acoustique. Nous avons décrit plus haut les
corrélations entre cette représentation visuelle et les sensations perceptives.
La représentation fréquencielle du signal n’est en revanche qu’un outil

mathématique (transformée de Fourier) qui n’a pas de fondement perceptif.
Cette représentation permet de décomposer le signal selon ses composants
élémentaires: des sons purs qui ont la forme d’une sinusoïde. Elle ne comporte
en revanche aucune indication temporelle.
Tout comme la lumière, le son est constitué par un spectre. L’oreille est
équipée pour l’analyse de ce spectre: elle est constituée de miliers de cellules
spécialisées dans un gamme très sélective de fréquences. La perception sonore
procède d’une analyse du spectre sonore par décomposition en sons
élémentaires. Notre oreille est sensible aux fréquences entre 30 Hz et 16 kHz,
avec un maximum de sensibilité aux alentours de 3 kHz. C’est aux alentours
de cette fréquence que sont situés les sons produits par la voix.
-représentation temps et fréquence
A l’inverse de la représentation fréquencielle d’un signal, qui ne contient aucun
élément de représentation temporelle, une représentation temporelle ne
permet pas de rendre compte de la nature fréquencielle du son.
On a donc cherché un moyen de représentation hybride à même de rendre
compte de ces deux aspects d’un signal.
La portée musicale est la plus ancienne tentative de représentation fréquence-

temps: la durée est représentée horizontalement et la fréquence (hauteur des
notes) verticalement. Cette forme de représentation ne contient aucune
indication sur le timbre et sur la répartition spectrale d’un son.
Le spectrogramme est une représentation plus complète qui contient de

nombreuses informations visuelles, c’est un instrument d’analyse du son:
-la discontinuité du signal est visible (silences et clics).
-un son percussif ou non laisse des traces différentes et identifiables
-les bruits (souffle, chuintement…) sont visuellement identifiables.
-…
Exemples de sonogrammes (CD-rom atelier IRCAM, 10 jeux d’écoute)
flûte
guimbarde
2.4 Numérisation
Pour rendre un son éditable sur un système informatique, mais aussi pour le
stocker et le transmettre, il faut opérer une conversion du signal analogique
fourni par le microphone en un signal numérique. La numérisation offre de
nombreux intérêts: copies sans pertes, traitement plus facile qu’en analogique…
et quelques inconvénients liés au volume considérable des données et à la
compatibilité des formats.
La numérisation est réalisée en deux étapes: l’échantillonage et la

quantification.
-échantillonage
Cette étape permet de passer d’un signal continu en une suite de valeurs
mesurées à intervalles réguliers. Cette mesure d’un signal se nomme
échantillon. La période d’échantillonage (en secondes) est l’intervalle de temps
qui sépare deux mesures. La fréquence (en Hz) est l’inverse de la période
d’échantillonage.
La reconstruction d’un signal caractérisé par des échantillons n’est possible que
si la période d’échantillonage est assez fine. En théorie on évite que les
échantillons se superposent (anti-aliasing). Il suffit, pour un signal à bande
limitée, et c’est en général le cas d’un signal capté par un microphone, que la
fréquence d’échantillonage soit supérieure à deux fois la bande utile du signal.
En pratique, le signal audio est limité par notre perception à 16kHz, en

conséquence la fréquence d’échantillonage doit être supérieure à 32kHz.
Pour que le signal audio se conforme à ce théorème, il faut le filtrer pour
éliminer ses composantes haute fréquence. La mise en œuvre de filtres
analogiques est relativement complexe et onéreuse.
C’est pour cela qu’on déplace dans la pratique ce problème vers le numérique,
où il est plus facile à régler, en sur-échantillonant le signal (par ex. les 44.1kHz
du CD-audio).
La qualité de l’échantillonage sonore dépend essentiellement de la qualité des

filtres mis en œuvre, lors de la restitution (qui est une conversion numérique-
analogique) un filtrage est également nécessaire pour éliminer les
composantes nuisibles induites par le convertisseur.
-quantification
Cette étape de la numérisation consiste à remplacer un nombre réel par l’entier
le plus proche (arrondi). La quantification la plus couramment utilisée en audio
grand public est de type linéaire, son pas est en rapport avec le nombre de bits
alloués à l’opération (q=2N, n=nbr de bits). La transmission de la parole en
téléphonie numérique utilise une quantification de type vectoriel.
La quantification à l’inconvénient d’ajouter du bruit dans le signal. Celui-ci est

en théorie uniformément réparti sur toutes les fréquences (bruit blanc). La
puissance du bruit généré par la quantification est proportionnelle au carré du
pas de quantification (I=q2 /12).
La dynamique d’un support (rapport signal/bruit) exprime le rapport entre la

puissance du bruit de fond et celle du signal le plus fort qu’il est possible
d’enregistrer sans distorsion sur ce support. Pour la quantification linéaire, un
rapport simple exprime la dynamique théorique en décibels: 6xN, N étant le
nombre de bits sur lequel s’est faite la quantification (ex. le CD-audio à une
dynamique théorique de 6x16bits=96dB).
-reproduction et spatialisation
Le meilleur procédé de captation et de numérisation possible ne suffit pas pour
restituer fidèlement un phénomène acoustique.
Ce problème est lié à la spatialisation de l’onde sonore, en effet, il n’existe
pas, à ce jour de système de sonorisation capable de restituer fidèlement le
champ acoustique d’une ou de plusieurs sources sonores.
Cela est dû au fait que les dispositifs de captation (micro) et de restitution
(haut-parleurs) ont leur propre diagramme de directivité (direction privilégiée de
propagation du son) et qu’il n’y a pas de corrélation possible entre ces
diagrammes et ceux, spécifiques à chaque type d’instrument de musique ou de
source d’émission sonore en général.
Dans la pratique, il existe bien des tentatives d’approcher une restitution

spatiale idéale en multipilant les sources d’émission ou le nombre des pistes
audios: stéréophonie, quadriphonie, Dolby Surround etc…
Malgré cela il n’est pas possible d’avoir une restitution parfaite dans la mesure
où nous percevons la directivité des systèmes mis en œuvre et non celle propre
à chaque instrument.
3.synthèse sonore
3.1 modélisation
C’est une étape préalable au développement de tout système d’encodage ou
de restitution synthétique des sons. La modélisation permet de comprendre la
nature des signaux acoustiques puis de trouver des représentations efficaces
pour la transmission, le stockage, la compression…
Ce modèle de représentation conceptuel découle d’une étape d’analyse des

phénomènes et de leur réduction à un certain nombre de paramètres. En
psychoacoustique ces paramètres ce nomment signaux de contrôle.
Mis à part le cas de la numérisation d’une source sonore, la construction d’un

modèle est une démarche très complexe qui doit prendre en compte un nombre
important de paramètres. Si quelques-uns de ces paramètres sont quantifiables
(fréquence, intensité,…) la plus grande partie est d’ordre subjectif.
La synthèse consiste ensuite à appliquer et à vérifier, ces paramètres. Quelle

que soit la précision du modèle, il y a toujours une différence entre une
synthèse et l’original, celle ci est appelée erreur de modélisation. Dans la
pratique il s’agit de trouver un compromis entre la complexité du modèle
(nombre de paramètres pris en compte) et la fidélité de la synthèse.
Quelques exemples d’application de la modélisation:

-partition musicale: c’est la tentative de modélisation la plus ancienne du son.
Ce modèle ne tient en revanche pas compte des facteurs d’interprétation.
L’erreur de modélisation est importante.
-audio numérique: le signal analogique est converti en signal numérisé

(analyse) puis restitué analogiquement (synthèse). C’est le modèle le plus
simple à mettre en œuvre. Ici l’erreur de modélisation est essentiellement due
au bruit de quantification (voir échantillonage).
-synthèse vocale: un modèle de reconnaissance de la parole (dit speech-to-

text) ne prend pas en compte les nuances d’expression. Dans ce type de
modèle l’écart entre le modèle et l’original est dû à des ambigüités
sémantiques.
La modélisation de la voix est une opération très complexe qui fait intervenir
des connaissances sémantiques: celles-ci sont très difficiles à modéliser.
3.2 synthèse
La synthèse de sons intéresse au moins trois domaines: la production musicale,
la synthèse vocale, le codage des télécommunications. Nous pouvons
également distinguer trois types de synthèse:
-Synthèse par modèle physique: il s’agit ici de modéliser un système de

production du son (instrument de musique, système phonatoire humain). Ce
type de modèle est très complexe à mettre en œuvre et fait appel à des
compétences touchant de nombreux domaines: acoustique, mécanique,
automatique, traitement du signal…
-Synthèse par modèle de signaux: ici le son est reconstitué à partir

d’échantillons sonores enregistrés au préalable. Les sons sont décomposés en
phases distinctes: attaque (en anglais:attack), stabilisation du son (decay),
régime continu (sustain), décroissance (release). les caractèristiques en durée
en intensité, etc… de ces quatre phases sont autant de paramètres de définition
de l’enveloppe du son. On retrouve ces notions dans le format MIDI (voir plus
loin). Les sons sont reproduits par un échantillonneur selon diverses méthodes
(soustractive, additive…).
-Synthèse par modulation de fréquence: dans cette méthode qui consiste

à moduler la fréquence produite par un oscillateur, les contrôles possibles sont
très génériques. Exemple d’utilisation; le synthétiseur DX7 de Yamaha.
-Synthèse par modèle psychoacoustique: ce type de modèle n’a pas

d’application musicale, il est utilisé pour le traitement et le stockage des
signaux. les algorithmes de compression et d’encodage reposent sur ce
modèle. (MPEG-audio, miniDisc, musiCam…).
4.codage et compression audio-numérique

4.1 principe
Le but d’une compression est d’optimiser les données, de réduire le débit
d’informations binaires, tout en conservant une qualité sonore la plus élevée
possible.
Dans le cas de l’audio numérique le flux de données est considérable: une

minute de données audio en qualité CD (16bits, 44.1kHz) représente env. 1 Mo
de données. Une compression de ces dernières s’avère indispensable pour le
stockage et la transmission.
Les codecs de compression audio fonctionnent selon divers modes qui

s’appuient tous sur des études de psychoacoustiques de l’oreille humaine.
Il est en effet indispensable de comprendre le fonctionnement de notre
système auditif pour pouvoir développer des techniques audionumériques.
Ces connaissances permettent de développer un modèle de représentation du
phénomene audio.
Le développement de ce modèle mathématique du fonctionnement de l’oreille

tient par exemple compte de la relation non linéaire entre la fréquence d’un son
et la tonie perçue.
Exemple:
source:http://www.crc.ca
4.2 procédés
Il ne s’agit pas ici d’expliquer dans le détail le fonctionnement et la mise en

œuvre des algorithmes de codage mais de décrire succintement leur principe de
fonctionnement.
-masque
La majorité des codeurs audio exploitent le phénomène de masquage de
l’oreille humaine. En pratique un codeur audio utilise des modèles
psychoacoustiques pour déterminer les composantes inaudibles du signal, ce
qui revient à éliminer ce que nous n’entendons pas.
Techniquement il s’agit de déterminer une largeur de bande critique à l’intérieur
de laquelle un son ne peut pas être masqué. La difficulté de cette opération
provient du fait que cette largeur de bande n’est pas constante: exprimée selon
une échelle mesurée en Mels ou en Barks, elle varie dans une proportion
logarithmique avec la fréquece dès 1kH. Notre oreille a une sensibilité
perceptive variable en fonction de la fréquence. D’autre part le masquage est
variable selon le contenu sonore.
source: http://www.emi.u-bordeaux.fr
Le codage basé sur l’effet de masque tient compte de cette courbe en

procédant à une allocation dynamique des bits (voir plus haut le rapport
signal/bruit) de l’échantillonnage en fonction de la fréquence. Cette technique
permet d’adapter localement l’échantillonnage tout en minimisant le bruit de
quantification. Le codeur s’appuie sur une bibliothèque (base de données)
comprenant des schémas de quantification adaptés au contenu.
Par exemple, le modèle 1 de la norme ISO-MPEG-AUDIO, qui permet un

rapport de compression de l'ordre de 6, procède par une mesure à intervalles
réguliers (24 ms). Le spectre obtenu permet de définir une courbe de
masquage pour chacune des mesures et, après synthèse de toutes les courbes,
on obtient une courbe globale indiquant pour chaque fréquence la quantité de
bruit de quantification maximale inaudible.
C’est ce type de codage qui est mis en œuvre dans le format miniDisk, en
téléphonie mobile, en radio numérique, dans les formats MPEG-audio etc…
fig.- le masquage fréquenciel (utilisé par l’algorithme MP3)
-joint stéréo
une autre technique issue du modèle psychoacoustuique consite à enregistrer
certaines fréquences en mono. Notre oreille est en effet incapable, au-dessous
de certaines fréquences, de déterminer l’origine spatiale d’un son. Cette
technique est notammant exploitée par le format MP 3.
-le code Huffman

cette technique de codage intervient après la compression en créant des blocs
d’information de longueur variable qui, par tables de correspondance permet de
minimiser les redondances.
4.3 formats audios numériques

Les formats sont nombreux et pour la plus grande partie liés à une utilisation
spécifique, respectivement à un support dédié:
-supports audio
-DAT: digital audio tape, échantillonage de 44.1 à 48 kHz sur 16bits, 2 pistes,
rapport s/b 96dB
-LD DD: laser-disc dolby (disparu!), échantillonage à 48 kHz sur 20bits, 5

pistes, rapport s/b 90dB
-CD-audio: échantillonage à 44.1 sur 16bits, 2 pistes, rapport s/b 96dB
-GSM:échantillonage à 8 kHz sur 8bits, 1 pistes, rapport s/b 55dB
-MD, miniDisc:échantillonage à 44.1 kHz sur 16bits, 2 pistes, rapport s/b 100dB
-……
-formats audio
Le MIDI (Musical Instruments Digital Interface):
n’est pas à proprement parler un format audio mais un système complèt
d’interface et d’édition numérique.
Un document MIDI contient une description d’un morceau de musique sous la
forme d’une partition. Celle-ci inclu des indications sur la hauteur, la durée, la
modulation, etc… ainsi que l’attribution d’un instrument.
Le document midi est un format texte, il est donc extrèmement compact. les
informations qu’il contient permettent de synthétiser la musique sur tout
instrument conforme à cette norme: synthé, piano etc… ou en recourant à un
synthétiseur du type quick-time.
Le format midi offre une altérnative à la diffusion de musique. La qualité de

reproduction du morceau est liée au synthétiseur utilisé.
Un éditeur midi permet de trvailler directement sur la partition musicale.
-les fichiers audio

les formats audio sont en général du type auto-décrit, c’est à dire que le fichier
contient un en-tête qui décrit les partucalrités du codage (échantillonage, nbr de
cannaux, type de compression…etc). Formats:
-wave (.wav) est le format natif des systèmes Windows, caractéristiques

identiques à l’AIFF
-µLaw (.au) est le format audio UNIX, il est codé sur 8 bits, la qualité audio est
réduite.
-AIFF (AudioInterchangeFileFormat /.aif) est à l’origine développé par Apple, ce

format permet une grande varièté de codage de fréquences et résolutions
d’échantillonage.
-les formats hybrides:

-Quick-Time, méta-format Apple qui permet d’encapsuler, de compresser et
d’interfacer l’accès à divers types de média permet de lire et de traiter les
formats les plus courants: AIFF, WAV, AU, MP3, etc…
-MOD (.mod) ce format est proche du MIDI dans son principe à la différence
près qu’il inclus les échantillons sonores utilisés dans la partition.
-Rich music Format (.rmf), développé par Headspace pour la diffusion web, ce
format permet d’encapsuler les échantillons audio, les données MIDI et les
données d’arrangement à l’intérieur d’un seul fichier. La restitution est faite par
un plug-in (beatnik).
-les formats compressés

ce sont en principe des fichiers de type AIF, WAV ou AU auquel on à appliqué un
algorithme de compression. Les trois principales normes de codecs sont:
-MACE: très rapide, elle ne demande pas beaucoup de ressources processeur.

Facteurs de compression de 3:1 ou 6:1, la qualité réduite, seuls les fichiers 8
bits sont supportés.
-MPEG audio: (mp2, mp3) cette norme garantit une bonne qualité et permet
des taux de compression importants allant j’usque à un facteur de 12:1.
-IMA: solution intermédiaire entre les deux premières, le ratio de compression
est de 4:1 et l’encodage est possible sur 8 ou 16 bits.

Cours (Audio Numérique)

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cours (Audio Numérique)

Încărcat de

Drepturi de autor:

Formate disponibile

module i325

1. Quelques notions de psychoacoustique

2. Reproduction sonore, traitement du signal

4.codage et compression audio-numérique

-la production et la reproduction sonore

-la réception et la perception des sons

-la transmission des sons

Dans le cadre de l’audio numérique, la transmission sonore se résume à la

Le phénomène de la perception audio est complexe dans la mesure où il est en

1.2 domaines d’application

-sociologie, marketing: perception et classification des bruits, étude d’impact

-urbanisme et environnement: mesures et protection contre la fatigue auditive

-ergonomie : systèmes d’aide à la navigation, message d’information ou

-musique : aide à la composition

-traitement du signal : codage psychoacoustique (MiniDisque de Sony, DCC -

-restitution sonore : spatialisation, matériel HIFI...

-multimédia : spatialisation (virtualisation de l’espace sonore) des sources

-physiologie et neurologie : traitement des troubles auditifs

1.3 perception acoustique

-Phénomène de masquage: lorsque le niveau de bruit est trop important

-Hauteur tonale: la perception de hauteur d’un son est en rapport avec la

-Perception de l’espace: la disposition de nos oreilles nous permet de

Le microphone transforme ainsi un signal de pression acoustique en signal

Schéma de principe d’un microphone dynamique.

Ce type de micro est le plus courant, simple de conception, robuste et fiable il a

Hormis le microphone dynamique à bobine décrit ci-dessus, il existe divers

-cardioïde: profondeur de champs faible (2,5m), peu de sons provenant

fig.- (Illustration Microsoft)

-présence d’une forme d’onde

fig.- Ondes sonores d'instruments de musique. Les ondes correspondant au

S’agissant de la voix humaine, les harmoniques (empreinte sonore) sont

2.3 Représentation temps et fréquence

La représentation fréquencielle du signal n’est en revanche qu’un outil

La portée musicale est la plus ancienne tentative de représentation fréquence-

Le spectrogramme est une représentation plus complète qui contient de

Exemples de sonogrammes (CD-rom atelier IRCAM, 10 jeux d’écoute)

La numérisation est réalisée en deux étapes: l’échantillonage et la

En pratique, le signal audio est limité par notre perception à 16kHz, en

La qualité de l’échantillonage sonore dépend essentiellement de la qualité des

La quantification à l’inconvénient d’ajouter du bruit dans le signal. Celui-ci est

La dynamique d’un support (rapport signal/bruit) exprime le rapport entre la

Dans la pratique, il existe bien des tentatives d’approcher une restitution

Ce modèle de représentation conceptuel découle d’une étape d’analyse des

Mis à part le cas de la numérisation d’une source sonore, la construction d’un

La synthèse consiste ensuite à appliquer et à vérifier, ces paramètres. Quelle

Quelques exemples d’application de la modélisation:

-audio numérique: le signal analogique est converti en signal numérisé

-synthèse vocale: un modèle de reconnaissance de la parole (dit speech-to-

-Synthèse par modèle physique: il s’agit ici de modéliser un système de

-Synthèse par modèle de signaux: ici le son est reconstitué à partir

-Synthèse par modulation de fréquence: dans cette méthode qui consiste

-Synthèse par modèle psychoacoustique: ce type de modèle n’a pas

4.codage et compression audio-numérique

Dans le cas de l’audio numérique le flux de données est considérable: une

Les codecs de compression audio fonctionnent selon divers modes qui

Le développement de ce modèle mathématique du fonctionnement de l’oreille

Il ne s’agit pas ici d’expliquer dans le détail le fonctionnement et la mise en

Le codage basé sur l’effet de masque tient compte de cette courbe en

Par exemple, le modèle 1 de la norme ISO-MPEG-AUDIO, qui permet un

-le code Huffman

4.3 formats audios numériques

-LD DD: laser-disc dolby (disparu!), échantillonage à 48 kHz sur 20bits, 5

-CD-audio: échantillonage à 44.1 sur 16bits, 2 pistes, rapport s/b 96dB