Documente Academic
Documente Profesional
Documente Cultură
cours 5:
Audio numérique
Dominique Burki
sommaire
0. Introduction
-la production et la reproduction sonore
-la réception et la perception des sons
-la transmission des sons
3.synthèse sonore
3.1 modélisation
3.2 synthèse: modèles et procédés
3.3 synthèse: dispositifs
1.1 définitions
La psychoacoustique rassemble et décrit les relations qui existent entre le
phénomène acoustique physique, la perception que nous permet notre oreille et
la description que nous en faisons.
L’organisation que nous faisons des évenements sonores tient pour partie du
domaine de la psychologie perceptive.
- Limites perceptives:
l’oreille humaine perçoit un son pur dans l’intervalle de 20 à 20000 Hz. Cet
intervalle est variable selon les individus et décroit avec l’age.
-Seuil d’audibilité: c’est le seuil en deçà duquel l’oreille ne perçoit pas de son.
Ce seuil est aussi le zéro de l’échelle des décibels (dBa), respectivement des
phones (unité psychoacoustique). La perception des rapports d’intensité sonore
(sonie) varie en proportion logarithmique avec l’échelle en phones.
-Dynamique: la dynamique de l’oreille varie en fonction de la fréquence. Dans
les graves elle est limitée à 50 dB, elle avoisine les 120 dB à 3000 Hz.
-Timbre: il s’agit d’une notion très subjective et difficile à mesurer qui prend en
compte les divers aspects du spectre sonore: hauteur, temps d’attaque,
fréquences partielles, harmoniques, durée, modulation…).
Le timbre est ce qui nous permet de reconnaître un instrument d’un autre (voir
chapitre 2)
2. Reproduction sonore, traitement du signal
Sans rentrer dans les détails d’un cours de traitement des signaux, ces
quelques rappels sont incontournables pour comprendre les techniques de
traitement et de transmission d’un signal.
2.1. Captation
La captation d’une source sonore se fait en général à l’aide d’un microphone.
Les surpressions et dépressions locales de l’air, produites par la propagation du
son, produisent des mouvements sur une membrane.
Ces mouvements génèrent un courant électrique par induction magnétique.
C’est ce courant, ou plus précisément ses variations dans le temps qui
constituent le signal.
bobine et aimant
d’induction
membrane
courant induit
ondes acoustiques
Une autre caractéristique des micros est liée à leur conception technique. Types
de micros:
-microphone à ruban: la membrane est ici remplacée par une lame
métallique en accordéon, ce type de micros est plus sensible au basses
fréquences. Il a une meilleure restitution du timbre. Sa bande passante est en
revanche plus limitée.
-micro électro-statique. ce type de micro a besoin d’une alimentation, il
fonctionne sur le principe d’un condensateur à capacité variable. Ce type de
micro a un niveau de sortie plus élevé que le micro à membrane (5 à 20 fois
selon modèle), il convient pour capturer des sons de très faible intensité. La
bande passante est d’environ 20 à 20’000 Hz pour ce type de micros.
2.2 Signal
L’observation du signal issu d’un microphone à l’aide d’un oscilloscope permet
d’en décrire un certain nombre de caractéristiques, liées à des phénomènes
perceptifs:
-périodicité
La période de signal caractérise la perception de hauteur du son: plus la
période est petite, plus le son perçu est aigu et inversement, plus la période est
grande, plus le son perçu est grave.
-amplitude
L’amplitude sonore correspond à l’intensité, elle est mesurée en décibels
acoustiques (dBa). 0 dba correspond à notre seuil d’audition. Le carré de
l’amplitude du signal est proportionnel à la sensation d’intensité sonore.
Quelques valeurs typiques d’intensité sonore:
-dynamique
C’est la différence entre le signal le plus faible et le plus fort admissible par
notre oreille. Celle-ci s’étend de 30 à 140 dBa. La dynamique est variable en
fonction des sources sonores: importante dans un concert classique et à
l’inverse faible dans un concert amplifié. Du point de vue du signal, la
dynamique caractérise qualitativement le support d’enregistrement: plus elle
est élevée plus le rapport signal/bruit est favorable.
-représentation fréquencielle
Le signal observé à l’aide de l’oscilloscope est une représentation visuelle et
temporelle du phénomène acoustique. Nous avons décrit plus haut les
corrélations entre cette représentation visuelle et les sensations perceptives.
Tout comme la lumière, le son est constitué par un spectre. L’oreille est
équipée pour l’analyse de ce spectre: elle est constituée de miliers de cellules
spécialisées dans un gamme très sélective de fréquences. La perception sonore
procède d’une analyse du spectre sonore par décomposition en sons
élémentaires. Notre oreille est sensible aux fréquences entre 30 Hz et 16 kHz,
avec un maximum de sensibilité aux alentours de 3 kHz. C’est aux alentours
de cette fréquence que sont situés les sons produits par la voix.
-représentation temps et fréquence
A l’inverse de la représentation fréquencielle d’un signal, qui ne contient aucun
élément de représentation temporelle, une représentation temporelle ne
permet pas de rendre compte de la nature fréquencielle du son.
On a donc cherché un moyen de représentation hybride à même de rendre
compte de ces deux aspects d’un signal.
flûte
guimbarde
2.4 Numérisation
Pour rendre un son éditable sur un système informatique, mais aussi pour le
stocker et le transmettre, il faut opérer une conversion du signal analogique
fourni par le microphone en un signal numérique. La numérisation offre de
nombreux intérêts: copies sans pertes, traitement plus facile qu’en analogique…
et quelques inconvénients liés au volume considérable des données et à la
compatibilité des formats.
-échantillonage
Cette étape permet de passer d’un signal continu en une suite de valeurs
mesurées à intervalles réguliers. Cette mesure d’un signal se nomme
échantillon. La période d’échantillonage (en secondes) est l’intervalle de temps
qui sépare deux mesures. La fréquence (en Hz) est l’inverse de la période
d’échantillonage.
La reconstruction d’un signal caractérisé par des échantillons n’est possible que
si la période d’échantillonage est assez fine. En théorie on évite que les
échantillons se superposent (anti-aliasing). Il suffit, pour un signal à bande
limitée, et c’est en général le cas d’un signal capté par un microphone, que la
fréquence d’échantillonage soit supérieure à deux fois la bande utile du signal.
-quantification
Cette étape de la numérisation consiste à remplacer un nombre réel par l’entier
le plus proche (arrondi). La quantification la plus couramment utilisée en audio
grand public est de type linéaire, son pas est en rapport avec le nombre de bits
alloués à l’opération (q=2N, n=nbr de bits). La transmission de la parole en
téléphonie numérique utilise une quantification de type vectoriel.
-reproduction et spatialisation
Le meilleur procédé de captation et de numérisation possible ne suffit pas pour
restituer fidèlement un phénomène acoustique.
Ce problème est lié à la spatialisation de l’onde sonore, en effet, il n’existe
pas, à ce jour de système de sonorisation capable de restituer fidèlement le
champ acoustique d’une ou de plusieurs sources sonores.
Cela est dû au fait que les dispositifs de captation (micro) et de restitution
(haut-parleurs) ont leur propre diagramme de directivité (direction privilégiée de
propagation du son) et qu’il n’y a pas de corrélation possible entre ces
diagrammes et ceux, spécifiques à chaque type d’instrument de musique ou de
source d’émission sonore en général.
3.synthèse sonore
3.1 modélisation
C’est une étape préalable au développement de tout système d’encodage ou
de restitution synthétique des sons. La modélisation permet de comprendre la
nature des signaux acoustiques puis de trouver des représentations efficaces
pour la transmission, le stockage, la compression…
3.2 synthèse
La synthèse de sons intéresse au moins trois domaines: la production musicale,
la synthèse vocale, le codage des télécommunications. Nous pouvons
également distinguer trois types de synthèse:
Exemple:
source:http://www.crc.ca
4.2 procédés
-masque
La majorité des codeurs audio exploitent le phénomène de masquage de
l’oreille humaine. En pratique un codeur audio utilise des modèles
psychoacoustiques pour déterminer les composantes inaudibles du signal, ce
qui revient à éliminer ce que nous n’entendons pas.
Techniquement il s’agit de déterminer une largeur de bande critique à l’intérieur
de laquelle un son ne peut pas être masqué. La difficulté de cette opération
provient du fait que cette largeur de bande n’est pas constante: exprimée selon
une échelle mesurée en Mels ou en Barks, elle varie dans une proportion
logarithmique avec la fréquece dès 1kH. Notre oreille a une sensibilité
perceptive variable en fonction de la fréquence. D’autre part le masquage est
variable selon le contenu sonore.
source: http://www.emi.u-bordeaux.fr
C’est ce type de codage qui est mis en œuvre dans le format miniDisk, en
téléphonie mobile, en radio numérique, dans les formats MPEG-audio etc…
fig.- le masquage fréquenciel (utilisé par l’algorithme MP3)
-joint stéréo
une autre technique issue du modèle psychoacoustuique consite à enregistrer
certaines fréquences en mono. Notre oreille est en effet incapable, au-dessous
de certaines fréquences, de déterminer l’origine spatiale d’un son. Cette
technique est notammant exploitée par le format MP 3.
-supports audio
-DAT: digital audio tape, échantillonage de 44.1 à 48 kHz sur 16bits, 2 pistes,
rapport s/b 96dB
-MD, miniDisc:échantillonage à 44.1 kHz sur 16bits, 2 pistes, rapport s/b 100dB
-……
-formats audio
Le MIDI (Musical Instruments Digital Interface):
n’est pas à proprement parler un format audio mais un système complèt
d’interface et d’édition numérique.
Un document MIDI contient une description d’un morceau de musique sous la
forme d’une partition. Celle-ci inclu des indications sur la hauteur, la durée, la
modulation, etc… ainsi que l’attribution d’un instrument.
Le document midi est un format texte, il est donc extrèmement compact. les
informations qu’il contient permettent de synthétiser la musique sur tout
instrument conforme à cette norme: synthé, piano etc… ou en recourant à un
synthétiseur du type quick-time.
-µLaw (.au) est le format audio UNIX, il est codé sur 8 bits, la qualité audio est
réduite.
-MOD (.mod) ce format est proche du MIDI dans son principe à la différence
près qu’il inclus les échantillons sonores utilisés dans la partition.
-Rich music Format (.rmf), développé par Headspace pour la diffusion web, ce
format permet d’encapsuler les échantillons audio, les données MIDI et les
données d’arrangement à l’intérieur d’un seul fichier. La restitution est faite par
un plug-in (beatnik).
-MPEG audio: (mp2, mp3) cette norme garantit une bonne qualité et permet
des taux de compression importants allant j’usque à un facteur de 12:1.
-IMA: solution intermédiaire entre les deux premières, le ratio de compression
est de 4:1 et l’encodage est possible sur 8 ou 16 bits.