Documente Academic
Documente Profesional
Documente Cultură
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Tlcoms TE 5 360 1
COMPRESSIONS MPEG-1 MPEG-4 _______________________________________________________________________________________________________
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
TE 5 360 2 Techniques de lIngnieur, trait Tlcoms
_______________________________________________________________________________________________________ COMPRESSIONS MPEG-1 MPEG-4
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Tlcoms TE 5 360 3
COMPRESSIONS MPEG-1 MPEG-4 _______________________________________________________________________________________________________
1.1.1.3 Quantification
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
TE 5 360 4 Techniques de lIngnieur, trait Tlcoms
_______________________________________________________________________________________________________ COMPRESSIONS MPEG-1 MPEG-4
quant 1 [ AC ( u, v ) ]
Zone morte ( 3 mquant // 4 en intra) : cette valeur correspond (0, 4), (1, 8), (1, 1), (0, 7), (2, 11), (EOB)
ce qui est communment appel la zone morte. Ce dcalage dans Chaque couple est ensuite cod dans le flux par son mot corres-
la courbe de quantification permet dobtenir un nombre plus impor- pondant dans la table VLC. Si le couple ne fait pas partie de la table,
tant de coefficients nuls aprs quantification, et donc de diminuer la un mot de code spcifique est envoy (Escape Code), suivi de la
quantit dinformation coder. longueur sur 6 bits et de la valeur sur 12 bits.
DC : chaque coefficient DC est cod en mode diffrentiel (codage Lestimation de mouvement (figure 6) : en rgle gnrale, le
de la diffrence) par rapport au coefficient DC prcdent dans mouvement dans une squence vido ne peut pas se modliser par
lordre de transmission. La valeur de la diffrence est code en deux un seul vecteur (sauf dans le cas dun panning simple). A chaque
mots : le premier reprsente la taille (maximum de 8 12 selon la macrobloc de limage, on associe donc une information de mouve-
prcision de codage choisie) et le second donne la valeur code sur ment. Dans les normes MPEG, seuls les mouvements de type trans-
le nombre de bits correspondant la taille. lation sont modliss : lutilisation de mouvements de type
homothtie ou rotation namliore pas suffisamment les performan-
AC : le tableau bidimensionnel issu du processus de quantifi- ces de compression en regard de la complexit quils induisent dans
cation est dabord transform en tableau monodimensionnel en res- les systmes de compression et dcompression. Lopration desti-
pectant lordre dcrit dans la figure 4. mation de mouvement permet de dterminer dans limage de rf-
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Tlcoms TE 5 360 5
COMPRESSIONS MPEG-1 MPEG-4 _______________________________________________________________________________________________________
a codeur Intra
b dcodeur Intra
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
TE 5 360 6 Techniques de lIngnieur, trait Tlcoms
_______________________________________________________________________________________________________ COMPRESSIONS MPEG-1 MPEG-4
Ordre d'entre
B1 B2 I3 B4 B5 P6 B7 B8 P9
I3 B1 B2 P6 B4 B5 P9 B7 B8
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Tlcoms TE 5 360 7
COMPRESSIONS MPEG-1 MPEG-4 _______________________________________________________________________________________________________
a codeur Inter
Flux MPEG
Quantification DCT Formatage des
VLD Sortie vido
inverse inverse donnes
Vecteurs
Compensation
mouvement
de mouvement
Mmoires
d'images
b dcodeur Inter
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
TE 5 360 8 Techniques de lIngnieur, trait Tlcoms
_______________________________________________________________________________________________________ COMPRESSIONS MPEG-1 MPEG-4
Rgulation de
l'occupation
Canal de
mmoire
transmission
Entre Sortie
vido vido
Codage des Mmoire Mmoire Dcodage des
macroblocs tampon tampon macroblocs
a application de transmission
Sortie
Entre
vido
vido
Codage des Systme de Mmoire Dcodage des
macroblocs stockage tampon macroblocs
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Tlcoms TE 5 360 9
COMPRESSIONS MPEG-1 MPEG-4 _______________________________________________________________________________________________________
En rgle gnrale, le processus de rgulation de mmoire tampon chacun, diffrents contextes et diffrents modes de prdiction. Tous
alloue pour chaque lment syntaxique un certain nombre de bits. ces cas sont dcrits dans [3].
Le choix du pas de quantification ne suffit gnralement pas Pour rsumer, mentionnons tout de mme que, comme pour le
respecter parfaitement cet objectif. Une raction est donc nces- codage de texture, linformation de contour peut tre code, suivant
saire dans la suite du codage pour rectifier cette divergence : si le les images et suivant les BAB, soit en mode Intra, soit en mode Inter
codeur a produit trop de bits par rapport lobjectif, on augmentera aprs compensation de mouvement. Les vecteurs mouvements
le pas de quantification et inversement pour une dpense de bits utiliss pour la compensation, suivant les modes et les types de
insuffisante. BAB, sont dtermins partir des vecteurs mouvements utiliss
Le processus de rgulation qui permet de dterminer la valeur du pour la compensation de texture, et/ou partir de vecteurs mouve-
pas de quantification chaque macrobloc nest pas normalis, ment de contours, calculs et transmis spcifiquement cet effet. Le
chaque constructeur de codeur adoptant sa solution propre. On contexte de chaque pixel est calcul en utilisant des formules spci-
trouvera nanmoins un exemple reprsentatif de cet algorithme fiques au type de BAB, en tenant compte des valeurs des voisins et
dans le Test Model de la norme MPEG-2 [4]. des valeurs prdites dans le cas Inter. Le symbole transmis dans le
flux, encod par codage arithmtique, permet de dterminer la
valeur du pixel en le combinant avec celle de son contexte, suivant
1.1.5 Techniques objet des tables spcifiques au type du BAB.
Enfin, avant codage, le plan alpha peut tre sous-chantillonn
Avec larrive des nouvelles applications dans le domaine du (par un facteur 2 ou 4). Ainsi, il sera cod ds le dpart avec pertes,
multimdia, les vidos sont dsormais parfois des visualisations de mais de faon moins coteuse. Cette information est envoye au
scnes comportant des objets anims avec lesquels le spectateur dcodeur, qui le surchantillonne de manire symtrique aprs
peut interagir. Pour tre capable de grer la transmission de tels dcodage.
contenus de faon optimale, MPEG a d intgrer de nouveaux
outils. Nous dtaillons dans ce paragraphe les deux plus novateurs : 1.1.5.2 Sprites
le codage de contours et le codage par sprites. Les considrations
plus globales sur lutilisation et la gestion dobjets, telles quelles La notion de sprite provient des tout premiers jeux vidos, o un
ont t dfinies par MPEG-4, seront exposes au paragraphe 2.3. sprite tait une imagette leffigie de lun des personnages. Son
dplacement dans limage, associ de lgres dformations,
donnait lillusion de la vie du personnage. Dans MPEG, cette ide est
1.1.5.1 Codage de contours reprise de faon lgrement diffrente. Un sprite y est dfini comme
Pour coder un contour dobjet, la donne dentre nest plus une une grande image compose de tous les pixels dun objet donn
squence dimages YUV, mais une squence de plans alphas visibles un moment ou un autre de la squence (figure 12). Par
(cf. 2.3.5.1), images binaires valant 1 l o lobjet est prsent et 0 exemple, un sprite dobjet fond pourra tre une vue panora-
ailleurs. Aussi curieux que cela puisse paratre, MPEG a de nouveau mique dun paysage sans les personnages passant au premier plan.
choisi une mthode base sur une dcoupe en blocs de ces images Le sprite tant une image fixe, il est cod par DCT, suivant la tech-
pour leur codage : le CAE (Context Arithmetic Encoder ou codage nique Intra classique dcrite au paragraphe 1.1.1. Les donnes
arithmtique de contexte). Cette approche a t prfre aux techni- binaires rsultantes sont envoyes en dbut de flux afin dtre
ques de type spline ou chain code, car elle offre une trs bonne effi- disponibles ds la premire image de la squence. A chaque image,
cacit en compression tout en sintgrant facilement au schma de on inclut ensuite dans le bitstream les paramtres permettant de
codage/dcodage MPEG existant. Dans chaque bloc 16 16 slectionner et dformer la partie du sprite adquate, afin de
dnomm BAB (Bloc Alpha Binaire), et correspondant un macro- reconstituer limage courante.
bloc de limage YUV, il suffit en effet dajouter aux informations de La mthodologie de construction des sprites, de mme que tout
mouvement et de texture celles de contour si ce bloc contient un processus de codage MPEG, nest pas spcifie par la norme. On
contour. Le dcodage (par exemple) suivra ainsi simplement le peut dailleurs imaginer vouloir dfinir un sprite de toutes pices ou
diagramme de la figure 11. partir dune image existante, afin de crer ses objets un environ-
Le CAE repose sur un codage arithmtique, permettant de nement donn. Dans le cas o lon dispose dune squence vido
retrouver la probabilit pour un pixel donn de valoir 0 ou 1, suivant brute do lon veut extraire un sprite, le problme est plus
le contexte (valeurs des pixels voisins, valeurs dans les plans alphas complexe. Cette opration nest dabord pas possible sur toutes les
prcdents) qui sera connu au dcodage. Cette technique est donc squences : sur des contenus ne sy prtant pas (squences avec de
difficile dcrire de faon synthtique, car son efficacit repose sur nombreux changements de scnes ou sans fond stable), elle
une tude de probabilits trs pousse ayant men une slection donnera des rsultats inutilisables. Ensuite, elle reste relativement
de sept types de BAB avec des modes de codages diffrents pour complexe. Ceci exclut son utilisation systmatique en temps rel.
Contour Dcodage
de contour Mmoire
d'objet
Donnes macrobloc
Texture Reconstruction
Dcodage
de texture
Figure 11 Dcodage MPEG
intgrant les contours
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
TE 5 360 10 Techniques de lIngnieur, trait Tlcoms
_______________________________________________________________________________________________________ COMPRESSIONS MPEG-1 MPEG-4
Sprite
Figure 12 Sprite de la squence Stefan
Ce mode de codage est trs conomique du point de vue de la composante sur cette bande de frquence. Ensuite, chaque signal
quantit de bits transmettre, et rend possibles dintressantes reprsentant la sous-bande est quantifi avec un pas dpendant du
manipulations. Les animations obtenues sont limites aux dforma- niveau de seuillage de la frquence traite. Le processus qui dter-
tions permises par le modle utilis, mais elles donnent dj lillu- mine le pas de quantification pour chaque sous-bande fait appel
sion de mouvements de camra complexes dans des un modle psychoacoustique. Le choix de ce modle dtermine la
environnements fixes. De plus, il devient facile, en retouchant une qualit du codeur ainsi que sa complexit, les autres fonctions se
simple image fixe, de changer lenvironnement de toute une retrouvant lidentique dans chaque codeur audio. Cette opration
squence, ou encore, en modifiant quelques paramtres, de simuler permet de supprimer dans le signal les informations les moins
un mouvement de camra indit dans un environnement donn. perues par loreille humaine. On transmet donc dans le flux MPEG
les valeurs quantifies ainsi que le pas de quantification utilis dans
chaque bande de frquence. Le dcodeur, aprs dmultiplexage des
donnes, quantification inverse et filtrage inverse, pourra reconsti-
1.2 Compression audio tuer le signal dcod.
Les normes de compression audio MPEG dfinissent le processus 1.2.3 Flux audio
de dcodage dun signal audio. De mme que pour le signal vido,
cette dfinition implique certaines lignes de conduite respecter
Le flux audio MPEG est organis en trames contenant un nombre
pour la compression.
fixe dchantillons dentre (384 ou 1152). Aucune correspondance
nexiste entre la dure des images vido et les trames audio. Au
dbut de chaque trame, on trouve un en-tte avec un mot de signa-
1.2.1 Modles acoustiques lisation et les informations de haut niveau ncessaires au dcodage
de la trame : frquence dchantillonnage du signal dentre, dbit
La base algorithmique de la compression audio MPEG est le de sortie compress, mode de codage utilis. On trouve ensuite les
systme acoustique humain, qui na pas les mmes caractristiques valeurs du signal dentre aprs filtrage et quantification.
quun instrument denregistrement. Loreille humaine est un
systme non linaire seuillage adaptatif. En premier lieu, ce
seuillage (non-sensibilit certains sons en de dune puissance 1.3 Multiplexage
donne) est variable en fonction de la frquence, le maximum de
notre sensibilit se situant en gnral entre 2 et 5 kHz. Ce modle est
compliqu par un phnomne de masquage. En effet, notre oreille Chaque flux lmentaire ayant t compress sparment, les
percevra certains niveaux sonores assez bas dans un silence total, normes MPEG dfinissent des processus pour multiplexer ces
alors quun signal sonore comportant des frquences similaires donnes dans un seul flux des fins de stockage ou de transmis-
masquera laudibilit des mmes sons. Le mode de compression sion. Encore une fois, seul le processus de dcodage avec la signifi-
MPEG met donc profit ces caractristiques pour ddier la bande cation de chaque bit est dfini dans la norme.
passante numrique aux sons audibles par une oreille humaine. La sortie dun multiplexeur de type MPEG est un flux doctets un
dbit total fixe ou variable. Il existe plusieurs types de flux, lappli-
cation vise tant le critre essentiel de choix entre les options.
1.2.2 Codage sous-bandes perceptuel
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Tlcoms TE 5 360 11
COMPRESSIONS MPEG-1 MPEG-4 _______________________________________________________________________________________________________
a codeur
Quantification
Quantification
Modle
psycho-
acoustique
b dcodeur
Quantification
inverse
Quantification
inverse
Figure 13 Codage/dcodage
en sous-bandes audio
Signal vido
Flux programme
Codeur
Enregistreur
Signal audio MPEG
Mdia (DVD,
support magntique...)
Signal vido
Flux programme
Dcodeur
Lecteur
Signal audio MPEG
Figure 14 Schma typique de codeur
et dcodeur dans une application
de stockage
optique, un seul programme (vido et audio) est multiplex dans un tampon, le systme gnrant le flux programme devra sassurer
flux. La spcification de ce flux rpond essentiellement aux besoins que ce flux sera dcodable sans overflow ni underflow de la
suivants : synchronisation audio/vido, prvention des underflow mmoire tampon du dcodeur (figure 14).
ou overflow de la mmoire tampon, accs alatoire aux donnes. Le
formatage des donnes audio et vido dans des paquets PES
(Packetized Elementary Stream) permet dassurer la synchronisa- 1.3.2 Flux transport
tion des donnes. En effet, on insre dans les en-ttes de paquets
des estampilles temporelles qui spcifient les moments de traite-
ment des donnes contenues dans le paquet. Le DTS (Decoding Le flux transport est dfini pour des applications de transmission
Time Stamp) indique linstant de dcodage des donnes tandis que en temps rel entre un codeur et un dcodeur. La spcification
le PTS (Presentation Time Stamp) indique leur instant de prsenta- rpond dabord aux besoins dfinis dans le cadre dune application
tion. Toutes ces indications sont donnes en units dhorloge de stockage. Dautres spcificits y sont ajoutes pour viser le trans-
90 kHz. Ces deux types de paquets PES sont ensuite multiplexs port de flux multiples avec des donnes auxiliaires (en particulier les
dans un mme flux avec des en-ttes pour indiquer leur nature et les donnes relatives au cryptage du signal), fonctionnalit importante
caractristiques essentielles du signal. Le fonctionnement du dco- dans un systme de tlvision numrique, et assurer la synchroni-
deur de rfrence tant spcifi, ainsi que la taille de la mmoire sation codeur/dcodeur.
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
TE 5 360 12 Techniques de lIngnieur, trait Tlcoms
_______________________________________________________________________________________________________ COMPRESSIONS MPEG-1 MPEG-4
Signal vido
Flux transport
Codeur Modulateur
Signal audio MPEG
Donnes auxiliaires
Canal de transmission
(cble, satellite,
terrestre)
Signal vido
Flux transport
Dcodeur Dmodulateur
Signal audio MPEG
La structure PES dfinie dans le cadre du flux programme est Le format gnralement utilis est le SIF (quart dimage TV) avec un
dabord reprise : chaque flux (vido, audio ou donnes auxiliaires) dbit de 1,25 Mbit/s. Puisque le SIF est un format progressif (une
est encapsul dans des paquets PES. image comporte les donnes prises par la camra un instant
Les diffrents flux PES sont ensuite insrs dans des paquets unique), les caractristiques spcifiques dun signal entrelac ne
transports de taille fixe (188 octets). Chaque paquet transport sont pas prises en compte ; cette limitation du standard implique
contient un mot de synchronisation, une PID (paquet identification) simplement des performances de compression rduites si lutilisa-
qui permet didentifier le type de paquet et son origine, dautres teur transmet des images de type TV.
donnes auxiliaires et enfin les donnes PES. Audio
Le paquet transport permet aussi de transmettre les donnes PCR Les frquences dchantillonnage autorises vont de 32 48 kHz.
(Program Clock Reference) pour indiquer lheure de son horloge Les dbits varient entre 32 et 384 kbit/s.
interne. Lutilisation conjointe de la synchronisation paquet et des
donnes PCR permet de raliser une synchronisation complte du Trois niveaux (layers) de codage audio sont utiliss. Ces niveaux
codeur et du dcodeur. se distinguent par les outils de compression, les frquences
dchantillonnage du signal dentre et les dbits.
Le paquet transport permet aussi de transmettre les donnes PSI
Niveau 1
(Program Specific Information). Ces informations permettent au
dcodeur de reconstituer le contenu global du flux par programmes Le filtrage dentre est de type DCT avec utilisation dun modle
(figure 15). A chaque programme, on peut associer plusieurs flux psychoacoustique uniquement en frquence.
vido, audio ou de donnes additionnelles (Tltexte, sous- Niveau 2
titrage). On trouvera plus de dtails sur le contenu de ces tables
Le filtrage dentre est aussi ralis dans le domaine temporel, ce
dans le standard MPEG-2 [2].
qui permet un certain masquage temporel.
Niveau 3
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Tlcoms TE 5 360 13
COMPRESSIONS MPEG-1 MPEG-4 _______________________________________________________________________________________________________
apportent une certaine flexibilit dans les paramtres de codage faon la plus simple doffrir les deux signaux est de coder spar-
dans le but damliorer les performances de compression par rap- ment les deux sources. Une redondance vidente existant entre les
port la norme MPEG-1. Pour autoriser un mode de codage compa- deux signaux, un mode de codage spcifique permettant de coder
tible entre diffrents niveaux de qualit (on utilisera le terme les deux signaux avec des rsolutions diffrentes et donc dexploiter
scalabilit dans la suite du document) ou grer efficacement les ces redondances est intgr la norme.
erreurs de transmission, des outils spcifiques ont aussi t incor- Le signal de basse rsolution est dabord cod de faon standard.
pors la norme (cf. 2.2.2). Le signal correspondant dcod est ensuite surchantillonn au
Les dbits utiliss varient selon lapplication, le format dentre et format de haute dfinition. La source de haute dfinition est code
la qualit requise. Pour un format de tlvision standard en mode de faon pratiquement standard, la seule diffrence rsidant dans
broadcast, un dbit de 2 Mbit/s permet dobtenir un signal de qualit une modification du processus de compensation de mouvement. Le
comparable au VHS, un dbit de 4 5 Mbit/s correspond une signal basse dfinition rchantillonn, peut, en effet, tre utilis
qualit PAL/SECAM et enfin, une qualit parfaite est obtenue un comme prdiction du macrobloc courant, le choix entre ces deux
dbit de 8 ou 10 Mbit/s. modes se faisant de la mme faon quentre les diffrents modes de
compensation classiques. Le dcodeur de haute rsolution effectue
Audio : lessentiel de la norme MPEG-1 audio est repris dans donc aussi le dcodage du signal basse dfinition pour le dcodage
MPEG-2. Des adaptations existent pour permettre un codage multi- de haute dfinition.
canaux cinq sources pour des applications surround. Les frquen-
ces dchantillonnage autorises vont de 16 48 kHz. Les dbits Il apparat nettement, au vu de cette description, que le mode
varient entre 8 et 384 kbit/s. compatible spatial est assez complexe mettre en uvre. Au regard
du cot de cette fonctionnalit, le gain en compression reste assez
Systme : le flux transport est dfini pour rpondre pleinement faible par rapport un systme de transmission spare des deux
aux contraintes de transmission dun signal vido ( 1.3.2). signaux. Ceci explique le peu dintrt rencontr par cet outil chez
les utilisateurs.
2.2.2 Scalabilit 2.2.2.3 Scalabilit temporelle
Pour rpondre des besoins spcifiques des systmes de trans- De la mme faon quen mode de scalabilit spatiale, la norme
mission vido, la norme MPEG-2 dfinit des outils permettant un MPEG-2 a dfini un mode de codage compatible entre deux signaux
codage avec diffrents niveaux de rsolution ou de qualit. de mme rsolution spatiale, mais avec une rsolution temporelle
diffrente. Le signal une frquence dimage la plus basse est aussi
utilis, aprs dcodage, dans la boucle de compensation du signal
2.2.2.1 Scalabilit SNR (Signal to Noise Ratio)
la frquence image la plus haute.
Lutilisation des normes vido MPEG dans leur mode standard
suppose un taux derreur sur les flux vido trs faible (au moins 109) 2.2.2.4 Compression data partitionning
de faon garantir une bonne qualit de service. Dans certaines Ce mode de compression rpond aux mmes besoins que le
applications [telles la transmission terrestre ou sur rseau ATM mode de scalabilit SNR. Deux flux de donnes sont transmis ; le
(Asynchronous Transfer Mode)], cette qualit ne peut tre garantie. flux additionnel permettant de restituer limage de qualit sup-
Le comit de normalisation a donc dvelopp un outil spcifique, la rieure est moins bien protg dans la transmission. Dans le systme
scalabilit SNR, pour rpondre ces besoins. de data partitionning, le codage reste identique au mode standard ;
Ce mode de codage permet de transmettre un flux MPEG avec les donnes sont simplement spares en deux niveaux la sortie
diffrents niveaux de qualit. Le flux de base qui contient lentre du VLC au niveau des blocs DCT. Les premiers mots VLC dun bloc
vido code un niveau de qualit bas est transmis dans le canal correspondant aux coefficients DCT basses frquences sont
avec un niveau de protection trs lev, et donc garantit la rcep- envoys dans le canal haute protection, les mots restant tant
tion une image quel que soit le taux derreur. Le flux additionnel transmis dans le canal additionnel. Ce mode de codage compatible
apporte une meilleure qualit dimage, mais sera moins bien est moins performant dun point de vue de dgradation progressive
protg dans la transmission. Le systme de codage scalabilit du signal que le mode SNR. En effet, la suppression pure et simple
SNR permet donc une dgradation progressive de la qualit du de coefficients DCT entrane des dfauts de codage plus visibles
signal vido dcod en fonction de la qualit de transmission. quune surquantification. En revanche, le data partitionning a le
En pratique, un codeur SNR ralise les mmes fonctions quun mrite dtre beaucoup plus simple mettre en uvre.
codeur standard ; seul le processus de quantification est modifi.
Les coefficients DCT sont dabord quantifis avec un pas de quanti- 2.2.3 Profils et niveaux
fication haut et transmis par codage VLC. Ensuite, lerreur rsiduelle
due la premire quantification est quantifie avec un pas de quan- 2.2.3.1 Profils
tification bas et de la mme faon transmise par codage VLC. Aprs
La norme MPEG-2, par ltendue des applications en tlvision
quantification inverse et addition des deux valeurs, le coefficient
vises, ncessite la mise en uvre de nombreuses techniques de
DCT est inject dans une boucle classique de compensation pour
compression, en particulier pour les aspects de codage compatible.
servir dans limage de rfrence. Le dcodeur SNR reproduit sym-
De faon autoriser des implmentations de la norme spcifiques
triquement quantification inverse et compensation de mouvement.
et donc une meilleure focalisation sur les applications vises, le
On remarquera que dans le cas o la couche de haut niveau est
comit MPEG a dfini les profils de codage suivants :
perdue, le contenu de limage de rfrence est diffrent de celui du
codeur, ce qui occasionne donc un effet de drive dans les images simple : ce profil met en uvre un minimum de modes de
dcodes. Lutilisation de paramtres standard (M = 3, N = 12) codage de faon autoriser des implantations bas cot de codeurs
permet de saffranchir notablement de cet effet, le nombre dimages et dcodeurs MPEG-2 ;
P successives entre deux images I tant limit. main : ce profil qui autorise tous les outils de codage non com-
patibles lexception du 422 est particulirement utilis dans les
applications de tlvision numrique ;
2.2.2.2 Scalabilit spatiale
422 : profil quivalent au Main avec lajout de la fonctionnalit
Le dploiement de services de tlvision numrique haute dfini- de codage 4 :2 :2 utile dans des applications de codage studio o la
tion (HDTV) ncessite dans un premier temps doffrir pour un mme qualit doit tre parfaite ;
programme les sources en format TV et HDTV, ceci afin de SNR : profil quivalent au Main avec la fonctionnalit de scala-
permettre une migration progressive du parc de rcepteurs. La bilit SNR ;
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
TE 5 360 14 Techniques de lIngnieur, trait Tlcoms
_______________________________________________________________________________________________________ COMPRESSIONS MPEG-1 MPEG-4
2.2.4 Conformit
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Tlcoms TE 5 360 15
COMPRESSIONS MPEG-1 MPEG-4 _______________________________________________________________________________________________________
De plus, elle sinterface efficacement avec VRML (langage de dcrites dans les paragraphes suivants (audio : 2.3.4 et vido : 2.3.5).
modlisation de la ralit virtuelle), pour permettre lutilisation du Cela demande en outre une gestion flexible de la structure des
3D en combinaison avec la vido. scnes et de la composition des flux lmentaires qui les compose :
ceci est gr par MPEG-4 systmes, et sera abord au
paragraphe 2.3.6.
2.3.2 Versions et profils
2.3.4.2 Synthse
2.3.2.2 Profils et niveaux Text To Speech (TTS) : MPEG-4 standardise la syntaxe et linter-
De mme que MPEG-2, MPEG-4 dfinit des profils, afin que face permettant dutiliser du TTS. Ce processus gnre un signal de
chaque dcodeur nait implmenter quune sous-partie des outils parole synthtique partir de texte (simple ou enrichi de param-
standardiss, dfinie pour satisfaire un certain domaine dappli- tres prosodiques spcifiant quelques caractristiques de diction), et
cations. Chaque profil comporte ensuite des niveaux, correspon- permet de transmettre un discours intelligible des dbits allant
dant diffrentes complexits de dcodage. typiquement de 200 1 200 bit/s. Il permet en outre de gnrer
divers paramtres de contrle, par exemple pour synchroniser avec
Il serait ici trop long de passer tous les profils en revue : la
la parole les mouvements dun visage de synthse (cf. 2.3.5).
version 1 en comporte une vingtaine, spcifiant des orientations
dans les domaines de laudio et de la vido (naturelles et de La synthse musicale : MPEG-4 standardise ici un langage trs
synthse), des lments graphiques utiliss, de la description de sophistiqu de description de partition, le SASL (Structured Audio
scne, et de la description dobjets. Score Language), ainsi quun langage permettant de dcrire la syn-
thse, cest--dire de dfinir les instruments invoqus par la parti-
tion, le SAOL (Structured Audio Orchestra Language). Les flux
2.3.3 Approche objet et structure de scnes gnrs par ces deux langages permettent de gnrer une large
varit de sons, allant de simples bruitages (pas, claquements de
La principale nouveaut de MPEG-4 rside donc dans son portes) de la musique symphonique, en passant par le son de la
approche objet de linformation audiovisuelle. Pour MPEG-4, une pluie ou tout effet sonore synthtique complexe. Pour des appli-
scne audiovisuelle pourra tre considre comme dcrit sur la cations simples, le protocole MIDI (Musical Instrument Digital Inter-
figure 17. face) peut remplacer le SASL. De plus, le SAOL peut aussi tre rem-
Cela demande dtre capable de coder indpendamment et effi- plac en utilisant un format dcrivant une synthse plus simple et
cacement toutes sortes dobjets, do la varit des techniques moins riche, galement normalis par MPEG-4.
Composition et
Description de rendu
scne
Objets
audiovisuels Information de
composition Scne audiovisuelle
interactive Figure 17 Un exemple de structure
de scne MPEG-4
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
TE 5 360 16 Techniques de lIngnieur, trait Tlcoms
_______________________________________________________________________________________________________ COMPRESSIONS MPEG-1 MPEG-4
2.3.5 MPEG-4 visuel est utilis pour servir de base lanimation. Au niveau du BIFS
(cf. 2.3.6), des outils associs sont galement proposs, comme
2.3.5.1 Codage de la vido par exemple un interpolateur danimation. Le rendu et lanimation
du corps humain entier seront standardiss de la mme faon dans
Dans MPEG-4, le codage vido permet de coder non seulement la version 2.
des images classiques, mais aussi des objets de forme arbitraire :
aux donnes dentre YUV habituelles (cf. 1.1.1.1) sajoute alors Treillis actifs : ce mode de codage reprsente chaque objet par un
un alpha plane (plan alpha). Binaire, le plan alpha dfinit unique- treillis triangulaire, dont sont transmis les positions des nuds
ment la forme de lobjet, alors considr comme opaque chaque instant t ainsi que leurs mouvements de t 1 t. Ainsi, par
(figure 18). Sur huit bits il prcise aussi sa transparence. interpolation, le dcodeur peut reconstruire la texture intrieure
chaque triangle du treillis partir de celle du triangle correspondant
Le plan alpha binaire est cod en utilisant la technique de codage dans limage prcdente.
de contours dcrite au paragraphe 1.1.5.1. Dans le cas dun plan
alpha sur huit bits, on code sa composante binaire de la mme
faon, puis les niveaux de gris de chaque bloc intrieur sont cods 2.3.6 MPEG-4 systmes
par DCT. Les composantes YUV de la texture des objets sont ensuite
traites avec les mmes techniques que pour MPEG-1 et MPEG-2
2.3.6.1 Multiplexage
(compensation de mouvement, DCT), lgrement modifies pour
grer efficacement le cas des blocs situs cheval sur les contours La transmission de flux MPEG-4 synchroniss selon une qualit
des objets. de service donne est gre par le multiplexeur MPEG-4, dont la
MPEG-4 vido se diffrencie aussi de ses prdcesseurs par structure est reprsente sur la figure 19.
sa flexibilit en dbits : le codage est optimis pour aller de quel-
ques kbits quelques Mbits par seconde, grce la prsence
par exemple de plusieurs tables de quantifications ou de
Flux lmentaires
plusieurs modes de prdiction de mouvement, entre lesquels lalgo-
rithme choisit suivant le dbit vis. Le mode de codage par sprites,
dcrit au paragraphe 1.1.5.2, est inclus. La robustesse aux erreurs SL SL ... SL
est galement pousse beaucoup plus loin que dans MPEG-1 et Couche de
MPEG-2, notamment pour prendre en compte les conditions de synchronisation
transmission sur rseaux mobiles, et de nombreux outils de codage Flux en paquets SL
sont fournis pour amliorer la resynchronisation, la protection et la
rcupration des donnes. Notons enfin que MPEG-4 offre un mode
de codage spcifique aux images fixes, destin lhabillage de Couche
FlexMux
mondes 3D par des textures relles. Ce mode propose une scalabi- DMIF
lit trs fine granularit, afin de pouvoir sadapter une distance
Flux FlexMux
de visualisation variable (position de lutilisateur dans le monde 3D).
Il utilise cet effet une technique de codage/dcodage base
dondelettes. Les diffrents types de scalabilit proposs sur la
vido sont par contre trs similaires ceux de MPEG-2. (RTP) Couche
UDP MPEG-2 Trans. Mux
TS ...
2.3.5.2 Synthse IP
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
Techniques de lIngnieur, trait Tlcoms TE 5 360 17
COMPRESSIONS MPEG-1 MPEG-4 _______________________________________________________________________________________________________
La synchronisation entre flux lmentaires est similaire ce qui Cette description est compatible avec VRML (cest--dire que tout
est fait dans MPEG-2. VRML est compris par MPEG-4), dont elle sest en fait inspire pour
lenrichir de nuds audio et vido 2D. Pour assurer une transmis-
DMIF (Delivery Multimedia Integration Framework) est le proto- sion efficace de la description de scne, MPEG-4 standardise le BIFS
cole grant la transmission des flux MPEG-4. MPEG-4 standardise (Binary Format for Scene Description), qui permet dexprimer sous
son interface avec lapplication. Ainsi, cette gestion est faite de forme binaire toute description de scne 2D et/ou 3D. Le flux binaire
faon compltement transparente pour lapplication, quel que soit de description de scne ainsi obtenu est ensuite trait comme un
son contexte (diffusion, stockage sur disques, rseaux interactifs). flux lmentaire ordinaire (cf. 2.3.6.1). Il peut aussi, comme les
Le FlexMux (Flexible Multiplexing) permet de regrouper les diff- autres flux lmentaires, tre dcod la vole , sans attendre
rents flux lmentaires transmettre de manire efficace (regroupe- dtre reu entirement. Notons que cest cette indpendance entre
ment par qualit de service pour minimiser le nombre de le flux de description de scne et les flux de donnes audio et vido
connexions, optimisation du remplissage des paquets pour utiliser des diffrents objets la composant qui offre daussi larges possibi-
au mieux la bande passante), lorsque ceci nest pas suffisamment lits de cration, manipulation et interaction.
pris en charge par le protocole de transport. Cest une partie option- MPEG-4 systmes gre enfin linteractivit avec le contenu
nelle du multiplex MPEG-4. prsent, qui peut se faire soit en local la rception des donnes,
soit via un canal de retour sur le serveur.
Le TransMux (Transport Multiplexing) adapte le multiplexage et
la protection des donnes au protocole de transmission choisi,
de faon assurer la qualit de service requise. Ainsi, chaque appli-
cation MPEG-4 utilise une ou plusieurs instances du TransMux
(MPEG-2 Transport, IP). Seule linterface avec cette couche trans- 3. Conclusion
port est normalise : les instances elles-mmes suivent les spcifi-
cations des protocoles utiliss.
Les standards MPEG sont aujourdhui des stades diffrents de
2.3.6.2 Description de scnes leur vie. MPEG-1 a connu un succs rapide dans des produits
destins lenregistrement comme le CDI. Son champ dutilisation
Les aspects concernant la composition des objets et la description se rduit au profit de la norme MPEG-2 qui couvre aussi bien le stoc-
des scnes sont traits dans la partie systmes de la norme MPEG-4. kage (DVD, DVD renregistrable) que la tlvision numrique, qui
Chaque scne est dcrite sous forme dune structure hirarchique connat un succs commercial en Europe et aux tats-Unis. Le draft
(statique ou dynamique), dont chaque nud est un objet (vido, final (FDIS Final Draft International Standard) de la version 1 de la
image, parole) (figure 20). norme MPEG-4 a t finalis fin 1998, et son utilisation dbute dans
des applications multimdia comme la transmission de donnes sur
Internet.
La normalisation pour la compression des donnes audiovi-
suelles est maintenant bien couverte par les standards MPEG-1,
Scne MPEG-2 et MPEG-4. Ajoutant aux avantages du numrique des
outils performants, penss par des experts et des industriels, spci-
fiques au maniement des donnes audiovisuelles, ils ouvrent la
porte son utilisation massive dans tous les domaines touchant au
Personnage Fond multimdia et laudiovisuel.
Dans cette optique de multiplication rapide des contenus audiovi-
suels sous forme numrique, le prochain dfi rsidera sans doute
dans la gestion de laccs ces donnes. Il faudra pouvoir organiser
Vido (objet anim Voix Chants Sprite de leur stockage et leur transmission de faon ce que lutilisateur
non rectangulaire) d'oiseaux paysage puisse facilement retrouver et slectionner ce quil dsire. Aussi, le
comit MPEG a-t-il dcid de poursuivre ses travaux de normalisa-
tion dans le domaine de lindexation des donnes multimdias, ce
Figure 20 Structure de scne MPEG-4 qui donnera lieu en 2001 au standard MPEG-7 [8].
Toute reproduction sans autorisation du Centre franais dexploitation du droit de copie est strictement interdite.
TE 5 360 18 Techniques de lIngnieur, trait Tlcoms