Sunteți pe pagina 1din 52

144

Cap. 6. Standarde de compresie audio-video

Cap. 6. Standarde de compresie audio-video


6.1. Rolul standardelor n comunicaiile multimedia Reprezentarea eficient sub form digital a semnalelor audiovideo a constituit un domeniu important de cercetare n ultimii 20 ani. Tehnicile de codare digital a sunetelor, a imaginilor i a secvenelor video s-au dezvoltat de la nivelul unor cercetri pur academice pn la un domeniu pur comercial. n special n ultimii ani, dezvoltarea comunicaiilor mobile, a Internetului i a tehnologiilor multimedia au condus la mutarea ariei de interes tot mai mult ctre cercetrile aplicative cu aspect puternic comercial, cu accent tot mai mare pe convergena noilor tehnologii de comunicaie. Importana noilor tehnici va deveni tot mai mare n viitor, n condiiile n care creterea productivitii se va face tot mai mult pe seama eficienei comunicaiilor, n funcie de flexibilitatea, mobilitatea i interoperabilitatea echipamentelor de comunicaii. Dezideratul este de a se asigura posibilitatea comunicrii oricui, oriunde i oricnd. Comunicaiile multimedia devin din ce n ce mai puternice pe zi ce trece, pe baza progreselor importante n ceea ce privete gradul de disponibilitate a legturilor de transmisie digital, n procesarea semnalelor numerice, n dezvoltarea tehnologiilor VLSI i n cercetrile din domeniul compresiei semnalelor audio-video. Tehnicile de compresie numeric au devenit un domeniu matur, care a condus la dezvoltarea unui mare numr de aplicaii, ca: transmisiunile de televiziune numeric i de nalt definiie, videoconferinele, aplicaiile video-on-demand, televiziunea interactiv, bazele de date multimedia, web-casting i alte aplicaii Internet. Odat cu creterea interesului comercial pentru aceste aplicaii, a crescut considerabil i necesitatea dezvoltrii de standarde cuprinztoare, care s permit interconectarea echipamentelor de la diferii furnizori i asigurarea unor servicii de calitate controlabil oriunde n lume. Activitile de standardizare au fost demarate la nceputul anilor '80, de ctre CCITT, apoi de ctre CCIR i ISO. Printre rezultatele acestor activiti se pot numra Recomandrile H.120 i H.261 ale CCITT, Reomandrile 721 i 723 ale CCIR, standardele ISO 10918 (JPEG), ISO 11172 (MPEG-1), ISO 13818 (MPEG-2), ISO/IEC 2725 (MPEG-4) i ISO/IEC 3158 (MPEG-7).

Cap. 6. Standarde de compresie audio-video

145

Standardizarea internaional implic colaborarea ntre regiuni i ri cu diferene importante n ceea ce privete infrastructura i nivelul de dezvoltare tehnologic, dar i n ceea ce privete interesele politice i comerciale. De aceea, standardele internaionale nu reprezint n mod necesar cea mai bun soluie tehnic, ci mai degrab o ncercare de a realiza un compromis ntre gradul de flexibilitate permis de standardul n cauz, complexitatea de implementare necesar i eficiena compresiei realizate. Dei exist anumite diferene ntre diferitele organisme de standardizare, n ceea ce privete procedurile de standardizare adoptate, principalii pai care trebuie efectuai n vederea finalizrii unui standard pot fi descrii n conformitate cu Figura 6.1 [Scha, 95].
Cerine Faza competiional Selecie metode de baz Faz de colaborare Draft de standard Validare Standard internaional

Fig. 6.1. Fazele standardizrii internaionale

n prima faz sunt identificate cerinele corespunztoare unei aplicaii specifice sau unui anumit domeniu de aplicaii. n urmtoarea etap se dezvolt de ctre diferite laboratoare de cercetare algoritmi diferii, n conformitate cu specificaiile elaborate n faza anterioar, algoritmi care sunt comparai din punct de vedere al complexitii i performanelor. Ca urmare a acestei comparaii va fi identificat o singur tehnic drept metod de baz pentru rezolvarea problemei abordate. n cadrul fazei de colaborare, printr-un efort comun al specialitilor i laboratoarelor implicate, este detaliat i mbuntit tehnica de baz adoptat n etapa anterioar. La finalul acestei activiti va fi elaborat un draft de standard, care urmeaz a fi validat prin teste

146

Cap. 6. Standarde de compresie audio-video

bazate pe simulare pe calculator, teste hardware i teste aplicative. Dup validarea cu succes i eventualele mbuntiri de detaliu, este adoptat standardul final. Primul comitet internaional care a nceput activiti de standardizare n domeniul aplicaiilor audio-video a fost Grupul de Studii (SG) XV al CCITT n perioada 1980-1984. n anul 1984 a fost elaborat Recomandarea H.120 care abordeaz domeniul aplicaiilor de videoconferin la ratele primare de 2,048 i 1,544 Mb/s pentru sistemele de televiziune cu 625 linii/50 Hz, respectiv cu 525 linii/60 Hz. Standardul conine trei pri. Partea 1 se refer la utilizarea regional, la rata de 2 Mb/s, n rile care utilizeaz sisteme TV cu 625 linii i 50 Hz. Partea a doua se refer la utilizarea internaional (pentru sistemele TV cu 625 linii/50 Hz, respectiv cu 525 linii/60 Hz). Partea a treia se refer la utilizarea regional, la rata de 1,5 Mb/s, n rile care utilizeaz sisteme TV cu 525 linii i 60 Hz. Din pcate, algoritmii specificai n prile 1 i 3 ale standardului sunt diferii, dei ambii utilizeaz aceeai metod de compresie de baz (compresia temporal DPCM). Din acest motiv, scopul de realizare a unui standard mondial nu a fost de fapt atins. Acesta este mptivul pentru care H.120 nu a devenit niciodat un succes comercial. Realizrile n domeniul compresiei au fcut posibil abordarea problemei transmisiilor video la rate de transmisie mai sczute. Din aceste considerente, la sfritul anului 1984, Grupul de Studii XV a convenit s defineasc un standard mondial pentru aplicaii de videotelefonie i videoconferin la rate sczute (sub 2 Mb/s), care s fie compatibil cu ambele sisteme de televiziune. n 1989 a fost elaborat Recomandarea H.261, bazat pe un codor ce utilizeaz transformarea cosinus discret (DCT), compresia temporal DPCM i compensarea micrii. Acest algoritm a devenit elementul cheie utilizat de cele mai multe dintre standardele de codare video dezvoltate ulterior. Alte trei organisme internaionale au nceput o activitate n domeniul standardizrii algoritmilor de codare pentru compresia semnalelor de televiziune digital, n paralel cu preocuprile CCITT. Eeste vorba despre CCIR, CMTT i ISO. n cadrul CCIR, grupul SG 11 este responsabil pentru standardizarea codrii video, n timp ce CMTT se ocup de partea de transmisie a semnalelor TV. Pentru coordonarea activitilor au fost produse n colaborare Recomandrile 721 i 723. Recomandarea 721 a CCIR, elaborat n 1990, prezint specificaia de codare a semnalelor TV definite n conformitate cu Recomandarea 601 a CCIR, la rata de 140 Mb/s. Pentru compresia video este prevzut codarea simpl DPCM, cu scopul de a permite

Cap. 6. Standarde de compresie audio-video

147

implementarea simpl a codorului i pentru a asigura calitatea necesar pentru post-producie. Recomandarea 723, elaborat n 1989, standardizeaz realizarea unui codor pentru semnalele TV definite n conformitate cu Recomandarea 601 a CCIR, la rate cuprinse ntre 30 i 45 Mb/s. Acest codor utilizeaz o tehnic hibrid DCT/DPCM similar cu cea utilizat de algoritmul H.261, dar optimizat penntru rate mai mari de transmisie. Este de remarcat faptul c au fost utilizate codoare CCIR 723 pentru codarea semnalelor HDTV la rate de 140 Mb/s i peste, prin folosirea n paralel a 4 - 6 codoare. Grupul de lucru 8 (WG 8) al Subcomitetului 2 (SC 2) al ISO a nceput s lucreze n 1982 la standardizarea codrii imaginilor statice n tonuri continue. n anul 1986, membrii ISO/SC2/WG8 i CCITT SG VIII i-au unit eforturile formnd aa-numitul grup JPEG (Joint Photographic Experts Group). Acest grup a prezentat n anul 1991 o propunere de standard ISO 10918, care a fost adoptat n 1992 drept standard internaional. Algoritmul de baz utilizeaz o schem de compresie cu transformat cosinus DCT spaial. Algoritmul JPEG asigur mai multe modaliti de operare: secvenial, progresiv, ierarhic i fr pierderi. n anul 1988 a fost nfiinat grupul MPEG (Moving Picture Experts Group), cu sarcina de a standardiza un algoritm de codare video adecvat stocrii digitale i transmisiei la rate de bit de pn la 1,5 Mb/s. Numele tehnic oficial sub care este cunoscut acum grupul este ISO/IEC/JTC1/SC29/WG11. Prima versiune elaborat a aprut n 1991 i este cunoscut sub denumirea ISO 11172 (MPEG-1) i a fost adoptat drept standard n 1992. Spre deosebire de alte standarde anterioare, MPEG-1 a fost elaborat cu scopul de a fi un standard generic, dei scopul su iniial era de a fi un standard specific stocrii numerice. Termenul de standard generic semnific faptul c standardul este independent de aplicaie, fiind construit mai degrab ca o colecie de instrumente din care utilizatorul i poate alege pe cele mai adecvate aplicaiei specifice. Acest lucru implic faptul c este definit doar sintaxa codrii, standardizarea fcndu-se mai mult la nivelul schemei decodorului. MPEG-1 definete o schem de codare hibrid DCT/DPCM cu compensarea micrii, similar cu cea utilizat de standardul H.261 i Recomandarea 723. Au fost introduse ns metode mai rafinate de predicie i prelucrare ulterioar, cu scopul de a asigura funcionalitile impuse de accesul aleatoriu la mediu de stocare numeric. Studiile pentru un standard MPEG-2 au nceput n 1990, cu scopul iniial de a defini modalitile de codare a semnalelor TV

148

Cap. 6. Standarde de compresie audio-video

rezultate n conformitate cu Recomandarea 601, la rate de sub 10 Mb/s. n 1992 a fost lrgit scopul iniial prin includerea n domeniul preocuprilor i a semnalelor HDTV, fcnd n acelai timp inutil faza MPEG-3 planificat iniial. Standardul MPEG-2 a fost prezentat la nceputul anului 1994. Schema de codare video propus de MPEG-2 este tot una generic, similar cu cea de la MPEG-1, dar elaborat n ceea ce privete tratarea surselor de semnal video ntreesut. Au fost de asemenea introduse faciliti suplimentare, de exemplu aceea de scalabilitate. n scopul de a pstra un nivel ct mai sczut de complexitate a implementrii pentru produsele care nu au cerine corespunztoare nivelului maxim admis pentru semnalul video, standardul a implementat aa-numitele "profiluri", care descriu funcionalitile, i "niveluri", care descriu rezoluiile. Astfel, MPEG-2 asigur differite niveluri de conformitate. Activitile pentru standardul MPEG-4 au nceput n anul 1993, cu scopul de a specifica scheme de codare la rate sub 64 kb/s, care s permit transmisia video pe reele telefonice i mobile din generaia a doua. Aceste cerine au condus la necesitatea dezvoltrii unor noi algoritmi, fundamental diferii, care includ codarea bazat pe model, interaciunea uman cu mediul multimedia i codarea vorbirii la rate sczute utilizat n sistemul GSM de telefonie mobil. Standardul a fost prezentat n form iniial n anul 1996, fiind apoi mbuntit i adoptat ntr-o prim versiune n anul 1998, apoi n versiune final n februarie 1999, sub numrul ISO 14496. Tendina de abordare a funcionalitii, cel puin n aceeai msur cu abordarea compresiei, evident la MPEG-4, a fost continuat prin activitatea la standardul MPEG-7, nceput n octombrie 1996. Cunoscut i sub denumirea de "Interfa de descriere a coninutului multimedia", standardul are drept scop descrierea datelor multimedia astfel nct s permit un grad de interpretare a sensului informaiei, care s poat fi transmis sau accesat printr-un dispozitiv de calcul sau cod de calculator. Standardul MPEG-7 este tot un standard generic, care nu se focalizeaz pe o aplicaie anume. Ideea care st la baza standardului MPEG-7 este aceea de a permite clasificarea imaginilor i a sunetelor, care s fie accesate similar cu bazele de date. Se poate astfel asigura cutarea imaginilor i sunetelor pe baza a diferii parametri. MPEG-7 a fost prezentat spre adoptare ca standard internaional la sfritul anului 2001. n prezent, este n faz de dezvoltare standardul MPEG-21, care urmrete definirea unui cadru multimedia care s permit utilizarea transparent i intensiv a resurselor multimedia printr-un mare numr de reele i dispozitive. Totodat, se urmrete identificarea standardelor

Cap. 6. Standarde de compresie audio-video

149

care pot fi utilizate n mod unitar pentru livrarea i utilizarea mijloacelor multimedia. n finalul acestei scurte treceri n revist a realizrilor i preocuprilor de standardizare, trebuie subliniat faptul c standardele MPEG-7 i MPEG-21 vor fi de mare importan pentru transmisia difuzat n viitorul apropiat, dar nici unul dintre ele nu este un standard de compresie. Apariia acestor standarde va influena multe aspecte ale proiectrii facilitilor i modelelor de operare pentru transmisie, dar nu ntr-un mod care s devalorizeze investiiile prezente. Dimpotriv, dac MPEG-7 i MPEG-21 vor avea succes, ele vor asigura o puternic dezvoltare comerului electronic, facnd s creasc mult valoarea facilitilor numerice actuale.

6.2. Standardul de compresie JPEG 6.2.1. Caracteristici generale Standardul JPEG a fost dezvoltat de un grup de experi cunoscut sub numele Joint Photographic Experts Group i este nregistrat sub numrul ISO 10918. Practic, standardul definete o familie de tehnici de compresie pentru imagini statice n ton continuu (pe scar de gri sau color). Datorit cantitii mari de date implicate i redundanei psihovizuale, JPEG utilizeaz o schem de compresie cu pierderi bazat pe codarea cu transformare. JPEG furnizeaz mai multe moduri de operare: secvenial (de baz), ierarhic, progresiv i fr pierderi. Fiecare mod de operare este indicat pentru utilizare n domenii particulare de aplicaie. Principalele caracteristici ale standardului JPEG pot fi rezumate dup cum urmeaz: Independena rezoluiei. Standardul admite tratarea semnalelor provenite de la surse cu rezoluii diferite. Imaginile ale cror dimensiuni nu sunt bazate pe multiplii de 8, sunt ajustate intern la dimensiuni multiplu de 8 pentru operarea n moduri de lucru bazate pe transformarea cosinus discret (DCT). Precizia. Modurile de lucru bazate pe DCT sunt restricionate la precizii de 8 sau 12 bii/eantion. Pentru codarea fr pierderi, precizia poate varia de la 2 la 16 bii/eantion. Fr int specific a ratei de bit. Rata de bit, implicit calitatea compresiei, este controlat primar de ctre matricea de cuantizare.

150

Cap. 6. Standarde de compresie audio-video

Separabilitate ntre luminan i crominan. Este posibil recuperarea doar a semnalului de luminan din imaginile codate sub form de semnal complet luminan-crominan, fr a fi ntotdeauna necesar decodarea crominanei. Extensibilitate. Nu exist limite n ceea ce privete numrul de etape n codarea progresiv, sau de etape de joas-rezoluie n cazul codrii ierarhice. JPEG nu reprezint o arhitectur complet pentru realizarea schimbului de imagini ntre diverse surse. irul de date structurate JPEG este definit sub aspectul cerinelor pe care le impune un decodor JPEG pentru a realiza decompresia. Ca parte a standardului nu este definit nici o form de fiier, rezoluie spaial sau model de spaiu al culorilor. Totui, JPEG include un format minimal recomandat de fiier, cunoscut sub denumirea de JFIF (JPEG File Interchange Format), care permite ca irurile de date JPEG s fie interschimbate ntre o mare diversitate de platforme i aplicaii. O serie de alte formate de fiiere pentru imagini sunt de asemenea compatibile JPEG, de exemplu TIFF (Tag Image File Format). Este important de specificat faptul c, pentru a fi considerat JPEG compatibil, un produs sau sistem trebuie s accepte cel puin modul de lucru de baz prevzut de standardul JPEG. 6.2.2. Algoritmul de baz pentru codare Algoritmul de baz pe care l vom prezenta n continuare definete modul de lucru de baz sau modul secvenial. Acest mod de lucru definete compresia imaginilor digitale monocromatice sau color aa cum sunt ele utilizate n aplicaiile de comunicaii multimedia. Acest mod de lucru implic parcurgerea a cinci pai: partiia imaginii, transformata cosinus direct (DCT), cuantizarea, codarea entropiei i construcia cadrului JPEG. n Figura 6.2. este prezentat schema bloc a codrii JPEG care implic aceti pai, fiecare pas urmnd s fie discutat separat. Partiia imaginii Sursa de imagine este n general format din una sau mai multe matrici bidimensionale. n cazul unei imagini monocrome n tonuri continue, este necesar o singur matrice bidimensional pentru memorarea setului de valori ale nivelurilor de gri reprezentate pe 8 bii care caracterizeaz imaginea. n mod similar, pentru o imagine color, dac se utilizeaz o memorie LUT (Look-up table), atunci este necesar o singur matrice de valori.

Cap. 6. Standarde de compresie audio-video

151

PARTIIE IMAGINE Surs Pregtire blocuri Transf. DCT

CUANTIZARE Cuantizor

Pregtire imagine

Tabele

CODAREA ENTROPIEI Codare diferenial Vectorizare Codare run-length

Codare Huffman

CONSTR. CADRU JPEG

Ieire JPEG

Tabele

Fig. 6.2. Schema bloc de codare JPEG

Alternativ, dac imaginea este reprezentat n format R, G, B, sunt necesare trei matrici, cte una pentru valorile cuantizate R, G i B. Pentru imaginile color se poate utiliza i reprezentarea prin semnale diferen de culoare Y, CR i CB, cu avantajul c semnalele de crominan CR i CB necesit doar jumtate din lrgimea de band a semnalului de luminan Y. Din acest motiv, cele dou matrici care conin componentele digitale de crominan sunt de dimensiuni mai mici dect matricea Y, ceea ce conduce la o reducere fa de reprezentarea clasic R, G, B. Figura 6.3 ilustreaz procesul de partiie a imaginii, prezentnd cele patru alternative pentru reprezentarea imaginii surs i aranjarea acestora ntr-o matrice a valorilor care trebuie compresate. Acesta este blocul prezentat n Fig. 6.2 sub denumirea pregtire imagine. Dup alegerea formei de reprezentare a imaginii, valorile cuprinse n matrice vor trebui comprimate prin utilizarea transformatei cosinus discrete (DCT). nainte ns de a realiza aceast prelucrare mai este necesar un pas, cunoscut sub denumirea de pregtire blocuri. Acesta este necesar deoarece calculul transformatei cosinus pentru fiecare poziie din matrice

152

Cap. 6. Standarde de compresie audio-video

implic cunoaterea valorilor tuturor blocurilor care urmeaz a fi prelucrate. Deoarece timpul necesar pentru calculul DCT pentru toat matricea ntr-un singur pas ar fi mult prea mare, matricea este mai nti divizat pe submatrici de dimensiuni 88, care poart denumirea de blocuri. Ca urmare, transformarea DCT se poate efectua pe blocuri, prin aducerea secvenial a acestora la intrarea procesorului de calcul a transformatei.

Pregtire imagine

Pregtire blocuri

Monocrom

Mem. LUT

Surs

Transf. DCT

B G R

Matrice divizat pe blocuri 88

CB

Y CR

Fig. 6.3. Partiia imaginii pentru codarea JPEG

Cap. 6. Standarde de compresie audio-video

153

Transformarea cosinus discret DCT Dup cum s-a precizat anterior, pentru scurtarea timpului total de calcul a transformatei directe DCT, este necesar operarea la nivel de blocuri de 88 valori. Ordinea n care sunt prezentate blocurile constituite la intrarea procesorului de calcul DCT este prezentat n Figura 6.4.

Bl. 1

Bl. 2

Bl. 3

....

Bl. N . . . Bl. N

...

Bl. 3

Bl. 2

Bl. 1

DCT

Fig. 6.4. Ordonarea blocurilor pentru calculul DCT

Principiile codrii cu transformare au fost prezentate anterior, n paragraful 3.5. n mod normal fiecare valoare de pixel este cuantizat pe 8 bii, ceea ce conduce la un domeniu de variaie a valorilor luminanei i crominanei (semnalele Y, R, G i B) situat ntre 0 i 255, respectiv un domeniu de variaie a valorilor semnalelor diferen de culoare (CR i CB) situat ntre -128 i +127. Pentru a realiza calculul transformatei cosinus discrete directe, toate valorile pixelilor trebuiie mai nti centrate pe zero, prin scderea valorii 128 din fiecare valoare de luminan sau crominan. n continuare, dac notm cu P( x, y ) valorile elementelor din matricea bidimensional de intrare i cu F (i, j ) valorile elementelor matricii transformate, atunci expresia de calcul a transformatei cosinus discrete directe DCT pentru fiecare bloc de 88 pixeli este [Cla, 95]:

154

Cap. 6. Standarde de compresie audio-video


7 7 1 (2 x + 1)i (2 y + 1) j C (i ) C ( j ) P ( x, y ) cos cos 4 16 16 x =0 y =0

F (i, j ) =

(6.1)

unde
1 / 2 , pentru i = 0 C (i ) = , i = 0,7 1, pentru i 0

i
1 / 2 , pentru j = 0 , j = 0,7 C ( j) = 1, pentru j 0

Prin interpretarea expresiei (6.1) se pot trage cteva concluzii cu privire la complexitatea de calcul a tranformatei DCT: Toate cele 64 valori ale matricii de intrare P( x, y ) contribuie la fiecare din intrrile matricii transformate F (i, j ) . Pentru i = j = 0 , cei doi termeni n cosinus (prin urmare coeficienii frecvenelor orizontale i verticale) sunt ambii 0. De asemenea, deoarece cos(0) = 1 , valoarea locaiei F (0,0) a matricii transformatei este o simpl sumare a tuturor valorilor din matricea de intrare. n ultim instan, coeficientul F (0,0) reprezint media tuturor celor 64 valori din matricea de intrare, fiind cunoscut i sub denumirea de coeficient DC (component continu). Deoarece valorile din toate celelalte locaii ale matricii transformatei au un coeficient al frecvenei asociat - fie orizontal ( x = 1 7 pentru y = 0 ), fie vertical ( y = 1 7 pentru x = 0 ), fie ambii ( x = 1 7 pentru y = 1 7 ) - ele sunt cunoscute sub denumirea de coeficieni AC (component alternativ). Pentru j = 0 , sunt prezeni doar coeficienii frecvenelor orizontale, ei crescnd n frecven pentru i = 1 7 . Pentru i = 0 , sunt prezeni doar coeficienii frecvenelor verticale, ei crescnd n frecven pentru j = 1 7 . n toate celelalte locaii ale matricii transformate sunt prezeni att coeficieni ai frecvenelor orizontale ct i ai frecvenelor verticale, n diferite proporii. n Figura 6.5. este prezentat n mod schematic structura matricilor iniial i transformat, cu identificarea coeficienilor DC i AC. De asemenea este prezentat modalitatea de variaie a frecvenelor spaiale orizontal i vertical, pentru a se vedea care este ponderea diveriilor coeficieni din matricea transformat.

Cap. 6. Standarde de compresie audio-video

155

P(x,y) 0 1 2 3 4 5 6 7 x 0 1 2 3 4 5 6 7 y 0 1 2 3 4 5 6 7 j

F(i,j)

Cretere fH

0 1 2 3 4 5 6 7

DCT

Cretere fV

- Coeficient DC - Coeficieni AC

Fig. 6.5. Calculul coeficienillor DCT

Pentru a avea o mai bun imagine cu privire la valorile ateptate n mod tipic pentru un bloc al transformatei DCT directe, vom considera o imagine tipic de 640 480 pixeli. Considernd c transformarea DCT se efectueaz pe blocurile tipice de 8 8 pixeli, imaginea surs va fi format din 80 60, adic 4800 blocuri, fiecare din ele cu dimensiunea de aproximativ 5 5 mm, pentru un ecran cu limea tipic de 40 cm. De aceea, regiunile din imagine care au o culoare constant vor genera un set de blocuri ale transformatei avnd: acelai (sau foarte similar) coeficient DC; doar un numr mic de coeficieni AC cu valori semnificative. De aceea, doar acele zone ale imaginii care conin tranziii de culoare vor genera seturi de blocuri ale transformatei cu coeficieni DC diferii i cu un numr mare de coeficieni AC nenuli. Aceste caracteeristici sunt exploatate n continuare n faza de codare a entropiei din cadrul algoritmului de compresie JPEG. Cuantizarea Teoretic, dac se efectueaz calculul transformatei DCT directe cu mare precizie prin utilizarea unui procesor n virgul mobil, exist o foarte mic pierdere de informaie pe durata fazei DCT. n practic apar

156

Cap. 6. Standarde de compresie audio-video

mici pierderi, datorate de obicei utilizrii unor procesoare n virgul fix. Acelai tip de erori apare ns i pe durata fazelor de cuantizare i de codare a entropiei. n conformitate cu caracteristicile fiziologice ale vederii umane [Kunt, 85], ochiul va rspunde n primul rnd la coeficientul DC i la coeficienii frecvenelor spectrale sczute. De aceea, dac amplitudinea unui anumit coeficient de frecven nalt este sub un anumit prag, ochiul nu l va detecta. Aceast proprietate este exploatat n faza de cuantizare prin eliminarea - practic, prin setarea la zero - a acelor coeficieni de frecvene spaiale din matricea transformatei care se situeaz sub un anumit prag. Trebuie specificat ns c, odat eliminai, aceti coeficieni nu mai pot fi recuperai n cursul procesului de decodare. n afar de a determina dac un anumit coeficient de frecven spaial este sub un prag predefinit, procesul de cuantizare realizeaz i reducerea dimensiunilor coeficienilor DC i AC, astfel nct s fie necesar ct mai puin band pentru transmiterea acestora. n loc de a compara fiecare coeficient cu valoarea definit a pragului, se realizeaz o mprire utiliznd valoarea de prag drept divizor. Dac numrul ntreg cel mai apropiat la care se rotunjete rezultatul este zero, atunci coeficientul frecvenei spaiale este sub valoarea de prag. Dac rezultatul nu este zero, atunci valoarea ntreag care rotunjete ctul arat de cte ori este mai mare coeficientul dect valoarea de prag, fr a caracteriza direct valoarea absolut a acestuia. Astfel se realizeaz o reducere a cantitii de informaie care trebuie transmis. De exemplu, dac pragul este definit la valoarea 16, atunci vor fi economisii 4 bii fa de cazul utilizrii valorilor absolute. Desigur c aceast reducere se face n contul preciziei utilizate pentru valoarea absolut, deoarece n cursul procesului de decodare aceasta este determinat prin multiplicarea valorii recepionate cu valoarea de prag corespunztoare. Dup cum s-a mai precizat anterior, sensibilitatea ochiului se modific cu frecvena spaial, prin urmare i valoarea de prag peste care ochiul detecteaz o anumit frecven spaial se modific. Din acest motiv, n practic, valoarea de prag utilizat este diferit pentru fiecare din cei 64 coeficieni DCT. Aceste praguri sunt memorate ntr-o matrice bidimensional, numit tabel de cuantizare. Alegerea valorilor de prag este extrem de important, fiind n practic un compromis ntre nivelul de compresie cerut i gradul de pierdere de informaie care este acceptabil. Standardul JPEG include dou tabele de cuantizare cu valori prestabilite ale pragurilor, unul pentru coeficienii de luminan i cellalt pentru cele dou seturi de coeficieni

Cap. 6. Standarde de compresie audio-video

157

de crominan. Standardul permite ns i definirea de ctre utilizator a acestor praguri, care dup utilizare n procesul de codare vor fi transmise mpreun cu imaginea comprimat. n Figura 6.6 este prezentat un exemplu de tabel de cuantizare, mpreun cu un set de coeficieni DCT i cu rezultatul cuantizrii acestora.
Coeficieni DCT
120 70 50 40 5 3 1 0 60 48 36 4 4 2 1 0 40 32 4 5 0 0 0 0 30 3 4 1 0 0 0 0 4 4 2 1 0 0 0 0 3 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12 7 3 6 3 2 0 0 0 0 0

Coeficieni cuantizai
3 2 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Cuantizare

2 0 0 0 0

10 10 15 20 25 30 35 40

10 15 20 25 30 35 40 50

15 20 25 30 35 40 50 60

20 25 30 35 40 50 60 70

25 30 35 40 50 60 70 80

30 35 40 50 60 70 80 90

35 40 50 60 70 80 90 100

40 50 60 70 80 90 100 110

Tabel de cuantizare

Fig. 6.6. Exemplu de cuantizare a coeficienilor DCT

Din exemplul considerat se pot trage anumite concluzii privind caracteristicile fazei de cuantizare: Calculul coeficienilor cuantizai implic rotunjirea ctului mpririi la cea mai apropiat valoare ntreag; Valorile de prag utilizate cresc, n general, odat cu creterea frecvenei spaiale;

158

Cap. 6. Standarde de compresie audio-video

Coeficientul DC din matricea transformat este ntotdeauna cel mai mare; O mare parte din coeficienii corespunztori frecvenelor spaiale nalte sunt egali cu zero. Ultimele dou proprieti sunt utilizate pentru realizarea urmtoarei faze, cea de codare a entropiei. Codarea entropiei Dup cum s-a artat, faza de codare a entropiei implic patru pai: Vectorizarea; Codarea diferenial; Codarea run-length; Codarea Huffman. a) Vectorizarea Diferiii algoritmi de codare a entropiei care au fost prezentai n capitolul 2 opereaz cu iruri unidimensionale de valori, adic cu vectori. Dup cum s-a vzut ns, ieirea fazei de cuantizare este constituit de o matrice de valori bidimensional. Prin urmare, nainte de a aplica orice algoritm de codare a entropiei asupra setului de valori din matrice, este necesar reprezentarea acestor valori sub forma unui vector unidimensional. Aceast operaie este cunoscut sub numele de vectorizare. Dup cum s-a vzut din exemplul prezentat n Fig. 6.6, ieirea tipic a procesului de cuantizare este constituit de o matrice bidimensional de coeficieni care sunt n marea lor majoritate de valoare zero, cu excepia unui numr de valori nenule situate n colul din stnga sus al matricii. De aceea, dac pentru a serializa valorile din matrice am utiliza conceptul de scanare linie cu linie, am obine drept rezultat un ir mixt de valori nule i nenule. Pentru a exploata n cursul procesului de compresie prezena unui numr mare de coeficieni nuli este necesar ca acetia s fie dispui ct mai grupat n vectorul unidimensional. De aceea, pentru obinerea irului unidimensional 1 64 de coeficieni, se utilizeaz o scanare n zig-zag a matricii bidimensionale. n Figura 6.7 este reprezentat schematic principiul scanrii n zigzag.

Cap. 6. Standarde de compresie audio-video

159

Coeficieni cuantizai

0 0 1 2 3 4 5 6 7

7
Vector linearizat

63
. . .

Coeficieni AC n ordinea cresctoare a frecvenei Coeficient DC

Fig. 6.7. Principiul vectorizrii

Cu aceast tehnic este scanat mai nti coeficientul DC i apoi coeficienii AC de frecven sczut (att pe orizontal ct i pe vertical). Coeficienii de frecven ridicat sunt i ei scanai n ordine secvenial, astfel nct acest tip de reprezentare este mai potrivit pentruu compresie. Pentru exemplul prezentat n Fig. 6.6 se obine vectorul liniar de reprezentare din Figure 6.8.
63 62 0 0 . . . . . . 12 11 10 0 0 0 9 2 8 2 7 2 6 2 5 3 4 3 3 3 2 7 1 6 0 12

Fig. 6.8. Vector liniar conform exemplului considerat

b) Codarea diferenial Codarea diferenial se aplic doar coeficientului DC obinut n urma fazei de cuantizare. Acesta este o msur medie a luminanei sau crominanei asociate fiecrui bloc de 8 8 pixeli, fiind cel mai mare coeficient. Datorit importanei sale deosebite, rezoluia sa este pstrat ct mai ridicat n cursul fazei de cuantizare. Pe de alt parte, datorit ariei fizice relativ mici acoperite de fiecare bloc, coeficientul DC variaz destul de puin de la un bloc la altul. Dup cum s-a artat n capitolul 2, cea mai eficient metod de compresie pentru acest tip de informaie este codarea diferenial, deoarece aceasta codeaz diferena dintre dou

160

Cap. 6. Standarde de compresie audio-video

valori dintr-un ir, i nu valoarea lor absolut. n cazul considerat, se codeaz diferena dintre valoarea coeficientului DC dintr-un bloc i cea a blocului anterior. c) Codarea run-length Codarea run-length se aplic celor 63 de coeficieni AC din matricea cuantizat. Datorit tehnicii de scanare n zig-zag, vectorul liniar va conine iruri lungi de coeficieni nuli, ceea ce face deosebit de convenabil utilizarea codrii run-length unidimensional, descris n paragraful 2.6. d) Codarea Huffman Principiul codrii Huffman a fost prezentat n paragraful 2.1.3, mpreun cu ali algoritmi de codare cu lungime variabil sau de codare a entropiei. n cadrul algoritmului de codare JPEG se utilizeaz codarea Huffman att pentru ieirea codrii difereniale a coeficienilor DC ct i pentru ieirea codrii run-length a coeficienilor AC. n acest scop poate fi utilizat un tabel de cuvinte de cod Huffman furnizat de algoritmul de codare JPEG, fie tabele de cuvinte de cod care se transmit mpreeun cu irul de bii. Construcia cadrului JPEG Tipic, irul de bii de ieire furnizat de codorul JPEG este nmagazinat n memoria unui calculator, fie cu scopul de a fi integrat ntr-o alt aplicaie, fie pentru a fi accesat de un alt calculator (eventual printr-o reea). Pentru ca decodorul unui calculator situat undeva la distan s poat interpreta diferitele cmpuri i tabele care alctuiesc informaia corespunztoare unui ir de bii JPEG este necesar delimitarea fiecrui cmp sau set de tabele ntr-un mod bine definit. De aceea, standardul JPEG include i o definire a structurii unui ir total de bii pentru o anumit imagine. Aceast structur poart denumirea de cadru i are forma prezentat n Figura 6.9. Rolul blocului Construcie cadru JPEG reprezentat anterior n Fig. 6.2 este acela de a asambla toate informaiile referitoare la o imagine codat n format JPEG. Dup cum se observ, structura unui cadru este ierarhic. Pe nivelul superior, coninutul cadrului (inclusiv header-ul) este asamblat ntre delimitatoarele de start cadru i de sfrit cadru, care permit receptorului s determine nceputul i sfritul grupului de informaie referitoare la o ntreag imagine.

Cap. 6. Standarde de compresie audio-video

161

Nivel 1

Start cadru

Header cadru

Coninut cadru

Sfrit cadru

Nivel 2

Header explorare

Explorare

........

Explorare

Nivel 3

Header segment

Segment

.......

Header segment

Segment

Nivel 4

Bloc

Bloc

.......

Bloc

Nivel 5

DC

Cod Huffman

.......

Cod Huffman

Sfrit bloc

Fig. 6.9. Formatul irului de bii JPEG

Header-ul cadrului conine o serie de cmpuri care dau informaii despre: limea i nlimea imaginii, exprimate n pixeli; numrul i tipul componentelor utilizate pentru reprezentarea imaginii (memorii LUT; componente R, G, B sau componente Y, CB, CR); formatul utilizat pentru pentru digitizarea imaginii. Pe nivelul al doilea, un cadru conine un numr de componente denumite explorri. Setul de explorri este de asemenea precedat de un header, care furnizeaz prin cmpurile sale informaii despre: identitatea componentelor (R, G, B, etc.); numrul de bii utilizai pentru digitizarea fiecrei componente; tabelul de cuantizare utilizat pentru codarea fiecrei componente. Tipic, fiecare explorare conine unul sau mai multe segmente, fiecare putnd conine un grup de blocuri, precedate de un header.

162

Cap. 6. Standarde de compresie audio-video

Acesta conine tabelul Huffman utilizat pentru codarea fiecrui bloc din segment, n cazul n care nu se utilizeaz tabelul furnizat din oficiu de ctre algoritmul JPEG. Astfel, fiecare segment poate fi decodificat independent, ceea ce elimin posibilitatea propagrii erorilor ctre alte segmente. Deoarece fiecare cadru complet conine toate informaiile necesare pentru ca decodorul s identifice cmpul recepionat, este posibil realizarea operaiunii de decodificare. 6.2.3. Decodorul JPEG Structura unui decodor JPEG este prezentat n Figura 6.10. Se poate observa c realizarea se bazeaz n linii mari pe utilizarea blocurilor similare celor folosite n procesul de compresie. Prin urmare, timpul necesar pentru realizarea funciei de decodare este similar cu timpul utilizat pentru realizarea codrii.
Decodare diferenial Decuantizor

Surs JPEG

DECODOR CADRU JPEG

Codare Huffman

Tabele

Decodare run-length

Tabele

Transf. DCT invers

Reconstrucie imagine

Memorie video

Fig. 6.10. Schema bloc a decodorului JPEG

La recepionarea irului de bii codai JPEG, decodorul cadru identific mai nti informaia de control i tabelele cuprinse n diferitele headere. n continuare, coninutul tabelelor recepionate este ncrcat n tabelele corespunztoare ale decodorului, iar informaia de control este transmis ctre blocul de reconstrucie imagine. irul comprimat de bii este transmis apoi la intrarea decodorului Huffman care realizeaz

Cap. 6. Standarde de compresie audio-video

163

operaia de decompresie corespunztoare n conformitate fie cu tabelul de cuvinte de cod furnizat din oficiu de standardul JPEG, fie cu tabelul prencrcat din irul recepionat. irurile obinute de coeficieni DC, respectiv AC sunt furnizate la intrarea decodorului diferenial, respectiv a decodorului run-length. Matricea rezultat este decuantizat prin utilizarea tabelelor prencrcate din irul recepionat. Fiecare dintre blocuri de coeficieni de frecvene spaiale de dimensiune 8 8 rezultate sunt transmise la intrarea blocului de transformare DCT invers, care le readuce la forma lor iniial prin utilizarea relaiei de calcul:
P ( x, y ) = 1 7 7 (2 x + 1)i (2 y + 1) j C (i ) C ( j ) F (i, j ) cos cos 4 i =0 j =0 16 16

(6.2)

unde
1 / 2 , pentru i = 0 C (i ) = , i = 0,7 1, pentru i 0

i
1 / 2 , pentru j = 0 C ( j) = , j = 0,7 . 1, pentru j 0

Blocul de reconstrucie a imaginii reface imaginea original din aceste blocuri, prin utilizarea informaiei de control recepionate. Dei standardul de compresie JPEG este relativ complicat, datorit numrului mare de etape pe care le implic, pot fi obinute rapoarte de compresie mai mari dect 20:1 n condiii de pstrare a unei caliti bune a imaginii de ieire. Acest ordin de mrime al compresiei se obine ns pentru imagini relativ simple, care implic relativ puine tranziii de culoare. n cazul unor imagini complexe sunt mai uzuale rapoarte de compresie de ordinul 10:1. Mai trebuie precizat n legtur cu standardul JPEG faptul c acesta permite o codare i refacere progresiv a imaginii, prin transmiterea iniial a unei versiuni de rezoluie mic, urmat de adugarea a tot mai multe detalii. Aceast facilitate poate fi realizat n dou moduri: modul pregresiv, n care se transmite iniial coeficientul DC i coeficienii de frecven joas din fiecare bloc; modul ierarhic, n care se transmite iniial o imagine de joas rezoluie (de exemplu 320 240) i abia ulterior imaginea de rozoluie maxim.

164

Cap. 6. Standarde de compresie audio-video

6.3. Familia de standarde MPEG 6.3.1. Generaliti Dup cum s-a artat n paragraful 6.1, n 1988, ISO a format un grup de decizie care includea membri din mai multe comuniti tiinifice implicate n dezvoltarea standardelor de compresie audiovideo (industria calculatoarelor, telecomunicaii, consumatori de produse electronice, semiconductori, difuzori, universiti, etc.), grup cunoscut sub numele MPEG (Moving Pictures Expert Group). Primul produs al acestui grup a fost introducerea standardului Internaional ISO/IEC 11172, cunoscut sub denumirea generic de MPEG-1. Principalul obiectiv a fost s permit stocarea pe CD-ROM sau CD-I a semnalului video de calitate VHS i a sunetului stereo, care implic un debit binar maxim de 1,5 Mb/s. Formatul ales pentru codarea imaginii a fost SIF (Source Intermediate Format), cu rezoluie de pn la 360 288 pixeli. Algoritmul de compresie audio este cunoscut sub denumirea MUSICAM, utilizat de asemenea n cazul sistemului radio digital European DAB (Digital Audio Broadcasting). Standardul MPEG-1 const n trei pri distincte publicate n Noiembrie 1992: Sistemul MPEG-1 (ISO/IEC 11172-1): definete structura multiplexului MPEG-1 Video MPEG-1 (ISO/IEC 11172-2): definete principiile codrii video MPEG-1 Audio MPEG-1 (ISO/IEC 11172-3): definete principiile codrii audio MPEG-1 Calitatea imaginii MPEG-1 nu a fost potrivit pentru aplicaii de difuzare, neinnd cont de evoluia HDTV. Grupul MPEG desfoar astfel n continuare o activitate intens, definind un standard flexibil, optimizat pentru difuzare. Acest standard internaional, utilizat pe scar mondial, este cunoscut sub denumirea de MPEG-2. Ca i predecesorul su, MPEG-2 este specificat n trei pri distincte, publicate n Noiembrie 1994: Sistemul MPEG-2 (ISO/IEC 13818/-1): definete cadrul MPEG-2 (stream) Video MPEG-2 (ISO/IEC 13818-2): definete codarea video MPEG-2

Cap. 6. Standarde de compresie audio-video

165

Audio MPEG-2 (ISO/IEC 13818-3): definete codarea audio MPEG-2. Standardul MPEG-2 este destinat nregistrrii i transmisiei semnalelor audio-video de calitate de studio. Standardul acoper patru niveluri de rezoluie video, de la 352 288 pixeli, pn la 1920 1152 pixeli. Standardul MPEG-4 a fost dezvoltat ncepnd din anul 1993, cu scopul de a specifica scheme de codare la rate foarte sczute, situate ntre 4,8 kb/s i 64 kb/s, care s permit transmisia video pe reele telefonice i mobile din generaia a doua. Ulterior, standardul a fost extins pentru a suporta o gam larg de aplicaii multimedia interactive prin Internet sau prin diverse reele din industria divertismentului. Au fost dezvoltai noi algoritmi, fundamental diferii, care includ codarea bazat pe model, interaciunea uman cu mediul multimedia i codarea vorbirii la rate sczute utilizat n sistemul GSM de telefonie mobil. Standardul a fost adoptat n versiune final n februarie 1999, sub numrul ISO 14496. Tendina de abordare a funcionalitii a fost continuat prin activitatea la standardul MPEG-7, nceput n octombrie 1996. Acest standard este orientat ctre descrierea structurii i a caracteristicilor coninutului informaiei multimedia produse de diferite standarde. Descrierile rezultate pot fi utilizate de diferite motoare de cutare pentru a localiza anumite materiale n conformitate cu caracteristicile acestora. n prezent, este n faz de dezvoltare standardul MPEG-21, care urmrete definirea unui cadru multimedia care s permit utilizarea transparent i intensiv a resurselor multimedia printr-un mare numr de reele i dispozitive. Totodat, se urmrete identificarea standardelor care pot fi utilizate n mod unitar pentru livrarea i utilizarea mijloacelor multimedia. 6.3.2. Standardul de compresie MPEG-1 6.3.2.1. Principiile de baz ale codrii MPEG-1 Principalul obiectiv al codrii MPEG-1 a fost obinerea unei caliti medii pentru imaginea televizat cu un debit binar total de 1,5 Mb/s n scopul stocrii imaginilor video precum i a sunetului stereo pe CD-ROM. Pentru semnalul video, din 1,5 Mb/s sunt necesari 1,15Mb/s, rmnnd pentru semnalul sonor i datele auxiliare (de ex. Informaiile de Sistem) 350 kb/s. Cu toate acestea, specificaiile sistemului MPEG-1 sunt foarte flexibile i permit alegerea unui set de parametri diferii, n mod dependent de compromisul stabilit ntre complexitatea codorului, rata de compresie i calitatea imaginii video.

166

Cap. 6. Standarde de compresie audio-video

Codarea semnalului video utilizeaz aceleai principii ca i n cazul sistemul JPEG (Joint Photographic Expert Group) utilizat n special pentru compresia imaginilor statice la care se adaug noi tehnici, formnd aa numitele toolbox-uri MPEG-1. Aceste tehnici se bazeaz pe exploatarea corelaiei dintre imaginile succesive, n scopul unei reduceri considerabile a numrului de bii care trebuie transmis sau stocat. Aceste tehnici utilizeaz predicia cu compensarea micrii i constau n deducerea majoritii imaginilor unei secvene pe baza unei imagini anterioare, cunoscute, sau chiar pe baza unor imagini dintr-o sub-secven, prin adugarea unui minim de informaie adiional care s defineasc numai diferenele fa dee imaginile anterioare. Acest principiu impune existena n cadrul codorului MPEG a unui sistem de estimare a micrii, care realizeaz cea mai complex funcie, care determin n mare msur performanele sistemului. Din fericire, prezena acestei funcii n structura decodorului MPEG nu este necesar. Avnd n vedere faptul c n televiziune vorbim despre imagini n micare, procedura de decodare trebuie s se realizeze n timp real, aceasta presupunnd o ntrziere n procesare constant i de valoare rezonabil, ceea ce impune utilizarea unor componente hardware speciale. Procedura de codare, care este mult mai complicat, se poate executa n mai muli pai, pentru aplicaiile n care rularea n timp real nu este necesar, dar pentru care calitatea reprezint un factor de prim importan. Prelucrarea n timp real, care nu nseamn timp de procesare nul, va fi necesar n numeroase aplicaii cum ar fi transmisiile video live. n concluzie, realizarea practic a codoarelor MPEG reprezint un compromis, specific aplicaiei, ntre viteza de procesare, rata de compresie, complexitatea sistemului i calitatea imaginii. 6.3.2.2. Tipuri de cadre MPEG Standardele din familia MPEG definesc trei tipuri de cadre de imagine, care sunt distribuite dup cum este indicat n Figura 6.11. cadre I (Intra): aceste cadre sunt codate fr referire la alte cadre din secven, ntr-o manier foarte asemntoare cu cea utilizat n cazul algoritmului JPEG, ceea ce nseamn c acestea conin toat informaia necesar reconstruciei n decodor. Din acest motiv, ele reprezint puncte de acces eseniale pentru accesarea unei secvene video. Rata de compresie a cadrelor de tip I este relativ sczut;

Cap. 6. Standarde de compresie audio-video

167

predicie

predicie

P P

B B

P P

interpolare

interpolare

Fig. 6.11. Concatenarea celor trei tipuri de cadre n standardul MPEG

cadre P (predicted): aceste cadre sunt codate prin tehnici de predicie cu compensarea micrii, pornind de la cadrele I sau P precedente. Cadrele P pot fi utilizate ca baz pentru urmtoarele cadre supuse prediciei, dar deoarece compensarea micrii nu este perfect, nu este posibil o extindere prea mare a a numrului cadrelor P aflate ntre dou cadre I. Compresia cadrelor P este semnificativ mai mare dect cea a cadrelor I; cadre B (bidirectional predicted): aceste cadre sunt codate printr-o interpolare bidirecional ntre cadrele I sau P care le preced sau le urmeaz. Deoarece ele nu sunt utilizate pentru codarea cadrelor ulterioare, cadrele B nu realizeaz o propagare a erorilor de codare. De asemenea, cadrele B ofer o rat mare de compresie. n funcie de complexitatea codorului utilizat, este posibil codarea doar a cadrelor I, a cadrelor I i P, sau a cadrelor I, P i B, cu rezultate foarte diferite n perspectiva raportului de compresie i rezoluia accesului aleator i, de asemenea, cu privire la timpul codrii i calitatea imaginii percepute dup decodare. Succesiunea cadrelor I, P i B este descris cu ajutorul a doi parametri, notai cu M i N: M reprezint distana (exprimat n numr de cadre) dintre dou cadre de tip P consecutive; N reprezint distana (exprimat n numr de cadre) dintre dou cadre succesive de tip I, care delimiteaz astfel un grup de imagini (GOP- Group of Pictures).

168

Cap. 6. Standarde de compresie audio-video

Valorile cel mai des utilizate pentru aceti parametri sunt M = 3 i N = 12, alese astfel n scopul obinerii unei caliti video satisfctoare, cu un timp de acces aleator acceptabil ( 0,5 s) i cu un debit binar de 1,15 Mbit/s. Cu aceti parametri, o secven video este generat dup cum urmeaz: 1/12 din structura sa este alctuit din cadre I (8,33 %), 1/4 cadre P (25 %) i 2/3 cadre B (66,67 %). Factorul de compresie este maximizat prin faptul c majoritatea cadrelor din secvena video descris, sunt cadre cu o rat de compresie mare. Figura 6.12 exemplific structura unui grup de imagini cu aceti parametri.
M=3

I1

B2

B3

P4

B5

B6

P7

B8

B9

P10

B11

B11

I13

N = 12 Grup de cadre GOP (Group of Pictures)

Fig. 6.12. Exemplu de grup de imagini MPEG pentru N=12 i M=3

6.3.2.3. Re-ordonarea cadrelor Este evident necesitatea ca structura secvenei imaginilor dup decodare s fie n aceeai succesiune de cadre ca i secvena original dinaintea codrii. Cu parametrii semnalai mai sus (M = 3, N = 12), succesiunea cadrelor codate este urmtoarea: 1(I), 2(B), 3(B), 4(P), 5(B), 6(B) ,7(P), 8(B), 9(B), 10(P), 11(B), 12(B), 13(I), n scopul codrii i decodrii cadrelor B (bidirecionale), att codoarele ct i decodoarele vor avea nevoie de prezena cadrelor I i P succesoare. Aceast condiie conduce la necesitatea unei reordonri a secvenei originale, astfel nct codorul i decodorul s aib la dispoziie cadrele I i/sau P necesare naintea procesrii unui cadru B. Reordonarea determin obinerea urmtoarei secvene:

Cap. 6. Standarde de compresie audio-video

169

1(I), 4(P), 2(B), 3(B), 7(P), 5(B), 6(B), 10(P), 8(B), 9(B), 13(I), 11(B), 12(B), Creterea ratei de compresie permis de cadrele B trebuie s fie pltit printr-o cretere a timpului de codare (suplimentat cu durata a dou cadre) i prin creterea capacitii memoriei necesare pentru ambele operaii de codare i decodare (un cadru suplimentar care trebuie memorat). 6.3.2.4. Descompunerea secvenei video MPEG pe niveluri MPEG-1 definete o ierarhie de niveluri n cadrul unei secvene video, dup cum este ilustrat n Figura 6.13.
Secven Grup de imagini

...
imagine Seciune

.../...
timp Macrobloc

I bloc

...

(n macroblocuri) (p seciuni) (88 pixeli)

(4 blocuri)

Fig. 6.13. Ierarhia nivelurilor video MPEG-1

Fiecare dintre aceste niveluri este caracterizat de o funcie sau de mai multe funcii specifice n procesul de decodare MPEG. Pornind de la nivelul superior, succesiunea acestor niveluri este urmtoarea: Secvena (sequence): reprezint nivelul cel mai nalt care definete contextul valid pentru secven n ansamblu (parametrii video de baz, etc.); Grupul de imagini (Group of Pictures - GOP): acesta este un nivel care determin accesul aleator la o secven de imagini, care debuteaz ntotdeauna cu un cadru I. n exemplul prezentat

170

Cap. 6. Standarde de compresie audio-video

anterior (M = 3, N = 12), grupul de imagini este alctuit din 12 imagini; Cadrul (picture): reprezint unitatea elementar a unei secvene, care poate s fie de trei tipuri: I, P sau B; Seciunea (slice): reprezint nivelul pentru adresarea intra-cadru i pentru (re)sincronizare, de exemplu pentru corecia erorilor. Acest nivel este definit ca un ir de macroblocuri alturate. Ansamblul seciunilor acoper ntreaga imagine fr nici o suprapunere ntre diferitele seciuni adiacente. Dimensiunea unei seciuni poate n mod teoretic s se situeze ca dimensiune n domeniul de la un macrobloc la ntreaga imagine, dar cel mai ades este alctuit dintrun ir complet de macroblocuri; Macroblocul (macroblock): reprezint nivelul utilizat pentru estimarea i compensarea micrii. Un macrobloc are dimensiunea de 16 16 pixeli i este alctuit din patru blocuri de luminan i dou blocuri de crominan (CR i CB), acoperind aceeai arie (conform Figurii 6.14.);
Un macrobloc = 16 16 eantioane Y (4 blocuri) + 8 8 eantioane Cb (1 bloc) + 8 8 eantioane Cr (1 bloc)

Eantion Luminan (Y)

Eantion Crominan (CR sau CB)

Fig. 6.14. Compoziia macroblocului n formatul 4:2:0

Cap. 6. Standarde de compresie audio-video

171

Blocul (block): imaginea este mprit n blocuri de dimensiunea 8 8 pixeli. Acesta este nivelul la care se aplic Transformata Cosinus Discret DCT (Discrete Cosinus Transform). Aceasta reprezint o etap important n codarea MPEG fiind de fapt un caz particular al transformatei Fourier aplicat n cazul semnalelor discrete periodice, n scopul descompunerii acestora ntr-o serie de funcii armonice sin i cos. Semnalul poate fi reprezentat astfel printr-o serie de coeficini. Fr a dezvolta detaliile matematice vom aminti c, n anumite condiii, DCT descompune semnalul ntr-o serie de funcii cosinus armonice, reducnd la jumtate numrul coeficienilor necesari pentru reprezentarea semnalului n comparaie cu Transformata Fourier. 6.3.2.5. Controlul debitului binar la ieire Secvena binar generat de ctre codorul video este numit secven elementar ES (Elementary Stream). n scopul satisfacerii constrngerilor mediului de transmisie i pentru evitarea depirii mrimii buffer-ului de la intrarea decodorului, debitul secvenei elementare trebuie pstrat constant. Aceast condiie nu este garantat prin procedurile de decodare obinuite, innd cont de diferitele tipuri de detalii i micri care pot aprea n imaginea care trebuie supus codrii.
Regularizarea debitului binar Re-ordonarea imaginilor Estimarea
micrii

DCT

Q
Q-1

VLC MUX

buffer

Intrare video

DCT-1

Ieire MPEG

memorie + predictor
Vectori micare Moduri lucru

Fig. 6.15. Schema de principiu a codorului MPEG-1

172

Cap. 6. Standarde de compresie audio-video

n scopul controlului debitului binar de la ieirea codorului, acesta este echipat cu un buffer de tip FIFO (First In First Out). Cantitatea de informaie pstrat n acest buffer este monitorizat i meninut ntre limite predeterminate prin intermediul unei bucle de reacie prin care se poate comanda modificarea parametrilor de cuantizare, care au o influen semnificativ asupra debitului secvenei codate. Astfel este posibil obinerea unui debit constant, cu o rezoluie ce depinde de coninutul i dinamica imaginii (n sensul c o mai mare micare determin o mai mic rezoluie). O schem bloc foarte general a codorului MPEG-1, ce ofer doar o imagine global i foarte departe de complexitatea real a acestuia este prezentat n Figura 6.15. n decodor (prezentat n Figura 6.16) nu este necesar efectuarea unei estimri a micrii, astfel nct structura acestuia rezult mult simplificat fa de structura codorului, ceea ce constituie unul din principalele obiective ale standardului, avnd n vedere faptul c numrul codoarelor este depit cu mult de numrul decodoarelor, rezultnd astfel o structur asimetric pentru lanul MPEG.
Pas de cuantizare

buffer

DMUX + VLD

Q-1

DCT-1

Re-ordonarea imaginilor

Vectori micare

Intrare video codat MPEG

Moduri lucru

memorie + predictor
Video decodat

Fig. 6.16. Schema de principiu a decodorului MPEG-1

6.3.3. Standardul de compresie MPEG-2 6.3.3.1. Niveluri i profile MPEG-2 Standardul MPEG-2 este mai complex dect MPEG-1, utiliznd toate facilitile acestuia i adugnd totodat altele noi. Standardul MPEG-2 este totodat compatibil cu MPEG-1 unidirecional, n sensul c un decodor MPEG-2 poate decoda toate secvenele elementare MPEG-1 comune, dar nu i invers. Standardul MPEG-2 dispune de patru niveluri, care definesc rezoluiile imaginii (de la formatul SIF la HDTV) i de cinci profile, care

Cap. 6. Standarde de compresie audio-video

173

determin setul instrumentelor de compresie utilizate, de aici rezultnd compromisul ntre rata de compresie i costul decodorului video. Cele patru niveluri, fiecare specific unui anumit gen de aplicaii, pot fi descrise succint dup cum urmeaz: nivelul sczut, corespunztor rezoluiei formatului SIF utilizat n MPEG-1 sau nivelul cu definiie limitat a imaginii LDTV (Limited Definition TV), cu un debit cuprins ntre 1 i 3,5 Mb/s; nivelul mediu (principal), corespunztor rezoluiei formatului 4:2:0, care reprezint nivelul cu definiie standard SDTV (Standard Definition TV), cu debitul ntre 4 6 Mb/s; nivelul nalt (1440), corespunztor aplicaiilor incipiente HDTV (cu rezoluia 14401152 pixeli) sau nivelul cu definiie mrit EDTV (Enhanced Definition TV), cu debitul de 11 Mb/s; nivelul cu definiie nalt sau nivelul cu definiie HDTV (High Definition TV), optim pentru rezoluii de pn la 19201152 pixeli), cu debitul de 30 Mb/s. Descrierea celor cinci profile, asociate cu fiecare nivel, este ceva mai complicat. profilul simplu (SP - Simple Profile) este definit pentru a simplifica codorul i decodorul n cazul unui debit ridicat, prin aceasta neutilizndu-se o predicie bidirecional (imaginile de tip B); profilul principal (MP - Main Profile) reprezint la acest moment cel mai bun compromis ntre rata de compresie i cost, el utiliznd toate cele trei tipuri de imagine (I, P, B), dar conducnd la codare i decodare ceva mai complicate; profilele scalabile SNR i spaial (SNR and Spatially Scalable Profiles) sunt realizate printr-o codare ierarhic i sunt definite n scopul unor utilizri ulterioare. Aceste profile permit transmiterea unei caliti de baz a imaginii (base layer) n termeni de rezoluie spaial (Spatially Scalable Profile) sau de acuratee a digitizrii (SNR Scalable Profile), precum i a unei informaii suplimentare (enhanced layer) permind posibilitatea modificrii caracteristicilor imaginii. Aceasta poate fi utilizat, de exemplu, pentru a transmite ntr-o form compatibil aceleai programe, ntr-o rezoluie de baz pentru decodoare standard i ntr-o rezoluie superioar pentru decodoare HD speciale sau, n mod alternativ, pentru a permite recepia unei caliti de baz n

174

Cap. 6. Standarde de compresie audio-video

condiii de recepie dificile i schimbarea calitii, n condiii de recepie favorabile (TV terestrial). profilul nalt (High Profile) este specific pentru aplicaiile de difuzare HDTV n formatele 4:2:0 i 4:2:2. Exist o compatibilitate ascendent ntre profilele prezentate, aceasta nsemnnd c un decodor realizat pentru un profil dat va fi capabil s realizeze decodarea tuturor profilelor inferioare celui cruia i este destinat. Cea mai important combinaie, utilizat att n aplicaiile de difuziune n standardele Europene ct i n cele Americane, este cunoscut sub denumirea Profilul principal al nivelului principal MP@ML (Main Profile at Main Level). Acesta corespunde codrii video MPEG-2 cu explorare ntreesut n formatul 4:2:0, cu o rezoluie de 720 480 pixeli, la frecvena cadrelor de 30 Hz sau cu rezoluia de 720 576 pixeli, la frecvena cadrelor de 25 Hz, incluznd codarea tuturor tipurilor de cadre I, P sau B. n mod dependent de compromisul dintre debitul binar i calitatea imaginii, debitul va fi n general cuprins ntre 4 Mb/s (determinnd o calitate comparabil cu cea furnizat de sistemele analogice PAL, SECAM sau NTSC) i 9 Mb/s (aproape de calitatea de studio definit prin Recomandarea 601 CCIR). 6.3.3.2. Organizarea multiplexului MPEG a) Secvena binar program Secvena elementar ES (Elementary Stream) reprezint o mpachetare a irurilor elementare de date de la diferite surse: video, audio sau alte secvene particulare i informaii auxiliare cu diverse funciuni. Aceast combinare a diferitelor surse, efectuat ntr-o manier organizat, trebuie s permit separarea acestor informaii elementare n decodor printr-o operaie de demultiplexare invers. Funciile de baz ale acestui nivel, care urmeaz imediat nivelului de compresie sunt urmtoarele: mpachetarea i combinarea multiplelor secvene elementare ntr-o singur secven binar; adugarea codului de timp n vederea realizrii sincronizrii; iniializarea i administrarea bufferelor necesare decodrii ES. Rezultatul acestor proceduri determin definirea secvenei elementare mpachetate PES (Packet Elementary Stream). Pachetul

Cap. 6. Standarde de compresie audio-video

175

PES ncepe cu un header a crui structur este ilustrat n Figura 6.17 i este detaliat n Tabelul 6.1. Partea de sistem MPEG-2 (ISO/IEC 13818-1), care definete organizarea multiplexului, prevede utilizarea a dou metode diferite pentru multiplexarea PES, n scopul formrii a dou tipuri diferite de secvene binare n mod dependent de aplicaie.
1 byte Start_code_prefix Start_code_prefix Start_code_prefix Stream_id Packet_length Packet_lenght PES header sub - fields Stuffing PES-header-length 3 flag_bytes PES-header-flags

Flag dependent sub-fields

PES_scrambling_control (2 bii)

Fig. 6.17. Structura headerului pentru PES MPEG -2 Tabelul 6.1. Structura header-ului PES MPEG-2
Cmpul
Start_code_prefix Stream_id Packet_length PES_scrambling_control Flags PES_header_length PES_header_subfields Stuffing

Definiie
Codul de start (00 00 01 hex) Identificare PES Lungimea pachetului (n byte) Indic dac PES este supus procedurii de scrambling + nume cuvnt control Diveri indicatori Lungimea prii rmase din PES Cmp variabil ce depinde de indicatori Info suplimentar opional

Nr. de bii
24 8 16 2 14 8 x byte y byte

176

Cap. 6. Standarde de compresie audio-video

Secvena program MPEG-2 este alctuit din unul sau mai multe pachete PES (video, audio sau informaie auxiliar), dar care n mod necesar trebuie s aib aceeai referin temporal: semnalul de tact STC (System Time Clock). Acest tip de secven este potrivit pentru aplicaiile care trebuie s implice introducerea unui numr minim de erori de propagare, fiind caracterizate printr-o rat a erorilor de bit BER (Bit Error Rate) mai mic de 10-10. Astfel de medii de propagare sunt denumite medii QEF (Quasi Error Free). Acesta este n general cazul aplicaiilor multimedia bazate pe CD-ROM sau hard disk-uri. n aceste cazuri pachetele pot fi relativ lungi (de cca. 2048 bytes) i necesit o organizare a secvenei de date similar MPEG-1. Acest tip de multiplexare se utilizeaz pentru stocarea informaiei video n format MPEG-2 pe discurile digitale versatile DVD, care sunt deja disponibile pe pia. b) Secvena binar transport Aceast secven determin n primul rnd transportul programelor TV pe o distan lung, prin intermediul unui suport sau mediu de transmisie susceptibil de introducerea unui numr mare de erori (caracterizat de o rat a erorilor de bit BER mai mare dect 10-4). Aceste tipuri de medii de propagare sunt definite ca error-prone.

Pachetul PES1 (>184 bytes) Pachetul PES 184 byte 184 byte <184 byte

Pachetul PES2 =184 bytes

184 byte

Secvena pachetului transport

PT1
188 byte

PT2

PT3

PT4

PT5

PT6

PT7

Cmp de adaptare Header PES

Header pachet de transport DATE (video, audio, etc.)

Fig. 6.18. Formarea secvenei de transport MPEG-2

Cap. 6. Standarde de compresie audio-video

177

n aceste cazuri, lungimea pachetelor trebuie s fie relativ mic, pentru a permite implementarea unui algoritm de corecie eficient. Lungimea pachetului de transport MPEG-2 a fost fixat la valoarea de 188 byte pentru transmisia programelor TV via satelit, cablu sau difuziune terestr n conformitate cu standardul european DVB. Acest tip de secven poate combina n structura multiplexului mai multe programe pentru care nu este necesar s se urmreasc aceeai referin temporal, deci nu trebuie s existe o baz de timp unic. Pachetele PES diferite care fac parte din acelai program trebuie ns dirijate de acelai semnal de tact, pentru a face posibil sincronizarea lor la decodare. Figura 6.18 ilustreaz modalitatea n care se organizeaz pachetele n cazul unei structuri de transport multiplexate. c) Compunerea pachetului de transport MPEG-2 Pachetul transport alctuit din 188 byte este format dintr-un header cu lungimea de 4 bytes i cu partea util (payload) de pn la 184 bytes, precedat de un cmp de adaptare opional (vezi Figura 6.19).
cmp de adaptare

date utile

184 - x 4 Header-ul pachetului

x byte

188 byte

Fig. 6.19. Coninutul pachetului transport

8 bii

13 bii

2 2

4 bii

Sync. 0 47

PID

Transport_priority Payload_unit_start_indicator Transport_error_indicator

Fig. 6.20. Detaliu al header-ului pachetului transport

Continuity counter

178

Cap. 6. Standarde de compresie audio-video

n acest context, prin partea util se nelege partea care conine datele pachetului elementar corespunztoare programului TV, la care se adaug o anumit cantitate de date care s permit decodorului s determine propria direcie n secvena de transport MPEG-2. Formatul header-ului pachetului transport este ilustrat n Figura 6.20 i detaliat n Tabelul 6.2.
Tabelul 6.2. Structura header-ului pachetului de transport MPEG-2
Cmpul
Sync_byte EI PUSI TPR PID SCR_flags AF PF CC

Definiie (comentarii)
Bit de sincronizare (1000 0111 = 47 hex) Error_indicator (Indicator eroare din etapa anterioar) Payload_unit_start_indicator (start PES) Transport_priority (Indicator prioritate) Packet_identifier (identific coninut pachet) Transport_scrambling_flags (tipul procedurii de scrambling) Adaptation_field_flag (prezena cmpului de adaptare n pachet) Payload_flag (prezena datelor payload n pachet) Continuity_counter (ntre poriuni PES trunchiate)

Nr. de bii
8 1 1 1 13 2 1 1 4

ISO/IEC 13818-1 prescrie faptul c pachetul de transport trebuie s dirijeze doar date care sosesc de la un pachet PES i c un pachet PES trebuie s se afle ntotdeauna la nceputul prii utile a PT i trebuie s se termine la sfritul pachetului de transport. Deoarece pachetul transport (188 byte, incluznd 4 byte header) este n general mai scurt dect pachetele PES (de exemplu 2048 byte), acestea din urm trebuiesc divizate n blocuri de date de cte 184 byte. Deoarece lungimea pachetelor PES nu este n general un multiplu de 184 byte, ultimul pachet de transport care dirijeaz un pachet PES trebuie s nceap cu un cmp de adaptare, a crui lungime va fi egal cu 184 bytes mai puin numrul de byte care rmn n pachetul PES (vezi Figura 6.21). n plus fa de aceast funcie de completare, cmpul de adaptare va fi folosit pentru transportul diferitelor date opionale, precum i a referinelor temporale PCR (Program Clock Reference), care au acelai rol ca i n cazul MPEG-1. Rata de repetiie minim a PCR este de 10 perioade pe secund. n unele cazuri, payload-ul pachetului de transport poate fi compus numai dintr-un cmp de adaptare de 184 byte (de exemplu pentru transportul datelor auxiliare). Figura 6.22 ilustreaz

Cap. 6. Standarde de compresie audio-video

179

formatul general al cmpului de adaptare, al crui coninut este detaliat n Tabelul 6.3.
PES Sfritul PES

Pachetul transport

H
184 -x

AF

Fig. 6.21. Formarea pachetului transport pentru sfritul PES


y 1 1 x y-x-1 (bytes)

Flags

Optional field

Stuffing

Adaption field length

Fig. 6.22. Detaliu asupra cmpului de adaptare Tabelul 6.3. Cmpul de adaptare MPEG-2
Cmpul
Adaption_field_length Flags Optional_fields Stuffing

Definiie
Lungime total (y-1 bytes) Informaia din cmpul urmtor Cmpul opional de date (x bytes) Valoarea FFh

Nr. de bii
8 8 x 8 (y-1-x) 8
*

6.3.4. Standardul MPEG-4 6.3.4.1. Originea i caracteristicile standardului MPEG-4 Progresul tehnologic extrem de rapid din ultima perioad a fcut ca un standard dezvoltat pentru o anume aplicaie s fie rapid transferat i ctre alte aplicaii. Acest lucru s-a ntmplat i n cazul standardelor MPEG-1 i MPEG-2. Dezvoltarea rapid a Internetului i a

180

Cap. 6. Standarde de compresie audio-video

comunicaiilor mobile au condus la creterea extrem de rapid a cerinelor de standardizare ntr-un set extrem de larg de aplicaii. n acest context a aprut i a fost dezvoltat standardul MPEG-4. Aplicaiile n care se utilizeaz standardele MPEG-1 i MPEG-2 se nscriu n domeniile comunicaiilor, calculatoarelor i industriei de divertisment. Aceste domenii se caracterizeaz printr-un proces continuu de convergen, care este de ateptat s continue i n viitorul apropiat. Ideea de convergen a mediilor i tehnologiilor constituie un puternic impuls pentru stimularea activitii principalelor organisme implicate n activitatea de standardizare. Din acest motiv, unul dintre scopurile MPEG-4 a fost acela de a crea un cadru standard care s permit integrarea ct mai larg a aplicaiilor convergente. Pentru introducerea elementelor de noutate ale standardului MPEG-4 este necesar o prealabil prezentare comparativ a modelelor de referin pentru diversele standarde din familia MPEG. Modelele generale de referin pentru standardele MPEG-1 i MPEG-2 sunt prezentate n Figurile 6.23, respectiv 6.24.
V I D E O A U D I O

S U R S

T R A N S P O R T

D E M U X

Fig. 6.23. Modelul general de referin pentru MPEG-1

S U R S

T R A N S P O R T

D E M U X

Video

Audio

Interaciune

Fig. 6.24. Modelul general de referin pentru MPEG-2

Cap. 6. Standarde de compresie audio-video

181

Legat de aceste modele de referin trebuie remarcat faptul c, dei sunt foarte simple, ele caracterizeaz principalele elemente specifice standardelor respective. Ele simbolizeaz faptul c ambele standarde adreseaz domeniul transmiterii la o anumit rat i cu o anumit calitate a semnalelor audio i video, considerate ca un tot unitar. Pe de alt parte, inovaia important a standardului MPEG-2 este aceea de a introduce funcia de interaciune. Datorit necesitilor tot mai mari de interaciune n majoritatea aplicaiilor, a fost creat grupul de standardizare MHEG (Multimedia and Hypermedia Experts Group), care a condus la crearea standardului numit MHEG-5, care extinde funcionalitile care permit lucrul cu MPEG-2 i alte metode de compresie. MHEG-5 nu este de fapt un standard de compresie, dar permite compunerea unor scene care adaug text, imagini fixe i animaii grafice la secvenele audio-video suportate i de MPEG-2. Aceste elemente sunt introduse de ctre autorul aplicaiei, dar exist anumite grade de interactivitate care permit utilizatorului s modifice evoluia scenelor, prin intermediul meniurilor de selecie i prin introducerea de text. n majoritatea aplicaiilor multimedia, o secven video este de cele mai multe ori doar o component, chiar dac foarte important, a unei scene. De cele mai multe ori este necesar adugarea unor imagini fotografice, a unor logo-uri, a unor texte explicative, precum i a unor butoane i meniuri care s asigure interactivitatea. O situaie tipic n acest sens este prezentat n Figura 6.25. Standardul MHEG-5 definete o reprezentare codat a unei scene, adic sintaxa i semantica asociat, care permit autorului s compun o scen bidimensional, cu urmtoarele caracteristici: a) componentele de ieire sunt secvene audio i imagini rectangulare de tip iruri de text imagini statice animaii grafice secvene audio-vizuale

b) componentele de intrare sunt de tip text meniuri de selecie (butoane, hot spot-uri) c) desfurarea unei scene este conform cu evenimentele care acioneaz asupra componentelor de ieire sau de intrare. Din aceste motive, evoluia unei scene este programat de autor i poate fi modificat de ctre utilizator, cu constrngerile impuse de ctre autor.

182

Cap. 6. Standarde de compresie audio-video

Fig. 6.25. Structura unei aplicaii multimedia tipice

Modelul general de referin pentru MHEG-5 este prezentat n Figura 6.26.


MHEG S U R S
T R A N S P O R T

D E M U X

Video Audio Animaie Text

C O M P O Z I I E

DSM-CC

Interaciune

Fig. 6.26. Modelul general de referin pentru MHEG-5

MHEG-5 definete un format de fiier format din: un fiier "aplicaie", adic descrierea tuturor scenelor MHEG-5 care compun aplicaia i a relaiei dintre ele;

Cap. 6. Standarde de compresie audio-video

183

un fiier "scen" pentru fiecare din scenele MHEG-5. Diferitele tipuri de date pot fi incluse n fiier sau pot fi enumerate ntr-un spaiu definit, unde pot fi regsite prin intermediul protocolului DSM-CC, care realizeaz interactivitatea (conform Figurii 6.26). Denumirea DSM-CC provine de la "Digital Storage Media Command and Control", fiind un standard internaional din Iulie 1996. El reprezint specificaia unui set de protocoale care descriu funciile de control i operaiunile specifice pentru lucrul cu irurile de bii MPEG. Aceste protocoale pot fi utilizate pentru dezvoltarea de aplicaii att n medii de reele de sine stttoare ct i n medii de reele heterogene. n modelul DSM-CC, un ir este furnizat de un Server i livrat ctre un Client, ambii fiind considerai drept Utilizatori de ctre reeaua DSMCC. DSM-CC definete o entitate logic numit SRM (Session and Resource Manager), care furnizeaz un management centralizat logic al sesiunilor i resurselor DSM-CC. Figura 9.19 prezint modelul DSM-CC. Standardul MPEG-4 preia toate ideile acestor predecesori i le dezvolt prin acceptarea unui grad mai mare de interaciune din partea utilizatorului i prin utilizarea unor metode noi de compresie video, orientate pe obiecte. De asemenea, MPEG-4 ofer capaciti extinse i mai multe oppiuni pentru codarea sunetului i a vocii. n plus, MPEG-4 permite utilizarea informaiilor audio i video naturale sau sintetizate, sau chiar a unei combinaii a acestora. Figura 6.27 prezint modelul general de referin pentru MPEG-4. Se poate observa cu uurin din acest model, c este vorba despre un standard extrem de diferit fa de MPEG-1 i MPEG-2, precum i c este o extensie a standardului MHEG-5 prin includerea structurii MPEG.

BIFS S U R S
T R A N S P O R T

D E M U X

Video Audio Animaie Text

C O M P O Z I I E

P R E Z E N T A R E

Interaciune

Fig. 6.27. Modelul general de referin pentru MPEG-4

184

Cap. 6. Standarde de compresie audio-video

6.3.4.2. Descrierea scenelor MPEG-4 Diferena esenial dintre MPEG-4 i standardele anterioare MPEG-1 i MPEG-2 este aceea c standardul MPEG-4 se bazeaz pe descompunerea unei scene n componente (numite obiecte audiovizuale), pe codarea acestor obiecte i apoi pe reconstituirea scenelor din aceste obiecte. Figura 6.28 prezint un exemplu tipic de compoziie a unei scene MPEG-4 din obiecte audio-vizuale AVO (Audio-Visual Objects). O scen audio-vizual este compus din mai multe obiecte audio-vizuale AVO, organizate ierarhic. La baza acestei ierarhii se gsesc obiectele primitive, care pot fi: fundal fix bidimensional; imagini naturale (de ex. persoana care vorbete din Fig. 6.28); secvene audio naturale (de ex. vocea asociat persoanei din Fig. 6.28); obiecte sintetizate (de ex. biroul sau globul din Fig. 6.28); imagini sintetizate; sunete sintetizate (fundal muzical); texturi. Astfel, scena este descompus, fiecare obiect fiind codat i comprimat separat, rezultatele fiind organizate sub forma unui ir de date cu denumirea de format binar al scenelor BIFS (Binary Format of Scenes) n vederea transmiterii ctre decodor. La nivelul decodorului, informaia BIFS este decodat, componentele scenei sunt decompresate i este refcut scena iniial. Exist o serie de avantaje legate de utilizarea descompunerii scenelor i a codrii separate a componentelor. Cel mai important avantaj este acela c o anumit metod de compresie nu mai trebuie utilizat pentru comprimarea unei scene complexe care include oameni, obiecte cu o form arbitrar i, posibil, text. Odat descompunerea realizat, fiecare obiect component poate fi comprimat separat, printr-o tehnic ct mai bine adaptat sursei specifice de provenien a obiectului. Alt avantaj important este acela c irul de date obinut are proprietatea de scalabilitate. Cu alte cuvinte, irul de date poate fi modificat prin nlturarea sau adaptarea coninutului, n funcie de limea benzii de transmisie disponibile i de cerinele de

Cap. 6. Standarde de compresie audio-video

185

complexitate a scenei. Acest concept este extrem de important i inovativ. De exemplu, dac este necesar la un moment dat micorarea ratei de transmisie, n loc de a se renuna la bii de rezoluie, care vor afecta calitatea ntregii scene, se poate renuna doar la unul din obiectele mai puin importante din scen, fr a afecta calitatea de ansamblu a acesteia.

Fig. 6.28. Compunerea unei scene MPEG-4

Un alt avantaj al utilizrii descompunerii scenelor i compresiei bazate pe obiecte este acela c utilizatorul poate fi autorizat s acceseze diverse obiecte din scen i s schimbe coninutul acesteia n funcie de interesele sale particulare.

186

Cap. 6. Standarde de compresie audio-video

Figura 6.29 prezint o modalitate de descompunere ierarhic a scenei exemplificate n Figura 6.28. Scena este rupt n mai multe obiecte audio i video (persoan, fundal, mobilier) i o prezentare audiovizual. Prin urmare exist n scen obiecte i componente, ca de exemplu fundalul, care este de ateptat s rmn n scen pentru un timp mai ndelungat. Aceste componente sunt codate separat i nu este necesar ca ele s fie recodate i retransmise din nou pn n momentul n care se modific. De asemenea, trebuie notat faptul c obiectul persoan este la rndul su descompus ntr-o form video (sprite) i o voce, care pot fi codate separat. Desigur c acestea se schimb constant, de aceea ele trebuie codate i transmise permanent, spre deosebire de imaginea de fundal. Prezentarea audio-vizual poate conine secvene audio de nalt calitate, care trebuie codate prin tehnici specifice. Global vorbind, abordarea orientat pe obiecte conduce la posibilitatea unei compresii mai bune dect n cazul utilizrii unui algoritm clasic de compresie care nu trebuie s lucreze cu un numr att de mare i variat de intrri.

Scena

Persoan

Fundal 2D

Mobilier

Prezentare audio-video

Voce

Imagine

Glob

Birou

Fig. 6.29. Descompunerea ierarhic a scenelor

Cap. 6. Standarde de compresie audio-video

187

6.3.4.3. Structura codorului MPEG-4 Figura 6.30 prezint schema bloc a algoritmului de compresie MPEG-4 utilizat pentru codarea secvenelor video de form rectangular sau arbitrar.

+
Intrare video

DCT

Q
Q-1

Codare textur

Multiplex video

Ieire MPEG

DCT-1

+
C o m u t a t o r Predictor 1 Predictor 2 Predictor 3

Memorie cadru

Estimare micare

Codare form

Fig. 6.30. Structura codorului video MPEG-4

Structura de baz pentru codarea formelor arbitrare, cu compensarea micrii se bazeaz pe utilizarea codrii cu transformare cosinus discret DCT pe blocuri de 8 8 sau 16 16 pixeli. Pentru tratarea difereniat a diferitelor obiecte n care este descompus scena se utilizeaz diferite metode de predicie pentru compensarea micrii.

188

Cap. 6. Standarde de compresie audio-video

6.3.5. Standardul MPEG-7 Standardul MPEG-7, aflat nc n faz de dezvoltare, continu procesul de abstractizare demarat prin MPEG-4 prin punerea accentului pe funcionalitate cel puin n aceeai msur n care se pune pe tehnicile de compresie. Standardul mai este denumit i Interfa de Descriere a Coninutului Multimedia MCDI (Multimedia Content Description Interface) i pune accentul pe interpretarea informaiei astfel nct s poat fi utilizat sau cutat n baze de date de ctre calculatoare sau alte dispozitive electronice. Aplicaiile posibile se refer la cutarea de informaie pe baza coninutului, la clasificarea informaiilor audio i video, precum i la accelerarea accesului la site-uri Internet. Diagrama din Figura 6.31 realizeaz o prezentare de ansamblu a aplicaiilor posibile pentru standardul MPEG-7. Aceeai schem prezint i elementele utilizate de acest standard: un set de descriptori D (Descriptors), un set de scheme de descriere DS (Description Schemes) i un limbaj de descriere a definiiilor DDL (Description Definition Language). Acesta din urm este realizat pe scheletul limbajului XML.
Coninut Multimedia Utilizator / sistem prelucrare date

Generare descriere

Limbaj descriere definiii (DDL) Scheme de descriere (DS) Descriptori (D)

Filtre

Utilizator (uman / sistem)

Descriere MPEG-7

Motor de cutare

Codor

Descriere codat MPEG-7

Decodor

Fig. 6.31. Prezentarea abstract a standardului MPEG-7

Pasul de generare a schemelor de descriere este extrem de important, avnd n vedere scopul principal al MPEG-7 de a permite un grad mare de abstractizare i de "nelegere" a caracteristicilor scenelor de ctre dispozitivele automate. n consecin, acest pas va necesita

Cap. 6. Standarde de compresie audio-video

189

algoritmi pentru extragerea caracteristicilor, dar specificarea tipului de algoritmi nu intr n preocuparea standardului MPEG-7. Acest lucru este explicabil prin faptul c se dorete deschiderea ctre dezvoltrile ulterioare i crearea pentru diveri competitori a oportunitii de a-i dezvolta proprii algoritmi, care s le personalizeze sistemele. 6.4. Standarde de compresie audio 6.4.1. Compresia audio NICAM Termenul NICAM provine de la Near Instantaneous Companding Audio Multiplex. Sistemul NICAM se utilizeaz n locul canalului audio stereo clasic, reprezentnd o tehnic de codare numeric capabil s reduc cantitatea de date necesar pentru transmiterea informaiei audio. Sistemul NICAM a fost proiectat pentru a transmite dou canale audio de 15 kHz. Frecvena de eantionare utilizat este de 32 kHz, iar numrul iniial de bii/eantion este de 14. Aceast situaie ar conduce ns la o rat de date prea mare pentru utilizarea n sistemele de difuzare terestr PAL. Din acest motiv, cei 14 bii/eantion iniiali sunt comprimai la doar 10 bii/eantion, printr-un procedeu digital uor diferit de cel utilizat n compandarea analogic folosit pentru reducerea zgomotului n sistemele audio. Procedura de compresie opereaz prin mprirea irului de eantioane n blocuri de cte 32 eantioane. Formatul numeric utilizat pentru codarea eantioanelor nu este binar ordinar, ci complement de 2 (creat prin inversarea biilor i adunarea lui unu). Bitul cel mai semnificativ MSB (Most Significant Bit) are semnificaia de semn al eantionului. n continuare este selectat cel mai mare eantion din bloc, acesta fiind utilizat apoi pentru definirea modului n care se prelucreaz blocul respectiv. Figura 6.32 reprezint schematic procedura de codare NICAM. Domeniul de variaie al semnalului (n valoare absolut) este mprit n cinci domenii de codare, relativ la amplitudinea maxim unitar a acestuia. Aceste domenii sunt: de la 1 la 0,5 de la 0,5 la 0,25 de la 0,25 la 0,125 de la 0,125 la 0,0625 de la 0,0625 la 0

190

Cap. 6. Standarde de compresie audio-video

MSB
0 : 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 : 1 1 : 1 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 0 : 0 1 : 0 1 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 1 : 0 1 : 0 X 1 0 0 0 0 0 0 0 1 1 1 1 1 1 1 0 X 1 : 0 1 : 0 X X 1 0 0 0 0 0 0 1 1 1 1 1 1 0 X X 1 : 0 1 : 0 X X X 1 0 0 0 0 0 1 1 1 1 1 0 X X X 1 : 0 1 : 0 X X X X 1 0 0 0 0 1 1 1 1 0 X X X X 1 : 0 1 : 0 X X X X X 1 0 X 0 1 X 1 0 X X X X X 1 : 0 1 : 0 X X X X X X 1 X 0 1 X 0 X X X X X X 1 : 0 1 : 0 X X X X X X 1 X 0 1 X 0 X X X X X X 1 : 0 1 : 0 X X X X X X 1 X 0 1 X 0 X X X X X X 1 : 0 1 : 0 X X X X X X 1 X 0 1 X 0 X X X X X X 1 : 0 1 : 0

LSB
1 : 0 X X X X X X 1 X 0 1 X 0 X X X X X X 1 : 0

Factor scal
1 1 1

X X X X X X 1 X 0 1 X 0 X X X X X X 1 : 0

1 1 0

1 0 1

0 1 1

0 1 1

1 0 1

1 1 0

Fig. 6.32. Codarea NICAM

Domeniul de codare care urmeaz a fi utilizat de fiecare bloc este determinat printr-un cuvnt de trei bii, numit factor de scal (Scale Factor). Dac blocul de eantioane este situat n primul domeniu de codare (n conformitate cu cel mai mare eantion al blocului), atunci cei mai puin semnificativi 4 bii ai fiecrui eantion sunt neglijai. Dac blocul de eantioane este situat n al doilea domeniu de codare, atunci

Cap. 6. Standarde de compresie audio-video

191

sunt neglijai cei mai puin semnificativi 3 bii, mpreun cu bitul cel mai semnificativ (cu excepia celui de semn). Procedura se continu i pentru celelalte trei domenii de codare, ajungndu-se n final la o reprezentare a semnalului pe doar 10 bii, indiferent de domeniul n care se situeaz acesta. Este ns de remarcat faptul c neglijarea a cte 4 bii se face dinamic, pentru minimizarea erorilor. n Figura 6.32 sunt evideniai biii care se nltur n funcie de dinamica semnalului. Semnalul NICAM este transmis n iruri de bii cu structura de cadre a cte 728 bii. Fiecare cadru este transmis n aproximativ 1 msec. Trebuie ns fcut precizarea c nu trebuie fcut o confuzie ntre utilizarea termenului de cadru NICAM i cadrele utilizate n sistemele de televiziune. Prin urmare rata de transmisie n sistemele NICAM este de 728.000 bii / secund (728 kbit/sec). Structura unui cadru NICAM 728 este prezentat n Figura 6.33 i n Tabelul 6.4.
728 bii, 1 ms 6411 bii, audio + paritate

FAW

AD

A1

B1

A2

B2

A32

B32

01001110

AD0 AD1

AD9 AD10

C0 C1 C2 C3 C4

D0 D1 D2 D3 D4 D5 D6 D7 D8 D9 P

Fig. 6.33. Structura cadrului NICAM 728

Cuvntul de aliniere cadru FAW (Frame Alignment Word) este un cuvnt de 8 bii (0100 1110) transmis la nceputul fiecrui nou cadru NICAM. Scopul su este de a permite decodorului NICAM sincronizarea cadrelor. n anumite sisteme de acces condiionat se rearanjeaz ordinea biilor din acest cuvnt de sincronizare, rezultnd n acest mod imposibilitatea de sincronizare a decodorului.

192

Cap. 6. Standarde de compresie audio-video

Tabelul 6.4. Semnificaia cadrului NICAM 728


Tipul de dat
Cuvnt aliniere cadru (Frame Alignment Word) Informaie de control (Control Information) Date suplimentare (Additional Data) Sunet i control de paritate (Sound and Parity)

Lungime (bii)
8 5 11 704

Rata de bii (kbit/s)


8 5 11 704

Informaia de control C este transmis prin intermediul unui cuvnt de cinci bii. Primul bit, C0, este bitul indicator de cadru. El este activ pentru primele 8 cadre i inactiv pentru urmtoarele 8 cadre. Urmtorii trei bii, C1, C2 i C3 sunt utilizai pentru a semnaliza aplicaia. Ei sunt denumii i bii de control al aplicaiei. Bitul C3 este utilizat pentru a semnala necesitatea de sunet adiional sau de prelucrare suplimentar a datelor. i acest bit este utilizat n sistemele de criptare pentru realizarea accesului condiionat. Dac acest bit este activ, atunci decodoarele fr logica de decriptare necesar vor bloca ieirea audio. Bitul C4 este utilizat ca i bit de rezerv pentru indicarea comutrii sunetului. Semnificaia biilor C1, C2 i C3 este prezentat n Tabelul 6.5.
Tabelul 6.5. Semnificaia biilor C1, C2 i C3
C1 C2 C3
0 0 1 1 0 1 0 1 0 0 0 0

Coninutul blocului de sunet de 704 bii


Semnal stereo - eantioane alternative canal A i canal B 2 canale mono independente (M1 i M2), transmise n cadre alternative 2 canale mono independente (M1 i M2), transmise n cadre alternative 1 canal de date de 704 bii

Biii adiionali de date AD (Additional Data) sunt n numr de 11. Utilizarea acestor bii nu a fost definit oficial n nici o specificaie. Ei pot fi utilizai pentru identificarea serviciului. De asemenea poate fi inserat un cod pentru controlul subtitrrii prin serviciul de teletext. Modalitatea de transmisie a informaiei audio (Audio) n cadrul celor 64 grupe de cte 11 bii se face n mod diferit n funcie de calitatea sunetului transmis. n cazul sunetului monofonic, cele 64 grupuri de cte 11 bii (total 704 bii) se transmit de la aceeai surs. mpreun cu biii adiionali (11 bii) i cei de control (5 bii) formeaz un bloc de codare.

Cap. 6. Standarde de compresie audio-video

193

n cazul unor transmisii mixte, ntre pachetele de sunet pot fi intercalate i pachete de date. Niciodat ns nu se mixeaz bii de sunet i de date n acelai pachet. n cazul unei surse de sunet stereofonic, eantioanele provenite de la cele dou canale sunt ntreesute pentru a forma un singur bloc de codare. n Fig. 6.33, eantioanele corespunztoare canalului stng sunt mpachetate pe grupuri de cte 64 bii, notate cu A1 pn la A32, iar cele corespunztoare canalului din dreapta sunt mpachetate pe grupuri de cte 64 bii, notate cu B1 pn la B32. n acest mod se pstreaz relaia de faz ntre eantioanele stereo manipulate. Trebuie menionat de asemenea faptul c pentru protecie se utilizeaz cte un singur bit de paritate pentru fiecare grup de 10 bii de codare a sunetului. Petru realizarea transmisiunilor NICAM se utilizezaz modulaia DQPSK (Differentially Encoded Quadrature Phase Shift Keying), care permite reducerea benzii necesare pentru transmiterea informaiei. Fiecare schimbare de faz reprezint o pereche de bii sau doi bii independeni de date. Formatul de modulaie este clar i lipsit de ambiguitate. O pereche de bii poate fi oricnd recuperat la recepie prin compararea fazei prezente a purttoarei cu faza imediat anterioar.

6.4.2. Sistemul Dolby AC-3 Sistemul Dolby AC-3 reprezint de fapt o familie de codere realizate prin tehnica codrii cu transformare, cu accentul pe realizarea unui bun compromis ntre ntrzierea de codare i rata de bit obinut. Fr a intra n detaliile matematice, trebuie s menionm faptul c sistemul utilizeaz transformata cosinus discret modificat pe ferestre ale semnalului, cu un factor de suprapunere a domeniilor de 50 %. Drept urmare se obine un numr aproximativ dublu de coeficieni fa de necesarul de codare. Se utilizeaz o sub-eantionare cu factor aproximativ 2, ceea ce conduce la posibile erori de aliere. Noutatea introdus de acest sistem const n modificarea transformatei n aa fel nct eroarea produs n cea de-a doua jumtate a unei ferestre s fie egal i de semn opus erorii din prima jumtate a ferestrei urmtoare. n acest mod se realizeaz compensarea erorii la reconstrucia semnalului. Aceasst metod este cunoscut sub denumirea de anulare a erorii de aliere n domeniul timp TDAC (Time-Domain Aliasing Cancellation). Schema bloc de principiu a codorului Dolby AC-3 este prezentat n Figura 6.34. Intrarea audio este divizat n blocuri (ferestre) de cte 512 eantioane, cu un factor de suprapunere de 50 % ntre blocuri.

194

Cap. 6. Standarde de compresie audio-video

Aceste blocuri sunt apoi supuse alternativ transformrilor cosinus i sinus modificate, care produc 512 coeficieni pentru fiecare bloc. Dup nlturarea redundanei, se ajunge la 256 coeficieni pentru fiecare bloc.
PCM audio Coef. cuantizai

Blocuri suprapus Compr. subband (virgul mobil)

Cuantizor adaptiv

M Ieire U Alocare dinamic bii Codare exponeni X

audio

Transf. sin/cos modificat

Fig. 6.34. Schema bloc a codorului Dolby AC-3

Coeficienii au o rezoluie n frecven ridicat i sunt combinai selectiv n sub-benzi care aproximeaz benzile audio critice. n interiorul fiecrei sub-benzi, coeficienii sunt normalizai i exprimai n format virgul mobil, cu exponeni comuni. Se poate demonstra matematic faptul c exponenii poart informaia referitoare la nfurtoarea spectral a semnalului i c ei pot fi utilizai pentru operarea modelului perceptual care efectueaz alocarea de bii. Mantisele coeficienilor transformatelor sunt recuantizai n funcie de alocarea biilor. irul de bii de la ieirea codorului este format prin multiplexarea irului de coeficieni recuantizai i a irului de exponeni care caracterizeaz nfurtoarea spectral. La nivelul exponenilor exist ns o mare redundan, motiv pentru care doar primul coeficient din fiecare bloc (corespunznd celei mai mici frecvene) se transmite n valoare absolut. Restul exponenilor se transmit diferenial, datorit faptului c probabilitatea cea mai mare este ca acetia s difere foarte puin ntre ei. La nivelul decodorului, exponenii ce caracterizeaz nfurtoarea spectral sunt utilizai pentru deserializarea mantiselor coeficienilor n cuvinte de cod de lungime corect. Exponenii redundani sunt decodai ncepnd cu cel corespunztor celei mai mici frecvene a primului bloc. Exponenii sunt utilizai pentru a readuce coeficienii la exprimarea n format cu virgula fix.

Cap. 6. Standarde de compresie audio-video

195

Codoarele AC-3 se utilizeaz n principal pentru transmiterea sunetului n sistemele de televiziune prin satelit i prin cablu, dar variante ale sale sunt aplicabile i la producia de CD-uri. Este de remarcat faptul c activitatea internaional de standardizare n domeniul Dolby AC-3 este nc n curs de desfurare, noi metode fiind propuse n special n ceea ce privete alocarea dinamic a biilor.

S-ar putea să vă placă și