Sunteți pe pagina 1din 32

Capitolul 4

SISTEME DE TELEVIZIUNE DIGITALĂ

4.1 Probleme specifice în televiziunea digitală

Ochiul, receptorul sistemului vizual uman, este un receptor de tip analogic.


Televiziunea analogică (cu definiţie normală) transmite imagini color şi
sunetul însoţitor într-o bandă de 6-8 MHz în cazul distribuţiei terestre şi într-o
bandă de 18-30 MHz în cazul distribuţiei prin satelit sau prin reţele terestre de
microunde (pentru a realiza un raport S/Z mare la modulaţia FM).
Un semnal digital TV de calitate ar putea fi transmis într-o bandă de
frecvenţă mult mai mică, dependentă şi de raportul semnal / zgomot de pe canalul
de comunicaţie.
Dar lărgimea de bandă în care poate fi transmis semnalul TV digital nu este
singurul argument în favoarea televiziunii digitale. Al doilea argument important
este avantajul prelucrării şi transmisiei digitale faţă de prelucrarea şi transmisia
analogică a semnalelor. Calitatea originală a semnalului poate fi refăcută ori de câte
ori este nevoie în transmisie, înregistrare sau prelucrare în studiouri de televiziune,
ceea ce nu este valabil pentru semnalul analogic. Se pot folosi tehnici de codare
pentru protecţie la perturbaţii specifice canalelor digitale.
Trebuie totodată remarcat faptul că există o tendinţă evidentă spre
dezvoltarea masivă a reţelelor digitale integrate tip ISDN (Integrated Service
Digital Network), care sunt deosebit de avantajoase pentru distribuţia televiziunii
digitale.
În sistemele TV digitale trebuie transmis şi sunetul însoţitor (mono sau
stereo) precum şi semnalele de sincronizare pe orizontală şi verticală în acelaşi
timp cu secvenţele video.
Un alt aspect important este că la transmisia digitală a semnalului de
televiziune se poate realiza uşor criptarea, necesară atăt pentru rezolvarea unor
probleme legate de licenţa de transmisie pe anumite zone cât şi pentru sistemele de
tip televiziune interactivă.
Nu în ultimul rând trebuie spus că transmisia digitală a semnalului de
televiziune elimină problemele create în studiourile analogice la conversia de
standard şi sistem atunci când sursele de program TV sunt din ţări cu standarde şi
norme TV diferite.
Evoluţia spre televiziunea digitală a început în studiourile de televiziune prin
adoptarea standardului digital internaţional de studio 4:2:2, ceea ce permite
transmisia semnalului între studiouri fără transcodări. La celălalt capăt al lanţului-
receptorul TV au apărut funcţii noi. Deşi semnalul TV este în continuare analogic

1
în majoritatea situaţiilor (din considerente de compatibilitate), televizoarele încep
să fie dotate cu convertoare A/D şi D/A rapide, cu memorii de unul sau mai multe
cadre şi cu circuite specializate, care permit prelucrări digitale în timp real asupra
semnalului TV : filtrări pentru îmbunătăţirea raportului semnal/zgomot, afişarea
unei imagini fără pâlpâire (cu 100 Hz), efecte speciale (zoom, imagine în imagine,
afişarea unor informaţii), prelucrări ale unor semnale codate, etc. Există şi
receptoare în care, cu excepţia părţii de înaltă frecvenţă (tuner, AFI, demodulator)
şi a blocurilor de putere, toate celelalte prelucrări sunt realizate digital.
Ulterior acestor dezvoltări de la capetele lanţului de televiziune, în momentul
actual se transmite din ce în ce mai mult semnalului TV în formă digitală într-o
bandă acceptabilă şi la un preţ accesibil al receptorului, prin diverse metode : prin
satelit, prin emiţătoare terestre, prin cablu, prin internet (Video over IP), telefonie
mobilă, etc.

4.2 Etapele conversiei digitale a semnalului de televiziune

Etapele conversiei analog – digitală pentru semnalul de televiziune sunt cele


clasice care se aplică oricărui semnal dependent de timp – eşantionarea, cuantizarea
şi codarea – cu particularităţi specifice care ţin seama de bandă, structura spectrului
şi particularităţile sistemului vizual uman.

4.2.1 Eşantionarea semnalelor de televiziune

Teorema eşantionării a lui Nyquist trebuie evident respectată şi în acest caz,


ceea ce înseamnă că frecvenţa de eşantionare trebuie să fie destul de mare. De
exemplu, pentru un semnal video cu rezoluţie normală care are banda de 5 MHz
trebuie aleasă o frecvenţă de eşantionare peste 10 MHz (având în vedere că filtrele
de pre- şi posteşantionare trebuie să fie realizabile). În acest fel se elimină
posibilitatea de aliere a spectrului de bază cu spectrele repetate.
În această zonă de frecvenţă este util să se aleagă o frecvenţă de eşantionare
f E a cărei valoare să fie un multiplu al frecvenţei liniilor fH. În acest fel se obţine o
structură de eşantionare ortogonală :

fE = n ⋅ fH
De unde rezultă :
TH = n ⋅ T E

2
În acest fel pe o linie de explorare încap un număr întreg de eşantioane, deci pe linii
succesive eşantioanel cad unele sub altele. Este un avantaj pentru redarea corectă a
contururilor verticale abrupte.
Un alt aspect ce trebuie să fie luat în calcul este cel legat de posibilitatea
realizării subeşantionării dacă se ţine seama de structura particulară a spectrului
semnalului de imagine, care conţine benzi spectrale înguste (circa 5-6 Hz) centrate
pe multipli ai frecvenţei liniilor, frecvenţei semicadrelor şi combinaţii liniare ale
acestora. Prin alegerea corespunzătoare a frecvenţei de eşantionare se poate asigura
intercalarea benzilor din spectrul original cu cele din spectrul repetat (care are
evident aceeaşi structură) fără apariţia efectului de aliere valabil atunci cănd
spectrul este continuu. Se poate de exemplu eşantiona semnalul PAL cu dublul
frecvenţei subpurtătoarei de culoare (aproximativ 8,86 MHz) care este sub
frecvenţa Nyquist de 10 MHz (pentru o bandă a semnalului PAL de 5 MHz).
Eşantionarea se poate face pe componente (R, G, B sau Y, R-Y, B-Y) sau pe
semnal videocomplex (PAL, SECAM sau NTSC). Din punct de vedere al calităţii
imaginii este recomandată eşantionarea pe componente, lucru care se realizează în
standardul digital de studio. Se utilizează eşantionarea pe componente pe luminanţă
Y şi diferenţe de culoare R-Y şi B-Y în locul celei pe semnale primare R, G, B,
deoarece banda semnalelor diferenţă de culoare (şi în consecinţă frecvenţa de
eşantionare) poate fi redusă cel puţin la jumătate.
Eşantionarea semnalului videocomplex este realizată în receptoarele cu
prelucrare digitală în care, după demodularea semnalului şi obţinerea semnalului
videocomplex în banda de bază, toată prelucrarea ulterioară se face digital. În acest
caz pentru PAL este util de ales o frecvenţă de eşantionare egală cu de 4 ori
frecvenţa subpurtătoarei de culoare (aproximativ 17,72 MHz) ceea ce permite
realizarea uşoară a decodorului de culoare digital PAL, deoarece sunt 4 eşantioane
pe o perioadă de subpurtătoare. Se poate observa că în acest caz frecvenţa de
eşantionare este şi multiplu al frecvenţei liniilor, adică structura de eşantionare este
ortogonală.

4.2.2. Cuantizarea semnalelor de imagine

Cuantizarea semnalelor de imagine însemană alegerea unor nivele de decizie


şi de cuantizare astfel încât valoarea analogică a fiecărui eşantion să fie rotunjită la
valoarea cea mai apropiată de cuantizare. Această operaţie introduce o eroare la
reconstituirea eşantioanelor după conversia digital – analog, deoarece valoarea
eşantionului reconstituit nu mai este riguros egală cu valoarea eşantionului original.
Apare aşa-numitul zgomot de cuantizare. Pentru ca acesta să nu afecteze calitatea

3
imaginii este necesar ca numărul şi dispunerea nivelelor de cuantizare să ţină seama
de calităţile de percepţie ale sistemului vizual uman.
Cel mai supărător mod în care zgomotul de cuantizare ar putea afecta
imaginea ar fi în cazul în care în zona respectivă de imagine este o variaţie
continuă de strălucire. După cuantizare la trecerea de la un nivel de cuantizare la
altul ar putea apare efectul de contur fals.
Se ştie că percepţia variaţiilor de luminanţă este discontinuă şi neliniară.
Astfel, dacă luminanţa variază într-o zonă de imagine, ochiul va percepe acest lucru
doar dacă se depăşeşte un anumit prag ΔB. Acest prag depinde însă de luminanţa B
a zonei de imagine respective, raportul ΔB / B este constant şi egal cu aproximativ
0,02. Dacă distanţa dintre două nivele de cuantizare este mai mică decât cel mai
mic ΔB perceptibil de către ochi, atunci zgomotul de cuantizare nu afectează
imaginea.
Din punct de vedere al realizării caracteristicii de cuantizare, aceasta va fi o
caracteristică în trepte situată în cadranul unu dacă semnalul este unipolar (cum
este de exemplu semnalul de luminanţă Y sau semnalele primare R, G, B) sau
simetrică în cadranele unu şi trei dacă este vorba de cuantizarea semnalelor
diferenţă de culoare R-Y şi B-Y care sunt semnale bipolare. Treptele caracteristicii
pot fi egale sau inegale. Dacă se utilizează cuantizarea uniformă nivelele de decizie
şi de cuantizare sunt egal depărtate. Dacă nivelele de decizie şi de cuantizare nu
sunt uniforme se spune că avem un cuantizor neuniform.
Alegerea caracteristicii de cuantizare trebuie să ducă la minimizarea
zgomotului de cuantizare şi ţine seama în acest scop de statistica semnalului. Dacă
distribuţia de probabilitate a nivelelor eşantioanelor este uniformă, atunci
cuantizorul optim este cuantizorul uniform. Acesta este şi cel mai simplu de realizat
practic, pentru că pragurile comparatoarelor din convertorul A / D sunt egale.
Atunci când distribuţia de probabilitate a eşantioanelor semnalului nu este
uniformă, cu alte cuvinte există probabilităţi diferite ca un nivel să apară la intrarea
cuantizorului, cuantizorul optim ce minimizează zgomotul de cuantizare este cel
neuniform. Construcţia practică a acestuia se face folosind tot un cuantizor uniform
dar care este precedat de un circuit cu o caracteristică neliniară numit compresor.
Rolul compresorului este de a face ca la ieşirea sa nivelele de cuantizare să
aibă distribuţie de probabilitate uniformă, ceea ce face posibilă utilizarea
cuantizorului uniform. După prelucrarea semnalului digital (transmisie, memorare,
etc.) când este necesară conversia D/A a semnalului video, este nevoie de realizarea
unei operaţii inverse celei a compresorului astfel încât semnalul să nu fie
distorsionat. Această operaţie se numeşte expandare şi se realizează după conversia
D/A. De exemplu, dacă funcţia neliniară a compresorului este una logaritmică,
atunci funcţia expandorului este una exponenţială.

4
Operaţia de comprimare şi expandare se numeşte compandare. Trebuie
precizat că prelucrări asemănătoare se fac şi pentru semnalul audio.

4.2.3 Codarea semnalului video

Ultima etapă în prelucrarea necesară conversiei analog-digitale a semnalului


video este codarea. Aceasta înseamnă ca fiecărui nivel de cuantizare să i se aloce
un cod binar. Cea mai simplă codare este codarea cu modulaţia impulsusrilor în cod
MIC (în engleză PCM = Pulse Code Modulation). Aceasta înseamnă că fiecărui
nivel de cuantizare qk să i se aloce codul binar natural ce reprezintă numărul k. De
exemplu, pentru codarea PCM a semnalului video cuantizat uniform cu 256 nivele
(8 biţi pe eşantion) rezultă următoarea alocare :

q0 ……. 0000 0000


q1 …… 0000 0001
……………………
q255 … … 1111 1111

Toate celelalte metode de codare se raportează la codarea PCM atunci când


se calculează viteza de transmisie necesară pentru semnalul video digital. De
exemplu, dacă frecvenţa de eşantionare este de 12 MHz (suficientă pentru o bandă
video de 5 MHz) şi se cuantizează uniform cu 8 biţi pe eşantion, viteza serială de
transmisie a semnalului video digital este :

V [Mbit/s] = 12 x 8 = 96 Mbit/s

Aceasta este o viteză foarte mare pentru orice canal de comunicaţie. Ea poate
fi redusă prin metode de compresie spectru la valori rezonabile de 2-4 Mbit/s sau
chiar mai mult exploatând două elemente :
1. Caracteristica sistemului vizual uman.
2. Statistica semnalului video.
Raportul de compresie obţinut se exprimă fie ca un număr faţă de metoda
standard PCM (de exemplu se obţine o compresie 8 : 1) sau ca numărul
echivalent de biţi pe eşantion necesar transmisiei (pentru acelaşi exemplu 1 bit /
eşantion).

5
4.3 Standardul digital de studio şi familiile de standarde corespunzătoare

Recomandarea 601 a CCIR (ITU-R 601) prevede pentru studiouri un


standard principal digital cu codare pe componente, standardul 4:2:2 ai cărui
parametri principali sunt prezentaţi în tabelul 4.1. Frecvenţa de eşantionare este un
multiplu întreg al frecvenţei liniilor atât pentru standardul cu 625 linii/50 Hz cît şi
pentru standardul cu 525 linii/60 Hz deoarece :

f H ( 625 ) 15625 143


= =
f H ( 525 ) 15734 , 265 144

Multiplii comuni ai acestor frecvenţe sunt multiplii frecvenţei de 2,25 MHz.


Valorile convenabile ale frecvenţei de eşantionare sunt : 11,25 MHz (5x2,25) ; 13,5
(6x2,25) ; 15,75 (7x2,25) . Pentru standardul principal s-a ales valoarea de 13,5
MHz.
13,5MHz = 858 ⋅ f H (525 ) = 864 ⋅ f H ( 625 )

Tabelul 4.1
Parametrii Sistemul 525 linii/60 Hz Sistemul 625 linii/50 Hz
Semnale Y, R-Y, B-Y Y, R-Y, B-Y
Eşantioane/linie
Y 858 864
R-Y, B-Y 429 432
Structura de Ortogonală, eşantioanele R-Y şi B-Y coincid cu
eşantionare eşantioanele impare ale lui Y

Frecvenţa de
eşantionare
Y 13,5 MHz 13,5 MHz
R-Y, B-Y 6,75 MHz 6,75 MHz
Codare PCM uniform cu 8 bit pe eşantion
Nr. de eşantioane
pe linia activă
Y 720 720
B-Y, R-Y 360 360

6
Relaţia dintre
nivelul
semnalului video
şi nivelele de
cuantizare
Y nivel 16=nivel de negru, nivel 235=nivel de alb

R-Y, B-Y 224 nivele cu nivelul 128=nivel de zero

Lungimea liniei active este aceeaşi pentru ambele sisteme de explorare şi anume
720 eşantioane pentru luminanţă şi 360 eşantioane pentru fiecare semnal de
crominanţă.
Debitul de informaţie pentru standardul principal este :
VY = 13,5MHz ⋅ 8bit = 108Mbit / s
pentru semnalul de luminanţă şi :
VC = 2 ⋅ 6,75MHz ⋅ 8bit = 108Mbit / s
pentru semnalul de crominanţă deci în total :
V = VY + VC = 216 Mbit / s
Există multe situaţii în care calitatea imaginii este diferită de cea din
standardul principal. De aceea, plecînd de la standardul principal s-a creat o familie
de standarde care au proprietatea că frecvenţele lor de eşantionare se află într-un
raport de numere întregi cu standardul principal 4:2:2 (tabelul 4.2).

Tabelul 4.2
Standa Frecvenţa Frecvenţa Frecvenţa Debitul de Aplicaţii
rd de de de informaţie
eşantionare eşantionare eşantionare [Mbit/s]
Y R-Y B-Y
4:4:4 13,5 MHz 13,5 MHz 13,5 MHz 324 Calitate
ridicată la
încrustare
4:2:2 13,5 MHz 6,75 MHz 6,75 MHz 216 Standard
primar de
studio
4:1:1 13,5 MHz 3,375 MHz 3,375 MHz 162 Transmi-siuni
de calitate
înaltă

7
2:1:1 6,75 MHz 3,375 MHz 3,375 MHz 108 Jurnalistică
electronică
(ENG)
3:1:0 10,125 3,375 MHz 3,375 MHz 108 Calitate
MHz identică cu cea
din PAL

Standardele de ordin superior sunt 8:4:4 şi 4:4:4. Standardul 8:4:4 este un standard
de explorare progresivă cu 625 linii/semicadru. După prefiltrare vertical-temporală
şi eliminarea unei linii din două se obţine semnal întreţesut 4:2:2. După stocare
acest semnal poate fi postfiltrat şi aplicat pe un monitor cu afişare cu 625
linii/semicadru. Standardul 4:4:4 eşantionează semnalele R, G, B sau Y, R-Y, B-Y
cu aceeaşi bandă iniţială.
Standarde de ordin inferior (sau substandarde) sunt 4:1:1 ; 2:1:1 ; 4:1:0 (semnale
diferenţă de culoare transmise secvenţial) şi 3:1:0. Standardul 4:1:1 poate fi
transmis cu 140 Mbit/s (nivelul cuaternar al ierarhiei digitale de transmisie) dacă se
utilizează intervalul de stingere pe orizontală.
Construirea unui standard inferior din standardul principal nu înseamnă numai
reducerea frecvenţelor de eşantionare ci şi modificarea structurii de eşantionare
care devine neortogonală ceea ce reduce rezoluţia pe direcţie diagonală. Standardul
3:1:0 realizează eşantionarea în şah pe cadre a semnalului de luminanţă la 3/4 din
frecvenţa standardului principal şi transmisia secvenţială a semnalelor diferenţă de
culoare. La standardul 2:1:1 se face o eşantionare neortogonală la jumătate din
frecvenţa standardului principal ceea ce permite menţinerea unei rezoluţii pe
orizontală de 6 MHz pentru luminanţă şi de 3 MHz pentru crominanţă în timp ce
rezoluţia pe diagonală scade. Atât standardul 3:1:0 cât şi standardul 2:1:1 produc o
oarecare degradare a calităţii imaginii, dar aceasta este suficient de mică, ceea ce
permite obţinerea unei calităţi comparabile cu cea a semnalului PAL (aşa numitul
"nivel auxiliar" sau nivel reportaj "ENG=Electronic News Gathering").
Recomandarea 601 a CCIR a lăsat însă nerezolvate două probleme importante :
1) Forma filtrelor trece-jos necesare înainte de conversia A/D şi după conversia
D/A.
2) Realizarea interfeţelor pentru transmisia semnalelor în unul din aceste standarde.
Filtrele trece-jos trebuie să îndeplinească următoarele condiţii :
- distorsionări cât mai mici ale semnalelor din banda de trecere ;
- posibilitatea cascadării codec-urilor (codor-decodor) fără degradări semnificative
ale semnalului ;
- complexitate acceptabilă (deci dimensiuni şi costuri reduse).
Este necesar un compromis deoarece o bandă de trecere mare şi o rejecţie
puternică a frecvenţelor de aliere mai mari sau egale cu jumătate din frecvenţa de

8
eşantionare implică o cădere abruptă a caracteristicii filtrului şi deci oscilaţii ale
caracteristicii de amplitudine în banda de oprire. Riplul caracteristicilor de
amplitudine şi timp de grup poate fi redus mărind complexitatea filtrului.
Amplitudinea acestui riplu se va multiplica cu numărul de codec-uri cascadate dacă
se utilizează filtre identice.
CCIR şi EBU au dat unele direcţii de proiectare a acestor filtre :
- Se va specifica o bandă de trecere (dacă este posibil până la 5,5 MHz) pentru
luminanţă ;
- Se va realiza o atenuare mare (40 dB) a benzii translatate (în cazul anterior 8-13,5
MHz) ;
- Rejecţia la jumătate din frecvenţa de eşantionare va fi moderată (12 dB sau chiar
mai puţin) pentru a se realiza un compromis între oscilaţii în banda de oprire şi
aliere ;
- Măsuri comparabile (în raport 2:1 pentru standardul principal) se vor aplica
semnalelor diferenţă de culoare urmând ca filtrarea să se efectueze o singură dată la
sursă sau la afişare chiar şi în cazul cascadării unor codec-uri.
În ceea ce priveşte interfeţele pentru transmisia semnalelor digitale din
standardul 4:2:2 pe distanţe de până la maximum cîţiva kilometri se pot utiliza
interfeţe seriale sau paralel. În interfeţele paralel se transmit simultan cei 8 biţi plus
un semnal de ceas. Cele trei fluxuri de cuvinte Y, R-Y, B-Y sunt multiplexate în
timp pentru a forma un singur flux de cuvinte cu viteza de 27 Mbit/s. O astfel de
interfaţă permite utilizarea unor circuite integrate ieftine. O interfaţă serială cu
viteza de 243 Mbit/s a fost realizată de EBU şi SMPTE.

4.4 Metode de compresie a imaginilor


Viteza mare de bit pentru fluxul de date în standardul digital de studio
impune utilizarea unor metode de compresie de spectru pentru reducerea
semnificativă a acestei viteze.
Pentru compararea performanţelor diverselor metode de compresie se
utilizează mai multe criterii.
Primul dintre ele este raportul de compresie care este egal cu raportul dintre
viteza de bit în transmisia cu modulaţia impulsurilor în cod (PCM) şi viteza de
transmisie după compresie.
Al doilea criteriu este calitatea imaginii recepţionate. Obiectivul urmărit de
CCIR este de a evita recepţia unei imagini de calitate mai slabă decît cea produsă
de o transmisie analogică. Calitatea este evaluată prin teste subiective în raportul
CCIR 405-4 şi Recomandarea 500-2.
Al treilea criteriu este complexitatea procesului, care trebuie limitată la
minimum deoarece determină complexitatea şi costul echipamentului de codare şi
decodare.

9
Al patrulea criteriu este sensibilitatea sistemului de decodare la erorile din
lanţul de transmisie şi efectul acestor erori asupra imaginii (Raportul CMTT 967).
Reducerea vitezei de transmisie se bazează pe proprietăţile sursei de semnal
şi pe proprietăţile sistemului vizual uman. Acestea vor fi trecute în revistă în
continuare.
1) Proprietăţile sursei.
Au fost făcute în decursul timpului multe măsurători statistice asupra imaginilor şi
a secvenţelor de imagini şi au fost propuse cîteva modele, în general modele
staţionare. În afara studiilor teoretice este de menţionat că trebuie utilizate
proprietăţile structurale ale imaginilor, care sunt sensibile la rupturi locale ale
staţionarităţii (de ex. margini). În general, s-a dovedit eficient să se analizeze
imaginile şi secvenţele de imagini printr-un model de tip "mozaic", un model
nestaţionar unde fiecare componentă a "mozaicului" are proprietăţile sale statistice.
Principalele configuraţii locale sunt :
- zone cvasi-uniforme, adică zone în care gradientul spaţial este mai mic decât de
exemplu 2 % din gama dinamică a unui pixel iar extensia spaţială mai mare
decât câteva zeci de pixeli în fiecare direcţie ;
- zone cu detalii cu contrast scăzut, adică zone cu contrast local mai mic de 5 %
din gama dinamică, fiecare detaliu fiind mic în direcţie spaţială (câţiva pixeli) ;
- zone cu detalii cu contrast mare, cu contrast şi gradient mai mare decât de
exemplu 15 % din gama dinamică, fiecare detaliu fiind mic în spaţiu ;
- margini, cu contrast mai mare decât 15 %, lăţimea tranziţiei de unul sau doi
pixeli, tranziţia întinzându-se longitudinal pe câţiva zeci de pixeli.
Primele trei tipuri sunt configuraţii de tip "suprafaţă" şi sunt mai mult sau mai
puţin staţionare, Ultima poate fi considerată de tip "linie" şi corespunde la
întreruperi ale staţionarităţii. Este evident că nu există delimitări foarte clare între
aceste patru categorii, zonele uniforme devin texturate pe măsură ce contrastul
creşte iar zonele texturate devin un mozaic de zone uniforme şi margini pe măsură
ce distanţa focală creşte.
De asemenea, fiecare din aceste configuraţii spaţiale devine o configuraţie
spaţio-temporală dacă se consideră şi axa timpului. Ele vor fi supuse modificărilor
în timp şi mişcării. S-a propus să se facă distincţie între mişcarea obiectelor şi
mişcarea camerei, aceasta din urmă fiind o mişcare globală. S-a propus şi
introducerea unor parametri relevanţi ca vectorul de mişcare, amplitudinea sa în
spaţiu, geometria sa (translaţie, zoom) şi posibilitatea de urmărire a mişcării
datorată abilităţii ochiului de a urmări mişcările.
În descrierea generală spaţio-temporală se consideră secvenţele de imagini ca
eşantioane ale unui model dinamic de tip mozaic. Din cauza lipsei de date statistice
adecvate acest model este un model calitativ structural suficient pentru studiul
compresiei de date a semnalului video.

10
2) Proprietăţile sistemului vizual uman.
Acestea pot fi studiate din diferite aspecte : anatomice, fiziologice, psihofizice
(detecţie, percepţie) şi psihologice (cunoaştere, semiotică).
Pentru aplicaţii legate de codarea semnalelor de televiziune sunt utile datele
psihovizuale care dau praguri de detecţie (măsurători directe sau modele) sau nivele
de percepţie subiectivă ca funcţii de parametrii stimulilor vizuali cărora subiecţii
trebuie să le răspundă. Având ca obiectiv un standard de calitate înaltă pentru
sisteme TV sunt utile mai ales datele de detecţie. Pragurile de detecţie se pot aplica
condiţiilor de vizualizare aşa cum se definesc în Recomandarea CCIR 500. Datele
se obţin prin aşa numita metodă a "stimulului constant" care constă în a prezenta în
ordine aleatoare stimuli predeterminaţi cu valori selectate ale parametrilor.
Procentele de cazuri în care se văd stimulii sunt interpolate pentru a defini un prag
de detecţie de 50%. Se poate folosi întreaga scală de vizibilitate a stimulului pentru
a defini un prag de perceptibilitate între cele două grade mai înalte, "imperceptibil"
şi "perceptibil dar nu supărător". Literatura de specialitate conţine foarte multe date
de acest tip dar de multe ori acestea sunt dificil de aplicat la problemele de
optimizare a codării. În majoritatea cazurilor defectele codării corespund unor
stimuli vizuali mai complecşi şi apar în imagini sau în secvenţe de imagini reale în
contrast cu formele de test simple utilizate în experimentele psihovizuale (de obicei
fundal uniform, margini sintetice foarte precise, etc).
În continuare se vor trece în revistă principalele metode de compresie
utilizate în televiziune.
Există două constrîngeri specifice care determină tipurile de algoritmi ce pot
fi utilizaţi pentru televiziune. În primul rând este necesară o operare în timp real, cu
o viteză mare (de ordinul zecilor de megabiţi pe secundă) , pe un canal cu viteză de
transmisie fixă. Aceasta face să fie preferate schemele de codare cu viteză fixă sau,
pentru algoritmi care produc viteze variabile, este necesar să se utilizeze registre tip
buffer şi metode de evitare a supraîncărcării registrelor. În al doilea rând,
constrîngerile sursei nu permit ca unii algoritmi care sunt eficienţi, de exemplu
pentru videoconferinţă, să fie la fel de eficienţi pentru televiziune. De asemenea nu
este posibilă utilizarea schemelor de codare adaptivă cu transformare care sunt
foarte eficiente pentru imagini fixe, sau a schemelor de codare pentru grafice şi
facsimil.
Având în vedere aceste considerente variantele posibile de codare pentru
compresie sunt :
- PCM (Pulse Code Modulation) şi scheme de codare înrudite : cuantizare
liniară, cuantizare neliniară şi cuantizare adaptivă, eşantionare cu diferite
frecvenţe şi structuri, cu filtrare pre- şi posteşantionare fixă sau adaptivă.
- DPCM (Differential PCM) : scheme de codare cu predicţie spaţială
(intrasemicadru) sau spaţio-temporală (intersemicadru sau intercadru) cu

11
predicţie fixă sau adaptivă, cu cuantizare fixă sau adaptivă, urmată uneori de
codare cu lungime de cod variabilă a semnalului diferenţă. Pentru mărirea
eficienţei predicţiei se poate folosi estimarea mişcării sau a marginilor.
- Codare cu transformare : transformări pe blocuri, spaţiale sau spaţio-temporale,
de tip Hadamard, cosinus, etc., cu cuantizare zonală (fixă sau adaptivă) sau
codare cu prag ;
- Scheme hibride : cu DPCM în unele dimensiuni şi transformare în altele.
Codarea cu transformare este într-adevăr o metodă foarte eficientă realizând
factori de compresie mari, dar pretinde foarte multe operaţii de calcul ce trebuie
efectuate în timp real pentru codarea semnalului de televiziune.
Dimpotrivă, codarea cu DPCM este mai uşor de realizat practic şi are avantajul
că separarea celor două funcţii (predicţie şi cuantizare) permite o bună adaptare la
proprietăţile semnalului (predicţie) şi ale observatorului uman (cuantizare).

4.4.1 Codarea cu predicţie


Codarea cu predicţie este o metodă larg utilizată pentru eliminarea
redundanţei din semnalul de televiziune. Codarea cu predicţie se bazează pe
observaţia că între eşantioanele semnalului de televiziune există o corelaţie destul
de puternică. Codarea este cu atât mai eficientă cu cât această corelaţie este mai
mare. Predicţia valorii unui eşantion se bazează pe valoarea eşantioanelor
anterioare. Valoarea prezisă nu va fi chiar valoarea eşantionului curent dar va putea
fi foarte aproape de aceasta. Dacă se transmite numai diferenţa dintre eşantionul
curent şi cel prezis, volumul de informaţie transmis poate fi redus semnificativ.
Deci în codarea cu predicţie redundanţa previzibilă poate fi eliminată din semnalul
de intrare, ceea ce permite compresia datelor.
Eşantionul prezent x(k ) este estimat din valoarea eşantioanelor anterioare
x (k − i ) . În codarea cu predicţie liniară eşantionul prezis este o combinaţie liniară a
valorilor eşantioanelor precedente :
N
xˆ (k ) = ∑ a i ⋅ x(k − i )
i =1

unde ai sînt coeficienţi constanţi iar x(k − i ) este valoarea eşantionului anterior cu i
perioade de tact. Dacă se aplică transformata Z rezultă :
xˆ ( z ) = P( z ) ⋅ x( z )
unde :
N
P ( z ) = ∑ ai ⋅ z − i
i =1

Eroarea de predicţie este :


e( z ) = x ( z ) − xˆ ( z ) = [1 − P ( z )] ⋅ x ( z )

12
Eroarea de predicţie este codată şi transmisă la receptor. La receptor x(z ) este
reconstituit din semnalul recepţionat e(z ) . Dacă există o corelaţie puternică în
semnalul de televiziune, eroarea de predicţie este relativ mică în raport cu semnalul
de intrare, deci poate fi codată cu un număr mai mic de biţi. Principiul acestei
prelucrări este prezentat în fig. 4.1.

x + e e x

+ +
+
- ^x ^x +
P(z) P(z)

Fig. 4.1 Schema bloc a codării cu predicţie

Predicţia este o filtrare liniară cu funcţia de transfer P (z ) şi este realizată cu un


filtru digital nerecursiv. Funcţia de transfer a codorului este 1 − P ( z ) . Decodorul este
un filtru digital cu funcţia de transfer 1[1 − P( z )] . Dacă se face predicţia utilizînd
doar eşantionul precedent, adică
xˆ ( k ) = x ( k − 1)
atunci funcţia de transfer a codorului este 1 − z −1 (un circuit de diferenţiere) iar
funcţia de transfer a decodorului este 1 /(1 − z −1 ) (un circuit de integrare). De obicei
codarea cu predicţie este realizată într-o configuraţie cu buclă de reacţie. Prezenţa
cuantizorului în bucla de reacţie evită acumularea erorilor de cuantizare. Codarea
DPCM are şi avantajul de a elimina un eventual comportament nestaţionar al
semnalului.
Proiectarea optimă a unui predictor înseamnă înseamnă alegerea unui număr
suficient de mare de eşantioane anterioare şi alegerea valorilor coeficienţilor ai
(deci determinarea funcţiei de transfer P (z ) ) pentru care eroarea medie pătratică de
predicţie este minimă :
N
E[e 2 ( k )] = E[{x( k ) − ∑ ai ⋅ x(k − i )}2 ]
i =1

unde E[⋅] reprezintă media statistică. Derivînd parţial în raport cu ai şi egalînd


rezultatul cu zero se obţine sistemul de ecuaţii :

13
N

∑a
i =1
i ⋅ E[ x(k − i ) ⋅ x(k − j )] = E[ x(k ) ⋅ x(k − j )]

j = 1,2,... N
Dacă se notează funcţia de autocorelaţie a semnalului x cu :
Ri = E[ x(k ) ⋅ x(k − i )]
sistemul se poate scrie matricial :
⎡ R0 R1 . . RN −1 ⎤ ⎡ a1 ⎤ ⎡ R1 ⎤
⎢ R
⎢ 1 R0 . . RN −2 ⎥⎥ ⎢⎢ a2 ⎥⎥ ⎢⎢ R2 ⎥⎥
⎢ . . . . . ⎥⋅⎢ . ⎥ = ⎢ . ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ . . . . . ⎥ ⎢ . ⎥ ⎢ . ⎥
⎢⎣ RN −1 RN −2 . . R0 ⎥⎦ ⎢⎣a N ⎥⎦ ⎢⎣ RN ⎥⎦

Dacă se rezolvă ecuaţia matricială se pot obţine valorile coeficienţilor de predicţie.


Puterea erorii de predicţie minimizate este :
N
⎛R ⎞
E[e 2 (k )]Min = R0 ⋅ [1 − ∑ ai ⋅ ⎜⎜ i ⎟⎟]
i =1 ⎝ R0 ⎠
În cadrul experimentărilor s-a constatat că proprietăţile statistice ale erorii de
predicţie pot fi descrise cu ajutorul distribuţiei Laplace :
1 ⎡ 2⋅ D ⎤
w( D) = ⋅ exp ⎢− ⎥
2 ⋅σ p ⎢⎣ σ p ⎥⎦

Funcţia de autocorelaţie a semnalului de televiziune poate fi aproximată cu expresia


:
Ri = R(i) = exp[− α ⋅ i ]
unde α este o constantă. Se poate demonstra, folosind ecuaţiile de mai sus, că în
acest caz predictorul optim este de ordinul unu iar coeficienţii sunt daţi de relaţia :
R1
a1 = = ρ ; ai = 0 i ≠ 1
R0
unde ρ este coeficientul de corelaţie între două eşantioane vecine. Puterea erorii de
predicţie minime este :
⎡ ⎛ R ⎞2 ⎤
PeMin = R0 ⋅ ⎢1 − ⎜⎜ 1 ⎟⎟ ⎥ = R0 ⋅ (1 − ρ 2 )
⎢⎣ ⎝ R0 ⎠ ⎥⎦

Cu cât ρ este mai mare puterea erorii de predicţie minime este mai mică faţă de
puterea semnalului. Dacă se doreşte ca eroarea medie de predicţie să fie egală cu
zero, atunci este necesar ca predicţia să se facă în conformitate cu ecuaţia :
xˆ ( k ) = ρ ⋅ x ( k − 1) + m ⋅ (1 − ρ )

14
unde m este media semnalului. În cazul imaginilor este utilă predicţia
bidimensională. În predicţia bidimensională sunt utilizate şi eşantioane din liniile
precedente ale aceluiaşi câmp. De obicei corelaţia este puternică doar cu elementele
liniei anterioare din acelaşi cîmp. Coeficienţii funcţiei de predicţie se determină în
cazul bidimensional pe acelaşi principiu ca şi în cazul unidimensional, punând
condiţia minimizării erorii pătratice medii de predicţie.
Funcţia de autocorelaţie bidimensională a imaginii pentru zone staţionare în sens
larg este de forma :
R(m, n) = R(0,0) ⋅ exp[−α m − β n ]
Valorile experimentale obţinute sunt următoarele :
- Pentru imagini de tip prim-plan (cu suprafeţe uniforme relativ multe)
α = 0,125 ÷ 0,090 β = 0,240 ÷ 0,120
- Pentru imagini cu multe detalii :
α = 0,231 β = 0,307
- Pentru imagini tip prim plan ρ H = 0,882 ÷ 0,914; ρV = 0,786 ÷ 0,887
- Pentru imagini cu multe detalii ρ H = 0,794; ρV = 0,735
Dacă funcţia de autocorelaţie bidimensională are forma din relaţia de mai sus,
atunci se poate demonstra că :
E[e( m, n) ⋅ e( r , s )] = 0
pentru m ≠ r; n ≠ s
Cu alte cuvinte semnalul de eroare de predicţie este necorelat. În cazul în care
funcţia de autocorelaţie bidimensională este de altă formă decît cea de mai sus,
atunci este necesar să se utilizeze mai mult de 3 elemente vecine ale eşantionului
curent pentru a se obţine o bună estimare. În aplicaţiile practice, deoarece
proprietăţile statistice ale imaginii sunt nestaţionare şi neuniforme spaţial, se
preferă să se varieze funcţia de predicţie adaptiv, în funcţie de proprietăţile locale
ale imaginii. Un mod tipic de adaptare este de a selecta un predictor optim din mai
multe funcţii de predicţie (fig. 4.2). Alegerea funcţiei de predicţie optime se face
observând elementele anterioare ale imaginii din vecinătatea elementului
considerat. Aceasta este o schemă de predicţie neliniară în care funcţia de predicţie
variază cu statistica locală a imaginii. Predicţia adaptivă este eficace pentru
scăderea erorii de predicţie la tranziţia dintre două zone cu proprietăţi statistice
diferite.

Funcţia rată-distorsiune în codarea cu predicţie


Funcţia rată-distorsiune arată legătura care există între distorsiunile admise într-o
metodă de compresie care reduce entropia sursei iniţiale şi valoarea minimă la care
poate fi redus debitul de informaţie al sursei efective.

15
Fie x(t ) un vector N-dimensional care reprezintă într-un spaţiu metric semnalul
generat de sursă şi y (t ) vectorul N-dimensional care reprezintă semnalul
comprimat transmis. Distorsiunea introdusă prin compresie poate fi măsurată dacă
se defineşte distanţa d ( x, y ) între cele două semnale. Se poate alege distanţa :

x
e
+ Cuantizor
+
^x -

P1

PN

Fig. 4.2 Predicţie adaptivă cu predictori comutaţi


N −1
d ( x, y ) = ∑ d ( xi , y i )
i =0

unde :

d ( xi , y i ) = E[( xi − y i ) 2 ]
unde x0 ,.....x N −1 şi y0 ,..... y N −1 sunt componentele înainte şi respectiv după
compresie.
Reducerea entropiei în procesul de compresie este echivalentă cu efectul
perturbaţiilor asupra unui canal de transmisiune. Circuitul de compresie poate fi
considerat un canal afectat de perturbaţii şi se poate defini transinformaţia :
I ( X , Y ) = H (Y ) − H (Y / X )
Eroarea medie H (Y / X ) este cu atât mai mare cu cât distorsiunile introduse prin
compresie sunt mai importante. Funcţia rată-distorsiune este definită prin relaţia :
R ( D ) = min[ I ( X , Y )] = min[ H (Y ) − H (Y / X )]
unde minimul este în raport cu probabilităţile p( y j / xi ) şi este supus condiţiei ca
distorsiunile d ( x, y ) să nu depăşească valoarea D admisă :
d ( x, y ) ≤ D

16
Funcţia R (D ) reprezintă debitul de informaţie minim la ieşirea circuitului de
compresie care garantează că distorsiunea D nu este depăşită. Deci o compresie
efectuată de o transformare care reduce entropia transformă sursa cu debit H ( X )
biţi/s într-o nouă sursă cu debit R (D ) mai mic astfel încît distorsiunile să nu
depăşească o valoare admisă D. Se poate deci defini raportul de compresie maxim :
H(X )
C=
R( D)
care reprezintă de fapt o limită superioară ce nu poate fi depăşită prin nici un
procedeu de compresie fără depăşirea limitei admise D pentru distorsiuni.
Teorema codării surselor a lui Berger este următoarea :
" Pentru codarea unei surse discrete fără memorie, există, atunci când distorsiunea
este mai mică decît D , un cod bloc C cu viteza de bit R atunci când lungimea
blocului este suficient de mare ".
R = R( D) + ε ε 〉0
Reciproca acestei teoreme este :
" Dacă este disponibilă o viteză de bit R pentru codarea unei surse discrete fără
memorie, atunci nu poate fi depăşită o distorsiune D ( R ) ".
Pentru o sursă staţionară continuă, fără memorie, caracterizată de funcţia de
distribuţie gaussiană :
1 ⎡ x2 ⎤
p ( x) = ⋅ exp ⎢− 2 ⎥
2 ⋅π ⋅σ ⎣ 2 ⋅σ ⎦
Valoarea funcţiei R ( D ) este :
1 ⎛σ 2 ⎞
RG ( D) = ⋅ log 2 ⎜⎜ ⎟⎟ [biţi/simbol]
2 ⎝ D⎠
iar distorsiunea :
0≤ D ≤σ2
Pentru orice rată de informaţie R〉 RG (D) , sistemele de compresie care sunt
proiectate să atingă o distorsiune D pentru o sursă cu distribuţie gaussiană cu
valoare medie nulă şi dispersie σ 2 , vor asigura o distorsiune care nu depăşeşte
valoarea D pentru orice altă sursă staţionară având valoare medie nulă şi aceeaşi
dispersie. Cu alte cuvinte, dintre toate sursele continue fără memorie, staţionare şi
ergodice, cu valoare medie nulă şi cu aceeaşi dispersie, cea care necesită cea mai
mare valoare a funcţiei R ( D ) este sursa gaussiană :
1 ⎛σ 2 ⎞
R ( D) ≤ RG ( D) = ⋅ log 2 ⎜⎜ ⎟⎟
2 ⎝ D⎠
Sursele reale sunt în majoritatea cazurilor surse cu memorie. Pentru surse cu
memorie, staţionare şi ergodice, calculul funcţiei rată-distorsiune se face, în funcţie

17
de momentele de ordinul unu şi doi, utilizînd rezultatele obţinute în calculul
funcţiei R ( D ) pentru surse fără memorie.

4.4.2 Codarea cu transformate


Metodele de compresie care utilizează transformate reduc corelaţia dintre
eşantioane prin trecerea în spaţiul transformat în care corelaţia dintre coeficienţii
transformatei este redusă semnificativ. Raportul de compresie obţinut este cu atât
mai mare cu cât de obţine o decorelare mai puternică a coeficienţilor din spaţiul
transformat.
Schema bloc a transmisiei cu codare cu transformate este prezentată în fig.
4.3.

Cuantizor
Transformare şi
directă Canal de
Selector Codor transmisie

Decodor Transformare
inversă

Fig. 4.3 Codarea cu transformate. Schema bloc

Transformarea se face pe blocuri 8 x 8 sau 4 x 4 din motive de complexitate


a calculelor care trebuie efectuate la imaginile cu mişcare în timp real. La intrarea
etajului de transformare directă se aplică eşantioanele f(x,y) ale blocului N x N (de
ex. 8 x 8). Transformarea directă se efectuează conform relaţiei (care poate fi scrisă
N N
F (u , v ) = ∑ ∑ f (x, y ) ⋅ A( x, y, u , v )
x =1 y =1

şi matricial).
A(x,y,u,v) este nucleul transformării directe.
Blocul de selecţie va face selectarea coeficienţilor ce vor fi transmişi după
două criterii posibile :
1. Selecţie zonală
2. Selecţie cu prag.

18
Selecţia zonală presupune alegerea unei anumite zone din spaţiul transformat (zona
de joasă frecvenţă) şi transmisia numai a acelor coeficienţi, ceilalţi coeficienţi
urmând a fi consideraţi egali cu zero la recepţie.
Selecţia cu prag presupune fixarea unui anumit prag de amplitudine de la care se
consideră că valoarea coeficienţilor din spaţiul transformat este semnificativă şi
transmisia numai a coeficienţilor care depăşesc acest prag, ceilalţi coeficienţi find
consideraţi egali cu zero. În acest caz trebuie însă transmisă şi informaţia despre
localizarea coeficienţilor nenuli din spaţiul transformat.
La recepţie transformata inversă permite trecerea înapoi în spaţiul imaginii :
N N
f ′( x, y ) = ∑ ∑ F (u , v ) ⋅ S (u , v ) ⋅ B( x, y, u , v )
u =1 v =1

Unde s-a notat cu B(x,y,u,v) nucleul transformării inverse şi cu S(u,v) funcţia de


selecţie a coeficienţilor ce urmează a fi transmişi (egală cu 1 pentru coeficienţii ce
vor fi transmişi şi cu 0 pentru coeficienţii ce nu vor fi transmişi şi vor fi consideraţi
la recepţie egali cu 0).
Transformările bidimensionale utilizate trebuie să fie unitare (matricea
transformării să fie unitară) şi să aibă algoritm de calcul rapid. Transformata optimă
care elimină complet corelaţia dintre coeficienţi în spaţiul transformat este
transformarea Karhunen-Loeve, dar aceasta nu are algoritm de calcul
rapid.Transformări suboptimale cu algoritm de calcul rapid sunt transformările
Fourier rapidă, Walsh-Hadamard, Cosinus discretă (DCT = Discrete Cosine
Transform) ;I transformarea wavelet..

4.4.3 Codarea vectorială


Codarea vectorială se bazează pe rezultatele teoremei rată-distorsiune a lui
Shannon, care arată că performanţele metodelor de compresie de date sunt
întotdeauna mai bune atunci când se codează vectori în locul scalarilor, chiar dacă
sursa este fără memorie.
Codarea vectorială este foarte mult utilizată în codarea imaginilor statice.
Schema bloc pentru o metodă de compresie cu cuantizare vectorială este dată în
fig. 4.4. Codorul şi decodorul utilizează o listă de coduri Y , care conţine cuvinte
de cod (vectori de cod) y de dimensiune k notaţi cu un indice j ∈ [0, Y − 1] .
Imaginea este împărţită în blocuri de pixeli de dimensiune n × m . Fiecare bloc
poate fi considerat un vector u de dimensiune k = m ⋅ n . Pentru fiecare bloc codorul
selectează cuvântul de cod y care dă cea mai mică distorsiune d (u , y ) . Indicele j
al cuvîntului de cod este transmis pe canal. Dacă nu există zgomot, decodorul
reface cuvîntul de cod y din indicele j şi rezultă uˆ = y .
Din punct de vedere matematic cuantizarea vectorială este o funcţie de la un
spaţiu k -dimensional la un set finit de simboluri J :

19
VQ : {u = (u1 , u 2 ,...u k )} → J
Viteza de transmisie este :
R = log 2 (Y ) [biţi/vector]
Viteza de transmisie pe eşantion este R / k [biţi/eşantion]. De obicei Y este o
putere a lui 2 şi atunci R este număr întreg.
Performanţele sistemului cu codare vectorială depind de structura listei de
coduri. Există mai multe criterii pentru a proiecta în mod optim o listă de coduri.
Unul dintre ele constă în minimizarea distorsiunii medii (tipic eroarea medie
pătratică MSE). Alt criteriu urmăreşte maximizarea entropiei listei de coduri, ceea
ce înseamnă că fiecare cuvînt de cod este utilizat în medie de acelaşi număr de ori.
De obicei lista de coduri este fixată la codor şi la decodor. În codarea vectorială
adaptivă lista de coduri este modificată odată cu modificarea caracteristicilor
statistice ale imaginii. Se crează noi liste de coduri pe parcursul funcţionării
sistemului care le înlocuiesc pe cele vechi.
În trecut codarea vectorială a fost mai puţin utilizată din cauza complexităţii
calculelor atât în procesul de codare cât şi în procesul de învăţare. În ambele
procese se calculează distorsiunile pentru fiecare cuvînt de cod din listă şi se
compară între ele pentru a găsi cuvîntul de cod care dă distorsiunea cea mai mică.
Deoarece se utilizează blocuri în codarea vectorială există posibilitatea ca structura
de blocuri să fie vizibilă pe imagine.
În acelaşi timp, codarea vectorială prezintă avantaje semnificative, pe lângă
compresia pe care o realizează. Se pot construi liste de cuvinte de cod pentru care
entropia este aproape de valoarea maximă posibilă. Rezultă astfel că se poate face
codare cu cuvinte de cod cu lungime fixă cu toate avantajele ce decurg de aici în
privinţa comportării sistemului în prezenţa erorilor de pe canal. De asemenea,
cuvintele de cod pot fi aranjate astfel încât cele care sunt apropiate în distanţă
Euclidiană să aibă indici de cod apropiaţi în distanţă Hamming. Rezultatul obţinut
este că erorile de transmisie determină decodorul să selecţioneze un cuvînt apropiat
de cel original. Se obţine astfel compresie maximă (pe baza entropiei) şi o
sensibilitate redusă la erorile de transmisie.
O metodă clasică de proiectare a listei de cuvinte de cod este algoritmul
LBG, care este un algoritm optimizat local utilizat în mod frecvent la proiectarea
cuantizorilor vectoriali pentru imagine şi semnal vocal.
În ultimul timp au fost propuse pentru proiectarea codorilor vectoriali reţele
artificiale neuronale (ANN=Artificial Neural Network) care elimină limitările
algoritmilor tradiţionali. Reţelele ANN sunt formate dintr-un număr mare de unităţi
de calcul simple interconectate între ele, care pot lucra în paralel. Algoritmii de
proiectare cu ANN nu necesită acces în acelaşi timp la întregul set de date pentru
învăţare.

20
Lista de coduri

Vector intrare u
Selectare cod y din Y cel mai apropiat
de U j

Canal de
transmisie

Lista de coduri

Vector ieşire u^
Reface codul y din Y care are indicele j
j
Codul y folosit la reconstructia imaginii

Fig.4.4 Principiul codării vectoriale

Cuantizarea vectorială diferenţială (DVQ=Differential Vector Quantization)


înlocuieşte cuantizorul scalar din schema DPCM cu un cuantizor vectorial. Rezultă
un sistem care îmbină multe din avantajele celor două metode de compresie.
Un rol important în DVQ joacă mărimea blocurilor de imagine considerate.
În general blocurile mai mari măresc raportul de compresie dar degradează
calitatea. De obicei se lucrează cu blocuri 2 x 2 ( k = 4 ), 3 x 3 (k=9), 4 x 4 (k=16).
S-a constatat că blocurile mai mari de 2 x 2 introduc o structură vizibilă pe
imagine, care nu este acceptabilă pentru imagini de foarte bună calitate. De
asemenea, blocurile 2 x 2 permit prelucrarea în timp real.
S-a constatat, prin teste pe secvenţe de imagini, că eroarea pătratică medie
MSE depinde de numărul de biţi/eşantion. Pentru un număr fix de cuvinte de cod
blocurile de dimensiune 2 x 2 necesită mai puţine cicluri de învăţare. Trebuie spus
că, dacă prelucrarea în timp real se dovedeşte posibilă, este util să se realizeze un
sistem DVQ intercadre. De asemenea, cuantizorul vectorial poate fi făcut adaptiv,
arhitectura reţelei neuronale artificiale ANN putând fi folosită pentru reactualizarea

21
listei de cuvinte de cod pe măsură ce se modifică proprietăţile statistice ale
imaginii.

4.5 Standarde de compresie digitală a imaginilor

4.5.1 Standardul JPEG


Standardul JPEG (Joint Photographic Experts Group) este utilizat pentru
compresia imaginilor fixe. Grupul JPEG a fost creat în 1988 sub egida ISO ca un
proiect comun al ISO şi al comisiei Q16 CCITT. În anul 1992 a devenit standard
ISO. Rata de compresie poate ajunge până la 15:1. Există şi o variantă pentru
secvenţe de imagini MJPEG (Motion JPEG). Standardul JPEG permite patru
moduri de operare :
• Codare secvenţială DCT , în care fiecare componentă de imagine (YUV) este
codată într-o singură explorare de la stânga la dreapta şi de sus în jos.
• Codare progresivă DCT, în care imaginea este codată în explorări succesive
pentru a produce o imagine rapidă, decodată brut atunci când timpul de
transmisie este lung.
• Codare fără pierderi, în care imaginea este codată pentru a garanta o refacere
exactă după decodare. Se utilizează algoritmi de codare cu predicţie în locul
codării cu DCT.
• Codare ierarhică, în care imaginea este codată cu rezoluţii multiple.
Imaginea sursă ce trebuie codată constă din 1 până la 255 de planuri de imagine
fiecare cu alt număr de pixeli. De exemplu se pot coda imagini în format RGB (3
plane cu aceeaşi rezoluţie) sau YUV (3 plane cu rezoluţii diferite). Toţi pixelii
dintr-un plan sunt codaţi cu acelaşi număr de biţi.
Schema bloc a codorului şi a decodorului JPEG pentru codarea secvenţială este
prezentată în fig.9.4.
Codorul JPEG constă din trei blocuri principale :
• Blocul de transformare cosinus discret (DCT)
• Cuantizorul
• Codorul entropic
La intrarea codorului eşantioanele din gama [0, 2p –1] sunt translatate în gama [-
2p-1 , 2p-1-1]. De exemplu, pentru imagini cu p=8, eşantioanele originale din gama
[0, 255] sunt translatate în gama [-128, 127].
Apoi imaginea este divizată în blocuri de eşantioane de dimensiune 8x8, asupra
cărora se efectuează transformata cosinus discretă (DCT) :

F (u , v ) =
C (u ) C (v ) 7 7
f ( x, y ) cos
(2 x + 1)uπ ⋅ cos (2 y + 1)vπ
2
⋅ ∑ ∑
2 x =0 y =0 16 16

22
unde
1
C (0 ) =
2
iar pentru u şi v diferite de 0

C (u ) = C (v ) = 1
Coeficientul F(0,0) se numeşte coeficient DC iar ceilalţi 63 de coeficienţi se
numesc coeficienţi AC. Pentru p=8 coeficienţii DCT sunt în gama [-1024,+1023],
ceea ce implică trei biţi adiţionali pentru reprezentarea lor.
Pentru un bloc tipic de imagine majoritatea coeficienţilor DCT au valori zero sau
apropiate de zero. Pe acest lucru se bazează compresia de spectru.

Codor JPEG
Imagine sursă
Codor Imagine
Blocuri 8 x 8 DCT Cuantizor entropic comprimată

Tabel Tabel

Decodor JPEG

Decodor Imagine
Imagine Decuantizare IDCT
entropic reconstruită
comprimată

Tabel Tabel

Fig.4.5 Codor şi decodor JPEG. Schema bloc

În etajul următor, cuantizorul, cei 64 de coeficienţi DCT sunt cuantizaţi


utilizând un tabel de cuantizare cu 64 de elemente specificat de aplicaţie.

23
⎡ F (u , v ) ⎤
Fq (u , v ) = ⎢ ⎥
⎣ Q(u , v ) ⎦
Cuantizarea reduce amplitudinea coeficienţilor care a căror contribuţie este
neglijabilă la calitatea imaginii, având ca scop creşterea numărului de coeficienţi
DCT egali cu zero. Cuantizarea se face în conformitate cu următoarea ecuaţie :
unde [ ] simbolizează partea întreagă iar Q(u,v) sunt coeficienţii specificaţi în
tabelul de cuantizare. Fiecare element Q(u,v) este un număr întreg cuprins între 1
şi 255, care specifică pasul de cuantizare pentru coeficientul DCT corespunzător.
După cuantizare cei 63 de coeficienţi AC sunt ordonaţi într-o secvenţă în zig-
zag. Această ordonare în zig-zag va facilita în pasul următor codarea entropică
pentru că se poate vedea pe imagini reale că probabilitatea ca să fie în această
secvenţă coeficienţi egali cu zero creşte monoton cu indexul coeficienţilor.
Coeficienţii DC, care sunt valoarea medie a eşantioanelor dintr-un bloc 8x8,
sunt codaţi printr-o tehnică de codare adaptivă, prin transmisia diferenţei dintre doi
coeficienţi DC de la două blocuri adiacente. Acest lucru se face pentru că există o
corelaţie puternică între coeficienţii DC de la blocuri adiacente.
În final, codarea entropică oferă o compresie de spectru adiţională.
Standardul JPEG specifică două metode de codare entropică : codarea Huffman şi
codarea aritmetică. Standardul de bază secvenţial JPEG utilizează codare
Huffman. Codarea Huffman converteşte coeficienţii DCT într-o secvenţă binară
compactă utilizând două etape :
1. Formarea secvenţei de simbol intermediare
2. Conversia acestei secvenţe în secvenţă binară cu tabelele Huffman.
În secvenţa de simboluri intermediare fiecare coeficient AC este reprezentat
printr-o pereche de simboluri :
Simbol 1 (RUNLENGTH, SIZE)
Simbol 2 (AMPLITUDINE)
RUNLENGTH este numărul de coeficienţi AC consecutivi cu valoare zero care
preced un coeficient AC diferit de zero. Gama sa de valori este între 0 şi 15, ceea
ce necesită 4 biţi.
SIZE este numărul de biţi necesari pentru codarea AMPLITUDE. Numărul de biţi
pentru AMPLITUDE este între 0 şi 10 biţi, astfel încât sunt necesari 4 biţi pentru a
coda SIZE.
AMPLITUDE este amplitudinea coeficientului AC diferit de zero care poate fi în
gama [+1024, -1023], ceea ce necesită 10 biţi pentru codare.
De exemplu, dacă secvenţa coeficenţilor AC este :
0,0,0,00,0,476
reprezentarea secvenţei de simboluri este :
(6,9) (476)
unde RUNLENGTH=6, SIZE=9, AMPLITUDE=476.

24
Dacă RUNLENGTH este mai mare decât 15, atunci simbolul (15,0) este
interpretat ca extensia cu RUNLENGTH=16. Pot exista până la trei extensii
consecutive (15,0).
Pentru coeficienţii DC reprezentarea simbolurilor intermediare este :
1. Simbol-1 (SIZE)
2. Simbol-2 (AMPLITUDE)
Deoarece coeficienţii DC sunt codaţi diferenţial această gamă este dublă faţă de
gama coeficenţilor AC şi este [-2048,2047].
A doua etapă în codarea Huffman este conversia secvenţei intermediare de
simboluri în secvenţă binară. Simbolurile sunt înlocuite coduri cu lungime
variabilă, începând cu coeficientul Dc şi continuând cu coeficienţii AC. Fiecare
Simbol-1 (pentru coeficienţii AC şi DC este codat cu un cod cu lungime variabilă
(VLC=Variable Length Code) obţinut dintr-un tabel Huffman specificat pentru
fiecare componenta de imagine YUV. Simbolurile-2 sunt codate utilizând un cod
cu lungime variabilă de tip VLI (Variable Length Integer, a cărui lungime în biţi
este dată în tabelul 4.3.

Tabelul 4.3
Lungime cod Gama amplitudinilor
1 (-1,1)
2 (-3,2) (2,3)
3 (-7,4) (4,7)
4 (-15,-8) (8,15)
5 (-31,-16) (16,31)
6 (-63,-32) (32,63)
7 (-127,-64) (64,127)
8 (-255,-128) (128,255)
9 (-511,-256) (256,511)
10 (-1023,-512) (512,1023)

Decodarea standardului secvenţial JPEG cuprinde în ordine inversă toate


etapele procesului de codare aşa cum se prezintă în figura 9.4.
Decodorul entropic (Huffman) este primul bloc în care secvenţa binară este
convertită într-o secvenţă de simboluri utilizând tabelele Huffman (pentru
coeficienţii codaţi VLC) şi decodarea VLI, după care simbolurile se convertesc în
coeficienţi DCT. Apoi se face decuantizarea conform ecuaţiei :
Fq′ (u, v ) = Fq′ (u , v ) × Q(u, v )

25
Unde Q(u,v) sunt coeficienţii de cuantizare din tabelul de cuantizare utilizat şi la
codare.
Este efectuată apoi transformarea cosinus discretă inversă (IDCT) care face
transformarea în domeniul spaţial :

F ( x, y ) =
1⎡ 7 7
C (u )C (v )F (u, v ) cos
(2 x + 1)uπ cos (2 y + 1)vπ ⎤
⎢ ∑ ∑
4 ⎣u =0 v =0 16 16 ⎥

unde C(u) şi C(v) au aceleaşi expresii ca la transformarea cosinus discreta directă..
Ultimul pas constă în translatarea eşantioanelor în gama [0, 2p-1].

4.5.2 Standardele din familia MPEG


Standardele MPEG (Moving Picture Experts Group) sunt propuse pentru
compresia imaginilor cu mişcare.
Primul standard introdus în 1991 (MPEG-1 , ISO/IEC 11172 din 1993) este
destinat compresiei imaginilor video cu mişcare cu rezoluţie 320x240 (calitate
VHS) până la viteze de transmisie de 1-1,5 Mbit/s.
Standardul MPEG-2 introdus în 1994 (ISO/IEC 13818 din 1996) este
destinat transmisiei imaginilor de cu rezoluţie mai bună (720x480), similară cu cea
din standardului digital de studio. Fluxul de date MPEG-2 ajunge la 4-10 Mbit/s.
Standardul permite transmisia imaginilor cu întreţesere. MPEG-2 permite
transmisia imaginilor pentru o largă varietate de aplicaţii care necesită rezoluţii
diverse cum sunt comunicaţiile video prin reţele ISDN utilizând ATM.
] Metoda de compresie în standardele MPEG-1 şi MPEG-2 este hibridă şi
utilizează transformata cosinus discretă (DCT) intracadru şi codare cu predicţie cu
compensarea mişcării intercadre. Raportul de compresie poate ajunge până la
200 : 1.
Pentru televiziunea de înaltă definiţie (HDTV = High Definition Television)
s-a stabilit iniţial să se creeze un standard special, MPEG-3. Ulterior s-a constatat
că nu este necesar un astfel de standard şi că se poate folosi tot standardul MPEG-
2, evident cu creşterea vitezei de transmisie după compresie faţă de viteza necesară
pentru semnale video pentru imagini cu rezoluţie normală codate MPEG-2.
Standardele MPEG-1 şi MPEG-2 au creat posibilitatea dezvoltării
televiziunii digitale şi, de asemenea posibilitatea televiziunii interactive pe CD-
ROM şi apoi pe DVD (Digital Video Disk)..
Standardul MPEG-4 (ISO/IEC 14496-2 din anul 2000) a fost dezvoltat
pentru a oferi utilizatorilor un nou nivel de interacţiune cu conţinutul vizual.
Metodele de compresie sunt diferite de cele din standardele MPEG-1 şi MPEG-2.
Standardul MPEG-4 oferă tehnologii pentru a vizualiza, accesa şi manevra obiecte
în locul eşantioanelor, tehnologii robuste la erori şi pentru o gamă largă de viteze

26
de transmisie. Domeniile de aplicaţie sunt televiziunea digitală, aplicaţii grafice
interactive (conţinut sintetic) şi multimedia interactivă.
În loc să considere imaginea ca fiind formată din eşantioane (pixeli) de
diverse amplitudini şi cu variaţie în timp pentru imagini cu mişcare (aşa cum se
întâmplă la MPEG-1 şi MPEG-2), standardul MPEG-4 consideră imaginea formată
din obiecte care se află în faţa unui fundal, atât obiectele cât şi fundalul putând să-şi
modifice în timp poziţia şi forma pentru imagini cu mişcare. Este un mod de
descriere a imaginilor mai apropriat de ceea ce se întâmplă în cadrul sistemului
vizual uman, lucru ce poate explica obţinerea unor imagini de bună calitate la
viteze de bit relativ scăzute.

• Standardele MPEG-1 şi MPEG-2


Tabelul 4.4 prezintă mai multe formate de secvenţe video şi parametrii
corespunzători ai standardului MPEG-1 şi MPEG-2.

Tabelul 4.4
FORMAT PARAMETRI VITEZĂ DE STANDARD
VIDEO BIT DUPĂ MPEG
COMPRESIE
SIF 352x240 30 Hz 1,2-3 Mbit/s MPEG-1
CCIR 601 720X486 30 Hz 5-10 Mbit/s MPEG-2
EDTV 960x486 30 Hz 7-15 Mbit/s MPEG-2
HDTV 1920x1080 20-40 Mbit/s MPEG-2
30Hz

Standardul MPEG-2 este utilizat atât pentru aplicaţii simetrice cât şi pentru
aplicaţii asimetrice. Aplicaţiile asimetrice sunt caracterizate prin utilizarea
frecventă a decompresiei, în timp ce procesul de compresie este efectuat o singură
dată. Exemplele includ televiziunea digitală ca şi aplicaţii interactive (filme la
cerere, educaţie la distanţă, etc).
Aplicaţiile simetrice necesită o utilizare egală a proceselor de compresie şi
decompresie. Exemple de astfel de aplicaţii sunt poşta multimedia şi
videoconferinţa.
Standardul MPEG-2 constă din trei părţi :
1. Sincronizarea şi multiplexarea secvenţelor video şi audio.
2. Video.
3. Audio.
Se prezintă în continuare principiile standardului video.
Se definesc 8 frecvenţe de cadre :
23,976 Hz ; 24 Hz ; 25 Hz ; 29,97 Hz ; 30 Hz ; 50 Hz ; 59,94 Hz ; 60 Hz .

27
Fiecare imagine se împarte în zone numite macroblocuri cu dimensiunea de 16 x
16 pixeli pentru Y şi 8 x 8 pixeli pentru U şi V.
În standardul MPEG-2 cadrele de imagine sunt codate utilizând trei algoritmi
diferiţi, aşa cum se prezintă în figura 4.6.
1
2
I
3
B
4
B
5
B
6
P
B 7

B 8

B 9

Fig.4.6 Tipuri de cadre în standardul MPEG-2

Cadrele de tip I sunt codate intracadru utilizând transformata cosinus discretă


(DCT) în mod sismilar cu standardul JPEG. Aceste cadre sunt puncte de acces
aleator în fluxul de date MPEG-2 şi au cea mai scăzută rată de compresie.
Cadrele de tip P sunt codate cu predicţie temporală având ca referinţă cadre
de tip P sau de tip I anterioare. Raportul de compresie pentru aceste cadre este net
superior faţă de cadrele I.
Cadrele de tip B sunt codate bidirecţional în timp utilizând două cadre de
referinţă (unul anterior şi unul posterior) care pot fi de tip I sau P. Aici se obţine
rata de compresie cea mai mare.
Din cele expuse mai sus rezultă că ordinea de decodare va fi diferită de
ordinea de codare. Cadrul P (5) trebuie să fie decodat înaintea cadrelor B (2,3,4),
iar cadrul I (9) înaintea cadrelor B (6,7,8). La transmisia semnalului MPEG ordinea
de transmisie trebuie să fie 1,5,2,3,4,9,6,7,8.
Dacă este necesar acces aleator rapid cea mai bună soluţie ar fi codarea
tuturor cadrelor drept cadre I (MPEG devine identic cu MJPEG). Cea mai mare
rată de compresie se obţine cu un număr cât mai mare de cadre de tip B.
Procesul de codare pentru cadrele de tip B şi P include estimarea mişcării pentru
extragerea informaţiei de mişcare din secvenţa video. Pentru fiecare bloc 16 x 16
din cadrele B şi P se calculează unul sau doi vectori de mişcare. Pentru cadrele B se
calculează un vector de mişcare, iar pentru cadrele B interpolate se calculează doi
vectori de mişcare. Standardul MPEG-2 nu indică un anumit algoritm pentru

28
estimarea mişcării dar specifică modul de codare a rezultatului. Se codează vectorul
de mişcare şi diferenţa dintre blocuri. Zona de căutare (amplitudinea vectorului de
mişcare) nu este definită în standard dar este restrânsă prin definirea gamei
vectorului. Cu cât zona de căutare este mai mare, cu atât estimarea mişcării este
mai bună (deşi calculul este mai complex) şi rata de compresie mai mare.

• Standardul MPEG-4
Aplicaţiile multimedia atrag atenţia din ce în ce mai mult industriei
telecomunicaţiilor, a bunurilor de consum electronice şi industriei de calculatoare.
Într-un sens larg multimedia este cadrul general de interacţiune cu informaţiile
provenite din mai multe surse, inclusiv video.
Un standard multimedia este de aşteptat să ofere suport pentru un mare
număr de aplicaţii. Aceste aplicaţii se traduc într-un set specific de cerinţe care pot
să fie foarte diferite. Un domeniu comun pentru majoritatea aplicaţiilor este
necesitatea de a suporta interactivitatea cu diverse tipuri de date. Aplicaţiile legate
de informaţia vizuală pot fi gruoate pe baza mai multor trăsături :
a) Tipul datelor (imagini fixe, imagini stereoscopice, video, etc.) ;
b) Tipul sursei (imagini naturale, imagini generate pe calculator, text şi
grafică, imagini medicale, etc.) ;
c) Tipul de comunicaţie (mergând de la comunicaţii punct la punct până
la comunicaţii multipunvt la multipunct) ;
d) Tipul funcţionalităţilor dorite ( manevrarea obiectelor, editare on-line,
transmisie progresivă, rezistenţă la erori, etc.).
Standardele de compresie video MPEG-1 şi MPEG-2, deşi foarte bine
adaptate la mediul pentru care au fost proiectate, nu sunt suficient de flexibile
pentru a îndeplini cerinţele aplicaţiilor multimedia. Aceasta a fost motivaţia care a
dus la crearea standardului MPEG-4.
Televiziunea digitală înlocuieşte din ce în ce mai mult astăzi televiziunea
analogică, atât în transmisia cât şi în memorarea imaginilor (vezi trecerea de la
casetele video analogice la DVD), lucru posibil şi prin dezvoltarea standardului
MPEG-2. În aceste apicaţii conţinutul omaginii este reprezentat digital, cu efecte
evidente asupra calităţii imaginii, dar conţinutul rămâne acelaşi pentru utilizator.
Odată ce conţinutul este
Standardul MPEG-4 constă dintr-o colecţie de instrumente pentru codarea
formei, compensarea şi estimarea mişcării, codarea zonelor cu texturi, rezistenţa la
erori şi scalabilitate.
1. Codarea formei poate fi realizată în mod binar (forma fiecărui obiect fiind
descrisă printr-o mască binară) , sau în modul corespunzător unei scări de
gri (permiţând astfel transparemţa obiectelor afişate şi reducând
fenomenele de aliere la marginile obiectului).

29
2. Compensarea mişcării se face pe blocuri, cu modificarea corespunzătoare
pentru marginile obiectului. Mărimea blocurilor poate fi 16 x 16 sau 8 x
8, cu rezoluţie spaţială de jumătate de eşantion.
3. Codarea zonelor cu texturi se bazează pe utilizarea transformatei cosinus
discretă (DCT) pe blocuri 8 x 8, cu modificări corespunzătoare pentru
blocurile de la marginea obiectelor. Zonele statice cu texturi se pot coda
cu transformarea wavelet.
4. Rezistenţa la erori se realizează prin utilizarea unor markeri de
sincronizare, coduri de extensie pentru header şi coduri reversibile cu
lungime variabilă.
5. Scalabilitatea se realizează atât spaţial cît şi temporal. MPEG-4 realizează
scalabilitate pe bază de obiect, cu restricţia ca forma obiectului să fie
rectangulară.

Punctele de conformitate pentru MPEG-4 sunt definite ca Profilul Simplu


(Simple Profile), Profilul Nucleu (Core Profile) şi Profilul Principal
(Main Profile). Primele două profile sunt specifice pentru imagini cu
rezoluţie tipică QCIF şi CIF (vezi paragraful 4.5.3.), cu viteze de bit dup[
compresie de 64 kbit/s, 128 kbit/s, 384 kbit/s şi 2 Mbit/s. Profilul
principal se foloseşte pentru imagini cu rezoluţie tipică CIF, ITU-R 601 şi
HDTV, cu viteze de bit după compresie de 2 Mbit/s, 15 Mbit/s şi 38,4
Mbit/s.

4.5.3 Alte standarde de compresie a imaginilor


Recomandarea CCITT H.261 din 1990 (cunoscută şi sub denumirea de p x
64) este optimizată pentru a obţine rapoarte foarte mari de compresie pentru
imagini color cu mişcare. Ea se utilizează în videotelefonie şi videoconferinţă.
Algoritmul de compresie combină codarea intracadru DCT cu codarea cu
predicţie intercadre. Deoarece în aplicaţiile de videoconferinţă şi videotelefonie nu
există mişcare foarte rapidă, iar majoritatea timpului mişcarea lipseşte, algoritmul
utilizează strategii de estimare şi compensare a mişcării limitate spaţial la 15 pixeli.
Se pot obţine rapoarte de compresie între 100 : 1 şi 2000 : 1.
Standardul este utilizat pe canale ISDN cu viteze de transmisie multipli ai
vitezei de bază de 64 Kbit/s. Numărul p poate fi cuprins între 1 şi 30, de unde
rezultă că viteza de transmisie este cuprinsă între 64 Kbit/s şi 2 048 Kbit/s. Pentru p
egal cu 1 sau 2 se pot implementa doar comunicaţii de tip videotelefon. Pentru p
mai mare decât 6 se poate transmite o videoconferinţă.
Spre deosebire de JPEG care admite o mare varietate de formate de imagine,
standardul H.261 precizează foarte exact formatul de imagine. Imaginile au
frecvenţa cadrelor de 29,97 Hz (59,94 Hz : 2) iar în procesul de codare este posibil

30
să se genereze o secvenţă comprimată cu 10 – 15 cadre/s. Componentele imaginii ,
luminanţa şi cele două diferenţe de culoare sunt subeşantionate conform Rec. CCIR
601 (standardul digital de studio) la 6,75 MHz pentru luminanţă şi 3,375 MHz
pentru cele două diferenţe de culoare.
Sunt specificate două formate de rezoluţie cu raport de aspect al imaginii de
4/3 :
a) Formatul comun intermediar (CIF=Common Intermediate Format) cu
rezoluţie egală cu 288 linii x 352 pixeli pentru semnalul de luminanţă şi
144 linii x 176 pixeli pentru semnalele diferenţă de culoare.
b) Formatul sfert CIF (QCIF=Quarter CIF) care are rezoluţia redusă la
jumătate pe fiecare direcţie (orizontală şi verticală) faţă de formatul CIF
(144 linii x 176 pixeli pentru luminanţă şi 72 linii x 88 pixeli pentru
diferenţele de culoare), adică o rezoluţie de 4 ori mai mică pe ansamblu
decât la formatul CIF.
Formatul QCIF necomprimat are viteza de transmisie de 9,115 Mbit/s , iar formatul
CIF necomprimat are viteza de transmisie de 36,45 Mbit/s.
Algoritmul de codare cuprinde :
- Codare intracadru (corespunde codării tip I din MPEG).
- Codare intercadre (corespunde codării tip P din MPEG).
Conform standardului H.261 nu este obligatoriu ca dispozitivul codor să
determine un vector de mişcare, de unde rezultă că o implementare simplă
consideră doar diferenţele dintre macroblocurile situate în aceeaşi poziţie în
cadre succesive (vector de mişcare egal cu 0). Dacă se utilizează o implementare
mai complexă componentele vectorului de mişcare se codează entropic cu un
sistem VLC (Variable Length Coding). Cuantizarea este liniară şi pasul de
cuantizare se reglează în conformitate cu cantitatea de date din registrul tampon
(buffer). Acest mecanism forţează o viteză de date constantă la ieşirea
codorului.
Recomandarea 723 CCIR este un alt standard de compresie pentru
transmisia semnalelor video care se referă la codarea pentru transmisie a imaginilor
din standardul digital de studio 4 : 2 : 2. Viteza de transmisie este cuprinsă între 34
Mbit/s şi 140 Mbit/s.

31
32

S-ar putea să vă placă și

  • Filtre LC
    Filtre LC
    Document3 pagini
    Filtre LC
    Anonymous h87K4sT
    Încă nu există evaluări
  • Dieta Militara
    Dieta Militara
    Document3 pagini
    Dieta Militara
    Anonymous h87K4sT
    Încă nu există evaluări
  • Amandina Vegana
    Amandina Vegana
    Document2 pagini
    Amandina Vegana
    Anonymous h87K4sT
    Încă nu există evaluări
  • Microcontrolere Introducere PDF
    Microcontrolere Introducere PDF
    Document19 pagini
    Microcontrolere Introducere PDF
    Alex Agape
    Încă nu există evaluări
  • Teorie
    Teorie
    Document72 pagini
    Teorie
    Anonymous h87K4sT
    0% (1)
  • Meniu 1400 Cal
    Meniu 1400 Cal
    Document8 pagini
    Meniu 1400 Cal
    Anonymous h87K4sT
    Încă nu există evaluări
  • Lab 3 Alex
    Lab 3 Alex
    Document14 pagini
    Lab 3 Alex
    Anonymous h87K4sT
    Încă nu există evaluări
  • Caiet Sarcini 1
    Caiet Sarcini 1
    Document126 pagini
    Caiet Sarcini 1
    Anonymous h87K4sT
    Încă nu există evaluări