Documente Academic
Documente Profesional
Documente Cultură
Curs TTTVMM - Partea I
Curs TTTVMM - Partea I
tehnologii TV și
multimedia
Partea I
IV - ISM
semnalelor
1.1 Introducere
Multimedia a deschis noi servicii care asigura o mai convenabila si usoara folosire a
mediilor, precum realitatea virtuala pentru sistemele complexe si pentru sistemele
educationale, serviciile de televiziune interactiva cu utilizatori multipli, teatrul tridimensional
la domiciliu. Nu este exagerat sa afirmam ca intrarea in lumea comunicatiilor, a
calculatoarelor si a radiodifuziunii a audioului si a videoului inseamna inceputul multimediei.
Adaugind mediile audio si video la serviciile conventionale bazate pe text ele devin mai
atractive pentru multi utilizatori. Prin urmare, realizarea unei conexiuni si/sau fuziuni intre
lumea calculatoarelor, a comunicatiilor si a radiodifuziunii asa cum este prezentat in Fig. 1.1
conduce la schimbari dramatice in viata noastra. Functia cheie aici este digitizarea eficienta
pentru video si audio, pentru ca in acest format informatiile video si audio pot fi folosite in
calculatoare si in retelele digitale de comunicatii.
Totusi aceste trei lumi impun cerinte diferite pentru digitizarea informatiilor video si
audio, datorate evolutiilor diferite in cele trei lumi. De asemenea, digitizarea directa a
informatiilor audio si video conduc la fisiere de date mult mai mari decit fisierele
conventionale bazate pe text. In consecinta capacitatea mare de stocare, retelele de mare
viteza si tehnologiile de compresie pentru audio si video joaca un rol importanta in lumea
multimedia.
Prin urmare, pentru dezvoltarea domeniului multimedia este necesaradezvoltarea
elementelor hardware ieftine pentru compresie si transmisie/stocare. In acest sens dezvoltarea
metodologiilor de proiectare VLSI pentru circuite de consum redus si la un pret de cost redus
a avut un rol important. In continuare vor fi analizate prelucrarile semnalelor multimedia si
implementarile hardware pentru acestea.
Aceasta arata ca pentru limitarea aleasa pentru regiunea de miscare estimarea miscarii
necesita mai mult de 40 GOPS, la care trebuie adaugate si operatiile pentru calculul
DCT/IDCT si a codatrii cu lungime de bit variabila. Conform standardului MPEG-2
regiunile de cautare pot fi extinse la intregul cadru. Deci prelucrarea va depasi 10 Tera
operatii pe secunda. Acesti factori impun folosirea unor sisteme dedicate aplicatiilor.
Cind este proiectat un circuit LSI pentru o aplicatie specifica , de exenplu pentru un
codor MPEG-2, capacitatea de prelucrare ceruta depinde de algoritmul folosit. Exosta o
categorie de algoritmi simplificati pentru estimarea miscarii, insa simplificarea algoritmului
produce o anumita degradare a imaginii reconstruite. Compromisul dintre complexitate
hardware si calitate este o problema importanta a metodologiei de proiectare a circuitelor
specifice aplicatiei.
La proiectarea arhitecturii, hardware-ul pentru pipe-line sporeste posibilitatile de
prelucrare cu o mica penalizare datorata introducerii registrelor. De exemplu, daca o
prelucrare este mpartita in doua prin introducerea registrelor, prima prelucrare poate fi
activata chiar dupa ce a doua prelucrare incepe. Introducerea registrelor poate dubla chiar
viteza de prelucrare. In cazul estimarii miscarii descrise anterior sau pentru calculul
produsului unor matrici sau vectori poate fi utilizata o structura pipe-line denumita arie
sistolica (Systolic Array). Multe circuite pentru compensarea miscarii si/sau circuite codec
incluzind compensarea miscarii au folosit arii sistolice, datorita regularitatii si a simplitatii in
prelucrarea de mare viteza. Unele arii sistolice avansate vor fi prezentate mai tirziu.
Pentru partea de codare a canalului din Fig. 1.4 unele operatii trebuie efctuate in cimpuri
finite si operatiile cerute sunt putin diferite fata de ALU conventional.
Proiectarea pentru consum redus este o alta problema importanta a implemantarii
hardware, pentru ca realizarea functiilor multimedia cu sisteme de consum redus asigura
prelungirea duartei de viata a bateriilor pentru aplicatiile portabile. Probabil ca cea mai
importanta piata pentru aplicatiile multimedia va fi cea a terminalelor portabile. In Fig. 1.8
este prezentat un echipament multimedia experimental care permite descarcarea in calculator
a noutatilor video in fiecare dimineata. In acest sistem noutatile video sunt stocate intr-o
cartela PCMCIA in format MPEG-1. Calitatea audio este comparabila cu aceea a discului
compact si calitatea MPEG-1 este putin rezonabila pentru ecranele mici. Chiar daca acest
sistem nu include capacitati de comunicare fara fir in acest moment, viitoarele versiuni vor
include functiuni pentru cautarea pe web. Cind un astfel de terminal compact receptioneaz si
transmite informatii video cu Mb/s sisteme de antene adaptive ar putea fi utilizate pentru a
capta semnalul dorit in mediu zgomotos.
Multe operatii aritmetice precum impartirea si extragerea radacinii patrate, precum si
functii primare ca sin, cos, log si exp pot fi incluse in astfel de sisteme pentru aplicatii de
grafica pe calculator. Operatiile de impartire si de extragere a radacinii patrate pot fi
executate cu algoritmul CORDIC.
Cap.2. Compresia video
2.1 Introducere
Semnalul video digital prezinta multe avantaje in comparatie cu semnalul video analogic.
Totusi, cand semnalul video este reprezentat in format digital, largimea de banda creste
considerabil. De exemplu, un singur cadru in format HDTV (televiziunea de inalta definitie),
avand o dimensiune a cadrului de 19201250 pixeli si o rata de 50 cadre/sec cere o
dimensiune de stocare de 57.6 MB si o rata a sursei de date video de 2.88 GB/s. Un film de 2
ore in format HDTV are nevoie de aproximativ 414 GB. Chiar si cu un dispozitiv performant
de memorare, nu exista inca suportul tenologic care sa permita transmisia si procesarea
semnalului la viteze atat de mari. Pentru a depasi problema largimii benzii ocupate, in
contextul pastrarii avantajelor conferite de catre semnalul digital in televiziune, au fost
dezvoltate diferite tehnici de compresie a semnalului video. Acest capitol face o sinteza a
conceptelor de baza care intervin in studiul compresiei video si prezinta cunostiintele de baza
necesare pentru implementarea acestor tehnici de codare foarte intens utilizate.
Capitolul este organizat astfel: sectiunea 2.2 recapituleaza conceptele de baza ale codarii fara
pierderi, algoritmi de codare cum ar fi codoarele Huffman si codarea aritmetica. Ratele de
compresie utilizate de algoritmii de compresie fara pierderi sunt limitate. Spre deosebire,
algoritmii de compresie cu pierderi, discutati in sub-capitolele 2.4 si 2.5, nu fac o
reconstructie perfecta a semnalului dupa decodare, dar au o rata de compresie excelenta.
Tehnicile de codare bazate pe transformari sunt prezentate in capitolul 2.3. Teoria din acest
capitol contine informatii despre transformata cosinus discreta, cuantizarea vectoriala si
reordonarea coeficientilor cuantizati ai transformarii. Algoritmul cheie utilizat in compresia
video este studiat in capitolul 2.4. Capitolul 2.5 prezinta o privire de ansamblu asupra unor
caracteristici de baza ale standardului de compresie video MPEG-2. In final sunt discutate
dificultatile ridicate de complexitatea algoritmilor de codare video, in capitolul 2.6.
practic deoarece - log 2 pi poate sa nu fie intreg, ideea unei lungimi de codare variabile, care
sa reprezinte simbolurile cel mai frecvent aparute utilizand cuvinte de cod mai scurte si
simbolurile mai putin frecvente utilizand cuvinte de cod mai lungi, poate fi aplicata pentru a
obtine compresia de date. Algoritmii de compresie a datelor care utilizeaza datele statistice
ale sursei pentru a obtine rata de biti/simbol apropiata de valoarea entropiei sunt cunoscuti in
general ca algoritmi de codare entropica. Codarea entropica este lipsita de pierderi deoarece
datele initiale pot fi reconstruite exact utilizand datele compresate.
Acest capitol recapituleaza pe scurt cei mai frecvent utilizati 2 algoritmi de codare entropica:
codarea Huffman si codarea aritmetica. Acest capitol include de asemenea inca un tip de
algoritm de codare a sursei fara pierderi, codarea run-length. El converteste un sir de
simboluri identice intr-o secventa de lungime intermediara de simboluri denumite coduri run-
length si este des utilizat impreuna cu algoritmii de codare entropica pentru a imbunatati rata
de compresie a datelor.
2. Asignarea codurilor; cuvantul de cod pentru fiecare simbol este o secventa binara de
la radacina arborelui catre frunza in care probabilitatea simbolului este localizata.
Codul Huffman este unic decodabil. O data generat codul, procedura de codare poate fi
realizata prin alocarea fiecarui simbol de intrare catre cuvantul de cod corespondent, care
poate fi stocat intr-un tabel. Procedura de decodare include extragerea cuvintelor de cod
dintr-un sir de cuvinte de cod concatenate si asignarea fiecarui cuvant de cod simbolului
corespunzator, utilizandu-se respectivul cod Huffman. O proprietate importanta a codurilor
Huffman este aceea ca nici un cod sau vreo combinatie de coduri nu reprezinta prefixul
vreunui alt cod. Conditia de prefix permite extragerea cuvintelor de cod dintr-un cuvant de
cod concatenat si elimina surplusul pozitiior transmise. Conceptual, cuvantul de cod extras
poate fi obtinut bit cu bit prin transversalizarea arborelui de codare Huffman. Se incepe de la
radacina arborelui; la fiecare nod intermediar, se ia o decizie in concordanta cu bitul
receptionat, pana cand se ajunge la nodul terminal (frunza); se gaseste , astfel, cuvantul de
cod, iar bitii corespunzatori sunt extrasi din sirul de biti.
codarea aritmetica, intervalul [0,1] este impartit in L sub-intervale {[0,P1], [P1,P2],…,[ PL-1,
PL=1]}, iar sub-intervalul de ordinul i, definit ca I(ai)= [ Pi-1, Pi] este asignat simbolului ai
(pentru 1 i L), ca in fig. 2.2 (a). Este apoi calculata reprezentarea binara a mijlocului sub-
intervalului i si primii W(ai) biti (dupa punctul de mijloc), reprezinta cuvantul de cod
aritmetic pentru simbolul ai (pentru 1 i L), unde W (ai ) [log 2 (1 pi ] 1 .
Codarea aritmetica are ca rezultat un sir de simboluri care permite obtinerea unor rate de
compresie mult mai bune. De obicei este mai performanta decat codarea Huffman din acest
punct de vedere. Codarea aritmetica a unui sir de simboluri de lungime l, S={s1, s2,…, sl} este
obtinuta prin l impartiri iterative in sub-intervale, partitionari facute pe baza proprietatilor
statistice ale setului de simboluri considerat, adica distributia de probabilitate si
probabilitatile conditionate. Lungimea fiecarui sub-interval este egala cu probabilitatea sirului
de simboluri care ii corespunde. Cuvantul de cod aritmetic pentru un sir de simboluri S este
format din primii W biti din reprezentarea binara a valorii de mijloc a sub-intervalului
corespunzator, I(S), unde W=[log21/|I(S)|]+1, iar |I(S)| este lungimea intervalului I(S).
Exemplul 2.2.4 Acest exemplu ilustreaza procesul de codare aritmetica pentru un sir
de simboluri ales din setul de simboluri din exemplul 2.2.3. Se presupune ca simbolurile din
secventa sursa sunt independente si identic distribuite (iid). Se considera sirul de patru
simboluri S=bbab. Codarea aritmetica a acestuia cuprinde cinci pasi, dupa cum se prezinta
in fig. 2.3. La primul pas, intervalul [0,1] este impartit in doua sub-intervale pe baza
probabilitatilor lui a si b, iar I(a)=[0,1/4] si I(b)=[1/4,1]. Pentru ca primul simbol din sirul S
este b, al doilea sub-interval este retinut si transmis la urmatoarea iteratie. La pasul al
doilea, sub-intervalul I(b) este impartit in doua sub-intervale: I(ba)=[1/4,7/16] si
I(bb)=[7/16,1] pe baza probabilitatilor conditionate p(a|b) si p(b|a), care sunt egale cu p(a)
si p(b) pentru surse iid. In conformitate cu valoarea celui de-al doilea simbol, sub-intervalul
I(bb) este retinut si transmis la urmatoarea iteratie. In mod similar, la pasul al treilea, sub-
intervalul I(bba) = [7/16,121/256] este retinut si transmis in iteratia a patra; sub-intervalul
I(bbab) = [121/256 , 37/64] obtinut la pasul 4 este sub-intervalul final pentru sirul de
simboluri S=bbab. In cele din urma, la pasul 5, reprezentarea binara a mijlocului sub-
intervalului I(bbab)=[ 121/256 , 37/64], adica a valorii 269/512 este calculata, iar primii
biti, respectiv 10000 constituie cuvantul de cod aritmetic al sirului S=bbab.
N 1
(2n 1)k
X (k ) e(k ) x(n) cos[ ], k 0,1,...., N 1 (3)
n 0 2N
2 N 1 (2n 1)k
x ( n)
N n 0
e(k ) X (k ) cos[
2N
], n 0,1,...., N 1 (4)
unde:
1
, daca k 0
e( k ) 2 (5)
1, altfel
Cele N puncte ale transformatelor pereche DCT si ale IDCT pot fi obtinute folosind perechea
de transformate Fourier discreta (DFT) in 2N puncte. Construim secventa de 2N puncte, y(n),
folosind pe x(n) si imaginea ei in oglinda, dupa cum urmeaza:
x(n), 0 n N 1
y(n) x(n) x(2 N n 1) (6)
x(2 N n 1), N n 2 N 1
Secventa y(n) prezinta simetrie fata de punctul de mijloc n=N-1/2. Fig. 2.4 prezinta un
exemplu pentru N=5.
Cele 2N puncte ale DFT ale lui y(n) sunt date de:
2 N 1 2 N 1 j
2
2 N 1 j
2
j kn kn kn
2 N 1 2 0 2 N 1 2 2
j kn j k ( 2 N n 1) j kn ' j k
n 0
x(2 N n 1)e 2N
x ( n ' )e
n ' N 1
2N
x ( n ' )e
n'0
2N
e 2N
. (8)
N 1 2 N 1 2 2
j kn j kn j k
YD (k ) x(n)e 2N
x ( n )e 2N
e 2N
n 0 n 0
( 2 n 1) ( 2 n 1)
j k N 1 j k (9)
x ( n )e
j k N 1 x ( n )e 2N 2N
e 2N
( n 0
n 0
j k N 1 (2n 1)k
e 2N
2 x(n) cos[
n 0 2N
]
Definim:
k
j( )
ˆ Y ( k ) e 2N
0 k N 1
X (k ) D
0 altfel
(10)
Cele N puncte ale DCT pot fi determinate utilizand expresia X (k ) e(k ) Xˆ (k ) / 2 .
Transformata inversa a DCT este dedusa raportand YD(k) la X(k), calculand y(n) din
YD(k) folosind transformata inversa a DFT si reconstruind x(n) din y(n). Desi YD(k) este o
secventa de lungime 2N , iar X(k) o secventa de lungime N , redundanta secventei simetrice
y(n) permite ca YD(k) sa poata fi scrisa utilizand X(k). Pentru 0 k N-1,
j k
YD (k ) e 2N
Xˆ (k ) , iar YD(N)=0 pentru N+1 k 2N-1 si 1 2N-k N-1. De aici,
( 2 N k ) k
j j
YD (2 N k ) e 2N
X̂(2 N - k ) e 2N
X̂(2 N - k ) (11)
( 2 N k ) N 1
j (2n 1)(2 N k )
YD (2 N k ) e 2N
2 x(n) cos(
n 0 2N
)
2 N k N 1
j j (2n 1)k
e 2N
e 2N
2 x(n) cos( 2N
)
n0 (12)
2 k k N 1
j j (2n 1)k
e 2N
e 2N
2 x(n) cos(
n0 2N
)
2 k
j
e 2N
YD (k )
Cum,
2 k 2 k k k
j j j j
YD (k ) e 2N
YD (2 N k ) e 2N
e 2N
Xˆ (2 N - k ) e 2N
Xˆ (2 N - k ) (13)
k
j
2N ˆ
e X (k ), 0 k N 1
YD (k ) 0 kN (14)
j k
e 2 N Xˆ (2 N k ) N 1 k 2 N 1
Transformata inversa a DFT pentru YD(k) este:
2
1 2 N 1 j kn
y ( n) ( YD (k )e 2 N ) (15)
2 N k 0
( 2 n 1) k 2
1 N 1 ˆ j k 2 N 1 j j kn
( X ( k )e 2N
( e 2N
Xˆ (2 N k ))e 2N
)
2 N k 0 k N 1
(16)
( 2 n 1) ( 2 n 1)
1 N 1 ˆ j k N 1 j k
y ( n) ( X (k )e 2 N Xˆ (k )e 2 N )
2 N k 0 k 1
1 ˆ N 1
(2n 1)k
( X (0) 2 Xˆ (k ) cos( )) (17)
2N k 1 2N
2 N 1
(2n 1)k
(e(0) X (0) X (k )e(k ) cos( ))
N k 1 2N
pentru 0 n 2N-1. Transformata inversa IDCT, obtinuta retinind primele N valori ale lui
y(n) se obtine cu relatia urmatoare:
2 N 1 (2n 1)k
x ( n) y ( n)
N k 0
e(k ) X (k ) cos(
2N
) (18)
pentru 0 n N-1
Expresiile secventelor de lungime N pentru x(n) si pentru X(k) pot fi grupate ca vector astfel:
x(0) X (0)
x(1) X (1)
x , X (19)
x( N 1) X ( N 1)
iar transformata DCT poate avea urmatoarea forma matriciala :
1 2 1 2 ....... 1 2
3 (2 N 1)
cos( ) cos( ) ....... cos( )
= 2N 2N 2N
....... ....... ....... .......
( N 1) 3( N 1) (2 N 1)( N 1)
cos( ) cos( ) ....... cos( )
2N 2N 2N
(20)
2 T
X Λx, x Λ X (21)
N
N
De aici, obtinem ca T= I N N unde INN este matricea unitate de dimensiune NxN. Deci
2
DCT este o transformare ortogonala.
In procesarea imaginilor, un cadru este divizat in NN blocuri si fiecarui bloc ii este
aplicata o transformata 2D-DCT. O transformare DCT unidimensionala in N puncte relatia
(3) presupune N2 operatii de multiplicare si adunare. De aici rezulta ca, pentru 2D-DCT sunt
necesare N4 operatii de multiplicare si adunare. Pe de alta parte, transformarea 2D-DCT poate
fi calculata cu ajutorul a N transformate 1D-DCT considerind cele N linii din blocul de
imagine, si apoi efectuind N transformate 1D-DCT considerind cele N coloane ale blocului
[4]. Cu aceasta simplificare, calculul transformatei 2D-DCT pentru blocul de dimensiune
NN necesita 2 N3 operatii de multiplicare si adunare sau 4N3 operatii aritmetice.
y i ( n) x( k ) h ( 2
k
i
i 1
n k ) , pentru 0 i m-2
y m1 (n) x( k ) h
k
m 1 (2 m1 n k ) , pentru i=m-1 (22)
m2
x ( n) i 0
yi (k ) fi (n 2i 1 k ) ym1 (k ) f m1 (n 2m1 k )
k k
(23)
unde { f i (n 2i 1 k ) }este desemnata astfel incat relatia (23) permita reconstruirea perfecta a
semnalului original x(n). Se observa ca evaluarea transformatelor DWT si IDWT este
similara operatiilor de convolutie. De fapt, transformatele DWT si IDWT pot fi calculate
recursiv printr-o serie de convolutii si decimari si pot fi implementate utilizand bancuri de
filtre.
Un banc de filtre digital este un ansamblu de filtre avand intrarea comuna (cind ne
referim la banc de filtre de analiza) sau iesirea comuna (cind ne referim un banc de filtre de
sinteza). Bancurile de filtre sunt folosite in general pentru codarea pe sub-benzi, unde un
singur semnal x(n) este impartit in m sub-benzi cu bancul de filtre de analiza; in cazul
bancului de filtre de sinteza, semnalele de pe cele m sub-benzi de intrare sunt combinate
pentru reconstructia semnalului y(n).
Daca se considera calculul transformatei discrete Wavelet pentru m=4, folosind
bancuri de filtre, coeficientii Wavelet sunt urmatorii:
y 0 ( n) x(k )h (2n k ),
k
0
y1 (n) x(k )h (4n k ),
k
1
(24)
y 2 ( n) x(k )h (8n k ),
k
2
y 3 ( n) x(k )h (8n k )
k
3
si pot fi calculati folosind bancul de filtre de analiza cu decimatori ca in fig. 2.5 (a).
Semnalul x(n) poate fi reconstituit prin transformata inversa Wavelet folosind intepolarea cu
bancul de filtre pentru sinteza, cum se observa si in fig. 2.5 (b).
unde n este indicele esantionului, iar j este indicele octavei. Initial s0(n)=x(n). Fig. 2.6
prezinta diagrama bloc a unei structuri arbore pentru calculul DWT cu 3 octave.
2
d (x, c j ) x 2(xc j e j ) (27)
unde
1 1 k 1 2
c ji
2
ej cj (28)
2 2 i 0
k 1
xcj xi c ji (29)
i 0
k 1
ind n ( min d j) 1 ( max
0 j N 1 0 j N 1
(x c
i 0
n
i ji e j ))1 (30)
unde inversa reprezinta „iesirea indexului indn, care atinge minimul sau maximul”, iar n este
un moment de timp. Procesul de cautare poate fi descris in mod echivalent cu o forma de
multiplicare matrice-vector descrisa in [9], astfel:
D d0 d1 d N 1 Cx e
T
(31)
indn ( MAX d i ) 1
unde C={cji}este o matrice Nk, iar cuvantul de cod de rang j, vectorul cjT este linia j, x fiind
vectorul de intrare de dimensiune k, si e=[e0 ….. eN-1]T.
Algoritmul de cautare anterior care calculeaza deviatia dintre dintre vectorul de intrare si
fiecare intrare din cartea de coduri, si este denumit cuantizare vectoriala full-search. Fiecare
operatie de tip full-search (cautare completa) necesita calculul a N deviatii, iar fiecare calcul
de deviatie implica k operatii de multiplicare si de adunare. De aceea, determinarea indexului
pentru un vector de dimensiune k sunt necesare Nk operatii de multiplicare si adunare si N-1
comparatii, fara a include operatiile de acceare a memoriei. Acest algoritm nu poate fi utilizat
cu performane bune cind N are valoare mare. In acest caz, metoda de cuantizare vectoriala
este structurata arborescent si are o complexitate proportionala cu log2N. Ideea de baza este
de a prelucra o secventa binara de cautare in locul unei cautari exhaustive, dupa cum se
observa in fig. 2.9. La fiecare nivel al arborelui, vectorul de intrare este comparat cu 2 vectori
cuvinte de cod si sunt executate 2 calcule de deviatii. Acest proces se repeta pana cand fiecare
frunza a arborelui a fost atinsa. De exemplu, in fig. 2.8, arborele de cautare necesita 16
calcule de deviatii, comparativ cu o cautare de 256 de elemente. Arborele de cautare VQ este
un cuantificator sub-optimal, fapt care rezulta tipic din gradul mai mic de performanta. Totusi
cu procedura anterioara pentru designul cartii de coduri, nivelul de performanta poate fi
imbunatatit.
Predictia pentru compensrse miscarii include estimari si compensari ale miscarii, in afara de
estimarea propriu-zisa a miscarii care reprezinta partea de calcul intensiv. In estimarea
miscarii, cadrele succesive a unei secventa video sunt analizate in raport cu estimarea
miscarii (sau a localizarii) vectorilor de pixeli sau a blocurilor de pixeli. Vectorii miscarii si
diferentele dintre cadrul cu miscarea compensata si cadrul original este codata si transmisa
mai departe.
Algoritmul de imperechere de blocuri (BMA) este de preferat fata de schemele de estimare a
miscarii datorita simplitatii relative. In BMA, fiecare cadru este partitionat in blocuri de
dimensiune NxN si presupune ca toti pixelii dintr-un bloc sunt caracterizati de aceeasi
miscare. Fiecare bloc de referinta din cadrul curent este comparat cu blocurile deplasate din
cadrul anterior, iar diferentele dintre cel mai potrivit bloc candidat si blocul referinta este
definit ca vector al miscarii. Intervalul de cautare in cadrul anterior defineste fereastra de
cautare si este data de +/- p pixeli pe directii orizontala si verticala, relativ fata de pozitia
blocului de referinta. De aceea, fereastra de cautare contine (N+2p)2 pixeli. Algoritmul de
imperechere a blocurilor este ilustrat in fig. 2.11.
Pot fi utilizate cateva criterii de cautare pentru a defini potrivirea perfecta, incluzand functiile
de inter-corelatie (CCF-Cross-Correlation Function), eroarea medie patratica (MSE mean-
square error) si diferenta medie absoluta (MAD mean-absolute-difference). Criteriul MAD
este cel mai des intalnit in implementarile practice datorita simplitatii si performantelor
satisfactatoare. Blocul diferenta deplasat s(m,n) cu deplasare (m,n) utilizind criteriul MAD
este definit astfel:
N 1 N 1
s(m, n) ( x(i, j ) y(i m, j n) ) , pentru –p m, n p (32)
i 0 j 0
unde x(i , j) si y(i+m , j+n) corespund valorilor pixelilor din blocul de referinta din cadrul
curent si respectiv blocului candidat din fereastra de cautare din cadrul anterior. De observat
ca relatia (32) necesiat 3N2 operatii de calcul (o diferenta, o valoare absoluta si o adunare ce
sunt necesare pentru fiecare determinare de diferenta absoluta). Cateva strategii ce pot fi
folosite pentru determinarea blocurilor celor mai potrivite, in afara cautarii propriu-zise
(complete), este “metoda directa” (straight forward). Aceasta metoda cauta toate pozitiile
(2p+1)2 in fereastra de cautare si calculeaza vectorul de miscare v astfel:
u= min(m,n){s(m,n)} pentru –p m, n p
v=(m,n)|u
De aici rezulta ca pentru un cadru NhNv (Nh pixeli pe linie si Nv linii pe cadru), o cautare
totala BMA implica:
N h Nv
(2 p 1) 2 3N 2 3(2 p 1) 2 N h Nv
N2
operatii pe cadru. Presupunand ca avem o rata de cadru de F cadre/sec, operatiile de calculare
in cautarea BMA sunt in numar de 3(2p+1)2 Nh NvF operatii/sec.
Acest capitol prezinta cateva dintre conceptele-cheie ale standardului MPEG-2; aceste
concepte includ sub-esantionarea semnalelor de diferenta de culoare, codarea dintre cadre si
in interiorul lor a cadrelor I, P si B, tehnici de scanare intretesuta si progresiva. In cele din
urma, este prezentata structura generala a standardului MPEG-2 si sunt enumerate profilurile
si nivelurile acestuia.
2.5.1 Subesantionarea
O imagine color digitala contine elemente de imagine (pixeli), care sunt reprezentate utilizand
cele 3 culori primare: rosu (Red-R), verde (Green-R) si albastru (Blue-B). Reprezentarea
RGB este convertita intr-o reprezentare YUV bazata pe sistemul vizual uman, unde Y ofera
informatii despre luminanta, iar U si V sunt diferentele de culoare dintre Y si albastru,
respectiv Y si rosu, ambele numindu-se crominante. O esantionare completa a YUV este
denumita esantionare 4:4:4, iar pixelul rezultat este reprezentat utilizand 24 biti, respectiv cite
8 biti pentru fiecare variabila. Cu o esantionare 4:4:4, un cadru CIF (Common Intermediate
Format) cu o dimensiune a cadrului de 288 352 pixeli si cu o rata a cadrelor de 30 cadre/sec
necesita spatiu de stocare de 2.433 Mbits, rata sursei de date video fiind de 72.99 Mb/sec
pentru un singur cadru. Pentru semnalele video HDTV cu o marime a cadrului de 1920
1250 pixeli si avand o rata de 50 de cadre/sec, un cadru necesita un spatiu de stocare de 57.6
Mbiti la o rata a datelor video sursa de 2.88 Gbiti/sec. Pentru o secventa video continand sute
si mii de cadre, stocarea si transmisia in timp real este imposibila cu tehnologia actuala.
De fapt, cadrele video sunt mai intai subesantionate si cuantizate, pentru a fi codate utilizand
caracteristicile psihologice ale ochiului uman si renuntand la redundanta subiectiva continuta
in secventa video. Aceste caracteristici pot fi considerate unele dintre conceptele elementare
ale tehnicii de compresie. Ochiul uman are cativa receptori cu o rezolutie spatiala restransa
pentru luminanta. De aceea, crominanta poate fi subesantionata pentru a reduce rata datelor
sursa si dimensiunea de stocare. In general, se foloseste o esantionare 4:2:2 sau 4:2:0. In
cazul 4:2:2, luminanta Y este esantionata pentru fiecare pixel, in timp ce crominantele U si V
sunt esantionate fiecare la alt pixel orizontal, rezultand o imbunatatire cu 33%. In cazul 4:2:0,
U si V sunt sub-esantionate cu factorul 2 pe orizontala si pe verticala, rezultand o
imbunatatire cu 50%.
In general, fiecare profil defineste un set nou de algoritmi aditionali la algoritmii din profilul
inferior. Un nivel specifica marimea parametrilor, precum dimensiune, rata de cadru, rata de
bit, etc. Profilul MPEG-2 MAIN caracterizeaza codarea non-scalabila progresiva sau
intretesuta pentru surse video. Un chip de codare MPEG2 MP@ML (Main Profile at Main
Level) este prezentat in [14].
2.7 Concluzii
Capitolul a prezentat schemele de baza de codare video, mai ales pe acelea adoptate prin
standardul de compresie MPEG-2. Aceste tehnici de compresie sunt cheile in realizarea
procesarii digitale video de inalta calitate. Aceste scheme de codare din ce in ce mai
complexe ridica multe noi competitii intre designerii de hardware si software.
Bibliografie
[1] D. Huffman, „A method for the construction of minimum redundancy codes”, Proc. of
IRE, vol. 40, pag. 1098-1101, 1952.
[2] G. Langdon, „An introduction to arithmetic coding”, IBM J. Research Develop, vol. 28,
pag. 135-149, martie 1984.
[3] N. Ahmed, T. Natarajan, si K. R. Rao, „Discrete cosine transform”, IEEE Trans. On
Computers, pag. 90-93, ianuarie 1974.
[4] P. Pirsch, N. Demasieux si W. Cehrke, „VLSI architectures for video compression- a
survey”, Proceeding of the IEEE, pag. 220-245, februarie 1995.
[5] O. Rioul si M. Vetterli, „Wavelets and signal processing”, IEEE Signal Processing
Magazine, pag. 14-38, octombrie 1991.
[6] P. P. Vaidyanathan, Multirate Digital Signal Processing, Prentice Hall, Englewood Cliffs,
New Jersey, 1993.
[7] R. E. Crochiere si L. R. Rabiner, Multirate Digital Signal Processing, Prentice Hall,
Englewood Cliffs, New Jersey, 1983.
[8] G. A. Davidson, P. R. Cappello si A. Gersho, „Systolic architectures for vector
Quantization” , IEEE Trans. On Acoustic Speech, vol. 36, pag. 1651-1664, octombrie 1994.
[9] S. Y. Kung, VLSI Array Processors, Prentice Hall, Englewood Cliffs, New Jersey, 1988.
[10] T. Sikora, „MPEG digital video-coding standards”, IEEE Signal Processing Magazine,
pag. 82-100, septembriee 1997.
[11] B. Bhatt, D. Birks si D. Hermreck , „Digital television: Making it work”, IEEE
Spectrum, pag. 19-28, octombrie 1997.
[12] B. Furth, J. Greensberg si R. Westwater, Motion Estimation Algorithms for Video
Compression, Kluwer Academic Publishers, 1997.
[13] A. K. Jain, Fundamental of Digital Image Processing, Prentice Hall, Englewood Cliffs,
New Jersey, 1989.
[14] M. Muzino s.a., „A 1.5w single-chip mpeg2 MP@ML encoder with low-power motion
estimation and clocking”, in Proc. of ISSCC97, pag.256-257, februarie 1997.
[15] K. K. Parhi, VLSI Digital Siganl Processing Systems: Desing and Implementation, John
Wiley and Sons, 1999.
Cap.3. Compresia audio
In Fig. 3.2 este data schema bloc care descrie algoritmul MPEG-1/audio. Algoritmul
se bazeaza pe codarea pe sub-benzi, iar impartirea pe sub-benzi este obtinuta cu ajutorul unui
banc de filtrare polifazat (PFB – polyphase filter bank) cu un filtru in cuadratura in oglinada
(QMF – quadrature mirror filter). Un semnal de intrare cuantizat liniar PCM pe 16 biti este
translatat in domeniul frecventa in 32 de benzi. In acelasi timp limitele benzilor (denumite
nivele de mascare) sunt calculate printr-o analiza psihoacustica pentru a obtine eroarea de
cuantizare permisa. Semnalul divizat in sub-benzi este cuantizat si codat conform schemei de
alocare a bitilor bazata pe modelul psihoacustic, este constituite in cadre, impreuna cu date
auxiliare (ancillary data). Aceste date suplimentare nu sunt folosite pentru operatia codare si
decodare, utilizatorul le poate folosi in alte scopuri. Pentru decodare, intii sunt separate datele
suplimentare si apoi este dezasamblat cadrul.
Tabelul 3.1
Layer Target Bitrate (kb/s)
I 128, 192
II 96, 128
III 64, 96, 128
1. Analiza pe sub-benzi.
Aceasta analiza este executata cu un PFB cu 512 prize.
2. Detectarea factorului de scala
Pentru Layer I factorul de scala este extras cu 12 esantioane dintr-o sub-banda,
ca un bloc pentru fiecare sub-banda. Pentru Layer II factorii de scala sunt
determinati pentru 3 blocuri consecutive de cite 12 esantioane pentru fiecare
sub-banda si sunt reprezentati sub forma informatiei de selectie a factorului de
scala (2 biti) si factorul de scala care este transmis cu formatul selectat.
3. Analiza psihoacustica
In standard sunt prezentate modelul 1 si modelul 2 ca exemple pentru analiza
psihoacustica. In continuare este prezentat numai modelul 1. La modelul 1,
raportul semnal/nivel de mascare (SMR) este obtinut cu urmatoarea
procedura:
- Analiza FFT a semnalului de intrare
- Calculul presiunii sonore pe fiecare sub-banda
- Clasificarea componentelor tonale si non-tonale
- Integrarea componentelor tonale si non-tonale
- Calculul nivelelor de mascare individuale
- Cal;culul nivelului de mascare global
- Determinarea nivelului maxim de mascare
- Calculul raportului semnal/nivel de mascare
4. Alocarea bitilor
Alocarea bitilor este calculata pentru fiecare sub-banda pe baza SMR obtinut
prin analiza psihoacustica
5. Cuantizarea
Pentru esantioanele din sub-benzi este executata cuantizarea liniara. Valorile
cuantizate sunt calculate cu relatia A(n)X(n)+B(n), unde X(n) reprezinta
amplitudinea esantioanelor din fiecare sub-banda normata cu factorul de scala,
iar A(n) si B(n) sunt dat de numarul de biti alocat pentru fiecare sub-banda.
Sunt luati cei mai semnificativi N biti, inversind cel mai semnificativ bit unu.
6. Formarea sirului de biti
Datele cuantizate formeaz sirul de biti, impreuna cu alte informatii. In Fig. 3.8
este prezentat formatul sirului de biti pentru Layer I si Layer II. Foarmatele
din Layer I si Layer II difera in special in partea legata de factorul de scala.
Antetul dat in Fig. 3.8 include si cuvintul de sincronizare 1111 1111 1111,
urmat de configuratia de biti aratata in Tabelul. 3.8
Tabelul 3.2
Contents Number Definition
of Bits
ID 1 0: MPEG-2/BC, 1: MPEG-1/audio
Layer 2 00: reserved, 01: layer III, 10 : layer II, 11: layer I
Protect-bit 1 0: error detection code added,
1: no error detection code added
Bitrate 4 Index to define bitrate
Sampling frequency 2 00: 44.1 kHz, 01: 48 kHz, 10: 32 kHz, 11: reserved
Padding bit 1 0: the frame that includes no additional slot
1: the frame that includes one additional slot
Private bit 1 Private use bit not used bit in coding
Mode 2 00: stereo, 01: joint stereo, 10: dual channel,
11: single channel
Mode extension 2 In Layer I/II the number of sub-bands for joint stereo
In Layer III the intensity and ms stereo configuration
Copyright 1 0: no copyright, 1: copyright protected
Original/copy 1 0: copy, 1: original
Emphasis 2 The type of emphasis to be used
Ni x ( Bit rate)
N int ( ) ( padding bit ) [ slot ] (1)
sampling frequency
unde “slot” reprezinta unitatea minima de control a lungimii sirului de biti, si este echivalenta
cu 4 bytes in Layer I, respectiv 1 byte in Layer II/III. Pentru Layer I, Ni este 12, iar pentru
Layer II/III, Ni este 144. Cind numarul mediu de sloturi pe cadre nu este un numar intreg el
este trunchiat la o valoare intreaga. Valoarea actuala a numarului de sloturi este completata cu
bitul tampon.
Cind bitul de protectie este 0, imediat dupa antet este introdus un cod ciclic redundant (CRC).
Detectia erorii este realizata cu metoda CRC-16, bazata pe functia polinomiala:
G( x) X 16 X 15 X 3 1 (2)
2 nb
s' ' nb x ( s' ' '2 nb1 ) (3)
2 1
folosind numarul de biti alocat, nb. Se inmulteste valoarea decuantizata s’’ cu factorul
de scala si se obtine valoarea semnalului , s’.
b) Sinteza semnalelor din cele 32 de sub-benzi cu bancul de filtre
Se calculeaza cu filtrul de sinteza esantionul semnalului audio, Si, pe baza
esantioanelor din cele 32 de sub-benzi. Procedura este urmatoarea:
i. Se aplica o deplasare in frecventa esantioanelor Si din cele 32 de sub-benzi si
se obtin valorile Vi
32
cos(2k 1)(i 16)
Vi S k (4)
k 0 64
ii. Se calculeza sirul celor 512 esantioane Ui prin modificarea ordinii marimilor
Vi
U ix 64 Vix128 j (5)
Wi U i x Di (7)
15
S j W j 32xi (8)
i 0
Tabelul 3.3
SCFSI value Scale factor coding method
00 3 scale factors are transmitted
01 Two scale factors are transmitted: one is common to the first and the
second blocks, and the other is for the 3rd block only
10 One scale factor that is common to all blocks is transmmited
11 Two scale factors are transmmited; one for the first block only, and the
other common to the second and the third blocks
Semnalul cuantizat liniar PCM este impartit in 32 de benzi cu PFB si fiecare banda
este in continuareste transformata in linii spectrale de banda ingusta cu MDCT pe blocuri de
lungime adaptiva pentru reducerea ecoului. Blocurile de lungime 18 sau 6x3 sunt determinate
pe baza analizei psihoaustice. Folosirea bancului de filtre hibride mareste rezolutia in
frecventa de 32 de ori, la 32x18=576. Semnalul obtinut este prelucrat pentru reducerea
distorsiunii de aliere si este apoi cuantizat liniar. Cascada formata din bancul de filtre, MDCT
si reducerea distorsiunii de aliere este denumita banc de filtre hibrid (Hybrid Filter Bank –
HFB). Cuanizarea eset insotita de o bucla iterativa pentru alocarea bitilor. Rata de bit a
fiecarui cadru este variabila. Semnalul cuantizat este codat Huffman si organizat apoi intr-un
cadru. La decodare este dezasamblat intii primul cadru, este decodat indexul tabloului
Huffman si factorii de scala. Semnalul temporal este reconstruit pe baza semnalului cuantizat
cu bancuri de filtre hibride.
1. Analiza psihoacustica
Analiza psihoacustica este executata pentru a gasi nivelele de mascare pentru fiecare
componenta MDCT si pentru a determina lungimea blocurilor pentru MDCT. Se recomanda
folosirea versiunii modificate a modelului psihoacustic II pentru Layer II.
Lungimea blocului este selectata pe baza entropiei psihoacustice, folosind teoria
impredictibilitatii. Impredictibilitatea se masoara comparind spectrele cadrului temporal
curent si anterior. In vecinatatea atacului unde se produce pre-ecoul forma spectrului difera
intre doua cadre si entropia psihoacustica creste. Cind entropia depaseste o valoare
predeterminata sistemul o evalueaza ca un nou atac si comuta MDCT pentru micsorarea
blocurilor.
Sunt calculate nivelele de mascare schimbind parametrii interni in functie de
lungimea blocului. Pentru reducerea complexitatii de calcul se foloseste FFT cu lungime 256
pentru blocurile scurte si 1024 pentru cele lungi.
1
cs i
1 ci2
(10)
ci
ca i
1 ci2
(11)
Valoarea lui ci este detrminata astfel incit ea devine mai mica cu cit distanta coeficientilor
MDCT folositi devine mai mare.
4. Cuantizarea
In Layer III este folosita cuantizarea neliniara in locul celei liniare folosita in Layer
I/II. Relatia dintre coeficientul invers cuantizat MDCT, x, codul i si factorul de scala este
data de relatia
4/3
x sign(i) x i x 2 scale factor
(12)
Tabelul 3.4
Layer Available stereo coding mode
Layer I/II Intensity stereo
Layer III Combined (intensity and MS) stereo
Intensitatea stereo foloseste aceeasi forma insa date cu amplitudini diferite in sub-
benzi intre semnalele stinga si dreapta, in locul semnalelor originale pe cele doua canale.
Sunt pregatite patru moduri pentru a schimba sub-benzile pentru folosirea ca intensitate
stereo, respectiv 4-31, 8-31, 12-31, 16-31. Sub-benzile dinaintea lor, cum sunt 0-3, 0-7, 0-11
si 0-15 sunt codte independent pentru fiecare canal.
MS stereo este cea mai simpla transformare ortogonala in doua puncte este folosita
suma diferentei a doua semnale in locul semnalelor originale. Atunci cind corelatia intre
ambele canale este mare este de asteptat un efect de compresie datorita distributiei
neuniforme a energiei. In cazul stereo-ului combinat sistemul aduna suma totala a fiecarei
FFT a ambelor canale, si o multiplica cu o constanta de valoare mare. Daca valoarea rezultata
este mai mare decit diferenta puterii spectrale a celor doua canale, atunci sistemul selecteaza
MS stereo. , si daca nu este sistemul selecteaza modul intensity stereo si executa codarea; de
exemplu, cind raportul dintre semnalul suma anterior si semnalul diferenta este mai mare
decit valoarea de prag prestabilita, sistemul selecteaza modul MS stereo.
1. Formatul multicanal
Cel mai respindit format multicanal audio, recomandat de ITU-T, este asanumitul 2/3
stereo. Aceset sistem plaseaza un difuzor central intre difuzoarele stinga si dreapta si de
asemenea doua difuzoare de fond in partea stinga si cea dreapta din spate. In Fig. 3.13 este
prezentata pozitionarea difuzoarelor pentru 2/3 stereo. Acest aranjament a fost folosit pentru
evaluarea subiectiva din fabruarie 1994. Algoritmul MPEG-2 accepta formatele multicanal
prezentate in Tabelul 3.6. De mentionat ca sistemul permite mai multe feluri de format pentru
intrare decit pentru iesire. L este semnalul de canal, C este semnalul de canal central, LS este
semnalul de canal de fond stinga, L1 si L2 reprezinta semnalul de canal sting pentru prima
limba, respectiv semnalul de canal drept pentru a doua limba. Similar sunt descrise canalele
din partea dreapta.
L0 L x x C y x LS
(13)
R0 R x x C y x RS
(14)
Cu cât o culoare se află mai departe de culoarea albă în planul triunghiului, cu atât
culoarea este mai saturată (mai vie), adică este mai puţin diluată cu lumină albă. Ca
urmare, culorile aflate pe laturile triunghiului sunt culori saturate, iar culorile din interiorul
triunghiului sunt culori nesaturate (diluate cu lumină albă, culori pastel).
În concluzie, triunghiul culorilor evidenţiază următoarele aspecte:
• Prin parcurgerea circulară a planului culorilor, sunt descrise toate nuanţele
cromatice.
• Prin parcurgerea radială a unei nuanţe, sunt evidenţiate nivelurile de
saturaţie ale culorii. În figura 5.2 se exemplifică modificarea saturaţiei culorii de
galben. Nivelul saturat corespunde combinaţiei, în anumite proporţii, a culorilor primare
verde şi roşu, iar nivelul mai puţin saturat corespunde combinaţiei, în anumite proporţii, a
celor trei culori primare.
• Modificarea strălucirii culorilor primare poate fi descrisă prin plane paralele
cu planul analizat, rezultând alte niveluri de strălucire ale culorilor.
Întrucât modelul RGB echivalează imaginea în culori cu 3 imagini monocromatice,
rezultând în final 3 semnale video de culoare, fiecare având o lărgime de bandă de 6 MHz, se
constată necesitatea unei lărgimi de bandă a canalului video de 3 ori mai mare decât pentru
transmiterea unei imagini alb-negru. Din acest motiv, modelul RGB nu este folosit în
sistemul TV radiodifuzat. El este utilizat în echipamentele de studio TV, în sistemele de
prelucrare a imaginii şi în comanda monitoarelor de calculator, unde pe primul plan sunt
performanţele privind calitatea imaginii.
Un alt model utilizat pentru definirea culorii este modelul HSL, bazat pe un set de 3
parametri, ce definesc, fiecare, o caracteristică a culorii, aşa cum este aceasta percepută
de ochiul uman: H (hue = nuanţă), S (saturation =saturaţie), L (luminance = luminanţă sau
strălucire).
Acest model pune în evidenţă cele două componente ale imaginii în culori:
• luminanţa, ca purtătoare a informaţiei de strălucire a elementelor de
imagine;
• crominanţa, ca purtătoare a informaţiei de culoare, cu componentele sale:
nuanţa, dată de lungimea de undă, şi saturaţia, dată de conţinutul de alb.
În figura 4.3 se prezintă relaţia între cele două modele, RGB şi HSL.
Fig. 4.3. Modelul HSL corespunzător triunghiului culorilor.
Cele două componente ale imaginii în culori sunt reprezentate prin doi vectori:
vectorul crominanţă, plasat în planul culorilor, şi vectorul luminanţă, care stabileşte
nivelul planului de culoare, pe axa verticală, de la negru la alb. Vectorul crominanţă
defineşte nuanţa culorii, prin faza de rotaţie, şi saturaţia culorii, prin modulul vectorului.
Întrucât modelul HSL utilizează parametri ce necesită un anumit grad de prelucrare a
semnalelor video de culoare, acest model este folosit doar în interfeţele grafice, asigurând
un control simplu din partea utilizatorului. În sistemul de operare Windows alegerea culorii
(de exemplu, pentru fundal) se poate face atât în formatul RGB, cât şi în formatul HSL.
Un alt model utilizat pentru definirea culorii este modelul Y, R–Y, B–Y, care este
folosit în sistemele de televiziune analogice şi digitale. El a rezultat din necesitatea asigurării
compatibilităţii sistemelor de televiziune în culori şi în alb negru, fiind o combinaţie a
modelelor RGB şi HSL. Cei 3 parametri ce definesc modelul sunt:
• semnalul de luminanţă, Y, care reflectă informaţia de luminanţă din
imaginea în culori;
• semnalul diferenţă de culoare, R–Y, care reprezintă diferenţa dintre
componenta de roşu din imagine şi cea de luminanţă;
• semnalul diferenţă de culoare, B–Y, care reprezintă diferenţa dintre
componenta de albastru din imagine şi cea de luminanţă.
Componentele de roşu, de albastru şi, respectiv, de verde din imagine reprezintă, de fapt,
semnalele video de culoare ER , EB şi EG (v. fig. 1.7), care se notează în cele ce
urmează, în mod simplificat, prin R , B şi, respectiv, G.
Întrucât cel de-al treilea semnal diferenţă de culoare, G–Y, se poate obţine din celelalte două,
rezultă că semnalele diferenţă de culoare definesc împreună doar informaţia de crominanţă,
neconţinând şi informaţia despre luminanţa culorii.
Din felul cum s-au definit cele două componente, de luminanţă şi de crominanţă,
rezultă că ele pot fi tratate ca şi componente independente în semnalul de televiziune.
Această concluzie este folosită în televiziunea în culori, unde informaţia de imagine este
prelucrată separat pentru luminanţă (strălucire) şi pentru crominanţă (culoare). De fapt,
dezvoltarea principiului televiziunii în culori s-a bazat pe perceperea şi prelucrarea în mod
diferit a informaţiilor de strălucire şi de culoare de către sistemul vizual uman.
În concluzie, ochiul prezintă următoarele particularităţi:
• sensibilitate mare în perceperea strălucirii elementului de imagine, ceea ce
înseamnă că detaliile, contururile şi muchiile sunt percepute de ochi prin variaţia
strălucirii, adică în alb-negru;
• sensibilitate scăzută în perceperea culorii elementului de imagine, ceea ce
înseamnă că ochiul nu percepe culoarea detaliilor, ci doar culoarea suprafeţelor.
În aceste condiţii, un obiect foarte îndepărtat, este identificat de ochiul uman prin variaţia
strălucirii, fără a i se putea identifica culoarea.
Acest lucru permite alocarea unor benzi de frecvenţe diferite pentru transmiterea
optimă a acestor semnale. Semnalul de luminanţă, purtător al informaţiilor privind detaliile,
se transmite într-o bandă largă de frecvenţe (6 MHz), întrucât, cu cât frecvenţa video
maximă este mai mare, cu atât detaliile redate sunt mai mici. În ceea ce priveşte semnalul de
crominanţă, adică semnalele R–Y şi B–Y, acestea pot fi transmise cu bandă de frecvenţe
redusă (limitată la 1,5 MHz), întrucât culoarea detaliilor mici oricum nu poate fi percepută
de ochi.
R = G = B = 1 VVV (4.1)
Lr = kLo (4.3)
(4.4)
(4.5)
unde eV 2 este semnalul video de comandă a tubului cinescop, adică semnalul electric
R, G, respectiv, B, iar coeficientul γ2 caracterizată neliniaritatea, fiind un coeficient
supraunitar.
Din cele prezentate se constată că cele două caracteristici de transfer sunt oarecum
complementare, ceea ce compensează în parte redarea necorectă a gradaţiilor de luminanţă
din imagine.
Pentru îndeplinirea condiţiei (4.3), se introduce circuitul corector de gamma, cu
caracteristică de transfer neliniară, de forma:
e C
eV 2 k 3 R k R'
sau (4.7)
V1 C
C 1 3
(4.8)
în care
1 2
corespunde, spre exemplu, unei tranziţii negru-alb în imagine, fiind afectat frontul
semnalului de distorsiunile de apertură (v. fig. 3.2).
Acţiunea de compensare a distorsiunilor de apertură constă în obţinerea unui front ridicător
tr mai abrupt pentru semnalul de imagine, ceea ce echivalează cu creşterea amplitudinii
frecvenţelor înalte. Cu alte cuvinte, trebuie ca durata frontului
ridicător, tr 2 , pentru semnalul de imagine eV 2 t , să devină mai mică decât
corectat,
durata frontului ridicător, t r1 , a semnalului de imagine iniţial, eV 1 t . În acest scop se
a+b+c=1 (4.11)
k G 0,9
b
Relaţia (4.14) evidenţiază luminanţa unei culori în raport cu luminanţa albului de referinţă.
Alb 1 1 1 1 0 0 0
Galben 1 1 0 0,89 0,11 - 0,89 0,11
Turcoaz 0 1 1 0,70 - 0,70 0,30 0,30
Verde 0 1 0 0,59 - 0,59 - 0,59 0,41
Mov 1 0 1 0,41 0,59 0,59 - 0,41
Roşu 1 0 0 0,30 0,70 - 0,30 - 0,30
Albastru 0 0 1 0,11 - 0,11 0,89 - 0,11
Negru 0 0 0 0 0 0 0
Pe baza datelor din tabelul 4.1, în figura 4.11 sunt prezentate formele semnalelor video
pentru o linie a mirei cu bare verticale color. Succesiunea barelor color de la stânga la
dreapta s-a ales, astfel, ca aceste culori să fie dispuse în ordine descrescătoare a
luminanţei relative.
Fig. 4.11. Formele semnalelor video pentru mira cu bare verticale color.
Din tabelul 4.1 se constată că semnalele diferenţă de culoare variază în limitele R–Y
= 0,70 , B–Y = 0,89 , G–Y = 0,41 , ceea ce justifică afirmaţia făcută în paragraful
4.5 că semnalul G–Y are valoarea vârf-vârf cea mai mică din cele trei semnale
diferenţă de culoare.
Mira cu bare color, generată pe baza datelor din tabelul 4.1, produce culori cu
saturaţie maximă (100%) şi luminanţă maximă (100%). Întrucât asemenea culori se
întâlnesc rar în natură, s-a impus în practică mira cu bare color în care albul de
luminanţă maximă se obţine pentru R = G = B = 1 VVV, iar culorile barelor sunt
obţinute pentru R = G = B = 0,75 VVV (saturaţie de 75%), corespunzând cel mai bine
realităţii. Pentru acest caz valorile semnalelor Y , R–Y , B–Y şi G–Y sunt date în tabelul 4.2.
Tabelul 4.2
≈
fH fsp fH f
2fH 2fH
Fig. 4.16.
R: Se are în vedere strălucirea barelor color din imagine.
13. Dacă imaginea din figura 4.16 este captată cu o cameră TV tricromă, să se
determine: a) valorile semnalelor video de la ieşirea camerei, corespunzătoare barelor ce
compun imaginea; b) să se reprezinte la scară forma semnalului de luminanţă şi a
semnalelor diferenţă de culoare de-a lungul liniei de explorare x–x.
R: a) Valorile semnalelor Y , R–Y , B–Y date în tabelul 4.2.
104