Sunteți pe pagina 1din 102

Tehnici și

tehnologii TV și
multimedia

Partea I

IV - ISM

Ș.l. dr. Ing. Ionuț Reșceanu


Cap.1. Sisteme multimedia pentru prelucrarea

semnalelor

1.1 Introducere
Multimedia a deschis noi servicii care asigura o mai convenabila si usoara folosire a
mediilor, precum realitatea virtuala pentru sistemele complexe si pentru sistemele
educationale, serviciile de televiziune interactiva cu utilizatori multipli, teatrul tridimensional
la domiciliu. Nu este exagerat sa afirmam ca intrarea in lumea comunicatiilor, a
calculatoarelor si a radiodifuziunii a audioului si a videoului inseamna inceputul multimediei.
Adaugind mediile audio si video la serviciile conventionale bazate pe text ele devin mai
atractive pentru multi utilizatori. Prin urmare, realizarea unei conexiuni si/sau fuziuni intre
lumea calculatoarelor, a comunicatiilor si a radiodifuziunii asa cum este prezentat in Fig. 1.1
conduce la schimbari dramatice in viata noastra. Functia cheie aici este digitizarea eficienta
pentru video si audio, pentru ca in acest format informatiile video si audio pot fi folosite in
calculatoare si in retelele digitale de comunicatii.
Totusi aceste trei lumi impun cerinte diferite pentru digitizarea informatiilor video si
audio, datorate evolutiilor diferite in cele trei lumi. De asemenea, digitizarea directa a
informatiilor audio si video conduc la fisiere de date mult mai mari decit fisierele
conventionale bazate pe text. In consecinta capacitatea mare de stocare, retelele de mare
viteza si tehnologiile de compresie pentru audio si video joaca un rol importanta in lumea
multimedia.
Prin urmare, pentru dezvoltarea domeniului multimedia este necesaradezvoltarea
elementelor hardware ieftine pentru compresie si transmisie/stocare. In acest sens dezvoltarea
metodologiilor de proiectare VLSI pentru circuite de consum redus si la un pret de cost redus
a avut un rol important. In continuare vor fi analizate prelucrarile semnalelor multimedia si
implementarile hardware pentru acestea.

1.1.1 Domeniul calculatoarelor


Datele din calculatoare au fost initial constituite din datele de prelucrat. In mod
curent, datele din documente incluzind text, tabele si figuri sunt parti ale datelor
calculatorului. Volumul de date cu care lucreaza calculatoarele creste de la zi la zi, in special
de cind calculatoarele personale au devenit foarte raspindite. De exemplu, inprezent este
foarte greu sa publici documente si carti fara a folosi programe de procesare a textelor pentru
PC sau statii de lucru. Mai recent, semnalele audio si video ca si fotografiile au aparut printre
datele calculatoarelor. Aceasta inseamna ca datele audio si video pot fi tratate asemenea
textelor de catre procesoarele de texte. Editarea documentelor audio si video prin tehnica
“taie si lipeste” (cut and paste) devine astfel posibila pentru a creea prezentari multimedia
atractive pe calculatoare PC. Exemple de acest gen pot fi vazute intr-o pagina de pe web.
Un alt factor important este acela ca procesoarele performante au atins nivelul la care
pot executa decompresia (decodarea) documentelor video comprimate prin software in timp
real. Totusi compresia video prin software in timp real ramine departe de posibilitatile
microprocesoarelor actuale; pe masura ce se imbunatateste tehnologia VLSI cu arhitecturi
avansate, proiectate pentru consum redus si viteza mare, cu siguranta ca va scadea si
gabaritul super-mini calculatoarelor la nuivelul calculatoarelor PC, ceea ce va accelera
dezvoltarea aplicatiilor multimedia. De aceea arhitecturile de procesoare multimedia sunt
unul din preocuparile acestei prezentari.

1.1.2 Domeniul comunicatiilor


Desi inovatiile anterioare au aparut in lumea calculatoarelor, conceptul “multimedia”
a aparut intii in secorul comunicatiilor, cind pe aceleasi linii de comunicatie au inceput sa fie
transmise semnale vocale codate PCM (Pulse Code Modulation) si date de calculator.
Codarea digitala PCM a vorbirii are o istorie mai lunga deoarece digitizarea asigura o
calitate inalta a semnalelor chiar atunci cind sunt transmise la mare distanta. Acest lucru este
greu de obtinut pentru o transmisie analogica, datorita atenuarii senmnalului, contaminarii cu
zgomot de natura termina sau interferentelor. Cind transmisia digitala de voce adevenit
populara a fost natural ca datele pentru calculatoare sa fie transmise pe canalele sa fie
tranmise pe canalele dentru comunicatie digitala de voce. Astfel multimedia inseamna
multiplexarea flexibila si la un pret de cost redus a transmisiunilor de date.
Acest fapt indica doua importante aspecte pentru retelele multimedia. Primul se refera
la includerea datelor pentru calcuulatoare in liniile pentru transmiterea digitala a vocii; ceea
ce inseamna coexistenta datelor reprezentind semnale vocale dependente de timp si a datelor
calculatoarelor independente de timp. Acesta este inceputul conexiunii si/sau fuziunii dintre
calculatoare, comunicatii si radiodifuziune. Treptat barierele dintre aceste domenii separate
au disparut dar diferentele intre datele dependente de timp si datele independente de timp
produc unele dificultati la operarea in timp real. Exemple sunt date de transmisiile video pe
Internet, unde largimea de banda necesara pentru transmisiile video in timp real este greu de
realizat. Transmisia la o calitate constanta a serviciilor (QOS- Quality of Service) este o
bariera si pentru urmatoarea generatie de retele multimedia.
Celalalt aspect se refera la reducerea costului pentru implementarea retelei pentru
comunicatii, pentru calculator si pentru radiodifuziune pe o singura linie de comunicatie, in
special pentru cresterea largimii de banda a liniei abonatului. Cind folosim linia telefonica
analogica a abonatului ca o linie multimedia digitala costul implementarii este redus si ajuta
la proliferarea aplicatiilor multimedia. Rata de bit disponibila pe o singura linie de abonat a
crescut rapid, in special datorita unor tehnologii avansate de prelucrare a semnalelor in
modeburile pentru banda vocala. Calculatoarele PC actuale au modemuri incorporate care
lucreaza cu rate de bit de 28,8 Kb/s, 33,6 Kb/s sau 57,6 Kb/s pentru transmiterea pe linia
telefonica. Legaturile ISDN (Integrated Services Digital Network) permit obtinerea unor rate
de transmitere pe liniile de abonat de 144 Kb/s. Totusi, pentru a avea o calitate video
acceptabila este necesara o rata de bit de cel putin 1 Mb/s. Acesta este una din problemele
care vor fi discutate in Capitolul 2 – Compresia video.

1.1.3 Domeniul radiodifuziunii


Documentele audio si video reprezinta continutul de baza al radiodifuziunii. Totusi
digitizarea acestor semnale este de data mai recenta cu exceptia editarii si stocarii acestor date
in statiile de radiodifuziune. Motivul este acela ca, pentru a atrage clientii, pentru filmele de
reclama este ceruta o foarte buna calitate a semnalelor radiodifuzate. O mica degradare a
calitatii datorita digitizarii poate duce la pierderea clientilor. Totusi, televiziunea prin cablu
(CATV) si prin satelit apartine unei alte categorii, deoarece aici pot fi colectate taxe de la
multi abonati. In aceste domenii digitizarea a inceput atunci cind a fost elaborat standardul
MPEG-2. Motivul digitizarii a fost de a creste numarul de canale la televiziunea prin cablu si
prin satelit, asigurind totodata o calitate rezonabila. Aceasta pentru ca MPEG-2 permite
obtinerea unor rapoarte de compresie ridicate, iar pretul modemurilor digitale de mare viteza
pentru cablurile coaxiale a ajuns la nivelul produselor de consum. De asemenea calitatea
televiziunii analogice prin cablu este neuniforma la abonati, datorita structurii arborescente a
retelei; in schimb transmisia digitala asigura o calitate identica la toti abonatii. Datorita
acestor calitati ale radiodifuziunii digitale ea tinde sa se extinda teritorial. Proiectele ATV
(advanced TV) si HDTV (high definition TV) de transmisie digitala au inceput in anul 1999.
Implementarea modemurilor de cablu si noile servicii denumite VOD (video on demand)
impreuna cu teminalele lor STB (set-top box)vor fi analizate mai tirziu.

1.2 Digitizarea audio si video


1.2.1 Cantitatea de informatie
Problema esentiala la prelucrarile audio si video este legata de catitatea mare de
informatie pe care o cer. Sa analizam cantitatea de informatie pentru fiecare mediu. O litera a
alfabetului este reprezentata cu un octet in cod ASCII. Atunci o pagina continind 60 litere x
50 rinduri necesita 3 Kbytes. Deci pentru stocarea unei carti de 300 pagini text este necesara
o capacitate de stocare de 1 Mbyte. Deci o carte poate fi stocata pe o discheta floppy de 1,44
Mbytes. Din contra, un document audio Hi-Fi este compus din doua canale de semnal pentru
redare stereo. Fiecare canal este esantionat la o rata de 44,1 kHz, pentru inregistrarea pe CD,
sau la o rata de 48 kHz la inregistrarea pe banda magnetica digitala. Aceste esantioane
asigura reconstructia semnalelor din benda audio de pina la 20 kHz. Fiecare esantion este
reprezentat digital pe 16 biti, deci cite doi octeti pentru un esntion. Prin urmare pentru o
secunda de redare stereo sunt necesari 200 Kbytes de informatie. Aceasta inseamna ca la
fiecare 5 secunde este necesara tot atita informatie cit este continuta intr-o carte cu 330 file de
text. Sa consideram acum semnalele video. In fiecare secunda televiziunea NTSC prelucreaza
30 de cadre de imagine. Un cadru in formatul NTSC este constituit din 720x480 pixeli.
Fiecare pixel este reprezentat cu 24 de biti (cite opt biti pentru fiecare culoare) sau 16 biti
pentru luminanta/crominanta. Drept urmare, informatia NTSC pentru o secunda contine cel
putin 20 Mbytes. Deci continutul a 20 de carti pentru o secunda de semnal video. Mai mult,
semnalele HDTV in ATV contin 1920x1080 pixeli per cadru, la o frecventa de cadru de 60
Hz. In acest caz cantitatea de informatie pe secunda este de 240 Mbytes.
Fig. 1.2
In Fig. 1.2 sunt prezentate aceste comparatii. Este evident ca documentele audio si video
necesita capacitati de memorie cu citeva ordine de marime mai mari decit documentele text.
Deci pentru a manipula semnalele audio si video ca si datele text tehnologiile de compresie
sunt esentiale.
De remarcat ca stocarea sau redarea semnalelor digitale audio a fost disponibila pe
piata sub forma discurilor compacte inca de la inceputul anilor 80, dar stocarea digitala video
a fost restrinsa doar la utilizarile profesionale pentru un timp lung. Discurile video si discurile
digitale versatile (DVD), disponibile acum pe piata, folosesc tehnologiile de compresie
MPEG care vor fi prezentate mai tirziu. In general, semnalele video digitale fara compresie
nu sunt mai avantajoase economic fata de cele analogice, cu toate ca semnalele digitale au
avantajul robustetii la zgomotul extern. Toate aceste tehnologii sunt bazate pe prelucrarea
digitala a semnalelor si deci prelucacrea semnalelor multimedia si implementarile lor VLSI
sunt de mare interes.

1.2.2 Tehnologia compresiei


In Fig. 1.3 sunt prezentate cerintele reciproce pentru cele trei domenii care formeaz
multimedia. Intrucit multimedia este sustinuta de trei domenii diferite si deoarece aceste
domenii s-au dezvoltat independent, exista citeva contradictii intre cerintele lor. Aceste
contradictii sunt datorate in special formatelor digitale video utilizate sau functiunilor cerute
pentru semnalul video. In continuare vor fi examinate aceste probleme considerind
algoritmul de codare in ordine cronologica.
Tehnologia compresiei a debutat in domeniul comunicatiilor pentru transmisia semnalului
vocal codat PCM prin anul 1960 cind a fost studiata compandarea nelinara (compresia si
decompresia) a datelor esantionate. In acelasi timp au fost compresate imaginile statice cu
ocazia transmiterii imaginilor de pe suprafata lunii catre pamint.
Dupa aceste activitati compresia video a fost utilizata la transmiterea in timp real a
programelor TV intre statii, folosind codarea PCM si o rata de transmitere de 45 Mbytes/s.
Cea mai importanta cerinta pentru domeniul radiodifuziunii este de a obtine cit mai aproape
posibil calitatea NTSC. Aceasta inseamna ca fiecare semnal video ar trebui sa aiba 30 cadre
intr-o secunda si fiecare cadru ar trebui sa aiba 720 x 480 pixeli. Din contra, sistemele de
teleconferinta si sistemele telefonice au debutat “soleley” in sectorul comunicatiilor. In
consecinta prima lor cerinta este costul comunicatiilor in locul calitatii imaginii. Pentru
sistemele de videotelefon sau teleconferinta este suficient un singur canal PCM de 64
kbit/sec sau o linie PCM multiplexata de 1,544 Mb/s. In consecinta algoritmii de compresie
pentru aceste scopuri folosesc imagini de rezolutie joasa si un numar redus de cadre pe
secunda. Standardul pentru algoritmul de compresie video specificat de standardul H.261 lal
ITU-T (International Telecommunication Union – Telecommunication standardization
sector) foloseste formatele CIF (Common intermediate format) si QCIF (quarter CIF) care
necesita un sfert si respectiv 1/16 din rezolutia NTSC. De asemenea se folosesc cietva cadre
pe secunda in loc de 30 cadre/sec. De exemplu, o imagine in miscare avind 7,5 cadre/s cu
QCIF poate fi transmisa la 64 kbit/s. Atunci semnalul video in acest format contine numai
1/54 din informatia semnalului NTSC original. Alt factor important in sistemele de
telecomunicatii este necesitatea de a asigura o intirziere mica la codare. Pe durata
standardizarii H.261 diferentele de intre cerintele comunicatiilor si ale radiodifuziunii au
devenit clare. ITU-R (International Telecommunication Union – Radio communication
sector) a hotarit sa elaboreze un standard propriu, rezultind Recomandarea 723, chiar daca
algoritmul de compresia folosit este acelasi: codarea hibrida intre DPCM (differential PCM)
cu compensarea miscarii (MC – motion compensation) si codarea DCT (discrete cosine
transform) cu codare cu lungime de biti variabila.
A consideram domeniul comun dintre radiodifuziune si calculatoare. Din punctul de
vedere al radiodifuziunii, pentru o larga raspindire a programelor video sunt necesari
algoritmi satandard de compresie larg acceptati. Din partea calculatoarelor o cerinta
dominanta este posibiltatea de aces aleator la fisierele audio si video. Aceasta pentru ca
utilizatorii calculatorului doresc sa acceseze doar o anumita parte a secventei video in loc de
a vedea intreagul document de la inceput. Din pacate, pentru ca standardele ITU H.261 si
recomandarea 723 nu prevad acest gen de functionalitate, ISO (International Standards
Organization) si IEC (International Electrotechnical Commission) au decis sa coopereze
pentru a face un standard mondial care sa acopere cerintele pentru radiodifuziune,
comunicatii si lumea calculatoarelor. Pe baza algoritmilor H.261 si G.723, cu o
functionalitate extinsa, au fost standardizatii algoritmii MPEG-1/2. Ei sunt denumiti MPEG
ca o codare generica. Chiar daca MPEG a fost proiectat sa fie o codare generica citiva
parametri sunt specifici diferitelor aplicatii. De exemplu rezolutia imaginii este selectata din
citeva “nivele” (levels) si o mica modificare a algoritmului poate fi aleasa din citeva
“profile” (profiles).
Importanta sactivitatilor MPEG poate fi ilustrata cu citeva exemple. Standardul
MPEG-2 care a fost creeeat initial pentru domeniul calculatoarelor este folosit si in
standardul de comunicatie H.262 care este o parte comuna si pentru specificarea MPEG. In
1996 activitatile MPEG au fost distinse cu premiul Emmy pentru domeniul radiodifuziunii.
Aceastea arata ca MPEG a devenit liantul pentru cele trei domenii. Din acest motiv in
continuare vor fi analizati algoritmii de compresie audio si video precum si abordarile de
implementare pentru DCT, compensarea miscarii si codarea cu lungime de bit variabila
(codarea fara pierderi). Ca o completare pentru algoritmii de compesie pentru audio si video,
in sistemele pentru stocare multimedia si in retelele pentru comunicatii multimedia a fost
introdusa corectia erorilor la codare si decodare. Aceasta pentru ca sistemele de stocare si de
comunicatie nu sunte perfecte in sensul ca introduc erori in secventa compresata de date,
chiar daca rate erorilor este foarte mica. Deoarece datele comprimate contin doar
componentele esentiale, chiar numai daca un bit este eronat apar deteriorari esentiale in
procesul de decodare. Legatura dintre compresie si corectia erorii este aratata in Fig. 1.4
In Fig. 1.4 partea de compresie este indicata drept codarea sursei si partea de corectie
a erorii drept codarea canalului, doarece functioa de compresie inlatuar partea redundanta
din datele sursei, iar functia de corectie a eroriia informatie pentru a proteja datele audio si
video comprimate de erori datorate canalelor. Corectia erorii ar trebui sa fie eficienta pentru
erorile aleatoare produse atit de zgomotul extern cit si de erorile produse de unele distorsiuni
continue (burst errors). Codarea sursei este ccunoscuta drept codare la rata de bit joasa. In
multe sitatiisunt folosite doua tipuri diferite de codoare pentru corectia erorilor inseriate.
Promul este un codor de bloc unde domeniul de corectie a erorii este limitat la un anumit
bloc. De xeemplu datele comprimate ar trebui puse intr-un format pentru o manipulare
usoara. Formatul celular (cell format) sau formatul pachet (packet format) din retelele ATM
(Asynchronous Transfer Mode) sunt exemple in acest sens. Codarea bloc este efectiva numai
in domeniul formatului. In aces scopsete folosit codul Reed-Solomon bazat pe aritmetica
cimpului finit.
Dupa ce datele comprimate sunt formatate si codate folosind codarea bloc, ele sunt
stocate si transmise serial. In acest caz partea hardware a sistemului de stocare sau/si de
transmisie nu cunoaste continutul lor. Continutul nu este altceva decit un singur sir de biti. In
aceste cazuri codarea convolutionala asigura protectia fata de erorile introduse de canale.
Daca datele seriale contin si informatiile pentru protectie introduse prin convolutie, procesul
de decodare este un proces de deconvolutie, si deci este putin mai complex. Pentru decodare
se folosec decodoare Viterbi care sunt eficiente. In cursul expunerii vor fi prezentate si
implemantari pentru decodoarele Viterbi.
Algoritmul standard folosit pentru codarea sursei este DCT . Aceasta pentru ca
functiile baza in transformata cosinus sunt foarte asemanatoare cu acelea din transformata
KL (Karhunen Loeve) optimala pentru imagini. O noua transformata, denumita transformata
wevelet (WT), are o functionare similara cu cea a sistemului ochiului uman: descompunerea
multirezolutie. In perioada de elaborare a MPEG-2 unele institutii si companii au propus
aceasta noua transformata in locul DCT. Chiar daca aceasta propunere nu a fost acceptata la
MPEG-2 pentru a asigura o tranzitie mai usoara de la MPEG-1, standardul MPEG-4 include
WT in domeniul graficii computerizate.

1.2.3 Stocarea pentru aplicatiile multimedia


CD-ROM-ul si aplicatia sa pentru stocarea video precum si mai nou aparutul DVD
unesc lumea calculatoarelor si a radiodifuziunii prin stocarea filmelor si a documentelor
video de mare capacitate. Capacutatea de stocare pentru CD-Rom a crescut la 780 Mbytes
pentru un disc de 12 cm diametru prin folosirea metodelor optice pentru citire. In mod normal
rata de bit pentru CD-ROM este de 1,128 Mb/s excluzind informatia suplimentara pentru
corectia erorilor, care va fi prezentata ulterior. De la inceputul anului 1980 viteza de acces
pentru CD-ROM a crescut, fiind disponibile in prezent CD-ROM de 16 sau 32 de ori mai
rapide, dar capacitatea a ramas neschimbata. Cerintele MPEG-1 pentru audio si video,
specificate la inceputul elaborarii standardului, au fost determinate de faptul ca un CD-ROM
normal poate stoca o ora de program TV cu un sfert din rezolutia NTSC denumit SIF
(standard image format, de altfel egal cu CIF), si au fost alocate rate de bit de 1 Mb/s pentru
video si 128 Kbit/sec pentru audio.
Specificatia DVD (initial abrevierea de la Digital Video Disk, denumite mai recent
Digital Versatile Disk) este acum disponibila ca standard, iar capacitatea a crescut la cca 4,7
Gbyte. Aceasta capacitate mare de stocare este rezultatul folosirii diodelor laser cu lungime
de unda mica si unui mecanism de control precis bazat pe prelucrarea digitala a semnalului.
Sistemul DVD care foloseste algoritmul MPEG-2 pentru compresia video promite obtinerea
unei rezolutii NTSC complete. Rata de bit folosita pentru compresia video este variabila; 4
Mb/s in medie, si pina la 9 Mb/s maximum este posibila. Ratiunea pentru care CD si DVD
folosesc sandardul de compresie MPEG este posibilitatea de accesare pseudo-aleatoare si de
redare rapida oferita de procesul de codare.
1.2.4 Comunicatiile multimedia
Sa abordam acum domeniul comun pentru comunicatii si calculatoare. Sistemele de
calcul folosesc comunicatiile de pachete atunci cind acestea sunt legate in retele lucale cum
este Ethernet. In retelele de comunicatie de banda larga a fost introdus ATM care foloseste
un set de celule, similar cu pachetele. In retelele de comunicatie cu celule si pachete,
comunicatiile in timp real sunt citeodata gituite cnd traficul este intens. De exemplu,
pachetele sunt citeodata retinute in buffere-ul de iesire a sistemului cind apar congestionari
de trafic in retea. In ATM celulele sunt automat eliminate cind buffer-ul din sistemul de
comunicatie devine plin. Punctul fierbinte in retelele de comunicatie bazate pe celule sau
pachete apare la transmisiunile video pe Internet. Sunt trei chesiuni importante: largimea de
banda rezervata pentru transmisiile video prin retele, volumul mare de date video continue si
sincronizarea corecta la 30 cadre/s in reconstructia video.
Totusi algoritmii MPEG sunt robusti la pierderea de celule/pachete. Capacitatea de
acces pseudoaleator a structurii cadrelor in algoritmii MPEG opreste propagarea erorii de
pierdere a celulelor/pachetelor. De asemenea, nivelul de transport al MPEG permite
cecuperarea precisa a tactului in retelele ATM care contin mecanism digital de calare pe faza
(phase-lock). Aspectele sistemului la nivelul de transport MPEG vor fi prezentate ulterior.
O abordare mai convenabila dependenta de trafic este cea de al MPEG-4 unde proceul
de codare este realizat in functie de obiectele din secventa video. Fiecare imagine video este
structurata in obiecte si apoi obiectele sunt codate. Cind traficul prin retea devine dificil sunt
transmise numai obiectele cele mai importante.
In retelele de comunicatii de banda larga, ATM este folosit in retelele magistrale care
sunt constituite din linii de transmisie cu fibra optica. Totusi conectarea directa la aceste
retele de fibra optica a birourilor mici sau a abonatilor este inca o perspectiva departata
datorita costurilor implicate. Digitizarea liniilor de abonat existente este o cale buna de
urmat si aceasta a condus la aparitia standardului ISDN (Integrated Service Digital
Network). Totusi iSDN suporta numai viteze de numai 128 Kb/s pentru date plus 16 Kb/s
canalul de pachete. In aceasta gama de rate de bit sunt disponibile terminale multimedia cu
rata de bit joaja care folosesc codecuri video H.263, codecuri vocale G.723 sau MPEG-4,
insa aceasta rata de bit este prea redusa pentru transmisia si receptia calitatii video MPEG-
1/2, care este inclusa in documentele www.
O abordare posibila pentru a creste rata de bit disponibila la abonati pe liniile
existente ester numita xDSL. Aceasta tehnologie foloseste tehnologiile moderne de
multiplexare a multipurtatoarelor cu divizare ortogonala de frecventa. Aceasta tehnlogie
depaseste imperfectiunile liniile de transmisiune cum ar fi interferentele si caracteristicile de
frecventa non-plate ale liniilor de abonat pentru a obtine viteza mare de transmitere de citiva
megabiti pe secunda rata de bit.
O alta abordare pentru cresterea ratei de bit cu investitii rezonabile pentru utilizatori
este de a folosi cablurile coaxiale folosite pentru CATV. Daca semnalul audio si video este
digitizat folosirea modulatiei digitale in CATV devine naturala. Deoarece semnalele digitale
audio si video sunt compresate, CATV digitala poate suporta mai multe canale de semnal
fata de CATV analogic. Unele dintre aceste canale digitale pot fi utilizate pentru nevoi de
comunicatie sau pentru aplicatii www. Cea mai folosita tehnica de catre modemurile de
cablu este QAM (Quadrature Amplitude Modulation) care a fost initial folosita la
transmisiunile de date pe microunde sau la comunicatiile prin satelit.
Domeniul comunicatiilor digitale fara fir, incluzind comunicatiile pe microunde sau
prin satelit, este foarte catual. Alaturi de ele sistemele digitale celulare sunt de mare interes.
Sistemele digitale celulare acopera aria lor de serviciu cu unitati mici, unde sunt folosite
unde electromagnetice purtatoare de putere redusa. Datorita puterii reduse aceiasi frecventa
de purtatoare poate fi folosita repetat de catre unitati care nu sunt adiacente. Dearece
acoperirea unei unitati este mica, un terminal de abonat nu trebuie sa emita o unda
electromagnetica de mare putere. De aceea terminalele pentru telefoanele digitale celulare
devin din ce in ce mai mici. Pentru a reduce blocarea apelurilor intr-o unitate se foloseste
tehnica CDMA (Code Division Multiple Access) unde apelurile excesive produc numai o
degradare a raportului S/Z a canalelor multiple. Degradarea raportului S/Z pentru semnalele
receptionate afecteaza usor cresterea ratei erorii de bit, dar nu se produce blocarea.
In birourile mici, retelele locale interne ar fi suficiente pentru scaderea costului.
Perechide de linii de comunicatie torsadate (twisted pair) pot suporta de asemenea o mare
cantitate de informatie digitala, daca aria de coperire este de citeva sute de metri. Toate
tehnicile de modulatie amintite sunt puternic legate de prelucrari digitale ale semnalului.

1.3 Servicii multimedia


Lumea multimedia reclama servicii si aplicatii care folosesc efectiv posibilitatile
multmedia. Multe dintre exemplele date pina acum reprezinta exemple de astfel de servicii.
In continuare vom face o trecere in revista a acestor servicii care vor fi analizate apoi separat.
Fig. 1.5 prezinta localizarea sistemelor multimedia noi si a serviciilor in raport cu domeniile
din Fig. 1.1. Internetul si www este acum foarte raspindit in toate domeniile legate de
fuziunea dintre calculatoare, comunicatii si radiodifuziune. Internetul a debutat cu
transmiterea mesajelor prin reteaua de calculatoare cu protocol standardizat de Internet.
Multe aplicatii interesante au fost posta electronica si transferul de fisiere. Dupa introducerea
web-ului Internetul a devenit leader-ul lumii multimedia. www a asigurat un sistem
simplificat si unitar de comanda prin introducerea URL (Unified Resource Locator) si de
asemenea imbunatatirea capacitatii de hyperlink intr-un document scris in HTML (Hyper
Text Makeup Language). Alaturui de texte documentele HTML pot include grafica,
fotografii, informatii video si audio. Deaoarece toata lumea doreste sa se bucure de resviciile
www pe Internet mai confortabil, a fost accelerata introducerea modemurilor ISDN si xDSL
pentru liniile telefonice. De asemenea s-a extins piata motoarelor de cautare (browser) pentru
PC si statii de lucru. Comunicatiile fara fir s-au extins catre Internet, chiar daca rata de bit
disponibila este inca joasa: de la 9,8 Kbiti/s pina la 64 Kbiti/s. Aceste canale fara fir au fost
acum combinate cu calculatoarele portabile si PDA (Personal Digital Assistant). Aceasta a
condus la inceputul calculului mobil.
In ceea ce priveste comunicatiile, introducerea documentelor audio si video digitale a
creat noi oportunitati de afaceri. Un singur canal analogic de TV NTSC cu largime de banda
de 6 Mhzpoate transporta in jur de 20 Mb/s folosind modemuri digitale, in timp ce compresi
MPEG-2 necesita intre 4 si 9 Mb/s pentru un singur canal video. Rezulta ca pe largimea de
banda corespunzatoare unui canal analogic conventional devin disponibile in medie 3-4
canale suplimentare. Folosind compresia digitala devin disponibile multe canale video noi. In
anumite conditii un emitator de satelit poate transmite in jur de 30 Mb/s. Prin urmare cind
este folosita transmisia digitala poate fi realizata si CATV prin satelit. Mai mult, odata cu
realizarea emisiunilor in format digital realizarea programelor HDTV devine mai simpla,
folosind citeva canale TV digitale.
Sistemul VOD (Video-on Demand) creeaz noi servicii la interferenta celor trei
domenii. In cadrul sistemului, masina server este chiar un sistem de calculatoare care
gestioneaza bibliotecile video aflate intr-un numar de sistele mari de stocare. Canale de
comunicatie de banda larga conecteaza serverul de clienti. Serverul video trimite documentul
video ales de client la cererea acestuia. Deoarece canalul de conectare a clientului cu serverul
este numai pentru un client, terminalul clientului poate solicita serverului servicii comune
pentru terminale video cum ar fi comenzi de pauza, reluare, derulare rapida inainte, cautare si
altele.
O problema importanta a serviciilor multimedia este protectia proprietatii intelectuale
(copy-right). Documentele visdeo si audio sunt livrate prin reteaua multimedia si prin
discurile DVD. In viitorul apropiat calculatoarele pC vof fi suficient de puternice pentru a
putea edita documente audo si video. Atunci va fi normal de a folosi parti din materialele
existente pentru crearea unor noi materiale multimedia. Pentru a sigura originalitatea
matrialelor multimedia trebuie introduse anumite semne pentru marcare. Marcarea
documentelor audio si video (watermark) devine o problema importanta pentru a asigura
protectia drepturilor autorului. Tehnologiile recente de prelucrare a semnalelor permit
marcarea documentelor fara o degradare evidenta. Semnatura autorului poate fi introdusa in
documentele audio/video folosind de exemplu tehnici de imprastiere a spectrului. Cu toate ca
tehnologiile de marcare sunt foarte importante ele ramin inttr-un stadiu incipient. Citeva
tehnici de marcare vor fi prezentate in continuare.

1.4 Implementarea hardware


Implementarile hardware ieftine ale terminalelor multimedia este o problema
importanta. Multumita progresului tehnologiei VLSI pretul de cost al hardware-lui scade
astfel ca proliferarea domeniului multimedia devine o realitate. Totusi astazi numai
microprocesoarele puternice au posibilitati de a decoda MPEG-2 siruri de biti in timp real. In
Fig. 1.6 este data o clasifiacre a unor circuite programabile recente si posibilitatile lor de
prelucrare. Directia superioara arata circuitele RISC de uz general pentru statii de lucru, iar
directia-stinga sus prezinta procesoare CISC de uz general pentru aplicatii PC. Directia
stinga-jos este pentru procesoare RISC imbunatatite pentru PDA si masini pentru jocuri.
Directia jos indica circuite DSP programabile. Directia dreapta-jos este pentru calculatoare
PC cu procesoare de mediu. Dupa aparitia procesorului Pentium diferentele dintre circuitele
RISC si CISC s-au redus. Aceasta deaoarece Pentium foloseste unitati pipe-line si
superscalara su executie out-of-order, introdusa prima data la procesoarele RISC pentru
imbunatatirea posibilitatilor de prelucrare. Penalizarea unei astfel de abordari o reprezinta
complexitatea unitatii de control a circuitului. Mai mult de 50% din suprafata cipului este
destinata pentru aceste unitati. Puterea disipata este in jur de 20-30 wati.
Decodarea MPEG-2 in timp real necesita in jur de 1 giga operatii pe secunda si deci
este imposibil de a executa decodarea cu procesoare cu arhitectura conventionala care au mai
putin de 1 GIPS. Unele cipuri folosesc un ALU modular pentru decodarea MPEG-2 in timp
real, unde ALU de 64 de biti este impartit in 4 unitati ALU de 16 biti cu functionare SIMD.
Un procesor RISC imbunatatit creat recent foloseste un ALU modular pentru realizarea
codarii MPEG-1 sau a decodarii MPEG-2 in timp real. Daca nu sunt folosite unitati de
comanda complexe puterea disipata de aceste circuite poate fi redusa pina la 1,5 wati.
Circuitele DSP sunt folosite in special la terminalele de comunicatie fara fir pentru codarea
vocii la rate de bit joase. Aceasta pentru ca circuitele DSP au o putere disipata foarte redusa,
in jur de 100 mW. Din pacate posibilitatile lor de prelucrare nu permit decodarea MPEG-2 in
timp real. Pentru PDA comunicatiile video care folosesc MPEG-4 sunt posibile la un pret de
cost redus. Comunicatiile fara fir discutate in IMT-2000 (future mobile communicatios
system) pot avea in jur de 64 Kb/s. Prin urmare formatele QCIF (1/16 din rezolutia NTSC) si
7,5 pina la 15 cadre pe secunda pot fi comprimate cu aceasta rata de bit. In acest caz
circuitele DSP de consum redus pot asigura functia de decodare MPEG-4 datorita
continutului de informatie redus. Procesoarele de mediu sunt o extindere a circuitelor DSP
programabile pentru PC, incluzind decodarea MPEG-2 in timp real. Ele folosesc un numar
mare de unitati de prelucrare care sunt comandate prin tehnica VLIW (very long instruction
word). Daca frecventa lor de lucru este relativ scazuta puterea disipata este de circa 4 wati.
Chiar daca circuitele programabile au capacitatea de prelucrare in jur de 1 GOPS,
suficienta pentru decodarea MPEG-2 in timp real, codarea MPEG-2 in timp real depaseste cu
mult posibilitatile lor. Sa evaluam de exemplu complexitatea operatiei de estimare a miscarii
la codarea video. Codarea compresiei este executata prin extragerea prin extragerea iformatiei
despre ultima imagine din imaginea curenta. Sunt codate numai componentele reziduale
dintre doua imagini. Estimarea miscarii este folosita pentru a imbunatati extragerea
informatiei despre ultima imagine prin compensarea miscarii preestimate in ultima imagine,
daca este aceasi miscare. Functia de estimare a miscarii este un proces de imperechere a
setului de secvente intre un segment de 16 x 16 pixeli din cadrul curent de imagine si o
anumita imagine de referinta (in multe cazuri, ultima imagine) pentru a gasi cele mai
similare segmente de 16 x 16 pixeli. Informatia despre miscare este obtinuta ca distanta in
locatii dintre segmentul curent si segmentul detectat. La un cadru de 720 x 480 de pixeli
exista 1350 de segmente diferite de 16 x 16 pixeli, 45 de segmente pe orizontala si 30 de
segmente pe verticala. In fig. 1.7 aria de cautare in ultima imagine este de limitata la o
regiune patrata care acopera o miscare intre –16 si +16 pozitii de pixeli in ambele directii,
pentru fiecare segment de 16 x 16 pixeli. Aceasta limitare a ariei de miscare poate fi
rezonabila daca imaginea se refera la o comunicare fata in fata. Deoarece MPEG-2 permite si
miscari de ½ pixeli segmentul curent de 16 x 16 ar trebui comparat cu 64 pozitii diferite pe
ambele directii. Masura L1 a distantei, unde diferenta absoluta dintre pixelii corspunzatori
dintre segmente este acumulata, este folosita pentru criteriul celei mai bune imperecheri. Prin
urmare, sunt necesare 16x16 operatii absolute pentru o posibila evaluare a miscarii. In
consecinta numarul total de operatii care trebuie efectuate intr-o secunda poate fi calculat
astfel:

1350 x (64 x 64) x (16 x 16) x 30 = 40 GOPS

Aceasta arata ca pentru limitarea aleasa pentru regiunea de miscare estimarea miscarii
necesita mai mult de 40 GOPS, la care trebuie adaugate si operatiile pentru calculul
DCT/IDCT si a codatrii cu lungime de bit variabila. Conform standardului MPEG-2
regiunile de cautare pot fi extinse la intregul cadru. Deci prelucrarea va depasi 10 Tera
operatii pe secunda. Acesti factori impun folosirea unor sisteme dedicate aplicatiilor.
Cind este proiectat un circuit LSI pentru o aplicatie specifica , de exenplu pentru un
codor MPEG-2, capacitatea de prelucrare ceruta depinde de algoritmul folosit. Exosta o
categorie de algoritmi simplificati pentru estimarea miscarii, insa simplificarea algoritmului
produce o anumita degradare a imaginii reconstruite. Compromisul dintre complexitate
hardware si calitate este o problema importanta a metodologiei de proiectare a circuitelor
specifice aplicatiei.
La proiectarea arhitecturii, hardware-ul pentru pipe-line sporeste posibilitatile de
prelucrare cu o mica penalizare datorata introducerii registrelor. De exemplu, daca o
prelucrare este mpartita in doua prin introducerea registrelor, prima prelucrare poate fi
activata chiar dupa ce a doua prelucrare incepe. Introducerea registrelor poate dubla chiar
viteza de prelucrare. In cazul estimarii miscarii descrise anterior sau pentru calculul
produsului unor matrici sau vectori poate fi utilizata o structura pipe-line denumita arie
sistolica (Systolic Array). Multe circuite pentru compensarea miscarii si/sau circuite codec
incluzind compensarea miscarii au folosit arii sistolice, datorita regularitatii si a simplitatii in
prelucrarea de mare viteza. Unele arii sistolice avansate vor fi prezentate mai tirziu.
Pentru partea de codare a canalului din Fig. 1.4 unele operatii trebuie efctuate in cimpuri
finite si operatiile cerute sunt putin diferite fata de ALU conventional.
Proiectarea pentru consum redus este o alta problema importanta a implemantarii
hardware, pentru ca realizarea functiilor multimedia cu sisteme de consum redus asigura
prelungirea duartei de viata a bateriilor pentru aplicatiile portabile. Probabil ca cea mai
importanta piata pentru aplicatiile multimedia va fi cea a terminalelor portabile. In Fig. 1.8
este prezentat un echipament multimedia experimental care permite descarcarea in calculator
a noutatilor video in fiecare dimineata. In acest sistem noutatile video sunt stocate intr-o
cartela PCMCIA in format MPEG-1. Calitatea audio este comparabila cu aceea a discului
compact si calitatea MPEG-1 este putin rezonabila pentru ecranele mici. Chiar daca acest
sistem nu include capacitati de comunicare fara fir in acest moment, viitoarele versiuni vor
include functiuni pentru cautarea pe web. Cind un astfel de terminal compact receptioneaz si
transmite informatii video cu Mb/s sisteme de antene adaptive ar putea fi utilizate pentru a
capta semnalul dorit in mediu zgomotos.
Multe operatii aritmetice precum impartirea si extragerea radacinii patrate, precum si
functii primare ca sin, cos, log si exp pot fi incluse in astfel de sisteme pentru aplicatii de
grafica pe calculator. Operatiile de impartire si de extragere a radacinii patrate pot fi
executate cu algoritmul CORDIC.
Cap.2. Compresia video

2.1 Introducere
Semnalul video digital prezinta multe avantaje in comparatie cu semnalul video analogic.
Totusi, cand semnalul video este reprezentat in format digital, largimea de banda creste
considerabil. De exemplu, un singur cadru in format HDTV (televiziunea de inalta definitie),
avand o dimensiune a cadrului de 19201250 pixeli si o rata de 50 cadre/sec cere o
dimensiune de stocare de 57.6 MB si o rata a sursei de date video de 2.88 GB/s. Un film de 2
ore in format HDTV are nevoie de aproximativ 414 GB. Chiar si cu un dispozitiv performant
de memorare, nu exista inca suportul tenologic care sa permita transmisia si procesarea
semnalului la viteze atat de mari. Pentru a depasi problema largimii benzii ocupate, in
contextul pastrarii avantajelor conferite de catre semnalul digital in televiziune, au fost
dezvoltate diferite tehnici de compresie a semnalului video. Acest capitol face o sinteza a
conceptelor de baza care intervin in studiul compresiei video si prezinta cunostiintele de baza
necesare pentru implementarea acestor tehnici de codare foarte intens utilizate.
Capitolul este organizat astfel: sectiunea 2.2 recapituleaza conceptele de baza ale codarii fara
pierderi, algoritmi de codare cum ar fi codoarele Huffman si codarea aritmetica. Ratele de
compresie utilizate de algoritmii de compresie fara pierderi sunt limitate. Spre deosebire,
algoritmii de compresie cu pierderi, discutati in sub-capitolele 2.4 si 2.5, nu fac o
reconstructie perfecta a semnalului dupa decodare, dar au o rata de compresie excelenta.
Tehnicile de codare bazate pe transformari sunt prezentate in capitolul 2.3. Teoria din acest
capitol contine informatii despre transformata cosinus discreta, cuantizarea vectoriala si
reordonarea coeficientilor cuantizati ai transformarii. Algoritmul cheie utilizat in compresia
video este studiat in capitolul 2.4. Capitolul 2.5 prezinta o privire de ansamblu asupra unor
caracteristici de baza ale standardului de compresie video MPEG-2. In final sunt discutate
dificultatile ridicate de complexitatea algoritmilor de codare video, in capitolul 2.6.

2.2 Tehnici de codare entropica


Entropia H de ordinul intai a unei surse discrete fara memorie, continand L simboluri,
este definita astfel :
L
H  [ pi log pi ] (1)
i 1

unde pi este probabilitatea de aparitie a simbolului de ordin i. Entropia sursei se masoara in


biti/simbol, si este marginita inferior de lungimea medie a cuvantului de cod necesar pentru a
reprezenta simbolurile sursei. Aceasta margine inferioara poate fi obtinuta daca lungimea
cuvantului de cod pentru simbolul i este aleasa a fi - log 2 pi biti astfel incat sunt desemnate
cuvinte de cod mai scurte pentru simboluri mai probabile si cuvinte de cod mai lungi pentru
simboluri mai putin probabile. Desi valoarea - log 2 pi biti/simbol poate sa nu fie obtinuta

practic deoarece - log 2 pi poate sa nu fie intreg, ideea unei lungimi de codare variabile, care
sa reprezinte simbolurile cel mai frecvent aparute utilizand cuvinte de cod mai scurte si
simbolurile mai putin frecvente utilizand cuvinte de cod mai lungi, poate fi aplicata pentru a
obtine compresia de date. Algoritmii de compresie a datelor care utilizeaza datele statistice
ale sursei pentru a obtine rata de biti/simbol apropiata de valoarea entropiei sunt cunoscuti in
general ca algoritmi de codare entropica. Codarea entropica este lipsita de pierderi deoarece
datele initiale pot fi reconstruite exact utilizand datele compresate.
Acest capitol recapituleaza pe scurt cei mai frecvent utilizati 2 algoritmi de codare entropica:
codarea Huffman si codarea aritmetica. Acest capitol include de asemenea inca un tip de
algoritm de codare a sursei fara pierderi, codarea run-length. El converteste un sir de
simboluri identice intr-o secventa de lungime intermediara de simboluri denumite coduri run-
length si este des utilizat impreuna cu algoritmii de codare entropica pentru a imbunatati rata
de compresie a datelor.

2.2.1 Codarea Huffman


Cand este cunoscuta distributia de probabilitati a unei surse discrete, algoritmul de
codare Huffman furnizeaza o procedura sistematica de proiectare pentru a obtine lungimea
optima a cuvantului de cod. Proiectarea codurilor Huffman implica 2 pasi: generarea
simbolurilor si asignarea codurilor. Acesti pasi sunt descrisi in continuare:

1. Generarea simbolurilor; se formeaza arborele de codare Huffman astfel:


a. Aranjarea probabilitatii simbolurilor pi in ordine descrescatoare si stabilirea
acestora ca fiind frunzele arborelui.
b. Repetarea urmatorilor pasi pana cand ramurile se strang intr-un nod:
i. Cele doua noduri cu cele mai mici probabilitati converg si formeaza
un nou nod cu probabilitatea egala cu suma probabilitatilor celor
doua noduri.
ii. Se asigneaza „1” si „0” perechii de ramuri care converge intr-un nod.

2. Asignarea codurilor; cuvantul de cod pentru fiecare simbol este o secventa binara de
la radacina arborelui catre frunza in care probabilitatea simbolului este localizata.

Exemplul 2.2.1 Se considera o sursa discreta continand 5 simboluri {a, b, c, d, e} cu o


probabilitate de distributie {0.4, 0.14, 0.2, 0.2, 0.06}. Procedura de codare Huffman si
rezultatele acestei codari sunt ilustrate in fig. 2.1. Se observa ca in timpul procesului de
convergenta poate aparea posibilitatea ca doua sau mai multe probabilitati sa fie egale. De
exemplu, la pasul 2 in fig. 2.1(a), probabilitatea simbolurilor d si e este egala cu
probabilitatea simbolurilor b si c. In caz de egalitate alegerea convergentei poate fi
arbitrara, iar codurile rezultate pot fi diferite, avand aceeasi rata medie de bit si aceeasi rata
de compresie dupa cum poate fi verificat utilizand exemplele de coduri din fig. 2.1(a) si (b).

Codul Huffman este unic decodabil. O data generat codul, procedura de codare poate fi
realizata prin alocarea fiecarui simbol de intrare catre cuvantul de cod corespondent, care
poate fi stocat intr-un tabel. Procedura de decodare include extragerea cuvintelor de cod
dintr-un sir de cuvinte de cod concatenate si asignarea fiecarui cuvant de cod simbolului
corespunzator, utilizandu-se respectivul cod Huffman. O proprietate importanta a codurilor
Huffman este aceea ca nici un cod sau vreo combinatie de coduri nu reprezinta prefixul
vreunui alt cod. Conditia de prefix permite extragerea cuvintelor de cod dintr-un cuvant de
cod concatenat si elimina surplusul pozitiior transmise. Conceptual, cuvantul de cod extras
poate fi obtinut bit cu bit prin transversalizarea arborelui de codare Huffman. Se incepe de la
radacina arborelui; la fiecare nod intermediar, se ia o decizie in concordanta cu bitul
receptionat, pana cand se ajunge la nodul terminal (frunza); se gaseste , astfel, cuvantul de
cod, iar bitii corespunzatori sunt extrasi din sirul de biti.

Exemplul 2.2.2 Acest exemplu ilustreaza procedurile de codare si de decodare a


codurilor Huffman generate in Exemplul 2.2.1 ((fig. 2.1(a)), prezentate in tabelul de codare
Tabelul 2.1. Se considera secventa de date sursa dbaaec.Utilizand tabelul de codare,
cuvantul de cod corespunzator se calculeaza ca fiind 11101000 1111110. La decodare,
aceasta secventa de biti poate fi impartita astfel: 1110, 10, 0, 0, 1111, 110; apoi se
reconstitue secventa initiala de simboluri, dbaaec.

2.2.2 Codarea aritmetica


In cazul codarii aritmetice probabilitatile simbolurilor pi ar trebui, cunoscute apriori
sau estimate. Cunoscand distributia de probabilitate a datelor sursa, codarea aritmetica
imparte intervalul de probabilitate 0 si 1 in sub-intervale, conform cu probabilitatile
simbolurilor, si reprezinta simbolurile prin valorile medii ale sub-intervalelor.
Se considera cazul codarii aritmetice bazate pe un singur simbol ales din setul de
simboluri considerat {ai ,1 i  L} cu distributia de probabilitate {pi}. Fie Pi suma

probabilitatilor de la primul simbol pana la simbolul de indice i, adica: Pi  k 1 pk . La


k i

codarea aritmetica, intervalul [0,1] este impartit in L sub-intervale {[0,P1], [P1,P2],…,[ PL-1,
PL=1]}, iar sub-intervalul de ordinul i, definit ca I(ai)= [ Pi-1, Pi] este asignat simbolului ai
(pentru 1 i  L), ca in fig. 2.2 (a). Este apoi calculata reprezentarea binara a mijlocului sub-
intervalului i si primii W(ai) biti (dupa punctul de mijloc), reprezinta cuvantul de cod
aritmetic pentru simbolul ai (pentru 1 i  L), unde W (ai )  [log 2 (1 pi ]  1 .

Exemplul 2.2.3 Pentru setul de simboluri {a,b} si distributiile de probabilitate p0=1/4 si


p1=3/4, intervalul [0,1] este impartit in doua sub-intervale I(a)=[0, 1/4] si I(b)=[1/4, 1]. Cum
W(a)=[log24]+1=3 si W(b)=[log24/3]+1=2, codurile aritmetice pentru simbolurile a si b sunt
001 si 10, valori care reprezinta primii 3 biti din reprezentarea binara a valorii 1/8 (mijlocul
intervalului I(a)), respectiv primii 2 biti din reprezentarea binara a 5/8 (mijlocul intervalului
I(b)). Aceste lucruri sunt ilustrate in fig. 2.2(b).

Codarea aritmetica are ca rezultat un sir de simboluri care permite obtinerea unor rate de
compresie mult mai bune. De obicei este mai performanta decat codarea Huffman din acest
punct de vedere. Codarea aritmetica a unui sir de simboluri de lungime l, S={s1, s2,…, sl} este
obtinuta prin l impartiri iterative in sub-intervale, partitionari facute pe baza proprietatilor
statistice ale setului de simboluri considerat, adica distributia de probabilitate si
probabilitatile conditionate. Lungimea fiecarui sub-interval este egala cu probabilitatea sirului
de simboluri care ii corespunde. Cuvantul de cod aritmetic pentru un sir de simboluri S este
format din primii W biti din reprezentarea binara a valorii de mijloc a sub-intervalului
corespunzator, I(S), unde W=[log21/|I(S)|]+1, iar |I(S)| este lungimea intervalului I(S).
Exemplul 2.2.4 Acest exemplu ilustreaza procesul de codare aritmetica pentru un sir
de simboluri ales din setul de simboluri din exemplul 2.2.3. Se presupune ca simbolurile din
secventa sursa sunt independente si identic distribuite (iid). Se considera sirul de patru
simboluri S=bbab. Codarea aritmetica a acestuia cuprinde cinci pasi, dupa cum se prezinta
in fig. 2.3. La primul pas, intervalul [0,1] este impartit in doua sub-intervale pe baza
probabilitatilor lui a si b, iar I(a)=[0,1/4] si I(b)=[1/4,1]. Pentru ca primul simbol din sirul S
este b, al doilea sub-interval este retinut si transmis la urmatoarea iteratie. La pasul al
doilea, sub-intervalul I(b) este impartit in doua sub-intervale: I(ba)=[1/4,7/16] si
I(bb)=[7/16,1] pe baza probabilitatilor conditionate p(a|b) si p(b|a), care sunt egale cu p(a)
si p(b) pentru surse iid. In conformitate cu valoarea celui de-al doilea simbol, sub-intervalul
I(bb) este retinut si transmis la urmatoarea iteratie. In mod similar, la pasul al treilea, sub-
intervalul I(bba) = [7/16,121/256] este retinut si transmis in iteratia a patra; sub-intervalul
I(bbab) = [121/256 , 37/64] obtinut la pasul 4 este sub-intervalul final pentru sirul de
simboluri S=bbab. In cele din urma, la pasul 5, reprezentarea binara a mijlocului sub-
intervalului I(bbab)=[ 121/256 , 37/64], adica a valorii 269/512 este calculata, iar primii
biti, respectiv 10000 constituie cuvantul de cod aritmetic al sirului S=bbab.

[log 2 (1/ | I(bbab)|)] +1 = [log 2256/27]+1=5 (2)


2.2.3 Codarea run-length
In codarea run-length, un sir de simboluri identice este reprezentat utilizand un
indicator de lungime a simbolului si un indicator de valoare a acestuia. De exemplu, codul
run-length pentru secventa de simboluri sursa {0, 0, 0, 0, 0, 3, 0, 0, 0, 5, 6} este {(#5,0),
(#1,3), (#3,0), (#1,5), (#1,6)}, unde valoarea ce are anterior simbolul # reprezinta indicatorul
de lungime. Acesti indicatori de lungimile si de valoare a simbolurilor in run-length pot fi
codati utilizand algoritmii de codare entropici. Pentru secvente binare, sirurile consecutive
sunt formate din valorile alternate 1 si 0, aceste valori putand sa nu fie explicit prezentate.
Astfel, doar simbolul de indicare a lungimii si prima valoare a intregii secvente sunt necesare
in cazul codarii run-length pentru siruri binare. De exemplu, secventa binara {0, 0, 0, 0, 1, 1,
1, 0, 0, 1, 1, 1} poate fi codata astfel: {0, #4, #3, #2, #3}.
Pentru secventele de date corespunzand imaginilor digitale, exista simboluri cu o
mare probabilitate de aparitie, care apar consecutiv, cum ar fi zeo-urile. In acest caz, doar
aceste siruri de simboluri sunt codate run-length in simboluri intermediare, iar aceste
simboluri intermediare, alturi de restul simbolurilor sursa originale, sunt codate apoi utilizand
scheme de codare entropica. De exemplu, secventa {0, 0, 0, 0, 0, 3, 0, 0, 0, 5, 6} poate fi mai
intai codata run-length ca {(#5,3), (#3,5), (#0,6)}, unde a doua valoare din paranteza rotunda
reprezinta valoarea numarului de simboluri succesive diferite de zero, iar prima valoare din
paranteza rotunda indica numarul de simboluri anterioare consecutive zero.

2.3 Tehnici de codare a transformatei


Tehnicile de codare a transformatei au tendinta de a impacheta o mare parte din
energia medie a imaginii intr-o componenta relativ mica data de coeficientii transformatei,
care, dupa cuantizare, va contine siruri lungi de zerouri. Un sistem de codare pe baza de
transformate contine urmatorii pasi: transformarea (descompunerea) blocurilor de imagine
(sau a imaginii), cuantizarea coeficientilor rezultati, reordonarea coeficientilor cuantizati si
formarea fluxurilor de biti de iesire; aceste tehnici sunt prezentate in acest capitol. Doua
dintre cele mai cunoscute transformate sunt transformata cosinus discreta si transformata
wavelet.

2.3.1 Transformata cosinus discreta


Transformata cosinus discreta (DCT - Discrete Cosine Transform) a fost prima
transformare introdusa pentru recunoasterea formelor prin prelucrarea imaginilor si pentru
filtrarea Wiener [3]. DCT este o transformare ortogonala care “decoreleaza” semnalele intr-
un singur bloc de imagine si compacteaza energia intregului bloc de imagine in cativa
coeficienti DCT de frecventa joasa. Aceasta metoda este introdusa in ambele standarde de
compresie video si a imaginii. Acest capitol introduce varianata simetrica unidimensionala 1-
D DCT pentru secvente pare.
Consideram o secventa de N puncte x(n), astfel incat x(n)=0 pentru n<0 si pentru n>N-
1. Transformatele-pereche DCT si IDCT (transformata inversa a DCT) pentru aceasta
secventa sunt:

N 1
(2n  1)k
X (k )  e(k ) x(n) cos[ ], k  0,1,...., N  1 (3)
n 0 2N

2 N 1 (2n  1)k
x ( n)  
N n 0
e(k ) X (k ) cos[
2N
], n  0,1,...., N  1 (4)

unde:

 1
 , daca k  0
e( k )   2 (5)

 1, altfel

Cele N puncte ale transformatelor pereche DCT si ale IDCT pot fi obtinute folosind perechea
de transformate Fourier discreta (DFT) in 2N puncte. Construim secventa de 2N puncte, y(n),
folosind pe x(n) si imaginea ei in oglinda, dupa cum urmeaza:

 x(n), 0  n  N 1
y(n)  x(n)  x(2 N  n  1)   (6)
 x(2 N  n  1), N  n  2 N  1

Secventa y(n) prezinta simetrie fata de punctul de mijloc n=N-1/2. Fig. 2.4 prezinta un
exemplu pentru N=5.
Cele 2N puncte ale DFT ale lui y(n) sunt date de:

2 N 1 2 N 1 j
2
2 N 1 j
2
j kn kn kn

YD (k )   y(n)e   x(n)e   x(2 N  n  1)e


2N 2N
2N
(7)
n 0 n 0 n N

pentru 0  k  2N-1. Inlocuind n=2N-n’-1 in relatia (7) vom obtine:

2 N 1 2 0 2 N 1 2 2
j kn j k ( 2 N  n 1) j kn '  j k

n 0
x(2 N  n  1)e 2N
  x ( n ' )e
n '  N 1
2N
  x ( n ' )e
n'0
2N
e 2N
. (8)

Din (7) si (8) putem scrie:

N 1 2 N 1 2 2
j kn j kn j k
YD (k )   x(n)e 2N
  x ( n )e 2N
e 2N

n 0 n 0
( 2 n 1) ( 2 n 1)
j k N 1 j k (9)
  x ( n )e

j k N 1 x ( n )e 2N 2N

e 2N
( n 0
n 0


j k N 1 (2n  1)k
e 2N
 2 x(n) cos[
n 0 2N
]

Definim:

k
  j( )
ˆ Y ( k ) e 2N
0  k  N 1
X (k )   D


 0 altfel

(10)
Cele N puncte ale DCT pot fi determinate utilizand expresia X (k )  e(k ) Xˆ (k ) / 2 .
Transformata inversa a DCT este dedusa raportand YD(k) la X(k), calculand y(n) din
YD(k) folosind transformata inversa a DFT si reconstruind x(n) din y(n). Desi YD(k) este o
secventa de lungime 2N , iar X(k) o secventa de lungime N , redundanta secventei simetrice
y(n) permite ca YD(k) sa poata fi scrisa utilizand X(k). Pentru 0  k  N-1,

j k
YD (k )  e 2N
Xˆ (k ) , iar YD(N)=0 pentru N+1  k  2N-1 si 1  2N-k  N-1. De aici,

( 2 N  k ) k
j j
YD (2 N  k )  e 2N
X̂(2 N - k )  e 2N
X̂(2 N - k ) (11)

Cu alte cuvinte, inlocuind in (9):

( 2 N  k ) N 1
j (2n  1)(2 N  k )
YD (2 N  k )  e 2N
 2 x(n) cos(
n 0 2N
)
2 N k N 1
j j (2n  1)k
 e 2N
e 2N
 2 x(n) cos( 2N
)
n0 (12)
2 k k N 1
j j (2n  1)k
e 2N
e 2N
 2 x(n) cos(
n0 2N
)
2 k
j
e 2N
YD (k )

Cum,
2 k 2 k k k
j j j j
YD (k )  e 2N
YD (2 N  k )  e 2N
e 2N
Xˆ (2 N - k )  e 2N
Xˆ (2 N - k ) (13)

pentru N+1  k  2N-1. De aici putem avea:

k
 j
2N ˆ
 e X (k ), 0  k  N 1

YD (k )   0 kN (14)
 j k
 e 2 N Xˆ (2 N  k ) N  1  k  2 N  1

Transformata inversa a DFT pentru YD(k) este:

2
1 2 N 1 j kn
y ( n)  (  YD (k )e 2 N )  (15)
2 N k 0

( 2 n 1) k 2
1 N 1 ˆ j k 2 N 1 j j kn
 (  X ( k )e 2N
  ( e 2N
Xˆ (2 N  k ))e 2N
)
2 N k 0 k  N 1

(16)

Dupa schimbarea variabilei in al doilea termen si folosind relatiile 1 e(0)  2e(0) si


1 e(k )  e(k ) , pentru k0, relatia (16) poate fi scrisa astfel:

( 2 n 1) ( 2 n 1)
1 N 1 ˆ j k N 1 j k
y ( n)  (  X (k )e 2 N   Xˆ (k )e 2 N )
2 N k 0 k 1

1 ˆ N 1
(2n  1)k
 ( X (0)  2 Xˆ (k ) cos( ))  (17)
2N k 1 2N
2 N 1
(2n  1)k
 (e(0) X (0)   X (k )e(k ) cos( ))
N k 1 2N

pentru 0  n  2N-1. Transformata inversa IDCT, obtinuta retinind primele N valori ale lui
y(n) se obtine cu relatia urmatoare:

2 N 1 (2n  1)k
x ( n)  y ( n)  
N k 0
e(k ) X (k ) cos(
2N
) (18)

pentru 0  n  N-1

Expresiile secventelor de lungime N pentru x(n) si pentru X(k) pot fi grupate ca vector astfel:

 x(0)   X (0) 
 x(1)   X (1) 
x , X  (19)
     
   
 x( N  1)  X ( N  1)
iar transformata DCT poate avea urmatoarea forma matriciala :

1 2 1 2 ....... 1 2
 3 (2 N  1)
cos( ) cos( ) ....... cos( )
= 2N 2N 2N
....... ....... ....... .......
( N  1) 3( N  1) (2 N  1)( N  1)
cos( ) cos( ) ....... cos( )
2N 2N 2N
(20)

Coeficientii transformatelor DCT si IDCT pot fi compusi astfel :

2 T
X  Λx, x Λ X (21)
N

N
De aici, obtinem ca T= I N  N unde INN este matricea unitate de dimensiune NxN. Deci
2
DCT este o transformare ortogonala.
In procesarea imaginilor, un cadru este divizat in NN blocuri si fiecarui bloc ii este
aplicata o transformata 2D-DCT. O transformare DCT unidimensionala in N puncte relatia
(3) presupune N2 operatii de multiplicare si adunare. De aici rezulta ca, pentru 2D-DCT sunt
necesare N4 operatii de multiplicare si adunare. Pe de alta parte, transformarea 2D-DCT poate
fi calculata cu ajutorul a N transformate 1D-DCT considerind cele N linii din blocul de
imagine, si apoi efectuind N transformate 1D-DCT considerind cele N coloane ale blocului
[4]. Cu aceasta simplificare, calculul transformatei 2D-DCT pentru blocul de dimensiune
NN necesita 2 N3 operatii de multiplicare si adunare sau 4N3 operatii aritmetice.

2.3.2 Compresia imaginii cu transformata Wavelet


Transformata Wavelet este o transformare ortonormala multirezolutie [5]-[7]. Aceasta
transformare descompune semnalul intr-o banda de energie care este esantionata cu diferite
rate. Aceste rate sunt determinate pentru maximizarea informatiei semnalului in timpul
minimizarii ratei de esantionare sau a rezolutiei pentru fiecare sub-banda.
In analiza wavelet, semnalele sunt reprezentate utilizand un set de functii de baza
(numite functii wavelet) obtinute prin deplasarea si scalarea unei singure functii prototip,
denumita „functia wavelet mama”, in timp. Transformata Wavelet unidimensionala discreta
(DWT) pentru secventa x(n) este definita astfel:


y i ( n)   x( k ) h ( 2
k  
i
i 1
n  k ) , pentru 0  i  m-2


y m1 (n)   x( k ) h
k  
m 1 (2 m1 n  k ) , pentru i=m-1 (22)

unde versiunile deplasate si scalate ale functiei „ wavelet mama”, h(n) , hi (2 i 1 n  k ) 


pentru
0  i m-1 si -  k  , sunt functii baza , iar yi(n) sunt coeficientii Wavelet. Transformata
inversa poate fi calculata astfel :

m2  
x ( n)   i 0
 yi (k ) fi (n  2i 1 k )   ym1 (k ) f m1 (n  2m1 k )
k   k  
(23)

unde { f i (n  2i 1 k ) }este desemnata astfel incat relatia (23) permita reconstruirea perfecta a
semnalului original x(n). Se observa ca evaluarea transformatelor DWT si IDWT este
similara operatiilor de convolutie. De fapt, transformatele DWT si IDWT pot fi calculate
recursiv printr-o serie de convolutii si decimari si pot fi implementate utilizand bancuri de
filtre.
Un banc de filtre digital este un ansamblu de filtre avand intrarea comuna (cind ne
referim la banc de filtre de analiza) sau iesirea comuna (cind ne referim un banc de filtre de
sinteza). Bancurile de filtre sunt folosite in general pentru codarea pe sub-benzi, unde un
singur semnal x(n) este impartit in m sub-benzi cu bancul de filtre de analiza; in cazul
bancului de filtre de sinteza, semnalele de pe cele m sub-benzi de intrare sunt combinate
pentru reconstructia semnalului y(n).
Daca se considera calculul transformatei discrete Wavelet pentru m=4, folosind
bancuri de filtre, coeficientii Wavelet sunt urmatorii:

y 0 ( n)   x(k )h (2n  k ),
k  
0


y1 (n)   x(k )h (4n  k ),
k  
1


(24)
y 2 ( n)   x(k )h (8n  k ),
k  
2


y 3 ( n)   x(k )h (8n  k )
k  
3

si pot fi calculati folosind bancul de filtre de analiza cu decimatori ca in fig. 2.5 (a).
Semnalul x(n) poate fi reconstituit prin transformata inversa Wavelet folosind intepolarea cu
bancul de filtre pentru sinteza, cum se observa si in fig. 2.5 (b).

In practica, transformata discreta wavelet prelucreaza M esantioane de intrare periodice in


fiecare moment si genereaza M esantioane de iesire pentru benzi de frecvente diferite, unde
M=2m , iar m este numarul de benzi sau de nivele ale functiei wavelet. Aceasta metoda este
adesea implementata folosind o structura de arbore a bancului de filtre, unde cei M coeficienti
wavelet sunt calculati pentru log2M nivele de octave, si fiecare octava are in componenta
operatii de filtrare la frecventa joasa si la frecventa inalta. La fiecare nivel al octavei j, o
secventa de intrare sj-1(n) este trecuta prin filtre trece jos si respectiv trece sus, date de
functiile g(n) si f(n). Iesirea de la FTS, h(n), reprezinta informatia de detaliu din semnalul
original la nivel j, care este notata prin wj(n), iar iesirea FTJ, g(n) reprezinta informatia
ramasa in semnalul original, care este notata cu sj(n). Calculul pentru octava j poate fi
exprimat astfel:
s j (n)   s j 1 (k ) g (2n  k )   g (k ) s j 1 (2n  k )
k k
(25)
w j (n)   s j 1 (k )h(2n  k )   h(k ) s j 1 (2n  k )
k k

unde n este indicele esantionului, iar j este indicele octavei. Initial s0(n)=x(n). Fig. 2.6
prezinta diagrama bloc a unei structuri arbore pentru calculul DWT cu 3 octave.

Transformata discreta wavelet bidimensionala poate fi utilizata pentru a descompune o


imagine intr-un set de imagini succesive mai mici, ca in fig. 2.7. Suma dimensiunilor ale
imaginilor mai mici este aceeasi cu a imaginii originale; oricum, energia imaginii originale
este compactata in imagini mici la frecventa joasa in coltul din stanga sus in fig. 2.7.
2.3.3 Cuantizarea vectoriala
Procesul de cuantizare proiecteaza valorile continue ale coeficientilor transformati
rezultati intr-un set finit de simboluri, fiecare aproximand cel mai bine valoarea originala a
coeficientului corespunzator. Acest singur coeficient din procesul de cuantizare reprezinta
cuantizarea scalara. In contrast, cuantizarea vectoriala mapeaza seturi de valori (de forma
vectorilor), intr-un set predefinit de simboluri. Cuantizarea vectoriala este mai performanta
decat cuantizarea scalara, insa este mai greu de implementat. In acest capitol sunt prezentati
algoritmii fundamentali si modalitatile de implementare a cuantizarii vectoriale.
Intr-un sistem VQ (Vector Quantization), este necesara o definitie comuna pentru
caracteristica de codare atat pe partea transmitatorului (continand un vector de codare sau de
cuantizare), cat si pe partea receptorului (continand un vector de decodare sau de
decuantizare). Vectorul de cuantizare transmite indexul cuvintelor de cod mai repede decat
cuvintele de cod propriu-zise. Fig. 2.8 ilustreaza procesul VQ de codare si de decodare.

Pe partea de codare, vectorul de cuantizare ia un grup de esantioane de intrare (coeficientii


transformatei), compara acest vector de intrare cu cuvintele de cod din cartea de codare
(codebook) si selecteaza cuvantul de cod cu deviatia minima. S-a presupus ca vectorii au
dimensiunea k, iar dimensiunea cartii de codare este N. Daca lungimea elementelor vectorului
este W, iar N=2m, atunci este transmisa adresa de m biti din cartea de codare in loc de kW biti.
Acest lucru conduce la un factor de compresie m/kW. Decodorul receptioneaza in mod simplu
indexul de m biti ca adresa in cartea de codare si retransmite cel mai potrivit cuvant de cod
pentru reconstituirea cuvantului de intrare. In fig. 2.8, fiecare vector contine k=16 pixeli, la o
lungime a cuvantului de W=8. Cartea de codare contine N=256 cuvinte de cod, iar m=8. De
aceea, vectorul cuntizat din fig. 2.8 permite un factor de compresie de 1/16.
Algoritmul de codare pentru cuantizarea vectoriala poate fi privit ca un algoritm
exhaustiv de cautare, in care calculul deviatiei executat secvential, pentru fiecare vector
cuvant de cod din cartea de codare, urmarind obtinerea deviatiei minime si continuand pana
cand a fost testat fiecare vector cuvant de cod. In general, ca masura a distrorsiunii este
folosita distanta euclidiana dintre doi vectori (cunoscuta ca eroarea patratica):
k 1
d (x, y )  x  y   ( xi  yi ) 2
2
(26)
i 0

In implementarile practice, deviatia dintre vectorul de intrare x si vectorul cuvant de cod cj de


rang j (0  j  N-1) este calculata ca un produs scalar, si nu direct cu operatii de ridicare la
patrat [8]. Extinzand (26), vom obtine:

2
d (x, c j )  x  2(xc j  e j ) (27)

unde
1 1 k 1 2
 c ji
2
ej   cj  (28)
2 2 i 0

unde produsul scalar este dat de relatia

k 1
xcj   xi c ji (29)
i 0

Deoarece ej depinde numai de vectorul cuvant de cod cj si este o constanta, poate fi


precalculat si tratat ca o componenta aditionala a vectorului cj .De aceea, pentru un vector de
intrare fix x, minimizarea deviatiei cu (27) pentru toti cei N vectori cuvinte de cod este
echivalenta cu maximizarea cantitatii x cj +ej , unde 0  j  N-1. Prin urmare, procesul de
cautare in VQ poate fi descris astfel:

k 1
ind n  ( min d j) 1  ( max
0  j  N 1 0  j  N 1
(x c
i 0
n
i ji  e j ))1 (30)

unde inversa reprezinta „iesirea indexului indn, care atinge minimul sau maximul”, iar n este
un moment de timp. Procesul de cautare poate fi descris in mod echivalent cu o forma de
multiplicare matrice-vector descrisa in [9], astfel:
D  d0 d1 d N 1   Cx  e
T
(31)
 
indn  ( MAX d i ) 1

unde C={cji}este o matrice Nk, iar cuvantul de cod de rang j, vectorul cjT este linia j, x fiind
vectorul de intrare de dimensiune k, si e=[e0 ….. eN-1]T.
Algoritmul de cautare anterior care calculeaza deviatia dintre dintre vectorul de intrare si
fiecare intrare din cartea de coduri, si este denumit cuantizare vectoriala full-search. Fiecare
operatie de tip full-search (cautare completa) necesita calculul a N deviatii, iar fiecare calcul
de deviatie implica k operatii de multiplicare si de adunare. De aceea, determinarea indexului
pentru un vector de dimensiune k sunt necesare Nk operatii de multiplicare si adunare si N-1
comparatii, fara a include operatiile de acceare a memoriei. Acest algoritm nu poate fi utilizat
cu performane bune cind N are valoare mare. In acest caz, metoda de cuantizare vectoriala
este structurata arborescent si are o complexitate proportionala cu log2N. Ideea de baza este
de a prelucra o secventa binara de cautare in locul unei cautari exhaustive, dupa cum se
observa in fig. 2.9. La fiecare nivel al arborelui, vectorul de intrare este comparat cu 2 vectori
cuvinte de cod si sunt executate 2 calcule de deviatii. Acest proces se repeta pana cand fiecare
frunza a arborelui a fost atinsa. De exemplu, in fig. 2.8, arborele de cautare necesita 16
calcule de deviatii, comparativ cu o cautare de 256 de elemente. Arborele de cautare VQ este
un cuantificator sub-optimal, fapt care rezulta tipic din gradul mai mic de performanta. Totusi
cu procedura anterioara pentru designul cartii de coduri, nivelul de performanta poate fi
imbunatatit.

2.3.4 Reordonarea coeficientilor transformatei cuantizate


Deoarece valorile diferite de 0 se afla in pozitiile de frecventa joasa, coeficientii transformatei
cuantizate pot fi reordonati astfel incat secventa rezultata contine siruri lungi de zero, care pot
fi compresate eficient folosind metoda run-length sau schema de codare entropica. Cea mai
cunoscuta metoda de reordonare a coeficientilor DCT este incrementarea in zigzag incepand
de la frecventa 0 (componenta DC) pana la componenta de cea mai inalta frecventa.

2.4 Estimarea/compensarea miscarii


Pentru esantioane de intrare strins corelate, o estimare relativ exacta a esantionului curent
poate fi facuta pe baza esantioanelor anterioare; sau alternativ, esantioanele trecute pot fi
folosite pentru a previziona esantionul curent. Aceasta proprietate a condus la aparitia
schemei de codare predictiva. Fig. 2.10 prezinta diagrama bloc a unui sistem de codare de tip
predictiv, unde diferentele de predictie sunt codate si transmise. Cea mai cunoscuta forma de
codare predictiva pentru imagini este modularea diferentiala a impulsurilor in cod (DPCM).
Pentru compresia imaginilor statice, se folosesc pixelii vecini ca predictori si se exploateaza
corelatia spatiala pentru a obtine compresia. In ceea ce priveste secventele video, cadrele
consecutive contin foarte multe asemanari. Aceste redundante temporale pot fi indepartate
prin codarea DPCM dintre cadre, codare care utilizeaza cadrele anterioare ca predictoare si se
bazeaza pe o predictie compensata a miscarii dintre cadrele succesive.

Predictia pentru compensrse miscarii include estimari si compensari ale miscarii, in afara de
estimarea propriu-zisa a miscarii care reprezinta partea de calcul intensiv. In estimarea
miscarii, cadrele succesive a unei secventa video sunt analizate in raport cu estimarea
miscarii (sau a localizarii) vectorilor de pixeli sau a blocurilor de pixeli. Vectorii miscarii si
diferentele dintre cadrul cu miscarea compensata si cadrul original este codata si transmisa
mai departe.
Algoritmul de imperechere de blocuri (BMA) este de preferat fata de schemele de estimare a
miscarii datorita simplitatii relative. In BMA, fiecare cadru este partitionat in blocuri de
dimensiune NxN si presupune ca toti pixelii dintr-un bloc sunt caracterizati de aceeasi
miscare. Fiecare bloc de referinta din cadrul curent este comparat cu blocurile deplasate din
cadrul anterior, iar diferentele dintre cel mai potrivit bloc candidat si blocul referinta este
definit ca vector al miscarii. Intervalul de cautare in cadrul anterior defineste fereastra de
cautare si este data de +/- p pixeli pe directii orizontala si verticala, relativ fata de pozitia
blocului de referinta. De aceea, fereastra de cautare contine (N+2p)2 pixeli. Algoritmul de
imperechere a blocurilor este ilustrat in fig. 2.11.

Pot fi utilizate cateva criterii de cautare pentru a defini potrivirea perfecta, incluzand functiile
de inter-corelatie (CCF-Cross-Correlation Function), eroarea medie patratica (MSE mean-
square error) si diferenta medie absoluta (MAD mean-absolute-difference). Criteriul MAD
este cel mai des intalnit in implementarile practice datorita simplitatii si performantelor
satisfactatoare. Blocul diferenta deplasat s(m,n) cu deplasare (m,n) utilizind criteriul MAD
este definit astfel:

N 1 N 1
s(m, n)   ( x(i, j )  y(i  m, j  n) ) , pentru –p  m, n  p (32)
i 0 j 0

unde x(i , j) si y(i+m , j+n) corespund valorilor pixelilor din blocul de referinta din cadrul
curent si respectiv blocului candidat din fereastra de cautare din cadrul anterior. De observat
ca relatia (32) necesiat 3N2 operatii de calcul (o diferenta, o valoare absoluta si o adunare ce
sunt necesare pentru fiecare determinare de diferenta absoluta). Cateva strategii ce pot fi
folosite pentru determinarea blocurilor celor mai potrivite, in afara cautarii propriu-zise
(complete), este “metoda directa” (straight forward). Aceasta metoda cauta toate pozitiile
(2p+1)2 in fereastra de cautare si calculeaza vectorul de miscare v astfel:

u= min(m,n){s(m,n)} pentru –p  m, n  p
v=(m,n)|u

De aici rezulta ca pentru un cadru NhNv (Nh pixeli pe linie si Nv linii pe cadru), o cautare
totala BMA implica:

N h  Nv
(2 p  1) 2 3N 2  3(2 p  1) 2 N h Nv
N2
operatii pe cadru. Presupunand ca avem o rata de cadru de F cadre/sec, operatiile de calculare
in cautarea BMA sunt in numar de 3(2p+1)2 Nh NvF operatii/sec.

2.5 Standardul de codare video digitala MPEG-2


In general vorbind, secventele video contin amanunte semnificative redundante spatial
si temporal in interiorul unui singur cadru si intre cadre consecutive. MPEG este un standard
de comunicatie video dezvoltat de Moving Picture Experts Group, care reduce rata de bit prin
explorarea ambelor redundante spatiala si temporala prin tehnici de codare intra- si inter-
cadre. Scopul finat al standardului MPEG este de a optimiza calitatea imaginii si video pentru
rate de bit specificate folosind criterii de optimizare „obiectiva” sau „subiectiva” [10]. Fig.
2.12 ilustreaza diagrama bloc a procesuluide codare MPEG-2, unde predictia compnsata a
miscarii este urmata de transformarea codarii informatiei spatiale ramase; coeficientii
transformatei sunt apoi cuantizati, si codati entropic.

Acest capitol prezinta cateva dintre conceptele-cheie ale standardului MPEG-2; aceste
concepte includ sub-esantionarea semnalelor de diferenta de culoare, codarea dintre cadre si
in interiorul lor a cadrelor I, P si B, tehnici de scanare intretesuta si progresiva. In cele din
urma, este prezentata structura generala a standardului MPEG-2 si sunt enumerate profilurile
si nivelurile acestuia.

2.5.1 Subesantionarea
O imagine color digitala contine elemente de imagine (pixeli), care sunt reprezentate utilizand
cele 3 culori primare: rosu (Red-R), verde (Green-R) si albastru (Blue-B). Reprezentarea
RGB este convertita intr-o reprezentare YUV bazata pe sistemul vizual uman, unde Y ofera
informatii despre luminanta, iar U si V sunt diferentele de culoare dintre Y si albastru,
respectiv Y si rosu, ambele numindu-se crominante. O esantionare completa a YUV este
denumita esantionare 4:4:4, iar pixelul rezultat este reprezentat utilizand 24 biti, respectiv cite
8 biti pentru fiecare variabila. Cu o esantionare 4:4:4, un cadru CIF (Common Intermediate
Format) cu o dimensiune a cadrului de 288  352 pixeli si cu o rata a cadrelor de 30 cadre/sec
necesita spatiu de stocare de 2.433 Mbits, rata sursei de date video fiind de 72.99 Mb/sec
pentru un singur cadru. Pentru semnalele video HDTV cu o marime a cadrului de 1920 
1250 pixeli si avand o rata de 50 de cadre/sec, un cadru necesita un spatiu de stocare de 57.6
Mbiti la o rata a datelor video sursa de 2.88 Gbiti/sec. Pentru o secventa video continand sute
si mii de cadre, stocarea si transmisia in timp real este imposibila cu tehnologia actuala.
De fapt, cadrele video sunt mai intai subesantionate si cuantizate, pentru a fi codate utilizand
caracteristicile psihologice ale ochiului uman si renuntand la redundanta subiectiva continuta
in secventa video. Aceste caracteristici pot fi considerate unele dintre conceptele elementare
ale tehnicii de compresie. Ochiul uman are cativa receptori cu o rezolutie spatiala restransa
pentru luminanta. De aceea, crominanta poate fi subesantionata pentru a reduce rata datelor
sursa si dimensiunea de stocare. In general, se foloseste o esantionare 4:2:2 sau 4:2:0. In
cazul 4:2:2, luminanta Y este esantionata pentru fiecare pixel, in timp ce crominantele U si V
sunt esantionate fiecare la alt pixel orizontal, rezultand o imbunatatire cu 33%. In cazul 4:2:0,
U si V sunt sub-esantionate cu factorul 2 pe orizontala si pe verticala, rezultand o
imbunatatire cu 50%.

2.5.2 Codarea intre cadre si in cadre. Cadrele I, P si B


Compresia MPEG-2 defineste 3 tipuri de cadre de imagine pentru codare, respectiv
cadrul I, cadrul P si cadrul B. Schemele de codare pentru aceste 3 tipuri de cadre sunt ilustrate
in fig. 2.13 [12].
Cadrele I sunt codate ca imagini independente. Cadrul este spart in macroblocuri, fiecare
fiind compresat utilizand transformarea DCT, urmand apoi cuantizarea si codarea entropica.
Cadrul P este codat utilizand metoda anterioara de predictie a miscarii. Diferenta dintre
imaginea de intrare curenta si ultimul cadru I/P este compresata utilizand DCT; coficientii
DCT cuantizati si vectorii de miscare sunt codati entropic si transmisi. Cadrul B este codat
pebaza predictiei bidirectionale a miscarii (inainte si inapoi), unde ultimul cadru I /P si
urmatorul cadru I/P sunt folosite ca referinta pentru estimarea si compensarea miscarii. Acest
fapt este observat in fig. 2.13 unde ambele cadre I si P sunt reconvertite (decuantizate si
transformate IDCT) pentru a fi folosite drept cadre de referinta pentru predictie; cadrele B nu
sunt niciodata folosite pentru predictie.
Utilizand cadre P sau B va creste puternic nivelul compresiei; totusi ele pot aduce
unele inconveniente pentru afisarea si accesul arbitrar al secventei video. De vreme ce cadrele
B sunt codate si transmise intr-o ordine diferita de cea initiala, este nevoie de reordonarea lor,
cum se observa in fig. 2.14.
Mai mult cadrelor P presupune decodarea a cel putin 2 cadre incluzand cadrul de
referinta I si pe cel propriu, iar decodarea cadrelor B presupune decodarea a cel putin 3 cadre,
incluzand 2 cadre de referinta si pe cel propriu. Aplicatiile care necesita acces la oricare din
partile unei secvente video au rezultate arbitrare in ceea ce priveste complexitatea calculelor,
si din acest motiv, se mareste timpul de asteptare. Daca dorim sa decodam un sir de biti intr-
un punct arbitrar, este necesar sa folosim un anumit numar de cadre I codate independent din
secventa video.

2.5.1 Generarea sirului de biti din coeficientii DCT cuantizati


Compresia actuala a fiecarei imagini este bazata pe constituirea de macroblocuri, fiecare
continand n8  8 blocuri de date. Pentru esantionare 4 : 2: 0, aceste n8  8 blocuri includ 2m
blocuride luminanta si m blocuri de crominanta, unde n=3m. Aceste blocuri de 8  8 sunt
compresate individual folosind DCT, cuantizarea si codarea entropica.Cum s-a discutata in
capitolul 2.3.1, majoritatea energiei este stocata in mare parte intr-un bloc de imagine 8  8
prin coeficientii DCT de frecventa joasa, blocul fiind localizat in coltul din stanga sus, cum se
observa in fig. 2.15.
Coeficientii cuantizati 8  8 DCT sunt cititi in zig-zag, asatfel incat secventa rezultata contine
siruri lungi de zerouri, siruri care pot fi compresate eficient folosind codarea run-length si
scheme de codare entropica.

2.5.4 Scanarea intretesuta si neintretesuta


Un sistem de afisare/inregistrare a imaginilor scaneaza imaginile progresiv si uniform de la
stanga la dreapta, de sus pana jos. In general sunt folosite doua forme de scanare: scanarea
intretesuta si scanarea neintretesuta (progresiva). Tehnica de scanare intretesuta este folosita
de sistemul de afisare al camerei de luat vederi sau la televiziune, unde fiecare cadru este
scanat in 2 pasi succesiv, primul fiind campul impar (odd field), iar celalalat campul par
(even field), cum se observa in fig. 2.16. Pe de alta parte, imaginile video de pe computer
sunt scanate in mod progresiv, unde fiecare cadru contine toate liniile scanate in ordinea lor
proprie, ca in fig. 2.17.
Pentru procesarea miscarii imaginilor si pentru vizualizare, aspectele temporale ale perceptiei
umane vizuale sunt foarte importante. Este de observat ca ochiul uman poate distinge intre
flash-urile individuale si de o lumina flash cu caracteristica „lina” (slaba). In orice caz, rate de
flash cresc si devin nedestingtibile la o rata deasupra frecventei critica de fuziune. Aceasta
frecventa nu depaseste in general 50-60 Hz [13]. Bazandu-se pe aceasta proprietate, imaginile
sunt scanate la o rata de 30
cadre/sec sau 60 de campuri/sec pentru modul de codare intretesut; imaginile sunt scanate la
o rata de 60 cadre/sec in modul de codare neintretesut (progresiv). Totusi rezolutia spatiala
este mai mica in codarea intretesuta, de vreme ce fiecare camp este o imagine esantionata, cu
un coeficient apropiat de rata de scanare, astfel incat, linia din cadru, ne poate oferi in modul
de codare intretesut aceeasi calitate subiectiva cu un necesar mai mic de banda pentru
transmiterea semnalelor. Oricum, tehnica intretesuta este folosita pentru vizualizarea
imaginilor de rezolutie mare generate de computer, acestea continand tranzitii si muchii
ascutite. Monitoarele computerelor sunt reimprospatate la o rata de 60 cadre/sec in modul de
codare intretesut pentu a permite perceptia oricarei clipiri (flash) si pentru a obtine rezolutia
mare a imaginilor.
2.5.5 Profiluri si niveluri MPEG
Standardele MPEG au o structura generala si pot suporta o sfera larga de aplicatii.
Implementarea intregii sintaxe nu este folosita practic in majoritatea aplicatiilor. Din aceasta
cauza, MPEG-2 a introdus conceptele de „profil” si „nivel”, fiecare insemnand un sub-set de
definitii a sintaxei si a capabilitatilor necesare unui decodor de a decoda un flux de biti video
particular. Profilurile MPEG-2 sunt prezentate in Tabelul 2.2, iar in Tabelul 2.3 parametrii
fiecarui nivel al unui profil [10].

In general, fiecare profil defineste un set nou de algoritmi aditionali la algoritmii din profilul
inferior. Un nivel specifica marimea parametrilor, precum dimensiune, rata de cadru, rata de
bit, etc. Profilul MPEG-2 MAIN caracterizeaza codarea non-scalabila progresiva sau
intretesuta pentru surse video. Un chip de codare MPEG2 MP@ML (Main Profile at Main
Level) este prezentat in [14].

2.6 Necesitati de calcul in prelucrarile video


Odata cu aparitia compresiei, largimea de banda necesara pentru transmisia si stocarea
secventelor video se reduce simtitor. Cresterea ulterioara a ratei de compresie a fost atinsa
prin adoptarea unor tehnici de compresie mai complicate. Aceste tehnici de compresie
sofisticate implica o cantitate substantiala de calcule la viteza mare si determina noi
competitii atat pentru designerii de hardware, cat si pentru cei de software pentru a
implementa aceste sisteme de inalta performanta la un cost eficient. De exemplu,
complexitatea unui algoritm de cautare bruta in blocuri este proportionala cu 3(2p+1)2 Nh
NvF operatii/sec, unde N Nv este dimensiunea cadrului, +/- p este aria de cautare, iar F rata
cadrelor in cadre/sec. Pentru un cadru CIF (Common Intermediate Format) cu o dimensiune
de 288  352 pixeli, o rata a cadrelor de 30 cadre/sec si avand o arie de cautare de +/- 7
pixeli, cautarea bruta BMA necesita 2 Giga de operatii/sec (Gops/sec). Numarul necesar de
operatii devine chiar mai mare pentru imagini de rezolutie mai mare cu rate mai mari ale
cadrelor si cu o arie de cautare mai mare. Pentru HDTV unde dimensiunea cadrului de 1920 
1250 pixeli, o rata a cadrelor de 50 cadre/sec si avand o arie de cautare de +16/-15 pixeli,
cautarea bruta BMA necesita o rata de calculare de aproximativ 368.64 Gops/sec.
Transformarea DCT in comunicatiile video reprezinta de asemenea un bun indicator. 2D-
DCT de dimensiune NN necesita 2N3 operatii de multiplicare si aditionare si 4N3 operatii
aritmetice. Pentru un cadru CIF (format de intermediere comun) cu blocuri de imagine de
dimensiune 88, calculul necesita pentru 2D-DCT 97.32 Mops/sec (mega operatii pe
secunda). Aceste cerinte inalte ale procesarii pot fi utilizate doar folosind tehnici paralele de
procesare care sunt proiectate hardware si software cu mare atentie. [15] Designul si
implementarea compresiei in sistemele de procesare a semnalelor video si multimedia sunt in
continua dezvoltare.

2.7 Concluzii
Capitolul a prezentat schemele de baza de codare video, mai ales pe acelea adoptate prin
standardul de compresie MPEG-2. Aceste tehnici de compresie sunt cheile in realizarea
procesarii digitale video de inalta calitate. Aceste scheme de codare din ce in ce mai
complexe ridica multe noi competitii intre designerii de hardware si software.
Bibliografie
[1] D. Huffman, „A method for the construction of minimum redundancy codes”, Proc. of
IRE, vol. 40, pag. 1098-1101, 1952.
[2] G. Langdon, „An introduction to arithmetic coding”, IBM J. Research Develop, vol. 28,
pag. 135-149, martie 1984.
[3] N. Ahmed, T. Natarajan, si K. R. Rao, „Discrete cosine transform”, IEEE Trans. On
Computers, pag. 90-93, ianuarie 1974.
[4] P. Pirsch, N. Demasieux si W. Cehrke, „VLSI architectures for video compression- a
survey”, Proceeding of the IEEE, pag. 220-245, februarie 1995.

[5] O. Rioul si M. Vetterli, „Wavelets and signal processing”, IEEE Signal Processing
Magazine, pag. 14-38, octombrie 1991.
[6] P. P. Vaidyanathan, Multirate Digital Signal Processing, Prentice Hall, Englewood Cliffs,
New Jersey, 1993.
[7] R. E. Crochiere si L. R. Rabiner, Multirate Digital Signal Processing, Prentice Hall,
Englewood Cliffs, New Jersey, 1983.
[8] G. A. Davidson, P. R. Cappello si A. Gersho, „Systolic architectures for vector
Quantization” , IEEE Trans. On Acoustic Speech, vol. 36, pag. 1651-1664, octombrie 1994.
[9] S. Y. Kung, VLSI Array Processors, Prentice Hall, Englewood Cliffs, New Jersey, 1988.
[10] T. Sikora, „MPEG digital video-coding standards”, IEEE Signal Processing Magazine,
pag. 82-100, septembriee 1997.
[11] B. Bhatt, D. Birks si D. Hermreck , „Digital television: Making it work”, IEEE
Spectrum, pag. 19-28, octombrie 1997.
[12] B. Furth, J. Greensberg si R. Westwater, Motion Estimation Algorithms for Video
Compression, Kluwer Academic Publishers, 1997.
[13] A. K. Jain, Fundamental of Digital Image Processing, Prentice Hall, Englewood Cliffs,
New Jersey, 1989.
[14] M. Muzino s.a., „A 1.5w single-chip mpeg2 MP@ML encoder with low-power motion
estimation and clocking”, in Proc. of ISSCC97, pag.256-257, februarie 1997.
[15] K. K. Parhi, VLSI Digital Siganl Processing Systems: Desing and Implementation, John
Wiley and Sons, 1999.
Cap.3. Compresia audio

3.1 Activitatile de standardizare pentru codarea audio Hi-Fi


In acest capitol va fi descris algoritmul de codare pentru semnalele audio pentru
standarul international ISO/IEC. Au fost stabiliti trei algoritmi standard pentru a fi utilizati in
functie de numarul de canale si de frecventa de esantionare: MPEG-1 audio, MPEG-2 si
MPEG-2 LSF. In functie de complexitatea si de calitatea realizata fiecare este clasificat in
Leyer I/II bazat pe codarea pe sub-benzi si Leyer III bazat pe o combinatie intre codarea pe
sub-benzi si codarea adaptiva a transformatei.
Transmisia eficienta si stocarea semnalelor audio sunt importante pentru citeva
aplicatii cum ar fi audio digital, radiodifuziunea digitala prin satelit (DSB – Digital Satellite
Broadcasting), stocarea semnalelor audio, conferinta la distanta si multimedia. ISO/IEC JTC
1/SC 29/WG 11 (the International Organization for Standardization/the International
Electrotechnical Commission, 1st Joint Technical Committee, 29th Subcommittee, 11th
Working Group) a studiat caile pentru proiectarea unui standard international pentru
compresia semnalelor audio impreuna cu semnalele video sub 1,5 Mb/s. Rezultatul studiului,
pentru doua canale de semnal cu frecventa de esantionare intre 32 kHz si 48 kHz, au fost
publicate de ISO/IEC pe 1 august 1993 dupa aprobarea prin vot de tarile participante.
Acesta este cunoscut ca MPEG/audio faza 1, sau MPEG-1/audio. O parte a
standardului MPEG-1 a fost stabilit ca standard ITU-R. De asemenea, au fost efectuate studii
pentru extensia standardului MPEG-1 audio si pentru sisteme multicanal si multilingvistice si
pentru o viitoare reducere a ratei de bit prin adoptarea unei frecvente joase de esantionare.
Acestea reprezinta faza 2 a standardului si este denumit MPEG-2 audio. MPEG-2/audio a fost
aprobat prin consens international la conferinta de la Singapore in noiembrie 1994 dupa care
a fost publicat ca standard in 1995.

3.2 Structura algoritmului MPEG audio


Algoritmul MPEG audio este constituit din trei algoritmi diferiti: Layer I, Layer II si
Layer III. Complexitatea creste de la Layer I la Layer III, cu o imbunatatire corespunzatoare
in calitatea sunetului. Acestea pot fi in plus clasificate in MPEG-1, MPEG-2 MC
(multichannel) si MPEG-2 LSF (low sampling frequency), in functie de numarul de canale
codate si de frecventa de esantionare. Deoarece Layer I si Layer II sunt foarte asemanatoare,
ele vor fi prezentate impreuna.
Partea comuna intre Layer I/II si Layer III este aceea ca algoritmii lor au la baza
codarea pe sub-benzi cu 32 de benzi. Numarul de canale este doi, iar frecventa de esantionare
este de 32, 44,1 sau 48 kHz. Aceste caracteristici reprezinta algoritmul MPEG-1/audio care
reprezinta baza pentru toate codurile. Plecind de la algoritmul MPEG-1/audio, avind
frecventele de esantionare 32, 44,1 si 48 kHz, a fost elaborat standardul MPEG-2 LSF care
foloseste frecventele 16, 22,05 si 24 kHz. Crescind numarul de canale la 5 si prin
imbunatatirea canalului de joasa frecventa a fost elaborat standardul MPEG-2 MC. Numarul
de canale care pot fi manipulate de standardul MPEG-2/audio este denumit uneori 5,1,
considerind ca imbunatatirea canalului este 0,1. Cind se compara MPEG-2/audio cu MPEG-
1/audio ca standard, MPEG-1/audio ar putea fi numit MPEG-2 2C (doua canale) sau MPEG-
2 HSF (frecventa mare de esantionare). In Fig. 3.1 este prezentata structura de baza a
algoritmului MPEG audio. Din figura se vede clar ca MPEG-1/audio este nucleul algoritmilor
MPEG-2/audio.

In Fig. 3.2 este data schema bloc care descrie algoritmul MPEG-1/audio. Algoritmul
se bazeaza pe codarea pe sub-benzi, iar impartirea pe sub-benzi este obtinuta cu ajutorul unui
banc de filtrare polifazat (PFB – polyphase filter bank) cu un filtru in cuadratura in oglinada
(QMF – quadrature mirror filter). Un semnal de intrare cuantizat liniar PCM pe 16 biti este
translatat in domeniul frecventa in 32 de benzi. In acelasi timp limitele benzilor (denumite
nivele de mascare) sunt calculate printr-o analiza psihoacustica pentru a obtine eroarea de
cuantizare permisa. Semnalul divizat in sub-benzi este cuantizat si codat conform schemei de
alocare a bitilor bazata pe modelul psihoacustic, este constituite in cadre, impreuna cu date
auxiliare (ancillary data). Aceste date suplimentare nu sunt folosite pentru operatia codare si
decodare, utilizatorul le poate folosi in alte scopuri. Pentru decodare, intii sunt separate datele
suplimentare si apoi este dezasamblat cadrul.

Apoi este efectuata decodarea si decuatizarea pe bzaa bitilor alocati pentru


informatie. Este refacut apoi semnalul temporal prine reunirea benzilor. In practica au fost
definite trei tipuri de algoritmi, Layer I, Layer II si Layer III, pe baza structurii din Fig. 3.2
(vezi Fig. 3.3). Codarea pe sub-benzi, ponderarea psyhoacustica, alocarea bitilor si
intensitatea stereo este folosita de toati algoritmii. Layer III foloseste in plus codarea
transformatei cu lungime adaptiva a blocului, codarea Huffman imbunatatirea calitatii codarii
pentru stereo.
Calitatea sunetului depinde nu numai de nivelul algoritmului ci si de rata de bit
folosita. Au fost specificate 14 feluri de rate de bit de la 32 kb/s pina la 448 kb/s, 384 kb/s si
320 kb/s, pentru Layer I pina la Layer III. Rata de bit pentru fiecare nivel este aratata in
Tabelul. 3.1.

Tabelul 3.1
Layer Target Bitrate (kb/s)
I 128, 192
II 96, 128
III 64, 96, 128

3.2.1 Tehnologii pentru codarea audio de baza


Algoritmii tipici pentru codarea audio sunt: codarea sub-benzilor (SBC – sub-band
coding)) si codarea adaptiva a transformatei (ATC – adaptive transform coding). Ambele pot
imbunatati eficienta codarii folosind neuniformitatea distributiei energiei semnalului. Chiar
daca semnalul audio are o largime de banda mai mare decit semnalul vocal.
Codarea pe sub-benzi imparte semnalul de intrare in mei multe benzi de frecventa si
realizeaza codarea independent pentru fiecare benda. Prin aceasta impartire in sub-benzi
neuniformitatea distributiei de energie este redusa la fiecare sub-benda, ceea ce reduce gama
dinamica. Alocarea bitilor se face in functie de energia semnalului din fiecare sub-banda.
Impartirea pe sub-benzi este obtinuta folosind o structura de tip arbore care imparte succesiv
semnalul in cite doua benzi si care foloseste filtre in cuadratura in oglinda (QMF).
Esantioanele semnalului impartit in benzi superioare si inferioare sunt decimate cu 2,
reducind frecventa de esantionare cu 1 2 .
Bancul de filtre care realizeaza divizarea/sinteza pe benzi prin QMF este denumit
banc de filtre QMF. Bancul de filtre cu structura arboresccenta poate fi numit “banc de filtre
structurat arborescent” (TSFB). Bancul de filtre polifazat (PFB) asigura o prezentare
echivalenta cu TSFB. Filtrele folosite pentru TSFB si PFB pot fi FIR (Finite Impulse
Response) sau IIR (Infinite Impulse Response). Presupunind ca sunt folosite filtre FIR, PFB
poate reduce complexitatea calculelor mai mult decit TSFB, avind avantajul unei structuri
banc si pentru operatia de decimare. PFB ofera de asemenea un o intirziere mai mica decit
TSFB. De aceea in practica sunt folosire PFB cu filtre FIR.
In fig. 3.4 este dat un exemplu de impartire pe 4 sub-benzi. A fost stabilita procedura
de proiectare pentru bancurile de filtre QMF (TSFB/PFB) care poate reface complet semnalul
de intrare din benzi si pentru sinteza benzilor ca o operatie inversa.
Codarea transformatei imbunatateste eficienta codarii concentrind intensitatea puterii
prin aplicarea unei transformari liniare semnalului de intrare inainte de cuantizare. In
particular, este folosit algoritmul de codare care cuprinde alocarea adaptiva a bitilor, denumit
uzual codare adaptiva a transformatei. Conversia Fourier, conversia cosinus sunt uzual
folosite pentru transformare liniara. S-a aratat ca ATC, care aplica o transformare liniara dupa
multiplicarea cu o functie fereastra unui semnal de intrare suprapus (overlapped), este
echivalenta codarii pe sub-benzi. In Fig. 3.5 este un exemplu de unda in domeniul timp a unui
sunet de pian si forma de unda in domeniul frecventa obtinuta folosind o transformata cosinus
pe un bloc de lungime N=1024 esantioane. La forma de unda in domeniul timp energia este
distribuita relativ egal de la esantionul 1 la 1024. Pe alta parte, la forma de unda in domeniul
frecventa energia este concentrata la frecvente joase aratind ca este posibila o imbunatatire a
eficientei codarii.
3.2.2 ATC cu lungime adaptiva a blocului
Codarea ATC cu lungime adaptiva a blocului realizeaza transformarea liniara pe mai
multe esantioane. In mod uzual rezulta un bloc mai lung la rezolutie inalta, prin aceasta
imbunatatindu-se calitatea codarii. Totusi, cind se alege o lungime mare a blocului intr-o
zona unde amplitudinea semnalului creste rapid si apare un pre-ecou. Aceasta deoarece in
timp ce distorsiunea de cuantizare datorata codarii este distribuita aproape uniform in bloc,
distorsiunea este mai clar perceputa cind amplitudinea semnalului este mica.
Fig. 3.10 prezinta diferentele in pre-ecou pentru diferitele lungiimi ale blocului. Fig.
3.6-a, b, c reprezinta ssunetul original, sunetul dupa codare/decodare, folosind blocuri de
lungime N=256 esantioane si respectiv N=1024 esantioane. In Fig. 3.6-c zgomotul este
generat in avans in partea de inceput a semnalului unde amplitudinea sa incepe sa creasca. In
Fig. 3.6-b timpul in care pre-ecoul apare este mai scurt decit in Fig. 3.6-c. Folosind blocuri de
lungime mai mica pre-ecoul poate fi eliminat.
Totusi cind folosim un bloc de lungime mica pentru un semnal relativ static, rezolutia
ca si eficienta codarii se reduc. In plus. Pentru fiecare bloc este nevoie de un set de informatii
suplimentare ceea ce arata ca folosind blocuri mai lungi rezulta o eficienta mai buna. Aceste
cerinte contradictorii legate de pre-ecou pot fi satisfacute modificind lungimea blocului in
acord cu proprietatile semnalului de intrare.

3.2.3 Transformata cosinus discreta modificata


O alta problema la ATC este distorsiunea de bloc. Din pacate pentru codarea pe bloc,
doua esantioane ale semnalului care sunt adiacente la limitele blocului sunt cuantizate cu
precizie diferita pentru ca ele apartin unor blocuri diferite uc toate ca de fapt ele au
coordonatele temporale apropiate. Prin urmare, in vecinatatea blocurilor apare o
discontinuitate a zgomotului de cuantizare. Pentru a rezolva aceasta problema este folosita o
metoda de ferestruire cu suprapunere partiala a blocurilor care reduce aceasta discontinuitate.
Aceasta inseamna ca portiunea suprapusa este in mod repetat codata in doua blocuri
adiacente, riscind o degradare a eficientei codarii datorata unor blocuri mai lungi, efectul
fiind insa reducerea distorsiunii blocului. Aceasta problema poate fi insa rezolvata daca se
foloseste o transformata cosinus discreta modificata (MDCT), denumita si eliminare a alierii
in domeniul timp (TDAC – time-domain aliasing cancellation).
Intii MDCT face o transformare cu o suprapunere 50% a doua blocuri adiacente si o
filtrare cu o functie fereastra si introduce apoi un offset in timp pentru calculul DCT,
rezultind coeficienti simetrici. Numarul de coeficienti ai transformatei care va fi codata este
redus la 1/2 din lungimea blocului. Aceasta elimina ineficienta datorata de introducerea a
50% termeni noi in calculul transformatei. Aceasta procedura estre denumita transformata
cosinus discreta modificata – MDCT.

3.2.4 Combinarea MDCT cu lungimea adaptiva a blocului


Pentru a combina MDCT cu lungimea adaptiva a blocului trebuie acordata atentie
formei functiei fereastra deoarece MDCT a fost proiectata initial cu presupunerea ca blocurile
au lungimea egala. Cind lungimea blocului difera pentru doua ferestre succesivesunt necesare
anumite conditii asupra formei ferestrei pentru a elimina erorile (alierea in domeniul timp)
produsa de suprapunerea ferestrelor. O solutie posibila este de a folosi forma ferestrei pentru
a conecta ferestrele cu lungime diferita.

3.2.5 Cuantizarea cu ponderare psihoacustica


Atit pentru codarea pe sub-benzi cit si pentru codarea adaptiva a transformatei este
posibila o imbunatatire a calitatii codarii. O tehlogie consta in folosirea perceptiei
psihoacustice la detrminarea ponderilor folosite la alocarea bitilor pentru cuantizare in scopul
minimizarii degradarii semnalului in zona in care perceptibilitatea este mare.

3.3 Algoritmul MPEG-1 audio


3.3.1 Codarea Layer I/II
Frecvent Layer I/II are structura de baza din Fig. 3.2 si structura bloc din Fig. 3.7.
Semnalul de intrare cuantizat liniar cu 16 biti este divizat cu filtre de analiza pe sub-benzi in
32 de benzi de semnal. Filtrul consta intr-un PFB cu 512 de celule. Sistemul calculeaza
factorul de scala pentru semnalele sin fiecare sub-banda si aliniaza gamele dinamice. Calculul
factorului de scala este efectuat pentru fiecare 12 esantioane din fiecare sub-banda, de
exemplu pentru fiecare 384 de esantioane de intrare PCM la Layer I. Pentru Layer II calculul
este efectuat pentru fiecare 384 esantioane din sub-benzi in timp ce un cadru are un numar
triplu de esantioane, respectiv 1152. La Layer II factorii de scala sunt apoi compresati pe baza
unei combinatii de 3 factori.

In acelasi timp sistemul calculeaza indicii de mascare folosind rezultatele FFT


aplicata semnalului de intrare si determina alocarea bitilor pentru fiecare sub-banda. Pentru
alocarea bitilor este folosita o ponderare psihoacustica. Semnalul din sub-benzi care a fost
cuantizat corespunzator alocarii bitilor realizata este constituit intr-un sir de biti, impreuna cu
un antet si alte informatii si este apoi furnizat la iesirea codorului.
Decodarea este realizata ca o operatie inversa a codarii. Semnalul comprimat este
descompus in antet, informatii suplimentare si semnalul cuantizat. Semnalul pe sub-benzi
este decuantizat pe baza numarului de biti alocat, refacut cu ajutorul unor filtre de sinteza pe
sub-benzi si furnizat la iesire.
In sinteza, operatie de codare parcurge urmatoarele etape:

1. Analiza pe sub-benzi.
Aceasta analiza este executata cu un PFB cu 512 prize.
2. Detectarea factorului de scala
Pentru Layer I factorul de scala este extras cu 12 esantioane dintr-o sub-banda,
ca un bloc pentru fiecare sub-banda. Pentru Layer II factorii de scala sunt
determinati pentru 3 blocuri consecutive de cite 12 esantioane pentru fiecare
sub-banda si sunt reprezentati sub forma informatiei de selectie a factorului de
scala (2 biti) si factorul de scala care este transmis cu formatul selectat.
3. Analiza psihoacustica
In standard sunt prezentate modelul 1 si modelul 2 ca exemple pentru analiza
psihoacustica. In continuare este prezentat numai modelul 1. La modelul 1,
raportul semnal/nivel de mascare (SMR) este obtinut cu urmatoarea
procedura:
- Analiza FFT a semnalului de intrare
- Calculul presiunii sonore pe fiecare sub-banda
- Clasificarea componentelor tonale si non-tonale
- Integrarea componentelor tonale si non-tonale
- Calculul nivelelor de mascare individuale
- Cal;culul nivelului de mascare global
- Determinarea nivelului maxim de mascare
- Calculul raportului semnal/nivel de mascare
4. Alocarea bitilor
Alocarea bitilor este calculata pentru fiecare sub-banda pe baza SMR obtinut
prin analiza psihoacustica
5. Cuantizarea
Pentru esantioanele din sub-benzi este executata cuantizarea liniara. Valorile
cuantizate sunt calculate cu relatia A(n)X(n)+B(n), unde X(n) reprezinta
amplitudinea esantioanelor din fiecare sub-banda normata cu factorul de scala,
iar A(n) si B(n) sunt dat de numarul de biti alocat pentru fiecare sub-banda.
Sunt luati cei mai semnificativi N biti, inversind cel mai semnificativ bit unu.
6. Formarea sirului de biti
Datele cuantizate formeaz sirul de biti, impreuna cu alte informatii. In Fig. 3.8
este prezentat formatul sirului de biti pentru Layer I si Layer II. Foarmatele
din Layer I si Layer II difera in special in partea legata de factorul de scala.
Antetul dat in Fig. 3.8 include si cuvintul de sincronizare 1111 1111 1111,
urmat de configuratia de biti aratata in Tabelul. 3.8
Tabelul 3.2
Contents Number Definition
of Bits
ID 1 0: MPEG-2/BC, 1: MPEG-1/audio
Layer 2 00: reserved, 01: layer III, 10 : layer II, 11: layer I
Protect-bit 1 0: error detection code added,
1: no error detection code added
Bitrate 4 Index to define bitrate
Sampling frequency 2 00: 44.1 kHz, 01: 48 kHz, 10: 32 kHz, 11: reserved
Padding bit 1 0: the frame that includes no additional slot
1: the frame that includes one additional slot
Private bit 1 Private use bit not used bit in coding
Mode 2 00: stereo, 01: joint stereo, 10: dual channel,
11: single channel
Mode extension 2 In Layer I/II the number of sub-bands for joint stereo
In Layer III the intensity and ms stereo configuration
Copyright 1 0: no copyright, 1: copyright protected
Original/copy 1 0: copy, 1: original
Emphasis 2 The type of emphasis to be used

3.3.2 Decodoarele Layer I/II


1. Sincronizarea
Sincronizarea este realizata prin cautarea cuvintului de sincronizare 1111 1111 1111.
Acesta este un pas comun pentru toate nivelele. Pozitia cuvintului continuu de sincronizare
poate fi identificata folosind cei 7 biti dupa care urmeaza bitul de protectie, numele, rata de
bit, frecventa de esantionare si bitul tampon (padding bit). Lungimea cadrului curent intre
pozitiile de start a doua cuvinte de sincronizare consecutive poate fi calculata cu formula

Ni x ( Bit rate)
N  int ( )  ( padding bit ) [ slot ] (1)
sampling frequency

unde “slot” reprezinta unitatea minima de control a lungimii sirului de biti, si este echivalenta
cu 4 bytes in Layer I, respectiv 1 byte in Layer II/III. Pentru Layer I, Ni este 12, iar pentru
Layer II/III, Ni este 144. Cind numarul mediu de sloturi pe cadre nu este un numar intreg el
este trunchiat la o valoare intreaga. Valoarea actuala a numarului de sloturi este completata cu
bitul tampon.
Cind bitul de protectie este 0, imediat dupa antet este introdus un cod ciclic redundant (CRC).
Detectia erorii este realizata cu metoda CRC-16, bazata pe functia polinomiala:

G( x)  X 16  X 15  X 3  1 (2)

2. Decodarea pentru Layer I


Secventa de baza consta in : citirea informatiei de alocare a bitilor pentru toete sub-
benzile, citirea factorilor de scala pentru toate sub-benzile unde bitul de alocare nu este zero,
decuantizarea esantioanelor sub-benzilor, sinteza semnalului audio de iesire cu esantioanle
din cele 32 sub-benzi folosind bancul de filtre.
a) Cuantizarea inversa a esantioanelor din sub-benzi
Corespunzator informatiei de alocarea a bitilor este citita secventa de biti
corespunzatoare fiecarui esantion si este inversat cel mai semnificativ bit (MSB).
Rezulta valoarea s’’’, in complement fata de doi. Este apoi calculata valoarea
decuantizata s’’ cu relatia

2 nb
s' '  nb x ( s' ' '2  nb1 ) (3)
2 1

folosind numarul de biti alocat, nb. Se inmulteste valoarea decuantizata s’’ cu factorul
de scala si se obtine valoarea semnalului , s’.
b) Sinteza semnalelor din cele 32 de sub-benzi cu bancul de filtre
Se calculeaza cu filtrul de sinteza esantionul semnalului audio, Si, pe baza
esantioanelor din cele 32 de sub-benzi. Procedura este urmatoarea:
i. Se aplica o deplasare in frecventa esantioanelor Si din cele 32 de sub-benzi si
se obtin valorile Vi

32
cos(2k  1)(i  16)
Vi   S k  (4)
k 0 64

ii. Se calculeza sirul celor 512 esantioane Ui prin modificarea ordinii marimilor
Vi

U ix 64  Vix128 j (5)

U ix 6432 j  Vix12896 j (6)

iii. Se multiplica Ui cu functia fereastra Di

Wi  U i x Di (7)

iv. Se calculeaza semnalul Sj prin adunare iterativa

15
S j   W j 32xi (8)
i 0

3. Decodarea pentru Layer II


Procedura de baza include decodarea informatiei de alocare a bitilor pentru toate sub-
benzile, decodarea factorilor de scala pentru sub-benzile cu alocare non-zero a bitilor,
cuantizarea inversa a esantioanelor sub-benzilor, sinteza celor 32 de sub-benzi
folosind bancuri de filtre.
a) Decodarea informatiei de alocarea bitilor
Informatia de alocare a bitilor este stocata in bitii 2-4 pentru a arata nivelul de
cuantizare. Numarul de biti sunt definiti de numarul sub-benzii, rata de bit si frecventa
de esantionare.
b) Decodarea informtiei de selectie a factorului de scala
Din sirul de biti sunt cititi coeficientii care contin informatia de alegere a
factorului de scala, denumit scfsi (scale factor selection information). Scfsi iste definit
ca in tabelul 3.3

Tabelul 3.3
SCFSI value Scale factor coding method
00 3 scale factors are transmitted
01 Two scale factors are transmitted: one is common to the first and the
second blocks, and the other is for the 3rd block only
10 One scale factor that is common to all blocks is transmmited
11 Two scale factors are transmmited; one for the first block only, and the
other common to the second and the third blocks

c) Cuantizarea inversa a esantioanelor sub-benzilor


Conform numarului bitilor identificati in urma decodarii informatiei de alocare
a bitilor, sunt cititi bitii care corespund la trei esantioane consecutive. Cind sunt
grupate 3 esantioane, dupa decodare ele nu mai sunt grupate. Eset inversat MSB al
fiecarui esantion pentru a obtine valoarea s’’’, unde MSB reprezinta –1,0 in cod
complement fata de 2. Se calculeaza apoi valoarea s’’

s' '  C x (s' ' ' D) (9)

folosind constantele C si D care sunt determinate pe baza numarului de biti alocati. Se


inmulteste apoi s’’ cu factorul de scala si se obtine valoarea s’.
d) Sinteza celor 32 de benzi cu bancuri de filtre
Se foloseste aceeasi metoda de sinteza ca cea de la Layer I.

3.3.3 Layer III


In Layer III au fost incorporate multe idei noi pentru a imbunatati calitatea codarii fata
de Layer I/II. In fig. 3.9 este prezentata schema bloc pentru Layer III. Comparativ cu Layer
I/II, Layer III foloseste transformata cosinus modificata cu lungime adaptiva a blocului
(MDCT), fluturele pentru reducerea distorsiunii de aliere (alias distortion reduction butterfly),
cuantizarea neliniara si codarea cu lungime variabila (codarea Huffman). Toate acestea
contribuie la imbunatatirea rezolutiei in frecventa si la reducerea redundantei. In rest
procedura de baza se desfasoara ca la Layer I/II.

Semnalul cuantizat liniar PCM este impartit in 32 de benzi cu PFB si fiecare banda
este in continuareste transformata in linii spectrale de banda ingusta cu MDCT pe blocuri de
lungime adaptiva pentru reducerea ecoului. Blocurile de lungime 18 sau 6x3 sunt determinate
pe baza analizei psihoaustice. Folosirea bancului de filtre hibride mareste rezolutia in
frecventa de 32 de ori, la 32x18=576. Semnalul obtinut este prelucrat pentru reducerea
distorsiunii de aliere si este apoi cuantizat liniar. Cascada formata din bancul de filtre, MDCT
si reducerea distorsiunii de aliere este denumita banc de filtre hibrid (Hybrid Filter Bank –
HFB). Cuanizarea eset insotita de o bucla iterativa pentru alocarea bitilor. Rata de bit a
fiecarui cadru este variabila. Semnalul cuantizat este codat Huffman si organizat apoi intr-un
cadru. La decodare este dezasamblat intii primul cadru, este decodat indexul tabloului
Huffman si factorii de scala. Semnalul temporal este reconstruit pe baza semnalului cuantizat
cu bancuri de filtre hibride.

1. Analiza psihoacustica
Analiza psihoacustica este executata pentru a gasi nivelele de mascare pentru fiecare
componenta MDCT si pentru a determina lungimea blocurilor pentru MDCT. Se recomanda
folosirea versiunii modificate a modelului psihoacustic II pentru Layer II.
Lungimea blocului este selectata pe baza entropiei psihoacustice, folosind teoria
impredictibilitatii. Impredictibilitatea se masoara comparind spectrele cadrului temporal
curent si anterior. In vecinatatea atacului unde se produce pre-ecoul forma spectrului difera
intre doua cadre si entropia psihoacustica creste. Cind entropia depaseste o valoare
predeterminata sistemul o evalueaza ca un nou atac si comuta MDCT pentru micsorarea
blocurilor.
Sunt calculate nivelele de mascare schimbind parametrii interni in functie de
lungimea blocului. Pentru reducerea complexitatii de calcul se foloseste FFT cu lungime 256
pentru blocurile scurte si 1024 pentru cele lungi.

2. MDCT cu lungime adaptiva a blocului si forma ferestrei


La HFB, 576 esantioane ale semanlului de intrare reprezinta o granula. O granula este
un set de esantioane si reprezinta o componenta in formarea blocului. Doua granule, de
exemplu granula 0 si granula 1 sunt prelucrate ca un bloc constituit din 1152 esantioane. Cind
este executata analiza pe sub-benzi a esantioanelor PCM ale unei granule, fiecare sub-banda
are 18 esantioane.
Pentru blocuri lungi este executata MDCT in 36 de puncte. 18 esantioane ale unei
sub-benzi din granula cuernta sunt combinate cu 18 esantioane din granula precedenta.
Datorita simetriei coeficientilor, numarul de iesiri distincte ale MDCT sunt 36/2=18. Pentru
blocuri scurte numarul de esantioane de intrare ale MDCT este redus la 12 si intr-om granula
se aplica de trei ori mai multe MDCT. Primele 6 esantioane sunt combinate cu ultimele 6
esantioane din granula anterioara. Numarul de iesiri independente pentru MDCT pe blocuri
scurte este 18, la fel ca in cazul MDCT pentru blocuri lungi.
Sunt folosite patru feluri de functii fereastra: fereastra normala (Normal Window),
fereastra de inceput (Start Window), fereastra de sfirsit (Stop Window) si fereastra scurta
(Short Window). Pentru primele trei ferestre se aplica o MDCT in 36 puncte, iar pentru
ultima se aplica o MDCT in 12 puncte. Pentru a obtine o transforamre fara zgomot fereastra
de start trebuie plasata inaintea ferestrei scurte, iar fereastra de stop dupa fereastra scurta. In
fog. 3.10 este prezentat modul de folosire a functiilor fereastra.

3. Reducerea distorsiunii de aliere in domeniul frecventa


Coeficientii MDCT pentru blocurile lungi sunt prelucrati cu un circuit de tip fluture
(butterfly) pentru reducerea distorsiunii de aliere ca in Fig. 3.11. Aceasta operatie este
executata pe 32 de sub-benzi mutual adiacente, folosind 8 benzi de esantioane din vecinatatile
benzii. Coefiicentii circuitului fluture sunt dati de relatiile:

1
cs i 
1  ci2

(10)
ci
ca i 
1 ci2
(11)

Valoarea lui ci este detrminata astfel incit ea devine mai mica cu cit distanta coeficientilor
MDCT folositi devine mai mare.
4. Cuantizarea
In Layer III este folosita cuantizarea neliniara in locul celei liniare folosita in Layer
I/II. Relatia dintre coeficientul invers cuantizat MDCT, x, codul i si factorul de scala este
data de relatia

4/3
x  sign(i) x i x 2 scale factor

(12)

5. Formarea sirului de biti


Formatul sirului de biti in Layer III este aproximativ la fel ca in Layer II, iar
dimensiunea cadrului este la fel. Fiecare cadru de 1152 esantioane este impartit in doua
granule de 576 esantioane. Dupa antetul cadrului urmeaza informatia care este comuna
ambelor granule si apoi informatia proprie fiecarei granule.
Dupa cum a fost aratat, psiho-entropia creste la cadrul care contine atacuri, iar cadrul
necesita un numar mai mare de biti. In acest scop a fost introdusa o tehnologie denumita
“rezervor de biti”. Aceasta tehnologie foloseste volumul de informatii care este produs de
fiecare cadru. Cind entropia creste intr-un cadru care contine un atac, sistemul foloseste bitii
de rezerva ca o completare la bitii normali si apoi incepe stocarea unui numar mic de biti in
cadrul urmator si ii pastreaza pina cind volumul ajunge aproape de nivelul maxim de stocare.

3.3.4 Codarea stereo


In standard, codarea stereo a fost specificata ca o optiune. Reducerea ratei de bit
folosind corelatia intre canalul din stinga si din dreapta este realizata in modul “joint stereo”.
Acest mod este indicat in tabelul 3.4, corespunzator fiecarui nivel. Layer I/II au numai
intensitate stereo, iar Layer III combina intensitatea stereo cu MS.

Tabelul 3.4
Layer Available stereo coding mode
Layer I/II Intensity stereo
Layer III Combined (intensity and MS) stereo

Intensitatea stereo foloseste aceeasi forma insa date cu amplitudini diferite in sub-
benzi intre semnalele stinga si dreapta, in locul semnalelor originale pe cele doua canale.
Sunt pregatite patru moduri pentru a schimba sub-benzile pentru folosirea ca intensitate
stereo, respectiv 4-31, 8-31, 12-31, 16-31. Sub-benzile dinaintea lor, cum sunt 0-3, 0-7, 0-11
si 0-15 sunt codte independent pentru fiecare canal.
MS stereo este cea mai simpla transformare ortogonala in doua puncte este folosita
suma diferentei a doua semnale in locul semnalelor originale. Atunci cind corelatia intre
ambele canale este mare este de asteptat un efect de compresie datorita distributiei
neuniforme a energiei. In cazul stereo-ului combinat sistemul aduna suma totala a fiecarei
FFT a ambelor canale, si o multiplica cu o constanta de valoare mare. Daca valoarea rezultata
este mai mare decit diferenta puterii spectrale a celor doua canale, atunci sistemul selecteaza
MS stereo. , si daca nu este sistemul selecteaza modul intensity stereo si executa codarea; de
exemplu, cind raportul dintre semnalul suma anterior si semnalul diferenta este mai mare
decit valoarea de prag prestabilita, sistemul selecteaza modul MS stereo.

3.3.5 Performanta standardului MPEG-1/audio


A fost facuta evaluarea subiectiva folosind hardware-ul pentru fiecare nivel, pentru
128, 96 si 64 kb/s, in mai 1991 la Stockholm si apoi reevaluarea pentru 64 kb/s in noiembrie
1991 la Hanovra. In Fig. 3.13 este prezentat rezultatul acestor evaluari subiective. In Fig. 3.12
fiecare nivel de performanta corespunde egalitatii din Tabloul 3.5. In practica , exista erori de
perceptie datorate evaluatorilor, si de aceea performanta pentru sunetul original nu depaseste
5,0. Dupa aceste doua sesiuni de evaluare subiectiva, cele doua nivele, Layer I si Layer II, au
fost aprobate pentru ca asigura o calitate suficienta pentru radiodifuziune la 128 kb/s pe canal.
Tabelul 3.5
Score Quality
5.0 Imperceptible
4.0 Perceptible, but not annoying
3.0 Silightly annoying
2.0 Annoying
1.0 Very annoying

3.4 Algoritmul MPEG-2/audio


Algoritmul de codare MPEG-2/audio faza 2, denumit uzual MPEG-2/audio, este
impartit in doi algoritmi pentru frecvente de esantionare reduse si pentru un numar mai mare
de canale pentru multicanal/multilingv Pentru sistemele audio diferenta intre algoritmul
MPEG-1 si MPEG-2 este mai mica decit in sistemele video. Se poate spune ca MPEG-2 este
o extensie a algoritmului MPEG-1. In continuare vor fi analizate aceste diferente.

3.4.1 Algoritmul de esantionare la frecventa joasa


Pentru a obtine o calitate inalta la rate de bit mai mici de 64 kb/s, in standardul
MPEG-2 au fost introduse trei variante de frecvente de esantionare. Acestea sunt 16 kHz,
22,05 kHz si 24 kHz in scopul de a depasi indicatorii calitativi specificati de recomandarea
G.722. Din punct de vedere a sintaxei sirului de biti frecventele de esantionare si ratele de bit
sunt modificate comparativ cu MPEG-1. Au fost efectuate si modificari ale tabelului de
alocare a bitilor si ale modelelor psihoacustice.

3.4.2 Facilitatea multicanal si multilingv


La MPEG-2, pot fi codate pina la 6 canale audio pentru sisteme multicanal si
multilingv, in timp ce la MPEG-1 pot fi codate unul sau doua canale audio. MPEG-2 este
compatibil cu MPEG-1.

1. Formatul multicanal
Cel mai respindit format multicanal audio, recomandat de ITU-T, este asanumitul 2/3
stereo. Aceset sistem plaseaza un difuzor central intre difuzoarele stinga si dreapta si de
asemenea doua difuzoare de fond in partea stinga si cea dreapta din spate. In Fig. 3.13 este
prezentata pozitionarea difuzoarelor pentru 2/3 stereo. Acest aranjament a fost folosit pentru
evaluarea subiectiva din fabruarie 1994. Algoritmul MPEG-2 accepta formatele multicanal
prezentate in Tabelul 3.6. De mentionat ca sistemul permite mai multe feluri de format pentru
intrare decit pentru iesire. L este semnalul de canal, C este semnalul de canal central, LS este
semnalul de canal de fond stinga, L1 si L2 reprezinta semnalul de canal sting pentru prima
limba, respectiv semnalul de canal drept pentru a doua limba. Similar sunt descrise canalele
din partea dreapta.

In completarea acestor canale, sistemul permite si o imbunatatire adaugarea unei


optiuni de imbunatatire a frecventelor joase (LFE). Aceasta a fost adaugata pentru folositrea
canalului LFE in industria filmului. Canalul LFE contine informatia intre frecventele 15 Hz si
120 Hz, iar frecventa de santionare este 1/96 din frecventa canalelor normale.
Pentru a reduce redundanta in cazul canalelor multiple este folosita predictia
intercanal adaptiva. In interiorul fiecarei benzi de frecventa sunt calculate trei feluri de
semnale de predictie intercanal, dar numai eroarile de predictie pe canalul central si canalul
de fond sunt codate.
2. Compatibilitatea cu MPEG-1
Este asigurata compatibilitatea in ambele sensuri. Compatibilitatea inversa arata ca un
decodor MPEG-1 poate decoda informatia stereo de baza constind din canalele stinga/dreapta
(Lo, Ro), din datele codate. Aceste semnale sunt obtinute cu relatiile:

L0  L  x x C  y x LS
(13)
R0  R  x x C  y x RS
(14)

Pentru valorile prestabilite x si y sunt pregatite patru moduri.


Compatibilitatea directa arata ca decodorul multicanal MPEG-2 poate decoda corect
un sir de biti codat MPEG-1. Combinatiile posibile sunt date in Tabelul 3.7.

3.4.3 Performantele MPEG-2/audio


Evaluarea subiectiva a standardului MPEG-2/audio a fost facuta de citeva ori intre
anii 1993 si 1996. In Fig. 3.14 sunt reprezentate rezultatele evaluarii subiective din 1996.
Criteriul de evaluare folosit aici este acelasi ca cel folosit pentru MPEG-1, reprezentat in Fig.
3.12 dar performantele difera. Calitatea sunetului original corespunde valorii 0.0 si nu 5.0.
Liniile verticale arata prin urmare diferenta de calitate dintre sunetul testat si sunetul original.
S-a confirmat ca pentru Layer II
cu 640 kbps si Layer III cu 512 kbps performanta obtinuta este –1.0 sau ceea ce inseamna un
rezultat acceptabil.

3.5. Activitati viitoare


Activitatile de standardizare MPEG au condus la obtinerea unei transmisii/stocari
audio transparente de 96-128 kbps/canal. Numarul de canale suportate este 6. Aceste
tehnologii sunt acum prezente pe piata. De exemplu el este folosit in inregistrarile video pe
CD-ROM si in transmisiunile audio intre statiile de radiodifuziune. Dar piat continua sa
evolueze. In consecinta cerintele pentru algoritmi de compresie de mare eficienta se mentin si
in continuare. In acest scop MPEG dezvolta in prezent MPEG-2/AAC si MPEG-4 cu
obiectivul obtinerii unei codari transparente la 32kbps/canal.
Cap. 4. Principiul transmisiei informaţiei de culoare în
televiziune

4.1. Modele pentru reprezentarea culorii. Alegerea culorilor


primare
Asupra ochiului acţionează în fiecare moment radiaţii luminoase complexe, ale căror
componente cuprind, în general, toate lungimile de undă ale spectrului vizibil, adică toate
culorile spectrului. Ochiul nefiind în stare să perceapă separat fiecare componentă din
radiaţia luminoasă complexă, el percepe radiaţia luminoasă ca având o culoare bine
determinată. De aceea, două radiaţii luminoase cu componente spectrale diferite pot
provoca aceeaşi senzaţie de culoare. De exemplu, ochiul nu poate deosebi culoarea "galben"
a unei radiaţii monocromatice de o anumită lungime de undă, de aceeaşi culoare "galben"
obţinută prin amestecul radiaţiilor luminoase "roşu" şi "verde" de lungimile de undă 610 nm
şi, respectiv, 535 nm.
Capacitatea ochiului de a distinge culori este extrem de ridicată, putând fi
percepute şi identificate sute de mii de nuanţe, comparativ cu capacitatea redusă a
ochiului de a distinge niveluri acromatice, care este doar de câteva zeci de tonuri de gri.
Acest lucru impune realizarea unor sisteme TV la care transmisia şi redarea culorilor să
se facă cu mare precizie şi fără distorsiuni. Din punct de vedere tehnic, culoarea trebuie
definită prin parametri măsurabili, pe baza cărora să se determine semnalul electric ce
trebuie transmis şi care să permită, la recepţie, refacerea corectă a culorilor din imagine.
Pentru definirea culorii se folosesc mai multe modele, bazate pe seturi de trei parametri, ce
definesc, fiecare, o caracteristică a culorii.
Un model utilizat pentru definirea culorii este modelul RGB, bazat pe un set de 3
culori primare (de referinţă): R (red = roşu), G ( green = verde), B (blue = albastru). Acest
model se bazează pe efectul aditiv al culorilor primare la nivelul ochilor.
Efectul aditiv constă în faptul că orice culoare se poate obţine prin suprapunerea (prin
adunarea) în anumite proporţii a trei radiaţii monocromatice riguros definite, situate, în cazul
adoptat în televiziune, în domeniile de roşu, verde şi albastru (domeniile de sensibilitate ale
conurilor de pe retina ochiului). La alegerea celor 3 culori s-a avut în vedere ca, nici una
din ele, să nu poată fi obţinută ca rezultat al amestecului celorlalte două.
În consecinţă, o imagine în culori este echivalentă cu trei imagini monocromatice, în
roşu, în verde şi, respectiv, în albastru.
Lungimile de undă dominante ale celor trei culori primare adoptate în televiziunea
în culori sunt: R = 610 nm pentru roşu (R), G = 535 nm pentru verde (G) si B = 470 nm
pentru albastru (B).
Efectul aditiv al culorilor primare la nivelul ochilor poate fi realizat în două
variante: amestec aditiv-local al culorilor şi amestec aditiv-spaţial al culorilor.
Dacă pe un ecran alb se proiectează simultan radiaţiile monocromatice R, G, B, are loc
un amestec aditiv-local al culorilor. In funcţie de proporţia fluxurilor luminoase R, G, B se
obţin culori noi, spre exemplu, prin amestecul aditiv de verde şi albastru se obţine culoarea
turcoaz, prin amestecul aditiv de roşu şi albastru se obţine culoarea mov, iar prin
amestecul aditiv de roşu şi verde se obţine culoarea galben. Aceste trei culori, turcoaz, mov
şi galben, poartă numele de culori complementare ale culorilor primare roşu, verde şi,
respectiv, albastru.
Culoarea alb se obţine prin amestecul aditiv, într-o anumită proporţie, fie a celor
trei culori primare, fie a celor trei culori complementare, fie a unei culori primare cu culoarea
ei complementară.
Pentru sinteza (redarea) imaginii de televiziune se foloseşte tubul cinescop tricrom, al
cărui ecran este format din grupe de câte trei luminofori de culoare, corespunzătoare fiecărui
element de imagine. Triada de luminofori R, G, B este dispusă pe ecran în triunghi, la tubul
cinescop "delta" (figura 4.1.a) sau în benzi verticale paralele, la tubul cinescop "în linie"
(figura 4.1.b). Aceşti luminofori, bombardaţi fiecare de un fascicul de electroni, emit
radiaţii luminoase în domeniul culorilor de roşu, verde şi, respectiv, albastru. Sinteza culorii
se realizează pe principiul de amestec aditiv-spaţial al culorilor. Privită de la o anumită
distanţă, fiecare triadă de luminofori va fi percepută ca având o singură culoare.

Fig. 4.1. Amestecul aditiv-spaţial al culorilor: a) la tubul cinescop "delta";


b) la tubul cinescop "în linie".
In tehnica cinematografiei şi în practica fotografiei, pentru obţinerea culorilor se
foloseşte o metodă substractivă, care se bazează pe absorbţia unei părţi din spectrul radiaţiei
sursei luminoase, lăsând să treacă celelalte radiaţii. Se folosesc în acest scop trei filtre (medii
absorbante): turcoaz, mov şi galben, adică culorile complementare ale culorilor primare,
roşu, verde şi albastru. De exemplu, filtrul de galben absoarbe radiaţia de "albastru" şi
lasă să treacă radiaţiile de "verde" şi "roşu" (adică culoarea galben).
Ca urmare, la trecerea luminii albe prin filtrele de galben şi de mov se va obţine
culoarea roşie, deoarece filtrul de galben absoarbe radiaţia "albastră" iar filtrul de mov –
radiaţia "verde". Dacă lumina albă este trecută prin toate cele trei filtre, fiind absorbite toate
radiaţiile, va rezulta culoarea neagră.
Modelul RGB poate fi reprezentat simplificat prin triunghiul culorilor, dat în figura
4.2. Vârfurile triunghiului corespund celor trei culori primare (de referinţă), iar laturile
triunghiului corespund combinaţiilor, în anumite proporţii, a două culori primare. De
exemplu, pe latura dreaptă se succed culorile verde , verde gălbui, galben, roşu gălbui
(portocaliu), roşu. Interiorul triunghiului corespunde tuturor culorilor, rezultate prin
combinaţiile, în anumite proporţii, a celor trei culori primare. Sectorul reprezentat în
mijlocul triunghiului corespunde albului, obţinut prin însumarea, cu ponderi bine
precizate, a celor trei culori primare.

Fig. 4.2. Modelul RGB reprezentat simplificat prin triunghiul culorilor.

Cu cât o culoare se află mai departe de culoarea albă în planul triunghiului, cu atât
culoarea este mai saturată (mai vie), adică este mai puţin diluată cu lumină albă. Ca
urmare, culorile aflate pe laturile triunghiului sunt culori saturate, iar culorile din interiorul
triunghiului sunt culori nesaturate (diluate cu lumină albă, culori pastel).
În concluzie, triunghiul culorilor evidenţiază următoarele aspecte:
• Prin parcurgerea circulară a planului culorilor, sunt descrise toate nuanţele
cromatice.
• Prin parcurgerea radială a unei nuanţe, sunt evidenţiate nivelurile de
saturaţie ale culorii. În figura 5.2 se exemplifică modificarea saturaţiei culorii de
galben. Nivelul saturat corespunde combinaţiei, în anumite proporţii, a culorilor primare
verde şi roşu, iar nivelul mai puţin saturat corespunde combinaţiei, în anumite proporţii, a
celor trei culori primare.
• Modificarea strălucirii culorilor primare poate fi descrisă prin plane paralele
cu planul analizat, rezultând alte niveluri de strălucire ale culorilor.
Întrucât modelul RGB echivalează imaginea în culori cu 3 imagini monocromatice,
rezultând în final 3 semnale video de culoare, fiecare având o lărgime de bandă de 6 MHz, se
constată necesitatea unei lărgimi de bandă a canalului video de 3 ori mai mare decât pentru
transmiterea unei imagini alb-negru. Din acest motiv, modelul RGB nu este folosit în
sistemul TV radiodifuzat. El este utilizat în echipamentele de studio TV, în sistemele de
prelucrare a imaginii şi în comanda monitoarelor de calculator, unde pe primul plan sunt
performanţele privind calitatea imaginii.
Un alt model utilizat pentru definirea culorii este modelul HSL, bazat pe un set de 3
parametri, ce definesc, fiecare, o caracteristică a culorii, aşa cum este aceasta percepută
de ochiul uman: H (hue = nuanţă), S (saturation =saturaţie), L (luminance = luminanţă sau
strălucire).
Acest model pune în evidenţă cele două componente ale imaginii în culori:
• luminanţa, ca purtătoare a informaţiei de strălucire a elementelor de
imagine;
• crominanţa, ca purtătoare a informaţiei de culoare, cu componentele sale:
nuanţa, dată de lungimea de undă, şi saturaţia, dată de conţinutul de alb.
În figura 4.3 se prezintă relaţia între cele două modele, RGB şi HSL.
Fig. 4.3. Modelul HSL corespunzător triunghiului culorilor.

Cele două componente ale imaginii în culori sunt reprezentate prin doi vectori:
vectorul crominanţă, plasat în planul culorilor, şi vectorul luminanţă, care stabileşte
nivelul planului de culoare, pe axa verticală, de la negru la alb. Vectorul crominanţă
defineşte nuanţa culorii, prin faza de rotaţie, şi saturaţia culorii, prin modulul vectorului.
Întrucât modelul HSL utilizează parametri ce necesită un anumit grad de prelucrare a
semnalelor video de culoare, acest model este folosit doar în interfeţele grafice, asigurând
un control simplu din partea utilizatorului. În sistemul de operare Windows alegerea culorii
(de exemplu, pentru fundal) se poate face atât în formatul RGB, cât şi în formatul HSL.
Un alt model utilizat pentru definirea culorii este modelul Y, R–Y, B–Y, care este
folosit în sistemele de televiziune analogice şi digitale. El a rezultat din necesitatea asigurării
compatibilităţii sistemelor de televiziune în culori şi în alb negru, fiind o combinaţie a
modelelor RGB şi HSL. Cei 3 parametri ce definesc modelul sunt:
• semnalul de luminanţă, Y, care reflectă informaţia de luminanţă din
imaginea în culori;
• semnalul diferenţă de culoare, R–Y, care reprezintă diferenţa dintre
componenta de roşu din imagine şi cea de luminanţă;
• semnalul diferenţă de culoare, B–Y, care reprezintă diferenţa dintre
componenta de albastru din imagine şi cea de luminanţă.
Componentele de roşu, de albastru şi, respectiv, de verde din imagine reprezintă, de fapt,
semnalele video de culoare ER , EB şi EG (v. fig. 1.7), care se notează în cele ce
urmează, în mod simplificat, prin R , B şi, respectiv, G.
Întrucât cel de-al treilea semnal diferenţă de culoare, G–Y, se poate obţine din celelalte două,
rezultă că semnalele diferenţă de culoare definesc împreună doar informaţia de crominanţă,
neconţinând şi informaţia despre luminanţa culorii.
Din felul cum s-au definit cele două componente, de luminanţă şi de crominanţă,
rezultă că ele pot fi tratate ca şi componente independente în semnalul de televiziune.
Această concluzie este folosită în televiziunea în culori, unde informaţia de imagine este
prelucrată separat pentru luminanţă (strălucire) şi pentru crominanţă (culoare). De fapt,
dezvoltarea principiului televiziunii în culori s-a bazat pe perceperea şi prelucrarea în mod
diferit a informaţiilor de strălucire şi de culoare de către sistemul vizual uman.
În concluzie, ochiul prezintă următoarele particularităţi:
• sensibilitate mare în perceperea strălucirii elementului de imagine, ceea ce
înseamnă că detaliile, contururile şi muchiile sunt percepute de ochi prin variaţia
strălucirii, adică în alb-negru;
• sensibilitate scăzută în perceperea culorii elementului de imagine, ceea ce
înseamnă că ochiul nu percepe culoarea detaliilor, ci doar culoarea suprafeţelor.
În aceste condiţii, un obiect foarte îndepărtat, este identificat de ochiul uman prin variaţia
strălucirii, fără a i se putea identifica culoarea.
Acest lucru permite alocarea unor benzi de frecvenţe diferite pentru transmiterea
optimă a acestor semnale. Semnalul de luminanţă, purtător al informaţiilor privind detaliile,
se transmite într-o bandă largă de frecvenţe (6 MHz), întrucât, cu cât frecvenţa video
maximă este mai mare, cu atât detaliile redate sunt mai mici. În ceea ce priveşte semnalul de
crominanţă, adică semnalele R–Y şi B–Y, acestea pot fi transmise cu bandă de frecvenţe
redusă (limitată la 1,5 MHz), întrucât culoarea detaliilor mici oricum nu poate fi percepută
de ochi.

4.2. Problema compatibilităţii sistemelor de televiziune in


culori şi în alb-negru
La realizarea sistemului de televiziune în culori s-a avut în vedere compatibilitatea
acestuia cu sistemul de televiziune în alb-negru, adică:
• posibilitatea de a recepţiona în alb-negru programele de televiziune emise
color, cu televizoare în alb-negru, fără modificarea lor;
• posibilitatea de a recepţiona în alb-negru cu televizoarele în culori,
programele de televiziune emise în alb-negru;
• utilizarea infrastructurii (canalelor de comunicaţie) existente pentru
televiziunea în alb-negru (emiţătoare, linii de radiorelee, receptoare etc.), la transmiterea
programelor de televiziune în culori.
Avându-se în vedere semnalele video care se obţin la ieşirea unei camere de televiziune în
alb-negru şi, respectiv, în culori, prezentate în figura 4.4, precum şi condiţiile de
compatibilitate, au rezultat următoarele concluzii privind realizarea unui sistem de
televiziune în culori:
Y Normele de bază ale sistemului TV în culori să fie aceleaşi cu cele adoptate pentru
sistemul TV în alb-negru. În primul rând, s-a avut în vedere lărgimea de bandă a
semnalului de televiziune în culori, care trebuie să fie aceeaşi cu cea a semnalului de
televiziune în alb-negru, atât în videofrecvenţă cât şi în radiofrecvenţă. Cu alte cuvinte,
cele două semnale, de luminanţă şi de crominanţă, trebuie să se transmită în aceeaşi
bandă de frecvenţe, de 6 MHz.
Y Necesitatea transmiterii într-un sistem TV în culori a două semnale video:
• un semnal de luminanţă, Y, care să reflecte corect informaţia de luminanţă a
obiectului transmis şi care să fie identic cu cel care s-ar obţine dacă captarea şi
transmisia s-ar face în sistemul TV alb-negru;
• un semnal de crominanţă, C, purtător al informaţiei de culoare (nuanţă şi
saturaţie), şi care nu trebuie să conţină informaţia despre luminanţa culorii.
Semnalul de crominanţă trebuie astfel prelucrat încât să poată fi transmis în cadrul benzii
de frecvenţe a semnalului de luminanţă şi să nu perturbe recepţia pe televizorul în alb-
negru. În acest scop se foloseşte ca suport o subpurtătoare, numită de crominanţă, care este
modulată în amplitudine sau în frecvenţă de către semnalul de crominanţă, realizându-se,
de fapt, prin această modulaţie, o intercalare a spectrului de frecvenţe al semnalului de
crominanţă modulat, C, în spectrul de frecvenţe al semnalului de luminanţă, Y,
exploatându-se structura discretă a acestora.
Suma celor două semnale video, de luminanţă şi de crominanţă modulat, formează
semnalul video complex de culoare (SVCC).
Semnalul de crominanţă trebuie să fie "ignorat" de receptorul în alb-negru şi să fie "tradus" în
culoare de receptorul în culori.
Fig. 4.4. Semnalele video la ieşirea unei camere TV:
a) în alb-negru; b) în culori.

În televiziunea radiodifuzată se folosesc două norme de televiziune (norma


europeană cu 625 linii şi 25 cadre/secundă şi norma americană cu 525 linii şi 30
cadre/secundă) şi trei sisteme de televiziune în culori: NTSC (National Television
System Committee), PAL (Phase Alternation Line – alternarea fazei pe linii) şi SECAM
(Séquentiel Couleur à Mémoire – culoare secvenţială cu memorie).
Sistemul NTSC a apărut în 1953 în SUA şi este folosit astăzi într-o serie de ţări din
America de Nord şi de Sud, în Japonia etc. Sistemul foloseşte transmisia simultană a
semnalelor corespunzătoare culorilor primare. El se caracterizează prin utilizarea a două
semnale de crominanţă I şi Q, care corespund la două axe din diagrama colorimetrică: axa
de mare definiţie, I, pentru care ochiul distinge cel mai bine culorile şi axa de definiţie
redusă, Q, pentru care ochiul percepe mai slab variaţiile de culoare. Semnalele de
crominanţă I şi Q reprezintă combinaţii liniare ale semnalele diferenţă de culoare ponderate
R–Y şi B–Y.
Sistemul PAL a apărut în 1962 ca urmare a cercetărilor întreprinse de Walter Bruch cu
scopul de a face din sistemul NTSC un sistem insensibil la distorsiunile de fază, care au ca
efect introducerea unei distorsiuni importante de culoare. Cu alte cuvinte, sistemul PAL
constituie o variantă îmbunătăţită a sistemului NTSC. Sistemul PAL este deci un sistem cu
transmisie simultană a semnalelor corespunzătoare culorilor primare. El se caracterizează
prin faptul că subpurtătoarea de crominanţă este modulată în amplitudine simultan cu două
semnale video de culoare, de fapt, cu semnalele diferenţă de culoare R–Y şi B–Y, întrucât
semnalele folosite în televiziunea în culori sunt semnalele date de modelul Y, R–Y, B–Y.
Sistemul SECAM a apărut în Franţa în 1958, ca propunere a colectivului condus de
Henry de France. Sistemul a fost introdus în exploatare într-o serie de ţări din Europa după
1966, fiindu-i aduse ameliorări succesive. Sistemul SECAM este un sistem cu transmisie
secvenţială (din linie în linie) a semnalelor corespunzătoare culorilor primare. Pe o linie se
transmite informaţia de roşu şi pe următoarea – cea de albastru. In acest caz subpurtătoarea
de crominanţă este modulată în frecvenţă, pe rând, cu unul dintre semnalele video de culoare.
Existenţa acestor trei sisteme diferite de televiziune şi a două norme de televiziune a
îngrădit la început schimbul internaţional de programe de televiziune. Ulterior, situaţia s-a
îmbunătăţit datorită introducerii metodelor digitale de prelucrare a semnalelor de televiziune
în culori.
În prezent există şi sisteme de televiziune în culori incompatibile cu televiziunea în alb-
negru. Spre exemplu, sistemul MAC (Multiplexed Analogue Components – componente
analogice multiplexate), care este un sistem de difuziune prin satelit, şi la care transmisia
se realizează prin multiplexarea în timp a semnalelor de luminanţă şi crominanţă. Sistemul
MAC este prezentat în cadrul volumul II.

4.3. Schema bloc simplificată a camerei TV tricrome


Transformarea imaginii optice plane în cele trei semnale video de culoare, denumite, în
cele ce urmează, semnale de culoare primare (R, G, B) are loc în camera TV tricromă, a
cărei schemă bloc simplificată este dată în figura 4.5.

Fig. 4.5. Schema bloc simplificată a camerei TV tricrome.


În procesul de transformare a imaginii optice plane în cele trei semnale video de
culoare (semnale de culoare primare) se disting două etape esenţiale:
• descompunerea optică a imaginii color în trei imagini monocromatice,
corespunzătoare culorilor de referinţă R, G, B;
• transformarea fiecărei imagini monocromatice în semnal video de culoare.
Descompunerea fluxului luminos 0(x,y,λ,t) în cele trei fluxuri luminoase R ,
G şi B , corespunzătoare culorilor de referinţă R, G, B, se realizează cu ajutorul unui
sistem de oglinzi dicroice OD1 şi OD2.
Oglinda dicroică are proprietatea de a lăsa să treacă prin ea fluxul luminos
corespunzător unei anumite părţi din spectrul vizibil şi de a reflecta restul. Oglinda
dicroică OD1 lasă să treacă prin ea domeniile de verde şi albastru, adică fluxurile G şi
B , şi reflectă domeniul de roşu al spectrului vizibil, adică fluxul R , iar oglinda
dicroică OD2 lasă să treacă prin ea domeniul de verde, adică fluxul G , şi reflectă
domeniul de albastru, adică fluxul B . Oglinzile normale ON au rolul de a dirija
fluxurile luminoase selectate, de roşu şi, respectiv, de albastru, către dispozitivele
videocaptoare corespunzătoare.
Pe traseele celor trei fluxuri luminoase se introduce câte un filtru de lumină
selectiv (filtru de corecţie) FR , FG şi, respectiv, FB , centrate, fiecare, pe lungimea de
undă dominantă a culorii de referinţă respective. Ele au rolul de a corecta
caracteristicile spectrale ale dispozitivelor videocaptoare (figura 4.6) şi de a realiza o
echilibrare în ceea ce priveşte atenuarea fluxurilor luminoase pe cele trei trasee, avându-se în
vedere că o oglindă dicroică permite trecerea unei porţiuni a fluxului luminos în proporţie
de 95 % şi realizează un coeficient de reflexie a celeilalte porţiuni într-o proporţie de până la
85 %.
Dispozitivele videocaptoare DVCR , DVCG şi DVCB transformă fluxurile
luminoase R , G şi B în semnalele electrice R', G' şi, respectiv B', numite semnale de
culoare primare. Dispozitivele videocaptoare prezintă o caracteristică spectrală selectivă,
centrată pe lungimea de undă dominantă a culorii de referinţă, după cum se prezintă în
figura 4.6, spre deosebire de tuburile videocaptoare în alb-negru, DVCA/N , care prezintă o
caracteristică spectrală extinsă pe întregul spectru vizibil.
Fig. 4.6. Caracteristicile spectrale ale celor trei dispozitive videocaptoare.

După fiecare din dispozitivele videocaptoare se efectuează o corecţie de gamma


(cunoscută şi sub denumirea de corecţie de contrast), destinată să compenseze neliniaritatea
caracteristicii de transfer a sistemului de televiziune, în principal, neliniaritatea
caracteristicilor de transfer ale dispozitivului videocaptor şi ale dispozitivului de redare a
imaginii (în particular, a tubului cinescop).
Această corecţie este necesară deoarece transmiterea corectă a imaginilor de
televiziune este condiţionată de redarea corectă a gradaţiilor (nivelurilor) de luminanţă din
imaginea originală. Cu alte cuvinte, într-o transmisie TV se vor reda corect gradaţiile de
luminanţă din imaginea originală, atunci când, captând imaginea scării liniare de gri, se
obţine la recepţie, de asemenea, o scară liniară de gri (figura 4.7).
Neliniaritatea caracteristicii de transfer a unui sistem de televiziune influenţează şi
asupra saturaţiei culorilor reproduse. Principiul corecţiei de gamma este prezentat în
paragraful 4.3.1.
Amplificarea fiecăruia din amplificatoarele video AVR , AVG şi AVB se reglează
astfel încât, pentru lumina albă de referinţă, care prin definiţie reprezintă cea mai mare
strălucire care se poate întâlni într-o imagine, să fie satisfăcută condiţia:

R = G = B = 1 VVV (4.1)

operaţie care poartă numele de reglajul sau balansul albului.


Ca urmare, la captarea unei imagini acromatice (în alb-negru), amplitudinile celor trei
semnale video de culoare sunt egale, adică:
R = G = B = (0 ÷ 1) VVV (4.2)

Codorul (circuitul de codare al canalului) asigură compatibilitatea între sistemele


TV în culori şi în alb-negru. La ieşirea codorului se obţine semnalul video complex de
culoare (SVCC), prin însumarea semnalului de luminanţă, Y, cu semnalul de crominanţă
modulat, C.

4.3.1. Principiul corecţiei de gamma

Corecţia de gamma este necesară deoarece transmiterea corectă a imaginilor de


televiziune este condiţionată de redarea corectă a gradaţiilor (nivelurilor) de luminanţă din
imaginea originală.
În acest scop, trebuie să existe o dependenţă liniară între variaţiile de luminanţă din
imaginea originală, Lo , şi variaţiile de luminanţă din imaginea redată, Lr, adică:

Lr = kLo (4.3)

Redarea necorectă a gradaţiilor de luminanţă din imaginea originală este determinată


de neliniaritatea caracteristicii de transfer a sistemului de televiziune, adică, în principal,
de neliniaritatea caracteristicilor de transfer ale dispozitivului videocaptor şi ale
dispozitivului de redare a imaginii (în particular, a tubului cinescop).
În aceste condiţii relaţia (4.3) devine:

(4.4)

unde γ este coeficientul de neliniaritate.


Cu alte cuvinte, dependenţa liniară, dată de relaţia (4.3), este afectată de:
• neliniaritatea caracteristicii de transfer radiaţie luminoasă – semnal electric
a dispozitivului videocaptor, care este de forma:

(4.5)

unde este vid la ieşirea dispozitivului videocaptor, adică semnalul


semnalul eo
electric R', G', respectiv, B', iar coeficientul γ1 caracterizează neliniaritatea, fiind un
coeficient subunitar;
• neliniaritatea caracteristicii de transfer semnal electric – radiaţie luminoasă
a dispozitivului de redare a imaginii, care este de forma:
2
Lr k 2 eV 2 (4.6)

unde eV 2 este semnalul video de comandă a tubului cinescop, adică semnalul electric
R, G, respectiv, B, iar coeficientul γ2 caracterizată neliniaritatea, fiind un coeficient
supraunitar.
Din cele prezentate se constată că cele două caracteristici de transfer sunt oarecum
complementare, ceea ce compensează în parte redarea necorectă a gradaţiilor de luminanţă
din imagine.
Pentru îndeplinirea condiţiei (4.3), se introduce circuitul corector de gamma, cu
caracteristică de transfer neliniară, de forma:
e C
eV 2 k 3 R k R'
sau (4.7)

V1 C
C  1 3
(4.8)
în care 
1 2

Posibilitatea de a controla forma caracteristicii de transfer a unui sistem de televiziune,


prin modificarea valorii coeficientului γ (cunoscut în literatură şi sub numele de
exponent de contrast al sistemului TV), unde:
  1 2 C (4.9)
prezintă interes practic prin faptul că problema celei mai bune reproduceri a gradaţiilor de
luminanţă depinde, în mare măsură, de conţinutul imaginii TV şi de destinaţia sistemului
TV.
În unele aplicaţii este util să se mărească contrastul într-un anumit domeniu al gradaţiilor de
luminanţă (de exemplu, în domeniul tonurilor închise, medii sau deschise), unde sunt
situate detaliile care prezintă cel mai mare interes pentru observator. Prin urmare,
printr-o redare neliniară a scării de gri se poate îmbunătăţii redarea unor detalii de interes
dintr-o imagine TV, după cum se prezintă în figura 4.7.
Dacă γ = 1, contrastul imaginii redate este egal cu contrastul imaginii originale. Sistemul
TV redă corect scara liniară de gri.
Dacă γ > 1, contrastul imaginii redate este mai mare decât contrastul imaginii originale în
domeniul tonurilor deschise şi medii, favorizând redarea detaliilor de interes din aceste
domenii. De asemenea, pentru γ > 1 are loc o creştere a saturaţiei culorii redate.
Dacă γ < 1, contrastul imaginii redate este mai mare decât contrastul imaginii originale în
domeniul tonurilor închise şi medii, favorizând redarea detaliilor de interes din aceste
domenii. De asemenea, pentru γ < 1 are loc o scădere a saturaţiei culorii redate.

Fig. 4.7. Posibilitatea de modificare controlată a scării liniare de gri.


4.3.2. Principiul corecţiei distorsiunilor de apertură
Distorsiunile de apertură se manifestă, datorită dimensiunii finite a elementului de
explorare, prin atenuarea progresivă a componentelor de frecvenţă înaltă conţinute în
semnalul de imagine, fără a afecta faza acestor componente. Aceasta înseamnă că
detaliile fine din imagine, în raport cu detaliile mari, vor fi redate printr-un semnal cu
amplitudine mai mică, prezentând, astfel, un contrast mai scăzut. Cu alte cuvinte,
atenuarea frecvenţelor înalte are ca efect micşorarea rezoluţiei sistemului TV.
Principiul corecţiei distorsiunilor de apertură se bazează pe accentuarea progresivă
a componentelor de frecvenţă înaltă din semnalul video, fără a afecta faza acestor
componente. Cu alte cuvinte, circuitele corectoare de apertură asigură o mărire a amplitudinii
componentelor de frecvenţe înalte în raport cu cele de frecvenţe joase. În acest fel, corectorul
de apertură restabileşte amplitudinea corectă a componentelor de frecvenţă înaltă din
semnalul video furnizat de dispozitivul videocaptor şi, prin aceasta, valoarea corectă a
fronturilor din semnalul de imagine (v. fig. 3.2). Corecţia distorsiunilor de apertură are ca
efect accentuarea contururilor imaginii, atât în direcţie orizontală cât şi în direcţie verticală.
În figura 4.8 se prezintă efectul corecţiei distorsiunilor de apertură în domeniul timp (figura
4.8.a) şi în domeniul frecvenţă (figura 4.8.b). Semnalul de imagine eV 1 t 

corespunde, spre exemplu, unei tranziţii negru-alb în imagine, fiind afectat frontul
semnalului de distorsiunile de apertură (v. fig. 3.2).
Acţiunea de compensare a distorsiunilor de apertură constă în obţinerea unui front ridicător
tr mai abrupt pentru semnalul de imagine, ceea ce echivalează cu creşterea amplitudinii
frecvenţelor înalte. Cu alte cuvinte, trebuie ca durata frontului
ridicător, tr 2 , pentru semnalul de imagine eV 2 t , să devină mai mică decât
corectat,
durata frontului ridicător, t r1 , a semnalului de imagine iniţial, eV 1 t . În acest scop se

adaugă un semnal de corecţie eC t  la semnalul de eV 1 t , reprezentând


imagine
derivata de ordinul doi a acestuia, după cum se prezintă în figura 4.8.a. Pentru a se
asigura concordanţa de fază a celor două semnale ce se însumează, semnalul de imagine
trebuie întârziat în mod corespunzător.
Fig. 4.8. Efectul corecţiei distorsiunilor de apertură:
a) în domeniul timp; b) în domeniul frecvenţă.

Pentru a se obţine o corecţie bidimensională, se aplică o corecţie în direcţie orizontală,


în care caz întârzierea se alege de ordinul de mărime al duratei unui element de imagine, şi
o corecţie în direcţie verticală, în care caz se alege o întârziere egală cu durata unei linii.
În figura 4.8.b se scoate în evidenţă compensarea căderii caracteristicii de apertură a
dispozitivului videocaptor cu frecvenţa, reprezentată prin curba H(f). Se obţine o
caracteristică de frecvenţă corectată HC(f), prin însumarea cu caracteristica de frecvenţă a
corectorului de apertură hC(f), care asigură o redare corespunzătoare a frecvenţelor
înalte.

4.4. Semnalul de luminanţă


Având în vedere cele prezentate în paragraful 4.2 (v. fig. 4.4), se impune ca într-
un sistem TV în culori să se transmită semnalul de luminanţă Y, care să reflecte corect
luminanţa obiectului, adică, să fie identic cu cel care s-ar obţine dacă captarea şi transmisia
s-ar face în sistemul TV în alb-negru. Acest semnal nu se obţine direct din explorarea
imaginii electronice.
Captarea imaginii, la ieşirea dispozitivelor videocaptoare, se realizează conform
modelului RGB, iar semnalele folosite în televiziunea în culori sunt semnalele date de
modelul Y, R–Y, B–Y. Aceasta presupune obţinerea prin calcul a semnalului de luminanţă
şi a semnalelor diferenţă de culoare din semnalele de culoare primare.
Contribuţia celor trei semnale de culoare primare R, G, B la semnalul de
luminanţă Y, este dată de expresia:
Y = aR + bG + cB (4.10)

care precizează faptul că albul de referinţă se obţine dacă luminanţele culorilor de


sinteză R, G, B se amestecă în proporţiile date de coeficienţii a, b şi, respectiv, c.
Pentru a se determina contribuţia celor trei semnale de culoare primare la semnalul de
luminanţă, se au în vedere:
• caracteristica de sensibilitate spectrală relativă a ochiului, şi
• raportarea luminanţei oricărei culori la luminanţa albului de referinţă, care
generează un semnal video de amplitudine maximă, adică Y = 1 VVV, ceea ce este
echivalent cu:

a+b+c=1 (4.11)

întrucât în acest caz R = G = B = 1 VVV .


Sistemul vizual uman, în faţa unei imagini color, face ponderarea luminanţei în
funcţie de lungimea de undă a radiaţiilor luminoase, conform curbei de sensibilitate
spectrală relativă prezentată în figura 4.9. Această curbă arată cum variază
sensibilitatea ochiului Sλ , adică senzaţia de strălucire, în funcţie de lungimea de undă a
radiaţiei luminoase monocromatice de intensitate energetică constantă. Se constată că, la
luminanţe egale, ochiul percepe strălucirea roşului mai redusă decât a verdelui sau a
galbenului, dar mai puternică decât cea a albastrului sau a negrului.

Fig. 4.9. Caracteristica de sensibilitate spectrală relativă a ochiului.


Într-un sistem TV în alb-negru, când pe ecran se reproduc doar informaţiile de luminanţă
ale imaginii, se pune problema ca detaliile colorate, de luminanţe egale, să fie reproduse
în alb-negru cu străluciri ponderate, în corelaţie cu caracteristica de sensibilitate
spectrală a ochiului, întrucât în faţa unui ecran alb-negru ochiul nu poate face ponderarea
menţionată. Acest deziderat se realizează prin faptul că dispozitivul videocaptor, în
televiziunea în alb-negru, prezintă o caracteristică spectrală asemănătoare cu
caracteristica de sensibilitate spectrală a ochiului (v. fig. 4.6). În acest caz, pe ecranul alb-
negru, detaliile colorate albastru şi roşu vor fi reproduse printr-un gri-negru, cele
colorate mov şi verde – printr-un gri mai deschis, iar cele colorate turcoaz şi galben –
printr-un gri şi mai deschis. Cu alte cuvinte, o miră cu bare color va fi redată pe ecranul
alb-negru printr-o miră cu bare de gri.
În sistemul TV în culori compatibil, dispozitivele videocaptoare nu mai
prezintă caracteristici spectrale asemănătoare cu caracteristica de sensibilitate spectrală a
ochiului (v. fig. 4.6). Ca urmare, dispozitivele videocaptoare nu mai ponderează
luminanţa detaliilor colorate, în funcţie de lungimea de undă a radiaţiilor luminoase.
Această ponderare se realizează în blocul denumit codor, folosindu-se o matrice de
formare a semnalului Y din cele trei semnale de culoare primare, pe baza relaţiei (4.10).
Coeficienţii a, b şi c precizează contribuţia celor trei semnale de culoare primare R,
G şi B la formarea semnalului de luminanţă. La determinarea lor s-a avut în vedere, pe de
o parte, valorile sensibilităţii relative a ochiului, kλ , pentru culorile primare R, G, B (v.
fig. 4.9) şi, pe de altă parte, realizarea condiţiei (4.11).
În aceste condiţii:
k R 0,46
a 
0,30
k R k G k B 0,46 0,9 0,17

k G 0,9
b 

k R k G k B 0,46 0,9 0,17 0,59


0,17
k B 
c
0,46 0,9 0,17
k R k G k B
0,11
şi, ca urmare, semnalul de luminanţă se obţine cu circuitul de matriciere MY din figura
4.10, pe baza relaţiei:
Y 0,30R 0,59G 0,11B (4.12)

În cazul transmisiei unor imagini acromatice (în alb-negru), semnalul de luminanţă


corespunzător tonurile de gri (de la negru la alb) este dat de relaţia:

Y = R = G = B = (0 1) VVV (4.13)

Fig. 4.10. Obţinerea semnalului de luminanţă.

Albul de referinţă se obţine pe ecranul tubului cinescop dacă luminanţele culorilor de


sinteză R, G, B se amestecă în raportul:

LR : LG : LB = 0,30 : 0,59 : 0,11 (4.14)

Relaţia (4.14) evidenţiază luminanţa unei culori în raport cu luminanţa albului de referinţă.

4.5. Semnalele diferenţă de culoare


Pentru a se respecta principiul luminanţei constante, întrucât semnalul de
luminanţă Y conţine toată informaţia referitoare la luminanţa culorii, trebuie să se înlăture
(să se scadă) această componentă din semnalele R, G, B. Din acest motiv se transmit aşa-
numitele semnale diferenţă de culoare, definite prin relaţiile:

R–Y = R – (0,30R + 0,59G + 0,11B) = 0,70R – 0,59G – 0,11B


G–Y = 0,30R + 0,41G – 0,11B (4.15)
B–Y = – 0,30R – 0,59G + 0,89B

Transmiterea semnalelor diferenţă de culoare în locul semnalelor de culoare primare


prezintă şi următoarele avantaje:
• La transmisiuni în alb-negru (trepte tonale de gri, de la negru la alb) fiind
satisfăcută relaţia (4.13), rezultă:

R–Y = G–Y = B–Y = 0 (4.16)

Ca urmare, la transmisiuni în alb-negru, semnalele diferenţă de culoare fiind nule, nu au


nici o influentă la recepţie pe televizoarele în alb-negru sau în culori. În schimb, semnalul
de luminanţă Y va avea amplitudinea corespunzătoare nivelului de gri transmis, adică Y =
(01) VVV.
• Într-un sistem TV în culori nu este necesar să se transmită toate cele trei
semnale diferenţă de culoare, întrucât oricare din ele se poate obţine din celelalte două. La
alegerea celor două semnale diferenţă de culoare, care se transmit la recepţie, s-a avut
în vedere că semnalul G–Y are valoarea vârf-vârf cea mai mică din cele trei semnale
diferenţă de culoare, ceea ce însemnă că va fi cel mai expus la perturbaţii.
În concluzie, în sistemele de televiziune în culori se transmit trei semnale video:
semnalul de luminanţă Y şi semnalele diferenţă de culoare R–Y şi B–Y, cunoscute sub
denumirea de semnale primare de transmisie. Semnalul diferenţă de culoare G–Y se
reconstituie în receptorul TV pe baza expresiei:

G Y 0,51R Y 0,19B Y  (4.17)

Semnalele diferenţă de culoare R–Y şi B–Y se obţin în codorul camerei TV cu


circuitele de matriciere MR -Y , respectiv, MB -Y (v. fig. 4.14), pe baza relaţiilor (4.15), iar
semnalul diferenţă de culoare G–Y se obţine în decodorul receptorului TV cu circuitul de
matriciere MG -Y (v. fig. 4.15), pe baza relaţiei (4.17).
Experienţele au arătat că acuitatea sistemului vizual uman, faţă de informaţia de
culoare, este de câteva ori mai redusă decât faţă de informaţia de luminanţă, mai ales
când trebuie identificate culorile detaliilor mici din imagine. Mai mult, detaliile fine ale
imaginilor sunt percepute de ochi prin variaţia luminanţei, adică în alb-negru. Ca urmare,
o imagine color bună se obţine şi în cazul în care banda de frecvenţe a semnalelor
diferenţă de culoare se reduce de 4÷5 ori faţă de banda de frecvenţe a semnalului de
luminanţă.
Întrucât banda de frecvenţe a semnalului de luminanţă este de 6 MHz, respectiv 5 MHz,
stabilită prin norma de bază a sistemului TV în alb-negru, rezultă că banda de frecvenţe a
semnalelor diferenţă de culoare poate fi redusă la (1,2÷1,5) MHz, fără a afecta calitatea
imaginii transmise.

4.5. Formele semnalelor de luminanţă şi de diferenţă de


culoare în cazul mirei electronice cu bare verticale color
Pentru reglarea aparaturii de televiziune se foloseşte generatorul electronic de miră
color, care generează semnalele video, pe baza cărora se obţin pe ecranul tubului cinescop
diferite modele, de exemplu, mira cu bare verticale color.
Această miră este formată din 6 bare verticale color şi două bare acromatice - alb şi negru,
de lăţimi egale, dispuse în ordinea prezentată în figura 4.11. Culorile alese sunt cele trei
culori de referinţă, roşu, verde şi albastru, şi culorile lor complementare, turcoaz (amestec
aditiv de verde şi albastru), mov (amestec aditiv de roşu şi albastru) şi, respectiv, galben
(amestec aditiv de roşu şi verde)
Pentru această miră se determină forma semnalelor R , G , B , Y , R–Y , G–Y şi
B–Y .
Având în vedere că albul de strălucire maximă se obţine pentru R = G = B = 1
Vvv şi luând drept referinţă aceste valori pentru generarea culorilor, se obţin pentru
semnalele Y , R–Y , B–Y şi G–Y valorile date în tabelul 4.1, calculate pe baza relaţiilor
(4.11) şi (4.15).
Tabelul 4.1

Culoarea R G B Y R–Y B–Y G–Y

Alb 1 1 1 1 0 0 0
Galben 1 1 0 0,89 0,11 - 0,89 0,11
Turcoaz 0 1 1 0,70 - 0,70 0,30 0,30
Verde 0 1 0 0,59 - 0,59 - 0,59 0,41
Mov 1 0 1 0,41 0,59 0,59 - 0,41
Roşu 1 0 0 0,30 0,70 - 0,30 - 0,30
Albastru 0 0 1 0,11 - 0,11 0,89 - 0,11
Negru 0 0 0 0 0 0 0
Pe baza datelor din tabelul 4.1, în figura 4.11 sunt prezentate formele semnalelor video
pentru o linie a mirei cu bare verticale color. Succesiunea barelor color de la stânga la
dreapta s-a ales, astfel, ca aceste culori să fie dispuse în ordine descrescătoare a
luminanţei relative.

Fig. 4.11. Formele semnalelor video pentru mira cu bare verticale color.

Din tabelul 4.1 se constată că semnalele diferenţă de culoare variază în limitele R–Y
= 0,70 , B–Y = 0,89 , G–Y = 0,41 , ceea ce justifică afirmaţia făcută în paragraful
4.5 că semnalul G–Y are valoarea vârf-vârf cea mai mică din cele trei semnale
diferenţă de culoare.
Mira cu bare color, generată pe baza datelor din tabelul 4.1, produce culori cu
saturaţie maximă (100%) şi luminanţă maximă (100%). Întrucât asemenea culori se
întâlnesc rar în natură, s-a impus în practică mira cu bare color în care albul de
luminanţă maximă se obţine pentru R = G = B = 1 VVV, iar culorile barelor sunt
obţinute pentru R = G = B = 0,75 VVV (saturaţie de 75%), corespunzând cel mai bine
realităţii. Pentru acest caz valorile semnalelor Y , R–Y , B–Y şi G–Y sunt date în tabelul 4.2.
Tabelul 4.2

Culoarea R G B Y R–Y B–Y G–Y


Alb 1 1 1 1 0 0 0
Galben 0,75 0,75 0 0,66 0,09 - 0,66 0,09
Turcoaz 0 0,75 0,75 0,53 - 0,53 0,22 0,22
Verde 0 0,75 0 0,44 - 0,44 - 0,44 0,31
Mov 0,75 0 0,75 0,31 0,44 0,44 - 0,31
Roşu 0,75 0 0 0,22 0,53 - 0,22 - 0,22
Albastru 0 0 0,75 0,09 - 0,09 0,66 - 0,09
Negru 0 0 0 0 0 0 0

4.5. Semnalul video complex de culoare


În televiziunea radiodifuzată, transmiterea celor trei semnale primare Y, R–Y şi B–Y
se face pe un singur canal de transmisie, caracterizat prin lărgimea de bandă stabilită
prin norma de televiziune adoptată (6 MHz, respectiv 5 MHz).
Întrucât cele trei semnale primare de transmisie ocupă un spectru de frecvenţe mai mare
decât cel alocat canalului video, pentru transmisia unui program TV, semnalele primare de
transmisie Y, R–Y şi B–Y sunt supuse unei operaţii de codare, astfel încât semnalul codat
obţinut, cunoscut sub denumirea de semnal video complex de culoare, să poată fi transmis
prin canalul alocat şi să poată fi decodat la recepţie, cu scopul de a se obţine semnalele
primare de transmisie, ce urmează să fie prelucrate pe căi distincte. De fapt, semnalele R–Y
şi B–Y (fără impulsuri de stingere şi sincronizare) se codează, rezultând semnale codate
NTSC, PAL, respectiv SECAM, care apoi se adaugă la semnalul video complex Y (care
conţine semnalul de stingere şi de sincronizare), rezultând, astfel, semnalul video complex
de culoare, SVCC.
Realizarea transmisiei celor trei semnale primare în lărgimea de bandă alocată
canalului video, se bazează pe observaţia că spectrele de frecvenţe ale semnalelor Y , R–Y
şi B–Y sunt spectre discrete, formate din pachete de linii spectrale centrate pe multipli ai
frecvenţei liniilor (figurile 4.12.a şi b). Mai mult, între pachetele de linii spectrale
alăturate ale semnalului de luminanţă, cu frecvenţă centrală relativ mare (peste 1,5
MHz), există intervale libere, care se pot ocupa, prin intercalarea (întreţeserea) pachetelor
de linii spectrale ale semnalului de crominanţă modulat, C, adică limitat şi translatat în
domeniul frecvenţelor superioare, între pachetele de linii spectrale ale semnalului de
luminanţă Y (figurile 4.12. a, c şi d).
Ca urmare, semnalul video complex de culoare, Y+C, obţinut prin însumarea
semnalelor de luminanţă şi de crominanţă modulat, ocupă aceeaşi bandă de frecvenţe ca
semnalul video complex în sistemul TV în alb-negru.

Fig. 4.12. Intercalarea spectrelor de frecvenţe în sistemul TV în culori:


a) semnalul de luminanţă; b) semnalele diferenţă de culoare;
c) semnalul de crominanţă modulat; d) semnalul SVCC.

Semnalul de crominanţă modulat se obţine folosind ca suport o subpurtătoare, numită


de crominanţă, fsp , care este modulată în amplitudine şi în cuadratură cu cele două
semnale diferenţă de culoare (sistemele NTSC şi PAL), sau în frecvenţă, cu câte un semnal
diferenţă de culoare, şi transmiterea alternativă a acestora (sistemul SECAM). Prin
modulaţie se asigură translatarea tuturor componentelor spectrale ale semnalelor diferenţă
de culoare în partea superioară a spectrului de frecvenţe al semnalului de luminanţă, cu
frecvenţa subpurtătoarei de crominanţă (figura 4.13).


fH fsp fH f

2fH 2fH

Fig. 4.13. Spectrul de frecvenţe al semnalului de crominanţă modulat în amplitudine (MA-


PS).

Dacă frecvenţa subpurtătoarei se alege egală cu un multiplu impar al jumătăţii


frecvenţei de linii fH , adică:
fH
f sp 2m 1 m 0,5f H (4.17)
2
pachetele de linii spectrale ale semnalului de crominanţă modulat, C (figura 4.13) se vor
plasa, la jumătatea intervalelor libere, între pachetele de linii spectrale ale semnalului de
luminanţă, Y (figura 3.12.d).
Semnalul video complex de culoare conţine şi un semnal pentru prelucrarea
corectă a informaţiei de culoare transmise. El este plasat pe palierul posterior al
impulsurilor de stingere.
În sistemul PAL acest semnal este cunoscut sub denumirea de semnal de
sincronizare a culorii (sau "burst"), SC , şi are rolul de a regenera în receptor
subpurtătoarea de crominanţă, adică un semnal sinusoidal cu frecvenţa fsp. Pentru
realizarea acestei cerinţe, în componenţa semnalului video complex de culoare se
transmite, pe palierul posterior al impulsurilor de stingere pe orizontală (palierul posterior
impulsului de sincronizare linii) un semnal, sub forma unei salve de sinusoide (tren de 8÷10
sinusoide), având frecvenţa subpurtătoarei fsp .
În sistemul SECAM, pe palierul posterior al impulsurilor de stingere pe orizontală
se transmit semnale având frecvenţele subpurtătoare fOR, respectiv fOB, corespunzătoare
secvenţei liniilor ce se transmit, avându-se în vedere transmisia succesivă a semnalelor de
culoare. În sistemul SECAM, suplimentar, se transmite aşa- numitul semnal de
identificare a culorii, IC, pe durata a nouă linii a impulsului de stingere pe verticală,
care are rol în recunoaşterea ordinii de transmitere a semnalelor diferenţă de culoare.

4.5. Structura unui sistem TV în culori compatibil


4.5.1. Structura părţii de emisie

Cu toate că sistemele TV în culori sunt incompatibile între ele, toate sistemele de


televiziune în culori compatibile prezintă, în principiu, aceeaşi structură, atât la emisie
cât şi la recepţie, întrucât ele funcţionează după aceleaşi principii:
• achiziţia semnalului în formatul RGB de către camera TV;
• utilizarea semnalelor primare de transmisie Y, R–Y, B–Y ;
• formarea semnalului de crominanţă modulat C ;
• intercalarea spectrelor la formarea semnalului SVCC;
• separarea la recepţie a semnalelor de luminanţă şi de crominanţă modulat
şi prelucrarea lor separată;
• comanda tubului cinescop în unul din formatele: Y, R–Y, G–Y, B–Y sau
RGB.
În figura 4.14 se prezintă structura părţii de emisie a unui sistem TV în culori
compatibil. Ea funcţionează după principiile prezentate mai sus şi care sunt sintetizate în
descrierea ce urmează.

Fig. 4.14. Structura părţii de emisie a unui sistem TV în culori.


Transformarea imaginii optice în semnalele de culoare primare R, G, B are loc în
camera TV tricromă, a cărui structură a fost prezentată în figura 4.5. Cu ajutorul
circuitelor de matriciere MY , MR-Y şi MB-Y se obţin semnalele primare de transmisie Y,
R–Y şi, respectiv, B–Y, pe baza relaţiilor (4.12) şi ( 4.15). Banda de frecvenţe a semnalelor
diferenţă de culoare este limitată de către filtrele trece-jos (FTJ) la cel mult 1,5 MHz.
Pentru a se realiza compatibilitate de transmisie, spectrele semnalelor diferenţă de culoare
trebuie translatate, din domeniul 0÷1,5 MHz, în regiunea superioară a spectrului de
frecvenţe al semnalului de luminanţă, pentru a se ocupa spaţiile libere existente. În acest
scop se modulează o subpurtătoare de crominanţă, de frecvenţă fsp, cu semnalele diferenţă
de culoare în blocul modulator (Mod.), rezultând semnalul de crominanţă modulat, C. Dacă
frecvenţa subpurtătoarei se alege egală cu un multiplu impar al jumătăţii frecvenţei de linii,
componentele spectrale ale semnalului de luminanţă modulat, C, se vor plasa între
componentele spectrale ale semnalului de luminanţă Y.
În sistemele NTSC şi PAL subpurtătoarea este modulată simultan cu cele două semnale
diferenţă de culoare, folosind o modulaţie în cuadratură, ce afectează doi parametri ai
purtătoarei, amplitudinea şi faza. În aceste condiţii, cele trei semnale, de luminanţă şi cele
două semnale diferenţă de culoare, se transmit simultan.
În sistemul SECAM se folosesc două subpurtătoare, care sunt modulate în frecvenţă cu
câte un semnal diferenţă de culoare, realizându-se o transmitere secvenţială a semnalelor
diferenţă de culoare (pe durata fiecărei linii se transmite un singur semnal diferenţă de
culoare). Ca urmare, în sistemul SECAM se asigură o transmitere simultană pentru
semnalul de luminanţă şi unul din semnalele diferenţă de culoare.
La ieşirea etajului sumator Σ se obţine semnalul video complex de culoare, Y+C, codat
NTSC, PAL sau SECAM, prin însumarea semnalului de crominanţă modulat cu semnalul
de luminanţă, căruia în prealabil i s-a adăugat semnalul de stingere şi sincronizare,
SH+V , şi semnalul pentru prelucrarea corectă a informaţiei de culoare transmise (semnalul
de sincronizare a culorii, SC , în sistemul PAL, respectiv, semnalul de sincronizare şi de
identificare a culorii, IC , în sistemul SECAM). Banda de frecvenţe a semnalului SVCC este
limitată superior, conform normei TV (6 MHz, respectiv 5 MHz), de către un filtru trece-
jos montat la ieşirea etajului sumator.
Procedeul prin care s-a realizat translatarea spectrelor semnalelor diferenţă de culoare,
intercalarea acestora în spectrul semnalului de luminanţă şi s-a obţinut semnalul video
complex de culoare poartă numele de codare. Blocul care efectuează aceste operaţii,
asigurând compatibilitatea între sistemele TV în culori şi în alb-negru se numeşte codor.
Funcţie de sistemul TV în culori folosit, codorul poate să fie NTSC, PAL, respectiv
SECAM. El poate să fie încorporat în camerele TV sau poate să fie livrat ca unitate
separată.
Pentru a transmite semnalul video complex de culoare de la emisie la recepţie, se foloseşte un
emiţător de televiziune (numit şi emiţător de imagine). Semnalul SVCC modulează în
amplitudine o purtătoare de radiofrecvenţă, numită purtătoare de imagine (semnal sinusoidal
având frecvenţa postului de emisie, fpi). În acest fel se asigură ca semnalul de televiziune
(semnal RF-MA cu semnalul SVCC) să ocupe banda de frecvenţe alocată canalului TV.
Cu alte cuvinte, purtătoarea de radiofrecvenţă are doar rolul de suport. În cazul televiziunii
radiodifuzate, semnalul de televiziune se aplică antenei de emisie, pentru a se propaga la
distanţă prin unde radio terestre, iar în cazul televiziunii pe cablu, se transmite prin cablu
coaxial sau prin fibră optică direct la utilizator.

4.5.2. Structura părţii de recepţie

În figura 4.15 se prezintă structura părţii de recepţie a unui sistem TV în culori


compatibil. Ea funcţionează conform cu principiile prezentate la realizarea structurii părţii
de emisie şi care sunt sintetizate în descrierea ce urmează.

Fig. 4.15. Structura părţii de recepţie a unui sistem TV în culori.


La recepţie, semnalul de radiofrecvenţă modulat în amplitudine cu semnalul video
complex de culoare se aplică la intrarea blocului de radiofrecvenţă, cunoscut şisub numele
de selector de canale. Acesta constă, în principal, dintr-un amplificator de radiofrecvenţă,
ARF, şi un etaj schimbător de frecvenţă, SF.
După selectorul de canale urmează calea comună imagine-sunet, care constă, în principal,
dintr-un amplificator de frecvenţă intermediară, AFIIS, şi un demodulator video, DV, care
au rolul de a amplifica semnalul de televiziune şi de a extrage din acesta semnalul video
complex de culoare, Y +C.
În decodor se realizează separarea semnalelor de luminanţă, Y, şi de crominanţă
modulat, C, din semnalul video complex de culoare, precum şi prelucrarea lor separată în
vederea asigurării comenzii tubului cinescop în unul din formatele: Y, R–Y, G–Y, B–Y sau
RGB.
Filtrul trece-jos, FTJ, separă din semnalul SVCC semnalul de luminanţă, Y, care,
după ce este amplificat, comandă, în catod, tubul cinescop al receptorului TV. Fie că se
foloseşte un filtru trece-jos, fie că se foloseşte un filtru de rejecţie centrat pe
subpurtătoarea fsp , cu rol de a elimina componentele de crominanţă, se elimină şi unele
componente din spectrul semnalului de luminanţă. Pentru a elimina numai componentele de
crominanţă, în decodoarele mai pretenţioase se foloseşte un filtru de tip pieptene, care
extrage pachetele de linii spectrale ale semnalului de luminanţă, atenuând în mod
corespunzător pachetele de linii spectrale ale semnalului de crominanţă modulat.
Filtrul trece-bandă, FTB, centrat pe frecvenţa subpurtătoarei de crominanţă, fsp,
separă din semnalul SVCC semnalul de crominanţă modulat, C. În acest circuit se
extrage şi semnalul de sincronizare a culorii, SC , în decodorul PAL, respectiv, semnalul de
identificare a culorii, IC , în decodorul SECAM.
Semnalul de crominanţă C este demodulat în circuitele demodulatoare (Demod.),
realizându-se, astfel, separarea semnalelor diferenţă de culoare R–Y şi B–Y din semnalul de
crominanţă modulat. Decodorul PAL conţine demodulatoare sincrone video, iar decodorul
SECAM – demodulatoare de frecvenţă. Subpurtătoarea de crominanţă este reconstituită
într-un oscilator local, sincronizat în fază şi frecvenţă de către semnalul de sincronizare al
culorii SC. Semnalul diferenţă de culoare G–Y se obţine în decodorul receptorului TV cu
circuitul de matriciere MG–Y , pe baza relaţiei (4.17).
Aplicând semnalul de luminanţă Y pe catozii celor trei tunuri electronice ale tubului
cinescop tricrom şi semnalele diferenţă de culoare pe grilele de comandă
corespunzătoare, se modulează în intensitate cele trei fascicule de electroni cu semnalele
primare de culoare corespunzătoare R,, G şi, respectiv, B.
Semnalele R, G, B se pot obţine şi prin matricierea semnalelor Y, R–Y şi B–Y în
matricea MRGB . Comanda tubului cinescop cu semnalele R, G, B se poate face în două
variante:
• fie pe grilele de comandă ale tubului cinescop tricrom, catozii fiind
conectaţi la o tensiune fixă pozitivă;
• fie pe catozii tubului cinescop, în care caz polaritatea lor trebuie să fie
negativă, grilele de comandă fiind conectate la o tensiune fixă negativă.
Amplificatoarele finale video au rolul de a amplifica semnalele R, G, B de la ieşirea
matricei de decodare până la valoarea necesară funcţionării tubului cinescop (circa 100
VVV), asigurând şi polaritatea negativă a semnalelor. Amplificările în cele trei canale de
amplificare pot fi ajustate, pentru obţinerea impresiei de incolor în cazul redării tonurilor de
gri ale imaginii.
Blocarea tubului cinescop pe cursele de întoarcere pe orizontală şi pe verticală se
poate realiza prin blocarea amplificatoarelor finale video cu impulsuri de frecvenţa liniilor
şi a cadrelor. De asemenea, nivelul de curent continuu al fiecărui semnal de ieşire poate fi
prereglat individual.
Sistemul vizual uman va percepe culoarea rezultată din amestecul aditiv al
radiaţiilor luminoase de roşu, verde şi albastru emise de triada de luminofori excitată, într-o
proporţie bine precizată, de cele trei fascicule de electroni, comandate de semnalele primare
de culoare corespunzătoare R, G şi, respectiv, B.
Semnalul SVCC se transmite şi la blocul de baleiaj al receptorului TV, pentru a se extrage
semnalul complex de sincronizare, S(H)+S(V). Aceste semnale sunt necesare pentru a asigura
sincronizarea baleiajelor pe orizontală şi pe verticală.
4.7. Întrebări şi probleme

1. Care sunt culorile complementare şi prin ce se caracterizează?


2. Cum se poate obţine albul într-un sistem TV în culori?
3. Care sunt principalele modele de reprezentare a culorilor şi prin ce se
deosebesc între ele?
4. Care sunt principalele cerinţe de compatibilitate impuse între sistemele de
televiziune în alb-negru şi în colori?
5. Care este efectul corecţiei de gamma asupra imaginii?
6. Ce sunt distorsiunile de apertură şi care este principiul corecţiei acestora?
7. Care sunt semnalele primare de transmisie într-un sistem de televiziune în
culori?
8. Să se reprezinte formele semnalelor primare de transmisie pentru o linie în
cazul unei imagini complet roşii, şi, respectiv, în cazul unei imagini formată din două bare
verticale, una albastră şi cealaltă mov.
9. Cum se obţine semnalul video complex de culoare şi care este criteriul de
alegere a frecvenţei subpurtătoarei semnalului de crominanţă?
10. Care sunt principiile care stau la baza funcţionării unui sistem TV în culori?
11. Cum poate fi comandat tubul cinescop tricrom în vederea refacerii imaginii?
12. Pe ţinta fotoconductoare a tubului vidicon a unei camere TV în alb-negru
(având caracteristica spectrală de forma celei prezentate cu linie întreruptă în figura 5.6)
se proiectează imaginea color din figura 5.16. Să se reprezinte la scară forma semnalului
video complex pentru linia de explorare x–x, obţinută la ieşirea camerei TV.

Fig. 4.16.
R: Se are în vedere strălucirea barelor color din imagine.
13. Dacă imaginea din figura 4.16 este captată cu o cameră TV tricromă, să se
determine: a) valorile semnalelor video de la ieşirea camerei, corespunzătoare barelor ce
compun imaginea; b) să se reprezinte la scară forma semnalului de luminanţă şi a
semnalelor diferenţă de culoare de-a lungul liniei de explorare x–x.
R: a) Valorile semnalelor Y , R–Y , B–Y date în tabelul 4.2.
104

S-ar putea să vă placă și