Sunteți pe pagina 1din 15

Curs 6 - Compresia surselor de informatie folosind modele perceptuale

Continut
Aspecte specifice surselor audio (1D) si imagine (2D)
Debitul de informatie al surselor audio
Motivatia compresiei audio
Motivatia compresiei vorbirii
Schema bloc a unui sistem cu CODEC audio.
Structura aparatului auditiv si modelarea acestuia
Codarea perceptuala
Compresia vorbirii
Tehnici de compresie prin prelucrari elementare
Compresia vorbirii prin metoda LPC
Compresia vorbirii prin metoda CELP
Compresia imaginilor. Elemente de perceptie
Concluzii
Tema de casa
1. Aspecte specifice surselor audio (1D) si imagine (2D)
1.1. Debitul de informatie al surselor audio
Clasele de semnale audio generate de vorbirea umana pot fi pentru pentru canale
telefonice, vorbirea de banda larga, semnalul audio de banda larga, care difera fiecare dintre
ele prin banda, gama dinamica (dynamic range), si calitatea asteptata a ascultatorului
(destinatarului).
Calitatea vorbirii de banda telefonica (cca. 3 kHz) este acceptabila pentru telefonie si o
serie de servicii de video-telefonie. Benzi mai mari (7 kHz pentru vorbirea de banda larga)
sunt necesare pentru imbunatatirea inteligibilitatii si naturaletii vorbirii. Reprezentarile audio
de banda larga (fidelitate mare) necesita benzi de cel putin 20 kHz.
Formatul numeric conventional al acestor semnale este dat de modulatia in cod a
impulsurilor (PCM= Pulse Code Modulation), cu rate de esantionare si rezolutie de
amplitudine (PCM bits per sample) exemplificate in tabelul 1.
Tabel 1 - Parametrii de baza pentru codarea PCM a vorbirii si a semnalelor audio
Gama
Frecventa
PCM
Debitul de inf
Clase de semnale
Frecventa [Hz]
de esantionare [kHz]
[bit / esantion]
[kb/s]
Vorbire
telefonie
300-3400
8
8
64
Vorbire
de banda larga
50-7000
16
8
128
Audio
banda medie
10-11000
24
16
384
Audio
banda larga
10-22000
48
16
768

Formatul pentru CD(Compact disc) este standardul de facto al reprezentarii audio


numerice. Cu rata de esantionare de 44.1 kHz, debitul de informatie pentru un semnal stereo
pentru un CD este 2 x 44.1 x 16 x 1000 = 1.41 Mb/s, asa cum se prezinta in tabelul 2.
Tabel 2 Debitele pentru CD (Semnal stereo, esantionat cu 44.1 KHz)
Dispozitiv
Rata audio
Over-head
Rata binara totala
de memorare
[Mb/s]
[Mb/s]
[Mb/s]
Compact disc CD
1.41
2.91
4.32

Observatie: Pentru arhivarea si stocarea semnalelor audio, se folosesc rate de esantionare de


doua ori mai mari ca cele mentionate si rezolutii de amplitudine de 24 biti/esantion. Acestea

Compresia datelor

nu folosesc compresia cu pierdere de informatie. In acest caz, ca suport de stocare, se folosesc


DVD (Digital Video Disk or Digital Versatile Disk) cu capacitati de 4.7 GB (un strat) sau 8.5
GB pentru dublu strat.
Exista multe diferente intre codarea vorbirii si a semnalului audio. Codarea audio
implica rate de esantionare mai mari, o rezolutie in amplitudine mai buna, gama dinamica
mare, variatii mari in spectrul de putere, reprezentare stereo si multicanal, si in final
calitate mai buna.
Codarea vorbirii si codarea audio sunt similare in sensul ca ambele pot folosi
proprietatile perceptiei audio umane. Pe de alta parte, vorbirea poate fi codata foarte eficient
prin utilizarea unui model de producere a sunetului, pe cand semnalele audio nu se preteaza la
aceasta prelucrare.
1.2. Motivatia compresiei audio
Urmatorul exemplu doreste sa justifice necesitatea compresiei informatiei audio. Fie o
melodie cu durata de 1 minut. In conditii de calitate CD, semnalul audio este esantionat cu
frecventa de 44.1 kHz (deci, 44100 esantioane/secunda), este semnal stereo, si are 16 biti pe
esantion. In format binar (wav), rezulta un necesar de memorie (sau de stocare) de:
44.100 esantioane / s * 2 canale * 16 bit / esantion * 60 s = 84.672.000 biti = 10,584 MBytes
O melodie modesta de cateva minute, de exemplu 3-4 minunte, va ocupa un spatiu de
10,584 MBytes * 3-4 min. = 31.752 42.336 MB
Pentru un album cu 10 melodii rezulta un necesar de memorie de
10 melodii * 40 MB = 400 MB
ceea ce este cam mult pentru majoritatea utilizatorilor obisnuiti.
Daca se considera problema transmiterii pe un canal internet a unei singure melodii,
pe o conexiune cu viteza de 64 kbit/s, este necesar un timp de
[10,584 MBytes * 8 bit/Byte] / [64 kbit/s * 60 s/min ] = 22.05 min.
ceea ce este iarasi destul de mult pentru un utilizator obisnuit.
Utilitarele de compresie a semnalelor audio (mp3, mp4, mp3pro, etc) realizeaza
rapoarte de compresie de pana la 10 ori, fara pierderea calitatii subiective a semnalului, astfel
incat timpul transmiterii se poate reduce la 2 min, ce poate fi acceptabil. Rezulta importanta
deosebita a construirii, dezvoltarii si utilizarii unor instrumente de compresie a surselor
(fisierelor) audio.
1.3. Motivatia compresiei vorbirii
Codarea vorbirii este un aspect important al telecomunicatiilor moderne. Codarea
vorbirii inseamna procesul de reprezentare numerica a semnalului vorbire. Obiectivul de baza
al codarii vorbirii este de a reprezenta semnalul vorbire cu un numar mic de biti, cu
mentinerea unui nivel de calitate suficient pentru refacerea vorbirii originale cu un grad de
dificultate rezonabil.
Compresia vorbirii are o trasatura distincta fata de compresia audio in sensul ca
vorbirea este folosita si ca limbaj de interogare/dialog cu sistemele computerizate.

Compresia surselor de informatie folosind modele perceptuale

Semnalul vorbire este un semnal analogic s(t) care se esantioneaza mai intai cu o
frecventa de esantionare ts 2fmax, unde fmax este frecventa maxima din spectrul semnalului
s(t). Semnalul discret va fi notat cu s(n).
1.4. Necesitatea compresiei imaginilor
Transmisia si memorarea imaginilor necesita capacitati de memorie foarte mari. In
figura 3 se prezinta necesarul de memorie pentru diferite formate de imagine. De exemplu,
numai pentru nivele de gri cu 256 de valori pentru un pixel, un cadru de imagine in format
SVGA necesita 800*600*8biti / (8 biti /Octet) = 500 kB iar pentru HDTV este nevoie de
2MB.
Complexitatea problemei creste daca se considera imaginile color unde fiecare pixel
are nevoie de inca 3 cuvinte (octeti, de exemplu) pentru informatiile de culoare RGB. Daca se
doreste transmisia unei astfel de imagini pe un canal telefonic cu viteza de 10 kbs este nevoie
de o durata
T = (800 pixeli * 600 pixeli * 8 biti * 3 culori ) / ( 10 Kb / s) / 60 s / min)= 19.2 min.
In cazul imaginilor dinamice, cum este cazul televiziunii, debitul de informatie poate ajunge
la 10 MB/s cee ce necesita canale speciale de transmisiune si capacitati foarte mari de
memorare. De exemplu, un cadru de 512 x 512 pixeli, cu 8 biti pe culoare si 30 de cadre pe
secunda, o imagine digitala are un debit de informatie de:
512 * 512 * 8 *3 * 30 = 188 Mb /s = 23 MB /s.
Obiectivul compresiei imaginilor este de a reduce numarul de biti pentru a memora sau/si a
transmite imaginile astfel incat la receptie sa fie refacute fara distorsiuni majore.

Figura 3 Comparatie intre dimensiunile imaginilor


Aplicatiile tipice pentru compresia imaginilor sunt: televiziunea, comunicatii pentru
telemasura, teleconferinte, transmisii fax. Stocarea (memorarea) imaginilor este necesara
mai ales - in aplicatiile medicale sau in aplicatiile de instruire.
Redundanta unei imagini depinde de o serie de parametri tehnologici, adica de
sistemul ce utilizeaza imagini si se refera la frecventa de esantionare, numarul de niveluri de
cuantizare, si de prezenta si tipul de zgomot.

Compresia datelor

Raportul de compresie arata raportul dintre numarul de biti pentru reprezentarea


imaginii originale si numarul de biti necesar pentru reprezentarea imaginii comprimate.
Prezenta unui zgomot in imaginea originala va reduce corelatia dintre pixeli si determina
scadarea raportului de compresie posibil a fi obtinut. Acelasi lucru se intampla si in cazul
cresterii numarului de nivele de cuantizare, cand iarasi se reduce corelatia dintre pixeli si,
deci, raportul de compresie poate sa fie mai mic.
2. Structura aparatului auditiv si modelarea acestuia
Asa cum se prezinta in figura 4, sistemul auditiv uman are un maxim de sensibilitate in
domeniul 2-4 kHz. Existenta unui prag de audibilitate sugereaza o posibilitate de a realiza o
compresie cu pierdere de informatie, prin eliminarea esantioanelor cu valoare sub pragul
auditiei. Intrucat pragul depinde de frecventa, trebuie ca blocul CODEC sa cunoasca in
permanenta spectrul semnalului voce prelucrat. Principiul general este ca toate componentele
care nu se aud nu se mai transmit.
In afara de acest aspect, mai sunt doua fenomene ce pot fi folosite la compresie:
mascarea frecventelor (frequency masking) si mascarea temporala (temporal masking).
In Fig. 4b, componenta reprezentata cu sageata arata o sursa puternica la 8 kHz. Sursa
creste pragul normal de audibilitate in vecinatatea sa, confrom curbei punctate. Ca efect,
sunetele audibile invecinate, aflate acum sub curba punctata, devin inaudibile. O metoda de
compresie trebuie sa identifice aceste modificari si sa stearga, deci sa nu mai transmita,
semnalele sub pragul de audibilitate. Acesta este una din caile de compresie bazate pe
perceptie.

Figura 4 Praguri de mascare a sunetului

Compresia surselor de informatie folosind modele perceptuale

Figura 5: (a) mascarea frecventelor (b)- model simplu de mascare


Mascarea temporala poate sa apara cand un semnal puternic A de frecventa f este
precedat sau urmat in timp de un semnal B mai puternic cu aceeasi frecventa sau apropiata.
Daca intervalul de timp de timp dintre sunetele A si B este mic, atunci sunetul B s-ar putea sa
nu se auda. Figura 6 prezinta un exemplu de mascare temporala. Pragul de mascare temporala
din cauza unui sunet puternic aparut la momentul de timp 0 se duce spre zero mai intai
puternic apoi lent. Un sunt mai slab de 30 dB nu va fi auzit daca apare inainte sau dupa
sunetul puternic la un interval de 10 ms, dar va fi audibil daca intervalul de timp este mai
mare de 20 ms.

Figura 6 Fenomenul de mascare temporala


3. Compresia audio bazata pe modelul perceptiei audio (Perceptual coding)
3.1. Codarea perceptuala
Schema de baza a unui codor-decodor audio1, bazat pe model, este prezentata in figura
7. Se remarca existenta unui model care modeleaza aparatul auditiv. Acesta furnizeaza o
aproximare a mecanismelor de perceptie ale urechii umane, asa cum s-a descris anterior.

Figura 7.a - Structura de baza a unui codor decodor audio


1

AUDIOCODEC sau CODEC Audio

Compresia datelor

In etajul de reprezentare al semnalului are loc reducerea redundantei semnalului. In


codarea vorbirii, un model fizic al tractului vocal este folosit pentru definirea parametrilor
vorbirii. Acesti parametrii, impreuna cu informatia reziduala, sunt codati. In timp ce aceasta
tehnica permite obtinerea unor rapoarte de compresie foarte mari, nu este foarte eficienta cu
semnale muzicale pentru ca este foarte dificil sa se modeleze bine toate sursele posibile de
muzica.
In codarea audio, reprezentarea din domeniul timp a semnalului este tipic transformata
intr-o reprezentare timp-frecventa cu ajutorul unui banc de filtre (cascada de filtre). In acest
caz, iesirile din domeniul frecventa ale bancului de filtre furnizeaza reprezentarea primara a
semnalului. Prin alocare de bit se intelege calculul numarului de biti pentru reprezentarea
semnalului. Semnalele cu gama dinamica mare necesita un numar mai mare de biti in
comparatie cu semnalele cu gama dinamica mica.
3.2. Codarea pe subbenzi
Ideea este codarea pe subbenzi separate, in domeniul frecventa. Structura este asemanatoare
cu structura sistemului auditiv al omului, in ceea ce priveste descompunerea in filtre trece
banda. Astfel, zgomotul de cuantizare ramane in interirul benzii si nu afecteaza alte benzi.

Figura 7.b: Codarea subnezii


4. Compresia vorbirii
Clasificarea si performantele generale ale vocoderelor sunt prezentate in figura 8.
Vocoderele sunt CODEC-uri audio bazate pe mecanismul de generare a sunetelor de sistemul
de vorbire uman (metodele de codare LPC, CELP).

Figura 8: Calitatea vorbirii in raport cu debitul de informatie al CODEC-urilor vorbirii


(VOCODERE)

Compresia surselor de informatie folosind modele perceptuale

Waveform CODEC-urile se refera la principii de compresie fara sa tina seama de sursa


sunetelor emise (metodele de codare diferentiala, ex, DPCM, ADPCM). CODEC-urile hibride
au la baza ambele metode de codare, aproximarea formei de unda dar si aspectele specifice
sistemului auditiv uman.
5. Masuri de apreciere cantitativa a distorsiunilor
Masurile de apreciere cantitativa nu sunt cele mai importante in evaluarea calitatii unei
imagini reconstruite dupa compresie. Se folosesc numai pentru evaluarea eficientei codarii a
diferitilor algoritmii. Masurile de baza se bazeaza pe raportele semnal-zgomot si pe eroarea
patratica medie.
Fie o imagine de dimensiune NxM. Fie s(i,j) intensitatea imaginii in punctul aflat la
intersectia liniei i cu coloana j si s( i , j ) intensitatea imaginii refacute in acelasi punct.
Urmatoarele marimi sunt cele mai importante:
Eroarea patratica medie (MSE = Mean Square Error)

MSE E s( i , j ) s( i , j )2

1 N M
s( i , j ) s( i , j )2

MN i 1 j 1

(1)

Eroarea patratica medie normata (NMSE = Normalized Mean Square Error) se obtine din
MSE prin raportare la energia semnalului de la intrare

NMSE

N M

E s( i , j ) s( i , j )

E s( i , j )

s( i , j ) s( i , j )2

i 1 j 1

(2)

N M

s( i , j )2

i 1 j 1

sau prin raportare la intensitatea imaginii varf-varf

NMSEP

E s (i, j ) s(i, j )2
x 2pp

x 2pp

(3)

Eroarea absoluta medie (MAE = Mean Absolute Error)

MAE Es( i , j ) s( i , j )

1 N M
s(i, j ) s(i, j )2
NM i 1 j 1

1 N M
s( i , j ) s( i , j )
MN i 1 j 1

(4)

Eroarea absoluta medie normalizata (NMAE = Normalized Mean Absolute Error)


N M

NMAE

Es( i , j ) s( i , j )
E s( i , j )

s( i , j ) s( i , j )

i 1 j 1
N M

s( i , j )

i 1 j 1

(5)

Compresia datelor
6. Masuri de apreciere calitativa a distorsiunilor

Pentru evaluari subiective, se considera un grup de observatori, considerati experti in


codarea imaginilor, analizeaza imaginile originale si procesate in conditii de iluminare si de
distanta adecvate. Se calculeaza un scor mediu al opiniilor (Mean of Opinion Score - MOS)
pe baza unui scari de apreciere, asa cum este de exemplu in Tabelul 1.
Tabel 1 Exemplu de scara de apreciere subiectiva
Nr.
Opinia
Scor
1.
Imperceptibila
7
2.
Abia perceptibila
6
3.
Perceptibila dar nu afecteaza imaginea
5
4. Afecteaza imaginea dar nu este deranjanta
4
5.
Putin deranjanta
3
6.
Deranjanta
2
7.
Intolerabila
1
Exemplu: Figura de mai jos prezinta patru imagini cu niveluri de la 0 la 255. Dimensiunile
imaginilor sunt de 200 x 200. Imaginile au indicii de calitate (similaritate), dupa formatul jpg,
de 90%, 40%, 10% si 1% in raport cu imaginea de referinta (necomprimata).

Compresia surselor de informatie folosind modele perceptuale

7. Compresia vorbirii bazata pe predictia parametrilor medelului


(Linear Prediction Coefficients- LPC)
7.1. Aspecte de baza
LPC provine de la Linear Predictive Coding si este una din tehnicile comune codare a
vorbirii. LPC exploateaza redundanta semnalului vorbire prin mecanismul de generare a
vorbirii: un filtru liniar excitat de un semnal numit semnal de excitatie. Semnalul excitatie se
mai numeste si semnal rezidual. Codoarele pentru vorbire prelucreaza un grup de esantioane,
numit cadru sau segment.

(a)

(b)

Figura 1: (a) semnal vara voce si (b) semnal cu voce


Modelului de vorbire prezentat in figura 1 are doua moduri de functionare. In primul
mod, comutatorul K este in pozitia a si se genereaza fonemele sonore. Semnalul excitatie este
constituit dintr-o serie de impulsuri dreptunghiulare cu perioada Tp, Ts este frecventa de
esantionare. Al doilea mod de lucru necesita comutatorul K in pozitia b, si corespunde
fonemelor insonore. Exista trei filtre care modeleaza efectele glotei, ale tractului vocal si al
radiatiei sonore (efectul buzelor). Multiplicarea cu constanta G este pentru modificarea
intensitatii.
In aplicatiile practice se utilizeaza o schema mai compacta, asa cum se prezinta in
figura 1, unde cele trei filtre sunt inlocuite cu unul singur, H(z).

10

Compresia datelor

Figura 1 Modelul vorbirii

Figura 2 Reprezentarea simplificata a procesului vorbirii


Pentru filtru, care este un filtru de generare a semnalului vorbire s(n), se poate folosi structura
ARMA(p,q) (Autoregressive Moving Average). Esantionul vorbirii s(n) este modelat ca o
combinatie liniara a iesirilor vechi si prezente si a intrarilor vechi, dupa relatia:
p

k 1

k 0

s (n) a k s (n k ) G bk u (n k ), b0 1

(1)

unde G este castigul filtrului si {ak, bk} sunt parametrii modelului. Numarul p implica
folosirea a p esantioane trecute, si se numeste ordinul predictiei liniare. Functia de transfer
H(z) a modelului se obtine prin aplicarea transformatei in z ecuatiei (1):

H ( z)

S ( z)
G
U ( z)

1
1

bk z k

k 1
p

(2)

ak z k

k 1

ceea ce arata un model de tip poli-zerouri. In spectrul vorbirii, nazalele sunt reprezentate de
zerouri si formantii sunt reprezentati de poli.
Pentru cazul numai a unui model AR(p) avem relatia
p

s ( n) a k s ( n k ) G u ( n)
k 1

Coeficientii {ak} sunt numiti coeficientii LP ai filtrului liniar.

(3)

Compresia surselor de informatie folosind modele perceptuale

11

Codorul vorbirii calculeaza coeficientii filtrului si semnalul de excitatie pentru fiecare


cadru. Coeficientii filtrului sunt calculati pentru a asigura minimizarea erorii de aproximare
(energia erorii), pe durata fiecarui cadru. Un astfel de filtru se numeste filtru LP analizor.
Semnalul rezultant se numeste semnal rezidual pentru acel cadru particular.
La decodare, filtrul LP lucreaza ca un filtru de sinteza, in timp ce semnalul rezidual
actioneaza ca semnal de excitatie pentru filtrul de sinteza. Tipic, se folosesc rate de
esantionare de 8 kHz iar lungimea cadrului este de 20 ms, astfel incat exista 160 esantioane in
fiecare cadru. Se gaseste ca un filtru de ordinul 10 este suficient pentru modelarea anvelopei
spectrale pentru o rata de esantionare de 8 kHz, decodorul lucreaza cu 12 parametri (10
coeficienti, castigul fitrului si perioada impulsurilor de excitatie)
7.2 Calculul coeficientilor prin metoda autocorelatiei

Mai intai, semnalul vorbire s(n) este multiplicat cu o fereastra w(n) pentru a obtine un
segment de vorbire ponderat sw(n), dupa relatia
s w (n) w(n) s (n)

(1)

Al doilea pas este minimizarea energiei semnalului rezidual. Energia reziduala se obtine cu
expresia
p

E e ( n) s w ( n) a k s w ( n k )

n
n
k 1

(2)

Valorile parametrilor {ak} care minimizeaza energia E se gasesc prin calcularea derivatelor
E
0, pentru k 1,..., p , de
partiale ale lui E in raport cu {ak} si egalarea lor cu zero,
a k
unde rezulta un set de p ecuatii cu p necunoscute
p

ak

k 1

s w (n i)s w (n k )

s w (n i)s w (n),

1 i p

(3)

In ultima ecuatie, semnalul ponderat sw(n)=0 in afara ferestrei de filtrare. Setul de ecuatii
liniare poate fi scris matricial sub forma
R(0)
R(1)

R( p 1)

R(1)
R(0)

R( p 2)

R( p 1) a1
R (1)
a

R(2)
R( p 2) 2

R(0) a p
R( p)

(4)

Ultima ecuatie poate fi scrisa matricial sub forma


R a r

(5)

a R 1 r

(6)

cu solutia

12

Compresia datelor

7.3. VOCODEC LPC-10


O varianta standard a vocoderului LPC este vocoderul LPC-10, ce lucreaza pentru
semnale vorbire in domeniul (100-3600 Hz), la un debit de 2.4 kbps (22.5 ms per cadru, 54
biti / cadru, 8kHz frecventa de esantionare. Debitul = Nr. Cadre in 1 s * 54 bit = 44.4 * 54
=2400 bps). Calitatea LPC-10 exprimata ca MOS (Mean Opinion Score) este 2.2.
Structura unui cadru in cazul LPC este
LPCF = [ LPC,
TF = 20e-3;
NSF = TF * fs;

Gain,

V / UV

T];

% frame period..16 to 25 ms
% number of samples in a frame = 160

Lungimea cadrului comprimat este: 10 coef.+ 1 nr. + 1 bit + 1 bit + 1 nr


Raportul de compresie

RC

160samples * 8bits
1280

14.22
10 * 8bits 1 1 8bits
90

Intervalul de valori admisibil pentru frecventele fundamentale este limitat la [50, 400]
Hz. Caracterul Voiced/Unvoiced este estimat prin algoritmi bazati pe (i) energie, (ii) treceri
prin zero, (iii) raportul dintre maximumul si minimumul functiei de autocorelatie. Castigul se
transmite prin codarea segmentului pe 5 biti. Pentru cadrele cu voce se codifica 10 coeficienti
LPC. Pentru cadrele fara voce se codifica primii 4 coeficienti LPC.

7.4. Vocoder CELP


In vederea reducerii ratei de bit totale, codoarele vorbirii cum sunt CELP (code
excited linear prediction) nu transmit intreg semnalul rezidual, intrucat se foloseste un tabel
de codare vectorial pentru a coda semnalul de excitatie. Tehnica este numita cuantizare
vectoriala (VQ), astfel incat codorul selecteaza unul dintre semnalele de excitatie dintr-un
tabel predeterminat, si transmite indexul semnalului de excitatie care se afla cel mai aproape
de cel care trebuie transmis. Tabelul cu semnalele de excitatie este cunoscut atat de codor cat
si de decodor.
Semnalul excitatie este selectat astfel incat distorsiunea dintre cadrul original si cel
reconstruit sa fie minima. Tipic, se folosesc rate de esantionare de 8 kHz iar lungimea
cadrului este de 20 ms, astfel incat exista 160 esantioane in fiecare cadru. Un filtru de ordinul
10 este suficient pentru modelarea anvelopei spectrale pentru o rata de esantionare de 8 kHz.
Decodorul lucreaza cu 12 parametri (10 coeficienti, castigul filtrului si indexul semnalului de
excitatie) in loc de 160 de esantioane pentru un cadru.
Structura ofera o calitate foarte buna la debite mici de informatie (deci rapoarte de
compresie mari). Algoritmul CELP codeaza excitatia utilizand un dictionar de secvente
gaussiene (codebook). Se folosesc 1024 vectori si fiecare vector are 40 esantioane (5 ms
durata). Un factor de castig scaleaza vectorul de excitatie si esantioanele excitatiei care sunt
filtrate de filtrele de timp scurt si de timp mare. Vectorul optim care se selecteaza este acela
pentru care MSE (Mean Square Error) este minima.
Calitatea CELP exprimata ca MOS (Mean Opinion Score) este 3.1.

Compresia surselor de informatie folosind modele perceptuale

13

Figura 10: VOCODER CELP


Unul dintre dezavantajele CELP il constituie efortul de calcul pentru explorarea dictionarului.

8. Compresia surselor imagine


Exista trei categorii principale de imagini discretizate, fiecare cu anumite
particularitati: imagini naturale, imagini grafice si imagini text, fiecare dintre acestea avand
trasaturi specifice de corelatie.
Gradul de corelare maxim il are imaginea naturala, urmata de imaginea artificiala cu
tonuri de gri si in cele din urma imaginea grafica text, asa cum se prezinta in figura 11.
Aceasta observatie este importanta pentru ca imaginile cu grad mare de corelare se preteaza
cel mai bine la compresie, fiind redundante (corelare mare inseamna redundanta mare).

Figura 11 Tipuri de imagini: naturale si artificialae


Algoritmii de compresie a imaginilor se bazeaza pe proprietatile statistice ale
imaginilor, si anume pe corelatiile parametrilor unei multimi de pixeli succesivi. Astfel, daca
parametrii unui domeniu spatial de pixeli sunt similari, atunci parametrii unui pixel din acel
domeniu poate fi exprimat in functie de parametrii celorlalti pixeli, deja codati. O valoare
mare a corelarii implica o distributie spectrala de tip trece jos si, deci, necesitatea folosirii
unei capacitati reduse pentru transmisie. Rezulta ca gradul de compresie al unei imagini
depinde crucial de proprietatile statistice ale elementelor imaginii (pixelilor).

14

Compresia datelor

8.1. Aspecte ale perceptiei vizuale


Considerarea particularitatilor ochiului uman este necesara pentru construirea si
folosirea in cadrul metodei de compresie a unui model perceptual. Din punctul de vedere al
transformarii de compresie, tot ceea ce nu se vede sau percepe nu trebuie transmis.
Cateva constatari/realitati privind comportarea ochiului uman:

1). Sensibilitatea la contrast este functie de frecventa spatiala. Cel mai sensibil este la
frecvente joase.
2). Ochiul este mai sensibil la stralucire decat la culoare.
3). Perceptia miscarii este realizata daca miscarile sunt cu o frecventa mai mare de 24
imagini (cadre) / sec.

Figura 12 Elemente ale perceptiei vizuale

3) Vederea presupune detectia marginilor (muchiilor);


4) Este posibila mascarea vizuala prin schimbari (variatii) mari ale luminantei.
Toate proprietatile prezentate conduc la construirea unui model al perceptiei vizuale.
Frecventele sau culorile care nu au efect asupra vederii umane nu sunt retinute. Se obtine,
astfel o compresie bazata pe modelul perceptiei.

Concluzii
Compresia audio foloseste doua trasaturi ale semnalelor audio: irelevanta (sunete neaudibile)
si redundanta (sunete bogate informational).
Micsorarea irelevantei se face prin construirea unor modele ale perceptiei umane, iar metodele
de compresie se numesc metode bazate pe model.
Metodele de compresie prin micsorarea redundantei se refera la metodele de codare entropica.
Metodele de compresie audio sunt generale si pot fi aplicate atat vorbirii cat si semnalelor
audio, diferite de vorbire, pe baza criteriilor de refacere a formelor de unda, de unde rezulta si

Compresia surselor de informatie folosind modele perceptuale

15

denumirea de waveform codecs sau audio-codec. Rapoartele de compresie obtinute sunt


modeste.
Pentru compresia vorbirii se folosesc metode speciale bazate pe modele de generare si
refacere a vorbii.
Metodele de compresie a imaginilor pot fi cu pierdere sau fara pierdere de informatie. Selectia
uneia dintre metode depinde de aplicatie.
Pentru aprecierea erorii de reconstructie, deci a calitatii compresiei, se folosesc masuri
cantitative (de exemplu, MSE) si calitative (de exemplu, MOS).

Tema pentru acasa: Se considera un fisier audio cu urmatoarele 10 esantioane, cuantizate


PCM pe 8 biti (un bit pentru semn: 0 pentru valori pozitive), obtinut cu relatia:
x = [-4.3, -16.6, 1.2, 2.8, -11.4, 11.9, 11.8, -0.3, 3.2 1.7]

y = round(x .* 10 .* length(nume) ./ length(prenume));


unde round() este o functie de aproximare la cel mai aproape intreg. Sa se comprime vectorul
audio y prin urmatoarele metode elementare:
M1). Eliminarea si refacerea esantioanelor pare. La decompresie esantioanele lipsa se refac
prin interpolare.
M2). Eliminarea a n = 3 biti, cei mai putini semnificativi, din fiecare esantion.
Sa se calculeze raportul de compresie si distorsiunile prin eroarea patratica medie normata
(NMSE), pentru fiecare din cele doua metode.
Care metoda este mai buna ?

S-ar putea să vă placă și