Documente Academic
Documente Profesional
Documente Cultură
Continut
Aspecte specifice surselor audio (1D) si imagine (2D)
Debitul de informatie al surselor audio
Motivatia compresiei audio
Motivatia compresiei vorbirii
Schema bloc a unui sistem cu CODEC audio.
Structura aparatului auditiv si modelarea acestuia
Codarea perceptuala
Compresia vorbirii
Tehnici de compresie prin prelucrari elementare
Compresia vorbirii prin metoda LPC
Compresia vorbirii prin metoda CELP
Compresia imaginilor. Elemente de perceptie
Concluzii
Tema de casa
1. Aspecte specifice surselor audio (1D) si imagine (2D)
1.1. Debitul de informatie al surselor audio
Clasele de semnale audio generate de vorbirea umana pot fi pentru pentru canale
telefonice, vorbirea de banda larga, semnalul audio de banda larga, care difera fiecare dintre
ele prin banda, gama dinamica (dynamic range), si calitatea asteptata a ascultatorului
(destinatarului).
Calitatea vorbirii de banda telefonica (cca. 3 kHz) este acceptabila pentru telefonie si o
serie de servicii de video-telefonie. Benzi mai mari (7 kHz pentru vorbirea de banda larga)
sunt necesare pentru imbunatatirea inteligibilitatii si naturaletii vorbirii. Reprezentarile audio
de banda larga (fidelitate mare) necesita benzi de cel putin 20 kHz.
Formatul numeric conventional al acestor semnale este dat de modulatia in cod a
impulsurilor (PCM= Pulse Code Modulation), cu rate de esantionare si rezolutie de
amplitudine (PCM bits per sample) exemplificate in tabelul 1.
Tabel 1 - Parametrii de baza pentru codarea PCM a vorbirii si a semnalelor audio
Gama
Frecventa
PCM
Debitul de inf
Clase de semnale
Frecventa [Hz]
de esantionare [kHz]
[bit / esantion]
[kb/s]
Vorbire
telefonie
300-3400
8
8
64
Vorbire
de banda larga
50-7000
16
8
128
Audio
banda medie
10-11000
24
16
384
Audio
banda larga
10-22000
48
16
768
Compresia datelor
Semnalul vorbire este un semnal analogic s(t) care se esantioneaza mai intai cu o
frecventa de esantionare ts 2fmax, unde fmax este frecventa maxima din spectrul semnalului
s(t). Semnalul discret va fi notat cu s(n).
1.4. Necesitatea compresiei imaginilor
Transmisia si memorarea imaginilor necesita capacitati de memorie foarte mari. In
figura 3 se prezinta necesarul de memorie pentru diferite formate de imagine. De exemplu,
numai pentru nivele de gri cu 256 de valori pentru un pixel, un cadru de imagine in format
SVGA necesita 800*600*8biti / (8 biti /Octet) = 500 kB iar pentru HDTV este nevoie de
2MB.
Complexitatea problemei creste daca se considera imaginile color unde fiecare pixel
are nevoie de inca 3 cuvinte (octeti, de exemplu) pentru informatiile de culoare RGB. Daca se
doreste transmisia unei astfel de imagini pe un canal telefonic cu viteza de 10 kbs este nevoie
de o durata
T = (800 pixeli * 600 pixeli * 8 biti * 3 culori ) / ( 10 Kb / s) / 60 s / min)= 19.2 min.
In cazul imaginilor dinamice, cum este cazul televiziunii, debitul de informatie poate ajunge
la 10 MB/s cee ce necesita canale speciale de transmisiune si capacitati foarte mari de
memorare. De exemplu, un cadru de 512 x 512 pixeli, cu 8 biti pe culoare si 30 de cadre pe
secunda, o imagine digitala are un debit de informatie de:
512 * 512 * 8 *3 * 30 = 188 Mb /s = 23 MB /s.
Obiectivul compresiei imaginilor este de a reduce numarul de biti pentru a memora sau/si a
transmite imaginile astfel incat la receptie sa fie refacute fara distorsiuni majore.
Compresia datelor
Compresia datelor
MSE E s( i , j ) s( i , j )2
1 N M
s( i , j ) s( i , j )2
MN i 1 j 1
(1)
Eroarea patratica medie normata (NMSE = Normalized Mean Square Error) se obtine din
MSE prin raportare la energia semnalului de la intrare
NMSE
N M
E s( i , j ) s( i , j )
E s( i , j )
s( i , j ) s( i , j )2
i 1 j 1
(2)
N M
s( i , j )2
i 1 j 1
NMSEP
E s (i, j ) s(i, j )2
x 2pp
x 2pp
(3)
MAE Es( i , j ) s( i , j )
1 N M
s(i, j ) s(i, j )2
NM i 1 j 1
1 N M
s( i , j ) s( i , j )
MN i 1 j 1
(4)
NMAE
Es( i , j ) s( i , j )
E s( i , j )
s( i , j ) s( i , j )
i 1 j 1
N M
s( i , j )
i 1 j 1
(5)
Compresia datelor
6. Masuri de apreciere calitativa a distorsiunilor
(a)
(b)
10
Compresia datelor
k 1
k 0
s (n) a k s (n k ) G bk u (n k ), b0 1
(1)
unde G este castigul filtrului si {ak, bk} sunt parametrii modelului. Numarul p implica
folosirea a p esantioane trecute, si se numeste ordinul predictiei liniare. Functia de transfer
H(z) a modelului se obtine prin aplicarea transformatei in z ecuatiei (1):
H ( z)
S ( z)
G
U ( z)
1
1
bk z k
k 1
p
(2)
ak z k
k 1
ceea ce arata un model de tip poli-zerouri. In spectrul vorbirii, nazalele sunt reprezentate de
zerouri si formantii sunt reprezentati de poli.
Pentru cazul numai a unui model AR(p) avem relatia
p
s ( n) a k s ( n k ) G u ( n)
k 1
(3)
11
Mai intai, semnalul vorbire s(n) este multiplicat cu o fereastra w(n) pentru a obtine un
segment de vorbire ponderat sw(n), dupa relatia
s w (n) w(n) s (n)
(1)
Al doilea pas este minimizarea energiei semnalului rezidual. Energia reziduala se obtine cu
expresia
p
E e ( n) s w ( n) a k s w ( n k )
n
n
k 1
(2)
Valorile parametrilor {ak} care minimizeaza energia E se gasesc prin calcularea derivatelor
E
0, pentru k 1,..., p , de
partiale ale lui E in raport cu {ak} si egalarea lor cu zero,
a k
unde rezulta un set de p ecuatii cu p necunoscute
p
ak
k 1
s w (n i)s w (n k )
s w (n i)s w (n),
1 i p
(3)
In ultima ecuatie, semnalul ponderat sw(n)=0 in afara ferestrei de filtrare. Setul de ecuatii
liniare poate fi scris matricial sub forma
R(0)
R(1)
R( p 1)
R(1)
R(0)
R( p 2)
R( p 1) a1
R (1)
a
R(2)
R( p 2) 2
R(0) a p
R( p)
(4)
(5)
a R 1 r
(6)
cu solutia
12
Compresia datelor
Gain,
V / UV
T];
% frame period..16 to 25 ms
% number of samples in a frame = 160
RC
160samples * 8bits
1280
14.22
10 * 8bits 1 1 8bits
90
Intervalul de valori admisibil pentru frecventele fundamentale este limitat la [50, 400]
Hz. Caracterul Voiced/Unvoiced este estimat prin algoritmi bazati pe (i) energie, (ii) treceri
prin zero, (iii) raportul dintre maximumul si minimumul functiei de autocorelatie. Castigul se
transmite prin codarea segmentului pe 5 biti. Pentru cadrele cu voce se codifica 10 coeficienti
LPC. Pentru cadrele fara voce se codifica primii 4 coeficienti LPC.
13
14
Compresia datelor
1). Sensibilitatea la contrast este functie de frecventa spatiala. Cel mai sensibil este la
frecvente joase.
2). Ochiul este mai sensibil la stralucire decat la culoare.
3). Perceptia miscarii este realizata daca miscarile sunt cu o frecventa mai mare de 24
imagini (cadre) / sec.
Concluzii
Compresia audio foloseste doua trasaturi ale semnalelor audio: irelevanta (sunete neaudibile)
si redundanta (sunete bogate informational).
Micsorarea irelevantei se face prin construirea unor modele ale perceptiei umane, iar metodele
de compresie se numesc metode bazate pe model.
Metodele de compresie prin micsorarea redundantei se refera la metodele de codare entropica.
Metodele de compresie audio sunt generale si pot fi aplicate atat vorbirii cat si semnalelor
audio, diferite de vorbire, pe baza criteriilor de refacere a formelor de unda, de unde rezulta si
15