11 - Compresia Audio - I

UNIVERSITY POLITEHNICA of BUCHAREST
DEPARTMENT
DEPARTMENT OF
OF COMPUTER
COMPUTER SCIENCE
SCIENCE
Transmisia datelor multimedia in retele de calculatoare

Compresia audio
I
Conf. Dr. Ing. Costin-Anton Boiangiu

<Costin.Boiangiu@CS.PUB.RO>
<Costin.Boiangiu@CS.PUB.RO>
Cuprins
1.
2.
3.
4.
5.
6.
Debitul de informatie al surselor audio

Motivatia compresiei vorbirii
Motivatia compresiei audio
Compresia vorbirii
Compresia audio
Criterii de perfomanta in codarea vorbirii

Clasele de semnale audio sunt:
semnalele generate de vorbirea umana pentru canale telefonice
vorbirea de banda larga
semnalul audio de banda larga
Fiecare dintre ele difera prin:

banda
gama dinamica (dynamic range)
calitatea asteptata a ascultatorului (destinatarului)
Calitatea vorbirii de banda telefonica (cca. 3 KHz) este acceptabila pentru telefonie si o
serie de servicii de video-telefonie

Benzi mai mari (7 KHz pentru vorbirea de banda larga) sunt necesare pentru
imbunatatirea inteligibilitatii si naturaletii vorbirii
Reprezentarile audio de banda larga (fidelitate mare), incluzand necesitatile audio
multicanal, necesita benzi de cel putin 20 KHz

Formatul numeric conventional as semnalelor audio este
dat de modulatia in cod a impulsurilor (PCM= Pulse Code

Modulation)
Frecventa
[Hz]
Frecventa de
esantionare
(Rata esantionarii)
[KHz]
PCM
[bit/
esantion]
PCM
rata de inf
[Kb/s]
Vorbire telefonie
300-3400
64
Vorbire de banda larga
50-7000
16
128
Audio banda medie
10-11000
24
16
384
Audio banda larga
10-22000
48
16
768

Formatul pentru CD(Compact disc) este standardul de
facto al reprezentarii audio numerice

Cu rata de esantionare de 44.1 KHz, debitul de informatie
pentru un semnal stereo pentru un CD este:

2 x 44.1 x 16 x 1000 = 1.41 Mb/s
Este necesar un antet (overhead) semnificativ pentru codul
de linie, care transforma cei 8 biti de informatie in 14 biti,
(pentru sincronizare si corectia erorilor)
=>49 de biti pentru fiecare esantion audio de 16 biti
=>debitul stereo total este 14.1 x 49 / 16 = 4.32 Mb/s

Comparatie intre diferitele debite ale CD-ului cu cele ale
unei benzi audio digitale (DAT = digital audio tape)

Debitele pentru CD si DAT (Semnal stereo, esantionat cu
44.1 KHz; DAT esantionat la 32 KHz si 48 KHz)
Dispozitiv
de memorare
Rata audio
[Mb/s]
Over-head
[Mb/s]
Rata binara totala
Compact disc CD
1.41
2.91
4.32
Digital Audio Tape

(DAT)
1.41
1.67
3.08
Codarea vorbirii vs. codarea semnalului audio

Codarea audio implica:
rate de esantionare mai mari
o rezolutie in amplitudine mai buna
gama dinamica mare
variatii mari in spectrul de putere
reprezentare stereo si multicanal
calitate mai buna
Codarea vorbirii si codarea audio sunt similare in sensul ca ambele se bazeaza pe proprietatile
perceptiei audio umane

Vorbirea poate fi codata foarte eficient prin utilizarea unui model de producere a sunetului, pe
cand semnalele audio nu se preteaza la aceasta metoda
In algoritmii de codare curenti se folosesc patru tehnologii de baza:
codarea perceptuala (perceptual coding)
codarea domeniului de frecventa (frequency-domain coding),
comutarea ferestrelor (window switching)
alocarea dinamica a bitilor (dynamic bit allocation)

Fie o melodie cu durata de 1 minut
In conditii de calitate CD, semnalul audio:
este esantionat cu frecventa de 44.1 KHz (deci, 44100
esantioane/secunda)
este semnal stereo
are 16 biti pe esantion
In format binar (wav), rezulta un necesar de memorie (sau
de stocare) de:
44.100 esantioane / s * 2 canale * 16 bit / esantion * 60 s =
84.672.000 biti = 10,584 MBytes

O melodie modesta de cateva minute, de exemplu 3-4
minunte, va ocupa un spatiu de

10,584 Mbytes * 3-4 min. = 31.752 42.336 MB
Pentru un album cu 10 melodii rezulta un necesar
10 melodii * 40 MB = 400 MB
ceea ce este cam mult pentru majoritatea utilizatorilor
obisnuiti

Daca se considera problema transmiterii pe un canal internet
a unei singure melodii, pe o conexiune cu viteza de 64

Kbit/s, este necesar un timp de
[10,584 MBytes * 8 bit/Byte] / [64 Kbit/s * 60 s/min ] = 22.05 min
ceea ce este iarasi destul de mult pentru un utilizator obisnuit

Utilitarele de compresie a semnalelor audio realizeaza
rapoarte de compresie de pana la 10 ori, fara pierderea

calitatii subiective a semnalului, astfel incat timpul
transmiterii se poate reduce la 2 min, ce poate fi acceptabil

Codarea vorbirii este un aspect important al
telecomunicatiilor moderne
Codarea vorbirii
= procesul de reprezentare
numerica a semnalului vorbire
Obiectivul de baza al codarii vorbirii este de a
reprezenta semnalul vorbire:
cu un numar mic de biti
cu mentinerea unui nivel de calitate suficient pentru
refacerea vorbirii originale
cu un grad de dificultate rezonabil

Un numar mic de biti inseamna:
o banda mica necesara transmisiei
mai putina memorie pentru memorare
Desi in sistemele de comunicatie cu fir sunt disponibile
benzi foarte mari de frecventa (ex. cablul optic), in

comunicatiile fara fir si cele prin satelit banda este
limitata
Comunicatiile multimedia si alte aplicatii bazate pe
vorbire necesita voce reprezentata numeric
Algoritmii de codare aplica metode sofisticate pentru
reducerea redundantei

Semnalul vorbire este un semnal analogic s(t) esantionat la o frecventa de
esantionare ts 2fmax, unde fmax este frecventa maxima din spectrul semnalului s(t)
Semnalul discret va fi notat cu s(n)
Acest semnal este apoi codat prin diverse scheme de codare cum sunt PCM sau
codare predictiva
In codarea PCM (Pulse Coded Modulation) :
semnalul discret este cuantizat in 2 N nivele
fiecare esantion s(n) este reprezentat pe R biti
Cuantizorul poate fi
uniform sau neuniform (cuantizatoarele neuniforme utilizeaza mai putini biti pe esantion, asa
cum sunt cuantizoarele cu lege sau A, ce folosesc numai 8 biti pe esantion)
scalar sau vectorial
Un cuantizor tipic foloseste 8 sau 16 biti pe esantion

In codarea predictiva codorul considera un grup de esantioane, la un moment dat, extrage o
serie de coeficienti ce modeleaza esantioanele considerate, converteste coeficientii in simboluri

binare si le transmite pe canal
Se obtine astfel o reprezentare compacta cu mai putini biti
Decodorul reconstruieste semnalul vorbire din parametrii transmisi, asa cum se prezinta in
urmatoarea figura (Schema de baza pentru un sistem de transmisiune audio cu codare-decodare)
Tehnici de compresie a vorbirii in domeniul timp

Motivatie:
reducerea timpului necesar unui utilizator pentru a asculta un mesaj,
prin cresterea capacitatii de comunicare a urechii

reducerea cantitatii de date in vederea minimizarii spatiului de
memorare si a benzii de transmisie a mesajelor vorbite
Compresia in timp a vorbirii poate fi utilizata intr-o varietate de
aplicatii incluzand instruirea, ajutorarea celor cu deficiente

auditive si pentru interfetele om-calculator
Ex.: Studiile au aratat ca ascultarea de doua ori a materialelor redate
cu o viteza dubla este mult mai eficienta decat ascultarea mesajelor la

viteza normala
Tehnici de compresie a vorbirii in domeniul timp

Compresia temporala este utilizata in:
prezentarea mesajelor in sistemele de mail vocal
ajutorarea persoanelor cu deficiente majore de vedere
sistemele de recunoastere a vorbirii cand formele de intrare sunt
normalizate la o lungime standard
Vorbirea comprimata in timp este referita ca:

accelerata
comprimata
cu scara de timp modificata
cu viteza marita
cu timp modificat
Vorbirea rapida
Rata de vorbire normala in Engleza este intre 130 si 200
cuvinte pe minut (wpm)

Cand se vorbeste repede, vorbitorul schimba ne-intetionat
atributele relative ale vorbirii relativ la durata pauzelor,

durata vocalelor consonante etc.
In general, vorbitorii pot comprima vorbirea lor pana la
70%, limitarea fiind din cauza limitarilor fiziologice
Schimbarea vitezei
Schimbarea vitezei este similara cu redarea unei casete la
o viteza mai mare sau mai mica

Metoda poate fi reprodusa digital prin schimbarea ratei de
esantionare in timpul intoarcerii casetei

Metodele nu sunt prea folosite intrucat produc un efect
nedorit al modificarii frecventei proportional cu

schimbarea vitezei de redare, cauzand o scadere a
inteligibilitatii
Sinteza vorbirii
Cu o voce pur sintetica este posibil sa se genereze vorbire la
diverse rate ale cuvintelor

In mod curent sintetizoarele text-vorbire pot produce rate de pana
la 550 wpm
Acest lucru se obtine prin reducerea selectiva a fonemelor
(phoneme) si a duratei pauzelor

Tehnica este puternica, in particular pentru ajutorarea persoanelor
cu dizabilitati, dar nu este relevanta in raport vorbirea inregistrata
Eliminarea pauzelor (Silence Removal)

Cea mai simpla metoda consta in utilizarea energiei sau
mediei amplitudinii, combinata cu pragurile de timp

Alte metode utilizeaza masuratori de trecere prin zero sau
parametrii LPC
De
exemplu tehnica TASI (Time Assigned Speech

Interpolation) este utilizata pentru a dubla capacitatea
cablurilor telefonice transoceanice
Tehnica DSI (Digital Speech Interpolation) este similara dar
se lucreaza in totalitate in domeniul digital
DSI/TASI doresc sa conserve banda sistemului
Esantionare neuniforma
Principiul metodei este prezentat in urmatoarea figura
Daca intreruperile se fac la intervale regulate, largi
portiuni din semnal se pot sterge fara a se afecta

inteligibilitatea
Esantionare neuniforma
O alta tehnica prezentata in figura urmatoare (C): segmentele semnalului
vorbire sunt alternativ indepartate si retinute

Durata fiecarui interval de esantionare trebuie sa fie cel putin egala cu a
unui formant (pitch) (15 ms) dar trebuie sa fie de asemenea mai mica
decat lungimea unui fonem
Esantionarea cu prezentare dihotonica

(Sampling with Dichotic Presentation)
O varianta interesanta a metodei de esantionare este
obtinuta prin redarea semnalului esantionat standard unei

urechi si a materialului indepartat celeilalte urechi
Sub aceasta conditie dichotic inteligibilitatea si
propuntierea cresc
Desi initial exista o slaba dificultate in intelegerea
mesajului, adaptarea este imediata
Raportul de compresie creste pana la 50% prin pastrarea
intregii informatii din semnalul original

Cuantizarea numerica pe un numar mare de biti conserva
formele de unda, in sensul ca semnalul de la iesire este

apropiat de semnalul de la intrare, ca forma de unda
Diferenta formelor de unda, de la iesire si de la intrare constituie
criteriul eroare pentru proiectarea circuitului de cuantizare
Cand cuantizarea se realizeaza cu numar mic de biti (numar
mic de simboluri binare), in proiecatrea codorului trebuie sa se

includa informatie despre producerea si perceptia semnalelor
audio, astfel incat semnalul de iesire poate sa difere mult de
semnalul de intrare, insa efectul acestora asupra urechii umane
sa fie acelasi

In principiu, un algoritm de codare eficienta a sursei va:
indeparta componentele redundante ale sursei de semnal
prin exploatarea corelatiilor dintre esantioane. (codare
entropica)
Indeparteaza componentele care nu sunt percepute de
urechea umana
Irelevanta se manifesta ca o amplitidine ne-necesara sau ca o
rezolutie in frecventa
Portiunile de semnal care sunt mascate nu trebuie transmise.
(codare perceptuala)
Compresia audio bazata pe modelul

perceptiei audio (Perceptual coding)
Schema de baza a unui codor-decodor audio, bazat pe model, este prezentata mai
jos
Se remarca existenta a doua piese de baza la partea de codare:
Un bloc pentru transformarea semnalului intr-o reprezentare care modeleaza precis
sursa
Un model care modeleaza acusto-fiziologic (psihoacustic, in engleza) aparatul auditiv
Acesta furnizeaza o aproximare a mecanismelor de perceptie ale urechii umane

Cele doua blocuri (transformari) determina marimea reducerii ce poate fi obtinuta prin procesul
de codarea

In etajul de reprezentare al semnalului are loc reducerea redundantei
semnalului
In codarea vorbirii, un model fizic al tractului vocal este folosit pentru
definirea parametrilor vorbirii

Acesti parametrii, impreuna cu informatia reziduala, sunt codati. In timp
ce aceasta tehnica permite obtinerea unor rapoarte de compresie foarte
mari, nu este foarte eficienta cu semnale muzicale pentru ca este foarte
dificil sa se modeleze bine toate sursele posibile de muzica
In codarea audio, reprezentarea din domeniul timp a semnalului este
tipic transformata intr-o reprezentare timp-frecventa cu ajutorul unui

banc de filtre (cascada de filtre)
In acest caz, iesirile din domeniul frecventa ale bancului de filtre
furnizeaza reprezentarea primara a semnalului

Urechea umana realizeaza o analiza Fourier echivalenta cu un bank
(lant) de filtre, unde transformarea frecventelor de lucru in lucru

mecanic are loc in membrana basilara.
Spectrele de putere nu sunt reprezentate pe o scara liniara a
frecventelor, ci pe benzi de frecventa limitate, denumite benzi critice
Sistemul auditiv poate fi descris ca un banc de filtre trece banda, a
caror caracteristica amplitudine frecventa se suprapun

Filtrele au banda de ordinul 50-100 Hz pentru frecvente mai mici de
500 Hz si de pana la 5000 Hz pentru semnale de frcventa mai mare

In gama audio, se pot defini astfel 26 benzi critice acoperind
intervalul de frecventa de pana la 24 KHz

Ipoteza generala este ca semnalele audio sunt cvasi-stationare,
deci, o corespondenta in domeniul frecventa rezulta intr-o

reprezentare a semnalului care este mai eficienta decat PCM
directa
Cu cat fereastra de analiza este mai mare cu atat presupunerea este
mai buna
In general, se face un compromis intre o codare de eficienta inalta,
data de un bank de filtre cu inalta rezolutie, obtinuta in etajul de
reprezentare a semnalului si costul memoriei/intarzierii necesara
intregului sistem de codare
Cercetarile din domeniul rezolutiei spectrale au arata ca o alegere
buna pentru o rezolutie de frecventa este de 20 Hz ce corespunde

unei rezolutii in domeniul timp de 25ms

Bancuri de filtre variante in timp sunt des utilizate pentru
a evita imprastierea zgomotului de cuantizare in timp in

semnalul rconstituit
Aceste metode permit bancului de filtre sa se adapteze la
o rezolutie de timp marita, tipic egala cu 5ms, in prezenta

unui tranzient (impuls).
Reducerea ratei de informatie

Interesul pentru reducerea ratei de bit (low bit rate coding) este
dat de necesitatea minimizarii costurilor de transmisiei si a

necesarului de memorie pentru stocare, de necesitatea de a
transmite pe canale cu capacitate limitata, asa cum sunt
canalele radio mobile, si pentru a suporta codarea cu pas
variabil
Compresia ratei de informatie pentru semnale audio si vorbire
se poate face prin: tehnici predictive, codare sub-banda, codare
prin transformare, diferite forme de cuantizare vectoriala
Se obtin astfel rate de 0.5-1 bit/esantion pentru vorbire si 1-2 bit/
esantion pentru semnale audio
Codarea in domeniul de frecventa

(Frequency-domain coding)
In domeniul frecventa se poate defini redundanta ca fiind o
caracteristica spectrala ascutita (ne-plata) pe termen scurt a sursei de

semnal
Irelevanta inseamna componente spectrale cu amplitudine mai mica
decat pragul psihoacustic

Cele doua trasaturi (redundanta si irelevanta) sunt folosite pentru a
reduce cantitatea de simboluri in raport cu PCM
Acest lucru se obtine prin impartirea spectrului sursei in benzi de
frecventa pentru a genera componente spectrale necorelate si prin
cuantizarea acestor componente separat
Se folosesc doua categorii de codare:

Codarea transformarii (TC=transform coding)
Codarea sub-benzii (SBC=subband coding)
Codarea in domeniul de frecventa

Diferentele dintre cele doua categorii sunt de ordin istoric
Amandoua utilizeaza o analiza filterbank in codor pentru a
descompune semnalul de iesire in componente spectrale

sub-esantionate
Componentele spectrale se numesc esantioane subbanda
(subband samples) daca bancul de filtre are o rezolutie
mica; in caz contrar se numesc linii spetrale sau coeficienti
de transformare
Aceste componente spectrale sunt recombinate in decodor
prin sinteza fitrului bank
Codarea sub-benzii (SBC=subband

coding)
In SBC, sursa de semnal este supusa unei analize filterbank constand
din M filtre trece banda care sunt continue in frecvente astfel incat
multimea semnalelor subbanda poate fi recombinata aditiv pentru a
produce semnalul original sau o versiune apropiata a acestuia
Fiecare iesire a filtrului este decimata la limita (se mai spune critic
decimata)(adica esantionata la dublul benzii nominale) cu un factor

egal cu M, numarul de filtre trece banda
Aceasta decimare rezulta intr-un umar de esantioane subbanda ce
egaleaza acelea din semnalul original
In receptor, rata de esantionare a fiecarei subbenzi este crescuta la cea a
sursei de semnal prin completarea la un numar apropiata cu esantionae
zero
Codarea sub-benzii
Semnalelel subbanda interpolate apar la iesirile FTB ale
filtrului de sinteza
Procesul de esantionare poate introduce distorsiune de
esantionare (aliasing distorsion) din cauza suprapunerii
subbenzilor
Daca se folosesc filtre perfecte, (filtre dublu-banda in
cuadratura sau filtre polifazice), termenii aliasing sunt
eliminati si suma iesirilor filtrelor trecebanda este egala cu
semnalul de intrare, in absenta cuantizarii
Codarea sub-benzii
Codarea transformarii (TC=transform

coding)
In TC, un bloc de esantionae de intrare este transformat liniar cu o
transformata discreta intr-un set de coeficienti de transformare,

aproape ne-corelati
Acesti coeficienti sunt cuantizati si transmisi in forma numerica spre
decodor
In decodor are loc transformarea inversa, refacand semnalul in
domeniul timp
In absenta erorilor de cuantizare sinteza furnizeaza o reconstructie
exacta
Transformari
tipice sunt: tranformata Fourier discreta,

transformata cosinus discreta (DFT), sau trasformata cosinus
discreta modificata (MDCT)
Codarea transformarii
MDCT (Modified DCT) se bazeaza pe o suprapunere de
50% a filtrelor succesive de analiza

Efectul consta in obtinerea unui castig mai mare si a unui
raspuns al filtrelor individuale mai bun.
S-a mentionat ca decodorul bazat pe transformta inversa
poate fi privit ca un filtru bank; raspunsul la impuls al

filtrelor trece banda componente este egal cu secventa
transformarilor de baza
Raspunsul la impuls al filtrului de analiza este versiunea
inversata in timp
Schema a bloc a sistemului cu compresia audio folosind
codarea transformarii
Pre-procesarea inseamna una sau mai multe prelucrari de tipul: filtrare,
compresia domeniului de variatie a amplitudine, folosirea unui model

perceptual pentru indeparatarea informatiei nerelevante
Prin T este reprezentata o transformare de tipul Fourier, DCT sau
MDCT
Selectia
coeficientilor inseamna selectarea celor mai importanti

coeficienti pentru indeplinirea unui criteriu de eroare minima
Codarea coeficientilor inseamna de fapt o codare de canal, adica
adaugarea unor simboluri de control pentru protectia la perturbatii si,
eventual, a unor informatii privitoare la parametrii transformarilor din
etapa de pre-procesare
La receptie are loc decodarea coeficientilor si aplicarea unei
transformari inverse pentru refacerea semnalului initial
Metoda de compresie LPC

LPC = Linear Predictive Coding
LPC exploateaza redundanta semnalului vorbire prin mecanismul de generare a
vorbirii: un filtru liniar excitat de un semnal numit semnal de excitatie

Semnalul excitatie se mai numeste si semnal rezidual
Codoarele pentru vorbire prelucreaza un grup de esantionae, numit cadru sau
segmen
Codorul vorbirii calculeaza coeficientii filtrului si semnalul de excitatie pentru
fiecare cadru
Coeficientii filtrului sunt astfel calculati pentru a asigura ca energia la iesirea
filtrului pentru cadrul analizat sa fie minimizata
Un astfel de filtru se numeste filtru LP analizor
Semnalul rezultant se numeste semnal rezidual pentru acel cadru particular
La decodare, filtrul LP lucreaza ca un filtru de sinteza, in timp ce semnalul rezidual
actioneaza ca semnal de excitatie pentru filtrul de sinteza

In vederea reducerii ratei de bit totale, codoarele vorbirii cum sunt
CELP (code excited linear prediction) nu transmit intreg semnalul

rezidual, intrucat se foloseste un tabel de codare vectorial pentru a
coda semnalul de excitatie
Tehnica este numita cuantizare vectoriala (VQ), astfel incat codorul
selecteaza unul dintre semnalele de excitatie dintr-un tabel
predeterminat, si va transmite indexul semnalul de excitatie care se
afla cel mai aproape de cel care trebuie transmis
Tabelul cu semnalele de excitatie este cunoscut atat de codor cat si
de decodor
Semnalul excitatie este selectat astfel incat distorsiunea dintre
cadrul original si cel reconstruit sa fie minima

Tipic, se folosesc rate de esantionare de 8 KHz iar
lungimea cadrului este de 20 ms, astfel incat exista 160

esantioane in fiecare cadru
Se gaseste ca un filtru de ordinul 10 este suficient pentru
modelarea anvelopei spectrale pentru o rata de esantionare

de 8 KHz, deco codorul lucreaza cu 12 parametri (10
coeficienti, castigul fitrului si indexul semnalului de
excitatie) in loc de 160 de esantioane pentru un cadru

Modelul vorbirii

Modelului de vorbire are doua moduri de functionare
In primul mod, comutatorul K este in pozitia a si se
genereaza fonemele sonore
Semnalul excitatie este constituit dintr-o serie de impulsuri

dreptughiulare cu perioada Tp, Ts este frecventa de esantionare
Al doilea mod de lucru necesita comutatorul K in pozitia b,
si corespunde fonemelor insonore

Exista trei filtre care modeleaza efectele glotei, ale tractului vocal
si al radiatiei sonore (efectul buzelor)
Multiplicarea cu constanta G este pentru modificarea intensitatii.

In aplicatiile practice se utilizeaza o schema mai
compacta, unde cele trei filtre sunt inlocuite cu unul

singur, H(z)

Pentru filtru se foloseste structura ARMA (Autoregressive Moving Average)
Un semnal vorbire s(n) este considerat ca iesire a unui sistem excitat de un semnal excitatie u(n)
Esantionul vorbirii s(n) este modelat ca o combinatie liniara a iesirilor vechi si prezente si a intrarilor vechi,
dupa relatia:
s ( n)
k 1
k 0
ak s(n k ) G ak u (n k ),
b0 1
unde G este castigul filtrului si {ak, bk} sunt parametrii modelului

Numarul p implica folosirea a p esantioane trecute, si se numeste ordinul predictiei liniare
Functia de transfer H(z) a modelului se obtine prin aplicarea transformatei in z ecuatiei:
H ( z)
S ( z)
G
U ( z)
1
1
bk z k
k 1
p
ak z k
k 1
ceea ce arata un model de tip poli-zerouri. In spectrul vorbirii, nazalele sunt reprezentate de zerouri si
formantii sunt reprezentati de poli.

Exista doua cazuri speciale ale acestui model:
Cazul modelului de tip auto-regresiv, cand H(z) are numai
poli, deci coeficientii bk sunt nuli
Acest model se foloseste din motive de simplitate si eficienta a

implementarii. Ideea este ca in rezolvarea unui model polizeroruri este nevoie de rezolvarea unui set de ecuatii neliniare in
timp ce modelul numai cu poli necesita rezolvarea unui set liniar
de ecuatii
Cazul modelului de tip medie alunecatoare, cand H(z) are
numai zerouri, deci coeficientii ak sunt zero

Transformata z inversa a modelului cu toti polii este
s ( n)
a k s ( n k ) G u ( n)
k 1
Coeficientii {ak} sunt numiti coeficientii LP ai filtrului liniar

Semnalul eroare e(n) este diferenta dintre semnalul de intrare si cel estimat, dupa relatia
e(n) s (n) s(n) s (n) a k s (n k )

k 1
iar in domeniul z avem relatia de legatura
E( z ) S ( z ) A( z )

Ca urmare, modelul global poate
fi descompus in doua parti

Partea
de analiza analizeaza
semnalul vorbire si produce
semnalul eroare
Partea de sinteza preia semnalul
eroare ca semnal de intrare, este
filtrat de filtrul 1/A(z) si se
obtine semnalul vorbire
Semnalul eroare se mai numeste
semnal rezidual sau semnal de

excitatie

Exista doua tipuri de codoare bazate pe predictie liniara:
Codor adaptiv inainte sau direct (forward adaptive coder)
Predictia
liniara se bazeaza pe esantionale de intrare vechi

Analiza LP este efectuata in codor si se transmit coeficientii LP
Codor adaptiv inapoi sau invers (Backward adaptive coder)
Coeficientii LP sunt calculati din esantioanle vechi reconstruite
Analiza LP este facuta din nou la receptie, deci in cadrul
decodorului
In acest fel, nu este necesar sa se transmita coeficientii LP de
catre codor
Estimarea coeficientilor predictiei linare

Exista doua metode larg folosite in estimarea coeficintilor
predictiei liniare:
autocorelatia
covarianta
Ambele metode folosesc coeficientii filtrului LP {ak}
astfel incat energia reziduala (energia semnalului rezidual)

sa fie minimizata
Cea mai folosita metoda este metoda celor mai mici
patrate
Ponderarea pe ferestre (windowing)

Semnalul vorbire este un semnal variabil in timp si unele variatii
sunt aleatoare
Uzual, in timpul vorbirii cu intensitate mica, forma tractului vocal si
a excitatiei nu se modifica in 200 ms

Dar fonemele au o durata medie de 80 ms
Cele mai multe schimbari apar mai frecvent decat intervalul de 200
ms
Analiza semnalului presupune ca proprietatile semnalului se
schimba lent in timp, ceea ce permite o analiza in timp scurt a

semnalului
Semnalul este divizat in segmente succesive, analiza se face pe
aceste segmente si se extrag anumite proprietati dinamice
Ponderarea pe ferestre (windowing)

Semnalul s(n) este inmultit cu o fereastra de analiza w(n) pentru a
extrage un anumit segment de analiza

Tehnica se numeste ponderare (windowing)
Alegerea formei ferestrei este importanta intrucat esantionale vor fi
ponderate in mod diferit

Folosirea unei ferestre dreptunghiulare determina aparitia unor lobi
secundari mari si anumite efecte nedorite in domeniul frecventa

Pentru a inlatura aceste oscilatii mari, se utilizeaza ferestre de filtrare fara
schimbari abrupte in domeniul timp, asa cum este fereastra Hamming,
Blackman, Kaiser sau Bartlett
Se pot folosi si combinatii de ferestre, asa cum se foloseste in GSM, unde
fereastra de analiza are doua jumatati de ferestre Hamming de dimensiuni
diferite
Reprezentarea parametrilor LP
Parametrii LP au gama dinamica destul de mare, astfel
incat sunt dificil de cuantizat

Alte moduri de reprezentare au o gama dinamica mai
mica si posibil de estimat

Acest lucru permite folosirea unui numar diferit de biti
pentru cuantizare, cu atat mai mic cu cat efectul

coeficientilor asupra raspunsului filtrului este mai mic
Coeficientii predictiei liniare pot avea diferite reprezentatri
echivalente:
frecventele liniilor spectrale (line spectral frequencies LSF)
coeficienti de reflectie (reflection coeficients RC);
autocorelatii (autocorelations)
rapoarte logaritmici ale ariilor (log area ratios LAR)
coeficienti de reflexie arcsine (arcsine of reflection
coefficients ASRC)
raspunsul la impulse al filtrului LP ( impulse responses of LP
synthesis filter - IR)
Toate aceste reprezentari au relatii de legatura exacte cu coeficientii LP
si pastreaza toata informatia desprea acestia

Dintre acestia, o parte sunt mai usor de calculat si au proprietati
particulare ce le fac mai atractive pentru diferite scopuri
Metoda autocorelatiei
Mai intai, semnalul vorbire s(n) este multiplicat cu o
fereastra w(n) pentru a obtine un segment de vorbire

ponderat sw(n), dupa relatia
s w ( n ) w( n )s( n )
Al doilea pas este minimizarea energiei semnalului
rezidual; energia reziduala se obtine cu expresia

E
(n)
s w ( n ) a k s w ( n k )
k 1
p
Valorile parametrilor {ak} care minimizeaza energia E se gasesc prin
calcularea derivatelor partiale ale lui E in raport cu {ak} si egalarea lor cu

zero
E
0 , pentru k 1,..., p
a k
de unde rezulta un set de p ecuatii cu p mecunoscute

p
k 1
ak s w ( n i )s w ( n k ) s w ( n i )s w ( n ),
1 i p
In ultima ecuatie semnalul ponderat sw(n)=0 in afara ferestrei de filtrare
Ecuatiile liniare pot fi exprimate in functie de functia de
autocorelatie
Functia de autocorelatie a unui segment ponderat de vorbire este
definita de relatia
R( i )
Nw 1
s w ( n )s w ( n i ),
1 i p
n i
unde Nw este lungimea ferestrei

Prin inlocuirea valorilor autocorelatiei in penultima ecuatie se obtine
p
ak R( i k ) R( i ),
k 1
1 i p
Setul de ecuatii liniare poate fi scris matricial sub forma
R( 0 )
R( 1 )
R( 1 )
R( 0 )
R( p 1 ) R( p 2 )
R( p 1 )
R( p 2 )

R( 0 )
a1 R( 1 )
a
R
(
2
)
2
a
R
(
p
)
p
Ultima ecuatie poate fi scrisa matricial sub forma
R a r
Matricea R este o matrice Toeplitz, deci are toate
elementele de pe diagonala principala egale

Acest lucru permite rezolvarea ecuatiei matriciale prin
algoritmul Levinson-Durbin sau prin algoritmul lui Schur
Datorita structurii matricii R, A(z) este de tip faza minima

Filtrul folosit la sinteaza are functia de transfer H(z) = 1 /
A(z), deci zerourile lui A(z) devin polii lui H(z)

Astfel, faza minima a lui A(z) garanteaza stabilitatea filtrului
H(z)
Algoritmul Levinson-Durbin
Algoritmul rezolva ecuatia matricala Ax=b, in care A are
o structura Toeplitz, matrice simetrica si pozitiv definita,

iar b este un vector arbitrar
Aceste cerinte sunt satisfacute de matricea de autocorelatie
R, definita anterior.
Algortimul LD necesita o forma speciala a lui b, unde b
consta din anumite elemente ale lui A

Si
aceasta conditie
autocorelatiei
este
satisfacuta
de
ecuatiile
Fie ak(m) coeficientul k pentru un cadru oarecare m al
iteratiei
Algoritmul LD rezolva iterativ setul de ecuatii in mod
iterativ pentru m=1,2,,p dupa relatiile:
k ( m ) R( m )
m 1
ak ( m 1 )R( m k )
am ( m ) k( m )
k 1
a k ( m ) a k ( m 1 ) k ( m )a m k ( m 1 ), 1 k m
E( m ) 1 k ( m ) 2 E( m 1 )
Se considera initial E(0) = R(0) si a(0) = 0
La fiecare iteratie, coeficientul ak(m) pentru k=1,2,..,m
descrie predictorul liniar de ordin m; eroarea de energie

E(m) este redusa cu un factor de (1-k(m)2).
Intrucat E(m) nu este negativa, rezulta ca | k(m) | 1

Aceasta conditie pentru coeficientul de reflexie k(m)
garanteaza ca radacinile lui A(z) vor fi in interiroul

cercului unitate
Rezulta ca sinteza fltrului H(z) va fi stabila si deci
metoda corelatiei determina stabilitatea filtrului cautat

Pentru evaluarea unui codor particular trebuie considerate
o serie de criterii, cel mai importante fiind:

calitatea vorbirii
Codoarele vorbirii urmaresc producerea unei distorsiuni audibile

minime la o rata data
Naturaletea si inteligibilitatea sunetului produs sunt criterii de
asemena importante
Calitatea vorbirii poate fi determinata prin teste de ascultare ce
calculeaza opinia media a unor ascultatori
Calitatea vorbirii poate fi apreciata si prin masuri cantitative cum
sunt castigul predictiei, distorsiunea spectrala

Rata de bit
Inseamna numarul de biti pe secunda ce trebuie transmisi de codor

Obiectivul algoritmului de codare este de a reduce rata de bit prin
mentinerea unei calitati inalte a vorbirii
Necesarul de memorie pentru implementare; toti algoritmii
de codare a vorbirii sunt executati in circuite integrate DSP

dedicate sau de uz general
Acestea au capacitate limitata de memorie RAM precum si o
viteaza finita
Rezulta ca algoritmii de codare-decodare nu trebuie sa fie prea
complecsi, deci sa nu depaseaca capacitatea circuitelor DSP

Adesea, algoritmii de codare prelucreaza impreuna grupuri
de esantioane
Daca numarul de esantioane este prea mare, se introduce o
intarziere intre vorbirea originala si cea codata
Aceasta nu este de dorit in transmisiile de timp real, dar poate fi
tolerata in cazul memorarii vorbirii sau a inregistraii acesteia
Banda de frecventa a semnalului vorbire ce trebuie codat
este o alta problema

In transmisiunile telefonice se utilizeaza o banda de 200-3400 Hz
Exista insa transmisii audio, cum sunt cele din teleconferinte sau
tele-invatare, ce necesita benzi de 7-20 KHz

Algoritmii de codare trebuie sa fie robusti la erorile ce pot
apare pe canal
Erorile de pe canal sunt cauzate de zgomotul de pe canal,

interferenta inter-simbol, fading etc.
In timpul transmisiilor reale, semnalele vorbire sunt afectate
de diferite zgomote acustice ce provin din mediu cum sunt:

zgomotul
strazii
zgomotul masinii
al biroului, etc.
Algoritmii de codare trebuie sa mentina o buna calitate a vorbirii

in prezenta unor astfel de surse de zgomot
Aprecierea distorsiunilor
Inteligibilitate si Intelegere
Inteligibilitatea se refera uzual la abilitatea de a identifica
cuvinte izolate
Intelegerea se refera la intelegerea continutului unui
material
Aceasta este uzual testata prin intrebari despre materialul

inregistrat
Aprecierea distorsiunilor
Perceptia si redundanta vorbirii
Importanta analizei modului in care se realizeaza perceptia consta in faptul
ca aprecierea calitatii semnalului reconstituit din parametrii transmisi pe

canal, se face de catre urechea umana
De aceea, trebuie explorat modul in care functioneaza urechea umana, prin

evidentierea aspectelor importante si a celor mai putin importante.
Sistemul auditiv uman actioneaza ca un set de filtre si este foarte sensibil in
domeniul 200-5600 Hz in ceea ce priveste perceptia.
Trasaturile importante ale perceptiei, cum este vocea, sunt determinate din structura
armonica care este prezenta in diomeniul frecventelor joase (ce nu depaseste 3 KHz).
Intrucat sursa si mai ales destinatarul semnalului vorbire este un operator
uman, pe langa masurile clasice de apreciere a distorsiunilor apar si masuri

de natura subiectiva
Masuri de aprecire subiectiva a distorsiunilor

Testele subiective permit o evaluare comparativa a diverselor codoare
In astfel de teste, calitatea vorbirii este apreciata uzual prin inteligibilitate,
tipic definita ca procentul de cuvinte sau foneme care sunt corect percepute
Aspectele semnificative ale perceptiei vorbirii sunt
inteligibilitatea si
naturaletea
Pentru aprecierea acestor calitati se poate folosi masura Scorul opiniei mediii
(MOS = Mean Opinion Score)
Determinarea acesteia reclama un proces lent
Decizia este impartita in 5 domenii ca in tabelul de mai jos
Score
Calitatea vorbirii
Nivelul distorsiunii
Excelenta
Imperceptibila
Buna
Abia perceptibila dar nu deranjanta
Acceptabila
Perceptibila si slab deranjanta
Saraca
Deranjabila dar nu intolerabila
Nesatisfacatoare
Foarte deranjanta si intolerabila
Masuri de aprecire subiectiva a distorsiunilor

Opinia sau nivelul perceput al distoriunii este transformat in termeni
descriptivi:
excelent
foarte bun
bun
sarac
nesatisfacator
Aceste aprecieri se refera la tot ansamblul de distorsiuni, permit
comparea directa cu masurile obiective (cantitative), dar nu ajuta

imediat la intelegerea cauzelor distorsiunilor
Testele subiective necesita o multime numeroasa de ascultatori, ce
necesita o intsruire adecvata in ascultare si calibrare
Este nevoie si de un mediu special pentru testare
Masuri de aprecire obiectiva a distorsiunilor

In domeniul timp:
raportul semnal-zgomot: daca s(n) este semnalul original al
vorbirii, este vorbirea codata si fisierul vorbire are NT

esantioane, atunci raportul semnal-zgomot este
N T 1
SNR[dB] 10 lg
n0
N T 1
s2( n )
s( intreg
n ) s( nfisierul
) 2
Este o masura globala, definita
pe
n0

raportul semnal-zgomot segmental (pe segment) considera
raportul semnal zgomot calculat pe un segment si face

media geometrica a valorilor obtinute.
Daca semnalul vorbire are NF cadre si lungimea fiecarui cadru este

NS, raportul semnal-zgomot segmental este
N s 1
N
1 F
SEGSNR[dB]
10 lg N s 1
N F i 10
n0
s 2 ( N si j )
s( N s i j ) s( N s i j ) 2
n0
In general, este o masura mai buna decat raportul semnal zgomot

global

Castigul predictiei
N T 1
s2( n )
Pg [dB] 10 lg n 0
N T 1
r 2( n )
n0
unde NT este numarul de esantioane

Un castig mare al predictiei presupune ca filtrarea LP este aproape de
aceea a tractului vocal, astfel incat semnalul eroare r(n) va fi mai aproape
de excitatia adevarata
Exemplu
Fisierul de intrare
Pg [dB]
Fisier 1, vorbitor feminin, 23808 esantioane
16.12
Fisier 2, vorbitor masculin, 30976 esantioane
17.35
Fisier 3, vorbitor masculin, 28416 esantioane
16.01

eroarea energiei
N T 1
E err
n0
N T 1
n0
N T 1
e (n)
s (n)
s( n ) s( n ) 2 ( n )
n0
N T 1
s2( n )
n0
Intrucat se folosesc aceeasi coeficienti pentru filtrare si filtrare

inversa, in mod teoretic semnalele vorbire de intrare si de iesire ar
trebui sa fie identice, deci senalul eroare sa fie zero
Experimental, ne asteptam ca semnalul eroare sa fie foarte mica
din cauza reprezentarii finite a datelor si a limitarilor impuse
simularilor

In domeniul frecventa:
distorsiunea spectrala se defineste ca diferenta patratica
medie dintre spectrul de putere original si spectrul de putere

obtinut prin cuantizarea coeficientilor LPC
Pentru cadrul i distorsiunea este

SDi
1
Fs
Fs
S ( f )
10 lg i
S ( f )
i
df
[dB]
unde Fs este frecventa de esantionare, Si(f) si sunt spectrele

originale si estimate

Si(f) si sunt spectrele originale si estimate sunt definite prin
Si ( f )
S i ( f )
Ai ( e j 2 f / Fs )
1
( e j 2f / Fs )
A
i
Ai(z) si sunt LPC original si- respectiv- cuantizati

In locul integrarii se poate poate folosi sumarea (de fapt,
DFT) dupa relatia

SDi
n1 1
n1 n0 n n
0
j 2n 2
S (e
)
10 lg i
S i ( e j 2n )
[dB]

Alta masura este distanta euclidiana ponderata
Se evalueaza in raport cu reprezentarea LSF, intrucat acestia au o

buna legatura cu forma spectrala, adica formantii, si cu vaile
Daca f si sunt doi vectori, original si codata LSF, atunci distanta
euclidiana este
d ( f, f ) f f
iar in cazul unei analize de ordinul p se obtine

p
d ( f, f ) ( f i f i )2
i 1

Daca wi este ponderea asignata componentei spectrale i a
LSF (care are componente necorelate), atunci distanta

euclidiana ponderata este
p
d ( f, f ) wi ( f i f i )2
i 1
Calculul ponderilor se face dupa urmatoarele considerente:

ponderea formantilor este mult mai mare decat a vailor;
urechea umana distinge mai usor diferentele frecventelor joase decat
cele inalte; ca atare frecventele joase trebuie ponderate mai mult
Referinte
(Tamanna, 2000) Tamanna Islam, Interpolation of Linear Prediction
Coefficients for Speech Coding, MS Thesis, Department of Electrical

Engineering, McGill University, Montreal, Canada, April 2000
(Arons, 1995) Barry Arons, Techniques, Perception, and Applications of Time-Compressed Speech
Speech Research Group, MIT Media Lab, 20 Ames Street, E15-353, Cambridge MA 2139,
(Tamanna, 2000) Tamanna Islam, Interpolation of Linear Prediction Coefficients for Speech Coding,
MS Thesis, Department of Electrical Engineering, McGill University, Montreal, Canada, April 2000.
Thomas Sikora, MPEG Digital Audio Coding, IEEE Signal Processing Magazine, September 1997,
pp. 58-81.
Brandenburg, H. And Popp, H., An Introduction to MPEG Layer-3, Franhofer Institut fur Integrierte
Schaltungen (IIS), EBU Technical Teview- June 2000, pp. 1-15.
Brandenburg Karlheinz, MP3 And AAC Explained, MP3 And Aac Explained, AES 17th
International Conference On High Quality Audio Coding, 2000.

11 - Compresia Audio - I

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

11 - Compresia Audio - I

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSITY POLITEHNICA of BUCHAREST

Transmisia datelor multimedia in retele de calculatoare

Conf. Dr. Ing. Costin-Anton Boiangiu

Debitul de informatie al surselor audio

Debitul de informatie al surselor audio

Fiecare dintre ele difera prin:

serie de servicii de video-telefonie

Debitul de informatie al surselor audio

dat de modulatia in cod a impulsurilor (PCM= Pulse Code

Vorbire de banda larga

Audio banda medie

Audio banda larga

Debitul de informatie al surselor audio

facto al reprezentarii audio numerice

pentru un semnal stereo pentru un CD este:

=>debitul stereo total este 14.1 x 49 / 16 = 4.32 Mb/s

Debitul de informatie al surselor audio

unei benzi audio digitale (DAT = digital audio tape)

Rata binara totala

Digital Audio Tape

Codarea vorbirii vs. codarea semnalului audio

perceptiei audio umane

Motivatia compresiei audio

Motivatia compresiei audio

minunte, va ocupa un spatiu de

Motivatia compresiei audio

a unei singure melodii, pe o conexiune cu viteza de 64

ceea ce este iarasi destul de mult pentru un utilizator obisnuit

rapoarte de compresie de pana la 10 ori, fara pierderea

Motivatia compresiei vorbirii

Motivatia compresiei vorbirii

benzi foarte mari de frecventa (ex. cablul optic), in

Motivatia compresiei vorbirii

Un cuantizor tipic foloseste 8 sau 16 biti pe esantion

Motivatia compresiei vorbirii

serie de coeficienti ce modeleaza esantioanele considerate, converteste coeficientii in simboluri

Tehnici de compresie a vorbirii in domeniul timp

prin cresterea capacitatii de comunicare a urechii

Compresia in timp a vorbirii poate fi utilizata intr-o varietate de

aplicatii incluzand instruirea, ajutorarea celor cu deficiente

cu o viteza dubla este mult mai eficienta decat ascultarea mesajelor la

Tehnici de compresie a vorbirii in domeniul timp

normalizate la o lungime standard

Vorbirea comprimata in timp este referita ca:

cuvinte pe minut (wpm)

atributele relative ale vorbirii relativ la durata pauzelor,

70%, limitarea fiind din cauza limitarilor fiziologice

o viteza mai mare sau mai mica

esantionare in timpul intoarcerii casetei

nedorit al modificarii frecventei proportional cu

diverse rate ale cuvintelor

(phoneme) si a duratei pauzelor

cu dizabilitati, dar nu este relevanta in raport vorbirea inregistrata

Eliminarea pauzelor (Silence Removal)

mediei amplitudinii, combinata cu pragurile de timp

exemplu tehnica TASI (Time Assigned Speech

portiuni din semnal se pot sterge fara a se afecta

vorbire sunt alternativ indepartate si retinute

Esantionarea cu prezentare dihotonica

obtinuta prin redarea semnalului esantionat standard unei

Esantionarea cu prezentare dihotonica

formele de unda, in sensul ca semnalul de la iesire este

criteriul eroare pentru proiectarea circuitului de cuantizare

Cand cuantizarea se realizeaza cu numar mic de biti (numar