Documente Academic
Documente Profesional
Documente Cultură
86
87
este reprezentat de impulsuri multiple (MPLP), impulsuri regulate (RPELP), coduri (CELP)
sau sum de vectori (VSELP).
n figura 1 se reprezint situarea celor trei categorii de metode pe o scar logaritmic a
debitului binar realizat, indicndu-se totodat i calitatea semnalului vocal obinut.
Calitate [MOS]
5
Codarea formei
de und
Codarea
hibrid
Codarea sursei
(vocoder)
3
2
Debit binar
[Kbps]
1
2
16
32
64
P ( z ) = ai z i
i =1
88
s(n)
e(n)
e(n)
+
s (n)
e(n) +
s(n)
+
P(z)
P(z)
(a) Codor
(a) Decodor
rezult c eroarea de cuantizare fcut la codarea semnalului s(n) este egal cu eroarea fcut
pentru a coda semnalul d(n), fr ca precizia predictorului s conteze:
e( n) = s ( n) s( n) = d ( n) d ( n) .
Eantionul s (n) este estimatul eantionului curent s(n) i este obinut din p valori
trecute ale acestuia. Cuantizorul calculeaz eroarea e(n) ca diferen dintre eantionul curent
i estimatul su, o cuantizeaz i transmite valoarea cuantizat e(n) la recepie. Pentru a
reconstitui eantionul curent, eroarea e(n) este adunat eantionului estimat.
ADPCM cu debitul binar de 32 kbii/secund - standardul G.721,
ADPCM cu debite de 24 kbps sau 48 kbps - standardul G.723.
1.1.2. Codarea vectorial
Compresia semnalului vocal prin codare vectorial presupune codarea simultan a unui
set de date (eantioane succesive de semnal) grupate ntr-un vector. Pentru aceasta semnalul
vocal se mparte n cadre i se consider c eantioanele dintr-un cadru formeaz un vector.
1.2 Codarea n domeniul frecven
Aceste tipuri de codificare a formei de und exploateaz redundana semnalului n
domeniul frecven. Posibilitatea reducerii debitului binar al semnalului const n structura
spectrului de putere pe timp scurt a semnalului vocal i n unele particulariti ale urechii
umane n perceperea sunetelor.
1.2.1 Codarea n subbenzi
Codorul n subbenzi divide banda de frecvene a semnalului de intrare n mai multe
subbenzi folosind un banc de filtre trece-band. Semnalul de la ieirea fiecrui filtru este
eantionat i codat; rezultatul codrii este multiplexat n vederea transmiterii. La recepie,
89
Banda 1
s[n]
QMF
analiza
Banda 2
Codor
ADPCM
Codor
ADPCM
Multiplexor
semnalele sunt demultiplexate, decodate (demodulate), i prin nsumare cu ajutorul unor filtre
se obine un semnal care aproximeaz semnalul original.
Standardul G.722: semnal audio de 7 kHz la un debit binar de 64 kbps pentru
teleconferin n reeaua ISDN. Banda audio este mprit n dou subbenzi. Codarea n cele
dou subbenzi se face folosind tehnica ADPCM: subbanda de frecvene joase este codat la
48 kbps, iar subbanda de frecvene nalte este codat la 16 kbps. Codorul G.722 include o
schem de alocare dinamic a biilor i un canal auxiliar de date. Schema bloc a codorului i
decodorului n subbenzi CCITT G.722 este reprezentat n figurile 3 (codorul) i 4
(decodorul).
ieire
Inserie
date
64 Kbii/sec
intrare
Extragere
date
Demultiplexor
Decodor
ADPCM
Banda 1
Decodor
ADPCM
Banda 2
QMF
s[n]
sinteza
mod
Fig. 4. Decodorul n subbenzi G.722
90
91
Detector
200 300 Hz
FTJ
20 Hz
300 450 Hz
Detector
FTJ
s(n)
300 450 Hz
(n
)
20 Hz
2800 3200 Hz
Detector
FTJ
2800 3200 Hz
20 Hz
Sonor/nesonor
Generator
impuls
F0
Generator
zgomot
k =1
l =0
s (n) = ak s ( n k ) +G bl u (n l ), b0 = 1 ,
(1)
n care {ak } , {bl } sunt parametrii sistemului i G are semnificaia unui factor de ctig.
Conform relaiei (1), eantionul curent este prezis ca o combinaie liniar a unui
numr de p eantioane de ieire precedente precum i a eantionului de intrare curent i a q
eantioane de intrare precedente.
Transformata z care caracterizeaz sistemul descris de (1) este:
92
H ( z) =
S ( z)
=G
U ( z)
1 + bl z l
l =1
p
1 ak z
(2)
k =1
i reprezint modelul general al producerii semnalului vocal, cu poli i zerouri, denumit model
ARMA (autoregresive moving average autoregresiv cu medie alunectoare).
Modelul descris de relaia (2) prezint dou cazuri particulare de interes:
dac ak = 0 pentru k = 1, 2,..., p , H(z) devine un model numai cu zerouri, numit
model MA (moving average model cu media alunectoare),
dac bl = 0 pentru l = 1, 2,..., q , H(z) devine un model numai cu poli sau model
autoregresiv AR.
Modelul cu poli (AR) este preferat n modelarea semnalului vocal fa de modelul
ARMA datorit simplitii calculului i datorit corespondenei cu modelul cu tuburi acustice
al producerii vorbirii naturale.
Conform modelului numai cu poli, eantionul curent se poate estima ca o combinaie
liniar a unor eantioane precedente, la care se adaug un termen care reprezint excitaia i,
n acest caz, rel. (1) devine:
p
s (n) = ak s (n k ) + Gu (n) .
(3)
k =1
Deoarece pentru un sistem AR care produce un semnal de forma (3) excitaia nu este
accesibil, estimarea parametrilor modelului se poate face numai pe baza observrii
semnalului de ieire i, pentru c acest semnal este produs prin recurena (3), se poate defini
un semnal s(n) care estimeaz semnalul original s(n) n forma:
p
s(n) = ak s (n k ) .
(4)
k =1
(5)
k =1
Eroarea (5) se mai numete i semnal rezidual, i comparnd (3), (4) i (5) se constat
c eroarea de predicie coincide cu semnalul de excitaie nmulit cu factorul de ctig.
Aplicnd transformarea z n rel. (5) rezult:
R( z ) = A( z ) S ( z ) ,
(6)
A( z ) = 1 ak z k
(7)
k =1
1
=
A( z )
1
p
1 ak z
(8)
k
k =1
93
Sistemul numai cu poli este un bun estimant al sistemului cu poli i zerouri descris de
(2). Astfel, un sistem cauzal descris de rel. (2) se poate descompune n forma:
H ( z ) = G ' H min ( z ) H ap ( z ) ,
(9)
unde G ' este un factor de ctig, H min ( z ) este funcia de transfer a unui filtru trece tot de
faz minim, iar H ap ( z ) este funcia de transfer a unui filtru numai cu poli de forma (7).
Filtrul trece tot H min ( z ) contribuie numai la faza semnalului de ieire i poate fi omis,
avnd n vedere insensibilitatea relativ a auzului uman la faza semnalului.
Prin urmare, se va reine pentru sistemul de producere a semnalului vocal modelarea
numai cu poli, exprimat prin rel. (8), n care ordinul de predicie p are o valoare ntreag
relativ mic.
Schema bloc din figura 61 ilustreaz operaiile de analiz i sintez a semnalului prin
predicie liniar, prin implementarea direct a rel. (3) i (5).
s(n)
r(n)
a z
k =1
s(n)
r(n)
s(n)
+
p
a z
k =1
r(n)
A(z)
r(n)
a) analiza
s(n)
H(z)
b) sinteza
Analiza
LP
Semnal rezidual
Sinteza
LP
Semnal
de ieire
Coeficienii LP
Fig. 7. Analiza i sinteza LP
94
H ( z ) = 1 z 1 , > 0
care prezint o caracteristic de transfer de tip trece-sus i care va favoriza frecvenele
nalte ale spectrului ( este cuprins n intervalul 0,8 0,9).
Pentru a pstra nealterat spectrul semnalului vocal obinut prin predicie liniar, se
aplic acestui semnal o dezaccentuare, n partea de decodor, cu un filtru de tip trece-jos, cu o
funcie de transfer invers celei de preaccentuare.
Reprezentri ale coeficienilor de predicie
Coeficienii LPC definii anterior nu au proprieti adecvate pentru a se cuantiza i
transmite direct. Deoarece pot avea orice valoare real, sunt dificil de cuantizat i, n plus,
orice eroare de cuantizare sau transmisie se reflect prin modificri importante ale spectrului.
De asemenea, sunt necesare msuri pentru asigurarea stabilitii filtrului de sintez. Sunt
cunoscute i utilizate mai multe reprezentri alternative ale coeficienilor de predicie, care
prezint unele avantaje n privina cuantizrii:
Coeficienii de reflexie
Coeficienii LAR
Perechile de linii spectrale
Codorul LPC
Modelarea mecanismului de producere a semnalului vocal prin predicie liniar se
bazeaz pe modelul liniar al producerii semnalului vocal, ilustrat n fig. 6. Modelul LPC de
baz consider semnalul vocal ca fiind rezultat la ieirea unui sistem liniar invariant n timp la
a crui intrare se aplic un semnal de excitaie corespunztor. Acest model este complet
determinat dac se cunosc parametrii sistemului liniar i semnalul de excitaie. Modul n care
se determin aceti parametri clasific codoarele LPC n dou clase:
codarea LPC n bucl deschis,
codarea LPC n bucl nchis.
Codorul LPC n bucl deschis
Codorul LPC n bucl deschis se bazeaz pe modelul LPC, pentru care excitaia ideal
este eroarea rezidual de predicie. Modul n care se obine semnalul de excitaie la recepie
conduce la gruparea codoarelor LPC n bucl deschis n mai multe categorii, dintre care cele
mai importante sunt prezentate n continuare.
Modelul cu excitaie zgomot - impuls
95
Acest model evit necesitatea codrii i transmiterii erorii reziduale, nlocuind acest
semnal de excitaie cu unul generat local, la recepie, compus dintr-o secven de impulsuri
periodice pentru sunetele sonore, respectiv un zgomot alb pentru sunetele nesonore.
Un codor care folosete acest model a devenit standardul FS-1015 i este cunoscut ca
algorimul LPC-10, asigurnd un debit binar de 2,4 kbps.
Modelul cu excitaie mixt
Modelul cu excitaie mixt aduce o mbuntire n ceea ce privete erorile datorate
excitaiei cu impulsuri de frecven fix pentru semnalele sonore ale modelului prezentat
anterior, mai ales n cazul tranziiilor sonor-nesonor. O surs de excitaie mixt produce o
sum ponderat ntre un semnal de excitaie tip impuls periodic i unul tip zgomot.
Modelul excitat rezidual
Deoarece filtrul de predicie liniar lucreaz ca un decorelator pe termen scurt, eroarea
rezidual de predicie va avea un spectru relativ plat. Eroarea de predicie este semnalul de
excitaie ideal pentru filtrul de sintez de tipul numai poli i conine toate informaiile despre
semnalul vocal care nu au fost capturate de analiza prin predicie liniar (de exemplu
informaii despre frecvena fundamental, zerouri datorate tractului nazal).
Codarea semnalului eroare de predicie se poate face folosind un debit binar redus,
avnd n vedere banda de frecven relativ limitat a acestui semnal (max. 800 Hz) i variaia
lent n timp a acestui semnal.
Codorul LPC n bucl nchis
Un codor LPC n bucl nchis poate fi caracterizat prin:
un model de producere a semnalului vocal, care depinde de setul de parametri :
s(n) = f () ,
un numr de K valori posibile pentru setul de parametri : 1 , 2 ,3 ,... K ,
o msur a erorii | EK |2 prin care se compar semnalul original s(n) cu semnalul
refcut s(n) .
Codorul n bucl nchis gsete setul optim de parametri prin sintetizarea tuturor
celor K semnale vocale diferite sk (n) , corespunztoare tuturor valorilor posibile pentru
parametrii i calcularea erorii | Ek |2 corespunztoare, reinnd i transmind la decodor
indexul k care minimizeaz acest msur a erorii. Deoarece se calculeaz explicit fiecare
valoare sk (n) i se compar cu semnalul de intare s(n), se justific denumirea de analiz prin
sintez, sub care este cunoscut acest codor, spre deosebire de codarea n bucl deschis, unde
parametrii codorului se determin pe baza unor relaii analitice, fr a calcula explicit sk (n) .
Aceast metod de codare a semnalului vocal n bucl nchis conduce la o
complexitate de calcul foarte ridicat, datorat necesitii estimrii tuturor valorilor posibile
sk (n) i respectiv | Ek |2 . Metodele de codare LPC n bucl nchis folosite n practic adopt
un compromis pentru a reduce complexitatea, calculnd parametrii filtrului liniar al modelului
n bucl deschis, folosind o metod analitic adecvat, iar semnalul de excitaie optim se
determin n bucl nchis.
Codorul LPC n bucl nchis poate utiliza, n general, trei modele diferite pentru
semnalul de excitaie:
excitaia multiimpuls,
excitaia cu impulsuri periodice,
excitaia cu vectori sau cod,
care vor fi prezentate pe scurt n continuare.
96
Preprocesare
Semnal
rezidual
Analiza
LPC
LAR
Predicie
termen
lung
Codare
RPE
Cod
RPE
F0 ctig
a) Codorul
Cod
RPE
Decodare
RPE
Semnal
rezidual
Filtru
termen
lung
F0 ctig
Sinteza
LPC
Postprocesare
Semnal
vocal
LAR
b) Decodorul
Fig. 8. Schema bloc a sistemului RPE LPT utilizat n standardul GSM
97
comunicaie la decodor. Pentru ctig se aloc 2 bii iar pentru ordinul predictorului pe termen
lung 7 bii.
Pentru semnalul de excitaie corespunztor unui subcadru de semnal vocal de 40 de
eantioane, se folosesc 13 impulsuri uniform distanate n timp, dispuse sub forma unei
grile, n care, dup fiecare impuls de excitaie urmeaz 3 impulsuri nule. Aceast gril poate
avea prin urmare 4 poziii distincte n subcadru, poziii care se pot coda pe 2 bii. Pentru a
coda amplitudinea fiecrui impuls din gril se detemin impulsul cu amplitudinea maxim i
aceast valoare se codeaz logaritmic folosind 6 bii, iar pentru celelalte impulsuri se codeaz
pe 3 bii valoarea normat la amplitudinea maxim. Debitul binar rezultat prin codare este 260
bii/cadru sau 13 kbps.
Codorul LPC excitat cu coduri (Code Excited Linear Prediction - CELP)
Cele dou variante de codoare folosind excitaia multiimpuls determinat prin metoda
analizei prin sintez, prezentate anterior, realizeaz un semnal vocal de foarte bun calitate la
un debit binar considerat mediu. Pstrarea calitii semnalului sintetizat la rate binare mai
mici reclam folosirea unei secvene de excitaie codat mai eficient. Aceast cerin o
ndeplinete codorul CELP, prezentat n figura 9, care folosete pentru excitaie un cod sau un
vector, memorat ntr-un dicionar de coduri.
Dicionarul de coduri folosit n schema prezentat conine un numr corespunztor de
secvene de excitaie, memorate sub forma unor vectori, fiecare vector coninnd un numr de
eantioane cu care acoper o durat de semnal vocal de un subcadru. Vectorul de excitaie,
nmulit cu un coeficient de ctig, este trecut prin filtrele de predicie pe termen lung,
respectiv pe termen scurt. Semnalul sintetizat prin filtrare este comparat cu semnalul vocal de
intrare iar blocul de minimizare a erorii va alege ca optim acel vector de cod pentru care
semnalul sintetizat este cel mai apropiat de semnalul de intrare. Att semnalul sintetizat ct i
cel de intrare sunt ponderate perceptual cu funcia W(z) nainte de a se calcula eroarea.
Dicionar
s(n)
ci(n)
Ctig
+
+
W(z)
W(z)
AL(z)
Index
Minimizarea
erorii
sW(n)
W(n)
-
A(z)
ei(n)
Dezavantajul major al codorului CELP este puterea mare de calcul necesar pentru
codare i memoria relativ mare pentru dicionarul de coduri. Acest fapt a dus la dezvoltarea
unor algoritmi performani de cutare i a unor dicionare de coduri structurate, n scopul
reducerii complexitii operaiilor de cutare.
Sunt cunoscute variante de codor CELP, denumite VSELP (Vector Sum Excited
CELP), care folosesc mai multe dicionare, semnalul de excitaie fiind obinut ca o sum de
vectori din aceste dicionare, sau ACELP (Algebraic CELP, n care vectorii sunt reprezentai
prin valori 0, +1 sau 1).
Diferite variante de codor CELP sunt standardizate: FS 1016 (CELP cu debit de 4,8
Kbps), Half-rate GSM (VSELP cu debit 5,6 kbps), AMR (codecul pentru 3G ACELP) etc.
98
s(n)
+
Dicionar
coduri
(n)
Ctig
A(z)
Analiza LP
Index VQ
MSE
W(z)
Ctig
Dicionar
coduri
VQ
Index
Adaptare
ctig
Postfiltrare
+
A(z)
Analiza LP
Fig. 11. Decodorul Low Delay CELP
Semnal
vocal
99