Documente Academic
Documente Profesional
Documente Cultură
Una dintre cele mai naturale forme de comunicare dintre fiintele umane este comunicarea prin
intermediul vorbirii. Prin intermediul ei se transmit gindurile (in forma cea mai importanta de informatie:
mesajul lingvistic), personalitatea si starea de emotivitate a locutorului. Mesajul lingvistic este transmis
prin intermediul semnalului vocal, unda acustica ce are proprietati bine definite, dar a carei producere si
intelegere inca nu a fost descifrata complet. Totusi, exista modele pentru producerea si intelegerea acestui
tip de semnal la nivel cerebral.
Revolutia aplicatiilor multimedia include in mod inevital transmiterea si a semnalului vocal, pe linga
alte tipuri de semnale: video, text, imagini, muzica, etc. Dar, data fiind capacitatea limitata a canalelor de
comunicatie si nevoia de a transmite cit mai multa informatie intr-un timp limitat a condus la necesitatea de
compresie a acestor semnale.
In Tabelul 1.1.1. sunt prezentate debitele necesare pentru a transmite diferite tipuri de semnale audio. Se
observa ca in toate cele trei cazuri date ca exemplu, debitul este mult mai mare decit debitul de 64 Kbps
asigurat de un sistem PCM clasic. Vom vedea putin mai departe ca exista sisteme de compresie capabile
de transmisia semnalului vocal la debite sub 2400 bps, deci cu rapoarte de compresie mai mari de 5000
(cresterea raportului de compresie este totusi platita prin pierderea unor informatii de finete din semnalul
audio). In mod cert, sistemele multimedia necesita astfel de rapoarte de compresie, deci prelucrari
suplimentare ale semnalului vocal.
Tipurile de aplicatii multimedia care utilizeaza transmisia semnalului vocal pot fi analizate in Tabelul 1.1.2
a) debitul binar
Reducerea debitului binar este principala motivatie in realizarea compresiei de semnal. In functie de
aplicatie si de constringerile de proiectare, debitul poate fi fix sau variabil. Sistemele de compresie adesea
au un debit fix din cauza ca sunt mai usor de realizat, nu necesita definirea unor criterii pentru modificarea
debitului intr-un anumit interval de timp, iar daca linia de comunicatii are o capacitate fixa in principiu se
recomanda selectarea unui codec cu un debit de iesire egal cu cel al canalului (incluzind bitii de protectie la
erori). Sistemele cu debit variabil se bazeaza pe utilizarea a doua debite: debit mai mare pentru transmisia
vocii, debitul mic pentru transmiterea unor informatii specifice - pe durata portiunilor de liniste sau a
pauzelor dintre cuvinte. Pentru viitor se estimeaza utilizarea pe scara din ce in ce mai mare a sistemelor de
compresie cu debit variabil.
Debite binare fixe se folosesc in:
comunicatii telefonice militare la debit redus: 0.8 - 4.8 Kbps
comunicatii celulare sau prin satelit: 3.3 - 13 Kbps
comunicatii pe linie telefonica: debit mai mare de 16 Kbps
c) complexitatea
Complexitatea ca timp de calcul si necesar de memorie determina in principal costul si energia consumata
de echipamentul hardware care realizeaza compresia. Cu exceptia citorva aplicatii, cum ar fi sistemele de
informare sau transmiterea unor mesaje, compresia trebuie realizata in timp real. Pentru indeplinirea
cerintelor de mai sus solutia este implementarea algoritmului de compresie pe un procesor de semnal.
In cazul sistemelor comerciale de uz individual (telefoane mobile, sisteme de raspuns automat), se aleg
procesoare mai ieftine, care opereaza in virgula fixa. Pentru sisteme in care mai multi utilizatori au acces la
resursele hardware se prefera procesoare in virgula mobila, deoarece costul sistemului este mai putin
important fata de costul dezvoltarii aplicatiilor. In plus, procesoarele de semnal pot avea memorie inclusa,
iar un acelasi procesor poate efectua atit functiile sitemului de compresie cit si cele ale sistemului de
transmisie (modem).
2
d) intirzierea
Intirzierea datorata prelucrarilor care se efectueaza asupra semnalului in vederea compresiei au importanta
majora in special in cazul comunicatiilor in ambele directii. Exista doua praguri pentru intirzierea unui
sistem de compresie.
Primul prag (de valoare aproximativ 150 ms) este cel care afecteaza continuitatea unei comunicari
bidirectionale. Pentru comunicatii intr-un singur
sens o intirziee de 400 - 500 ms este acceptabila.
Al doilea prag este determinat de prezenta ecoului, de aceea se impun restrictii importante asupra
sistemului de compresie daca ecoul nu este eliminat. Pragul depinde de tipul canalului de comunicatie.
e) imunitatea la erori
In mod inevitabil fluxul binar receptionat de decodor contine erori datorate canalului de comunicatie.
Aceste erori sunt de doua tipuri:
- erori aleatoare
- erori in rafala (de exemplu in comunicatiile mobile)
si pentru ele trebuie elaborate strategii diferite de protectie.
Protectia la erorile aleatoare (limitate la 1 - 5 %) se face prin intermediul codurilor ciclice redundante, iar
protectia la erorile in rafala are in vedere un procedeu de scramblare prin care aceste erori sunt transformate
in erori aleatoare sau prin aplicarea unui polinom corector de un tip special si apoi codare convolutionala.
In plus, fluxul binar de la iesirea sistemului de compresie este divizat in biti foarte importanti, importanti
sau mai putin importanti, biti care sunt codati diferit. Dupa aplicarea codarii canalului debitul creste de
aproape doua ori. De asemenea, sistemul de decodare identifica acele cadre cu un numar de erori mai mare
decit cel admis si fie le respinge (inlocuindu-le cu cadrul anterior sau un cadru rezultat din interpolare), fie
cere retransmiterea lor, prin proceduri specifice sistemului de comunicare.
f) banda ocupata
Semnalul vocal poate fi limitat la 10 KHz fara a-i afecta caracteristicile perceptuale, dar in marea
majoritate a sistemelor de comunicatii el este limitat la o frecventa mult mai mica.
De exemplu, in sistemele telefonice banda este de 200 - 3400 Hz, iar ambele frecvente de taiere afecteaza
caracteristicile semnalului. In sistemele digitale semnalul este esantionat la 8 KHz, rezultind o banda utila
de 4 KHz. Semnal vocal de banda larga (7 KHz) este folosit in standardul G.722, care la debite chiar mai
mici (56 sau 48 Kbps) decit debitul PCM de 64 Kbps asigura o calitate a semnalului receptionat mult mai
buna. Dar totusi, G.722 este mai putin raspindit din cauza ca exista multe situatii in care el interfera cu
sistemul PCM (de banda ingusta). Este de asteptat ca G.722 sa fie utilizat in aplicatii de tip videotelefonie
sau videoconferinta, acolo unde semnalul, in forma lui decodificata (banda de 7 KH), nu traverseaza
canale de banda ingusta.
3
2. STANDARDE PENTRU COMPRESIA SEMNALULUI VOCAL
2.1. Sisteme de compresie pentru linia telefonica
a) compresie PCM la 64 Kbps: G.711
Sistemul de compresie face apel la legile de compandare/expandare (pentru America si Japonia) si A
(pentru restul lumii) pentru a reprezenta pe 8 biti un semnal esantionat pe 13, respectiv 12 biti. Raportul
semnal zgomot este de aproximativ 35 dB. Ambele sisteme de compresie au o calitate apropiata.
G.723 suporta debitele de 32, 24 sau 40 Kbps. Debitul de 24 Kbps este utilizat in conditiile in care se
depaseste capacitatea canalului de transmisie, iar debitul de 40 Kbps se prefera pentru transmisia datelor.
G.726 este o unificare a sistemeleor G.721 si G.723 avind in plus si debitul de 16 Kbps, cu aplicatie directa
la DCME.
G.727 ofera aceleasi debite de iesire ca si G.726, dar numarul nivelelor de cuantizare este intotdeauna par.
Poseda un cuantizor de 2 biti, incorporat intr-unul de 3 biti, care la rindul lui este inclus in altul de 4 biti si
apoi in unul de 5 biti. Acest lucru este necesar in sistemele PCME (Packet Circuit Multiplex Equipment),
cind la depasirea capacitatii canalului se elimina bitii mai putin importanti din codul ADPCM.
c) ITU-T 4
Se propune un sistem de compresie la debit redus cu aplicatii in videotelefonie, comunicatii personale si
comunicatii mobile prin satelit.
a) compresia G.722
Pentru banda telefonica de 200 - 3200 Hz sunetele fricative precum /f/ sau /s/ sunt greu de distins. De aceea
pentru aplicatii de tip teleconferinta sau videoconferinta s-a propus utilizarea semnalelor audio de banda
larga (50 - 7000 Hz).
Sistemul de compresie G.722 utilizeaza filtre de tip QMF (Quadrature Mirror Filters) trece jos, respectiv
trece sus pentru a coda subbenzile inferioara (48 Kbps) sau superioara (16 Kbps).
Aplicatiile vizeaza:
telefonie de banda larga pe canale ISDN
videotelefonie si videoconferinta pe accesul de baza ISDN
transmisii de pachete in retele ISDN de banda larga sau in retele ATM
aplicatii pe circuite digitale multiplex
aplicatii PSTN punct la punct via modem
mesagerie vocala
IS96 QCELP este un codor cu debit de iesire variabil. Debitul normal pe durata convorbirii este de 8.5
Kbps, dar el este redus la 0.8 Kbs pentru scurtele perioade de liniste sau pauze in vorbire. La acest debit
redus se aplica algoritmi de interpolare si se utilizeaza statistica zgomotului de fond pentru a reconstitui
semnalul real la receptie. Pentru a imbunatati calitatea semnalului audio, in special pentru medii cu mult
zgomot (unde algoritmul QCELP nu da rezultatele cele mai bune), a fost propus un alt sistem numit EVRC
(Enhanced Variable Rate Coder).
Tabelul 2.5.1. Comparatie intre standardele de compresie pentru telefonia mobila in America
Standard TIA TIA TIA
IS54 IS96 EVRC
Anul 1989 1993 1995
Debit binar 7.95 Kbps 8.5, 4, 2, 0.8 Kbps 8.5, 4, 2, 0.8 Kbps
Calitate i RPE - LTP < IS54 > IS54
MIPS 20 20 necunoscut
RAM 2 KB 2 KB necunoscut
Un cadru 20 ms 20 ms 20 ms
Extra-cadru 5 ms 5 ms necunoscut
Specificare sir de biti sir de biti necunoscut
Tip compresie CELP CELP necunoscut
6
Debitul de 4.15 Kbps rezulta la iesirea unui codec de tip IMBE (Improved Multi Band Excitation), iar prin
adaugarea bitilor pentru protectia la erori se ajunge la un debit de 6.4 Kbps.
Ideea compresiei are la baza divizarea semnalului in mai multe subbenzi. Pentru fiecare subbanda se ia
decizia sonor/nesonor, iar spectrul este cuantizat si transmis impreuna cu informatia despre frecventa
fundamentala. Acest tip de codare difera fata de codarea LPC prin aceea ca decizia sonor/nesonor se ia
pentru fiecare subbanda si nu pentru tot semnalul. Astfel, vocea sintetizata pare mult mai naturala.
Probleme apar atunci cind peste semnalul vocal se suprapun sunete muzicale sau zgomot.
FS1015 va fi inlocuit in viitor cu un alt tip de vocoder in care calitatea semnalului reconstituit va fi mult
mai buna, iar protectia la erori mult mai mare.
PCM (Pulse Coded Modulation) este o tehnica de codare a semnalului vocal definită în standardul ITU-
T G.711 şi este metoda care se foloseşte în telefonia digitală pentru a coda semnalul de voce.
Primul pas în conversia semnalului vocal analogic în semnal digital este filtrarea semnalului analogic,
adică limitarea la banda de frecvență telefonică [300Hz, 3400 Hz].
Următorul pas este eşantionarea, la o frecvență care să respecte teorema eşantionării, Fe > 2*Fm, astfel
frecvența de eşantionare a fost aleasă Fe = 8 kHz.
Se poate observa că filtrarea are rolul de a preveni apariția fenomenului de aliere. După ce a avut loc
eşantionarea, următorul pas este compresia semnalului, proces ce se realizează prin cuantizare
neuniformă.
7
Un parametru important care caracterizează modulația PCM este raportul semnal/zgomot de cuantizare,
eroarea de cuantizare fiind considerat ca și un zgomot.
unde N este numărul intervalelor de cuantizare, pi este probabilitatea ca semnalul de transmis să cadă în
intervalele de cuantizare i, Pqi este puterea zgomotului de cuantizare în intervalul i.
8
Wideban PCM
9
Wideband Narrowband
input signal input signal
sWB (n) sNB (n)
(n 0,..., 79) (n 0,...,39)
Pre-processing Pre-processing
filter filter
sWB (n) sNB (n)
Lower-band signal
(n 0,..., 79) (n 0,...,39)
sLB (n) Core bitstream
(n 0,...,39) Lower-band I L0
embedded
PCM encoders Lower-band
enhancement Multiplexed
bitstream I L1 bitstream
Analysis
MUX
QMF
Higher-band
Higher-band MDCT Higher-band
signal coefficients Higher-band bitstream
MDCT MDCT
sHB ( n) S HBm (k ), HB encoder I L2
(n 0,...,39) (k 0,...,39)
In figura este prezentată diagrama bloc la nivel înalt al encoder-ului. Semnalul de intrare este eșantionat
la Fe=16 kHz și este filtrat trece sus pentru a elimina componentele din banda 0-50 Hz.
Banda semnalului este împărțită în două sub-benzi de 8kHz una superioară iar cealaltă inferioară,
utlilizând 32-tap QMF (quadrature mirror filterbank).
Semnalul din banda inferioară este codat cu un codor embedded lower-band care generează un bitstream
principal (Layer 0) compatibil G.711, la 64kbit/s și un bitstream lower-band enhancement (Layer 1) la 16
kbit/s.
Semnalului din banda superioară este aplicată transformata MDCT (Modified Discrete Cosine
transform), iar coeficienții de domeniu frecvență sunt codați împreună cu factorul de normalizare și
generează un bitstream higher-band (Layer 2) la 16kbit/s. În final bitstrem-urile sunt multiplexate ca un
bitstream scalabil.
10
3. CODAREA ADPCM G.726 A SEMNALULUI VOCAL
3.1. Introducere
In sistemele de prelucrare digitala a semnalului vocal exista avantaje unanim recunoscute:
• stocare simpla
• precizie deosebita
• posibilitati de compresie
• imunitate la erori, etc.
Transmiterea digitala a semnalului vocal prezinta un numar impresionant de avantaje. Cea mai mare parte dintre
acestea caracterizeaza transmisiunile digitale in general:
• rezistenta mare la perturbatii (raportul semnal / zgomot necesar la receptie este practic cu 20 de dB
mai mic decit in cazul transmisiilor analogice )
• posibilitatea de regenerare a semnalelor (zgomotul nu se mai acumuleaza)
• posibilitatea de protectie la erori prin codarea canalului si de asigurare a secretului transmisiei prin
criptare
• multiplexarea (cu diviziune in timp mai ieftina decit cea cu diviziune in frecventa)
• avantaje tehnologice (circuite VLSI dedicate, procesoare de semnal, interfete elctro-optice , etc .) .
Nu cu multi ani in urma principalul dezavantaj al transmisiunilor digitale era reprezentat de cresterea benzii
necesare transmisiei. Odata cu dezvoltarea si implementarea algoritmilor evoluati de digitizare a vocii, care
asigura o calitate corespunzatoare a vocii la debite de 32 Kbps, 24 Kbps sau chiar la 13, respectiv 6.5 Kbps in
telefonia mobila, eficienta spectrala a transmisiunilor digitale a devenit comparabila sau chiar mai buna decit
cea a transmisiunilor analogice, cel putin din punctul de vedere al transmisiilor de voce. Fara indoiala ca
elaborarea unei tehnici performante de modulatie , pe de o parte, si extinderea impresionanta a utilizarii fibrei
optice ca mediu de transmisiune, pe de alta parte, a contribuit esential la aceasta. Ca problema ramine
necesitatea asigurarii sincronizarii la diferite nivele, cerinta cu atit mai costisitoare cu cit debitul in retelele de
telecomunicatii creste.
Vocea umana este o sursa de natura analogica. Ea este abordata de o maniera statistica fiind modelata prin
distributii de variabile aleatoare continue, cu variatii puternice in timp si de la un vorbitor la altul. Semnalele
vocale sunt nestationare si continue. Ele pot fi considerate ca si cvasistationare pe intervale de timp scurte.
Spectrul de putere al semnalului vocal difera in functie de sunet. El este cuprins in general intre 80 de Hz si 12
KHz, densitatea spectrala de putere scazind puternic la frecvente inalte, mai mari de 4 KHz.
11
adaptiv. Un cuantizor adaptiv cu 31, 15, 7 sau 4 nivele (in functie de debitul de iesire) este folosit pentru a coda
pe 5, 4, 3 sau 2 biti valoarea semnalului diferenta (Figura 3.2.1.)
12
13
Figura 3.2.2. reprezinta schema bloc a codorului. Pentru variabilele ce vor apare in continuare k este indexul
esantionului, iar esantioanele se iau la intervale de 125 μs (f e =8 kHz).
Conversia formatului PCM de intrare
Blocul Conversie PCM liniar converteste semnalul PCM de intrare s(k) din logaritmic (legea A sau μ) in
semnal PCM uniform (liniar), sl(k) .
Calcul diferenta
Acest bloc calculeaza semnalul d(k), obtinut ca diferenta dintre semnalul uniform PCM s l(k) si semnalul estimat
se(k) :
d(k) = sl(k) - se(k)
Cuantizorul adaptiv
Un cuantizor adaptiv neuniform cu 31, 15, 7 sau 4 nivele este folosit pentru a cuantiza semnalul diferenta d(k)
rezultind 40, 32, 24 respectiv 16 Kbps. Inainte de cuantizare d(k) este normalizat (logaritmat in baza 2) si scalat
cu y(k) (calculat de blocul de adaptare a cuantei):
dn(k) = log2( dl(k) ) - y(k)
Operatii la 32 de biti (exemplificare), analog se procedeaza si pentru 40, 24, 16 Kbps)
Pentru reprezentarea nivelului cuantizat d n(k) se folosesc 4 biti (trei pentru amplitudine si unu pentru semn).
Iesirea pe 4 biti a cuantizorului I(k), este chiar semnalul de iesire la 32 kbps; I(k) ia una din cele 15 valori
diferite de zero, dar I(k) este semnal de intrare pentru cuantizorul adaptiv invers, pentru blocurile de control a
vitezei de adaptare si adaptarea factorului de scala.
Viteza de adaptare este cotrolata de o combinatie de factori de scala rapizi si lenti. Factorul de scala rapid
(unlocked), yu(k), este calculat recursiv in domeniu logaritmic in baza doi, din factorul de scala logaritmic
rezultat anterior, y(k) :
yu(k) = ( 1 - 2-5 ) y(k) + 2-5 WI I(k) I
unde yu(k) este limitat intre : 1.06 ≤ yu(k) ≤ 10.00
De exemplu pentru 32 kbps, functia discreta W(I) este definita dupa cum urmeaza :
I I(k)I 7 6 5 4 3 2 1 0
WI I(k) I 70.13 22.19 12.38 7.00 4.00 2.56 1.13 -0.75
Factorul de scala lent (locked ) yl(k) se obtine din yu(k) printr-o operatie de filtrare trece jos :
yl(k) = ( 1 - 2 -6 ) yl(k-1) + 2-6 yu(k)
Factorii de scala rapid si lent sunt apoi combinati pentru a obtine factorul de scala rezultant:
y(k) = al(k) yu(k-1) + ( 1- al(k) ) yl(k - 1)
unde : 0 ≤al(k) ≤1
14
Controlul vitezei de adaptare
Parametrul de control al(k) poate lua valori in intervalul (0, 1). El tinde spre unu pentru semnal vocal si tinde
spre zero pentru semnal de date. Este o masura a ratei de variatie a valorilor semnalului diferenta. Se calculeza
doua variante ale amplitudinii medii a lui I(k) :
dms(k) = ( 1 - 2-5 ) dms(k-1) + 2-5 FI I(k) I
si dml(k) = ( 1 - 2-7 ) dml(k-1) + 2-7 FI I(k) I
Pentru 32de kbps F│I(k)│ este definit ca :
│I(k) │ 7 6 5 4 3 2 1 0
F│I(k) │ 7 3 1 1 1 0 0 0
Astfel dms(k) este media pe termen scurt, iar d ml(k) este media pe termen lung a lui F│ I(k)│ .
In plus, o tranzitie de la o banda de semnal este definita astfel incit coeficientii predictorului sa poata fi setati in
zero si cuantizorul sa poata fi fortat intr-un mod rapid de adaptare
Simplificind schema de codare ADPCM G.726 prin eliminarea blocurilor: control viteza de adaptare, detector
de ton si tranzitii si adoptind un predictor format dintr-un element de intirziere, se cere implementarea practica a
codorului in scopul studiului performantelor pentru debitul de 32 Kbps.
15
O serie de blocuri care intervin in structura decodorului au fost descrise deja mai sus. In continuare se va face
descrierea functionala a blocurilor care sunt specifice decodorului.
Conversia in format PCM de iesire
Acest bloc converteste semnalul refacut sr(k) intr-un semnal PCM logaritmic (legea A sau μ) , s p(k).
Adaptarea la codarea sincrona
Adaptarea la codarea sincrona previne acumularea distorsiunilor datorate codarii sincrone tandem ( ADPCM -
PCM - ADPCM , e t c. ) si conexiunilor digitale, cind :
1) transmisia semnalelor ADPCM este fara erori
2) debitele ADPCM si PCM nu sunt alterate de dispozitivele digitale de procesare a semnalelor .
In Figura 3.4.2. sunt prezentate comparativ formele de unda ale semnalului original si ale semnalelor refacute
pentru diferite debite de codare. La o privire mai atenta se observa ca pe masura ce debitul scade, zgomotul din
semnal devine mai vizibil, ajungind in final ca la debitul de 16 kbps semnalul sa fie foarte zgomotos. Acest
lucru e confirmat si de rapoartele semnal / zgomot din tabel .
Primul lucru care se observa este ca variatia raportului semnal zgomot la semnalele de date nu mai este la fel de
liniara ca si in cazul semnalelor vocale. La codarea pe 2 sau 3 biti raportul semnal / zgomot se mentine oarecum
constant (13 - 15 dB ) apoi la 4 biti are o crestere de 12 dB, dupa care la cresterea cu inca unu a numarului de
bitI, cresterea RSZG nu mai este asa importanta. La debitul recomandat pentru date de 40 Kbps, semnalul este
refacut foarte bine, avind doar un usor zgomot de granularitate. La o privire atenta se poate observa ca valoarea
acestui zgomot creste odata cu amplitudinea nivelului de semnal .
Algoritmul propus de Recomandarea G.726 se preteaza la implementare soft. Rezultatele obtinute sunt foarte
bune. Rapoartele semnal zgomot obtinute pe cele citeva cazuri pe care s-au facut experimentele s-au situat intre
2 si 50 de dB, desigur in functie de debit.
In urma experimentelor se pot trage o serie de concluzii si anume ca raportul semnal zgomot depinde de debitul
la care se face prelucrarea . Mai clar se vede acest lucru daca ne raportam la numarul de biti pe care se face
codarea. Astfel, se poate spune ca in general la cresterea cu unu a numarului de biti, RSZG creste cu
aproximativ 10 dB. De asemenea din graficele obtinute se observa o crestere aproape liniara a RSZG in raport
cu cresterea numarului de biti.
In cazul semnalelor de date se obtin de asemenea rezultate bune, in special la debitul de 40 de Kbps. Pentru
semnalele de date bipolare pare sa fie general faptul ca nivelele negative sunt refacute mai prost decit cele
pozitive.
Trebuie sa remarcam ca atit pentru semnalele de date cit si pentru cele vocale asemanarea dintre spectrul
semnalului original si al celui refacut este foarte mare, ceea ce indica o calitate foarte buna a sistemului de
codare / decodare.
Foarte interesant este faptul ca erorile de predictie si refacere sunt asemanatoare cu semnalul original, incit daca
le redam in difuzor suna la fel ca si semnalul original, avind doar o amplitudine mai mica si putin zgomot.
Concluzii:
• Codorul ADPCM G.726 asigura codarea adaptiva a diferentei dintre doua esantioane succesive a unui
semnal original (format PCM, frecventa de esantionare de 8 KHz, 8 bitI, legea A sau miu). Debitul de
iesire poate fi selectat la: 40, 32, 24 sau 16 Kbps.
• Debitul de iesire depinde de numarul nivelelor de cuantizare folosite de blocul de cuantizare dupa cum
urmeaza:
40 Kbps 5 biti
32 Kbps 4 biti
24 Kbps 3 biti
16 Kbps 2 biti
• In structura sistemului de codare se identifica blocurile: cuantizare adaptiva a diferentei, adaptare cuanta,
control al vitezei de adaptare, predictorul adaptiv, detector de tonuri.
• Adaptarea cuantei se face sub comanda blocului de control al vitezei de adaptare si adaptare cuanta. Viteza
de adaptare este controlata de o combinatie de factori de adaptare (rapid/lent) prin intermediul unui
parametru de control. Adaptarea poate fi:
- rapida - pentru semnale cu fluctuatii de amplitudine mari
- lenta - pentru semnale cu fluctuatii mici
• Predictorul are o structura cu 2 poli si sase zerouri, asigurind stabilitatea sistemului in bucla inchisa si
calculind un semnal estimat, in scopul minimizarii erorii de predictie. Coeficientii filtrului se modifica in
timp pe baza unui algoritm de gradient simplificat.
• Codorul contine in structura sa, pe bucla de reactie negativa, elementele specifice ale decodorului. In
decodor apare blocul de adaptare la codarea sincrona pentru a preveni erorile de codare sincrona tandem
ADPCM - PCM - ADPCM.
• Implementarea practica a codorului poate fi realizata in timp real pe procesor de semnal sau chiar pe PC.
• Rezultatele experimentale obtinute la codarea cu acest tip de codec pun in evidenta urmatoarele:
17
- prin prisma rapoartelor semnal zgomot, se recomanda utilizarea dbitului de 40 Kbps pentru
transmisii de date, 32 Kbps pentru transmisii de voce, iar 24 Kbps si 16 Kbps pentru canale
auxiliare de voce
- pornind de la esantioane de 16 biti se pot obtine 5, 4, 3 sau 2 biti (corespunzator debitelor de 40,
32, 24, 16 Kbps) pentru fiecare esantion, rezultind rapoarte de compresie intre 3 si 8
- RSZG creste liniar cu crsterea numarului de biti
- o crestere cu 1 a numarului de biti conduce la o crestere cu aproximativ 10 dB a RSZG
- eroarea de predictie are caracteristici acustice aproximativ identice cu cele ale semnalului
original
- spectrul semnalului refacut este aproape identic cu spectrul semnalului original
- la codarea datelor, variatia RSZG nu mai depinde liniar de numarul de biti.
Daca se transmit date trebuie adaugata informatie suplimentara pentru a preciza modul de lucru. Datele se
transmit in cel mai putin semnificativ bit (la debit de 8 Kbps), sau in cei mai putin semnificativi doi biti ai
subbenzii inferioare (la debit de 16 kbps).
Semnalul diferenta eL se obtine prin scaderea semnalului estimat s L din semnalul de intrare xL.
eL = xL - sL
18
Se observa ca prin suprimarea celor mai putin semnificativi doi biti de la iesirea cuantizorului apare
posibilitatea de a insera un flux de date de maxim 2 x 8 = 16 Kbps pe canalul inferior, fara a afecta functionarea
corecta a decodorului. Utilizarea unui cuantizor de 60 de nivele in loc de 64 garanteaza indeplinirea conditiei de
densitate de amplitudine ceruta de standardul G.802 in toate conditiile si toate modurile de lucru.
Debitele de 48, respectiv 16 Kbps se multiplexeaza intr-un debit unic de 64 kbps. Primul bit transmis in linie
este IH1 .
Concluzii:
• codarea ADPCM G.722 se aplica semnalelor audio de banda larga (banda de 7 KHz)
• pentru o codare cu raport semnal/zgomot ridicat, G.722 are in vedere codarea ADPCM in subbenzi.
Semnalul de intrare cu banda maxima de 8 KHz este filtrat trece sus, respectiv trece jos pentru a obtine
doua subbenzi: superioara si inferioara. Subbenzile sunt cuantizate pe 2 biti (subbanda superioara, acolo
unde informattia acustica este mai putin relevanta), respectiv 6 biti (subbanda inferioara, care contine
informatii importante despre frecventa fundamentala si frecventele formantilor)
• debitul sursei vocale poate fi de 64, 56 si 48 Kbps, in functie de numarul bitilor care se transmit pentru banda
inferioara: 6, 5 sau 4. Astfel apare posibilitatea de a transmite pe linga canalul vocal un canal de date de
0, 8 sau 16 Kbps
• debitul de la iesirea codecului este de 64 Kbps si se obtine prin multiplexarea fluxului vocal cu fluxul de date
• calitatea semnalului audio reconstituit este acceptabila, pentru debitul de 48 Kbps si este buna, respectiv
foarte buna pentru debitele de 56 si 64 Kbps.
19
Codarea in subbenzi
Schema generala
Codarea:
Operatii:
- Separare semnal in subbenzi
- Calcularea pragurilor de mascare folosind modelul psihoacustic
- Fiecare esantion al unei subbenzi este cuantizat si codat
20
- Plasarea esantioanelor in grupuri numite cadre
Decodarea:
Operatii
- Despachetare cadre
- Decodarea esantioane subbenzi
- Reconstructia semnalului sonor folosind mapare frecventa-timp
Mapare timp-frecventa
Aceasta se realizeaza aplicand Transformata Fourier Rapida (FFT) asupra semnalului original
Asigura conversia semnalului din domeniu timp in domeniu frecventa
Filtrul polifaza
Filtrul polifaza este in esenta un banc de filtre trece banda (pot fi si trece sus si trece jos) dispuse pe
unul sau mai multe stagii.
Imparte semnalul intr-un numar de N subbenzi (N=puteri ale lui 2).
Odata ce subbenzile sunt obtinute, acestea pot fi codate independent folosind diverse codari
(ADPCM in cazul G.722, MDCT+ Huffman in cazul MPEG I)
Se foloseste regula lui Nyquist : daca f0 este cea mai mare frecventa a semnalului, atunci frecventa
de esantionare trebuie sa fie de cel putin 2 ori mai mare
Extensia regulii lui Nyquist: pentru semnale cu componente intre doua frecvente f1 si f2, frecventa
de esantionare are valoarea fs= 2 (f2-f1)
Forma generala a relatiei intre intrarea si iesirea filtrului:
Modelul psihoacustic
Foloseste atat semnalul original in domeniu timp, cat si semnalul transformat in domeniu frecventa
21
Evalueaza energia in fiecare subbanda, si calculeaza un parametru numit raport semnal - prag de
mascare ( RSPM [dB]) pe baza caruia sa se poata determina numarul nivelelor de cuantizare
necesare in codare.
Cuantizare si codare
Fiecare esantion din fiecare subbanda este cuantizat si codat
Cuantizare neuniforma
Codarea depinde de cerinte (ADPCM in cazul G.722, Huffman in cazul mpeg1)
Formare cadre
Toate esantioanele sunt grupate in grupuri numite cadre
Faciliteaza reconstructia semnalului audio la decodare
Caracteristici performanta
Impartirea semnalului in subbenzi nu duce la compresie, dar duce la o codare mai eficienta decat
daca ar fi codat semnalul initial asa cum este
Pentru codarea subbenzilor pot fi folosite mai multe solutii (ADPCM in cazul G.722, Huffman in
cazul mpeg1), astfel metoda codarii in subbenzi poate fi adaptata in functie de necesitati
Codarea sinusoidala urmareste generalizarea modelului excitatiei glotale, in loc sa utilizeze impulsuri sau
secvente aleatoare, se presupune ca excitatia este compusa din componente sinusoidale de amplitudini,
frecvente sau faze particulare.
Functia excitatiei este adesea reprezentata prin intermediul unui tren de impulsuri pe durata zonelor
vocalizate, unde distanta dintre impulsuri este chiar “pitch”, si ca zgomot pe zone nevocalizate. Alternativa
acestui model este inlocuirea cu o suma de sinusi. Motivatia reprezentarii sinusoidale este ca excitatia, unde
este perfect periodica, poate fi inlocuita cu o serie de componente Fourier, unde fiecare componenta din
serie corespunde unui sinus. Mai general, sinusii vor fi inlocuiti cu armonice care apar cand periodicitatea
nu e exacta sau cand excitatie este nevocala. La trecerea formei sinusoidale ce reprezinta excitatia, prin
tractul vocal rezulta o reprezentare sinusoidala pentru forma de unda a semnalului vocal data de :
(1)
unde si reprezinta ampltitudinea si faza pentru fiecare componenta sinusoidala asociata cu
In care frecventele sinusoidelor sunt multipli ai frecventei fundamentale, iar amplitudinile si fazele sunt
date de STFT. Daca STFT este data de:
Problema analizei si sintezei este de a lua forma de unda vocala, de a extrage parametrii ce reprezinta
portiuni cvasistationare si utilizarea lor sau a variantei lor codate pentru a reconstrui o aproximare care sa
fie cat mai aproape de forma originala. Daca forma de unda vocala este reprezentata de un numar arbitrar
22
de sinusi, problema estimarii parametrilor, desi usor de rezolvat, duce la rezultate care nu au nici o
importanta fizica. In consecinta, abordarea se bazeaza pe observarea ca atunci cand semnalul vocal este
perfect periodic, parametrii sinusilor corespund Transformatei Fourier pe termen scurt. In acest caz avem:
(2)
In care frecventele sinusoidelor sunt multipli ai frecventei fundamentale, iar amplitudinile si fazele sunt
date de STFT. Daca STFT este data de:
(3)
Daca se utilizeaza o fereastra de analiza de tip Hamming, atunci o data calculata latimea ferestrei pentru un
cadru particular, avem:
(6)
O posibila schema bloc pentru analiza si sinteza semnalului vocal prin analiza sinusoidala este:
23
Schema bloc a sistemului de analiza/sinteza sinusoidala ilustreaza funcțiile majore subsumate în cadrul
sistemului.
Figura ne da o descriere completa a sistemului de analiză / sinteză . O simulare care nu este in timp real a
fost dezvoltata inițial pentru a determina eficiența abordării propuse în modelarea vorbirii reale. Vorbirea
prelucrata în simulare a fost filtrata trece jos la 5 kHz, digitalizata la 10 kHz, și analizata la intervale de 1O-
ms cadru. Semnalul este trecut printr-un DFT de 512 puncte cu o fereastra hamming adaptiva cu o latime
de 20 ms.
Numărul maxim de vârfuri utilizate în sinteza a fost stabilit la un număr fix (~ 80). Dacă s-au obținut
vârfuri în exces, s-au folosit numai cele mai inalte vârfuri.
O bază de date mare de vorbire a fost procesata cu acest sistem și vorbirea sintetica a fost în esență,
imposibil de distins de original. O examinare vizuală a pasajelor reconstruite arată că structura de undă este
în esență conservată.
Primul pas in procedura de analiza, este de a presupune ca frame-ul de intrare din semnalul vocal a fost
deja analizat in termeni de componente sinusoidale, cu tehnica descrisa mai sus. Atunci s(n) este:
(10)
Unde, , reprezinta amplitudinea, frecventa si faza celor L sinusi masurati. Scopul este de a
incerca sa reprezentam acesti sinusi cu o alta forma de unda pentru care toate frecventele sa fie armonice.
Aceasta forma de unda poate fi modelata astfel:
(11)
armonicelor. De acum inainte va fi numita “pitch”, desi in zone de semnal nevocal terminologia nu
are nici o semnificatie. Este de dorit sa se estimeze frecventa fundamentala si fazele, astfel incat semnalul
sa fie cat mai aproape de cel real .
Primul termen din formula de mai sus repezinta puterea semnalului si este independent de parametrii
necunoscuti:
(14)
Intrucat fazele afecteaza numai al doilea termen al ecuatiei (18), eroarea medie de predictie va fi
minimizata alegand:
,(19)
Necunoasterea perioadei fundamentale afecteaza numai al doilea si al treilea termen din ecuatia de mai sus
care poate fi adusa la forma redusa:
(21)
Si eroarea medie patratica poate fi exprimata prin:
24
(22)
Intrucat primul termen este o valoare constanta cunoscuta valoarea minima a erorii medii patratice se
obtine prin maximizarea lui .
Este util ca mai departe sa se utilizeze reprezentarea sinusoidala a semnalului vocal de intrare. Substituind
reprezentarea din ecuatia (10) in ecuatia (14), atunci puterea devine:
(23)
Tehnica OLA
Metoda overlap-add se bazează pe tehnică fundamentală în DSP: (1) se descompune semnalul în
componente simple (2) se proceseaza fiecare dintre componente într-un mod util și (3)
recombinarea componentelor transformate în semnalul final
-este o modalitate eficientă de a evalua convoluția discretă a unui semnal foarte lung x[n], cu un filtru cu
raspuns finit la impuls (FIR), h[n]
Pentru inceput, semnalul x[n] este impartit in secvente le yk[n] care nu se suprapun, iar apoi
Transformata Fourier Discreta (DFT) aplicata asupra acestor secvente este evaluata prin multiplicarea
Tranformatei Fourier Rapide (FFT) aplicata pe xk[n] cu FFT aplicata pe h[n]. Dupa recuperarea yk[n] prin
FFT inversa, semnalul de iesire rezultat este reconstruit prin suprapunere (overlapping) si adaugare
(adding) cu yk[n], ca in figura de mai jos. Suprapunerea apare din faptul ca o convolutie liniara e
intotdeauna mai lunga decat secventa originala.
(31)
Si sa fie zero in rest. In acest fel rezolutia este foarte mare la valori mici a lui pitch, in contrast cu valorle
mari unde rezolutia este mica.
25
CODAREA SEMNALELOR AUDIO IN STANDARDUL MPEG PENTRU APLICATII
MULTIMEDIA
a) Mascarea componentelor spectrale (MCS) se produce atunci cind componentele spectrale din jurul
frecventei cu amplitudine dominanta nu depasesc un anumit prag de mascare. Pragul de mascare depinde de
frecventa, amplitudinea si durata in timp a tonului dominant .
b) Mascarea temporala (MT) consta in persistenta efectului de mascare o anumita perioada Δt (in general de
ordinul a 200-500 ms) chiar si dupa disparitia brusca a frecventei dominante. In intervalul Δt pragul de mascare
scade. Practic, frecventa dominanta nu scade brusc, ci in timp si in consecinta pragul de mascare scade pina la o
anumita valoare.
c) Pragul absolut de mascare ( PAM ) este valoarea minima a amplitudinii, pentru care componentele
spectrale sunt audibile
De remarcat ca in spectrul semnalelor audio exista o multitudine de frecvente dominante si ca atare pragul de
mascare global, la un moment dat, se va determina in functie de pragul de mascare, mascarea temporala si
pragul absolut de mascare, pentru fiecare componenta in parte. Din Figura 5.2.3 se observa ca pragul de
mascare global depinde de amplitudinile si frecventele componentelor spectrale dominante.
26
• Secvente de cite 12 esantioane consecutive din fiecare subbanda subesantionta, cs I sunt grupate in blocuri
Bi , care corespund la 12 x 32 = 384 esantioane de intrare.
• Pe baza unei tabele cu 63 de valori blocul de scalare determina pentru fiecare subbanda factorii de scalare
FSi (subunitari), astfel incit toate esantioanele din cadrul unui bloc sunt normalizate la valoarea maxima.
• In blocurile de cuantizare si codare se produce codarea fiecarei subbenzi cI , pe un numar variabil de biti R i,
in concordanta cu importanta sa in spectru. Numarul nivelelor de cuantizare este determinat de modelul
psihoacustic .
Obiectivul modelului psihoacustic este estimarea unui parametru numit raport semnal - prag de mascare
(RSPM [dB]) pe baza caruia sa se poata determina numarul nivelelor de cuantizare necesare in codare. Desi
standardul nu precizeaza algoritmul de lucru al acestui bloc, un exemplu poate fi urmarit in Figura 5.3.2.
27
P6: Se calculeaza, pe considerente experimentale, pragul de mascare pentru componentele A si B ca o functie
de amplitudine si frecventa. Se observa ca pentru o aceeasi amplitudine a componentelor A si B, efectul de
mascare este mai pronuntat pentru componentele de tip A.
P7 : Se calculeaza pragul de mascare global, ca o suma a pragurilor de mascare absolute, de tip A, respectiv B.
P8 : Pentru fiecare subbanda, corespunzatoare bancului de 32 de filtre, se determina minimul M i din functia
prag de mascare .
P9 : Caculul raportului semnal-prag de mascare pentru fiecare subbanda i : RSPM i [dB] = Pi [dB] - Mi [dB]
Acest parametru este o masura a gradului in care se produce mascarea in fiecare subbanda si ca atare
poate fi folosit in a aloca un numar mai mare de biti la codare, pentru subbenzile mai importante (P i - Mi
, mare), sau un numar mai mare de biti pentru subbenzile nerelevante (P i -Mi , mic).
• In conditiile de mai sus este posibila o alocare dinamica si adaptiva a numarului de biti de cod, R i , pentru
subbenzile componente. Alocarea este diferita pentru Nivel I si Nivel II.
• Datele obtinute de la sistemul de codare formeaza un cadru, care este precedat de un header de 32 de biti.
Trebuie retinut ca in modul stereo canalele fiind codate separat este posibil ca pentru anumite cadre calitatea
redarii sa fie slaba pentru un anumit debit dat. Pentru a elimina acest neajuns, modul Intesity-Stereo exploateza
caracteristica prin care la frecvente medii si inalte urechea este mai sensibila la diferenta de amplitudine de pe
cele doua canale decit la continutul spectral.
Astfel, pentru a folosi eficient numarul de biti alocati unui cadru, la frecvente medii si inalte se aduna semnalele
pentru a transmite un singur semnal. Numarul subbenzii de la care se face adunarea este specificat prin variabila
mode extension din header. Reconstituirea efectului stereo are loc prin codarea si transmiterea a doi factori de
scala pe fiecare canal. La receptie are loc ponderarea semnalului audio cu acesti factori, generind doua
amplitudini care sunt controlate separat. Informatia specifica modului Intensity-Stereo se include in fluxul de
date audio in primii doi octeti .
La modul concret, aceasta redundanta este rezolvata in procesul de codare prin mai multe masuri care conduc la
reducerea debitului binar :
[1] Se grupeaza cite 3 bocuri pe fiecare subbanda si se codeaza ca un singur bloc
a) daca factorii de scalare din cele trei blocuri succesive nu difera prea mult se transmite un singur factor de
scalare
b) daca 2 din 3 factori de scalare sunt asemanatori se transmit 2 factori de scalare
c) daca factorii de scalare difeira mult intre ei se transmit toti trei
Observatie : In plus se mai transmite un parametru SCFSI ( Scale Factor Side Information ) pentru a putea
reconstitui valorile factorilor de scalare la receptie.
2. Se reduce numarul nivelelor de cuantizare pentru frecvente medii si inalte
(gama dinamica a semnalului in aceste domenii este mica si un numar mare de nivele de cuantizare nu produce
un efect acustic important ).
3. Se grupeaza cite trei esantioane de semnal din fiecare bloc intr-un triplet. Tripletul se codeaza cu un cod unic
de 5, 7 sau 10 biti .
Observatie : Bufferul asigura si codarea de inalta calitate a portiunilor de semnal rapid variabile (frecvente
mari). Efectul este numit corectie “ pre-echo “.
f) headerul nu se transmite la inceputul cadrului audio de lungime variabila, ci acolo unde este nevoie . Un
pointer indica pozitia exacta a datelor (main-data begin).
Observatii :
29
• Pentru modul stereo, acest algoritm permite codarea sumei, respectiv diferentei celor doua canale, bazinduse
pe faptul ca diferenta semnalelor poate fi codata cu un numar mai mic de biti. Astfel debitul binar scade.
Acest mod de codare se numeste MS_Stereo (M = Middle : left + right , S = Side : left + right ). La receptie
semnalul original se obtine prin adunarea, respectiv scaderea semnalelor “ Middle “ , respectiv “ Side “.
• Exista situatii in care se poate utiliza atit MS_Stereo cit si Intesity_Stereo simultan, cazuri in care modul
MS_Stereo se aplica doar subbenzilor de frecvente joase, acolo unde Intensity_Stereo nu se aplica.
Concluzii:
• Codarea MPEG a semnalelor audio exploateaza caracteristici psiho-acustice intr-un sistem de codare in
subbenzi. In spectrul semnalelor audio exista componente spectrale care nu sunt auzite, din cauza ca sunt in
vecinatatea unor compenente de frecventa apropiata si de amplitudine mult mai mare. Acest efect este numit efect de
mascare.
• Efectul de mascare se manifesta in 3 ipostaze: mascarea componentelor spectrale, mascarea temporala si
pragul absolut de mascare.
• MPEG-1 este un standard care permite codarea canalelor stereo la debite date de nivelul de codare. Nivelele
de codare se numesc Layer I, Layer II, Layer III.
• Schema MPEG-1 este in esenta un codor in subbenzi dotat cu un bloc de procesare auxialiar: blocul de
modelare psiho-acustica, prin intermediul caruia se aloca dinamic numarul de biti pentru fiecare subbanda, dupa ce
in prealabil s-a calculat pragul de mascare.
• MPEG-1 Layer I are in vedere obtinerea unui raport zgomot/prag de mascare cit mai uniform in toate
subbenzile prin selectarea comandata a unui cuantizor dintr-un grup de 15 cuantizori.
• MPEG-1 Layer II reduce debitul binar de la 384 Kbps la 256 Kbps prin eliminarea redundantei din semnalul
audio folosind tehnici precum: codarea unor grupe de blocuri din fiecare subbnada, reducerea numarului nivelelor
de cuantizare pentru frecvente medii si inalte, codarea unor triplete de esantioane.
• MPEG-1 Layer III utilizeaza in structura codorului un bloc de Transformata Cosinus Modificata ce opereaza
comandat pe termen scurt sau lung in vederea imbunatatirii rezolutiei temporale (pentru semnale cu variatie lenta)
sau spectrale (pentru semnale cu variate rapida).
• MPEG-2 genereaza un Multicanal Audio folosind urmatoarele idei: gruparea subbenzilor, aplicarea unor
transformari matriceale multicanalului audio, utilizarea predictiei adaptive multicanal sau codarea falsa a
canalului central. Se pastreaza compatibilitatea cu MPEG-1.
Codarea LPC
Codarea LPC este o tehnica generala de compresie a semnalului vocal bazata pe corelatia puternica
existenta intre esantioanele succesive.
In principiu metoda consta in determinarea unui predictor liniar pentru fiecare cadru de semnal si
reprezentarea semnalului prin coeficientii predictoarelor.
Acest tip de codare presupune:
30
1.segmentarea optima a semnalului vocal –realizarea unui compromis intre factorul de compresie
(lungime mai mare a segmentelor) si eroarea de predictie (lungimea segmentelor cat mai redusa );
-acest deziderat este atins alegand o fereastra de 20-30 ms – acesta fiind intervalul maxim in care
semnalul poate fi considerat cvasistationar
2.determinarea lungimii ideale a predictorului si calculul eficient al coeficientilor de predictie
-corelatia dintre 2 esantioane este cu atat mai redusa cu cat distanta dintre ele este mai mare , prin
urmare exista un ordin maxim al predictorului , p , cu propietatea ca pentru orice valoare mai mare eroarea
de predictie se reduce foarte putin; p se determina experimental, valori tipice fiind 10-15
–problema determinarii celor p coeficienti se reduce la rezolvarea eficienta a unui sistem de ecuatii
liniare particular –ecuatiile Yule-Walker (matrice Toepelitz) ; exista 2 metode –metoda corelatiei si metoda
covariantei
-cuantizarea diferentiata a fiecarui tip de coeficient –in functie de importanta acestuia
Sursa
1.Pentru foneme sonore sursa este un tren de impulsuri cu perioada egala cu perioada fundamentala a
vibratiilor corzilor vocale (extrasa din semnalul de eroare folosind AMDF sau autocorelatia)
Filtrul
31
Filtrul cu coeficienti variabili avand doar poli (in numar de p) modeleaza tractul vocal . Este inversul
filtrului de predictie A(z).
Functia se sistem a filtrului (all poles):
Sinteza semnalului:
Raspunsul in frecventa al filtrului H reprezinta anvelopa spectrala a semnalului vocal (“spectrul netezit”).
Maximele locale reprezinta formantii.
Calitatea vocii sintetizate din parametrii LPC este relativ slaba chiar si in cazul codarii excitatiei .In
comparatie cu alte metode de compresie frecvent utilizate (MPEG,ADPCM) tehnica LPC are, in general,
avantajul unei rate de compresie mai ridicate , dar calitatea semnalului este mai slaba. Folosind un model
suficient de complex se poate obtine un semnal satisfacator, metoda fiind folosita in aplicatii comerciale
(ex. GSM)
CUANTIZAREA VECTORIALA
k
Cuantizarea vectoriala mapeaza vectori de dimensiune k din spatiul R intr-un set finit de vectori Y=
yi | i 1, 2,3..N .
proprietatile:
Vi x R k : x yi x y j , oricare i j , adica o valoare este reprezentata de
un singur cuvant de cod
32
- Cuvantul de cod trebuie ales respectand o anumita regula generala. Aceasta regula difera de cazul
practica unde se foloseste cuantizarea vectoriala. Un criteriu posibil ar fi distanta euclidiana dintre
cuvantul de cod si vectorul de intrare
Schema codare/decodareVQ
Raportul semnal-zgomot
• Presupunem ca semnalul (variabila aleatoare) x are medie nula
• Raportul semnal-zgomot (SNR—signal to noise ratio) asociat unui cuantizor
SNR = 10 log10E{x2}/D [dB]
• Daca semnalul nu are medie nula, se foloseste varianta în loc de E{x2}
• În general, despre cuantizoarele cu SNR > 10dB se spune ca au rezolutie înalta; pentru acestea sunt
valabile rezultatele asimptotice prezentate mai departe
Generarea alfabetului
Generarea alfabetului este una dintre cele mai importante si dificile operatii in cazul cuantizarii vectoriale.
De succesul acestei operatii depinde reusita codarii vectoriale, iar daca acesta nu este ales corespunzator se
poate ajunge la rezultate dezastroase. Pentru a ne asigura ca rezultatul procesului de creare a alfabetului va
genera rezultate satisfacatoare avem trei criterii care trebuie respectate :
- Conditia de cel mai apropriat vecin (Nearest neighbour condition)
Ri x : d x, yi d ( x, y j ); j Q x yi d x, yi d ( x, y j ); j
adica numai daca . Conditia arata ca in
interiorul unei zone Voronoi vom avea acele elemente a caror distanta este mai mica fata de oricare
element din orice alta zona Voronoi.
- Conditia de centroid
1 R
cent R xi
R i 1
Conditia arata ca noul cuvant de cod (centroidul) trebuie ales astfel incat el sa
reprezinte cel mai bine toate elementele din jurul sau. De aceea, pentru a alege noul cuvant de cod se alege
media aritmetica a elementelor din zona Voronoi
- Probabilitate zero pe margini
N
PB 0
j 1
Conditia arata ca nici un element nu trebuie sa se afle la granita dintre doua regiuni Voronoi.
Daca ar exista astfel de elemente atunci codarea lui ar putea ridica probleme, nestiind carui centroid ii
apartine.
Aplicatia „dspvqtwodim” (Matlab) foloseşte pentru cuantizare algoritmul Lloyd generalizat (Generalized
Lloyd Algorithm - GLA). Se permite introducerea unei secvenţe de antrenare, alegerea alfabetului iniţial şi
al numărului nivelelor de codare, şi selectarea criteriului de oprire a algoritmului. În urma rulării, se va
afişa distribuţia celulelor şi a vectorilor alfabetului de codare, precum şi numărul de vectori din secvenţa de
antrenare conţinuţi în fiecare celulă, la fiecare iteraţie.
Algoritmul Lloyd-Max
0. Se da numarul de nivele de cuantizare N. Se alege un dictionar initial C = {c1, . . . , cN}. Se alege o
toleranta ǫ. Se initializeaza pasul de iterare i = 0
1. Se calculeaza punctele de decizie optime dk, k = 1 : N − 1, pentru codurile ck, conform relatiei (1)
2. Se calculeaza codurile optime ck, k = 1 : N, pentru
punctele de decizie dk, conform relatiei (2)
3. Calculeaza distorsiunea medie curent a
34
atunci stop. Altfel, se pune i ← i + 1 ¸si se reia de la pasul 1
comentarii
• Distorsiunea scade la fiecare pas: pentru e.g. puncte de decizie date, noile coduri minimizeaz˘a
distorsiunea, a¸sadar produc o distorsiune mai mic˘a decât codurile de la itera¸tia anterioar ˘a
• Algoritmul converge c˘atre un punct sta¸tionar, care este un minim local (nu neap˘arat cel global)
• Ini¸tializ˘ari diferite ale algoritmului pot produce rezultate diferite
In data mining, k-means clustering is a method of cluster analysis which aims to partition n observations
into k clusters in which each observation belongs to the cluster with the nearest mean. This results in a
partitioning of the data space into Voronoi cells.
Decodorul
Excitația este produsa prin însumarea contribuțiile de la dictionarul de coduri adaptiv (alias pitch)
Codorul
35
Principiul de baza din spatele CELP se numeste Analiza de Sinteza(Analysis-by-Synthesis (AbS)), si
inseamna ca, codarea (analiza) este realizata prin OPTIMIZAREA SEMNALULUI decodat intr-o bucla
inchisa. In teorie, cel mai bun flux CELP ar fi produs prin incercarea tuturor combinatiilor de biti posibile
si selectarea celei care produce cel mai bun semnal decodat. Practic acest lucru nu este posibil din doua
motive: complexitatea necesara este dincolo de orice device hardware disponibil in prezent, iar al doilea
“best sounding” criteriu de selectie ce implica un ascultator uman.
In scopul de a realiza codarea in timp real, folosind resurse de calcul limitate, cautarea CELP este impartita
in parti mai mici, mai usor de gestionat, realizandu-se astfel cautari secventiale . Codarea se realizeaza in
urmatoarea ordine:
Coeficienții LTI (LPC), se calculează și cuantizeaza, de obicei, ca LPC
Dictionarul de coduri adaptiv (pitch) este căutat și contribuția se elimina
Dictionarul de coduri fix (innovation) este cautat
Codorul MBE
Sistem de analiza/sinteza a semnalului vocal care ofera o calitate crescuta a vorbirii la un debit
scazut (4,8 kbps);
Este capabil sa genereze vorbire inteligibila dar nu realizeaza cu succes sintetizarea la calitate
inalta;
Aplicatii pentru astfel de codoare (vocoders): voice mail, comunicatii digitale la debite mici,
telefonie de securitate inalta
Vorbirea e generata in codor prin excitarea cu un tren de impulsuri periodice – in cazul voiced
speech, sau zgomot aleator in cazul unvoiced speech. [2]
Un avantaj major:
imparte fiecare segment al vorbirii in regiuni/benzi de frecventa.
pentru fiecare banda de frecventa se analizeaza spectrul si se ia o decicie voiced/unvoiced.
Astfel rezulta o combinatie de voiced/unvoiced energy dependenta de frecventa.
Regiunile voiced sunt reprezentate de armonici ale frecventei fundamentale, iar regiunile unvoiced
de catre zgomot aleator. [3]
Utilizarea deciziilor voiced/unvoiced ii permite modelului MBE sa fie in control asupra spectrului
de excitation. [4]
Spectrul semnalului vocal reconstituit este mai apropiat de cel original (original speech frame)
decat in alte modele (ex: CELP), la un debit mic.
36
Usor scalabili pentru debite peste 2 kbps.
Model matematic
Semnalul vocal, s(n), e cvasi-stationar – se aplica o fereastra w(n), pe intervale scurte de timp
(10ms – 40ms).
Sw(n) = W(n)s(n)
Transformata Fourier Sw(ω) = Hw(ω)|Ew(ω)|
diferenta fata de modele precendente: forma spectrului de excitatie, care era specificat de
frecventa fundamentala (ω0) si de o decizie V/UV pentru intreg spectrul. In cazul MBE este
specificata de frecventa fundamentala (ω0) si de o functie dependenta de frecventa
(voiced/unvoiced mixture function)
Pentru a reduce numarul de parametrii necesari aceasta functie s-a inlocuit cu o decizie V/UV
dependenta de frecventa.
Alta diferenta fata demodele precedente: - un numar mai mare de benzi de frecventa (peste 20).
Parametrii V/UV se obtin combinand segmentele unui spectru periodic |P w(ω)| in benzile de frecventa
voiced cu segmentele spectrului de zgomot aleator in benzile de frecventa unvoiced.
Anvelopa spectrala
Frecventa fundamentala
Informatia V/UV pentru fiecare armonica
Faza fiecarei armonici declarata voiced (pt unvoiced nu sunt obligatorii in algoritmul de sinteza)
sau :
Decizia voiced/unvoiced este facuta pentru fiecare armonica prin compararea erorii normalizate cu un
anumit prag.
Comparatie cu LPC
LPC
nu produce vorbire de calitate inalta fara sa adauge o prediction residual;
nu este robust la zgomotul de fundal [1];
Mai complex dpdv computational (time consuming);
Codebook pentru operare la debite fixe si nu e usor scalabil la alte debite.
Prediction residual poate fi vazut ca o eroare de semnal care corecteaza inacuratetea in modelul de
predictie liniar. Prin eliminarea acestuia, cum e facut in standardul 2.4 kbps LPC-10 system, se obtine o
calitate scazuta a vorbirii (“harsh, mechanical quality in the speech”[1]) .
37
Codarea de tip MELP
Codarea LPC se bazează pe un model pur parametric pentru codarea semnalului vocal; motiv pentru
care apar multe distorsiuni, pocnituri, intreruperi,… deranjante pentru urechea umana
Pentru rezolvarea acestor neajunsuri MELP combina cele două forme de excitatie a filtrului de
sinteză: generatorul de impulsuri şi cel de zgomot
Astfel la acelaşi debit transmis calitatea creste substanţial
Schema codorului
Schema decodorului
1. Decodare vectoriala
2. Interpolare
3. Extensie simetrică (pentru obţinerea de valori reale după IDFT)
4. Şiftare circulară (previne apariţia schimbarilor abrupte la început de perioadă)
38
Jittter-ul introdus la tranzitia dintre zonele de semnal vocalizat si nevocalizat are rolul de a reduce variatia
frecventei fundamentale, care determina aparitia distorsiunilor (pocnituri, intreruperi) din semnalul vocal
Forma impulsului e extrasă la codare si transmisă alături de fiecare cadru.
- Se bazează pe calculul amplitudiniilor Fourier din eroarea de predicţie
Excitatia mixta
o Sinteza se face prin “mixarea” impulsurilor (F0) si zgomotului alb prealabil filtrate
o Parametrii filtrelor sunt variabili în timp şi depind de “intensitatea vocii”, care măsoara gradul
de “vocalizare”
Alocarea bitilor
Debitul de iesire este de 2400 bps -> la fiecare 22.5 ms se transmite un pachet de 54 de biti
Analiza Fourier
împarte un semnal în componentele sale sinusoidale la diferite frecvenţe
putem transforma domeniul timp în domeniu frecvenţă
dezavantaj :-pierderea informaţiei temporale, adică nu ştim exact în ce moment de timp are loc un
anumit eveniment.
STFT – Short Time Fourier Transform
mapează un semnal pe două dimensiuni adică în timp şi spaţiu =>putem să obţinem anumite
informaţii legate atât de frecvenţă cât şi de timp
Dezavantaje:
◦ precizie limitată, depinzând de dimensiunile ferestrei temporale.
◦ fereastra de durată finită este însoţită de rezoluţie fixă de frecvenţă
rezoluţie fixă timp-frecvenţă.
Analiza Wavelet
rezolva acest neajuns al STFT
dezvolta o tehnică de analiză a semnalelor folosind o fereastră de dimensiune variabilă
nu foloseşte un domeniu variabil timp frecvenţă ci unul scală-frecvenţă.
Transformata Wavelet
wavelet =un semnal care are o durată limitată şi o valoare medie egală cu zero; regular si asimetric
Un semnal sinusoidal nu are durată limitată, este predictibil şi omogen
39
Coeficienţii transformatei wavelet sunt daţi de produsul intern al funcţiei de transfer cu fiecare dintre
funcţiile bază.
Transformarea continuă inversă wavelet este dată de relaţia:
Metoda Wavelet Packet este o generalizare a descompunerii Wavelet care ofera mai multe posibilitati de
analiza a semnalului
In cazul analizei de tip wavelet semnalul este impartit in doua parti: aproximare si detaliu
In procedurile clasice de decompozitie wavelet, pasul generic (primul pas) realizeaza o impartire a
coeficientilor de aproximare in doua parti. Se obtine un vector de coef. de aproximare si un vector de coef.
de detalii.
Informatia pierduta intre doua aproximari succesive este capturata in coeficientii de detalii.
Coeficientii de aproximare -> low pass results.
Coeficientii de detaliu -> high pass results.
La fiecare pas de descompunere se aplica transformata wavelet
Transformata wavelet se aplica doar pentru coef de aproximare
Dupa fiecare pas rezulta alti doi vectori :
- De aproximare
- De detaliu
Introducere
Caracterul omniprezent incontestabil al protocolului IP este dovedit procentual la nivelul întregului glob: conform
ISOC (Internet Society) protocolul IP stă la baza interconectării a peste 20% din populația totală a globului. Mai
mult de 15% din întreaga populație beneficiază de acces la Internet, numărul acestora înregistrând o dublă
expansiune în perioada 2000-2006. Cererea consumatorilor, accesul nelimitat și standardele deschise au devenit
principalele motivații ale dezvoltării continue de aplicații și servicii inovatoare. Contextul astfel impus pieței de
către consumator este unul al serviciilor interactive personalizate accesibile din orice locație, în orice moment, în
orice mod (oriunde-oricum-oricând). Premisa consumatorului reprezintă dezideratul trendului tehnologic de
dezvoltare caracterizat de interoperabilitatea la nivel de serviciu, dispozitiv, rețea și de convergența rețelelor IP
(Future Networks).
Interoperabilitatea la nivel de serviciu a fost marcată de integrarea serviciului de voce și date utilizând ca suport
de trasmisie infrastructura IP (VoIP). Soluția propusă prezintă avantaje atât din perspectiva clientului (utilizatorului),
a dezvoltatorului cât și din perspectiva furnizorului (industria enterprise) determinând o productivitate generală.
Avantajele generale sunt determinate de eficientizarea costurilor (planuri de apel, echipamente, dispozitive,
mentenanță, liciențere), flexibilitatea serviciilor și posibilitatea de extindere rapidă a complexității serviciilor. Din
perspectiva dezvoltatorilor, principalul criteriu este determinat de utilizarea eficientă a benzii de transmisie.
41
Tehnologia VoIP reprezintă alternativa serviciului de voce din rețele cu comutație de circuite (PSTN) pentru rețele cu
comutație de pachete. Principalul criteriu de evaluare în comparația celor două tipuri de rețele, în contextul serviciului de voce,
este calitatea semnalului. Pentru ca eficientizarea costurilor să devină avantajul de departajare a celor două soluții, este necesar
ca serviciul de voce în rețele cu comutație de pachete să atingă un nivel al calității comparativ cu cel din rețelele cu comutație de
circuite.
Factorii de influență asupra calității semnalului sunt marcați de elementele componenete ale unui sistem VoIP .
Tehnologia Internet și infrastructura IP determină o dependență a calității semnalului de voce față de o nouă serie de factori de
distorsiune. La nivel global sunt considerate influențele induse de rețeaua de transport și de acces. De nivel particular sunt
considerate elementele din rețeaua terminală (rețeaua/bucla de abonat).
Dimensiunea subiectivă este referința dimensiunii obiective. Din perspectiva obiectivă sunt definite elementele de
calitate, ce reprezintă factorii de influență a semnalului vocal. Efectele factorilor de influență sunt cele care
generează perspectiva subiectivă a calității semnalului vocal. Rezultatele de referință obținute experimental sunt
utilizate pentru analiză, estimare și evaluare și stau la baza construirii modelelor de aproximare a stării sistemului în
diferite circumstanțe.
La emisie, semnalul analogic de voce este digitizat și codat în vederea compresiei prin intermediul unui codor.
Informația utilă pachetizată este apoi încapsulată în pachete RTP în vederea transmiterii pe canal. La recepție,
pachetele sunt decapsulate și informația digitală de voce este extrasă. Bufferul de recepție are rolul de a diminua
efectele canalului. Prin interpolare, informația de voce este decodată astfel încât pachetele intermediare pierdute
sunt estimate din pachetele adiacente. [3]
În sistemele cu comutație de circuite, legătura fizică este creată și menținută pe durata întregului apel. Semnalul
de voce este transmis sincron și sincronizat la emisie și receție. Prin urmare, deteriorarea semnalului în rețele cu
42
comutație de circuite apare datorită imperfecțiunilor mediului de transmisie ce influențează sistemul de
comunicație (e.g zgomot ambiental).
În cazul sistemului cu comutație de pachete VoIP nu există o legătură fizică prestabilită și menținută. Întreg
procesul de livrare la destinației a informației (voce) implementează funcțiile stivei de protocoale TCP/IP. Datele
utile (semnalul de voce) sunt supuse procesului de încapsulare înainte de a fi trimise pe canal(fig.4).
Informația adăugată prin procesul de încapsulare este redundantă și scade eficiența transmisiei. În vederea
transportului sunt considerate protocoalele TCP, UDP. Fiind un protocol orientat pe conexiune, TCP, induce o
redundanță sporită datorită controlului suplimentar al transmisiei ( mesaje ACK, avertizări de congestie). UDP, fiind
un protocol neorientat pe conexiune, presupune lungimi mai reduse ale pachetelor dar este mai susceptibil la erori.
Transmiterea pachetelor la destinație se face pe baza campului adresă IP destinație, fără a exista un canal de
direcționare, pachetele putând parcurge căi diferite. Prin urmare, cauzele degradării semnalului sunt diferite în
cazul rețelelor cu comutație de pachete. De majoră importanță sunt pierderile de pachete și întârzierea, cauzate de
congestia în rețea sau datorită imperfecțiunilor rețelei. [2]
În urma conversiei A/D (8kHz), semnalul este supus unei proceduri de suprimare a ecoului și de reducere a
zgomotului de fond.
Etapa următoare de de detecție a semnalului de voce util (VAD – Voice Activity Detection). În cazul nedetectării,
algoritmul de transmisie discontinuă (DTX) atribuie întregului semnal caracteristica de zgomot de fond. Această
procedură are rolul de eficientizare a transmisiei prin reducerea benzii: semnalul inecat în zgomot este rejectat
înainte de transmisia pe canal. În cazul detectării semnalului util, semnalul de la sursă este codat în vederea
compresiei prin utilizarea unui algoritm de compresie.
Dacă se optează pentru o strategie de protecție suplimentară la imperfecțiunile canaluluim, semnalului codat i se
aplică o codare suplimentară: FEC (Forward Error Correction)/LBR (Low Bit-rate Redundancy ).
În rețelele cu comutație de pachete, codecurile caracteristive sunt G.711(ITU-T Rec. G.711, 1988), G.723
(bandă dublă 5.3 kbps sau 6.3kbps, ITU-T Rec. G.723.1, 1996), G.729 (CS-ACELP, Conjugate-Structure
Algebraic-Code-Excited Linear-Prediction)(8kbps, ITU-T Rec. G.729, 1996). Codecuri specifice sunt iLBC
(Internet Low Bit-Rate) (15.2 kbps, 13.33 kbps, Andersen&all, 2002), AMR-NB (Adaptive Multirate Codec,
Narrow-Band)( 8 debite posibile simultan într 4.75kbps-12.2kbps, ETSI TS 126 071, 2002).
Codecul AMR este integrat în concepția rețelelor de viitor, momentan fiind implementat în rețele UMTS,
4G. Algoritmul implementat realizează adaptarea ratei de transmisie la puterea semnalului radio: cu cât
semnalul are o putere mai mica, cu atât banda alocată va fi mai mare în vederea adăugării biților de control
pentru corecția la recepție. Codecurile de voce utilizează pachete de dimensiune diferită cu o durată
cuprinsă între 10ms-40ms.
În vederea eficientizării utilizării resurselor radio, a fost integrat codecul cu o rată de bit mai
scăzută WB-AMR (Algebraic Code-Excited Linear Prediction ACELP) (6.60, 8.85, 12.65, 14.25,
15.85, 18.25, 19.85, 23.05 or 23.85 kbps, ITU-T Rec. G.722.2, 2002, 3GPP TR 26.976, 2002).
Pentru cea mai mare rată de transmisie, banda alocată este cuprinsă într 50-6600 Hz. Banda
necesară transmisiei scade o data cu scăderea ratei de transfer. Alte codecuri posibile sunt: G722.1
cu rată de bi scăzută (32kbps, 64kbps, ITU-T Rec. G.722.1) și extinderea G.729 (ITU-T Rec.
G.729.1, 2006)
44
3. Factori QoS de influență
Rolul initial al rețelelor IP a fost de a furniza support în comunicația asincronă, implicând servicii și proceduri best-effort, fără
garanția calității serviciului [10].
Pentru integrarea QoS în rețele IP au fost propuse 2 metodologii:
implementarea QoS la nivel strat aplicație (e.g FEC), sau
implementare QoS la nivel de infrastructură a rețelei (DiffServ, IntServ).
Factorii de influență asupra QoS sunt: jitter, întârzieri, pierderi de pachete, erori de bit, zgomot, ecou, diafonii. Principalii factori
de influență la nivel de rețea sunt: jitter, întârzieri, pierderi de pachete. (fig.7).
Pierderi de pachete
Pierderea pachetelor este principala sursă de deteriorare a calității transmisiunii în rețele cu comutație de pachete, respectiv
VoIP. Pierderea pachetelor are loc atât la nivel de rețea cât și la nivel de terminal/gateway datorită întârzierilor mari.
Pierderile la nivel de rețea sunt cauzate în cele mai multe cazuri de congestii la nivel de router (router buffer overflow),
instabilitatea routerelor, legături deteriorate. Congestia este cauza majoră a pierderii pachetelor. Pierderile de pachete sunt
influențate de lungimea pachetului (uzual 10-60ms ), tipul de codec utilizat, distribuția de pierderi a pachetelor, metoda de
contracarare utilizată (PLC, FEC, LBR). Metodele FEC și LBR presupun transmisii suplimentare, ceea ce duce la creșterea
întârzierilor și scăderea eficienței de transmisie. [3] [2] [10].
Alte metode de compensare a pierderilor de pachete [6]:
Întreţeserea pachetelor (Interleaving), pentru a reduce efectul pierderii unui pachet asupra unui cadru de
semnal,
Împărţirea biţilor dintr-un cadru în clase de importanţă şi folosirea unor metode de codare diferite pentru
diferite clase (cu o mai bună protecţie la erori pentru clasele mai importante),
Întârzieri și variații ale întârzierii (jitter)
Întârzierile și variațile întârzieilor sunt principala sursă de degradare a calității semnalului vocal. Întârzierea cap-cap cuprinde
componentele:
timpul de propagare
timpul de transmisie
timpul de asteptare în coadă
timpul de procesare a codecului
timpul de pachetizare/depachetizare
timpul de așteptare în bufferul de recepție
Comutația de pachete presupune căi alternative de rutare a pachetelor. Astfel burst-urile de pachete presupun
întârzieri diferite la destinație. Jitter-ul reprezintă varianța statistică a intervalului de timp între sosirea a două
pachete și este determinat în mare parte de așteptarea în coada de transmisie. Se recomandă ca valoarea sa sa fie
recalculată în mod continuu, după sosirea fiecărui pachet i. IETF, RFC 1889, definește jitterul ca fiind deviația medie
standard între transmisia și recepția pachetului.
4. Modele de estimare a calității în VoIP
Estimarea calității semnalului vocal în transmisiuni VoIP este crucială din perspective tehnice, legale, comerciale.
Estimarea calității se face prin proceduri de măsurare.
4.1 Clasificarea procedurilor de estimare
Clasificarea tipurilor de proceduri utilizate în estimarea calității semnalului vocal se bazează pe o structură
ierarhizată pe nivele, de tip arborescent. (fig.9)
Procedurile obiective utilizează algoritmi ce simulează percepția umană sau modele computaționale ce evaluează
automat calitatea pe baza metricilor obiective ale semnalului semnalului de voce transmis. Acuratețea, precizia și
fiabilitatea estimării se obține prin utilizarea metodelor obiective prin corelație cu estimarea subiectivă. [11] [3]
Al doilea nivel de clasificare vizează in principal ramura estimării obiective ce presupune două subdiviziuni:
metodologii intruzive și neintruzive.
45
Procedurile intrusive utilizează două semnale de intrare (original, degradat). Semnalul degradat denumește
semnalul la recepție. Sunt denumite intrusive datorită injectării semnalelor de test(de referință) și a nevoii de a
utiliza infrastructura rețelei. Aceste procedure au o precizie ridicată a măsurării calității traficului pentru o
transmisie cap-cap dar nu sunt potrivite pentru monitorizarea în timp real a traficului. În cazul în care semnalul de
referință este degradat datorită zgomotului de fond compararea cu semnalul de la recepție are o fiabilitate scăzută.
Procedurile neintruzive (fig.10) nu utilizează injectarea semnalului de referință. Estimarea se face doar pe baza
semnalului de la recepție. Procedurile neintruzive au avantajul posibilității de a fi utilizate pentru aplicații de
monitorizare a traficului în timp real și pentru aplicații ce realizează controlul dinamic al calității traficului. [11] [3]
Al treilea nivel de ierarhizare referețiază ramificarea procedurilor intruzive și neintruzive din punct de vedere al
mecanismului de procesare a semnalului. Măsurările neintruzive presupun două categorii de metode diferite de
estimare a calității semnalului, cu algoritmi diferențiați ca și complexitate sau acuratețe: metode bazate pe semnal
(fig.11b) și metode parametrice(fig.11c).
Metodele bazate pe semnal au ca intrare semnalul de recepție și se bazează pe tehnici de procesare a semnalului
când ce estimează calitatea semnalului atunci când anvelopa acestuia suferă degradări datorită codării LBR sau a
transmisiei pe canale wireless deficitare. Concret, această metodă, procesează fluxul de voce decodat de la ieșirea
din bufferul de recepție în vederea extragerii informației relevante pentru estimarea calității. În practică sunt
utilizate pentru predicție generală [2] (fig.12)
Metodele parametrice au ca intrare parametri semnalului vocal sau parametric de rețea (pierderi de pachete,
jitter, întârzieri). Parametrizarea oferă specificitate acestor metode, preferate pentru acurațea și fiabilitatea
ridicată.
Al patrulea nivel de ierarhizare vizează măsurile intruzive clasificate în măsuri intruzive în domeniul timp, în
domeniul spectral, perceptuale.
Măsurile intruzive în domeniul timp sunt ușor de implementat dar nu sunt fiabile pentru estimarea codecurilor de
rată scăzută și rețele actuale.
Măsurile intruzive în domeniul spectral se bazează pe parametrii modelelor de procesare a semnalului vocal.
În contrast cu măsurile intruzive în domeniul spectral, măsurile perceptuale sunt bazate pe modelul percepției
auditive umane. Aceste măsuri transformă semnalul de voce într-un domeniu perceptual relevant (e.g domeniul
audibilității) și încorporează modele ale sistemului auditiv uman (blocul de trasformare perceptuală și blocul
cogniției). Modulul de cogniție mapează diferența dintre semnalul original și cel de la recepție într-o distorsiune
perceptuală estimate, corelată apoi cu MOS (fig.13)
46
•-> codare fara a adauga redundant sau redundant minima -> codare combinata sursa-canal = Codare
ROBUSTA (robust speech coder)
•Analiza contextului (controlul erorilor la nivel de sursa):
–Majoritatea codecurilor folosesc modelul predictive (dinamica, intelesok)
•Sunt bazate pe caracteristici care variaza lent -> orice schimbare brusca poate fi detectata la receptive ->
idea de a fi folosita in corectia erorilor
–Modelul psihoacustic–degradarea anumitor parametri–effect negativ
•Protectie la erori ridicata(cuantizare, FEC)
•Transforma erorile in erori subiective - importante(exemple)
–Parametrii sunt aceeia ai unui model, deci exista anumite relatii intre ei -> protejarea relatiei dintre
parametri
Reconstructia cadrelor
Reconstructia spectrala:
–Ideea: informatia pierduta se reconstituie din informatia trecuta
–Exploatarea corelatiei LSF la nivel de intercadru -> reutilizarea LSF din cadrele anterioare in cadrele
actual piedute
–Reducerea impactului formantilor din cadrul anterior asupra cadrului current->interpolare parametri la
nivel de intercadru
Reconstructia sursei:
–Se presupune ca sursa“pierduta”este sonora
–Se presupune un T0 obtinut din interpolarea ultimelor valori ale T0
–Amplitudinea impulsurilor este si ea interpolata
Reconstructia sursei(c), mai buna decat reconstr spectrului(b) –din cauza ca periodicitatea cadrului pierdut
coincide cu periodicitatea din bufferul de reconstructie
47