Documente Academic
Documente Profesional
Documente Cultură
DEPARTMENT
DEPARTMENT OF
OF COMPUTER
COMPUTER SCIENCE
SCIENCE
Cuprins
1.
2.
3.
4.
5.
6.
Calitatea vorbirii de banda telefonica (cca. 3 KHz) este acceptabila pentru telefonie si o
Frecventa de
esantionare
(Rata esantionarii)
[KHz]
PCM
[bit/
esantion]
PCM
rata de inf
[Kb/s]
Vorbire telefonie
300-3400
64
50-7000
16
128
10-11000
24
16
384
10-22000
48
16
768
Rata audio
[Mb/s]
Over-head
[Mb/s]
Compact disc CD
1.41
2.91
4.32
1.41
1.67
3.08
de stocare) de:
44.100 esantioane / s * 2 canale * 16 bit / esantion * 60 s =
84.672.000 biti = 10,584 MBytes
10 melodii * 40 MB = 400 MB
ceea ce este cam mult pentru majoritatea utilizatorilor
obisnuiti
telecomunicatiilor moderne
Codarea vorbirii
= procesul de reprezentare
numerica a semnalului vorbire
Obiectivul de baza al codarii vorbirii este de a
reprezenta semnalul vorbire:
cu un numar mic de biti
cu mentinerea unui nivel de calitate suficient pentru
refacerea vorbirii originale
cu un grad de dificultate rezonabil
esantionare ts 2fmax, unde fmax este frecventa maxima din spectrul semnalului s(t)
Semnalul discret va fi notat cu s(n)
Acest semnal este apoi codat prin diverse scheme de codare cum sunt PCM sau
codare predictiva
In codarea PCM (Pulse Coded Modulation) :
semnalul discret este cuantizat in 2 N nivele
fiecare esantion s(n) este reprezentat pe R biti
Cuantizorul poate fi
uniform sau neuniform (cuantizatoarele neuniforme utilizeaza mai putini biti pe esantion, asa
cum sunt cuantizoarele cu lege sau A, ce folosesc numai 8 biti pe esantion)
scalar sau vectorial
Vorbirea rapida
Rata de vorbire normala in Engleza este intre 130 si 200
Schimbarea vitezei
Schimbarea vitezei este similara cu redarea unei casete la
Sinteza vorbirii
Cu o voce pur sintetica este posibil sa se genereze vorbire la
la 550 wpm
Acest lucru se obtine prin reducerea selectiva a fonemelor
Esantionare neuniforma
Principiul metodei este prezentat in urmatoarea figura
Daca intreruperile se fac la intervale regulate, largi
Esantionare neuniforma
O alta tehnica prezentata in figura urmatoare (C): segmentele semnalului
jos
Se remarca existenta a doua piese de baza la partea de codare:
Un bloc pentru transformarea semnalului intr-o reprezentare care modeleaza precis
sursa
Un model care modeleaza acusto-fiziologic (psihoacustic, in engleza) aparatul auditiv
semnalului
In codarea vorbirii, un model fizic al tractului vocal este folosit pentru
mai buna
In general, se face un compromis intre o codare de eficienta inalta,
data de un bank de filtre cu inalta rezolutie, obtinuta in etajul de
reprezentare a semnalului si costul memoriei/intarzierii necesara
intregului sistem de codare
Cercetarile din domeniul rezolutiei spectrale au arata ca o alegere
din M filtre trece banda care sunt continue in frecvente astfel incat
multimea semnalelor subbanda poate fi recombinata aditiv pentru a
produce semnalul original sau o versiune apropiata a acestuia
Fiecare iesire a filtrului este decimata la limita (se mai spune critic
Codarea sub-benzii
Semnalelel subbanda interpolate apar la iesirile FTB ale
filtrului de sinteza
Procesul de esantionare poate introduce distorsiune de
esantionare (aliasing distorsion) din cauza suprapunerii
subbenzilor
Daca se folosesc filtre perfecte, (filtre dublu-banda in
cuadratura sau filtre polifazice), termenii aliasing sunt
eliminati si suma iesirilor filtrelor trecebanda este egala cu
semnalul de intrare, in absenta cuantizarii
Codarea sub-benzii
decodor
domeniul timp
In absenta erorilor de cuantizare sinteza furnizeaza o reconstructie
exacta
Transformari
Codarea transformarii
MDCT (Modified DCT) se bazeaza pe o suprapunere de
Codarea transformarii
Schema a bloc a sistemului cu compresia audio folosind
codarea transformarii
Codarea transformarii
Pre-procesarea inseamna una sau mai multe prelucrari de tipul: filtrare,
s ( n)
k 1
k 0
ak s(n k ) G ak u (n k ),
b0 1
H ( z)
S ( z)
G
U ( z)
1
1
bk z k
k 1
p
ak z k
k 1
ceea ce arata un model de tip poli-zerouri. In spectrul vorbirii, nazalele sunt reprezentate de zerouri si
formantii sunt reprezentati de poli.
s ( n)
a k s ( n k ) G u ( n)
k 1
E( z ) S ( z ) A( z )
de analiza analizeaza
semnalul vorbire si produce
semnalul eroare
Partea de sinteza preia semnalul
eroare ca semnal de intrare, este
filtrat de filtrul 1/A(z) si se
obtine semnalul vorbire
Semnalul eroare se mai numeste
predictiei liniare:
autocorelatia
covarianta
sunt aleatoare
Uzual, in timpul vorbirii cu intensitate mica, forma tractului vocal si
Reprezentarea parametrilor LP
Parametrii LP au gama dinamica destul de mare, astfel
Reprezentarea parametrilor LP
Coeficientii predictiei liniare pot avea diferite reprezentatri
echivalente:
frecventele liniilor spectrale (line spectral frequencies LSF)
coeficienti de reflectie (reflection coeficients RC);
autocorelatii (autocorelations)
rapoarte logaritmici ale ariilor (log area ratios LAR)
coeficienti de reflexie arcsine (arcsine of reflection
coefficients ASRC)
raspunsul la impulse al filtrului LP ( impulse responses of LP
synthesis filter - IR)
Reprezentarea parametrilor LP
Toate aceste reprezentari au relatii de legatura exacte cu coeficientii LP
Metoda autocorelatiei
Mai intai, semnalul vorbire s(n) este multiplicat cu o
s w ( n ) w( n )s( n )
Al doilea pas este minimizarea energiei semnalului
(n)
s w ( n ) a k s w ( n k )
k 1
p
Metoda autocorelatiei
Valorile parametrilor {ak} care minimizeaza energia E se gasesc prin
k 1
ak s w ( n i )s w ( n k ) s w ( n i )s w ( n ),
1 i p
Metoda autocorelatiei
Ecuatiile liniare pot fi exprimate in functie de functia de
autocorelatie
Functia de autocorelatie a unui segment ponderat de vorbire este
definita de relatia
R( i )
Nw 1
s w ( n )s w ( n i ),
1 i p
n i
ak R( i k ) R( i ),
k 1
1 i p
Metoda autocorelatiei
Setul de ecuatii liniare poate fi scris matricial sub forma
R( 0 )
R( 1 )
R( 1 )
R( 0 )
R( p 1 ) R( p 2 )
R( p 1 )
R( p 2 )
R( 0 )
a1 R( 1 )
a
R
(
2
)
2
a
R
(
p
)
p
R a r
Metoda autocorelatiei
Matricea R este o matrice Toeplitz, deci are toate
Algoritmul Levinson-Durbin
Algoritmul rezolva ecuatia matricala Ax=b, in care A are
R, definita anterior.
aceasta conditie
autocorelatiei
este
satisfacuta
de
ecuatiile
Algoritmul Levinson-Durbin
Fie ak(m) coeficientul k pentru un cadru oarecare m al
iteratiei
Algoritmul LD rezolva iterativ setul de ecuatii in mod
iterativ pentru m=1,2,,p dupa relatiile:
k ( m ) R( m )
m 1
ak ( m 1 )R( m k )
am ( m ) k( m )
k 1
a k ( m ) a k ( m 1 ) k ( m )a m k ( m 1 ), 1 k m
E( m ) 1 k ( m ) 2 E( m 1 )
Algoritmul Levinson-Durbin
Se considera initial E(0) = R(0) si a(0) = 0
La fiecare iteratie, coeficientul ak(m) pentru k=1,2,..,m
de esantioane
Daca numarul de esantioane este prea mare, se introduce o
intarziere intre vorbirea originala si cea codata
Aceasta nu este de dorit in transmisiile de timp real, dar poate fi
tolerata in cazul memorarii vorbirii sau a inregistraii acesteia
apare pe canal
strazii
zgomotul masinii
al biroului, etc.
Aprecierea distorsiunilor
Inteligibilitate si Intelegere
Inteligibilitatea se refera uzual la abilitatea de a identifica
cuvinte izolate
Intelegerea se refera la intelegerea continutului unui
material
Aprecierea distorsiunilor
Perceptia si redundanta vorbirii
Importanta analizei modului in care se realizeaza perceptia consta in faptul
Trasaturile importante ale perceptiei, cum este vocea, sunt determinate din structura
armonica care este prezenta in diomeniul frecventelor joase (ce nu depaseste 3 KHz).
tipic definita ca procentul de cuvinte sau foneme care sunt corect percepute
Aspectele semnificative ale perceptiei vorbirii sunt
inteligibilitatea si
naturaletea
Pentru aprecierea acestor calitati se poate folosi masura Scorul opiniei mediii
(MOS = Mean Opinion Score)
Determinarea acesteia reclama un proces lent
Decizia este impartita in 5 domenii ca in tabelul de mai jos
Score
Calitatea vorbirii
Nivelul distorsiunii
Excelenta
Imperceptibila
Buna
Acceptabila
Saraca
Nesatisfacatoare
descriptivi:
excelent
foarte bun
bun
sarac
nesatisfacator
SNR[dB] 10 lg
n0
N T 1
s2( n )
s( intreg
n ) s( nfisierul
) 2
Este o masura globala, definita
pe
n0
1 F
SEGSNR[dB]
10 lg N s 1
N F i 10
n0
s 2 ( N si j )
s( N s i j ) s( N s i j ) 2
n0
N T 1
s2( n )
Pg [dB] 10 lg n 0
N T 1
r 2( n )
n0
Pg [dB]
16.12
17.35
16.01
E err
n0
N T 1
n0
N T 1
e (n)
s (n)
s( n ) s( n ) 2 ( n )
n0
N T 1
s2( n )
n0
1
Fs
Fs
S ( f )
10 lg i
S ( f )
i
df
[dB]
Si ( f )
S i ( f )
Ai ( e j 2 f / Fs )
1
( e j 2f / Fs )
A
i
n1 1
n1 n0 n n
0
j 2n 2
S (e
)
10 lg i
S i ( e j 2n )
[dB]
d ( f, f ) f f
d ( f, f ) ( f i f i )2
i 1
d ( f, f ) wi ( f i f i )2
i 1
Referinte
(Tamanna, 2000) Tamanna Islam, Interpolation of Linear Prediction
(Arons, 1995) Barry Arons, Techniques, Perception, and Applications of Time-Compressed Speech
Speech Research Group, MIT Media Lab, 20 Ames Street, E15-353, Cambridge MA 2139,
(Tamanna, 2000) Tamanna Islam, Interpolation of Linear Prediction Coefficients for Speech Coding,
MS Thesis, Department of Electrical Engineering, McGill University, Montreal, Canada, April 2000.
Thomas Sikora, MPEG Digital Audio Coding, IEEE Signal Processing Magazine, September 1997,
pp. 58-81.
Brandenburg, H. And Popp, H., An Introduction to MPEG Layer-3, Franhofer Institut fur Integrierte
Schaltungen (IIS), EBU Technical Teview- June 2000, pp. 1-15.
Brandenburg Karlheinz, MP3 And AAC Explained, MP3 And Aac Explained, AES 17th
International Conference On High Quality Audio Coding, 2000.