vorbirii
• Analiza spectrala a vorbirii
• Analiza cepstrala a vorbirii
• Analiza LPC
1
Analiza spectrala a vorbirii
• Transformarea Fourier.
• Principiile analizoarelor de spectru.
• Sonagraful.
• Analizor cu filtre digitale.
• Transformarea Fourier rapida (TFR).
• Parametrii spectrali: formanti si ton
fundamental
2
Transformarea Fourier (1)
3
Transformarea Fourier (2)
4
Spectrograme
De banda ingusta
De banda larga
5
Principiile analizoarelor de spectru (1)
6
Principiile analizoarelor de spectru (2)
Iesire la
Intrare inregistrare
Amplificator
Amplificator Filtru Detector de iesire
de intrare acordat
Semnal
de
acordare
Analizor cu heterodinare
7
Sonagraf
8
Sonagrame
9
Analizor spectral cu filtre digitale
10
Filtru trece-banda digital de ordinul 2
B1 2 cos( 2 fc / fes ) B2 H0 exp( b / fes ) unde: fc= frecv. centr.;
b= banda
11
Caracteristica de frecventa a bancului
de filtre de analiza
12
Parametrii spectrali
• Formanti: frecvente centrale, largimi de banda
• Ton fundamental
• Concentrari de energie la plozive si siflante
13
Analiza cepstrala a vorbirii (1)
14
Analiza cepstrala a vorbirii (2)
Reprezentarea intuitivă pentru obţinerea cepstrului
Reprezentarea
intuitivă pentru
obţinerea cepstrului
15
Analiza cepstrala a vorbirii (3)
Separarea cu o fereastră de timp a celor două componente ale cepstrului
1
jl jn
cs n; m log l f l; m e e d
2
1 m
jl jn
log f l ; m e e d
2 l m N 1 17
Analiza cepstrala a vorbirii (5)
Cepstrul real de timp scurt (2)
Calculul cepstrului real de timp scurt utilizând transformata Fourier discretă TFD.
c s n qN ; m n 0,1,..., N 1
c s n; m q
0
in rest
18
Analiza cepstrala a vorbirii (6)
Estimarea frecvenţei tonului fundamental
i (n iP)
4.00E-01
ce (n; m)
2.00E-01
i
0.00E+00
-2.00E-01
1 101 201 301 401 501 601 701 801 901 1001
Esantioane P = T0 /Tes
3.60E-01
2.40E-01
Amplitudine
1.20E-01
0.00E+00
-1.20E-01
-2.40E-01
-3.60E-01
1 101 201 301 401 501 601 701 801 901 1001
Esantioane
19
Analiza cepstrala a vorbirii (7)
Estimarea frecvenţelor şi benzilor formanţilor. Spectrul netezit
20
Analiza cepstrala a vorbirii (8)
Spectre netezite si
nenetezite 21
Analiza cepstrala a vorbirii (9)
Analiza homomorfica si reprezentarea parametrica
Histogramele frecvenţelor
Histograma frecvenţelor formantice
formantice pentru vocalele
pentru vocala /a/ determinată prin
/a/,/e/,/i/, /o/, /u/ determinate prin
analiza homomorfică.
analiza homomorfică.
22
Analiza cepstrala a vorbirii 10
Vectorii coeficienţilor cepstrali pentru cadre vocale
def
ch m ch 1, m.........ch L, m
T
d 2 ch1 m, ch2 m ch1 m ch2 m ch1 m ch2 m
T
23
Analiza cepstrala a vorbirii (11)
Cepstrul perceptiv (Mel cepstrul) (1)
24
Analiza cepstrala a vorbirii (12)
Metode de determinare a coeficientilor Mel cepstrali (1)
Frecventa Frecventa Valoarea lui
“dorita” TFD “k”
(Hz) “cuantizata”
(Hz)
1148 1152 118
1318 1318 135
1514 1514 155
1737 1738 178
Folosirea transformatei Fourier 1995 1992 204
discrete de timp scurt pentru 2291 2294 235
obţinerea componentelor de 2630 2627 269
frecvenţă corespunzătoare pentru 3020 3018 309
calculul coeficienţilor mel 3467 3467 355
cepstrali. 4000 4004 410
Nr. Frecvenţa Lărgimea
benzilor centrală benzii critice
critice (Hz) (Hz) 9 1000 160
1 50 - 10 1170 190
2 150 100 11 1370 210
3 250 100 12 1600 240
4 350 100 13 1850 280
5 450 110 14 2150 320
6 570 120 15 2500 380
Variaţia lărgimii de bandă
7 700 140 16 2900 25
450
critică cu frecvenţa
8 840 150 17 3400 550
Analiza cepstrala a vorbirii (13)
Metode de determinare a coeficientilor Mel cepstrali (2)
Folosirea filtrelor de
bandă critică pentru
calculul mel cepstrului
N /2
2
Y i log S k ; mH i k
k 0 N
Y i pentru k ki
Y k
~
0 pentru k 0, N 1
N 1 Forma de
1
cs n; m jk 2 / N n
~
N
Y k e unda a
cuvântului
k 0
/iapa/.
2 N / 21
2
cs n; m
~
N
Y k cosk
N
n
Evolutia
k 0
coeficientilor
2
cs n; m
2
Y ki cos ki N n
~ mel-cepstrali
N i 1,... Nbc pentru cuvântul
/iapa/.
26
Analiza cepstrala a vorbirii (14)
Delta mel cepstru
27
Analiza liniar predictiva
• Modelul LPC
• Ecuaţiile modelului LPC
• Schema bloc a analizei LPC.
• Set de parametri LPC care pot fi:
coeficienţii LPC, coeficienţii de reflecţie
sau PARCOR, coeficienţii log-area ratio,
coeficienţii cepstrali
• Predicţia liniara perceptuală
28
Modelul LPC
u(n) s(n)
A(z)
p
s (n) ai sn i Gun
i 1
p
S ( z ) ai z i S ( z ) GU ( z )
i 1
S ( z) 1 1
H ( z) p
GU ( z ) A( z )
1 ai z i
i 1
29
Ecuaţiile modelului LPC (1)
p p
s (n) ak s (n k ) Gu(n) s(n ) ak s(n k )
k 1 k 1
p E( z) p
e( n ) s ( n ) s ( n ) s ( n ) a k s ( n k ) A( z ) 1 ak z k
k 1
S ( z) k 1
n (i, k ) sn (m i ) sn (m k )
daca se noteaza m 30
Ecuatiile modelului LPC (2)
cm coeficienţii cepstrali
, 31
Schema bloc a analizei LPC
Semnal vocal
Metoda
p
autocorelaţiei
Preaccentuare
~
s ( n) rn (t )
M Analiza LPC
Segmentarea în
N blocuri
sm (t )
xt (n)
Conversia
parametrilor LPC
w(n) Ferestruire
~
xt (n) cm (t )
N M
N M
N
33
Schema bloc a analizei LPC
Sonagraf
(ferestruirea )
Următorul pas în procesare este să ferestruim fiecare cadru astfel încât să minimizăm
discontinuităţile semnalului la începutul şi la sfârşitul fiecărui cadru.
~ (n ) x (n ) * w (n ), 0 n N 1
xt t
0 n N 1
34
Predicţia liniar perceptuală (1)
s(n)n
Schema bloc a analizei PLP
Etapele analizei PLP sunt prezentate în figura Ferestruire
alaturata.
Semnalul vocal este iniţial supus unei analize
s(n).w(n)
spectrale, folosind segmente vocale de 20ms
lungime şi fereastra de tip Hamming: DFT IDFT
w(n) 0.54 0.46 cos(2N ) /( N 1) 0 n N 1
Spectrul de putere pe termen P() Functia de
scurt este (cu DFT): Aliniere
autocorelatie
P() Re(S ()) Im(S ())
2 2
Burk Regresie
P(Ω)
2 Convolutie
1 cu Ψ(Ω)
( ) 6 ln 1200 1200 2. 5 Coeficienti
() P ( n )() PLP
n 1.3 θ(Ω)
E()
0 1.3 E(Ω)
10 1.3 0.5
3 E()
1 0.5 0.5
10 0.5 2.5
(Ω)
0 2.5 35
Predicţia liniar perceptuală (2)
Preaccentuarea pentru egalizarea tăriei sonore este necesară pentru a
compensa percepţia neliniară a tăriei sonore la diferite frecvenţe. Preaccentuarea
se face folosind relaţia:
E
2 56.8 106 2
2 6.3 106 2 0.38 109 2 9.58 1026
() ()0.33 0,7
0,6
(( )) E ( ) (( ))
0,5
0,4
38
Aplicatii ale analizei vorbirii
• Sinteza automata a vorbirii, adica producerea ei masinala pe baza
parametrilor extrasi prin analiza si a modelelor pentru care acesti parametri
sunt valabili. Pentru naturaletea vorbirii sintetice este foarte importanta
modelarea variatiilor tonului fundamental care determina intonatia, accentul
si starile emotionale ale vorbitorului
• Recunoasterea automata in sens clasic a vorbirii (ASR) la nivel acustic,
asigurand decodarea acustico-fonetica, adica transformarea cu ajutorul
parametrilor rezultati prin analiza a semnalului vorbit in succesiuni de
foneme. Organizarea fonemelor in cuvinte si a cuvintelor in fraze necesita
surse suplimentare de cunostinte, respectiv dictionare si modele de limba
sau gramatici. Intelegerea vorbirii si determinarea utilitatii secventei
recunoscute inseamna cunostinte suplimentare de semantica si pragmatica.
• Recunoasterea si intelegerea automata a vorbirii (ASRU) se face deci
pe mai multe nivele: acustic, lexical, sintactic, semantic si pragmatic si
inseamna intelegerea de catre masina a ce s-a spus.
• Recunoasterea automata a vorbitorului inseamna a afla cine a spus.
39
Problema 1
Se considera un program de analiza spectrala cu TFR in 512 puncte pentru un semnal
vocal de calitate radio, avand fmax= 9 kHz. Se cere:
1. Sa se aleaga un tip de fereastra de analiza si o durata adecvata a acesteia
3. Cate esantioane de semnal vocal sunt cuprinse in aceasta fereastra daca se alege o frecventa de
esantionare de 20kHz? Ce probleme apar in realizarea transformarii si cum se pot solutiona?
pasul de prelucrare
41
Solutie problema 1
42