Sunteți pe pagina 1din 42

PLNTA_2_3 Metode de analiza a

vorbirii
• Analiza spectrala a vorbirii
• Analiza cepstrala a vorbirii
• Analiza LPC

1
Analiza spectrala a vorbirii

• Transformarea Fourier.
• Principiile analizoarelor de spectru.
• Sonagraful.
• Analizor cu filtre digitale.
• Transformarea Fourier rapida (TFR).
• Parametrii spectrali: formanti si ton
fundamental

2
Transformarea Fourier (1)

3
Transformarea Fourier (2)

4
Spectrograme

De banda ingusta

De banda larga

5
Principiile analizoarelor de spectru (1)

Analizor de spectru cu bancuri de filtre

6
Principiile analizoarelor de spectru (2)

Iesire la
Intrare inregistrare
Amplificator
Amplificator Filtru Detector de iesire
de intrare acordat

Semnal
de
acordare

Analizor cu heterodinare

7
Sonagraf

8
Sonagrame

9
Analizor spectral cu filtre digitale

10
Filtru trece-banda digital de ordinul 2

B1  2  cos( 2 fc / fes ) B2  H0  exp( b / fes ) unde: fc= frecv. centr.;
b= banda

11
Caracteristica de frecventa a bancului
de filtre de analiza

12
Parametrii spectrali
• Formanti: frecvente centrale, largimi de banda
• Ton fundamental
• Concentrari de energie la plozive si siflante

13
Analiza cepstrala a vorbirii (1)

s(n)= e(n) * h(n)

Modelul uzual de producere a semnalului vorbit

14
Analiza cepstrala a vorbirii (2)
Reprezentarea intuitivă pentru obţinerea cepstrului

Reprezentarea
intuitivă pentru
obţinerea cepstrului

15
Analiza cepstrala a vorbirii (3)
Separarea cu o fereastră de timp a celor două componente ale cepstrului

Separarea cu o fereastră de timp a celor două componente ale


cepstrului 16
Analiza cepstrala a vorbirii (4)
Cepstrul real de timp scurt (1)

Schema bloc de calcul a cepstrului real de timp scurt


1  
 jl  jn
cs n; m    log l f l; m e e d 
2
   
1  m
 jl  jn
  log  f l ; m e e d
2   l m N 1  17
Analiza cepstrala a vorbirii (5)
Cepstrul real de timp scurt (2)

Calculul cepstrului real de timp scurt utilizând transformata Fourier discretă TFD.

 
  c s n  qN ; m  n  0,1,..., N  1
c s n; m   q 
0
 in rest
18
Analiza cepstrala a vorbirii (6)
Estimarea frecvenţei tonului fundamental

Cepstrul real al unei portiuni vocalizate de semnal 


1 j   n
ce (n; m) 
2  log E ( , m)  e d
8.00E-01 
6.00E-01
T0
Amplitudine


i   (n  iP)
4.00E-01
ce (n; m) 
2.00E-01
i  
0.00E+00

-2.00E-01
1 101 201 301 401 501 601 701 801 901 1001
Esantioane P = T0 /Tes

Cepstrul real al unei portiuni nevocalizate de semnal

3.60E-01
2.40E-01
Amplitudine

1.20E-01
0.00E+00
-1.20E-01
-2.40E-01
-3.60E-01
1 101 201 301 401 501 601 701 801 901 1001
Esantioane

19
Analiza cepstrala a vorbirii (7)
Estimarea frecvenţelor şi benzilor formanţilor. Spectrul netezit

Schema bloc de calcul a spectrului netezit


 L  n 
1 pentru n  0,1,..., L 1  sin   pentru n  0,1,..., L
l1 n    l2 n    2  2 
0 in rest 0 in rest

20
Analiza cepstrala a vorbirii (8)

Spectre netezite si
nenetezite 21
Analiza cepstrala a vorbirii (9)
Analiza homomorfica si reprezentarea parametrica

1. Densitatea de probabilitate a vorbirii

Histogramele frecvenţelor
Histograma frecvenţelor formantice
formantice pentru vocalele
pentru vocala /a/ determinată prin
/a/,/e/,/i/, /o/, /u/ determinate prin
analiza homomorfică.
analiza homomorfică.

22
Analiza cepstrala a vorbirii 10
Vectorii coeficienţilor cepstrali pentru cadre vocale

Putem considera eşantioanele ch(n) drept coeficienţi ai dezvoltării în serie


Fourier a funcţiei periodice logH(). Pentru cadrul m:

def
ch m  ch 1, m.........ch L, m
T

Distanţa dintre doi vectori cepstrali ch1(m) şi ch2(m), are expresia:

d 2 ch1 m, ch2 m  ch1 m  ch2 m ch1 m  ch2 m
T

23
Analiza cepstrala a vorbirii (11)
Cepstrul perceptiv (Mel cepstrul) (1)

Scara Mel pentru perceptia auditiva

24
Analiza cepstrala a vorbirii (12)
Metode de determinare a coeficientilor Mel cepstrali (1)
Frecventa Frecventa Valoarea lui
“dorita” TFD “k”
(Hz) “cuantizata”
(Hz)
1148 1152 118
1318 1318 135
1514 1514 155
1737 1738 178
Folosirea transformatei Fourier 1995 1992 204
discrete de timp scurt pentru 2291 2294 235
obţinerea componentelor de 2630 2627 269
frecvenţă corespunzătoare pentru 3020 3018 309
calculul coeficienţilor mel 3467 3467 355
cepstrali. 4000 4004 410
Nr. Frecvenţa Lărgimea
benzilor centrală benzii critice
critice (Hz) (Hz) 9 1000 160
1 50 - 10 1170 190
2 150 100 11 1370 210
3 250 100 12 1600 240
4 350 100 13 1850 280
5 450 110 14 2150 320
6 570 120 15 2500 380
Variaţia lărgimii de bandă
7 700 140 16 2900 25
450
critică cu frecvenţa
8 840 150 17 3400 550
Analiza cepstrala a vorbirii (13)
Metode de determinare a coeficientilor Mel cepstrali (2)

Folosirea filtrelor de
bandă critică pentru
calculul mel cepstrului

N /2
 2 
Y i    log S k ; mH i  k 
k 0 N 
Y i  pentru k  ki
Y k   
~
0 pentru k  0, N  1

N 1 Forma de
1
cs n; m    jk  2 / N n
~
N
 Y k e unda a
cuvântului
k 0
/iapa/.
2 N / 21
 2 
cs n; m    
~
N
 Y k cosk
 N 
n
Evolutia
k 0
coeficientilor
 2 
cs n; m  
2
 Y ki cos ki N n 
~ mel-cepstrali
N i 1,... Nbc pentru cuvântul
/iapa/.
26
Analiza cepstrala a vorbirii (14)
Delta mel cepstru

Traiectoria unui coeficient mel-cepstral aproximată cu un polinom de ordinul 2.


Folosirea coefienţilor polinomiali conduce la estimări mai netezite ( linia plina) ale
derivatelor decât operaţia de diferenţiere directă (conturul dintre puncte).

27
Analiza liniar predictiva

• Modelul LPC
• Ecuaţiile modelului LPC
• Schema bloc a analizei LPC.
• Set de parametri LPC care pot fi:
coeficienţii LPC, coeficienţii de reflecţie
sau PARCOR, coeficienţii log-area ratio,
coeficienţii cepstrali
• Predicţia liniara perceptuală
28
Modelul LPC

u(n) s(n)
A(z)

s(n)  a1s(n  1)  a2s(n  2)  ...  aps(n  p)


G

p
s (n)   ai sn  i   Gun 
i 1
p
S ( z )   ai z  i S ( z )  GU ( z )
i 1

S ( z) 1 1
H ( z)   p

GU ( z ) A( z )
1   ai z i
i 1
29
Ecuaţiile modelului LPC (1)
p p
s (n)   ak s (n  k )  Gu(n) s(n )   ak s(n  k )
k 1 k 1

 p E( z) p
e( n )  s ( n )  s ( n )  s ( n )   a k s ( n  k ) A( z )   1   ak z  k
k 1
S ( z) k 1

Căutăm să minimizăm eroarea medie pătratică la momentul n:


2
En   en2 (m)  p 
E n    s n ( m)   a k s n ( m  k ) 
m sau m k 1 
En
0
din ak pentru k=1,2,…,p rezulta:
p p

 sn (m  i )sn (m)   âk  sn (m  i )sn (m  k ) n (i ,0)   â k n ( i , k )


m k 1 m k 1

n (i, k )   sn (m  i ) sn (m  k )
daca se noteaza m 30
Ecuatiile modelului LPC (2)

• Coeficientii LPC pot fi obtinuti prin rezolvarea sistemului


de p ecuatii cu p necunoscute de mai sus.
• Doua din metodele cele mai cunoscute pentru
solutionarea sistemului sunt metoda covariatiei si
metoda corelatiei.
• Din am  coef LPC 1  m  p mai pot fi dedusi:
k m  coef PARCOR sau coeficienţii de reflecţie
 1  km 
g m  coef log area  ln 
 1  km 

cm coeficienţii cepstrali

, 31
Schema bloc a analizei LPC

Semnal vocal

Metoda
p
autocorelaţiei
Preaccentuare

~
s ( n) rn (t )

M Analiza LPC
Segmentarea în
N blocuri
sm (t )
xt (n)
Conversia
parametrilor LPC
w(n) Ferestruire

~
xt (n) cm (t )

H ( z)  1  a~z 1, 0.9  a  1 s~(n )  s(n )  a


~s(n  1) a~  15 /16  0.9375 32
Schema bloc a analizei LPC
(segmentarea în blocuri)

N M
N M
N

În acest pas semnalul preamplificat este împărţit în cadre de N eşantioane, cadrele


adiacente fiind separate de M eşantioane.
Se observă că dacă M  N , atunci cadrele alăturate se suprapun, iar estimaţii spectrali
M  N
LPC rezultaţi vor fi corelaţi din cadru în cadru dacă M N
Estimaţii spectrali LPC din cadru în cadru vor varia foarte puţin. Pe de altă parte, dacă
nu va mai apărea suprapunerea între cadre; de fapt o parte din semnal va fi pierdut, şi
corelaţia între estimaţii spectrali LPC rezultaţi din cadre alăturate va conţine o componentă
de zgomot care va creşte o dată cu M.

33
Schema bloc a analizei LPC
Sonagraf
(ferestruirea )
Următorul pas în procesare este să ferestruim fiecare cadru astfel încât să minimizăm
discontinuităţile semnalului la începutul şi la sfârşitul fiecărui cadru.

Daca fereastra de analiză este w (n ), pentru 0  n  N  1


:
Dupa ferestruire semnalul este

~ (n )  x (n ) * w (n ), 0  n  N  1
xt t

Pentru fereastra Hamming:

w (n )  0.54  0.46 cos( 2N ) /( N  1)

0  n  N 1
34
Predicţia liniar perceptuală (1)
s(n)n
Schema bloc a analizei PLP
Etapele analizei PLP sunt prezentate în figura Ferestruire
alaturata.
Semnalul vocal este iniţial supus unei analize
s(n).w(n)
spectrale, folosind segmente vocale de 20ms
lungime şi fereastra de tip Hamming: DFT IDFT
w(n)  0.54  0.46 cos(2N ) /( N  1) 0  n  N 1
Spectrul de putere pe termen P() Functia de
scurt este (cu DFT): Aliniere
autocorelatie
P()  Re(S ())  Im(S ())
2 2
Burk Regresie
P(Ω)
 2  Convolutie
     
     1 cu Ψ(Ω)
( )  6 ln  1200  1200  2. 5 Coeficienti
  ()   P (  n )() PLP
 
  n  1.3 θ(Ω)
E()

 0   1.3 E(Ω)
 10  1.3    0.5

 3 E()
     1  0.5    0.5
10 0.5    2.5
 (Ω)

 0   2.5 35
Predicţia liniar perceptuală (2)
Preaccentuarea pentru egalizarea tăriei sonore este necesară pentru a
compensa percepţia neliniară a tăriei sonore la diferite frecvenţe. Preaccentuarea
se face folosind relaţia:

E   
 2  56.8  106   2
 2  6.3 106   2  0.38 109   2  9.58 1026 
()  ()0.33 0,7

0,6
(( ))  E ( ) (( ))
0,5

0,4

 r (1) r (2) ... r ( N )   a(2)    r (2)  0,3


 r (2) r (1) ... r ( N  1)  a(3)    r (3) 
    0,2
 ... ... ... ...   ...   ... 
      0,1
r ( N ) r ( N  1) ... r (1)  a( N )  r ( N  1)
0
1 10 19 28 37 46 55 64 73 82 91 100 109 118 127

unde r n  sunt coeficienţii de Frequency (FFT point)


autocorelaţie, an  sunt coeficienţii
modelului all-pole şi .a1  1 Efectul preaccentuării.
36
Concluzii la analiza vorbirii (1)
• Analiza vorbirii se poate efectua cu ferestre de timp si cu ferestre de
frecventa (bancuri de filtre), conducand la o reprezentare comprimata a
vorbirii:
• Analiza cu ferestre de timp, numita si analiza de timp scurt conduce la o
reprezentare a vorbirii prin:
parametrii de timp scurt ai traiectului vocal:
- parametrii globali:energia, rata trecerilor prin zero
- parametrii spectrali: benzile si frecventele formantilor,
- coeficientii cepstrali cu derivatele lor de ordinul 1 si 2
- coeficientii melcepstrali cu derivatele lor de ordinul 1 si 2
- coeficientii de predictie iniara, de reflexie, log-area ratio, cepstrali
- coeficientii PLP
parametrii de timp scurt ai generatoarelor de excitatie:
- decizia vocalizat/nevocalizat
- perioada tonului fundamental
37
Concluzii la analiza vorbirii (2)

• Analiza cu ferestre de frecvente se poate realiza cu bancuri de filtre reale


sau simulate prin heterodinare. Permite determinarea distributiei energiei in
benzile de frecventa selectate de filtre.
Filtrele pot fi cu largimea de banda constanta, cu largime de banda relativa
constanta (de decada, de octava, de 1/3 octava) sau cu banda critica si se
realizeaza actualmente digital; ultimele doua tipuri de filtre se utilizeaza mai
des deoarece tin cont de caracteristicile perceptiei umane, adaptate distributiei
energiei sonore in spectru
• Analiza spectrala tipica cu ferastra de timp se realizeaza prin
transformarea Fourier discreta, in varianta ei rapida (TFR) (FFT). Daca numarul
de esantioane intr-o fereastra este N (de preferat o putere a lui 2) rezolutia in
frecventa este f = 2 f.max / N unde fmax este limita superioara a benzii
semanlului analizat si numarul de operatii de multiplicare, care determina
timpul de calcul este de 4NlogN.

38
Aplicatii ale analizei vorbirii
• Sinteza automata a vorbirii, adica producerea ei masinala pe baza
parametrilor extrasi prin analiza si a modelelor pentru care acesti parametri
sunt valabili. Pentru naturaletea vorbirii sintetice este foarte importanta
modelarea variatiilor tonului fundamental care determina intonatia, accentul
si starile emotionale ale vorbitorului
• Recunoasterea automata in sens clasic a vorbirii (ASR) la nivel acustic,
asigurand decodarea acustico-fonetica, adica transformarea cu ajutorul
parametrilor rezultati prin analiza a semnalului vorbit in succesiuni de
foneme. Organizarea fonemelor in cuvinte si a cuvintelor in fraze necesita
surse suplimentare de cunostinte, respectiv dictionare si modele de limba
sau gramatici. Intelegerea vorbirii si determinarea utilitatii secventei
recunoscute inseamna cunostinte suplimentare de semantica si pragmatica.
• Recunoasterea si intelegerea automata a vorbirii (ASRU) se face deci
pe mai multe nivele: acustic, lexical, sintactic, semantic si pragmatic si
inseamna intelegerea de catre masina a ce s-a spus.
• Recunoasterea automata a vorbitorului inseamna a afla cine a spus.

39
Problema 1
Se considera un program de analiza spectrala cu TFR in 512 puncte pentru un semnal
vocal de calitate radio, avand fmax= 9 kHz. Se cere:
1. Sa se aleaga un tip de fereastra de analiza si o durata adecvata a acesteia

2. Sa se stabileasca o valoare potrivita pentru pasul analizei. Justificare. Schita.

3. Cate esantioane de semnal vocal sunt cuprinse in aceasta fereastra daca se alege o frecventa de
esantionare de 20kHz? Ce probleme apar in realizarea transformarii si cum se pot solutiona?

4. Sa se figureze structura de spectru pentru o vocala. Sa se explice semnificatia componentelor din


aceasta structura.

5. Sa se figureze structura de spectru pentru o consoana siflanta. Sa se explice semnificatia


componentelor din aceasta structura.

6. Sa se figureze o structura de spectru pentru o consoana ploziva. Sa se explice semnificatia


componentelor din aceasta structura.

7. Sa se determine rezolutia in frecventa. Cum poate fi modificata?

8. Care este numarul de operatii de multiplicare necesare in realizarea transformarii. Se poate


realiza transformarea in timp real pe un PC standard ?

9. Acest tip de analiza spectrala modeleaza bine urechea umana? 40


Solutie problema1
1.Sa se aleaga un tip de fereastra de analiza si o durata adecvata a acesteia
• Se alege pentru analiza o fereastra Hamming.

• O durata potrivita a ferestrei de analiza corespunde intervalului de


stationaritate; Alegem Tf= 25ms.

2. Sa se stabileasca o valoare potrivita pentru pasul analizei. Justificare.


Schita.
• Pentru a uniformiza efectul ferestrelor ,

pasul de prelucrare

se alege Tp= Tf/2 =12.5 ms.

41
Solutie problema 1

42

S-ar putea să vă placă și