Sunteți pe pagina 1din 27

1

Analiza spectrala a vorbirii


1. Introducere
In analiza semnalelor audio reprezentarea in domeniul frecventa este preferentiala, urechea umana
fiind un analizor spectral.
Optiuni posibile in analiza spectrala: analog / digital soft / hard, timp real (on line) / off line
Prelucrarea analogica se face acuma mai rar; a supravietuit sonagraful.
Prelucrarea digitala este tipizata, ieftina, usor de algoritmizat: TFR (FFT), filtre digitale. Acestea
se pot realiza cu secvente de operatii aritmetice simple, respectiv inmultiri si adunari.
Realizarile soft presupun programe rulate pe calculator, secvential, intr-un timp de prelucrare mai
lung, determinat mai ales de inmultiri.
Realizarile hard presupun un algoritm de calcul cablat; pentru calcul este necesar numai timpul de
propagare prin circuit, foarte scurt.
Realizarile soft permit o mare flexibilitate, inexistenta in realizarile hard
Realizarea combinata soft – hard in procesoare de semnal: sunt cablate operatiunile aritmetice
(timp de calcul scurtat), insasuccesiunea operatiilor este data de un program (flexibilitate).
Se lucreaza in timp real in aplicatii ca: dialog om – masina introducere verbala de date scris dupa
dictare.
Se lucreaza in timp nereal in aplicatii la care nu intereseaza un raspuns imediat: analiza
comparativa a unor volume mari de date, experimente.

2. Transformarea Fourier
2

3. Principiile analizoarelor de spectru

Analizoarele de spectru se pot realiza:


cu bancuri de filtre in paralel

cu heterodinare

 Analizor de spectru cu bancuri de filtre

Filtrele pot fi:


cu banda constanta
cu banda relativa constanta: de ocatva: fmax / fmin = 2
de 1/3 oct: fmax / fmin = 21/3
Se prefera filtrele cu banda relativa constanta, a caror rezolutie depinde de domeniul de
frecventein care lucreaza, asemanator urechii umane.

 Analizor cu heterodinare
Iesire la
inregistrare
Intrare
Amplificator de
Amplificator de Filtru Detector
iesire
intrare acordat

Semnal de
acordare
3

4. Sonagraf

Semnalul s(t) se inregistreaza pe disc si se poate repeta de cate ori este necesar; la fiecare
parcurgere a secventei inregistrate acul inregistrator are o pozitie pe cilindru corespunzatoare unei
frecvente f0 a oscilatorului local, frecventa fs in jurul careia se face analiza cu largimea de banda f
aleasa fiind fs = f + f0. Analiza nu se face in timp real, timpul de analiza fiind:
tan= t . fmax / f,
unde t este durata secventei (maximum trei minute) iar fmax este cea mai inalta frecventa pentru
care se face analiza ( maximum 20 KHz ).
Largimea de banda poate fi selectata la valorile: 400 Hz, pentru banda larga.
. 170 Hz, pentru banda ingusta
70 Hz, pentru banda f. ingusta
4

5. Analizor spectral cu filtre digitale


Filtrul de ordin doi folosit in realizarea analizorului are schema de mai jos

B1  2  cos( 2 f c / f es ) ; B2   H 0  exp( b / f es )


unde: fc= frecventa centrala a filtrului
b=banda de trecere a filtrului
5

Probleme 2
A. Un semnal vocal de buna calitate este inregistrat pe un CD. Frecventa de
esantionare este de 44 kHz si numarul de biti cu care se face cuantizarea este 16.
Se cere:
1. Schema cu care se poate face inregistrarea semnalului dat de un microfon pe acest
CD
2. Frecventa maxima a semnalului care poate fi inregistrat
3. Rata de bit la inregistrare

B. Se considera un semnal audio de inalta fidelittate cu fmax = 20 kHz care trebuie


inregistrat pe CD prin MIC. Se face cuantizare uniforma cu o eroare mai buna de
10-9.Se cere:
1. Rata de bit la transmiterea acestui semnal
2. Spectrul semnalului esantionat ideal si al celui esantionat cu retinere, daca spectrul
semnalului audio original este dat in fig.1 Comparati cele doua situatii
3. Cu cat scade raportul semnal /zgomot la 1/100 din nivelul maxim al semnalului
fata de cel de la nivel maxim? Ce solutie exista pentru eliminarea acestui
dezavantaj?

Fig.1 Spectrul semnalului audio original

C. Se considera un semnal audio cu frecventa maxima din spectru egala cu 12 kHz.


Se cere:
1. Sa se calculeze numarul de filtre trece banda necesare pentru acoperirea acestui
spectru daca largimea de banda a unui filtru este 300 Hz. Este un mod potrivit de
analiza a unui semnal audio din punct de vedere perceptiv?
2. Sa se dea schema unui filtru digital potrivit pentru realizarea filtrarii trece-banda.
Care sunt elementele care determina banda si frecventa centrala a filtrului?
3. Sa se calculeze numarul de filtre necesar pentru analiza de octava. Pentru unul din
filtre, sa se calculeze limitele benzii de frecvente analizata. Este acest filtru mai
potrivit pentru analiza din punct de vedere perceptiv?
4. Sa se imparta in treimi de octava domeniul de frecvente cuprins in octava pentru
care s-au calculat la punctul precedent limitele benzii
5. Cum se poate implementa analiza de treime de octava in analizoarele spectrale cu
filtre digitale?

D. Se considera un program de analiza spectrala cu TFR in 512 puncte pentru un


semnal vocal de calitate radio, avand fmax= 9 kHz. Se cere:
1. Sa se aleaga un tip de fereastra de analiza si o durata adecvata a acesteia. Justificare. Schita.
2. Sa se stabileasca o valoare potrivita pentru pasul analizei. Justificare. Schita.
3. Cate esantioane de semnal vocal sunt cuprinse in aceasta fereastra daca se alege o frecventa de
esantionare de 20kHz? Ce probleme apar in realizarea transformarii si cum se pot solutiona?
4. Sa se figureze structura de spectru pentru o vocala. Sa se explice semnificatia componentelor
din aceasta structura.
6

5. Sa se figureze structura de spectru pentru o consoana siflanta. Sa se explice semnificatia


componentelor din aceasta structura.
6. Sa se figureze o structura de spectru pentru o consoana ploziva. Sa se explice semnificatia
componentelor din aceasta structura.
7. Sa se determine rezolutia in frecventa. Cum poate fi modificata?
8. Care este numarul de operatii de multiplicare necesare in realizarea transformarii. Se poate
realiza transformarea in timp real pe un PC standard ?
Acest tip de analiza spectrala modeleaza bine urechea umana?

ANALIZA CEPSTRALA A VORBIRII


1. Introducere
Scopul acestui curs este de a introduce notiunea de "cepstru real", de a arata modalitatea
de calcul a acestei marimi si de a o aplica in parametrizarea vorbirii, tinand cont de modelul
producerii acesteia.
Se lucreaza cu cepstrul real de timp scurt din care se pot extrage parametri care sa
caracterizeze pe de o parte excitatia, iar pe de alta parte tractul vocal.Ca parametri caracteristici
pentru excitatie sunt decizia vocalizat/nevocalizat, si perioada tonului fundamental in cazul
deciziei vocalizat.
Parametrii caracteristici pentru tractul vocal pentru fiecare fereastra sunt pe de o parte
frecventele si benzile formantilor, obtinute din spectrul netezit, pe de alta parte coeficientii
cepstrali si cei mel-cepstrali; intereseaza deasemenea variatiile de ordin unu si doi ale acestor
coeficienti, determinati de-a lungul catorva ferestre.
Reprezentarea cepstrala este o forma speciala a reprezentarii spectrale pentru semnalul
vorbit care ia in consideratie modelul producerii sale.Conform modelului uzual reprezentat în
Fig.5.1, semnalul vorbit s(n) rezultă din convoluţia unei secvenţe de excitaţie e(n) cu răspunsul
global la impuls h(n) al tractului vocal:
s(n)= e(n) * h(n) (5.1)

Fig.5.1 Modelul uzual de producere a semnalului vorbit.

Separarea celor doua componente combinate prin convolutie nu se poate face prin
filtrarea liniară uzuală, care este de fapt o transformare spectrală, o transformare Fourier, dar se
poate realiza cu o transformare “homomorfică” acesteia, numită transformare “cepstrală” sau
filtrare liniară generalizată prin care se introduce cepstrul c(n) al unui semnal.
Pentru cepstrul c(n), două proprietăţi sunt importante:
1. reprezentările semnalelor componente să fie separabile în cepstru.
2. reprezentările semnalelor componente să fie combinate liniar in cepstru.
2. Reprezentarea intuitivă pentru obţinerea cepstrului
Ţinând cont de modelul de producere a vorbirii adoptat şi reprezentat în Fig.5.1, în
spectrul de amplitudini S() al semnalului vorbit după cum se arată şi în Fig.5.2 se pot identifica
două componente: înfăşurătoarea acestuia, H() lent variabilă, datorată variaţiei în timp a
aparatului de producere a vorbirii şi o parte rapid variabilă, datorată excitaţiei, E(). In
7

reprezentarea Fourier aceste doua componente sunt combinate multiplicativ (Fig.5.2.a):


S    E     H    (5.2)
Reprezentate la scară logaritmică, aceste componente sunt combinate aditiv (Fig.5.2.b):
log S   log E   log H  ; (5.3)

Cs( ) = Ce()+Ch() (5.4)

şi se poate încerca o separare a lor, utilizând metode liniare.

Fig.5.2. Reprezentarea intuitivă pentru obţinerea cepstrului

Aplicând o transformare Fourier inversă se obţine cepstrul cs(n)=ce(n) +ch(n), în care cele două
componente apar la “timpi” diferiţi (Fig. 2.4c) componenta de frecvenţă înaltă, datorată excitaţiei,
la timpi depărtaţi de origine şi dimpotrivă, componenta de frecvenţă joasă, datorată tractului vocal
la timpi apropiaţi de origine. Semnalele pot fi separate cu o fereastră de timp, dupa cum se arata
in Fig 5.3
8

Fig.5.3 Separarea cu o fereastră de timp a celor două componente ale cepstrului.

3. Cepstrul real de timp scurt , c S ( n , m)


Algoritmul de calcul pentru cepstrul real de timp scurt, utilizând TFDT de timp scurt, este
dat în Fig.5.4 şi se aplică ferestrei fs(n;m) din semnal, nu semnalului s(n) ca in Fig.5.3.

[+] [+]

Fig.5.4. Schema bloc de calcul a cepstrului real de timp scurt


Pentru un cadru de N eşantioane care se termină la momentul m rezultă cepstrul real de timp
scurt:

 
 jl  jn
cs n; m  
1
  l
log f  l ; m e e d 
2
    
(5.5)
1  m
 jl  jn
  
2   l m N 1
 log f l ; m e e d

În general, algoritmi rapizi de calcul există pentru transformata Fourier discretă (TFD)şi nu pentru
transformata Fourier a semnalelor discrete în timp, TFDT. Este util deaceea sa reconstruim
schema de calcul ca in Fig. 5.5.

Fig.5.
5 Calculul cepstrului real de timp scurt utilizând transformata Fourier discretă TFD.

Rezultatul calcului pe care îl facem este:


9

 
  c s n  qN ; m  n  0,1,..., N  1
c s n; m   q  (5.6)
0
 in rest
unde c s ( n; m) reprezintă o versiune periodică a secvenţei căutate cs(n;m), în care fenomenul de
aliere nu poate fi evitat dacă nu se face o completare cu un număr ridicat de zerouri a secvenţei,
lungimea acesteia ajungând la 512 sau 1024 eşantioane.
Cepstrul real de timp scurt al unui semnal s(n) are numeroase aplicaţii în studiul semnalului vorbit;
în cele ce urmează vom utiliza analiza cepstrală în estimarea perioadei T0 a tonului fundamental şi
de asemenea în estimarea frecvenţelor şi benzilor formanţilor. Vom obţine un set de parametri
pentru caracterizarea pe de o parte a excitaţiei (decizia V/N, T0) şi pe de altă parte a tractului
vocal, (Fi, Bi),care stă la baza unor aplicaţii legate de sinteza, compresia şi recunoaşterea
semnalului vocal.

4 Estimarea frecvenţei tonului fundamental


Problema estimării frecvenţei tonului fundamental se pune pentru cadrele de vorbire
sonore. Dacă admitem conform modelului, că semnalul vorbit s(n) este dat de relatia (5.1) s(n)=
e(n)*h(n),
şi dacă alegem un cadru care se termină la momentul m:

f S (n; m)  s(n)  w(m  n) , deoarece constantele de timp din h(n) sunt mici in raport cu
P putem considera că fereastra afectează numai semnalul de excitaţie din cadru, aşa încât avem
succesiunea de relaţii:
f S (n; m)  e(n) * h(n)  w(m  n)
f S (n; m)  e(n)  w(m  n)* h(n)  f e n; m   hn  (5.7)
Este uşor de observat că aproximaţia făcută este cu atât mai exactă cu cât fereastra
de analiză este mai lungă; totuşi durata ei nu are voie să depăşească durata evenimentelor
acustice scurte, corespunzătoare de exemplu consoanelor stopate (20-40ms).
Dacă într-un cadru sunt cuprinse q perioade ale excitaţiei şi dacă P= T0 /Teşant este perioada
de excitaţie normată, atunci pentru un cadru al excitaţiei avem:
q0 Q 1
f e (n; m)   w(m  qP)   (n  qP) , iar (5.8 )
q  q0

q0 Q 1
m  j  n  j  q P
E ( ; m)   fe (n; m)  e   w(m  q  P)  e .
n  m N 1 q  q0
Se poate defini secvenţa:

~q   wm  qP pentru q  q 0 ,..., q 0  Q  1


w  (5.9 )
0 in rest

Cu (5.9) putem scrie: E; m  W P ., (5.1o)


~
10

unde W P  este TFDT a secvenţei w


~ q  .Deci E ( ; m) şi bineînţeles că şi log E ( ; m) va
~
fi o funcţie periodică de perioadă 2/P.
Calculul cepstrului ce ( n; m) se poate face cu relaţia:

1 j   n
ce (n; m) 
2  log E ( , m)  e d . (5.11)


Aceste eşantioane ale cepstrului sunt coeficienţii dezvoltării în serie Fourier a funcţiei periodice
log E ( , m) şi apar la momentele n  i  2 / 2 / P  iP , i  0,1...

ce (n; m)  i   (n  iP) (5.12)
i  

Rezultă imediat că partea din cepstru datorată excitaţiei ce ( n, m) este o serie de impulsuri
periodice de perioadă P cu amplitudini i descrescând în timp. Cepstrul real al unui cadru
vocalizat este reprezentat in Fig.5.6.a. Se pot observa maximele de amplitudine descrescatoare de
perioada T0.

Cepstrul real al unei portiuni vocalizate de semnal

6.00E-01
5.00E-01
4.00E-01
Amplitudine

3.00E-01 T0 T0
2.00E-01 T0
1.00E-01
0.00E+00
-1.00E-01
-2.00E-01
1

101

201

301

401

501

601

701

801

901

1001

Esantioane

(a)

(b)
Fig. 5.6. Cepstrul real pentru semnale vorbite:
a) Cepstrul unui cadru vocalizat
b) Cepstrul unui cadru nevocalizat.
11

Coeficientul  0 care reprezintă contribuţia în cepstru a excitaţiei în vecinătatea originii, are


valoarea:

1
 0  ce 0; m    log E  ; m d . (5.13)
2 

Pentru cepstrul unei ferestre fs(n;m) putem scrie expresia:


c s n; m  ce n; m  ch n  , (5.14)
unde componenta ch(n) datorată tractului vocal,descreşte foarte rapid în timp.

1
c h 0    log H   d ,
2 

astfel încât, pentru cepstrul c s n; m  al unui cadru sonor sunt valabile relaţiile:

 ce 0; m  ch 0 n  0

cs n; m   ch n  0nP (5.15)
c n; m  nP
 e
Pentru un cadru nesonor, ce n; m   0 aşa încât

c s n; m   ch n  (5.16)
Din relaţia (5.15) rezultă că cepstrul unui cadru sonor are valorile din vecinătatea originii
determinate de tractul vocal în timp ce pentru timpi depărtaţi de origine, apar impulsurile
periodice datorate excitaţiei. Pentru cadre nesonore, contribuţia excitaţiei în cepstru este
neimportantă, contribuţia majoră datorându-se tractului vocal. Cepstrul real al unui cadru nesonor
este reprezentat in Fig.5.6.b
5.5 Estimarea frecvenţelor şi benzilor formanţilor. Spectrul netezit.
Estimarea frecvenţelor şi benzilor formanţilor se face în condiţii bune din spectrul netezit,
logH()- în care au fost în întregime eliminate efectele excitaţiei. O estimare a logH() -funcţia
de transfer globală a tractului vocal incluzând efectele de nazalizare şi de radiaţie ale buzelor şi
nărilor-este posibilă cu ajutorul cepstrului real de timp scurt al unui cadru de vorbire fs(n;m),
parcurgând următorii paşi:
a) se calculează cepstrul real cs(n;m) după algoritmul expus în Fig.5.4 si se selectează cu o
fereastră de “timp jos” l(n) cepstrul din vecinătatea originii ch(n);
ch n   c s n; m   l n  (5.17)
b) se aplică o transformare Fourier discretă cepstrului ch(n) din vecinătatea originii.
Etapele de calcul sunt reprezentate şi în schema bloc din Fig.2.8.

Fig.5.7 Schema bloc de calcul a spectrului netezit.

În ceea ce priveşte fereastra de timp, sunt utilizabile decupaje dreptunghiulare de ecuaţie:


12

1 pentru n  0,1,..., L
l1 n    (5.18)
0 in rest
sau ferestre ponderate care realizează o operaţie de “albire”, respectiv de egalizare a efectelor
cepstrului în ferestră de tipul:
 L  n 
1  sin   pentru n  0,1,..., L
l2 n    2  2  (5.19)
0 in rest

Ferestrele l1(n) şi l2(n) sunt reprezentate în Fig.5.8.

Fig.5.8.Ferestre de timp utilizate în determinarea spectrului netezit


Efectele netezirii sunt evidente dacă se face o comparaţie între spectrele nenetezite logHn(;m)
obţinute după aplicarea TFD cadrului fs(n;m) din s(n) şi spectrele netezite logH(,m) obţinute
după aplicarea TFD regiunii apropiate de origine ch(n) selectate cu l(n) din cs(n;m).
În Fig.5.9.a sunt reprezentate spectrele nenetezite/netezite pentru un cadru de semnal sonor
(vocalizat), iar în Fig.5.9.b sunt reprezentate spectrele nenetezite/netezite pentru un cadru nesonor
(nevocalizat).

Fig.5.9. Spectre netezite si nenetezite:


(a) pentru un cadru sonor de vorbire (b) pentru un cadru nesonor de vorbire.
Netezirea permite determinarea cu bună acurateţe a primilor patru sau cinci formanţi şi a benzilor
acestora pentru cadrele sonore. Se pot determina de asemenea caracteristici de frecvenţă cu câte
un pol dominant la frecvenţe joase sau înalte, pentru cadre nesonore corespunzând unor plozive
sau siflante.
Cu analiza homomorfică se pot detemina parametrii formantici ai unor “unităţi fonetice” utilizate
în realizarea sintezei ca de exemplu alofoane, semisilabe, silabe, cuvinte.
În sfârşit, reprezentarea parametrică poate fi utililă în recunoaştere, parametrii formantici
numărându-se printre “trăsăturile esenţiale”ale fonemelor. În Fig.5.10 sunt date de exemplu
histogramele frecvenţelor formantice F1,F2,F3 determinate prin analiza homomorfică pentru
vocalele /a/,/e/,/i/, /o/, /u/ rostite de 5 vorbitori într-un număr variat de contexte, iar în Fig.5.11
13

sunt date histogramele frecvenţelor formantice numai pentru vocala /a/.

Fig.5.10. Histogramele frecvenţelor formantice pentru vocalele /a/,/e/,/i/, /o/, /u/


determinate prin analiza homomorfică.

Fig.5.11. Histograma frecvenţelor formantice pentru vocala /a/ determinată prin analiza
homomorfică.
6. Coeficienţii cepstrali
Fiecărei foneme rostite de un vorbitor îi corespunde o configuraţie a tractului vocal care
determină o anumită înfăşurătoare a logH(); dar logH() şi ch(n) pentru fiecare cadru sunt
perechi Fourier: putem considera deci eşantioanele ch(n) drept coeficienţi ai dezvoltării în serie
Fourier a funcţiei periodice logH(), setul de eşantioane ale cepstrului cuprinse între 1 şi L
reprezentând vectorul aşa numiţilor coeficienţi cepstrali pentru un cadru de semnal vocal.
Pentru cadrul m:
def
ch m  ch 1, m.........ch L, m
T
(5.20)

Având la bază un sistem de funcţii ortonormate în spaţiul coeficienţilor cepstrali poate fi folosită
în mod natural şi potrivit o metrică Euclidiană. Distanţa dintre doi vectori cepstrali ch1(m) şi
ch2(m), are expresia:

d 2 ch1 m, ch 2 m  ch1 m  ch2 mT ch1 m  ch2 m (5.21)

şi ea poate fi privită ca o măsură a similarităţii spectrale a celor doi vectori. Deoarece numărul
coeficienţilor cepstrali folosiţi pentru un sistem de recunoaştere a vorbirii este destul de mare, s-au
găsit soluţii care reduc numărul acestora, folosind de exemplu o altă scară de frecvenţe şi anume
scara mel. Astfel coeficienţii obţinuţi se numesc coeficienţi mel cepstrali şi vor fi introduşi în
capitolul următor
7. Mel cepstru
14

O imbunătăţire substanţială a fost adusă cunoasterii procesului de percepţie a vorbirii prin


introducerea mel cepstrului numit si cepstrul perceptiv. Semnificaţia termenului vine din
psihoacustică şi are la bază modelul auditiv uman, mel-ul fiind unitatea de măsură a frecvenţei
percepute a unui ton. Acesta nu corespunde frecvenţei fizice a tonului, deoarece sistemul auditiv
uman, nu percepe frecvenţa într-o manieră liniară, ci într-o manieră logaritmică. Experienţele
făcute de-a lungul timpului au dus la diverse tipuri de asocieri între scara de frecvenţă reală (Hz)
şi scala de frecvenţă percepută (mel), asocierea uzuala` fiind aproximativ liniară sub 1000Hz şi
logaritmică peste 1000Hz. Koening49. Doua din cele mai cunoscute relatii sunt cele date de
Koenig si Fant si care conduc la aproximativ aceeaşi curbă a perceptiei frecventelor reprezentata
in Fig.5.12:

Fig. 5.12. Scara Mel pentru perceptia auditiva.

Avand in vedere neliniaritatea acestei scale de perceptie a frecventelor se pune problema


determinarii unor coeficienti cepstrali care sa tina cont de aceasta dependenta si care sunt
denumiti coeficienti mel-cepstrali. Exista doua metode de determinare a acestora.
O prima metodă de determinare a coeficienţilor mel cepstrali ar fi aceea de reeşantionare
a axei frecvenţelor folosind o transformata Fourier directă de timp scurt (cu N=1024 sau 2048
puncte, de exemplu) şi apoi selectând acele componente de frecvenţă care corespund aproximativ
frecvenţelor centrale mel. Fig. 5.13 ilustrează această metodă de calcul pe o axă de frecvenţă care
acoperă domeniul Nyquist, 0-5kHz.

Fig.5.13 Scara de frecvente Mel


Folosirea transformatei Fourier discrete de timp scurt pentru obţinerea componentelor de
frecvenţă corespunzătoare pentru calculul coeficienţilor mel cepstrali. Numărul coefienţilor doriţi
este 20, 10 distribuiţi liniar până la 1000Hz restul logaritmic până la 5000Hz. Acestea corespund
“frecvenţelor dorite” arătate în tabelul de mai jos.
Frecventa Frecventa Valoarea lui “k”
“dorita” TFD
(Hz) “cuantizata”
(Hz)
15

1148 1152 118


1318 1318 135
1514 1514 155
1737 1738 178
1995 1992 204
2291 2294 235
2630 2627 269
3020 3018 309
3467 3467 355
4000 4004 410

A doua metodă folosită pentru determinarea acestor tipuri de coeficienţi are la bază faptul
că în sistemul auditiv uman, percepţia unei frecvenţe f0, este influenţată de energia frecvenţelor din
vecinătatea sa . Rezoluţia acestei influente este numită bandă critică şi a fost introdusă de Fletcher
(1940) şi verificată mai apoi de Zwicker. Lărgimea benzilor critice a fost măsurată experimental si
legata de spatierea fibrelor nervoase de-a lungul membranei bazilare; 24 de benzi critice ar modela
destul de bine membrana bazilară. În Tabelul 5.1 sunt prezentate valorile pentru frecvenţele care
definesc limitele benzilor critice măsurate de Zwicker. Pentru semnal de calitate telefonică de
exemplu (fmax=3400Hz) numărul benzilor este 17. În Fig. 5.14 este reprezentată variaţia lărgimii
de bandă critică cu frecvenţa .

Fig.5.14 Variaţia lărgimii de bandă critică cu frecvenţa.


Aşa cum se poate observa din Fig. 5.14 există o anumită asemănare între variaţia lărgimii de
bandă critică şi frecvenţa percepută în mel.
Împărţirea gamei de frecvenţe în benzi critice este foarte folositoare în practică, în
sistemele de recunoaştere, deoarece numărul coeficienţilor extraşi din semnal poate fi redus
simţitor. De exemplu, pentru o analiză a semnalului vocal folosind transformata Fourier de timp
scurt în N=1024 de puncte, vectorul spectral al fiecărui cadru are 1024 componente, în timp ce la
o analiză în frecvenţă folosind scara mel cu 20 de benzi critice, numărul componentelor unui
vector spectral se reduce la numai 20 de coeficienţi mel spectrali. În practică această succesiune
de benzi critice poate fi asimilată ca un banc de filtre trece bandă. Există mai multe posibilităţi de
alegere a tipurilor de filtre trece bandă folosite pentru a extrage cele mai importante caracteristici
fonetice ale vorbirii
Tabelul 2.1
16

Nr. benzilor Frecvenţa Lărgimea


critice centrală benzii
(Hz) critice
(Hz)
1 50 -
2 150 100
3 250 100
4 350 100
5 450 110
6 570 120
7 700 140
8 840 150
9 1000 160
10 1170 190
11 1370 210
12 1600 240
13 1850 280
14 2150 320
15 2500 380
16 2900 450
17 3400 550

Adesea se foloseşte logaritmul energiei totale în fiecare din benzile critice din jurul
frecvenţelor mel ca intrare in tranformata Fourier inversă finală. Acest proces este ilustrat în
Fig.5.15. Se foloseşte notaţia Y(i) pentru a defini logaritmul energiei totale din banda critică i.
Acestea sunt considerate numai pentru domeniul Nyquist şi fiecare dintre ele se presupune
a fi centrată pe una din frecvenţele date de transformata Fourier directă. Cu alte cuvinte, dacă i
este indexul frecvenţei centrale, Fc,i, atunci
f es
Fc ,i  k (5.22)
N
unde, pentru fiecare i, k=ki este un număr întreg, fes este frecvenţa de eşantionare, iar N este
numărul de puncte în care se face transformarea.

Fig.5.15. Folosirea filtrelor de bandă critică pentru calculul mel cepstrului. Modelul propus de
Davis şi Mermelstein, 1980.

Astfel energia totală, ponderată cu modulul “factorului de transfer” al filtrelor triunghiulare are
17

expresia:
N /2
 2 
Y i    log S k ; mH i  k , (5.23)
k 0 N 

Y i  pentru k  ki
Y k   
~
(5.24)
0 pentru k  0, N  1
Transformata Fourier inversă are acum expresia :
N 1
1
cs n; m  Y k e jk 2 / N n .
~
(5.25)
N k 0

Deoarece Y k  este simetric în jurul lui N2 (pară), exponenţiala poate fi înlocuită cu cosinus,
~
rezultând

2 N / 21
 2 
cs n; m   Y k cos k
~
n. (5.26)
N k 0 N 
Dacă Nbc este numărul filtrelor folosite pentru a simula scara mel în domeniul Nyquist, expresia
de mai sus devine

 2 
cs n; m  
2
Y ki cos ki
~

N i 1,... Nbc  N 
n . (5.27)

Fig. 5.16 a. Forma de unda a cuvintului /iapa/.


18

Fig. 5.16 b. Evolutia coeficientilor mel-cepstrali pentru cuvintul /iapa/.


8. Delta mel cepstru
Caracteristicile semnalului vocal obţinute din cepstru (cepstru pe termen scurt, mel
cepstru) încearcă să încorporeze caracteristicile filtrării neliniare ale sistemului auditiv uman. Ele
nu includ insa informaţii în ceea ce priveşte dinamica semnalului pe o perioadă de timp mai lungă,
informatii importante in procesul de prelucrare a vorbirii. Pentru a lua în considerare natura
dinamică a vorbirii au fost dezvoltaţi parametrii delta-mel cepstrali si delta delta mel cepstrali 
care s-au dovedit a fi foarte utili in recunoaşterea semnalului vocal în medii zgomotoase sau sub
influenţa anumitor factori de stres sau emoţionali.
Desi uzual caracteristicile dinamice ale unei marimi sunt adesea reprezentate prin
diferenţiere în timp, secventa cepstrală eşantionată în timp, cn(t), nu poate fi exprimată într-o
formă convenabilă pentru diferenţiere. Derivata în timp a cepstrului este obţinută atunci printr-o
aproximare polinomială, adica prin aproximarea traiectoriei cepstrale cu polinoame, de exemplu
de ordinul doi in cazul nostru, de-a lungul unui segment finit din traiectorie (Fig.5.17).

Fig. 5.17. Traiectoria unui coeficient mel-cepstral aproximată cu un polinom de ordinul 2.

Se poate observa ca folosirea coefienţilor polinomiali conduce la estimări mai netezite ( linia plina)
ale derivatelor decât operaţia de diferenţiere directă (conturul dintre puncte).
3. METODE DE ESTIMARE A PERIOADEI TONULUI FUNDAMENTAL
Scopul acestui capitol este de a prezenta doua categorii de metode pentru estimarea
perioadei tonului fundamental: metodele bloc introduse prin algoritmul cepstral si metodele
instantanee bazate pe transformata wavelet diadica.
Algoritmul cepstral este prezentat in varianta liniara si neliniara si sunt comparate
performantele in ceea ce priveste rata erorilor si robustetea la zgomot.
19

Algoritmul instantaneu este realizat aplicand transformarea wavelet diadica pentru functii
gaussiene si cubic-spline. Posibilitatea utilizarii functiei "maximul modulului" ca si a transformarii
wavelet modificate pentru determinarea perioadei tonului fundamental este analizata in
continuare. Se compara performantele celor trei tipuri de detectoare instantanee in ceea ce
priveste rata erorilor in prezenta si in absenta zgomotului.
Capitolul se incheie cu cateva aplicatii ale detectiei de ton fundamental in prozodie, de
exemplu la impartirea in silabe, gasirea accentelor, determinarea intonatiei.
Elaborarea unor metode pentru estimarea cat mai exacta a perioadei T0 a tonului
fundamental este una din problemele cheie in prelucrarea semnalului vocal si este importanta din
mai multe motive, expuse in continuare.
In primul rand informatia despre perioada tonului fundamental este relevanta in numeroase
aplicatii ca: verificarea si identificarea vorbitorului, analiza si sinteza vorbirii sincrone cu tonul
fundamental, compresia semnalului vocal, diagnosticarea unor boli ale aparatului fonator, analiza
prozodica
In al doilea rand, variatiile pe timp scurt ale perioadei tonului fundamental, in general pe
durata unei foneme, determina asa zisa micro-melodie a vorbirii, cu informatii de natura fonemica
si lingvistica, si alte informatii specifice vorbitorului.
In al treilea rand, variatiile pe timp mai lung ale tonului fundamental de obicei pe durata
unei fraze, determina macro-melodia, evidentiata in prozodie prin stabilirea accentului si a tipului
de fraza: declarativa, exclamativa, interogativa. Macro melodia este de asemenea purtatoarea
acelei caracteristici subiective a vorbirii numita "naturalete", foarte legata de frazare si intonatie.
In al patrulea, dar nu si in cel mai putin important rand, s-a stabilit ca urechea umana este
mai sensibila la variatiile tonului fundamental decat la variatiile altor parametri cu aproximativ un
ordin de marime, deci exista un argument in plus pentru a acorda o deosebita atentie masurarii
corecte si fara erori a perioadei tonului fundamental.
De-a lungul anilor, pentru estimarea perioadei tonului fundamental s-au elaborat diferite
metode. Chiar daca exista numeroase diferente intre metode, ele se pot totusi imparti in doua
categorii mai importante: metodele "bloc", in care T0 este calculat ca valoarea medie a mai multor
perioade de ton fundamental cuprinse intr-un cadru de analiza si metodele "instantanee" in care T0
este definit ca distanta dintre doua puncte succesive intr-o anumita masura similare din forma de
unda, ca de exemplu, maxime sau treceri prin zero.
Cercetarile noastre au pornit de la un algoritm de tip "bloc" clasic, cel cepstral liniar,
imbunatatit printr-o varianta neliniara. Am elaborat in continuare un algoritm de detectare
instantanee a maximelor din semnalul vorbit corespunzatoare momentului inchiderii glotei (GCI -
glotal closure instant) bazat pe transformarea wavelet.
Principiile si performantele celor doua categorii de detectoare sunt descrise in cele ce
urmeaza.

Probleme 3

A. Se considera un sistem de analiza cepstrala, bazat pe calculul a 12 parametri din


melcepstrului real. Se cere:
1. Sa se explice principiul analizei cepstrale.
2. Sa se defineasca si sa se explice de ce se prefera scara mel?
3. Sa se dea modelul sistemului de producere a vorbirii cu generator de
excitatie/sistem cu functie de transfer variabila admis pentru analiza cepstrala.
4. Cum se regaseste functia de transfer a traiectului in cepstrul real?
5. Dar excitatia?
6. Care sunt parametrii rezultati din analiza cepstrala?
7. Sa se explice de ce reprezentarea aceasta parametrica este comprimata?
20

8. Sa se calculeze factorul de compresie fata de MIC standard, considerand ca fiecare


parametru mel cepstral se codeaza cu 4 biti, decizia vocalizat/nevocalizat cu un bit,
iar perioada tonului fundamental cu 20 de biti
9. Se obtine o imbunatatire a factorului de compresie daca acesti parametri se
codeaza dupa ponderea lor?

Analiza liniar - predictivă


Analiza liniar - predictivă este considerată una din cele mai bune metode de analiză
a semnalului vocal şi printre cele mai utilizate tehnici de codare ale semnalului vocal ce oferă
calitate bună utilizând o rată de bit scăzută. Principalele avantaje oferite de această metodă o
reprezintă posibilitatea separării contribuţiei sursei (corzile vocale) de cea a tractului vocal şi
timpul redus de calcul necesar procesării [29], [30].
Modelul LPC analizează semnalul vocal prin estimarea formanţilor şi eliminarea
efectelor acestora asupra semnalului vocal, împreună cu estimarea intensităţii şi frecvenţei
impulsului rămas. Această metodă se bazează pe faptul că, dacă se cunosc parametrii funcţiei
de transfer a sistemului fonator şi parametrii excitaţiei, atunci forma de undă poate fi
reconstruită printr-o combinaţie liniară a eşantioanelor anterioare din cadrul semnalului.
Coeficienţii de ponderare a eşantioanelor anterioare se numesc coeficienţi de predicţie.
Modelul LPC este prezentat în figura de mai jos:

u(n) s(n)
A(z)

Fig. 0-1 Modelul LPC


Unde:
– semnalul de excitaţie
– câştigul filtrului
- filtrul invers al sistemului
– semnalul vocal la ieşirea modelului.
Ecuaţiile modelului LPC
Modelul producerii vorbirii poate fi exprimat prin:

0-1
Astfel, semnalul vocal la ieşirea modelului este:
0-2
0-3
Funcţia de transfer a tractului vocal va fi:

0-4
pentru
0-5
și
0-6
Predictorul liniar cu coeficienţi de predicţie se defineşte ca fiind sistemul cu funcţia
de transfer:
0-7
21

Pentru ca semnalul de la ieşirea predictorului să fie egal cu semnalul real, trebuie


considerată şi eroarea de predicţie:
0-8
De unde se obţine şi semnalul de eroare .
Pentru determinarea parametrilor funcţiei de transfer a tractului se impune
criteriul de minimizare a semnalului de eroare. În practică se lucrează cu ferestre de analiză
pentru care proprietăţile statistice ale semnalului vocal pot fi considerate staţionare, astfel
încât vom utiliza ferestre de eşantionare de dimensiune Criteriul impune minimizarea erorii
medii pătratice de predicţie (EMP) la momentul , definită de:

0-9
Coeficienţii sunt obţinuţi prin aplicarea criteriului de minimizare, adică
derivarea EMP şi egalarea cu zero a ecuaţiilor obţinute:

0-10
Dacă se defineşte funcţia
0-11
atunci ecuaţia de mai sus se poate scrie compact:

0-12
Prin rezolvarea acestui sistem cu P ecuaţii şi P necunoscute se pot calcula valorile
coeficienţilor de predicţie .
Parametrii de predicție liniară
Coeficienţii LPC se pot determina prin rezolvarea sistemului cu ecuaţii prezentat
anterior. Două dintre cele mai cunoscute metode pentru soluţionarea sistemului sunt metoda
covariaţiei şi metoda corelaţiei.
Metoda autocorelației presupune că eșantioanele de semnal sunt 0 în afara
intervalului de analiză . Se incearcă minimizarea erorii de predicție peste tot
unde semnalul este diferit de zero, adică în intervalul , unde reprezintă
ordinul modelului utilizat. Este de așteptat ca eroarea să fie mare la capetele intervalului.
Acesta este un motiv pentru care segmentul de vorbire analizat este ponderat cu o fereastră,
de exemplu de tip Hamming.
Lungimea ferestrei de analiză trebuie aleasă astfel încât să cuprindă câteva
perioade fundamentale de semnal pentru obținerea unor rezultate cu un grad satisfăcător de
încredere. Avantajul acestei metode este asigurarea stabilității modelului rezultat. Eroarea de
predicție este modelată prin intermediul autocorelației erorii și spectrului erorii.
Metoda Covarianței
Comparativ cu metoda autocorelației, diferența în cazul metodei covarianței vine
din faptul că se fixează intervalul peste care eroarea medie pătratică de predicție se
minimizează, iar semnalul vorbit nu este considerat a fi zero în afara acestui interval. Nu se
poate garanta stabilitatea modelului rezultat dar, pentru intervale de analiză suficient de mari,
coeficienții de predicție vor fi stabili. Autocorelația erorii și spectrul acesteia sunt calculate ca
măsuri ale decorelării semnalului de eroare.
Structura filtrului LPC
Pentru extragerea semnalului de excitaţie, se calculează diferenţa dintre eşantionul
curent şi ieşirea filtrului de predicţie dat de coeficienţii ak.
0-13
Semnalul reconstruit este dat de următoarea relaţie:
22

0-14
Structura filtrelor care implementează cele două relaţii este dată în Fig. 0-2.

a)
b)
Fig. 0-2 Structura filtrelor LPC. a) FIR pentru extragerea semnalului de
excitaţie, b) IIR pentru refacerea semnalului
Legătura dintre coeficienţii LPC şi formanţi
Formanţii sunt definiţi ca fiind rezonanţele traiectului vocal. Un filtru de predicţie
liniară de ordin p poate fi scris ca fiind rezultatul aplicării în cascadă a filtre trece-bandă:

0-15
unde reprezintă rădăcinile polinomului , care pot fi scrise sub forma:

0-16
unde reprezintă frecvenţa centrală a formantului, iar banda acestuia.
Estimatul modulului filtrului poartă numele de anvelopa spectrală . Variația
în timp a anvelopei spectrale pentru vocalele esta dată în figura de mai jos
pentru două voci, una feminină și alta masculină. Se poate observa o relativ corectă
poziționare a frecvențelor formantice, dar o îngustare a benzii corespunzătoare.
Reprezentarea spectrului unui cadru pentru vocalele și este dată în Fig. 0-3.

Fig. 0-3 Reprezentarea spectrului unui cadru pentru vocalele și


Cepstrul derivat din predicţia liniarǎ
Fiind dat filtrul LPC:

0-17
logaritmînd şi dezvoltînd apoi în serie Taylor se obţine:
0-18
După derivare aceastǎ relaţie devine:
0-19

Apoi cu substituţia şi egalând coeficienţii puterilor variabilei din cei


23

doi termeni ai ecuaţiei, se obţin relaţiile de recurenţă pentru coeficienţii cepstrali:

0-20
Se observă că deşi numărul coeficienţilor de predicţie este finit, numǎrul celor
cepstrali este infinit. În funcţie de tipul de aplicaţie, de frecvenţa de eşantionare, s-a ajuns pe
căi empirice la concluzia că între 12 şi 20 coeficienţi sunt suficienţi pentru a surprinde
caracteristicile semnalului pe un cadru de vorbire.

Fig. 0-4 Coeficienții de predicție


Parametrii perceptivi de predicție liniară
Predicţia liniar perceptuală utilizeazǎ algoritmul recursiv al lui Durbin pentru a
calcula coeficienţii de predicţie LPC, derivaţi din coeficienţii de autocorelaţie. Dar coeficienţii
de autocorelaţie nu sunt calculati în domeniul timp, ci ca transformată Fourier inversă a
spectrului de putere al semnalului.
Pe de altă parte predicţia perceptual liniară utilizeazǎ un spectru de putere motivat
perceptual, avînd ca aspecte importante scalarea neliniară a domeniului frecvenţă, cu ajutorul
unor bancuri de filtre asemanătoare celor de mai sus, astfel încît spectrul în benzi critice să fie
eşantionat aproximatriv la intervale de aproximativ . O altă diferenţa o constituie faptul
că în locul logaritmului energiei bancului de filtre se aplică un alt tip de compresie neliniară de
obicei rădăcina cubică. S-a constatat că aceastǎ prelucrare este benefică în aplicaţiile de
recunoaştere a vorbirii în mediu zgomotos Astfel algoritmul presupune următorii pasi:
Calculul spectrului folosind Transformarea Fourier Discretă
Trecerea din domeniul de frecvenţe în Herzi în cel Bark, şi reevaluarea spectrului
de-a lungul acestei scări.
Integrarea pe benzi critice printr-un banc de filtre definite ca:

0-21
24

Fig. 0-5 Reprezentarea filtrelor trapezoidale

( 0-21)
O expresie alternativă este dată de:

0-22
unde şi este definită de una din relaţiile de mai sus, şi .
Pre-accentuarea prin curba de egalizare a intensităţii pentru a evidenţia percepţia
diferită a intensităţii sunetului în funcţie de frecvenţa acestuia:

0-23
O formulă alternativă este:

0-24
Simularea relaţiei neliniare între intensitatea sunetului şi intensitatea percepută prin
realizarea unei compresii cubice a amplitudinii semnalului:
0-25
sau
0-26

Fig. 0-6 Spectrul PLP calculat utilizînd filtrele (2-48), scara Bark, şi expresia
Q(k) dată de (2-52) pentru o pronunţie a vocalelor a, e, i, o, u

Fig. 0-7 Spectrul PLP calculat utilizînd filtrele (2-49), scara Bark, şi expresia
Q(k) dată de (2-53) pentru o pronunţie a vocalelor a, e, i, o, u.
25

Fig. 0-8 Spectrul PLP calculat utilizînd filtrele (2-48), scara Bark, şi expresia
Q(k) dată de (2-53) pentru o pronunţie a vocalelor a, e, i, o, u

Fig. 0-9 Prezentare comparativă a trei metode de extragere a trǎsǎturilor


caracteristice cepstrale: coeficienţii cepstrali deduşi din predicţie liniară, coeficienţii
cepstrali perceptuali liniar predicvtivi, coeficienţii mel-cepstrali

Reeşantionarea de obicei la 18-20 eşantioane ([24],[26]). Aceasta se poate face în


diferite moduri, de pildă alegerea unei valori reprezentative din fiecare bandă, sau prin
medierea valorilor obţinute în fiecare bandă.
Calcularea pseudo funcţiei de autocorelaţie prin aplicarea transformatei Fourier
inverse acestui spectru
Aplicarea modelului liniar predictiv (algoritmul Levinson Durbin)
Eventual calcularea cepstrului derivat.
Aplicarea de ponderi mai mari porţiunilor perceptual mai importante ale
spectrului.
Aplicarea unei scări neliniare de frecvenţe.

Fig. 0-6, Fig. 0-7, și Fig. 0-8 prezintă spectrogramele PLP utilizînd diferite
formulări pentru definirea scării Bark şi a filtrelor, pentru aceeaşi pronunţie a vocalelor
. Fig. 0-9 prezintă o imagine comparativă a celor trei scheme de extragere.
Analiza spectrală cu ferestre de frecvență
Analiza cu ferestre de frecventa se poate realiza fie cu bancuri de filtre ca atare sau
cu bancuri de filrte simulate prin heterodinare.
Analiza cu bancuri de filtre
26

Această metodă de analiză este varianta cea mai simplă de analiză spectrală.
Schema unui analizor spectral realizat cu filtre trece–bandă este dată în Fig. 0-10. Semnalul
de intrare este amplificat și filtrat cu ajutorul unui banc de filtre; la ieșirea fiecărui filtru se află
un detector de anvelopă, care determină energia conținută în banda respectivă, aceasta fiind
afișată pe un display în nivele de gri sau după un cod de culori.
Filtru Detector

Filtru Detector
Intrare Amplificator
Afisare
intrare

Filtru Detector

Fig. 0-10 Analizor paralel în timp real


Filtrele pot fi: cu bandă de trecere B constantă sau cu bandă relativă constantă.

Filtrele cele mai utilizate din a doua categorie sunt filtrele de ocatvă, la care sau cele
de 1/3 octava, la care . Se preferă în construirea analizoarelor spectrale pentru
semnale vocale filtrele cu bandă relativă constantă, a caror rezoluție depinde de domeniul de
frecvențe în care lucrează, asemănător urechii umane.
Analizor cu heterodinare
Semnalul de intrare este amplificat și aplicat unui filtru virtual, acordat pe
frecvența centrală dorită, care se poate modifica din semnalul de acordare, dat de un
generator de frecvență variabilă, deplasând astfel filtrul prin întreg domeniul de frecvențe de
analizat; un detector de anvelopă determină energia conținută în fiecare bandă spectrală, care
Intrare
după amplificare în etajul de ieșire poate fi înregistrată sau afișată pe un display.
Intrare Amplificator Filtru Amplificator Iesire la inregistrare
Detector
intrare acordat iesire

Semnal de acordare

Fig. 0-11 Analiza cu heterodinare


O variantă bine cunoscută de analizor cu heterodinare este un aparat numit
Sonagraf, care poate furniza spectre curente sub formă de sonagrame. Principiul de
funcționare al Sonagrafului este dat în Fig. 0-12.
27

Fig. 0-12 Funcționarea Sonografului


Semnalul se inregistrează pe disc și se poate repeta de cate ori este necesar; la
fiecare parcurgere a secvenței înregistrate acul înregistrator are o poziție pe cilindru
corespunzatoare unei frecvențe a oscilatorului local, frecvența în jurul căreia se face
analiza cu lărgimea de banda aleasă fiind:
0-27
Analiza nu se face în timp real, timpul de analiză fiind:
0-28
unde este durata secvenței (maximum trei minute) iar este cea mai inaltă
frecvență pentru care se face analiza (maximum ). Lărgimea de bandă poate fi
selectată la valorile:
400 Hz, pentru bandă largă
170 Hz, pentru bandă îngustă
70 Hz, pentru bandă foarte îngustă
Prin construcție, sonagraful operează în domeniul frecvență și codifică, în decursul
timpului și prin înnegrirea unei hârtii sensibile, puterea de ieșire a unui banc de FTB, puse în
paralel. Acest banc este de fapt virtual, căci semnalul analizat este înregistrat pe un tambur
magnetic în rotație și deci un singur filtru este astfel suficient pentru ca prin heterodinare
sincronă cu

S-ar putea să vă placă și