2. Transformarea Fourier
2
cu heterodinare
Analizor cu heterodinare
Iesire la
inregistrare
Intrare
Amplificator de
Amplificator de Filtru Detector
iesire
intrare acordat
Semnal de
acordare
3
4. Sonagraf
Semnalul s(t) se inregistreaza pe disc si se poate repeta de cate ori este necesar; la fiecare
parcurgere a secventei inregistrate acul inregistrator are o pozitie pe cilindru corespunzatoare unei
frecvente f0 a oscilatorului local, frecventa fs in jurul careia se face analiza cu largimea de banda f
aleasa fiind fs = f + f0. Analiza nu se face in timp real, timpul de analiza fiind:
tan= t . fmax / f,
unde t este durata secventei (maximum trei minute) iar fmax este cea mai inalta frecventa pentru
care se face analiza ( maximum 20 KHz ).
Largimea de banda poate fi selectata la valorile: 400 Hz, pentru banda larga.
. 170 Hz, pentru banda ingusta
70 Hz, pentru banda f. ingusta
4
Probleme 2
A. Un semnal vocal de buna calitate este inregistrat pe un CD. Frecventa de
esantionare este de 44 kHz si numarul de biti cu care se face cuantizarea este 16.
Se cere:
1. Schema cu care se poate face inregistrarea semnalului dat de un microfon pe acest
CD
2. Frecventa maxima a semnalului care poate fi inregistrat
3. Rata de bit la inregistrare
Separarea celor doua componente combinate prin convolutie nu se poate face prin
filtrarea liniară uzuală, care este de fapt o transformare spectrală, o transformare Fourier, dar se
poate realiza cu o transformare “homomorfică” acesteia, numită transformare “cepstrală” sau
filtrare liniară generalizată prin care se introduce cepstrul c(n) al unui semnal.
Pentru cepstrul c(n), două proprietăţi sunt importante:
1. reprezentările semnalelor componente să fie separabile în cepstru.
2. reprezentările semnalelor componente să fie combinate liniar in cepstru.
2. Reprezentarea intuitivă pentru obţinerea cepstrului
Ţinând cont de modelul de producere a vorbirii adoptat şi reprezentat în Fig.5.1, în
spectrul de amplitudini S() al semnalului vorbit după cum se arată şi în Fig.5.2 se pot identifica
două componente: înfăşurătoarea acestuia, H() lent variabilă, datorată variaţiei în timp a
aparatului de producere a vorbirii şi o parte rapid variabilă, datorată excitaţiei, E(). In
7
Aplicând o transformare Fourier inversă se obţine cepstrul cs(n)=ce(n) +ch(n), în care cele două
componente apar la “timpi” diferiţi (Fig. 2.4c) componenta de frecvenţă înaltă, datorată excitaţiei,
la timpi depărtaţi de origine şi dimpotrivă, componenta de frecvenţă joasă, datorată tractului vocal
la timpi apropiaţi de origine. Semnalele pot fi separate cu o fereastră de timp, dupa cum se arata
in Fig 5.3
8
[+] [+]
Fig.5.
5 Calculul cepstrului real de timp scurt utilizând transformata Fourier discretă TFD.
c s n qN ; m n 0,1,..., N 1
c s n; m q (5.6)
0
in rest
unde c s ( n; m) reprezintă o versiune periodică a secvenţei căutate cs(n;m), în care fenomenul de
aliere nu poate fi evitat dacă nu se face o completare cu un număr ridicat de zerouri a secvenţei,
lungimea acesteia ajungând la 512 sau 1024 eşantioane.
Cepstrul real de timp scurt al unui semnal s(n) are numeroase aplicaţii în studiul semnalului vorbit;
în cele ce urmează vom utiliza analiza cepstrală în estimarea perioadei T0 a tonului fundamental şi
de asemenea în estimarea frecvenţelor şi benzilor formanţilor. Vom obţine un set de parametri
pentru caracterizarea pe de o parte a excitaţiei (decizia V/N, T0) şi pe de altă parte a tractului
vocal, (Fi, Bi),care stă la baza unor aplicaţii legate de sinteza, compresia şi recunoaşterea
semnalului vocal.
f S (n; m) s(n) w(m n) , deoarece constantele de timp din h(n) sunt mici in raport cu
P putem considera că fereastra afectează numai semnalul de excitaţie din cadru, aşa încât avem
succesiunea de relaţii:
f S (n; m) e(n) * h(n) w(m n)
f S (n; m) e(n) w(m n)* h(n) f e n; m hn (5.7)
Este uşor de observat că aproximaţia făcută este cu atât mai exactă cu cât fereastra
de analiză este mai lungă; totuşi durata ei nu are voie să depăşească durata evenimentelor
acustice scurte, corespunzătoare de exemplu consoanelor stopate (20-40ms).
Dacă într-un cadru sunt cuprinse q perioade ale excitaţiei şi dacă P= T0 /Teşant este perioada
de excitaţie normată, atunci pentru un cadru al excitaţiei avem:
q0 Q 1
f e (n; m) w(m qP) (n qP) , iar (5.8 )
q q0
q0 Q 1
m j n j q P
E ( ; m) fe (n; m) e w(m q P) e .
n m N 1 q q0
Se poate defini secvenţa:
Aceste eşantioane ale cepstrului sunt coeficienţii dezvoltării în serie Fourier a funcţiei periodice
log E ( , m) şi apar la momentele n i 2 / 2 / P iP , i 0,1...
ce (n; m) i (n iP) (5.12)
i
Rezultă imediat că partea din cepstru datorată excitaţiei ce ( n, m) este o serie de impulsuri
periodice de perioadă P cu amplitudini i descrescând în timp. Cepstrul real al unui cadru
vocalizat este reprezentat in Fig.5.6.a. Se pot observa maximele de amplitudine descrescatoare de
perioada T0.
6.00E-01
5.00E-01
4.00E-01
Amplitudine
3.00E-01 T0 T0
2.00E-01 T0
1.00E-01
0.00E+00
-1.00E-01
-2.00E-01
1
101
201
301
401
501
601
701
801
901
1001
Esantioane
(a)
(b)
Fig. 5.6. Cepstrul real pentru semnale vorbite:
a) Cepstrul unui cadru vocalizat
b) Cepstrul unui cadru nevocalizat.
11
astfel încât, pentru cepstrul c s n; m al unui cadru sonor sunt valabile relaţiile:
ce 0; m ch 0 n 0
cs n; m ch n 0nP (5.15)
c n; m nP
e
Pentru un cadru nesonor, ce n; m 0 aşa încât
c s n; m ch n (5.16)
Din relaţia (5.15) rezultă că cepstrul unui cadru sonor are valorile din vecinătatea originii
determinate de tractul vocal în timp ce pentru timpi depărtaţi de origine, apar impulsurile
periodice datorate excitaţiei. Pentru cadre nesonore, contribuţia excitaţiei în cepstru este
neimportantă, contribuţia majoră datorându-se tractului vocal. Cepstrul real al unui cadru nesonor
este reprezentat in Fig.5.6.b
5.5 Estimarea frecvenţelor şi benzilor formanţilor. Spectrul netezit.
Estimarea frecvenţelor şi benzilor formanţilor se face în condiţii bune din spectrul netezit,
logH()- în care au fost în întregime eliminate efectele excitaţiei. O estimare a logH() -funcţia
de transfer globală a tractului vocal incluzând efectele de nazalizare şi de radiaţie ale buzelor şi
nărilor-este posibilă cu ajutorul cepstrului real de timp scurt al unui cadru de vorbire fs(n;m),
parcurgând următorii paşi:
a) se calculează cepstrul real cs(n;m) după algoritmul expus în Fig.5.4 si se selectează cu o
fereastră de “timp jos” l(n) cepstrul din vecinătatea originii ch(n);
ch n c s n; m l n (5.17)
b) se aplică o transformare Fourier discretă cepstrului ch(n) din vecinătatea originii.
Etapele de calcul sunt reprezentate şi în schema bloc din Fig.2.8.
1 pentru n 0,1,..., L
l1 n (5.18)
0 in rest
sau ferestre ponderate care realizează o operaţie de “albire”, respectiv de egalizare a efectelor
cepstrului în ferestră de tipul:
L n
1 sin pentru n 0,1,..., L
l2 n 2 2 (5.19)
0 in rest
Ferestrele l1(n) şi l2(n) sunt reprezentate în Fig.5.8.
Fig.5.11. Histograma frecvenţelor formantice pentru vocala /a/ determinată prin analiza
homomorfică.
6. Coeficienţii cepstrali
Fiecărei foneme rostite de un vorbitor îi corespunde o configuraţie a tractului vocal care
determină o anumită înfăşurătoare a logH(); dar logH() şi ch(n) pentru fiecare cadru sunt
perechi Fourier: putem considera deci eşantioanele ch(n) drept coeficienţi ai dezvoltării în serie
Fourier a funcţiei periodice logH(), setul de eşantioane ale cepstrului cuprinse între 1 şi L
reprezentând vectorul aşa numiţilor coeficienţi cepstrali pentru un cadru de semnal vocal.
Pentru cadrul m:
def
ch m ch 1, m.........ch L, m
T
(5.20)
Având la bază un sistem de funcţii ortonormate în spaţiul coeficienţilor cepstrali poate fi folosită
în mod natural şi potrivit o metrică Euclidiană. Distanţa dintre doi vectori cepstrali ch1(m) şi
ch2(m), are expresia:
d 2 ch1 m, ch 2 m ch1 m ch2 mT ch1 m ch2 m (5.21)
şi ea poate fi privită ca o măsură a similarităţii spectrale a celor doi vectori. Deoarece numărul
coeficienţilor cepstrali folosiţi pentru un sistem de recunoaştere a vorbirii este destul de mare, s-au
găsit soluţii care reduc numărul acestora, folosind de exemplu o altă scară de frecvenţe şi anume
scara mel. Astfel coeficienţii obţinuţi se numesc coeficienţi mel cepstrali şi vor fi introduşi în
capitolul următor
7. Mel cepstru
14
A doua metodă folosită pentru determinarea acestor tipuri de coeficienţi are la bază faptul
că în sistemul auditiv uman, percepţia unei frecvenţe f0, este influenţată de energia frecvenţelor din
vecinătatea sa . Rezoluţia acestei influente este numită bandă critică şi a fost introdusă de Fletcher
(1940) şi verificată mai apoi de Zwicker. Lărgimea benzilor critice a fost măsurată experimental si
legata de spatierea fibrelor nervoase de-a lungul membranei bazilare; 24 de benzi critice ar modela
destul de bine membrana bazilară. În Tabelul 5.1 sunt prezentate valorile pentru frecvenţele care
definesc limitele benzilor critice măsurate de Zwicker. Pentru semnal de calitate telefonică de
exemplu (fmax=3400Hz) numărul benzilor este 17. În Fig. 5.14 este reprezentată variaţia lărgimii
de bandă critică cu frecvenţa .
Adesea se foloseşte logaritmul energiei totale în fiecare din benzile critice din jurul
frecvenţelor mel ca intrare in tranformata Fourier inversă finală. Acest proces este ilustrat în
Fig.5.15. Se foloseşte notaţia Y(i) pentru a defini logaritmul energiei totale din banda critică i.
Acestea sunt considerate numai pentru domeniul Nyquist şi fiecare dintre ele se presupune
a fi centrată pe una din frecvenţele date de transformata Fourier directă. Cu alte cuvinte, dacă i
este indexul frecvenţei centrale, Fc,i, atunci
f es
Fc ,i k (5.22)
N
unde, pentru fiecare i, k=ki este un număr întreg, fes este frecvenţa de eşantionare, iar N este
numărul de puncte în care se face transformarea.
Fig.5.15. Folosirea filtrelor de bandă critică pentru calculul mel cepstrului. Modelul propus de
Davis şi Mermelstein, 1980.
Astfel energia totală, ponderată cu modulul “factorului de transfer” al filtrelor triunghiulare are
17
expresia:
N /2
2
Y i log S k ; mH i k , (5.23)
k 0 N
Y i pentru k ki
Y k
~
(5.24)
0 pentru k 0, N 1
Transformata Fourier inversă are acum expresia :
N 1
1
cs n; m Y k e jk 2 / N n .
~
(5.25)
N k 0
Deoarece Y k este simetric în jurul lui N2 (pară), exponenţiala poate fi înlocuită cu cosinus,
~
rezultând
2 N / 21
2
cs n; m Y k cos k
~
n. (5.26)
N k 0 N
Dacă Nbc este numărul filtrelor folosite pentru a simula scara mel în domeniul Nyquist, expresia
de mai sus devine
2
cs n; m
2
Y ki cos ki
~
N i 1,... Nbc N
n . (5.27)
Se poate observa ca folosirea coefienţilor polinomiali conduce la estimări mai netezite ( linia plina)
ale derivatelor decât operaţia de diferenţiere directă (conturul dintre puncte).
3. METODE DE ESTIMARE A PERIOADEI TONULUI FUNDAMENTAL
Scopul acestui capitol este de a prezenta doua categorii de metode pentru estimarea
perioadei tonului fundamental: metodele bloc introduse prin algoritmul cepstral si metodele
instantanee bazate pe transformata wavelet diadica.
Algoritmul cepstral este prezentat in varianta liniara si neliniara si sunt comparate
performantele in ceea ce priveste rata erorilor si robustetea la zgomot.
19
Algoritmul instantaneu este realizat aplicand transformarea wavelet diadica pentru functii
gaussiene si cubic-spline. Posibilitatea utilizarii functiei "maximul modulului" ca si a transformarii
wavelet modificate pentru determinarea perioadei tonului fundamental este analizata in
continuare. Se compara performantele celor trei tipuri de detectoare instantanee in ceea ce
priveste rata erorilor in prezenta si in absenta zgomotului.
Capitolul se incheie cu cateva aplicatii ale detectiei de ton fundamental in prozodie, de
exemplu la impartirea in silabe, gasirea accentelor, determinarea intonatiei.
Elaborarea unor metode pentru estimarea cat mai exacta a perioadei T0 a tonului
fundamental este una din problemele cheie in prelucrarea semnalului vocal si este importanta din
mai multe motive, expuse in continuare.
In primul rand informatia despre perioada tonului fundamental este relevanta in numeroase
aplicatii ca: verificarea si identificarea vorbitorului, analiza si sinteza vorbirii sincrone cu tonul
fundamental, compresia semnalului vocal, diagnosticarea unor boli ale aparatului fonator, analiza
prozodica
In al doilea rand, variatiile pe timp scurt ale perioadei tonului fundamental, in general pe
durata unei foneme, determina asa zisa micro-melodie a vorbirii, cu informatii de natura fonemica
si lingvistica, si alte informatii specifice vorbitorului.
In al treilea rand, variatiile pe timp mai lung ale tonului fundamental de obicei pe durata
unei fraze, determina macro-melodia, evidentiata in prozodie prin stabilirea accentului si a tipului
de fraza: declarativa, exclamativa, interogativa. Macro melodia este de asemenea purtatoarea
acelei caracteristici subiective a vorbirii numita "naturalete", foarte legata de frazare si intonatie.
In al patrulea, dar nu si in cel mai putin important rand, s-a stabilit ca urechea umana este
mai sensibila la variatiile tonului fundamental decat la variatiile altor parametri cu aproximativ un
ordin de marime, deci exista un argument in plus pentru a acorda o deosebita atentie masurarii
corecte si fara erori a perioadei tonului fundamental.
De-a lungul anilor, pentru estimarea perioadei tonului fundamental s-au elaborat diferite
metode. Chiar daca exista numeroase diferente intre metode, ele se pot totusi imparti in doua
categorii mai importante: metodele "bloc", in care T0 este calculat ca valoarea medie a mai multor
perioade de ton fundamental cuprinse intr-un cadru de analiza si metodele "instantanee" in care T0
este definit ca distanta dintre doua puncte succesive intr-o anumita masura similare din forma de
unda, ca de exemplu, maxime sau treceri prin zero.
Cercetarile noastre au pornit de la un algoritm de tip "bloc" clasic, cel cepstral liniar,
imbunatatit printr-o varianta neliniara. Am elaborat in continuare un algoritm de detectare
instantanee a maximelor din semnalul vorbit corespunzatoare momentului inchiderii glotei (GCI -
glotal closure instant) bazat pe transformarea wavelet.
Principiile si performantele celor doua categorii de detectoare sunt descrise in cele ce
urmeaza.
Probleme 3
u(n) s(n)
A(z)
0-1
Astfel, semnalul vocal la ieşirea modelului este:
0-2
0-3
Funcţia de transfer a tractului vocal va fi:
0-4
pentru
0-5
și
0-6
Predictorul liniar cu coeficienţi de predicţie se defineşte ca fiind sistemul cu funcţia
de transfer:
0-7
21
0-9
Coeficienţii sunt obţinuţi prin aplicarea criteriului de minimizare, adică
derivarea EMP şi egalarea cu zero a ecuaţiilor obţinute:
0-10
Dacă se defineşte funcţia
0-11
atunci ecuaţia de mai sus se poate scrie compact:
0-12
Prin rezolvarea acestui sistem cu P ecuaţii şi P necunoscute se pot calcula valorile
coeficienţilor de predicţie .
Parametrii de predicție liniară
Coeficienţii LPC se pot determina prin rezolvarea sistemului cu ecuaţii prezentat
anterior. Două dintre cele mai cunoscute metode pentru soluţionarea sistemului sunt metoda
covariaţiei şi metoda corelaţiei.
Metoda autocorelației presupune că eșantioanele de semnal sunt 0 în afara
intervalului de analiză . Se incearcă minimizarea erorii de predicție peste tot
unde semnalul este diferit de zero, adică în intervalul , unde reprezintă
ordinul modelului utilizat. Este de așteptat ca eroarea să fie mare la capetele intervalului.
Acesta este un motiv pentru care segmentul de vorbire analizat este ponderat cu o fereastră,
de exemplu de tip Hamming.
Lungimea ferestrei de analiză trebuie aleasă astfel încât să cuprindă câteva
perioade fundamentale de semnal pentru obținerea unor rezultate cu un grad satisfăcător de
încredere. Avantajul acestei metode este asigurarea stabilității modelului rezultat. Eroarea de
predicție este modelată prin intermediul autocorelației erorii și spectrului erorii.
Metoda Covarianței
Comparativ cu metoda autocorelației, diferența în cazul metodei covarianței vine
din faptul că se fixează intervalul peste care eroarea medie pătratică de predicție se
minimizează, iar semnalul vorbit nu este considerat a fi zero în afara acestui interval. Nu se
poate garanta stabilitatea modelului rezultat dar, pentru intervale de analiză suficient de mari,
coeficienții de predicție vor fi stabili. Autocorelația erorii și spectrul acesteia sunt calculate ca
măsuri ale decorelării semnalului de eroare.
Structura filtrului LPC
Pentru extragerea semnalului de excitaţie, se calculează diferenţa dintre eşantionul
curent şi ieşirea filtrului de predicţie dat de coeficienţii ak.
0-13
Semnalul reconstruit este dat de următoarea relaţie:
22
0-14
Structura filtrelor care implementează cele două relaţii este dată în Fig. 0-2.
a)
b)
Fig. 0-2 Structura filtrelor LPC. a) FIR pentru extragerea semnalului de
excitaţie, b) IIR pentru refacerea semnalului
Legătura dintre coeficienţii LPC şi formanţi
Formanţii sunt definiţi ca fiind rezonanţele traiectului vocal. Un filtru de predicţie
liniară de ordin p poate fi scris ca fiind rezultatul aplicării în cascadă a filtre trece-bandă:
0-15
unde reprezintă rădăcinile polinomului , care pot fi scrise sub forma:
0-16
unde reprezintă frecvenţa centrală a formantului, iar banda acestuia.
Estimatul modulului filtrului poartă numele de anvelopa spectrală . Variația
în timp a anvelopei spectrale pentru vocalele esta dată în figura de mai jos
pentru două voci, una feminină și alta masculină. Se poate observa o relativ corectă
poziționare a frecvențelor formantice, dar o îngustare a benzii corespunzătoare.
Reprezentarea spectrului unui cadru pentru vocalele și este dată în Fig. 0-3.
0-17
logaritmînd şi dezvoltînd apoi în serie Taylor se obţine:
0-18
După derivare aceastǎ relaţie devine:
0-19
0-20
Se observă că deşi numărul coeficienţilor de predicţie este finit, numǎrul celor
cepstrali este infinit. În funcţie de tipul de aplicaţie, de frecvenţa de eşantionare, s-a ajuns pe
căi empirice la concluzia că între 12 şi 20 coeficienţi sunt suficienţi pentru a surprinde
caracteristicile semnalului pe un cadru de vorbire.
0-21
24
( 0-21)
O expresie alternativă este dată de:
0-22
unde şi este definită de una din relaţiile de mai sus, şi .
Pre-accentuarea prin curba de egalizare a intensităţii pentru a evidenţia percepţia
diferită a intensităţii sunetului în funcţie de frecvenţa acestuia:
0-23
O formulă alternativă este:
0-24
Simularea relaţiei neliniare între intensitatea sunetului şi intensitatea percepută prin
realizarea unei compresii cubice a amplitudinii semnalului:
0-25
sau
0-26
Fig. 0-6 Spectrul PLP calculat utilizînd filtrele (2-48), scara Bark, şi expresia
Q(k) dată de (2-52) pentru o pronunţie a vocalelor a, e, i, o, u
Fig. 0-7 Spectrul PLP calculat utilizînd filtrele (2-49), scara Bark, şi expresia
Q(k) dată de (2-53) pentru o pronunţie a vocalelor a, e, i, o, u.
25
Fig. 0-8 Spectrul PLP calculat utilizînd filtrele (2-48), scara Bark, şi expresia
Q(k) dată de (2-53) pentru o pronunţie a vocalelor a, e, i, o, u
Fig. 0-6, Fig. 0-7, și Fig. 0-8 prezintă spectrogramele PLP utilizînd diferite
formulări pentru definirea scării Bark şi a filtrelor, pentru aceeaşi pronunţie a vocalelor
. Fig. 0-9 prezintă o imagine comparativă a celor trei scheme de extragere.
Analiza spectrală cu ferestre de frecvență
Analiza cu ferestre de frecventa se poate realiza fie cu bancuri de filtre ca atare sau
cu bancuri de filrte simulate prin heterodinare.
Analiza cu bancuri de filtre
26
Această metodă de analiză este varianta cea mai simplă de analiză spectrală.
Schema unui analizor spectral realizat cu filtre trece–bandă este dată în Fig. 0-10. Semnalul
de intrare este amplificat și filtrat cu ajutorul unui banc de filtre; la ieșirea fiecărui filtru se află
un detector de anvelopă, care determină energia conținută în banda respectivă, aceasta fiind
afișată pe un display în nivele de gri sau după un cod de culori.
Filtru Detector
Filtru Detector
Intrare Amplificator
Afisare
intrare
Filtru Detector
Filtrele cele mai utilizate din a doua categorie sunt filtrele de ocatvă, la care sau cele
de 1/3 octava, la care . Se preferă în construirea analizoarelor spectrale pentru
semnale vocale filtrele cu bandă relativă constantă, a caror rezoluție depinde de domeniul de
frecvențe în care lucrează, asemănător urechii umane.
Analizor cu heterodinare
Semnalul de intrare este amplificat și aplicat unui filtru virtual, acordat pe
frecvența centrală dorită, care se poate modifica din semnalul de acordare, dat de un
generator de frecvență variabilă, deplasând astfel filtrul prin întreg domeniul de frecvențe de
analizat; un detector de anvelopă determină energia conținută în fiecare bandă spectrală, care
Intrare
după amplificare în etajul de ieșire poate fi înregistrată sau afișată pe un display.
Intrare Amplificator Filtru Amplificator Iesire la inregistrare
Detector
intrare acordat iesire
Semnal de acordare