Sunteți pe pagina 1din 22

Cap.

5 Tehnici de procesare i recunoatere a semnalului vocal


Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal Sistemele de recunoatere automat a vorbirii ASR (Automatic Speech Recognition) se bazeaz pe modalitatea de producere, respectiv de percepie a vorbirii n algoritmii de analiz acustic, de procesare a vorbirii i n tehnicile de recunoatere pe care le nglobeaz (Juang et al., 2004), (Rabiner, Juang, 2006). Pornind de la modul n care este caracterizat forma de und a semnalului vorbit de ctre fenomenele fizice ce le genereaz au fost dezvoltate o serie de instrumente specifice de procesare a semnalelor vocale, cum ar fi cepstrum (i metodele ce deriv din acesta MFCC Mel frequency cepstal coefifcient, LPC - linear predictive coding) Transformata Fourier pe timp scurt STFT - Shot Time Fourier Transform. Tehnicile LPC i variante ale acesteia au fost create ca urmare a modelrii mecanismului de producere a vorbirii umane, model ce include glota ca element de vibraie ce conine informaii legate de frecvena fundamental i de tractul vocal (laringe, gur) ca element rezonant ce ofer informaii despre formani. Metoda LPC face posibil estimarea formanilor (a caracteristicilor tractului vocal) i respectiv eliminarea efectului acestora din semnalul procesat, astfel nct se face o separare a celor dou componente: excitaia i rspunsul la impuls al tractului vocal. Secvenele analizate au dimensiune mic, de ordinul milisecundelor, datorit variaiilor rapide ale semnalului vocalic n timp. n tehnicile de recunoatere a vorbitorului este necesar extragerea unui vector de trsturi cu un grad mai mic de generalitate i un grad mai mare de particularitate. Tehnologiile des folosite pentru recunoaterea vorbitorului includ estimarea frecvenelor, GMM (gaussian mixture models), potrivire de pattern-uri, arbori de decizie i reele neuronale (Hosom, 2004). O problem important este cea de eliminare, sau de neglijare a zgomotului ambiental (Bhiksha, 2007), (Lee Y.W., 2005), (Guinness, 2005). n acest capitol se prezint trei metode de extragere de trsturi bazate pe coeficienii de predicie liniar LPC (Zbancioc, Costin 2003), coeficieni mel-cepstrali MFCC (Costin, Zbancioc, 2002, 2003) i coeficieni autoregresivi (Costin, Grichnik, Zbancioc, 2003). Pentru acest set de trsturi s-au dezvoltat metode de recunoatere a vorbirii folosind pentru clasificare n special arborii de decizie DT - decision tree i reelele neuronale MLP - Multi-Layer Perceptron (Dumitra, 1997), (Toderean et al., 1995).

5.1. Recunoaterea fonemelor pe baza coeficienilor MFCC


Metoda descris are la baz modelul de percepie auditiv a omului, model n care frecvenele sunt date de o scar mel i faptul c persoanele cu implant auditiv pot recunoate secvenele rostite, folosind numai un set foarte redus de informaii. Metoda calculeaz procentul de recunoatere a unor foneme folosind pattern-uri extrase din benzile de frecven mel, aplicnd un set de operaii specifice celor ce se realizeaz n implantul cochlear (CI). Simulrile realizate au vizat determinarea importanei specifice a unor benzi spectrale n procesul de recunoatere a unor foneme.

122

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

Implantul cochlear genereaz pe baza semnalelor recepionate, utiliznd stimularea electric artificial, un pattern de activitate neuronal, care permite pacienilor cu implant s recunoasc semnalele vorbite, sau alte sunete din mediul nconjurtor. Influena zgomotului asupra inteligibilitii vorbirii are efecte puternice asupra pacienilor cu implant cochlear. La ora actual exist numeroase studii n acest sens care vizeaz fie mbuntirea tehnicilor de filtrare, fie creterea robusteei la zgomot a algoritmilor de recunoatere (Bhattacharya and Zeng, 2005), (Loizou et al., 2005). 5.1.1. Extragerea de pattern-uri din benzile de frecvene mel Scara mel de frecvene simuleaz modul de percepie a frecvenelor n urechea intern a omului n melcul cochlear. Implantul cochlear MXM-Digisonic folosete doar 15 electrozi pentru stimularea terminaiilor nervoase, fiecare electrod transmite impulsuri electrice direct nervului auditiv. Limitele celor 15 benzi de frecvene mel sunt calculate dup formule lui Fant sau lui Koening:
f Mel Fant ( f ) = 1000 log 2 1 + ; 1000 f Mel Koening ( f ) = 2595 lg1 + 700

(5.1)

n figura de mai jos se observ c graficele celor dou funcii Fant i Koening sunt asemntoare. Relaia (5.1) are la baz faptul c distribuia n melcul cochlear a celulelor receptoare de frecvene joase (sub 1000 Hz) este aproximativ liniar, respectiv a celor asociate frecvenelor nalte este logaritmic. Am considerat c numai frecvenele din banda [65Hz - 6,5kHz] prezint interes n speech.

Fig. 5.1. Distribuia a 15 benzi pe scara frecvenelor mel (Costin, Zbancioc, 2003)

Deoarece frecvena de eantionare impus este fs =16000 Hz, iar fereastra de analiz este de 8 ms, dimensiunea vectorului de analizat este W =128 eantioane. Frecvenele spectrale vor fi dispuse cu pas de fs / W = 125 Hz. Din cele 64 de frecvene pozitive, se pstreaz doar frecvenele din banda util (sub 6,5 kHz), deci mai rmn pentru analiz doar 51 valori.

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal Table 5.1. Distribuia frecvenelor spectrale n benzile mel (Costin, Zbancioc, 2003) Numrul Frecvena Numr total benzii central frecvene B1 125 1 B2 250 1 B3 375 1 B4 500 1 B5 625 1 B6 750 1 B7 875 1 B8 1000 1 B9 1185 2 B10 1435 2 B11 1745 3 B12 2180 4 B13 2795 6 B14 B15 3825 5500 11 15 Frecvenele corespunztoare fiecrei benzi mel (se specific i indicele din vectorul spectral)

123

125 (1) 250 (2) 375 (3) 500 (4) 625 (5) 750 (6) 875 (7) 1000 (8) 1125, 1250 (9-10) 1375, 1500 (11-12) 1625, 1750, 1875 (13-15) 2000, 2125, 2250, 2375 (16-19) 2500, 2625, 2750, 2875, 3000, 3125 (20-25) 3250, 3375, 3500, 3625, 3750, 3875, 4000, 4125, 4250, 4375, 4500 (26-36) 4625, 4750, 4875, 5000, 5125, 5250, 5375, 5500, 5625, 5750, 5875, 6000, 6125, 6250, 6375 (37-51)

Fereastra de analiz s-a ales de 8ms, iar pasul de deplasare este de 50% din lungimea ferestrei. Etapele realizate n procesarea semnalului sunt urmtoarele: calculul spectrului (transformata FFT), dup ce n prealabil eantioanele din fereastra curent de analiz sunt ponderate cu o fereastr Hamming; Calculeaz energia celor 15 benzi mel; Se realizeaz o preaccentuare, pentru a accentua energiile de pe benzile frecvenelor nalte a cror valori sunt mici, comparativ cu cel al frecvenelor joase.
B1*2.4, B4*38.5, B7*218.8, B10*500, B13*1562.5, B2*3.6, B5*78.1, B8*250, B11*625, B14*2187.5, B3*15, B6*125, B9*312.5, B12*791.7, B15*3062.5

Fig. 5.2. Funcie de preaccentuare cu variaie exponenial (Costin, Zbancioc, 2003)

5.1.2. Recunoaterea vocalelor pe baza energiei benzilor mel cu RN-MLP i DT Clasificarea vocalelor nu ar trebui s ridice mari dificulti, date fiind caracteristicile spectrale ale acestora, frecvena fundamental i valorile formantice care au valori bine stabilite n special la nivelul primilor doi formani. Chiar i persoanele cu implant nu au mari probleme n a distinge corect vocalele. Nu acelai lucru se ntmpl ns i cu fonemele consonantice, pentru care pattern-urile

124

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

construite doar din energiile benzilor de frecven nu conduc la scoruri bune de recunoatere. Reeaua neuronal MLP folosit are o arhitectur cu dou straturi ascunse. Numrul neuronilor pentru primul strat ascuns a fost N1=60, respectiv pentru al doilea strat ascuns N2=30. Vectorul de intrare {x1, x2,..., xn} are dimensiunea de N=15 (valorile energiilor benzilor mel), iar dimensiunea vectorului de ieire este dat de numrul de foneme care se doresc a fi recunoscute. Setul de antrenare este construit astfel nct s nu avem dou pattern-uri succesive ale aceleiai vocale. Arborii de decizie sunt metode de clasificare automat care furnizeaz la ieire un set de reguli. Am utilizat arborii de decizie See5 care folosesc o variant mbuntit a algoritmului ID3, bazat pe entropie (Quinlan, 1996). Dimensiunea setului de antrenare i cea a setului de test a fost aleas egal, de 100 vectori de trsturi.
Table 5.2. Rata recunoaterii vocalelor {a, e, i , o , u } cu RN-MLP i DT

Numr vorbitori 3

Rata recunoatere RN-MLP 76%

Rata recunoatere DT- arbore de decizie 94%

Fr a putea afirma c arborii de decizie sunt clasificatori mai buni dect reelele neuronale, a cror performan depinde foarte mult de arhitectura acesteia i de relevana datelor furnizate la intrare, am obinut o rat de clasificare acceptabil de 94% pentru acest set restrns de doar trei vorbitori. Arborele de decizie este structurat pe doar trei nivele, pentru clasificare fiind folosite doar benzile de frecven B7, B9, B11 i B14. Nu se poate face afirmaia c energiile celorlalte benzi nu ajut n procesul de clasificare, bazndu-ne doar pe faptul c utilitarul See5 a reuit s obin o clasificare optim doar pe baza a 4 caracteristici din totalul de 15 existente n vectorii de trsturi. Rezultatele cercetrilor au fost prezentate n (Costin, Zbancioc et al., 2002). Rule 1: B9 > 0.05271 => vowel a Rule 2: B7 <= 0.04439 B11 > 0.00976 => vowel e Rule 3: B7 <= 0.04439 B11 <= 0.00976 B14 > 0.0212 => vowel i Rule 4: B7 > 0.04439 B9 <= 0.05271 => vowel o Rule 5: B7 <= 0.04439 B11 <= 0.00976 B14 <= 0.0212 => vowel u

IF C1: (B7 > 0.04439) THEN IF C2: (B9 <= 0.05271) THEN Vowel = o ELSE Vowel = a ELSE IF C3: (B11 > 0.00976) THEN Vowel = e ELSE IF C4: (B14 <= 0.0212 THEN Vowel = u ELSE Vowel = i

Fig. 5.3. Regulile de clasificare a vocalelor {a, e, i, o, u} furnizate de utilitarul See5

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

125

Table 5.3. Matricea de confuzie a vocalelor {a, e, i, o , u} dat de See5 (Costin, Zbancioc et al., 2002)

Eroare : 1 ( 1.0%)
a e i o u a 20 1 e 20 20 19 20 i o u a e i o u a 20 1 1 e 19 19 i

Eroare: 6 ( 6.0%)
o 1 17 1 2 19 u

Estimarea relevanei n cazul reelei neuronale MLP a parametrilor folosii la recunoatere este nglobat n ponderile dintre neuronii reelei. Modul de antrenare a reelei este n mod normal transparent utilizatorului, n special n cazul folosirii unor instrumente care nu ofer acces la matricea ponderilor. Dac suma tuturor ponderilor de la un neuron aflat pe stratul de intrare, la neuronii de pe stratul urmtor este nul sau semnificativ mai mic dect sumele celorlalte intrri ale reelei neuronale, atunci se poate spune despre acel neuron c nu conine informaie util procesului de antrenare/clasificare. Identificarea acestor trsturi, eliminarea i nlocuirea lor cu alte trsturi poate conduce la o antrenare mai rapid i la o rat de recunoatere mai bun. 5.1.3. Metod de construcie de pattern-uri folosind coeficienii MFCC Vectorii de trsturi construii cu valorile energiilor benzilor mel nu permit o clasificare a fonemelor consonantice, motiv pentru care am propus ca alternativ folosirea n locul acestora a coeficienilor mel cepstrali MFCC. Aceti coeficieni sunt des ntlnii n literatura de specialitate, n sistemele de recunoatere automat a vorbirii (Holmberg et al., 2006), (Zheng 2001). De obicei sunt folosii mpreun cu alte tehnici avansate de clusterizare/clasificare, de reducie date (cum ar fi VQ-vector quantization), cu modele statistice etc. Sphinx spre exemplu reprezint unul dintre sistemele consacrate de recunoatere a vorbirii independent de vorbitor i folosete coeficienii MFCC mpreun cu modele acustice Markov (HMMs) i un model de limbaj statistic n-gram (Lee K.F., 1989). Ultimele variante Pocketsphinx pentru platformele mobile i Sphinx4 sunt dezvoltate n Java, de mai multe grupuri de cercetare i sunt un excelent suport pentru cercetare. Metoda de extragere a coeficienilor MFCC a fost prezentat n (Costin, Zbancioc, 2003), iar etape algoritmului sunt urmtoarele: Pas 1) Re-eantionarea semnalului de intrare (dac este cazul) astfel nct fe=16kHz Pas 2) Aplicarea unui filtru de preaccentuare semnalului de intrare avnd funcia caracteristic H ( z ) = 1 0.97 z 1 Pas 3) Ponderarea ferestrei curente de analiz de 8ms cu o fereast Hamming Pas 4) Calculul spectrului (aplicare transformat Fourier discret) Pas 5) Determinarea coeficienilor spectrali mel MFSC (pentru cele 15 benzi mel) Pas 6) Aplicarea transformatei cosinus discrete (DCT) la fiecare 10 ms i calcularea pentru fiecare vector mel a N=7 coeficieni MFCC, MFCC (40ms i 80ms) i MFCC

126

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

Calcularea coeficienilor MFCC prin aplicarea DCT se face dup relaia:


xt [k ] =

X
i =1

15

t ,i

cos[k (i 1 / 2)( / 15)] 1 k N

(5.2)

unde Xt,i sunt cei 15 coeficieni mel cepstrali MFSC corespunztori benzilor mel din fereastra curent de analiz (t noteaz indicele ferestrei). Calculul acestora se face innd cont de limitele intervalului benzii mel (vezi relaia 5.1 i tabelul 5.1) sumnd toate valorile spectrale din banda. Vectorii derivativi MFCC i MFCC sunt calculai pe baza derivatelor de ordin 1 i de ordin 2, ceea ce revine n domeniul discret la calculul diferenelor:

xt ,40 ms (k ) = xt + 2 (k ) xt 2 (k ), 1 k N xt (k ) = xt +1 (k ) xt 1 (k ),

xt ,80 ms (k ) = xt + 4 (k ) xt 4 (k ), 1 k N

(5.3)

1 k N

n relaia 5.3 s-a inut cont de faptul c se calcululeaz coeficienilor MFCC la fiecare 10 ms, i c operatorul de difereniere se aplic pentru vectori situai la 40 ms, respectiv 80 ms unul de cellalt. Semnal vocal Preaccentuare Fereastr Hamming 8-ms Transformata Fourier discret Filtrare trece-band pe frecvene mel Transformata Cosinus coeficieni cepstrum MFCC 40-ms & 80-ms dif. MFCC dif. cepstrum de ordinul doi MFCC
Fig. 5.4. Fazele de procesare a semnalului de intrare n vederea extragerii coeficienilor MFCC (Costin, Zbancioc, 2003)

Preaccentuarea semnalului vocal are ca efect reducerea efectului componentei ce ine de modul de generare a sunetului vocal (existent la frecvene joase) i accentuarea componentei ce ine de modul n care rezoneaz sunetul (informaia de frecven nalt corespunztoare frecvenelor rezonante - formanilor).

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

127

5.1.4. Rezultate experimentale, concluzii n urma aplicrii metodei MFCC

Datele de intrare furnizate sistemului sunt extrase din consoane a cror dificultate n recunoatere se datoreaz componenei frecvenelor nalte specifice consoanelor plozive, p, b, c, g, t, d. Dimensiunea setului ntreg de date este de 210 de nregistrri (cte 35 pentru fiecare fonem), din care am ales aleatoriu 60 pentru construcia setului de test i celelalte pattern-uri s-au folosit la antrenare. Deoarece setul de date pe care s-a fcut analiza este destul de mic, dup ncheierea procesul de antrenare (stabilizarea ponderilor neuronilor i a erorii de clasificare) s-a repetat iterativ procesul de antrenare pentru un alt set de 150 valori alese aleatoriu (cte 25 pattern-uri pentru fiecare consoan). Procesul de rulare se ncheie n momentul n care aplicarea a trei seturi consecutive nu conduce la o modificare a erorii de recunoatere (durata verificrii setului este de o singur iteraie). n tabelul 5.4 sunt furnizate valorile medii de recunoatere pentru metoda bazat pe coeficieni MFCC.
Table 5.4. Procente de recunoatere folosind vectorii energiilor spectrale, vectorii MFCC i vectorii MFCC calculai pentru o selecie fuzzy a benzilor mel- frecvenelor (Costin, Zbancioc, 2003)

FFT 50%
/b/ /p/ /c/ /g/ /t/ /d/ Medie

FFT 75% 42 45 47 53 55 48 48.3

MFCC MFCC 50% 75% 53 62 68 70 73 60 64.3 56 61 67 72 75 60 65.2

41 46 42 51 57 49 47.7

MFCC MFCC Fuzzy Fuzzy 50% 75% 57 59 63 67 71 69 70 74 74 78 68 65 67.2 68.7

Setul de nregistrri conine pronunii de genul VCV vocal+consoan+vocal (de genul aba, apa, aca etc.), din aceste nregistrri fiind delimitat manual zona consonantic ce urmeaz a fi analizat. Chiar i n condiiile n care s-a realizat o adnotare manual a nregistrrilor i s-a evitat folosirea unor cuvinte care s conin mai multe consoane alturate (de exemplu act, apt, strict, etc.) rezultatele obinute n urma procesului de antrenare pot fi considerate ca fiind satisfctoare. ntr-un proces de vorbire continu, rata de recunoatere cel mai probabil ar scade. Folosirea direct a valorilor energiilor spectrale n vectorii de trsturi ofer cele mai mici scoruri de recunoatere. O suprapunere ntre dou ferestre consecutive cu 75% i nu doar cu 50%, ofer mai multe cazuri de analiz i rezultate n general mai bune. Metoda de selecie fuzzy presupune calculul coeficienilor spectrali mel MFSC lundu-se n calcul nu un interval strict fixat pentru fiecare band mel, ci un interval variabil ale crui limite sunt ponderate printr-o funcie trapezoidal fuzzy. n acest fel valorile spectrale aflate n apropierea limitei dintre dou benzi mel Bi, Bi+1 vor fi utilizate n determinarea energiei spectrale mel pentru ambele benzi.

128

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

MFSC (i ) =
k =li

li +1

li +1 +

Xk

(li +1 li )

MFSC fuzzy (i ) =

k =li

X
k k k

(5.4)

frecven
li-1 Bi li - li li + Bi+1 li+1

Fig. 5.5. Delimitarea benzilor mel de frecvene prin limite variabile - calcul fuzzy coeficieni MFSC (Costin, Zbancioc, 2003)

Utilizarea unor intervale cu prag variabil pentru benzile mel cepstrale i asocierea unor funcii fuzzy trapezoidale a condus la o mbuntire uoar a scorurilor de recunoatere. Rezultatele cercetrilor metodei de recunoatere bazat pe coeficieni MFCC au fost publicate n (Costin, Zbancioc et al. 2002), (Costin, Zbancioc 2003).

5.2 Recunoaterea fonemelor pe baza coeficienilor LPCC


Metodele bazate pe coeficieni liniar predictivi LPC sunt considerate a fi metode eficiente de analiz, n procesarea i recunoaterea semnalului vocal. Aceast metod face posibil reprezentarea caracteristicilor tractului vocal i separarea celor dou componente legate de: excitaia i rspunsul la impuls al tractului vocal (Juang et al., 2004), (Juang and Rabiner, 2006). Metoda se extragere a coeficienilor LPCC realizeaz o preaccentuarea a semnalului de intrare, calculul unui vector de autocorelaie pe baza cruia sunt calculai prin metoda Levinson-Durbin (Press et al., 2007) coeficienii LPC, LPCC. Vectorii de date astfel obinui sunt introdui ca set de antrenare n clasificatori de tip reea neuronal (Reynolds and Antoniu, 2003), scopul acestui studiu fiind acela de a compara pe baza erorilor de clasificare, eficiena folosirii pattern-urilor LPCC n procesul de recunoatere automat a vorbirii. n literatur exist numeroase studii asupra eficienei coeficienilor LPC n recunoaterea vorbitorului (Naito et al., 2002), n codarea semnalului vocal (So and Paliwal, 2007), (Krishna 2001) n sinteza semnalului vocal (Nusbaum and Shintel, 2006), n sisteme adaptive fuzzy de discriminare a muzicii (Muoz-Expsito, 2007) etc. Metoda prezentat n aceast seciune a fost utilizat la studiul eficienei vectorilor de trsturi ce includ coeficieni LPCC n recunoaterea unui numr izolat de foneme consonantice ale limbii romne (Zbancioc, Costin, 2003).

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

129

5.2.1. Descrierea general a modelului LPC

Modelul LPC a fost dezvoltat pornind de la modul de generare a sunetului uman i urmrete aproximarea unui eantion al vorbirii la momentul de timp, pe baza unui numr de eantioane anterioare conform relaiei urmtoare de calcul:
s[n] = S ( z) =

a s[n k ] + G u[n]
k k =1

(5.5)
1 1 =
k

a z
k k =1

S ( z) + G U ( z) , H ( z) =

S ( z) = GU ( z )

a z
k k =1

1 A( z )

(5.6)

S-a notat cu u sursa de excitaie i cu G valoarea ctigului. Sursa de excitaie normalizat este considerat a fi un tren de impulsuri cvasiperiodice pentru sunete vocalice, respectiv o secven de zgomote aleatoare pentru sunete nevocalice. Eroarea de predicie e[n] = s[n] s[n] , unde s[n] reprezint valoare prezis a semnalului la momentul de timp n i va avea funcia de transfer A(z). Estimarea coeficienilor predictorului se face pornind doar de la un segment scurt al semnalului vocal, prin minimizarea erorii e[n]. Acest fapt se datoreaz n principal variabilitii mari n timp a caracteristicilor semnalului vocal.
5.2.2. Metod de construcie de pattern-uri folosind coeficienii LPCC

Pentru extragerea coeficienilor LPC este necesar parcurgerea unui numr de etape (reprezentate n figura 5.7). Semnalul vocal de intrare a fost analizat folosind o fereastr glisant de 16 ms (N=256 eantioane pentru un semnal cu frecvena de eantionare fe=16kHz), pasul de deplasare a ferestrei fiind de 8ms (suprapunere de 50% ntre dou ferestre consecutive). Metoda de extragere a parametrilor LPCC a fost prezentat n (Zbancioc, Costin, 2003), etapele algoritmului sunt urmtoarele: Pas 1) Ponderarea ferestrei curente de analiz de 16 ms cu o fereastr Hamming, scopul acestei ponderri este acela de a minimiza discontinuitile semnalului de la nceputul i sfritul fiecrei secvene.
2n x (n) = x(n) wHam min g (n) , wHam min g (n) = 0.54 0.46 cos N 1

(5.7)

Pas 2) Preaccentuarea semnalului de intrare x (n) se face cu un filtru trece sus HPF cu funcia de transfer H ( z ) = 1 az 1 cu a = 0.97 .
x(n) = x (n) a x (n 1)

(5.8)

130

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

n (Rabiner, Juang, 1993) se sugereaz c an s varieze cu timpul (n) n funcie de criteriul de adaptare ales, de exemplu an = rn (1) rn (0) , calculat la pasul urmtor. Ordinea etapelor 2 i 3 poate fi schimbat, valorile obinute n final fiind foarte apropiate.

a) b) c) Fig. 5.6. Reprezentare comparativ a) semnal iniial, b) semnal ponderat cu o ferestr Hamming, c) semnal dup aplicare filtru preaccentuare (Zbancioc, Costin, 2003)

Pas 3. Calculul vectorului de autocorelaie de ordin p al semnalului x(n) . Valoarea lui p reprezint ordinul maxim al coeficienilor LPC i este aleas ntre 8 i 16.
N 1 m

r ( m) =

x(n) x(n + m) ,
n =0

m = 0, 1, ..., p

(5.9)

Procesul de corelare ofer o bun caracterizare a semnalelor i poate fi folosit n algoritmi de predicie sau estimare, el realiznd i o diminuare a nivelului de zgomot raportat la semnalul util, fapt ce ajut n procesul de recunoatere a unei secvene dintr-un semnal. Prima valoare din vectorul de autocorelaie r(0) reprezint energia ferestrei curente de analiz. Pas 4) Extragerea coeficienilor LPC folosind metoda Levinson-Durbin ce transform vectorul de autocorelaie prin urmtoarea relaie de calcul recurent (Press et al., 2007) (Brockwell and Dahlhaus, 2004), (Shaman, 2010):
E ( 0 ) = r (0 )

(5.10)

k i = r (i )

j =1

L 1

(ji 1) r (| i j |) E (i 1) ,
(i 1)

(i )

= ki ,

(i )

= j

k i i j (i 1) ,

1 j < i

(5.11)

E (i ) = (1 k i2 ) E (i 1) ,

ip

Relaia recurent de calcul 5.11 se aplic pornind de la o prim valoare E (0) , pn sunt determinai tot setul de p coeficieni. Dup realizarea acestui calcul se obin att coeficienii LPC corespunztori valorilor m ( p ) , ct i setul k m al coeficienilor de reflexie PARCOR, m=1,,p.

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

131

Pas 5) Conversia parametrilor LPC n parametri cepstrali se realizeaz prin urmtoarea relaia recurent:
c0 = ln 2 , ,unde 2 este ctigul modelului LPC cm = am +
m 1 k =1

(5.12) (5.13) (5.14)

m c a
k =1

m 1

k mk

1mp m>p

cm =

k c a k

k mk

Setul coeficienilor LPCC, este considerat n comparaie cu setul LPC sau PARCOR, ca fiind o mulime de trsturi mai robust, mai demn de ncredere n procesul de recunoatere a vorbirii. n general se alege dimensiunea vectorului cepstral ca fiind Q 3 p / 2 . Semnal vocal Fereastr Hamming pe 16-ms Preaccentuare Autocorelaia (de ordinul 14) Calcul LPC (metoda Levinson-Durbin) Conversia LPC n LPCC LPCC (cepstrum LPC) LPCC pe 40-ms i 80-ms parametrii de putere P, dif. de P pe 40-ms
Fig. 5.7. Diagrama metodei de extragere a coeficienilor predictivi liniari (Zbancioc, Costin, 2003)

Numeroase aplicaii de recunoatere automat a vorbirii includ n vectorii de caracteristici i coeficienii cepstrali. Att prima ct i a doua derivat au fost testate i s-au dovedit utile n sistemele de recunoatere a vorbirii (Lee K.F., 1989), (Lee K.F., et al., 1990). Modul de determinare a acestora este similar cu cel prezentat n metoda MFCC (vezi relaia de calcul 5.3).
5.2.3. Rezultate experimentale, concluzii n urma aplicrii metodei LPCC

Metoda cepstral LPCC ofer parametri distinctivi relevani pentru un sistem de recunoatere. Coeficienii LPC realizeaz o bun discriminare a secvenelor de semnal analizate. n fig. 5.8 este reprezentat evoluia n timp a setului celor 14 valori LPC (fereastr de analiza de 16 ms, deplasat cu pas de 8ms).

132

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

Fig. 5.8. Evoluia n timp a coeficienilor LPC pentru fonemele [a] i [i] voce masculin (Zbancioc, Costin, 2003)

Fig. 5.9. Reprezentarea comparativ a coeficienilor LPC i a LPC cepstrali pentru dou secvene de semnal vocal: [e] n partea stng i [u] n partea dreapt (Zbancioc, Costin, 2003)

Seturile de antrenare au fost construite din setul de p=14 coeficieni LPC i m=21 coeficieni LPCC i pentru aceste seturi reeaua neuronal MLP a realizat recunoaterea vocalelor {a, e, i, o , u} cu un procentaj mediu de 90%. Alegerea dimensiunii vectorilor de trsturi s-a fcut dup mai multe simulri, dup ce am observat c pentru vectori de dimensiuni mai mari (s-a mers pn la p=32 i m=48) erorile de clasificare sunt apropiate ca valoare de cele ale cazului (p=4, m=21), ns pentru timpi de antrenare mai mari. Pentru vectori de dimensiuni mai mici, i anume p=6, m=9 s-au obinut diferene foarte mari, procentajul mediu de recunoatere scznd foarte mult, pn la 54%. Pentru a face un compromis ntre timpii de antrenare ai RN i performanele de clasificare s-a ales dimensiunea pattern-urilor p=14 i m=21. De interes n acest studiu au fost erorile de clasificare pentru fonemele nevocalice (consoanele { b, p, d, t, c, g, v, f, z, , s, }) pronunate n context VCV vocalconsoan-vocal, erorile de recunoatere ale reelei sunt date n tabelul 5.5. Am considerat ca fiind bune erorile de clasificare de sub 30% i dup cum se poate vedea n medie una din patru valori nu a putut fi clasificat cu succes. n setul de antrenare al RN s-au inclus cte 20 de pronunii diferite pentru fiecare fonem.

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

133

Table 5.5. Procentaje de clasificare a fonemelor nevocalice pentru vectori de trsturi LPC (Zbancioc, Costin, 2003)

b 65

p 75

d 60

t 65

c 70

g 65

v 90

f 75

z 90

80

s 70

85

Eroarea medie de recunoatere pentru un vector de trsturi n care s-au inclus doar coeficienii LPC, corespunztori fonemelor consonantice din tabelul 5.5 este de 25,8 (procentaj de recunoatere de 74.2%.) Am studiat procentajele de recunoatere n condiiile n care s-au variat datele din setul de intrare, pentru vectori de trsturi micti compui din seturile AC (vectorul de autocorelaie), LPC i LPCC.
Table 5.6. Procentaje medii de recunoatere pentru vectori de trsturi compui din mai multe seturi de trsturi - AC, LPC, LPCC (Zbancioc, Costin, 2003)

Setul de intrare AC LPC LPCC LPC+AC LPCC+AC LPC+LPCC LPC+LPCC+AC

Procentaj de recunoatere 67.9 74.2 78.3 71.7 75.4 81.7 82.5

Dei performanele cele mai bune s-au obinut pentru cazul n care n setul de date s-au introdus toate tipurile de coeficieni, s-a preferat cazul LPC+LPCC datorit timpului de antrenare mai mic. Rezultatele cercetrilor metodei de recunoatere cu coeficieni LPCC au fost valorificate n lucrarea (Zbancioc, Costin, 2003).

5.3. Metod de recunoatere pe baza coeficienilor autoregresivi


Metoda coeficienilor autoregresivi a vizat stabilirea importanei benzilor de frecven n tehnicile de recunoaterea a vorbirii, respectiv a vorbitorului (Costin, Grichnik, Zbancioc, 2003). Metoda curent se bazeaz pe ideea c informaia de faz a semnalului vocal are relevan n procesul de recunoatere. Se continu astfel studiile realizate anterior pe baza energiilor din benzile mel de frecven (Costin, Zbancioc et al. 2002). Metoda calculeaz coeficienii de autoregresie din benzile spectrale selectate prin dou metode: o prim metod ce utilizeaz frecvene mel fixe i o a doua metod ce determin printr-un algoritm propriu frecvenele de tiere ale filtrelor trece band. ntruct descrierea metodei cu frecvene mel fixe s-a fcut n prima seciune a acestui capitol, se va insista pe cea de a doua metoda de selecie a benzilor. Seturile de antrenare construite pe baza coeficienilor AR sunt aplicate la intrrile unui arbore de decizie C5 i a dou tipuri de reele neuronale RBF (radial basis

134

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

function) i perceptron multistrat, n final fiind realizat un studiu comparativ al rezultatelor furnizate de cele trei metode de clasificare. Se poate astfel determina gradul de relevan a fiecrei benzi de frecvene (a fiecrei caracteristici din vectorul de trsturi) n procesul de recunoatere. Importana studiului const n posibilitatea extragerii unui set de ponderi asociate diverselor informaii extrase din benzi de frecven care s mbunteasc procesul decizional.
5.3.1. Descrierea modelului autoregresiv

Modelele AR sunt des utilizate n procesarea semnalului i n statistic pentru a modela i prezice diverse tipuri de fenomene. Conform funciei de transfer a modelului AR acesta este un filtru cu rspuns infinit la impuls IIR (Infinte Impulse Response Filter) sau un filtru "all pole" (Press et al., 2007). Definiiile modelului autoregresiv i funcia de transfer a acestuia sunt urmtoarele:
xt = H ( e j ) =

a x
i i =1

t i

+ t

(5.15)

1 1 + a1e j + ... + a M e jP

(5.16)

unde ai reprezint parametrii modelului sau coeficienii de autoregresie, xt este semnalul analizat/prezis, P este ordinul filtrului (ales mult mai mic dect lungimea seriilor aplicate la intrare) i t noteaz valoarea rezidual (zgomot alb). Conform formulei termenul curent este estimat ca o sum ponderat a termenilor anteriori. Exist mai multe modaliti de calculul a coeficienilor AR, printre cele mai cunoscute se numr metoda Burg i metoda celor mai mici ptrate (bazat pe ecuaiile Yule-Walker). Asupra parametrilor modelului se aplic un algoritm de control adaptiv al crui scop este acela de a minimiza eroarea de predicie. u(n

z 1

u(n-1)

z 1
a 2 ( n)

z 1

u(n-M)

a1 (n)

a M (n)

Algoritm de control adaptiv

Fig. 5.10. Schema unui model autoregresiv AR (Costin, Grichnik, Zbancioc, 2003)

Cea mai utilizat metod pentru obinerea coeficienilor de regresie ai implic rezolvarea setului de ecuaii liniare Yule-Walker care au forma matricial dat n ecuaia (5.17). Elementele de pe diagonala principal r(0) = 1.

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

135

r (0 ) r (1) M r ( M 1)

r (1) r (0) r ( M 2) M

L K O K

r ( M 1) a1 r ( M 2) a2 M M r (0) a M

r (1) = r (2) , M r (M )

(5.17)
Ra = r
*

Soluiile sistemului sunt date de a = R 1 r * . Studiul metodei de recunoatere cu coeficieni de autoregresie, s-a fcut, comparativ, pe dou metode: metoda rapid a covarianei modificate (FMC Fast Modified Covariance) i metoda Burg a entropiei maxime. Deoarece cele dou metode sunt bine tratate n literatura de specialitate (Brockwell., Dahlhaus, 2004) nu se va insista asupra acestora sau asupra criteriilor de alegere a ordinului modelului. Funciile MATLAB care realizeaz calculul coeficienilor AR prin cele dou metode sunt arburg i arcov.
5.3.2 Metod de extragere de coeficieni autoregresivi

Algoritmul se aplic pe o singur fereastr extras din mijlocul semnalului de intrare (foneme). Am considerat c aceast regiune caracterizeaz cel mai bine fonemul de clasificat. Algoritmul prezentat n cele ce urmeaz este o variant a unei metode de recunoatere a vorbirii propuse de A. Grichnik, la care au fost introduse elemente proprii de selecie a benzilor de frecvene n funcie de semnalul vocal de intrare, analizndu-se relevan benzilor de frecvene selectate n recunoaterea vorbirii i a vorbitorului. Metoda de extragere a coeficienilor autoregresivi a fost prezentat n (Costin, Grichnik, Zbancioc, 2003), paii algoritmului de sunt urmtorii: Pas 1) Calculul spectrului semnalului de intrare (de dimensiune N eantioane). Semnalului complex i se aplic funcia modul i se pstreaz doar jumtatea corespunztoare frecvenelor pozitive.
X (k ) = 1 N

i =0

N 1

f (i )e

j 2k

i N

X A (1 : N / 2 1) = X (1 : N / 2 1)

(5.18)

Pas 2) Determinarea benzilor de frecven mel 2.1. pentru benzi delimitate de frecvene mel fixe se utilizeaz formula (5.1) 2.2 algoritmul propriu de selecie a frecvenelor de tiere pe baza informaiei spectrale este urmtorul: - se calculeaz vectorul XS, n care valoarea k reprezint suma tuturor amplitudinilor spectrale pn la acea valoare. Deoarece XA este pozitiv, funcia obinut este cresctoare;
X s (k ) =

X
i =1

A (i )

(5.19)

136

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

se aproximeaz cu segmente de dreapt, pornind n sens invers, funcia cresctoare Xs dup o eroare global impus (vezi fig. 5.11), limitele acestor segmente fiind asociate frecvenelor de tiere; se pstreaz un numr de p=7 frecvene de "tiere" reprezentative ale spectrului: din care prima i ultima valoare sunt frecvena minim i frecvena maxim a benzii semnalului util [65Hz 6,5kHz]. Dac numrul frecvenelor detectate este prea mare se impun restricii legate de dimensiunea minim a intervalului unei benzi mel i se prefer eliminarea frecvenelor de tiere joase. Dac numrul este prea mic se scade valoarea erorii globale i se reia algoritmul de cutare a frecvenelor de tiere.

a)

b)

c) Fig. 5.11. a) Semnalul corespunztor cuvntului stop b) spectrul semnalului c) selecie benzi de frecvene din spectrul sumat Xs

Pas 3) Folosind frecvenele de tiere gsite anterior se filtreaz semnalul de intrare, dup metoda propus de Grichnik ce asigur pierderi minime ale informaiei de faz (figura 5.12). Adaptarea frecvenelor de tiere n funcie de semnalul de intrare se realizeaz pentru o mai bun delimitare a frecvenelor formantice. n (Mitra, 2001) este prezentat principiul distorsiunii de faz nule (zero-phase transfer functions), prin realizarea unei duble operaii de reflexie (inversare stnga-dreapta) a semnalului dup aplicarea filtrului i obinerea unui semnal nedistorsionat din punctul de vedere al modificrii fazei prin filtrare. Pas 4) Se extrag coeficieni autoregresivi prin metoda Burg sau metoda covarianei FMC i se aplic vectorii de trsturi unor clasificatori de tip reea neuronal MLP, RBF sau de tip arborele de decizie See5. Procentajele de detecie vor stabili relevana informaiilor din diverse benzi de frecven n procesul de recunoatere.

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

137

Semnal de intrare Filtru trece jos fL=f1 Simetrie prin reflexie fa de dreapt Filtru trece jos fL=f1 Simetrie prin reflexie fa de dreapt
Extragere AR1 Utilizare reea neuronal RN1

...

Filtru trece band fifi+1 Simetrie prin reflexie fa de dreapt Filtru trece band fi fi+1 Simetrie prin reflexie fa de dreapt
Extragere AR i Utilizare reea neuronal RN i

...

Filtru trece sus fH=fN Simetrie prin reflexie fa de dreapt Filtru trece sus fH=fN Simetrie prin reflexie fa de dreapt
Extragere ARN Utilizare reea neuronal RNN

...

...

...

...

... ... ...

... ... ...

Fig. 5.12. Filtrarea semnalului pe mai multe benzi cu modificare de faz zero (Costin, Grichnik, Zbancioc, 2003)

5.3.3. Rezultate experimentale, concluzii n urma aplicrii metodei LPCC

Setul de date a fost extras din nregistrri provenind de la 10 vorbitori, cte 20 de pronunii pentru fiecare fonem (10 pronunii pentru setul de antrenare, 10 pronunii pentru setul de test). Seturile de coeficieni autoregresivi s-au calculat prin dou metode Burg i FMC pentru un numr de 6 benzi de frecvene. Rezultatele obinute n cazul seleciei benzilor folosind frecvene mel fixe au fost mai slabe dect pentru algoritmul de selecie adaptat la informaia spectral. Din acest motiv prezentm doar rezultatele obinute prin selecie adaptiv a benzilor. Frecvenele mel fixe folosite n selecie sunt 100-500-1050-1800-2900-4400-6500Hz. Reeaua neuronal de tip MLP a furnizat rezultate de clasificare mai slabe dect RBF (vezi tabelul 5.10). La fel ca i n cazul celorlalte studii fcute cu metodele bazate pe coeficieni MFCC, LPCC datorit setului relativ mic de nregistrri s-au extras aleatoriu din baza de nregistrri, seturi succesive de nregistrri (cte un numr de foneme pentru fiecare vorbitor), pattern-urile rezultate fiind aplicate succesiv reelelor neuronale. Procesul se oprete atunci cnd trei seturi de antrenare consecutive nu modific eroarea de recunoatere. Rezultatele raportate n tabelele 5.7-5.9 reprezint erorile medii de clasificare pentru seturile de antrenare aplicate consecutiv la intrare.

138

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

n studiul importanei benzilor pentru recunoaterea vorbitorului am obinut urmtoarele procentaje ale erorii de recunoatere:
Table 5.7. Eroare clasificator de tip reeaua neuronal RBF n recunoaterea vorbitorului (Costin, Grichnik, Zbancioc, 2003)

AR/RBF Burg FMC

B1 15.3 29.2

B2 18.1 23.7

B3 20.7 13.4

B4 25.5 21.9

B5 28.3 33.6

B6 20.0 40.2

Table 5.8. Eroare clasificator de tip arbore de decizie C5 n recunoaterea vorbitorului (Costin, Grichnik, Zbancioc, 2003)

AR/C5 Burg FMC

B1 12.7 33.4

B2 21.4 29.1

B3 22.1 10.7

B4 31.1 27.1

B5 31.4 31.1

B6 12.4 28.4

Dup cum se poate observa pentru metoda FMC am obinut cele mai bune rezultate pentru frecvenele centrale, iar pentru metoda Burg au fost mai importante benzile de la nceput (corespunztoare frecvenelor joase). La o comparare a performanelor n funcie de clasificator, reeaua neuronal RBF are un procent mediu de recunoatere pentru metoda Burg de 78,68% i de 73% pentru metoda FMC, iar arborele de decizie furnizeaz procentaje medii de clasificare apropiate (78,15% pentru Burg i 73,37% pentru FMC). n studiul importanei benzilor pentru recunoaterea vorbirii, valorile erorii de clasificare sunt date n tabelul 5.9:
Table 5.9. Eroare clasificator de tip reeaua neuronal RBF n recunoaterea vorbirii (Costin, Grichnik, Zbancioc, 2003)

AR/RBF Burg FMC

B1 24.4 33.4

B2 23.3 27.8

B3 29.6 26.5

B4 34.1 32.7

B5 38.7 42.8

B6 45.2 55.3

Cel mai bun procentaj de recunoatere a vorbirii se obine utiliznd informaia din banda 2 prin metoda Burg 76.7%, dar rata medie de recunoatere pe toate benzile este de doar 67,45% pentru metoda Burg i 63,58% pentru metoda FMC. Tabelul 5.10 s-a realizat sintetiznd toate informaiile obinute prin clasificarea cu cele trei tipuri de clasificatori.
Table 5.10. Reprezentarea scorurilor RV de recunoatere a vorbitorului i Rv de recunoatere a vorbirii pentru fiecare tip de clasificator (Best case, Average case)

MLP RBF C5

RV(recunoatere vorbitor) BEST AVG 78.4% 67,5% 86.6% 78,7% 89,3% 78,15%

Rv (recunoatere vorbire) BEST AVG 69.0% 59,3% 76.7% 67,45 83,8% 70,4%

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

139

Reeaua neural RBF (cu funcie Gaussian) conduce la rezultate mai bune pentru seturile de date cu coeficieni autoregresivi, dect reeaua cu arhitectur perceptron multistrat (MLP). Pentru o antrenare mai rapid a reelei MLP am iniializat la nceput eroarea global de propagare cu o valoare mai mare (=0.3), urmnd ca dup ncheierea procesului de antrenare, s se realizeze rafinri ale acesteia, valoarea erorii fiind micorat la =0.1, respectiv =0.03. n analiza influenei unei benzi de frecvene Bi n procesul de recunoatere, nu s-au eliminat toate informaiile din celelalte benzi. S-au pstrat toi coeficienii AR din banda analizat Bi, i o doar informaie global privind suma tuturor amplitudinilor spectrale (calculata cu relaia 5.19) din celelalte benzi de frecvene. Cu aceast metod se obin procentaje mai mari pentru recunoaterea vorbitorului, dect pentru recunoaterea vorbirii. Deducem din rezultatele obinute c faza semnalului influeneaz mai mult procesul de recunoatere a vorbitorului, dect pe cel de recunoatere a vorbirii. Aceast concluzie este ntrit i de faptul c rezultatele obinute cu coeficienii AR au fost mai slabe dac nu s-a aplicat o procedur de filtrare cu caracteristic de faz zero (pentru a nu afecta informaia de faz). Datorit diferenelor de la un vorbitor la altul a aceleiai secvene rostite, datorate n principal valorilor diferite ale frecvenei fundamentale F0 i automat ale formanilor, devine necesar introducerea n vectorul de trsturi a acestor caracteristici. n lucrarea (Costin, Zbancioc, 2002) se prezint dou metode de detecie a pitch-ului (frecvenei fundamentale F0): metoda cepstral i metoda spectral. Pornind de la aceste cercetri s-a elaborat un instrument de extragere a informaiei spectrale detaliat n capitolul urmtor al tezei.

5.4. Concluzii. Contribuii personale


Studiile i cercetrile prezentate n acest capitol au fost desfurate mpreun cu CS.III dr. ing. Mihaela Costin, Institutul de Informatic Teoretic al Academiei Romne Filiala Iai i au stat la baza realizrii unor rapoarte de cercetare, a publicrii unei lucrri ntr-o revist internaional (Costin, Zbancioc, 2002) i a prezentrii unor articole n cadrul unor conferine naionale i internaionale. (Costin, Zbancioc et al., 2002), (Costin, Grichnik, Zbancioc, 2003), (Costin, Zbancioc, 2003) (Zbancioc, Costin, 2003) Cele trei metode de extragere de vectori de trsturi bazate pe coeficienii MFCC, LPCC i autoregresivi au vizat evaluarea relevanei fiecrui tip de pattern n procesul de recunoatere a vorbirii. Cu observaia c rezultatele statistice obinute prin antrenarea cu reele neuronale i arbori de decizie au avut la baz seturi de nregistrri relativ mici (de doar 200-300 de fiiere de sunet, provenite de la un numr mic de persoane) i nu de cteva sute de mii, milioane cum au studiile realizate pe un numr reprezentativ statistic de date, concluziile desprinse i rezultatele raportate n partea experimental a fiecrei metode pot suferi modificri la o extindere a bazei de date. Dificultile obinerii unui set mare de nregistrri pentru limba romn provin i din faptul c exist puine instituii care ofer acces gratuit la bazele lor de date. Un exemplu pozitiv n acest sens l reprezint baza SRoL Proiectul Sunetele Limbii

140

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

Romne, proiect coordonat de prof. H.N. Teodorescu care ofer o colecie de cteva mii de nregistrri (foneme, cuvinte, fraze, fraze cu ncrctur emoional etc.), precum i un set de instrumente pentru procesarea automat a fiierelor de sunet (Feraru, Teodorescu, Zbancioc, 2010). Contribuiile personale legate de metodele de extragere de trsturi i de recunoatere sunt urmtoarele: - elaborare prin colaborare a unei metode de extragere a coeficienilor MFCC; - studiu n colaborare a relevanei energiei benzilor de frecven mel n recunoaterea unui set de vocale ale limbii romne; - studiul n colaborare a procentelor de clasificare obinute cu vectori de trsturi MFCC, MFCC, MFCC n recunoaterea unor foneme nevocalice; - elaborare prin colaborare a unui algoritm de calcul MFSC folosind benzi cu limite variabile, ponderate prin funcii de apartenen fuzzy trapezoidale; - implementare aplicaie software de extragere a coeficienilor MFCC; - elaborare prin colaborare a unei metode de extragere a coeficienilor LPCC; - studiu n colaborare a relevanei coeficienilor LPC, LPC cepstrali n recunoaterea unor foneme nevocalice; - implementare aplicaie software de extragere a coeficienilor LPCC; - elaborare prin colaborare a unei metode de extragere a coeficienilor autoregresivi; - elaborare prin colaborare a unei metode adaptiv de estimare a frecvenelor de tiere, a benzilor de frecvene pentru care se calculeaz coeficienii AR, din semnalul sum al amplitudinilor spectrale; - studiu n colaborare a relevanei coeficienilor autoregresivi extrai prin metodele Burg i FMC n recunoaterea unor foneme nevocalice n diverse benzi de frecvene asupra recunoaterii vorbitorului i a vorbirii; - implementare aplicaie software de extragere a coeficienilor autoregresivi; - aplicarea vectorilor de trsturi extrai unor clasificatori de tip reea neuronal i de tip arbori de decizie i analiza prin colaborare a procentajelor de recunoatere. Direciile de cercetare din acest capitol se continu cu metode i tehnici de detecie a informaiei prozodice: frecvena fundamental i valorile formantice n cadrul unui proiect prioritar al Academiei Romne.
Bibliografie capitol
Bhattacharya A. and F.-G. Zeng (2005), Companding to improve cochlear implants speech processing in noise, in Proceedings of Conference on Implantable Auditory Prostheses, Pacic Grove, Calif, USA, July-August 2005. Bhiksha Raj, Lorenzo Turicchia, 2 Bent Schmidt-Nielsen, and Rahul Sarpeshkar (2007) An FFT-Based Companding Front End for Noise-Robust Automatic Speech Recognition, Hindawi Publishing Corporation, EURASIP Journal on Audio, Speech, and Music Processing, Vol. 2007, Article ID 65420. Brockwell P. J., R. Dahlhaus (2004), Generalized LevinsonDurbin and Burg algorithms, Journal of Econometrics, Vol. 118, Issues 1-2, January-February 2004, pp. 129-149 Costin Mihaela, Grichnik Anthony, Zbancioc Marius (2003), Tips on Speaker Recognition by Autoregressive Parameters and Connectionist Methods, International Symposium on Signal, Circuits and Systems SCS2003, IEEE Procedings, Vol. 1, Iai, Romnia, p.169-172, ISBN 0-7803-7979-9.

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

141

Costin Mihaela, Zbancioc Marius (2002), Hints About Some Baseful but Indispensable Elements in Speech Recognition And Reconstruction, Computer Science Journal of Moldova, 2002, Vol.10, No.2., pp.169. Costin M., M. Zbancioc, A. Ciobanu, Ch. Berger Vachon (2002), Some Attempts in Improving Cochlear Implanted Patients Performances: Modeling and Automatic Methods, IPMU 2002 International Conference on Information Processing and Management of Uncertainty in Knowledge-Based Systems, Annecy, France, 1-5 July, 2002, pp. 711-718. Costin Mihaela, Marius Zbancioc (2003), Improving Cochlear Implant Performances by MFCC Technique, International Symposium on Signal, Circuits and Systems SCS2003, IEEE Procedings, Vol. 2, Iai, Romnia, pp.449-452, ISBN 0-7803-7979-9 . Dumitra A. (1997), Proiectarea reelelor neuronale artificiale, Casa Editorial Odeon, Bucureti, 1997, ISBN 973-9008-75-5. Feraru S.M., Teodorescu H.N., Zbancioc M.D. (2010), SRoL -Web-based Resources for Languages and Language Technology e-Learning , International Journal of Computers Communications & Control, ISSN 1841-9836, 5(3):301-313, 2010. Guinness J., B. Raj, B. Schmidt-Nielsen, L. Turicchia, and R. Sarpeshkar (2005), A companding front end for noise-robust automatic speech recognition, in Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 05), Vol. 1, pp. 249252, Philadelphia, Pa, USA, March 2005. Hariharan M., Paulraj M.P., Yaacob, S. (2009), Identification of vocal fold pathology based on Mel Frequency Band Energy Coefficients and singular value decomposition, Signal and Image Processing Applications (ICSIPA), IEEE International Conferenc, 18-19 Nov., pp: 514 - 517 ISBN: 978-1-4244-5560-7, Kuala Lumpur, 2009. Holmberg M., D. Gelbart, and W. Hemmert (2006), Automatic speech recognition with an adaptation model motivated by auditory processing, IEEE Transactions on Audio, Speech, and Language Processing, Vol. 14, No. 1, pp. 4349, 2006. Hosom J.-P. (2004), Speech Recognition, Encyclopedia of Information Systems Editor-inChief: Hossein Bidgoli , Academic Press, ISBN: 978-0-12-227240-0, 2004, pp. 155-169. Juang Biing Hwang, M. Mohan Sondhi, Lawrence R. Rabiner (2004), Digital Speech Processing, Third edition, Encyclopedia of Physical Science and Technology, Editor-inChief: Robert A. Meyers, Academic Press, 2004, pp. 485-500, ISBN: 978-0-12-227410-7. Juang B.-H., L.R. Rabiner (2006), Speech Recognition, Automatic: History, Encyclopedia of Language & Linguistics (Second Edition), 2006, Elsevier, ISBN: 978-0-08-044854-1, pp. 806-819. Krishna K., V. L. N. Murty, K. R. Ramakrishnan (2001), Vector quantization of excitation gains in speech coding, Signal Processing, Volume 81, Issue 1, January 2001, pp. 203-209 Lee K.F.(1989), Automatic Speech Recognition; The Development of SPHINX System, Kluwer Academic Publisher, Boston, 1989. Lee K.H., H.Hon, R.Reddy (1990), An Overview of the SPHINX Speech Recognition, IEEE Trans. on Acoustics, Speech and Signal Processing, jan 1990. Lee Y. W., S. Y. Kwon, Y. S. Ji, et al. (2005), Speech enhancement in noise environment using companding strategy, in Proceedings of the 5th Asia Pacic Symposium on Cochlear Implant and Related Sciences (APSCI 05), Hong Kong, November 2005. Loizou P. C., K. Kasturi, L. Turicchia, R. Sarpeshkar, M. Dorman, and T. Spahr (2005), Evaluation of the companding and other strategies for noise reduction in cochlear implants, in Proceedings of Conference on Implantable Auditory Prostheses,Pacic Grove, Calif, USA, July-August 2005. Mitra K. S. (2001) Digital Signal Processing A Computer Based Approach, 2nd ed. McGrawHill, ISBN 0-07-232105-9. Muoz-Expsito J.E., S. Garca-Galn, N. Ruiz-Reyes, P. Vera-Candeas (2007), Adaptive network-based fuzzy inference system vs. other classification algorithms for warped LPC-

142

Cap. 5 Tehnici de procesare i recunoatere a semnalului vocal

based speech/music discrimination, Engineering Applications of Artificial Intelligence, Vol. 20, Issue 6, September 2007, pp. 783-793 Naito Masaki, Li Deng, Yoshinori Sagisaka, (2002), Speaker clustering for speech recognition using vocal tract parameters, Speech Communication, Vol. 36, Issues 3-4, March 2002, pp. 305-315 Nusbaum H.C., H. Shintel (2006), Speech Synthesis, in Encyclopedia of Language & Linguistics Second edition, Editor-in-Chief: Keith Brown 2006, ISBN: 978-0-08044854-1, pp. 19-31 Quinlan J. R.(1996). Improved use of continuous attributes in c4.5. Journal of Artificial Intelligence Research, 4:77-90, 1996. Press H. W. , Teukolsky A. S., Vetterling T. W., Flannery P. B., Cambridge (2007) Numerical receips in C, The Art of Scientific Computind Third Edition, Camridge University Press, ISBN 978-0-521-88068-8, 2007. Rabiner L., B. H. Juang (1993), "Fundamental of Speech Recognition", PTR Prentice Hall 1 edition, ISBN-10: 0130151572 , pp. 496, 1993. Rabiner L.R., B.-H. Juang (2006), Speech Recognition: Statistical Methods, Encyclopedia of Language & Linguistics (Second Edition), 2006, Elsevier, ISBN: 978-0-08-044854-1, pp. 118 Reynolds T. J.,. Antoniou C. A. (2003) Experiments in speech recognition using a modular MLP architecture for acoustic modelling, , Information Sciences, Vol. 156, Issues 1-2, 1 November 2003, pp. 39-54, Shaman Paul (2010), Generalized LevinsonDurbin sequences, binomial coefficients and autoregressive estimation, Journal of Multivariate Analysis, Volume 101, Issue 5, May 2010, pp. 1263-1273 So Stephen, Paliwal Kuldip K (2007), A comparative study of LPC parameter representations and quantisation schemes for wideband speech coding, Digital Signal Processing, Vol. 17, Issue 1, January 2007, pp. 114-137 Zbancioc Marius, Mihaela Costin (2003), Using Neural Networks and LPCC to Improve Speech Recognition, International Symposium on Signal, Circuits and Systems SCS2003, IEEE Procedings, Vol. 2, Iai, Romnia, pp. 445-448, ISBN 0-7803-7979-9. Zheng Fang, Guoliang Zhang and Zhanjiang Song (2001), Comparison of Different Implementations of MFCC, J. Computer Science & Technology, 16(6): 582589.

S-ar putea să vă placă și