Sunteți pe pagina 1din 162

Universitatea Politehnica din Timi soara Facultatea de Automatic a si Calculatoare

CONTRIBUT II LA RECUNOAS TEREA AUTOMATA A VORBIRII CONTINUE A IN LIMBA ROMAN


de doctorat Teza

ing. Marian Boldea

Timi soara, 2003

Sumar
Aceast a tez a este bazat a pe o serie de cercet ari n direct ia recunoa sterii automate a vorbirii n limba rom an a, cercet ari n care principala problem a abordat a a fost cea a model arii acustice folosind unit a ti sublexicale pentru recunoa sterea vorbirii continue cu vocabulare mari si foarte mari. Pentru nceput, teza si precizeaz a cadrul teoretic printr-o trecere n revist a a unor metode de baz a n analiza si recunoa sterea vorbirii. Este prezentat a apoi proiectarea si colectarea primei baze de date fonetice n limba rom an a, destinat a n primul r and cercet arilor n direct ia recunoa sterii automate independent a de vorbitor a vorbirii continue. Urmeaz a etichetarea acestei baze de date la nivel fonetic utiliz and un sistem dezvoltat n acest scop, etichetare menit a s a faciliteze folosirea ei n cercet arile asupra recunoa sterii automate a vorbirii si n alte domenii. In nal sunt evaluate dou a posibile seturi de unit a ti sublexicale de modelare acustic a, evaluare desf a surat a prin experimente de recunoa stere dependent a si independent a de vocabular a unor semnale din baza de date. Cercet arile au fost nant ate part ial, prin opt granturi si contracte, de Academia Rom an a, Comisia European a, Consiliul Nat ional al Cercet arii S tiint ice din Inv a ta m antul Superior (fost Consiliul Nat ional al Cercet arii S tiint ice Universitare) si fostul Minister al Cercet arii si Tehnologiei.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CUPRINS

Sumar Cuprins Mult umiri 1 Introducere 1.1 Scurt a istorie . . . . . 1.2 Stadiul actual . . . . . 1.3 Obiectivele cercet arilor 1.4 Organizarea lucr arii . .

3 5 9 11 13 14 16 16 17 18 20 20 21 22 23 25 28 29 30 33 36 38 39 40 41 5

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

2 Analiza semnalului vocal 2.1 Reprezent ari ale semnalului vocal 2.2 Prelucr ari n domeniul timp . . . 2.2.1 Cadrarea si ferestruirea . . 2.2.2 Energia si puterea . . . . . 2.2.3 Autocorelat ia . . . . . . . 2.2.4 Preaccentuarea . . . . . . 2.3 Analiza prin predict ie liniar a. . . 2.3.1 Metoda autocorelat iei . . 2.4 Analiza Fourier . . . . . . . . . . 2.5 Leg aturi timpfrecvent a . . . . . 2.6 Analiza homomorc a . . . . . . . 2.6.1 Cepstrul real . . . . . . . 2.7 Metode perceptuale . . . . . . . . 2.7.1 Analiza melodic a . . . . . 2.7.2 Caracteristicile dinamice . 2.8 Concluzii . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

6 CUPRINS 3 Recunoa sterea automat a a vorbirii 3.1 Evaluarea performant elor . . . . . . . . . . . . 3.1.1 Compararea prin programare dinamic a 3.2 Distant e acustice . . . . . . . . . . . . . . . . 3.3 Transform ari ale spat iului acustic . . . . . . . 3.4 Metode statistice de recunoa stere a vorbirii . . 3.5 Modelele Markov ascunse . . . . . . . . . . . . 3.5.1 Antrenarea MMA discrete . . . . . . . 3.6 Modelarea lingvistic a . . . . . . . . . . . . . . 3.7 Modelarea acustic a . . . . . . . . . . . . . . . 3.7.1 Antrenarea MMA cu mixturi gaussiene 3.8 Reprezentarea integrat a a cuno stint elor . . . . 3.9 Algoritmi de c autare . . . . . . . . . . . . . . 3.10 Concluzii . . . . . . . . . . . . . . . . . . . . . 4 Baza de date fonetice 4.1 Considerat ii de proiectare . . . 4.2 Alegerea unit a tilor de modelare 4.3 Materialele de nregistrat . . . . 4.3.1 Pasajele . . . . . . . . . 4.3.2 Propozit iile . . . . . . . 4.4 Vorbitorii . . . . . . . . . . . . 4.5 Analize statistice . . . . . . . . 4.6 Organizarea bazei de date . . . 4.7 Realizarea nregistr arilor . . . . 4.8 Datele colectate . . . . . . . . . 4.9 Calitatea nregistr arilor . . . . . 4.10 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 44 46 47 49 50 52 54 56 58 59 60 61 63 65 66 67 69 70 72 73 74 76 77 79 80 82 83 85 86 87 88 88 89 90 90 92 93 93 95 95 96 97

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5 Etichetarea semnalelor vocale 5.1 Alegerea nivelului de etichetare . . . . . . 5.2 Automatizarea etichet arii . . . . . . . . . . 5.2.1 Evaluarea etichet arii automate . . . 5.3 Sistemul de etichetare . . . . . . . . . . . 5.3.1 Etichetarea manual a . . . . . . . . 5.3.2 Transcrierea fonetic a . . . . . . . . 5.3.3 Extragerea caracteristicilor . . . . . 5.3.4 Modelele acustice . . . . . . . . . . 5.3.5 Segmentarea automat a . . . . . . . 5.3.6 Vericarea etichet arii . . . . . . . . 5.4 Criteriile de decizie . . . . . . . . . . . . . 5.4.1 Fenomenele specice vorbirii uente 5.4.2 Vocalele si semivocalele . . . . . . . 5.4.3 Consoanele plozive . . . . . . . . . 5.4.4 Consoanele fricative si africate . . .

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CUPRINS 5.4.5 Consoanele sonante 5.4.6 Problema /I/ . . . 5.5 Rezultate si comentarii . . 5.6 Concluzii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. 97 . 98 . 98 . 102 . . . . . . . . . . . . . . . . 103 104 104 105 106 106 106 108 108 109 109 114 114 115 115 117 122

6 Experimente de modelare acustic a 6.1 Experimente dependente de vorbitor . 6.1.1 Decodarea lingvistic a . . . . . . 6.1.2 Rezultate si comentarii . . . . . 6.2 Experimente independente de vorbitor 6.3 Recunoa sterea unit a tilor de modelare . 6.3.1 Vorbitori si date . . . . . . . . . 6.3.2 Alternativele de modelare . . . 6.3.3 Extragerea caracteristicilor . . . 6.3.4 Modelele acustice . . . . . . . . 6.3.5 Rezultate si comentarii . . . . . 6.4 Recunoa sterea cuvintelor . . . . . . . . 6.4.1 Vorbitori si date . . . . . . . . . 6.4.2 Dict ionarele . . . . . . . . . . . 6.4.3 Modelele acustice . . . . . . . . 6.4.4 Rezultate si comentarii . . . . . 6.5 Concluzii . . . . . . . . . . . . . . . . .

7 Incheiere 123 7.1 Contribut ii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 7.2 Continu ari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 A Detalii ale dict ionarelor B Exemple de recunoa stere Bibliograe 127 129 143

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

Mult umiri
In primul r and, mult umesc domnului profesor Cri san Strugaru, conduc atorul meu de doctorat, pentru ndrum arile si sprijinul moral si material pe care mi le-a acordat n permanent a de-a lungul activit a tilor de cercetare pe care aceast a tez a le valoric a. Apoi, pentru rolul decisiv pe care ncrederea si ajutorul lor l-au avut n conturarea cont inutului tezei, c atorva colegi din proiectul european BABEL: dr. Lori Lamel de la LIMSI-CNRS, Orsay-Paris, profesorul Peter Roach de la Universitatea din Reading si profesorul William Barry de la Universitatea din Saarbruecken. De asemeni, mult umesc profesorului Renato De Mori, cu sprijinul si sub ndrumarea c aruia am efectuat un stagiu de cercetare de sase luni pe probleme ale recunoa sterii automate a vorbirii la Laboratorul de Informatic a al Universit a tii din Avignon. Esent iale au fost mijloacele nanciare cu care cercet arile au fost sust inute de c atre Academia Rom an a, Comisia European a, Consiliul Nat ional al Cercet arii S tiint ice din Inv a ta m antul Superior (fost Consiliul Nat ional al Cercet arii S tiint ice Universitare) si fostul Minister al Cercet arii si Tehnologiei. Cu toate acestea, cele mai multe dintre rezultatele prezentate nu ar fost posibile f ar a ajutorul unei echipe din care de-a lungul anilor au f acut parte c a tiva fo sti student i: Alin Doroga, Tiberiu Dumitrescu, Maria Pescaru, Cosmin Munteanu. Foarte importante au fost de asemeni sprijinul domnului profesor Nicolae Robu pentru realizarea unor nregistr ari de calitate n studioul TeleUniversit a tii, ca si nt elegerea colegilor de acolo, care au suportat timp de aproximativ doi ani problemele astfel ap arute. Calitatea nregistr arilor a fost asigurat a si prin ajutorul domnului Constantin Nanasi, proiectantul si constructorul preamplicatorului liniar utilizat pentru realizarea lor. La fel de important a fost si ajutorul vorbitorilor nregistrat i: de si numele ec aruia exist a notat undeva, sunt totu si prea mult i (o sut a) pentru a enumerat i aici. In sf ar sit, mult umiri amestecate cu scuze tuturor celor pe care nu i-am numit dar care, ntr-un fel sau altul, mai mult sau mai put in, m-au sprijinit sau stimulat.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CAPITOLUL 1 Introducere
Vorbirea constituind un element distinctiv al speciei si forma cea mai natural a de comunicare pentru int ele umane, este normal ca studiul ei s a prezinte interes pentru o mare varietate de discipline, ncep and cu anatomia si ziologia, trec and prin cele lingvistice (fonetic a, fonologie) si termin and cu cele tehnice, interesate de prelucrarea vorbirii n diverse scopuri aplicative. In condit iile n care actualmente are loc o adev arat a fuziune ntre sistemele de calcul si cele de comunicat ii, cu efecte revolut ionare asupra modului n care oamenii comunic a [196], [73], [54], prelucrarea automat a a vorbirii cap at a o important a deosebit a, iar disciplinele tehnice, n calitate de solicitante si beneciare ale unor rezultate din domeniile fundamentale, devin motorul cercet arilor asupra vorbirii. In ansamblul aplicat iilor tehnice bazate pe prelucrarea automat a a vorbirii putem distinge ca domenii de baz a: analiza semnalului vocal, care are un rol fundamental n raport cu toate celelalte domenii, urm arind caracterizarea lui prin extragerea unor parametri adecvat i prelucr arilor ulterioare [200], [232], [59]; mbun at a tirea calit a tii prin reducerea efectelor zgomotelor si distorsiunilor, necesar a at at pentru facilitarea comunic arii ntre oameni, c at si ca o etap a preliminar a altor prelucr ari sau aplicat ii mai complexe [59]; codarea semnalului vocal, av and ca scop obt inerea unei reprezent ari c at mai compacte a acestuia n vederea stoc arii sau transmiterii, simultan cu p astrarea unei c at mai bune calit a ti a semnalului ref acut pe baza acestei reprezent ari [227], [111]; sinteza semnalului vocal, aat a n str ans a leg atur a cu codarea: n sens restr ans, permite refacerea dintr-o reprezentare codat a a unui semnal; n sens mai larg, ea utilizeaz a reprezent ari textuale sau conceptuale ale unor mesaje pentru transpunerea lor n form a sonor a [200], [2], [66], [242]; identicarea limbii vorbite de o persoan a, care poate servi pentru sinteza unor mesaje de r aspuns adecvate, activ arii unui sistem de recunoa stere corespunz ator, sau punerii n leg atur a cu un vorbitor al aceleia si limbi [165];

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

11

12 INTRODUCERE recunoa sterea vorbitorului, put and urm ari identicarea acestuia dintre mai multe persoane, de exemplu n expertize criminalistice, sau vericarea identit a tii pe care acesta o pretinde, cu aplicat ii n controlul accesului [62], [179], [92]; recunoa sterea automat a a vorbirii, av and ca scop determinarea cu o c at mai mare exactitate a sirului de cuvinte pronunt at de un vorbitor, si util a n aplicat ii de tip comand a- si-control, dictare automat a etc. [194], [115], [58]; nt elegerea vorbirii, care are ca obiectiv nu o determinare exact a a cuvintelor pronunt ate, ci a semnicat iei acestora, astfel nc at s a se poat a efectua n continuare o serie de act iuni de r aspuns corecte din punctul de vedere al aplicat iei [1], [156]. De si ntr-o form a sau alta toate domeniile enumerate se bazeaz a pe utilizarea unor sisteme de calcul de o complexitate mai mare sau mai mic a, din punctul de vedere al facilit arii interact iunii acestor sisteme cu utilizatorii, imperios necesar a n perspectiva unei societ a ti informat ionale, recunoa sterea, nt elegerea si sinteza automat a a vorbirii sunt esent iale, iar teza de fat a prezint a o serie de cercet ari n direct ia recunoa sterii automate a vorbirii continue care, mpreun a cu altele urm arind nt elegerea [24], sinteza ei automat a din text [65], [185], si integrarea tuturor acestora n sisteme de dialog [164], [163] vizeaz a dezvoltarea de interfet e vocale om-ma sin a n limba rom an a [28]. Problemele recunoa sterii automate a vorbirii Dicultatea recunoa sterii automate a vorbirii este inuent at a de multe variabile, cele mai importante ind: tipul pronunt iei: continu a sau discret a (cu pauze ntre cuvinte); stilul de vorbire: citit a, spontan a sau semispontan a (ca r aspuns la o cerere); num arul de vorbitori ale c aror pronunt ii trebuie recunoscute, n funct ie de acesta sistemele de recunoa stere automat a a vorbirii put and clasicate n dependente de, independente de, sau adaptive la vorbitor ; dimensiunea vocabularului, dat a de num arul de cuvinte pe care sistemul le poate recunoa ste si care poate mic a (Nx10), medie (Nx100), mare (Nx1000) sau foarte mare (Nx10000); condit iile de mediu care se reect a asupra caracteristicilor semnalului: curat, zgomotos, distorsionat etc. Aceste variabile contribuie n moduri specice la dicultatea problemei, iar mpreun a au f acut ca, de si ncepute aproape imediat dup a inventarea calculatoarelor digitale, cercet arile asupra recunoa sterii automate a vorbirii s a ajung a doar n zilele noastre la stadiul n care, pentru c ateva limbi, exist a disponibile comercial sisteme de recunoa stere a vorbirii continue cu vocabulare foarte mari. Pentru o mai bun a imagine global a asupra dicult a tilor care au trebuit dep a site, s a amintim c a timpul necesar ajungerii oamenilor pe Lun a a fost de c ateva ori mai scurt. . .

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ISTORIE SCURTA

13

1.1

Scurt a istorie

arile asupra recunoa sterii automate a vorbirii au nceput Pe plan mondial, cercet aproape imediat dup a inventarea calculatoarelor digitale (1947, cf. [189]), dar primele cercet ari atestate prin articole publicate au avut loc n anii 50 [189], [194] si au urm arit recunoa sterea unor sunete sau a unor cuvinte izolate folosind analiza spectral a cu ltre analogice si idei din fonetica acustic a. Anii 60 au adus recunoa sterea cuvintelor izolate, bazat a pe existent a unor tipare ale acestora, prin deformarea dinamic a a timpului ( n englez a dynamic time warping) ([246], citat de exemplu n [245]), si s-a abordat recunoa sterea vorbirii continue, dar rezultatele cu cel mai mare impact ulterior au ap arut printre metodele de analiz a a semnalului vocal: analiza homomorc a [174] si cea prin predict ie liniar a [7]. De-abia n anii 70 s-au pus fundamente teoretice solide pentru tratarea problemei, bazate pe recunoa sterea formelor, inteligent a articial a si teoria comunicat iei. Au fost introduse distant e spectrale [110] cu interpret ari psihoziologice clare n deformarea dinamic a a timpului, iar metoda ca atare a fost extins a de la recunoa sterea cuvintelor izolate la cea a cuvintelor conectate [212]. Abord ari inspirate de inteligent a articial a, cunoscute si ca bazate pe cuno stint e (knowledge based), au fost materializate n sisteme expert n care surse de cuno stint e (fonetice, fonologice, lexicale, sintactice, semantice si pragmatice), ncorpor and cuno stint e ale unor expert i umani, coopereaz a pentru recunoa sterea pronunt iilor din semnalele prelucrate [257], [141]. Ins a cea mai important a a fost abordarea recunoa sterii vorbirii ca problem a de teoria comunicat iei [116], ceea ce a permis utilizarea unor metode statistice [15], [113], cu un fundament matematic riguros, pentru tratarea ei. Instrumentele emblematice ale acestei abord ari sunt modelele lingvistice de tip n-gram, si modelele Markov ascunse MMA ( n literatura de limb a englez a, hidden Markov models HMM), care stau la baza tuturor sistemelor moderne de recunoa stere automat a a vorbirii. Cele mai importante evolut ii au avut loc ns a n anii 80. A sa cum am ment ionat deja, exist a o gam a larg a de metode pentru abordarea recunoa sterii automate a vorbirii, dar mult imea factorilor care inuent eaz a semnalul vocal, determin and caracterul s au cvasialeator, face ca problema s a e una extrem de complex a, care nu admite solut ii analitice, a sa nc at orice nou a idee, oric at de bine justicat a din punct de vedere teoretic, nu poate validat a dec at prin experimente c at se poate de cuprinz atoare. Au avut astfel loc cercet ari asupra unor noi algoritmi de recunoa stere a cuvintelor conectate prin deformarea dinamic a a timpului [166], [38] si a utiliz arii modelelor Markov ascunse pentru recunoa sterea cuvintelor izolate [199], [197] sau conectate [198], [201] cu vocabulare c at mai mari [101], [10] si a vorbirii continue dependent a [50] de, adaptiv a [219] la, sau independent a [137] de vorbitor. Atingerea acestor obiective a presupus ns a cercet ari viz and mult mai multe domenii conexe, ca exemple put and ment ionate construct ia unor baze de date vocale de dimensiuni suciente pentru utilizarea metodelor statistice si compararea diferitelor abord ari n condit ii identice [132], [192], noi variante de modelare statistic a folosind MMA [11], [209], [106], utilizarea unor unit a ti acustice sublexicale [207], [255] si modelarea lor dependent a de context [218] etc. Principalul rezultat a fost tran sarea disputelor ntre diferitele abord ari n favoarea metodelor statistice, a c aror maturizare a dus n anii 90 la aparit ia pentru c ateva limbi a

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

14 INTRODUCERE unor sisteme comerciale rul and pe calculatoare uzuale, dar folosind microfoane speciale, de mic a distant a , capabile s a recunoasc a vorbirea continu a cu vocabulare mari si foarte mari si cu o frecvent a a erorilor sucient de redus a pentru a utilizabile n aplicat ii. Pe plan nat ional, interesul pentru cercet arile asupra prelucr arii automate a vorbirii s-a manifestat n special n cadrul catedrelor de electronic a, automatic a si calculatoare din unele centre de nv a ta m ant superior: Bucure sti [63], Ia si [235], Timi soara [75]. Ca n multe alte ta ri, un interes aparte pentru aceste cercet ari au manifestat si institut iile militare de nv a ta m ant superior si cercetare [173], [232], [154]. Preocup arile n direct ia recunoa sterii automate a vorbirii au existat nc a din anii 60 ([172], citat n [63]), dar n condit iile izol arii de comunitatea stiint ic a internat ional a si a lipsei unei baze materiale corespunz atoare, ele au continuat doar sporadic, grat ie entuziasmului unui num ar redus de cercet atori, si au fost limitate la recunoa sterea de sunete [100] sau cuvinte izolate [43], [52], [238]. Dup a 1989, aceste cercet ari au cunoscut o relativ a dezvoltare prin adoptarea unor metode moderne: cuantizarea vectorial a [26], [93], deformarea dinamic a a timpului [93], [109], modelele Markov ascunse [26], [93], ret elele neuronale [236], [98], metodele hibride combin and modelele Markov ascunse cu ret elele neuronale sau tehnicile fuzzy [248]. Cu toate acestea, ele au r amas n continuare limitate la nivelul sunetelor sau al cuvintelor izolate, f ar a a aborda recunoa sterea vorbirii continue.

1.2

Stadiul actual

A sa cum am precizat, cercet arile desf a surate pe parcursul a aproape jum atate de secol au atins n anii 90 stadiul valoric arii comerciale, incluz and dou a direct ii principale. Prima vizeaz a sistemele de recunoa stere automat a a vorbirii continue cu vocabulare foarte mari, de zeci de mii de cuvinte, av and ca aplicat ie tipic a dictarea de documente. Dintre aceste sisteme putem ment iona NaturallySpeaking, primul disponibil comercial, n 1997, produs de rma Dragon Systems din S.U.A., si ViaVoice, produs de IBM. Asemenea sisteme sunt livrate cu modele acustice independente de vorbitor si modele lingvistice generale sau specializate pentru un anumit domeniu, dar adaptabile la particularit a tile vorbitorilor care le utilizeaz a si ale documentelor dictate. A doua direct ie este cea a sistemelor de dialog om-calculator, dedicate pentru anumite aplicat ii, cel mai frecvent servicii n domenii bine denite (un exemplu tipic ind cel al informat iilor, rezerv arilor si v anz arilor de bilete prin telefon pentru mijloace publice de transport). Datorit a num arului mare de utilizatori potent iali si a necesit a tii de a furniza c at mai rapid serviciul cerut, acestea utilizeaz a modele acustice independente de vorbitor, dicil de adaptat n condit iile unor interact iuni de scurt a durat a, dar au avantajul unor vocabulare limitate de aplicat ii, de ordinul sutelor sau miilor de cuvinte. Init ial, aceste dou a direct ii vizau cu prec adere limba englez a, asupra c areia au fost concentrate eforturi de cercetare deosebite n S.U.A., n cadrul unor programe speciale ale Defense Advanced Research Projects Agency (DARPA), dar ulterior au ap arut sisteme similare si pentru alte limbi, n general dintre cele cu sucient potent ial comercial. Indiferent ns a de caracteristicile si domeniul lor de utilizare, sistemele contemporane de recunoa stere automat a a vorbirii pot descrise prin schema bloc din gura 1.1.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

STADIUL ACTUAL

15

modele acustice

constr angeri secvent iale

semnal extragere vocal caracteristici

vectori acustici

analiz a acustic a

scoruri acustice

decodare lingvistic a

sir de cuvinte

Figura 1.1: Schema bloc tipic a a unui sistem de recunoa stere automat a a vorbirii

Primul bloc, de extragere a caracteristicilor, transform a semnalul vocal rezultat dintr-o pronunt ie ntr-un sir de vectori acustici care l caracterizeaz a pe intervale scurte, n conformitate cu natura sa nestat ionar a. Dup a obt inerea sirului de vectori acustici, recunoa sterea propriu-zis a presupune rezolvarea a dou a probleme, tratate n blocurile urm atoare: analiza acustic a a port iunii de semnal corespunz atoare unui vector n raport cu ni ste modele acustice, concretizat a n calculul unor scoruri acustice: funct ie de metoda de recunoa stere utilizat a si tipul modelelor acustice, scorurile pot distant e ntre vectorul curent si cei din modele, sau probabilit a ti condit ionate ca vectorul s a ap arut n urma pronunt iei unit a tilor modelate; decodarea lingvistic a prin alinierea vectorilor acustici cu modelele asociate unui sir de cuvinte folosind algoritmi de c autare; aceasta urm are ste obt inerea unei estim ari optime a sirului de cuvinte prin pronunt area c aruia s-a obt inut semnalul, si poate include constr angeri secvent iale: la nivelul cuvintelor, acestea pot impuse prin dict ionare de pronunt ii ale cuvintelor din vocabularul sistemului n termenii eventualelor unit a ti de modelare acustic a sublexical a, iar la nivelul ntregii pronunt ii, prin gramatici sau modele lingvistice statistice ale aplicat iei. In cadrul oferit de aceast a schem a-bloc, cercet arile continu a n prezent n diferite direct ii: metode robuste de extragere a caracteristicilor; modelare acustic a cu acuratet e sporit a, independent a de vocabular, si utiliz and c at mai ecient datele disponibile; adaptarea modelelor acustice si lingvistice; modelarea cuvintelor noi si a variat iilor de pronunt ie; reducerea complexit a tii algoritmilor de c autare etc. O direct ie aparte a cercet arilor, n care se nscriu si cele descrise n aceast a tez a, urm are ste extinderea aplic arii metodelor existente la noi limbi si/sau dialecte, e prin construct ia si utilizarea unor noi resurse lingvistice adecvate (baze de date vocale, pentru modelarea acustic a, si arhive de texte n format electronic, pentru cea lingvistic a), e prin adaptarea unor modele acustice din alte limbi.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

16 INTRODUCERE

1.3

Obiectivele cercet arilor

T in and cont de nivelul mondial si nat ional, obiectivul principal al cercet arilor a fost recunoa sterea vorbirii continue n limba rom an a, independent a de vorbitor, cu vocabulare n jurul a 1000 cuvinte. Deoarece aceasta a fost (din c ate cunoa stem) prima abordare a recunoa sterii automate a vorbirii continue n limba rom an a, acest obiectiv avea avantajele de a at at realist c at si semnicativ n condit iile date. Pentru recunoa sterea vorbirii continue cu vocabulare mari si foarte mari, de mii sau zeci de mii de cuvinte, esent ial a este problema unit a tilor de modelare acustic a: dac a pentru vocabulare mici, de zeci de cuvinte, ecare cuv ant poate modelat separat, utiliz and un num ar de pronunt ii ale sale, odat a cu cre sterea m arimii vocabularelor cre ste si cantitatea de date necesare antren arii de modele ale cuvintelor, aceasta put and deveni prohibitiv a pentru vocabulare mari si foarte mari. Solut ia consta n utilizarea unor unit a ti de modelare acustic a sublexical a (silabe, semisilabe, sunete etc.), n num ar mult mai mic dec at cel al cuvintelor din vocabular, astfel nc at cantitatea de date necesare antren arii modelelor s a e mult mai redus a. In plus, devine astfel posibil a utilizarea unor vocabulare exibile, incluz and cuvinte inexistente n datele de antrenament. Plec and de la aceste considerat ii, au fost stabilite ca obiective intermediare n vederea atingerii obiectivului principal enunt at mai sus: proiectarea si colectarea unei baze de date vocale corespunz atoare, care s a poat a utilizat a pentru a antrena modele acustice sublexicale; etichetarea bazei de date pentru a facilita antrenarea unor modele acustice sublexicale si evaluarea performant elor la acest nivel; studiul unor unit a ti de modelare acustic a sublexical a prin experimente de recunoa stere independent a de vorbitor a vorbirii continue.

1.4

Organizarea lucr arii

Pentru nceput, teza realizeaz a o sintez a a cadrului teoretic n care se plaseaz a prin trecerea n revist a a unor metode de analiz a a semnalului vocal (capitolul 2) si a unora utilizate n recunoa sterea automat a a vorbirii (capitolul 3). In continuare sunt descrise cercet arile care stau la baza tezei: proiectarea si colectarea primei baze de date fonetice n limba rom an a, permit a nd cercet ari asupra recunoa sterii vorbirii continue, independent a de vorbitor, cu vocabulare n jurul a 1000 de cuvinte (capitolul 4); etichetarea la nivel fonetic a celei mai mari p art i din aceast a baz a de date, realizat a folosind un sistem automat, dezvoltat ad-hoc, de aliniere a semnalelor cu transcrierile lor fonetice (capitolul 5); studii asupra unor unit a ti de modelare acustic a pentru recunoa sterea independent a de vorbitor a vorbirii continue n limba rom an a, desf a surate prin experimente folosind subseturi din baza de date (capitolul 6). In ncheiere, capitolul 7 sintetizeaz a contribut iile lucr arii si traseaz a c ateva direct ii n care cercet arile ar putea continuate.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CAPITOLUL 2 Analiza semnalului vocal

Nestat ionaritatea semnalului vocal, cunoscut a din literatura de specialitate [200], [232] si ilustrat a si prin exemplele din acest capitol, impune denit ii ale parametrilor s ai bazate pe propriet a ti locale ale acestuia. Estimarea valorilor acestor parametri se poate face prin metode de analiz a pe termen scurt, iar n continuare le vom trece n revist a pe cele mai importante din punctul de vedere al recunoa sterii automate a vorbirii. Prelucr arile n domeniul timp [200], [180], [59] opereaz a direct asupra e santioanelor semnalului, iar unele au ca rezultate valori ale unor parametri ai acestuia. Parametrii prezentat i n acest capitol au aplicat ii merg and de la delimitarea port iunilor de semnal corespunz atoare vorbirii (energia si puterea) p an a la recunoa sterea ei propriu-zis a. De si prelucr arile n domeniul timp asigur a extragerea unor caracteristici importante ale semnalelor vocale, se consider a c a pentru recunoa sterea automat a a vorbirii esent iale sunt caracteristicile lor spectrale, cunoscut a ind capacitatea auzului uman de a distinge sunete dup a cont inutul lor n componenete de diferite frecvent e si amplitudini [160], [184], [180], [3]. Ele pot extrase folosind tehnici clasice din prelucrarea semnalelor (ltrare, analiz a Fourier [175]), pot derivate din analiza prin predict ie liniar a [153], sau cu luarea n considerat ie a unor particularit a ti funct ionale ale aparatului auditiv uman. Intre aceste metode, fundamental a este analiza Fourier pe termen scurt, a c arei prezentare ofer a ocazia si pentru discutarea unor leg aturi ntre domeniile timp si frecvent a . Problema esent ial a a analizei spectrale a vorbirii pentru recunoa sterea ei automat a este separarea informat iei minime necesar a n acest scop de variat iile nesemnicative, dar nu este nc a foarte clar cum se poate realiza aceast a separare. O prim a posibilitate este sugerat a de interpretarea spectral a a predict iei liniare. O alt a posibilitate este analiza homomorc a sau cepstral a, care poate utilizat a pentru a ret ine doar informat ia referitoare la aspectul general al spectrului, determinat de forma tractului vocal, cu eliminarea detaliilor corespunz atoare excitat iei acestuia. Includerea n cadrul analizei semnalului vocal a unor prelucr ari motivate pe baza unor particularit a ti funct ionale ale aparatului auditiv uman este ilustrat a n nalul capitolului prin analiza melodic a si caracteristicile dinamice.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

17

18 ANALIZA SEMNALULUI VOCAL e g z i s t a

1.2104 6000

0 6000

0.1

0.2

0.3

0.4

1.2104 0.5

1.2104 6000

0 6000

0.5

0.6

0.7

0.8

0.9

1.2104 1

Timp (s)
Figura 2.1: Exemplu de form a de und a a unui semnal vocal (cuvintele exist a o scurt a, cu indicarea sunetelor efectiv pronunt ate si a pozit iilor lor)

2.1

Reprezent ari ale semnalului vocal

Reprezentarea primar a a unui semnal vocal este forma de und a: n continuare vom utiliza pentru diferite exemplic ari nregistrarea numeric a, e santionat a la 16 KHz cu o rezolut ie de 16 bit i, a pronunt iei de c atre un b arbat a cuvintelor exist a o scurt a, iar gura 2.1 prezint a forma ei de und a si sunetele efectiv pronunt ate. Se observ a c a aspectul formei de und a variaz a foarte mult funct ie de sunet, de la amplitudini foarte mici n timpul t si c si aspect aleator pentru s, p an a la amplitudini maxime si aspect cvasiperiodic pentru vocale, de unde necesitatea analizei pe termen scurt. O reprezentare care evident iaz a simultan evolut ia amplitudinii si a caracteristicilor spectrale ale unui semnal este spectrograma lui, care poate obt inut a prin diferite metode de estimare spectral a. In spectrogram a, intensitatea componentei de o anumit a frecvent a a semnalului la un moment dat este indicat a prin nivelul de gri sau culoarea punctului de coordonate corespunz atoare. In continuare se vor utiliza spectrograme cu niveluri de gri, n care nuant ele mai nchise indic a intensit a ti mai mari. Pentru exemplicare, gura 2.2 prezint a dou a spectrograme ale semnalului din gura 2.1. Funct ie de termenul scurt de analiz a t (v. sect iunile 2.2.1 si 2.5), invers proport ional cu rezolut ia n timp si direct proport ional cu cea n frecvent a , spectrogramele pot de band a larg a, cu rezolut ie redus a n frecvent a si mare n timp, respectiv de band a ngust a, cu rezolut ie mare n frecvent a dar redus a n timp. In cazul spectrogramei de band a ngust a din gura 2.2, obt inut a analiz and port iuni de c ate 30 ms, caracterul cvasiperiodic al semnalului pe durata vocalelor si a unor consoane se manifest a ca striat iuni orizontale, corespunz atoare armonicelor frecvent ei fundamentale, F0 , inversa perioadei fundamentale, T0 , ambele variabile n timp. In cazul

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

REPREZENTARI ALE SEMNALULUI VOCAL


8000 6000

19

Frecvent a (Hz)

4000 2000 0 8000 6000 4000 2000 0 1.2104 6000 0 6000 1.2104 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Spectrogram a de band a ngust a (t = 30 ms)

Spectrogram a de band a larg a (t = 5 ms)

Timp (s)
Figura 2.2: Spectrograme de band a ngust a si larg a ale semnalului din gura 2.1

spectrogramei de band a larg a, cu intervalul de analiz a de 5 ms, cvasiperiodicitatea se manifest a sub forma unor striat iuni verticale, corespunz atoare variat iilor energiei semnalului din intervalul analizat cu pozit ia acestui interval. Indiferent de tipul spectrogramei, se constat a existent a unor zone de intensitate sporit a, situate la diferite frecvent e pe durata diferitor sunete. Aceste zone corespund a sa-numit ilor formant i, care sunt rezonant e ale unor cavit a ti din tractul vocal (faringele, cavitatea bucal a, cavitatea nazal a) prin care oscilat iile de presiune acustic a se propag a spre exterior pe durata producerii sunetelor vorbirii. Pentru acela si semnal din gura 2.1, gura 2.3 prezint a rezultatul unei estim ari automate a valorilor frecvent elor primilor cinci formant i, reprezentate prin puncte suprapuse peste spectrograma de band a larg a. Frecvent ele formant ilor, notate n literatur a, n ordinea lor cresc atoare, cu F 1 , F2 , F3 . . ., Frecvent a (Hz)
8000 6000 4000 2000 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Timp (s)
Figura 2.3: Spectrograma de band a larg a si formant ii semnalului din gura 2.1

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

20 ANALIZA SEMNALULUI VOCAL ar putea o reprezentare foarte compact a a sunetelor vorbirii, iar n fonetic a ele sunt folosite pentru a caracteriza din punct de vedere acustic vocalele unei limbi, dar n scopul recunoa sterii automate a vorbirii ele sunt insuciente din multe motive, cel mai evident ind acela c a exist a zone ale semnalelor pentru care nu pot estimate.

2.2
2.2.1

Prelucr ari n domeniul timp


Cadrarea si ferestruirea

Presupun and c a semnalul vocal de prelucrat a fost deja trecut n forma numeric a s(n) printr-un proces de e santionare si cuantizare, primul pas n aplicarea oric arei metode de analiz a pe termen scurt a acestuia este selectarea intervalelor de semnal de analizat. Aceast a operat iune este supus a unor constr angeri, uneori contradictorii: unele intervale trebuie s a e sucient de scurte pentru a evident ia evenimente acustice semnicative cu o durat a foarte scurt a, cum ar faza de eliberare a aerului din cursul producerii sunetelor plozive, de tipul consoanelor t sau c; n alte cazuri, ele trebuie s a e sucient de lungi pentru a putea realiza estimarea valorilor unor parametri (de exemplu T0 , F0 ) pe baza lor; Aceste constr angeri ar putea satisf acute utiliz and segmente de lungime variabil a, ns a implementarea acestei idei este dicil a, astfel c a n practic a se utilizeaz a cel mai adesea cadre de lungime x a N , cu o deplasare d N ntre dou a cadre succesive. Acestea includ toate e santioanele semnalului, ecare e santion f ac and parte din unul sau mai multe cadre, dup a cum acestea sunt disjuncte (d = N ) sau nu (d < N ), iar ecare cadru poate considerat o secvent a numeric a de lungime nit a. Pentru atenuarea efectului port iunilor partajate cu cadrele adiacente asupra valorilor parametrilor calculate pe baza unui cadru, e santioanele dintr-un cadru pot ponderate funct ie de pozit ia lor (pondere minim a la margini, maxim a la centru) prin multiplicarea valorilor lor s(n) cu o fereastr a w (n), operat iune cunoscut a drept ferestruire: sw (n) = s(n)w (n) , 0 n N 1 0 , altfel (2.1) intervalele trebuie s a acopere toate e santioanele semnalului.

Dup a cum vom vedea n continuare, pe l ang a motivul intuitiv al ponder arii efectelor cadrelor adiacente, exist a si alte motive pentru aplicarea ferestruirii, n unele cazuri nu numai semnalului vocal, ci si unor m arimi derivate din acesta. Cel mai important dintre aceste motive este efectul de netezire al ferestruirii, netezire datorat a faptului c a ferestrele uzuale reprezint a r aspunsuri la impuls ale unor ltre trece jos [175]. Dintre ferestrele utilizate n prelucrarea semnalelor, cea mai frecvent folosit a pentru prelucrarea automat a a semnalului vocal este fereastra de tip Hamming n w (n) = 0,54 0,46 cos(2 ), 0 n N 1 (2.2) N 1 din motive care vor prezentate n sect iunea 2.5, iar un exemplu de multiplicare a unui cadru lung de 20 ms cu o asemenea fereastr a este dat n gura 2.4.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

PRELUCRARI IN DOMENIUL TIMP


6000 3000 0 3000 6000 6000 3000 0 3000 6000 0 0.005 0.01 0.015 0.02

21

(a)

(b)

Timp (s)
Figura 2.4: Un cadru de 20 ms dintr-un semnal vocal (a) si rezultatul multiplic arii lui cu o fereastr a Hamming (b)

2.2.2

Energia si puterea

Un prim parametru al semnalului vocal este energia, denit a pentru un cadru ca


N 1

E=
n=0

s2 (n)

(2.3)

Variante ale acestei denit ii aplic a o ferestruire e e santioanelor semnalului [213]


N 1

E1 =
n=0

s2 w (n)

(2.4)

e p atratelor lor [180]


N 1

E2 =
n=0

s2 (n)w (n)

(2.5)

iar prin mp art irea la N a estim arilor energiei se obt in estim ari ale puterii medii P . Energia si puterea evident iaz a sunetele sonore, vocalele n primul r and, pe durata c arora ating valori maxime. Datorit a ridic arii la p atrat, gama lor dinamic a este prea mare pentru ca reprezent arile lor pe o scar a liniar a s a permit a distinct ii ale sunetelor cu amplitudini reduse, astfel nc at de obicei ele sunt reprezentate pe o scar a logaritmic a ( n decibeli). Pentru exemplicare, gura 2.5 prezint a pe scar a liniar a si logaritmic a estimarea puterii medii a semnalului din gura 2.1 folosind cadre de 5 ms. Reprezent arile pe scar a logaritmic a ale energiei si puterii pot privite ca reprezent ari pe scar a liniar a ale logaritmilor lor, cunoscut i drept log-energie respectiv log-putere. Ace stia includ dependent a logaritmic a, n conformitate cu legea Weber-Fechner [228], dintre intensitatea obiectiv a si t aria subiectiv a a unui sunet.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

22 ANALIZA SEMNALULUI VOCAL


1.2104 6000

(a)

0 6000 1.2104

5107 4107

(b)

3107 2107 107 0 10 8 6

(c)

4 2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Timp (s)
Figura 2.5: Estimare a puterii medii a semnalului din gura 2.1 (a) reprezentat a pe scar a liniar a (b) si logaritmic a (c)

2.2.3

Autocorelat ia

Pentru un semnal numeric, funct ia de autocorelat ie este prin denit ie [56] a steptarea statistic a a produsului semnalului cu o replic a a sa deplasat a cu m e santioane R(m) = E [s(n)s(n + m)] Pentru un cadru, valoarea ei se poate estima natural, dar deplasat R(m) = 1 N
N |m|1 n=0

(2.6)

s(n)s(n + |m|)

(2.7)

sau nedeplasat, prin mediere numai peste produsele efectiv folosite 1 R(m) = N |m|
N |m|1 n=0

s(n)s(n + |m|)

(2.8)

Dup a cum u sor se poate demonstra si matematic, autocorelat ia pune n evident a periodicitatea semnalului. Ca exemplu, n gura 2.6 sunt date estim ari ale funct iei de autocorelat ie pentru o port iune sonor a dintr-un semnal vocal: se observ a c a intervalele dintre maximele ei succesive au durate aproximativ egale cu perioada fundamental a a semnalului, iar maximele scad (datorit a periodicit a tii imperfecte a semnalului) mai lent n cazul estim arii nedeplasate dec at n cel al estim arii deplasate, c and intervine si

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

PRELUCRARI IN DOMENIUL TIMP


6000 3000 0 3000 6000 6106 3106 0 3106 6106 6106 3106 0 3106 6106 0 0.005 0.01 0.015 0.02 0.025 0.03

23

(a)

(b)

(c)

Timp (s)
Figura 2.6: Autocorelat ia pentru o port iune de semnal vocal sonor (a): estimare deplasat a (b) si nedeplast a (c)

sc aderea num arului de produse luate efectiv n calcul. In cazul zonelor nesonore ale semnalului, autocorelat ia are maxime mult mai reduse si aperiodice (gura 2.7). Remarc and si c a puterea medie este acoperit a de autocorelat ie ca un caz particular P = R(0) (2.9)

apare n mod natural ideea utiliz arii ei pentru realizarea clasic arii sonor/nesonor, a estim arii perioadei fundamentale T0 si a altor prelucr ari ale semnalului vocal, ns a important a ei va putea pe deplin evident iat a doar dup a prezentarea analizei prin predict ie liniar a (sect iunea 2.3), utilizat a n foarte multe aplicat ii.

2.2.4

Preaccentuarea

O alt a prelucrare simpl a a semnalului vocal n domeniul timp [200], [232], [59], care poate aplicat a cu rezultate practic echivalente [153] e imediat dup a e santionarea si cuantizarea semnalului, e abia dup a cadrarea sau ferestruirea lui, const a din trecerea lui printr-un ltru numeric cu ecuat ia y (n) = x(n) x(n 1) , 1, 1 (2.10)

Ea are ca efect accentuarea frecvent elor nalte cu aproximativ 6 dB/octav a si din aceast a cauz a este cunoscut a sub numele de preaccentuare. Conjugat a cu efectul similar

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

24 ANALIZA SEMNALULUI VOCAL


2000 1000

(a)

0 1000 2000 3105 2105 105 0 1105 2105 3105 3105 2105 105 0 1105 2105 3105 0.03

(b)

(c)

0.005

0.01

0.015

0.02

0.025

Timp (s)
Figura 2.7: Autocorelat ia pentru o port iune de semnal vocal nesonor (a): estimare deplasat a (b) si nedeplasat a (c)

al radiat iei la ie sirea tractului vocal, preaccentuarea asigur a o compensare a c aderii de circa 12 dB/octav a a spectrului excitat iei sonore. In acest fel, pe durata sunetelor sonore anvelopa spectral a a semnalului preaccentuat va aproxima r aspunsul n frecvent a al tractului vocal, care prezint a interes din punct de vedere al recunoa sterii automate a vorbirii datorit a corelat iei dintre cont inutul lingvistic al unui semnal vocal si evolut ia formei tractului vocal pe parcursul producerii lui. Efectul preaccentu arii cu un coecient de preaccentuare = 0,96 este ilustrat n gura 2.8: dup a cum se observ a, sunetele nesonore (cei doi s) sunt amplicate, iar cele sonore sunt atenuate, astfel nc at gama dinamic a a semnalului este comprimat a, iar n spectrogram a frecvent ele nalte vor reprezentate cu niveluri de gri apropiate de cele ale frecvent elor joase (a se compara cu spectrograma de band a larg a din gura 2.2). Deoarece excitat ia sonor a si c aderea spectral a asociat a ei nu apar pe durata sunetelor nesonore, preaccentuarea ar trebui aplicat a doar sunetelor sonore, ceea ce presupune determinarea n prealabil a caracterului sonor sau nesonor al semnalului; o solut ie simpl a a acestei probleme, care are si avantajul de a asigura o compensare maxim a a c aderii spectrale, este aceea a utiliz arii unui coecient de preaccentuare adaptiv [153] = R(1)/R(0) (2.11)

apropiat de 1 n port iunile sonore ale semnalului, respectiv 0 n cele nesonore. In practic a, cel mai frecvent se utilizeaz a valori xe apropiate de 1, (0.9 . . . 1), alese uneori de forma 1 2n n vederea implement arii simple n virgul a x a.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ANALIZA PRIN PREDICT IE LINIARA Semnalul original

25

1.2104 6000 0 6000 1.2104 6000 3000 0 3000 6000

Semnalul preaccentuat

Frecvent a (Hz)

8000 6000 4000 2000 0 0 0.1

Spectrogram a de band a larg a dup a preaccentuare

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Timp (s)
Figura 2.8: Efectul preaccentu arii semnalului din gura 2.1 cu = 0,96

2.3

Analiza prin predict ie liniar a

Prelucrare care ofer a o reprezentare a semnalului vocal sub forma unor valori ale parametrilor unui model cu structur a x a, analiza prin predict ie liniar a [153], [200], [59] poate obt inut a prin mai multe abord ari ale model arii semnalului vocal [153], ecare bazat a pe diferite ipoteze si aproxim ari. Toate abord arile conduc la optimizarea parametrilor unui predictor liniar care calculeaz a o estimare s (n) a valorii unui e santion s(n) al semnalului ca o combinat ie liniar a a unui num ar de e santioane anterioare
P

s (n) =
i=1

ai s(n i)

(2.12)

unde P este ordinul de predict ie si ai sunt coecient ii de predict ie. Diferent a dintre valoarea astfel prezis a si cea efectiv a constituie eroarea de predict ie
P

e(n) = s(n) s (n) = s(n) a c arei transformat a z este

i=1

ai s(n i)

(2.13)

E (z ) = S (z )A(z ) unde A(z ) = 1


P

(2.14) (2.15)

ai z i
i=1

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

26 ANALIZA SEMNALULUI VOCAL

Generator de trenuri de impulsuri unitate u(n) Gu(n) Filtru de sintez a 1/A(z ) G s(n)

T0

Excitat ie sonor a/nesonor a

Generator de zgomot alb

Figura 2.9: Modelul producerii vorbirii bazat pe predict ie liniar a

astfel c a se poate scrie S (z ) = E (z ) 1 A(z ) (2.16)

Dat ind modelul discret al producerii vorbirii [200], [59], [29], predict ia liniar a pare natural a doar pentru port iunile sonore ale semnalului vocal, cele nesonore, rezultate din excitat ii cu caracter aleator ale tractului vocal, ind prin denit ie impredictibile. Pe port iunile sonore, presupun and semnalul preaccentuat si cu aproximat ia c a zerourile datorate radiat iei si preaccentu arii compenseaz a polii care modeleaz a impulsurile glotale, din modelul discret al producerii vorbirii va mai r am ane de determinat modelul tractului vocal. Identic and E (z ), S (z ) si A(z ) cu componente ale modelului discret al producerii vorbirii, ecuat iile (2.14) si (2.16) denesc un model de analiz a respectiv sintez a a semnalului vocal preaccentuat: prima permite extragerea excitat iei modelului tractului vocal din semnal, a dou a sinteza semnalului din excitat ie. Din aceast a cauz a, A(z ) este denumit ltru de analiz a sau ltru invers, iar 1/A(z ) ltru de sintez a. Pentru port iunile nesonore, problema compens arii polilor care modeleaz a impulsurile glotale nu se mai pune, n schimb zerourile datorate fenomenelor de absorbt ie selectiv a (antiformant i), ca si cele corespunz atoare radiat iei si preaccentu arii, pot nlocuite printr-un num ar de poli. In consecint a , chiar dac a metoda nu mai pare natural a, analiza prin predict ie liniar a poate folosit a si n cazul sunetelor nesonore. Se obt ine astfel un model bazat pe predict ie liniar a al producerii vorbirii (gura 2.9), variant a a modelului discret al producerii vorbirii, simplicat prin nglobarea n ltrul de sintez a a efectelor impulsului glotal, tractului vocal si radiat iei. Num arul de coecient i de predict ie folosit i depinde de l argimea de band a a semnalului vocal analizat si de precizia dorit a a model arii: ecare formant impune utilizarea unei

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ANALIZA PRIN PREDICT IE LINIARA

27

perechi de poli complex conjugat i pentru modelarea sa, iar alt i c a tiva poli (2 . . . 4) sunt necesari pentru suplinirea zerourilor n cazul sunetelor nesonore. Pe baza teoriei acustice a producerii vorbirii [200], pentru o lungime uzual a a tractului vocal de cca. 17 cm ne putem a stepta la un num ar de formant i egal cu l argimea de band a n KHz a semnalului, ceea ce ar impune utilizarea unui num ar de poli P = Fs + 2 . . . 4 (2.17) unde Fs este frecvent a de e santionare a semnalului n KHz. Practic, nu exist a mai mult de cinci formant i semnicativi, astfel c a de cele mai multe ori este sucient P = 12 . . . 14. Coecient ii de predict ie ai corespunz atori unui cadru pot calculat i prin proceduri de optimizare care minimizeaz a eroarea p atratic a de predict ie E= e2 (n)
n

(2.18)

T in and cont de ecuat ia (2.13), eroarea p atratic a de predict ie devine


P

E=

[s(n)

i=1

ai s(n i)]2

(2.19)

iar valorile optime ale ai se obt in pentru E = 0, ai


P

i = 1 ... P

(2.20)

sau, nlocuind (2.19) n (2.20), din sistemul de ecuat ii liniare (i, k ) ak = (i, 0) ,
k =1

i = 1 ... P

(2.21)

unde (i, k ) =
n

s(n i) s(n k ) , i = 1 . . . P , k = 0 . . . P (1, P ) (2, P ) . .. . . . (P, P )


(2.22)

care poate scris n form a matricial a


(1, 1) (1, 2) (2, 1) (2, 2) . . . . . . (P, 1) (P, 2)

a1 a2 . . . aP

(1, 0) (2, 0) . . . (P, 0)

(2.23)

Av and n vedere c a n (2.22) apar indici de forma n k , n i, limitele de sumare au fost n mod deliberat omise n (2.18), (2.19) si (2.22), iar modul de alegere a lor duce la dou a metode fundamentale de analiz a prin predict ie liniar a: metoda covariant ei, n care se sumeaz a doar erorile din cadrul analizat, astfel nc at (i, k ) devine:
N 1

(i, k ) =
n=0

s(n i) s(n k ) , i = 1 . . . P , k = 0 . . . P

(2.24)

iar ferestruirea nu este permis a pentru a nu afecta e santioanele utilizate n calcule dar necuprinse n cadru; numele este datorat similitudinii formale a matricei [(i, k )] cu matricea de covariant a a unei variabile aleatoare P -dimensionale;

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

28 ANALIZA SEMNALULUI VOCAL metoda autocorelat iei, n care se sumeaz a toate erorile nenule, ceea ce impune nlocuirea e santioanelor din afara cadrului cu valori nule pentru ca erorile s a e cauzate doar de cele din cadru; pentru a reduce erorile la capetele cadrului, aceast a nlocuire se face prin ferestruire (sect iunea 2.2.1) cu o fereastr a care atenueaz a progresiv e santioanele marginale (gura 2.4), astfel c a limitele efective de sumare sunt cele ale valorilor nenule ale semnalului ferestruit sw (n), iar formal
N +P 1

(i, k ) =
n=0

sw (n i) sw (n k ) , i = 1 . . . P , k = 0 . . . P

(2.25)

Diferent a esent ial a ntre aceste metode const a n absent a respectiv prezent a ferestruirii si face ca ecare s a aib a propriet a ti specice ce o recomand a n anumite aplicat ii. Aceste dou a metode, mpreun a cu altele si aplicat ii ale analizei prin predict ie liniar a, sunt tratate pe larg n literatur a [153], [200], [59], dar datorit a ecient ei computat ionale si stabilit a tii solut iilor furnizate, n recunoa sterea automat a a vorbirii se utilizeaz a aproape n exclusivitate metoda autocorelat iei.

2.3.1

Metoda autocorelat iei

Dac a n ecuat ia (2.25) sunt luate n calcul numai produsele care pot nenule, expresia (i, k ) devine
N |ik |1

(i, k ) =
n=0

sw (n) sw (n + |i k |) = N R(|i k |)

(2.26)

unde R este estimatorul deplasat al autocorelat iei sw (n) (sect iunea 2.2.3, ecuat ia 2.7), de unde numele metodei. Lungimea cadrului N ind factor comun n (i, k ), sistemul (2.21) poate rescris
P k =1

R(|i k |) ak = R(i) ,

i = 1 ... P

(2.27)

sau n form a matricial a


R(P 1) R(P 2) . .. . . . R(P 1) R(P 2) R(0) R(0) R(1) . . . R(1) R(0) . . .

a1 a2 . . . aP

R(1) R(2) . . . R(P )

(2.28)

Matricea P x P a valorilor autocorelat iei R din sistemul (2.28) este simetric a si cu elemente identice pe diagonale (Toeplitz), proprietate folosit a pentru a obt ine proceduri recursive de rezolvare a sistemului. Cea mai ecient a este metoda lui Durbin: aceasta este o particularizare a unui algoritm propus de Levinson (motiv pentru care mai este cunoscut a si ca metoda Levinson-Durbin) pentru rezolvarea ecuat iei Ax = b cu A matrice Toeplitz pozitiv denit a si b un vector oarecare, care tine cont de relat iile existente ntre elementele A si b n cazul metodei autocorelat iei.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ANALIZA FOURIER

29

Algoritmul recursiv al lui Durbin pleac a de la lipsa oric arei predict ii (P = 0), pentru care eroarea medie p atratic a de predict ie este (0) = R(0) (2.29)

si calculeaz a seturi optime de coecient i pentru predictori de ordin din ce n ce mai mare: ki = R(i) aj = a j
(i) i1 (i1) R(i j =1 aj (i1) (i1) (i1)

j)

i = 1 ... P

(2.30) (2.31) (2.32) (2.33) (2.34)

ki aij , j = 1 . . . i 1 ai = k i
(i)

2 (i) = (1 ki ) (i1) G(i) = (i)

unde m arimile indexate superior cu (i) corespund predictorului de ordin i, iar sumarea din ecuat ia (2.30) este omis a pentru i = 1. Pentru o modelare a semnalului folosind un predictor de ordin P , vor ret inut i parametrii rezultat i din ultima iterat ie a acestui algoritm. O reprezentare mai compact a a coecient ilor de predict ie este posibil a utiliz and coecient ii ki [1, 1], din care ei pot calculat i, cunoscut i drept coecient i de reexie datorit a unor leg aturi care pot f acute cu modelarea tractului vocal prin tuburi acustice de sect iune constant a. O reprezentare complet a a semnalului vocal folosind analiza prin predict ie liniar a trebuie s a includ a pentru ecare cadru, pe l ang a coecient ii de predict ie ai si c a stigul G, clasicarea sonor/nesonor si valoarea perioadei fundamentale T0 . Asemenea reprezent ari stau la baza unor algoritmi de codare a semnalului vocal [227], dar n recunoa sterea automat a a vorbirii singurii parametri specici analizei prin predict ie liniar a cu o utilitate validat a experimental sunt coecient ii de predict ie.

2.4

Analiza Fourier

Ca si predict ia liniar a, analiza Fourier [233], [211] este o metod a de aproximare a semnalelor, de data aceasta prin componente cu diferite frecvent e, amplitudini si faze. Semnalele continue periodice sunt reprezentate prin serii Fourier, teoretic innite, de armonice ale unei frecvent e fundamentale unice, iar cele aperiodice prin integrale si transformate Fourier, extinse la toate frecvent ele. Pentru un semnal numeric s(n), amplitudinile si fazele componentelor sale pot calculate utiliz and transformata Fourier (TF)

S ( ) = F [s(n)] =
n=

s(n) ejn

(2.35)

din care semnalul poate ref acut prin transformata Fourier invers a (TFI) s(n) = F 1 [S ( )] = 1 2

S ( ) ejn d

(2.36)

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

30 ANALIZA SEMNALULUI VOCAL unde limitele de sumare si integrare reect a utilizarea timpului discret si a frecvent ei normalizate ( ntre 1/2 si 1/2) n reprezentarea semnalelor numerice. Valorile transformatei Fourier S ( ) sunt n cazul cel mai general complexe, denind o anvelop a spectral a complex a, iar dac a se neglijeaz a informat ia de faz a, inutil a pentru recunoa sterea vorbirii, se obt ine spectrul de amplitudine |S ( )| al semnalului. Ca si n cazul energiei si puterii, gama dinamic a a spectrului de amplitudine este prea mare pentru o reprezentare grac a pe o scar a liniar a, astfel nc at si pentru reprezentarea lui se utilizeaz a o scar a logaritmic a. Similar, reprezentarea pe o scar a logaritmic a a spectrului poate privit a si ca o reprezentare pe o scar a liniar a a logaritmului spectrului, sau log-spectrul, semnalului analizat, care include dependent a logaritmic a, conform legii Weber-Fechner [228], dintre intensitatea obiectiv a si t aria subiectiv a a unui sunet. Sub forma dat a, transformata Fourier este o funct ie de argument continuu, calculat a pe baza unui num ar innit de valori, motive pentru care ea este imposibil de utilizat n practic a. Pentru o secvent a s(n), 0 n N 1, cum este cazul oric arui semnal numeric real si cu at at mai mult al unui cadru de semnal vocal, spectrul poate e santionat n N puncte echidistante folosind transformata Fourier discret a (TFD) S (k ) =
N 1 n=0

s(n) ej (2/N ) k n , 0 k N 1 0 , altfel

(2.37)

Secvent a s(n) poate ref acut a prin transformata Fourier discret a invers a (TFDI) s(n) =
1 N N 1 k =0

S (k ) ej (2/N ) k n , 0 n N 1 0 , altfel

(2.38)

Transformata Fourier rapid a (TFR) este denumirea generic a dat a unei clase de algoritmi [175], [202], [147] pentru calculul ecient al TFD si TFDI n anumite condit ii referitoare la lungimea N a secvent ei analizate (de obicei, N = 2m ), iar existent a a numeroase implement ari (ex. [191]) ale unor asemenea algoritmi face ca n prezent ei s a e folosit i foarte frecvent. In cazul unei lungimi N care nu satiface condit iile, ele pot ndeplinite prin ad augarea unui num ar convenabil de e santioane nule dup a ferestruire.

2.5

Leg aturi timpfrecvent a

Anunt ate nc a de la nceputul capitolului, leg aturile dintre domeniile timp si frecvent a prezentate n continuare au fost alese pentru relevant a lor n analiza vorbirii n general si n contextul prezentei lucr ari n special, f ar a a epuiza conexiunile existente ntre cele dou a domenii. Ele se refer a la corelat iile n domeniul frecvent a ale operat iunii de ferestruire din domeniul timp, precum si la posibilitatea de estimare a spectrului unui semnal pe baza analizei lui prin predict ie liniar a. Efecte spectrale ale ferestruirii Dup a cum se cunoa ste din propriet a tile transformatelor Fourier [147], [56], nmult irea a dou a semnale n domeniul timp are ca echivalent n domeniul frecvent a convolut ia

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

LEGATURI TIMPFRECVENT A

31

80 70
Amplitudine (dB)

60 50 40 30 20 10 0 250 500
Frecvent a (Hz)

750

1000

Figura 2.10: Spectre ale unor ferestre cu lungimea de 20 ms la frecvent a de e santionare de 16 KHz: Hamming (linie groas a), Hanning ( ntrerupt a), triunghiular a (punctat a), rectangular a (continu a)

spectrelor lor, astfel nc at, cadrarea si ferestruirea semnalului vocal ind nmult iri ale lui cu ferestre rectangulare sau de alt tip, ele vor determina modic ari spectrale: sw (n) = s(n) w (n) Sw () = 1 2

S ( ) W ( ) d

(2.39)

Port iunile inferioare ale spectrelor unor ferestre dintre cele mai utilizate, exemplicate pentru o lungime de 20 ms si o frecvent a de e santionare Fs = 16 KHz, sunt prezentate n gura 2.10 (p art ile lips a continu a conform tendint elor sugerate): dup a cum se observ a, toate spectrele au o component a dominant a de joas a frecvent a , denumit a n literatura de specialitate lob principal, nsot it a de lobi secundari de amplitudini din ce n ce mai mici spre frecvent a maxim a posibil a Fs /2. Relat ia (2.39) implic a faptul c a l argimea de band a a lobului principal si atenuarea celor secundari n raport cu acesta sunt cele dou a elemente care determin a calitatea unei ferestre din punct de vedere al analizei spectrale: o band a ngust a a lobului principal asigur a o rezolut ie bun a n jurul unei anumite frecvent e , iar atenuarea lobilor secundari previne inuent a componentelor de la frecvent e mai ndep artate. Dup a cum se observ a din gura 2.10, fereastra rectangular a, corespunz atoare simplei cadr ari a semnalului, are cele mai slabe performant e datorit a lobului principal foarte larg si atenu arii slabe a lobilor secundari; cea triunghiular a are lobul principal cel mai ngust, dar atenuarea lobilor secundari nu este foarte bun a; fereastra Hanning asigur ao atenuare foarte puternic a a lobilor secundari dar are un lob principal destul de larg. In aceste condit ii, fereastra Hamming asigur a cel mai bun compromis, motiv pentru care ea este utilizat a cel mai frecvent n prelucrarea automat a a semnalului vocal. Lungimea n timp si rezolut ia n frecvent a (l argimea de band a a lobului principal)

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

32 ANALIZA SEMNALULUI VOCAL

120 110
Amplitudine (dB)

100 90 80 70 60 50 40 0 1000 2000 3000 4000 5000 6000 7000 8000

Frecvent a (Hz)
Figura 2.11: Estim ari prin analiz a Fourier ale spectrului semnalului din gura 2.1 la t = 0,5 s, realizate utiliz and ferestre Hamming de 25 ms (linie continu a) si 5 ms (linie ntrerupt a)

ale unei ferestre sunt n relat ie invers a, ment ionat a deja n sect iunea 2.1 si ilustrat a n gurile 2.2 si 2.11. In gura 2.11, fereastra de 25 ms, corespunz atoare unei analize de band a ngust a (a lobului principal), cuprinde c ateva perioade fundamentale, iar aceast a periodicitate este pus a n evident a n spectru prin maxime repetate, corespunz atoare armonicilor frecvent ei fundamentale. Examin and structur a periodic a a spectrului, din faptul c a armonica a patra este de aproape 1000 Hz putem chiar estima valorile frecvent ei fundamentale F0 240 Hz, respectiv perioadei fundamentale T0 4,2 ms. Fereastra de 5 ms include o singur a perioad a fundamental a din semnalul analizat, iar periodicitatea acestuia nu se poate manifesta n spectrul estimat, care datorit a l argimii mai mari a lobului principal din spectrul ferestrei este o variant a netezit a a celui anterior. Interpretarea spectral a a predict iei liniare Analiza prin predict ie liniar a [153] modeleaz a spectrul sursei de excitat ie a tractului vocal, r aspunsul lui n frecvent a , si efectele radiat iei sonore, nglobate n semnalul vocal, printr-un singur ltru av and numai poli, G/A(z ), de faz a minim a, si al c arui spectru de amplitudine l aproximeaz a pe cel al semnalului. In aceste condit ii, estimarea spectrului de amplitudine al unui cadru de semnal se poate face pe baza analizei prin predict ie liniar a prin evaluarea modelului numai poli rezultat pe cercul unitate din planul z S ( ) = G G = A(z )|z =ej A(ej ) (2.40)

Estimarea se poate face si numai pe baza ltrului de sintez a 1/A(z ), rezultatul ind

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ANALIZA HOMOMORFICA

33

120 110
Amplitudine (dB)

100 90 80 70 60 50 40 0 1000 2000 3000 4000 5000 6000 7000 8000

Frecvent a (Hz)
Figura 2.12: Estim ari ale spectrului semnalului din gura 2.1 la t = 0,5 s, realizate cu o fereastr a Hamming de 25 ms, prin analiz a Fourier (linie continu a) si predict ie liniar a cu 20 (linie ntrerupt a) respectiv 12 poli (linie punctat a)

un spectru normalizat SN ( ) = 1 1 = A(z )|z =ej A(ej ) (2.41)

care pe o scar a logaritmic a are valoarea medie nul a


log |A(ej )| d = 0

(2.42)

ceea ce face posibile comparat ii spectrale ntre semnale cu amplitudini diferite. Ca si n cazul analizei Fourier de band a larg a, spectrul obt inut este o aproximare, de ast a dat a n principal a formant ilor, iar num arul polilor folosit i determin a precizia acesteia. Pentru exemplicare, gura 2.12 prezint a trei estim ari ale spectrului unei port iuni de semnal vocal sonor prin analiz a Fourier de band a ngust a si predict ie liniar a cu 20 respectiv 12 poli. A doua variant a corespunde utiliz arii formulei (2.17) si asigur a o foarte bun a (poate chiar prea bun a) aproximare a formant ilor, n timp ce a treia contope ste perechi de poli din cea anterioar a.

2.6

Analiza homomorc a

Analiza Fourier de band a ngust a a port iunilor sonore ale semnalelor vocale (gurile 2.2, 2.11 si 2.12) pune n evident a prezent a unor componente periodice ale spectrelor lor, corespunz atoare armonicilor frecvent ei fundamentale, datorate excitat iei sonore care st a la baza acestor port iuni, si cunoscute sub numele de structur a spectral a n a.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

34 ANALIZA SEMNALULUI VOCAL

x(n)

x (n)

y (n)

1 D

y (n)

H
Figura 2.13: Reprezentarea canonic a a unui sistem homomorc

Aceast a structur a n a este eliminat a prin netezirea asigurat a de analiza Fourier de band a larg a (sect iunea 2.5, gura 2.11), care ret ine n principal informat ii despre aspectul general al spectrului, ceea ce pentru recunoa sterea automat a a vorbirii este avantajos deoarece variat iile frecvent ei fundamentale pe durata pronunt iilor unui cuv ant (except ie fac limbile tonale, de tipul chinezei) sunt irelevante din acest punct de vedere. Analiza Fourier de band a larg a are ns a dezavantajul utiliz arii unor cadre cu lungime scurt a (de ordinul milisecundelor) si frecvent a ridicat a, astfel c a prezint a interes g asirea unei metode apte s a asigure aceast a netezire spectral a din cadre mai lungi (de ordinul zecilor de milisecunde) si cu frecvent a mai sc azut a (tipic 100 pe secund a). Un cadru teoretic cuprinz ator pentru separarea si eliminarea structurii spectrale ne este oferit de sistemele homomorce [175], care extind principiul superpozit iei din sistemele liniare L[x1 (n) + x2 (n)] = L[x1 (n)] + L[x2 (n)] (2.43) L[c x(n)] = c L[x(n)] (2.44) unde L este o transformare liniar a. In cazul unui sistem homomorc, exist a operatori pentru combinarea intr arilor, , combinarea intr arilor cu scalari, , combinarea ie sirilor, , si combinarea ie sirilor cu scalari, , iar principiul generalizat al superpozit iei este H [x1 (n) x2 (n)] = H [x1 (n)] H [x2 (n)] H [c x(n)] = c H [x(n)] (2.45) (2.46)

unde H este o transformare homomorc a. Rezultatele referitoare la sisteme liniare pot utilizate si pentru cele homomorce recurg and la reprezent ari canonice [175], orice sistem homomorc ind decompozabil n trei subsisteme, ecare homomorc la r andul lui (gura 2.13). Primul subsistem este denumit sistem caracteristic de intrare (determinat de operat iunile si ) si stabile ste un homomorsm ntre spat iul vectorial de intrare si unul intermediar, n care si sunt homomorfe cu adunarea si nmult irea cu scalari D [x1 (n) x2 (n)] = x 1 (n) + x 2 (n) D [c x(n)] = c x (n)

(2.47) (2.48)
c Marian Boldea, Timi soara, 2003

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

ANALIZA HOMOMORFICA

35

x(n)

X ( )

log

log X ( )

(log | |) (log |X ( )|) D

F 1

x (n)

Figura 2.14: Schema bloc a unui sistem caracteristic de intrare pentru prelucr ari homomorce (cepstrale) ale semnalului vocal

Al doilea este un sistem liniar, iar ultimul este sistemul caracteristic de ie sire si asigur a revenirea la spat iul vectorial al ie sirilor
1 D [ y1 (n) + y 2 (n)] = y1 (n) y2 (n) 1 D [c y (n)] = c

(2.49) (2.50)

y (n)

Semnalul vocal poate modelat ca rezultat al convolut iei n timp, respectiv nmult irii n frecvent a , dintre excitat ia tractului vocal e(n), manifestat a sub forma structurii spectrale ne E ( ), cu r aspunsul la impuls al tractului, v (n), av and corespondent spectrul netezit V ( ). In aceste condit ii, pentru prelucrarea homomorc a a semnalului vocal, sistemul caracteristic de intrare trebuie s a asigure transformarea convolut iei e(n) v (n) n suma transformatelor, e (n) + v (n) . T in and cont de corespondent ele F [e(n) v (n)] = F [e(n)] F [v (n)] = E ( ) V ( ) log [E ( ) V ( )] = log E ( ) + log V ( ) (2.51) (2.52)

unde este operatorul de convolut ie iar F transformata Fourier direct a, precum si de utilitatea interpret arii rezultatului pe care o permite, o transformare foarte utilizat a pentru sistemul caracteristic de intrare, corespunz atoare schemei bloc din gura 2.14, este x (n) = D [x(n)] = F 1 { log F [x(n)]} (2.53) Transformata Fourier invers a F 1 realizeaz a o trecere din domeniul frecvent a ntr-un nou domeniu de tip timp, diferit ns a de cel al semnalului original, iar pentru descrierea lui au fost introdu si termeni obt inut i prin anagramarea unora din domeniul frecvent a . Astfel, domeniul ca atare este numit domeniul cvefrent a (anagram a din frecvent a , cf. engl. quefrency, anagram a din frequency); x (n) este cepstrul (anagram a din spectrul, pronunt at a kepstrul) semnalului x(n), av and aceea si frecvent a de e santionare ca si acesta; iar prelucrarea semnalului ca atare a fost denumit a analiz a cepstral a. Important a analizei homomorce sau cepstrale a semnalului vocal este dat a, dup a cum vom vedea n continuare, de posibilit a tile oferite pentru separarea componentelor spectrale corespunz atoare excitat iei, E ( ), respectiv tractului vocal, V ( ).

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

36 ANALIZA SEMNALULUI VOCAL

(a)

Amplitudine

0.5 0.4 0.3 0.2 0.1 0 0.1 0.2 0.3 0.4 0 0.2 0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0

10

12

14

16

(b)

10

12

14

16

Cvefrent a (ms)

Figura 2.15: Estim ari cu o fereastr a Hamming de 25 ms ale cepstrului semnalului din gura 2.1 la (a) t = 0,5 ms (sonor) (b) t = 0,6 ms (nesonor)

2.6.1

Cepstrul real

Transformata Fourier a unui semnal real F [x(n)] are n cazul cel mai general valori complexe, astfel nc at x (n) din ecuat ia (2.53) este denumit cepstru complex. Utilizarea logaritmului complex ridic a ns a o serie de probleme de ordin teoretic [175], iar informat ia de faz a nu are important a pentru recunoa sterea vorbirii, astfel nc at cel mai frecvent este utilizat cepstrul real, singurul considerat n continuare, obt inut prin neglijarea fazei. Pentru un cadru de lungime N dintr-un semnal vocal s(n), cepstrul real este o secvent a de numere reale, cunoscute sub numele de coecient i cepstrali, de aceea si lungime cl = c(l) = 1 N
N 1 k =0

log |S (k )| ej (2/N )kl ,

l = 0...N 1

(2.54)

Spectrul de amplitudine |S (k )| ind o secvent a real a cu paritate par a, cepstrul real

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ANALIZA HOMOMORFICA

37

120 110
Amplitudine (dB)

100 90 80 70 60 50 40 0 1000 2000 3000 4000 5000 6000 7000 8000

Frecvent a (Hz)
Figura 2.16: Estim ari ale spectrului semnalului din gura 2.1 la t = 0,5 s, realizate cu o fereastr a Hamming de 25 ms prin analiz a Fourier de band a ngust a (cu linie continu a) si netezite prin trunchiere cepstral a la 1 ms (cu linie intrerupt a) respectiv 0,75 ms (cu linie punctat a)

prezint a de asemeni simetrie par a, iar gura 2.15(a) prezint a aspectul port iunii sale inferioare pentru semnalul pe baza c aruia s-au realizat estim arile spectrale din gurile 2.11 si 2.12. Se observ a prezent a unui maxim, corespunz ator excitat iei sonore, la cvefrent a de 4,25 ms, care concord a cu estimarea T0 4,2 ms din sect iunea 2.5. Aceast a evident iere n cepstru a excitat iei sonore este motivul pentru care una din cele mai frecvente aplicat ii ale sale este estimarea valorilor perioadei si frecvent ei fundamentale. Pentru port iunile nesonore ale semnalelor vocale (gura 2.15(b)), acest maxim nu este prezent, sau dac a apare are valori mult mai mici, ceea ce ofer a posibilitatea utiliz arii cepstrului si n algoritmi de decizie asupra caracterului sonor sau nesonor al semnalului. T in and cont de ecuat iile (2.53) si (2.54), de preciz arile f acute pe marginea lor si de exemplele prezentate, valorile cepstrului de la cvefrent e joase pot puse n corespondent a cu componenta lent variabil a a spectrului, determinat a de tractul vocal, V ( ), iar cele de la cvefrent e superioare cu structura spectral a n a E ( ), datorat a excitat iei. Aceast a interpretare a cepstrului st a la baza elimin arii structurii spectrale ne si netezirii spectrale prin trunchiere cepstral a, care este un caz de liftrare (anagram a din ltrare) a cepstrului [122] const and din anularea valorilor lui peste o anumit a cvefrent a . Dac a aceast a operat iune este urmat a de o transformare Fourier direct a a cepstrului trunchiat, rezultatul va log-spectrul netezit al semnalului, cu netezirea dependent a de trunchiere. Ca exemple, gura 2.16 prezint a estim ari spectrale de band a ngust a si netezite prin trunchiere cepstral a ale semnalului analizat si n gurile 2.11 si 2.12. De si sunt folosit i numai primii 17 respectiv 13 coecient i cepstrali (corespunz atori cvefrent elor superioare de 1 si 0,75 ms), spectrele estimate prin trunchiere cepstral a prezint a o netezire

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

38 ANALIZA SEMNALULUI VOCAL mai bun a dec at cea rezultat a din predict ie liniar a (gura 2.12) sau analiz a Fourier de band a larg a (gura 2.11). Aceasta este una din cauzele pentru care coecient ii cepstrali inferiori (de indice mic, l = 1 . . . L, cu L = 10. . . 20) formeaz a setul de caracteristici ale semnalului vocal cel mai utilizat actualmente n recunoa sterea automat a a vorbirii. Dup a cum se observ a si din ecuat iile (2.53) si (2.54), c0 = c(0) este o m asur a a energiei semnalului din cadrul analizat, iar renunt area la el permite comparat ii spectrale ntre cadre de semnal cu energii diferite, astfel nc at el nu prezint a interes deosebit din punct de vedere al recunoa sterii automate a vorbirii. In ncheiere, mai ment ion am c a predict ia liniar a de ordin P permite si calculul unei estim ari a cepstrului, numit a cepstru de predict ie liniar a, pe baza relat iilor

cl =

al +

l1 k =1 (k/l ) ck l1 k =1 (k/l ) ck

log(G) , l = 0 alk , 1 l P alk , l > P

(2.55)

2.7

Metode perceptuale

Una din c aile posibile pentru mbun at a tirea performant elor sistemelor de recunoa stere automat a a vorbirii este includerea n analiza semnalului vocal a unor prelucr ari care emuleaz a propriet a ti ale sistemului auditiv uman [3], [180], [184], [160], [80]. Dup a modul n care se realizeaz a aceast a emulare, putem distinge metode auditorii, care modeleaz a elementele structurale si funct iile sistemului auditiv pe baza rezultatelor unor studii de anatomie, ziologie si psihoziologie, si metode perceptuale, care includ propriet a tile acestuia f ar a considerarea structurilor anatomice si mecanismelor ziologice implicate. Dintre metodele auditorii pot considerate clasice, prin prisma volumului de cercet ari deja acumulate n jurul lor, modelul cochlear al lui Lyon [148], [150], modelul auditor al lui Sene [220] si modelul auditor EIH (Ensemble Interval Histogram) al lui Ghitza [88], [89], dar cercet arile n acest domeniu sunt nc a departe de a epuizate, exemple n acest sens put and g asite ncep and cu domeniile model arii cochleare [124], [61] si auditorii [222] si merg and p an a la implement ari hardware [250], [134]. De si n mod teoretic metodele auditorii pot contribui la apropierea performant elor sistemelor de recunoa stere automat a a vorbirii de cele umane, iar unele experimente sust in superioritatea lor [149], [145], practic aceast a superioritate nu se manifest a [53] sau se manifest a numai n condit ii de mediu dicile [119], [222]. Aceast a situat ie este explicabil a prin insucienta cunoa stere a mecanismelor pe care aceste metode ncearc a s a le modeleze, ceea ce mpreun a cu costul computat ional ridicat face ca ele s a nu aib a o utilitate clar a n recunoa sterea automat a a vorbirii. Prin contrast, metodele perceptuale nu intr a n detaliile model arii aparatului auditiv uman, evit and astfel dicult a tile asociate, ci se rezum a la considerarea propriet a tilor sale funct ionale puse n evident a prin experimente psihoacustice. Printre aceste metode se g asesc unele dintre cele mai eciente n recuno sterea automat a a vorbirii, cu o utilitate consacrat a, iar n restul acestui capitol vor prezentate dou a dintre ele.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

METODE PERCEPTUALE

39

3500 3000

In alt ime (mel)

2500 2000 1500 1000 500 0 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 104

Frecvent a (Hz)
Figura 2.17: Corespondent a dintre n alt ime si frecvent a conform ecuat iilor (2.56) (linie continu a) si (2.57) (linie ntrerupt a)

2.7.1

Analiza melodic a

In alt imea este o proprietate subiectiv a a sunetelor [228], [173], [208], dependent a n principal de frecvent a lor, pe baza c areia ele sunt clasicate de la grave la acute. Relat ia cantitativ a dintre frecvent ele si n alt imile tonurilor pure a fost studiat a experimental, iar pentru m asurarea n alt imii s-a introdus o scar a melodic a cu unitatea de m asur a mel: prin denit ie [208], un ton pur de 1000 Hz cu un nivel de 40 dB are n alt imea 1000 mel, iar frecvent ele tonurilor pure percepute ca av and n alt imi de n ori mai mari sau mai mici sunt puse n corespondent a cu aceste n alt imi. Rezultatele acestor experimente variaz a de la subiect la subiect, dar pe baza unui num ar sucient de mare de subiect i au putut elaborate formul ari analitice ale relat iei dintre frecvent a f ( n Hz) si n alt imea pe scara melodic a m ( n mel) ale unui ton pur, dou a dintre ele ind datorate lui Beranek ([22], citat n [239]) m = 2595 log10 (1 + f /700) = 1127 ln (1 + f /700) respectiv Fant [69] m = 1000 ln (1 + f /1000)/ ln 2 (2.57) Reprezent arile grace asociate ambelor formule (gura 2.17) evident iaz a echivalent a lor calitativ a, dar n practic a prima este cea mai frecvent utilizat a n prezent, de si exist a nc a multe alte formule posibile [240]. Dup a cum s-a ar atat n sect iunea 2.6.1, analiza cepstral a ofer a o reprezentare foarte compact a, sub forma coecient ilor cepstrali inferiori, a informat iei spectrale asociat a tractului vocal, ret inut a n spectrul netezit prin trunchiere cepstral a. Cepstrul melodic [57] este obt inut prin modicarea analizei cepstrale, cu luarea n considerat ie a percept iei neliniare cu frecvent a a n alt imii sunetelor. Integrarea n analiza cepstral a a fenomenului percept iei neliniare cu frecvent a a n alt imii se face estim and un spectru melodic dup a transformarea Fourier direct a

(2.56)

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

40 ANALIZA SEMNALULUI VOCAL

Amplitudine

1000

2000

3000

4000

Frecvent a (Hz)

Figura 2.18: Exemple de ferestre utilizate n analiza melodic a [57]

(gura 2.14) prin sumarea ponderat a a componentelor spectrale din benzi de frecvent a corespunz atoare unui num ar M de ltre trece band a. Prin aceast a sumare sunt atenuate si efectele structurii spectrale ne, iar pentru un cadru de semnal vocal de lungime N ea se poate realiza cu o relat ie de forma
N/21

Y (m) =
k =0

|S (k )| wm (k ) ,

m = 1 ... M

(2.58)

unde wm sunt ferestre care pondereaz a diferitele componente spectrale S (k ) pentru a simula caracteristicile dorite ale ltrelor trece band a. In practic a cele mai folosite sunt ferestrele triunghiulare de l argime uniform a p an a la 1000 Hz si exponent ial cresc atoare, corespunz ator uneia uniform a pe scara melodic a, peste aceast a frecvent a , ca exemplu put and dat chiar setul de ferestre utilizat n [57] (gura 2.18), dar se pot utiliza si ferestre rectangulare adiacente, uneori cu rezultate superioare [27]. Odat a spectrul melodic disponibil, cepstrul melodic se poate calcula ca si cel real, prin aplicarea transformatei Fourier inverse, sau se poate tine seama de paritatea spectrului melodic si utiliza o transformat a cosinus discret a
M

cl =
m=1

[ log Y (m) ] cos [ l (m 0,5) /M ] ,

l = 1 ... L

(2.59)

unde L este num arul de coecient i cepstrali melodici care se dore ste s a e calculat i.

2.7.2

Caracteristicile dinamice

Experimente perceptuale au ar atat c a informat ia fonetic a este localizat a mai ales n zonele cu variat ie spectral a mare ale semnalelor vocale [77], iar aceast a constatare a condus la utilizarea acestor variat ii n recunoa sterea automat a a vorbirii.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CONCLUZII

41

Init ial, au fost utilizate aproxim ari ale valorilor derivatelor temporale ale coecient ilor cepstrali si log-energiei, calculate cu formula d(t) =
L k =L kc(t + L 2 k =L k

k)

(2.60)

n care c(t) este valoarea caracteristicii statice (coecient cepstral sau log-energie) la momentul t, iar 2L este lungimea n cadre a unei ferestre, centrat a la momentul t, n care sunt cuprinse valorile caracteristicii statice pe baza c arora se calculeaz a d(t). Alt a formul a [223], introdus a deoarece se considera c a ecuat ia (2.60) realizeaz a o netezire prea mare, si care are si avantajul simplitat ii, este d(t) = c(t + L) c(t L) (2.61)

Aceste caracteristici dinamice sunt n prezent cunoscute ca delta cepstru respectiv delta log-energie, pe scurt coecient i delta (), iar pe baza lor se pot calcula, n mod asem an ator, aproxim ari ale derivatelor de ordinul doi (cele de ordin superior nu s-au dovedit utile) ale caracteristicilor statice, cunoscute drept coecient i delta-delta (). Sub o form a sau alta, aceste caracteristici dinamice au fost folosite n numeroase sisteme de recunoa stere automat a a vorbirii, n care ecient a lor a fost n mod repetat vericat a. Pe l ang a acestea, au existat si exist a si alte ncerc ari de utilizare a informat iilor despre variat iile spectrale: prin denirea de noi caracteristici (de exemplu funct ii de variat ie spectral a [42]), prin includerea unor etape de derivare temporal a a spectrului n procesul de analiz a (de exemplu n prelucr arile RASTA [102]), sau chiar prin integrarea unor caracteristici dinamice generalizate n structura modelelor Markov ascunse [49].

2.8

Concluzii

Dup a cum s-a ar atat la nceputul capitolului 1, analiza semnalului vocal are un rol fundamental n orice aplicat ie bazat a pe prelucrarea automat a a vorbirii, iar n acest capitol s-a urm arit identicarea metodelor de analiz a cele mai relevante pentru obiectivele propuse ale cercet arilor care stau la baza acestei teze. Au fost astfel trecute n revist a principalele metode ce permit descrierea spectral a a semnalului vocal: analiza Fourier, analiza prin predict ie liniar a, analiza cepstral a. Pentru o mai bun a nt elegere a particularit a tilor lor, prezentarea acestor metode a fost precedat a de descrierea altor prelucr ari si parametri (cadrare, ferestruire, energie, putere, autocorelat ie, preaccentuare) care intervin pe parcursul lor, iar de-a lungul ntregului capitol au fost evident iate multiplele leg aturi existente ntre ele. Una din posibilit a tile de cre stere a performant ei sistemelor de recunoa stere automat a a vorbirii ind introducerea n analiza semnalului vocal a unor prelucr ari inspirate de caracteristicile aparatului auditiv uman, n nalul capitolului au fost prezentate c ateva considerat ii asupra acestei posibilit a ti, cu detalierea a dou a metode care o materializeaz a: analiza melodic a si caracteristicile dinamice. Inainte de a utilizate pentru cercet arile din aceast a tez a, majoritatea metodelor au fost evaluate experimental [27] ntr-o aplicat ie simpl a, de recunoa stere automat a a unui

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

42 ANALIZA SEMNALULUI VOCAL vocabular mic de cuvinte pronunt ate izolat [26], folosind o baz a de date vocale de mici dimensiuni [25] colectat a ad-hoc n etapa de fundamentare a cercet arilor. Aceste evalu ari au conrmat calit a tile coecient ilor cepstrali n recunoa sterea automat a a vorbirii si au ar atat c a performant ele cele mai bune se obt in prin utilizarea cepstrului melodic.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CAPITOLUL 3 Recunoa sterea automat a a vorbirii


Indiferent de abord arile folosite n ncerc arile de a rezolva diferite probleme ale recunoa sterii automate a vorbirii, esent ial a pentru aprecierea si compararea acestora este evaluarea performant elor sistemelor n care ele sunt implementate. Din acest motiv, prezentarea unor aspecte ale evalu arii performant elor sistemelor de recunoa stere automat a a vorbirii precede trecerea n revist a n acest capitol a unora dintre cele mai importante metode folosite n aceste sisteme si utilizate si n cercet arile proprii. Majoritatea metodelor de analiz a a semnalului vocal descrise n capitolul 2 estimeaz a valori ale unor parametri locali ai acestuia, valori care n scopul recunoa sterii automate a vorbirii pot grupate n vectori acustici dintr-un spat iu acustic. Astfel, o prim a problem a care apare este cea a evalu arii unor distant e acustice, care pot folosite mpreun a cu metode de recunoa stere a formelor [64], [76], [243] pentru a ncerca o estimare local a, la nivel de cadre, a identit a tii lingvistice a semnalelor vocale. Datorit a inegalit a tii dintre gamele n care componentele vectorilor acustici pot lua valori, distant ele acustice acord a ponderi inegale acestor componente, ceea ce duce la o anizotropie a spat iului acustic. Aceast a anizotropie poate redus a prin utilizarea unor transform ari ale spat iului acustic, bazate pe distribut ia vectorilor acustici. Tratarea matematic a riguroas a a majorit a tii problemelor recunoa sterii automate a vorbirii a devenit posibil a prin considerarea ei ca o problem a de teoria comunicat iei [116], ceea ce a creat premisele utiliz arii sistematice a unor metode statistice, capabile s a acopere variabilitatea semnalelor vocale. In prezent, instrumentele matematice esent iale n recunoa sterea vorbirii sunt modelele Markov ascunse (MMA). Recunoa sterea vorbirii prin metode statistice se bazeaz a pe modelarea acustic aa cuvintelor si modelarea lingvistic a a succesiunii lor. Problema principal a n aceast a tez a ind modelarea acustic a pentru recunoa sterea automat a a vorbirii continue n limba rom an a (sect iunea 1.3), n continuare vor detaliate n special aspecte legate de aceasta. Pe l ang a modelarea acustic a si cea lingvistic a, recunoa sterea automat a a vorbirii mai necesit a si reprezentarea integrat a a cuno stint elor acumulate de modele ntr-un spat iu unic de c autare a solut iilor. In acest spat iu, estimarea sirului de cuvinte pronunt at se poate face prin aplicarea unor algoritmi de c autare av and ca obiectiv maximizarea probabilit a tii unui ipotetic sir de cuvinte n raport cu modelele.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

43

A VORBIRII 44 RECUNOAS TEREA AUTOMATA

3.1

Evaluarea performant elor

Sistemele de recunoa stere automat a a vorbirii pot face erori, ca si oamenii, n ceea ce prive ste sirul de cuvinte pe care l estimeaz a a fost pronunt at (gura 1.1), iar obiectivul lor ind tocmai estimarea corect a a acestui sir, principalele metrice pentru evaluarea performant elor lor se denesc pe baza erorilor ap arute n acest proces. Performant ele pot inuent ate de foarte mult i factori, astfel nc at orice valori ale metricelor trebuie nsot ite de precizarea condit iilor n care au fost obt inute, condit ii determinate de caracteristicile aplicat iei si ale sistemului de recunoa stere evaluat. C ateva dintre aceste condit ii sunt: m arimea vocabularului, dat a de num arul de cuvinte distincte din dict ionarul sistemului evaluat si pe care acesta le poate recunoa ste: ntr-o aplicat ie necesit and un vocabular redus, n care apar put ine cuvinte ntre care sistemul trebuie s a aleag a la un moment dat, erorile pot apare mai rar dec at ntr-o aplicat ie cu un vocabular mai mare, ntre cuvintele c aruia pot exista mai multe posibilit a ti de confuzie; tipul vocabularului: funct ie de luarea sau nu n calcul a posibilit a tii ca n pronunt ii s a apar a si cuvinte din afara lui, putem avea un vocabular deschis, n care un singur cuv ant special va corespunde tuturor cuvintelor necunoscute care pot apare n pronunt ii, sau un vocabular nchis; cuvintele din vocabular: chiar dac a o aplicat ie utilizeaz a un vocabular mic si nchis, prezent a n el si utilizarea n proport ie mare a unor cuvinte u sor de confundat din punct de vedere acustic va duce la cre sterea frecvent ei erorilor; tipul pronunt iilor: un sistem pentru recunoa sterea pronunt iilor discrete, a unor cuvinte rostite cu pauze ntre ele, va putea obt ine performant e superioare unuia pentru recunoa sterea vorbirii continue, f ar a pauze ntre cuvinte, care trebuie s a realizeze si delimitarea, nu numai recunoa sterea cuvintelor; stilul vorbirii: sunt mai u sor de recunoscut semnalele vocale obt inute prin citire, respect and restrict iile impuse de un text, dec at cele rezultate dintr-o conversat ie spontan a, n care regulile gramaticale pot s a nu e respectate, apar ezit ari, relu ari, vorbitorii se pot ntrerupe reciproc, se pot suprapune etc.; gramatica sau modelul lingvistic al aplicat iei: n cazul unei aplicat ii n care secvent a cuvintelor este rigid a, iar ecare cuv ant are un num ar redus de succesori posibili, erorile vor mai put in frecvente dec at n cazul uneia n care cuvintele se pot succeda mai liber, iar succesorii unui cuv ant pot n num ar mai mare; tipul modelelor acustice: un sistem cu modele dependente de vorbitor poate avea performant e mai bune dec at unul cu modele independente de vorbitor, iar performant ele acestuia din urm a pot cre ste prin adaptare la vorbitor a modelelor; condit iile acustice ale mediului n care sunt rostite pronunt iile: zgomotele, reverberat iile etc. vor duce la sc aderea calit a tii semnalului si a performant elor;

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

EVALUAREA PERFORMANT ELOR

45

caracteristicile canalului de comunicat ie dintre utilizator si sistem: un canal de comunicat ie cu o band a mai ngust a (de exemplu de tip telefonic) sau afectat de zgomote, distorsiuni etc. poate duce la sc aderea performant elor; vorbitorii folosit i pentru realizarea evalu arii, caracteristicile vocii si ale vorbirii ind dependente de multe variabile biologice (sex, v arst a) si sociale (grad de educat ie, ocupat ie, mediu social) care pot afecta performant ele e prin intermediul semnalului vocal, e prin modul de utilizare a sistemului n aplicat ie. Erorile din funct ionarea unui sistem de recunoa stere automat a a vorbirii pot apare datorit a imperfect iunii modelelor acustice sau lingvistice folosite (erori de modelare) sau elimin arii gre site din procesul de c autare a unor cuvinte corecte (erori de c autare). Funct ie de modul n care se manifest a la nivelul sirului de cuvinte estimat, aceste erori se pot clasica n: substitut ii ale unui cuv ant pronunt at cu un altul, datorate asem an arii acustice dintre ele n condit iile unei model ari acustice imperfecte, sau absent ei cuv antului corect dintre alternativele permise la un moment dat; insert ii ale unor cuvinte nepronunt ate: acestea sunt de obicei cuvinte scurte, cel mai adesea monosilabice (prepozit ii, conjunct ii, pronume), asem an atoare din punct de vedere acustic cu port iuni ale unor cuvinte mai lungi; omisiuni ( n engl. deletions) ale unor cuvinte pronunt ate. Evaluarea performant elor unui sistem de recunoa stere automat a a vorbirii presupune existent a unor transcrieri de referint a ale semnalelor vocale folosite n acest scop, cu care s a e comparate sirurile corespunz atoare de cuvinte estimate de sistem, si a unor metode de determinare a aparit iei si tipului erorilor. Odat a detectate si clasicate erorile, se pot calcula valorile unor metrice de performant a : frecvent a recunoa sterilor corecte sau corectitudinea C= frecvent a substitut iilor S= frecvent a insert iilor I= frecvent a omisiunilor O= NC 100 [%] N NS 100 [%] N NI 100 [%] N NO 100 [%] N

(3.1)

(3.2)

(3.3)

(3.4)

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

A VORBIRII 46 RECUNOAS TEREA AUTOMATA unde N , NC , NS , NI si NO sunt num arul de cuvinte de referint a , corect recunoscute, substituite, inserate si respectiv omise. Fiecare din metricele anterioare ofer a o imagine doar asupra unui singur aspect din funct ionarea unui sistem, astfel nc at pentru o caracterizare global a a performant elor au mai fost introduse dou a metrice care tin cont de toate tipurile de erori posibile: frecvent a erorilor E= acuratet ea A = 100 E = (1 NS + N I + N O 100 [%] N NS + N I + N O ) 100 [%] N

(3.5)

(3.6)

3.1.1

Compararea prin programare dinamic a

Determinarea cuvintelor recunoscute corect, substituite, inserate sau omise presupune marcarea cu unul din aceste atribute a ec arui cuv ant din sirurile estimate de sistem prin comparat ii cu transcrierile de referint a corespunz atoare. In mod tradit ional, sirurile estimate sunt considerate ipoteze formulate de sistem, iar rezultatele comparat iilor sunt prezentate ca alinieri ale ipotezelor cu transcrierile de referint a , nsot ite de tipul ec arei erori detectate recunoa sterile corecte nu sunt marcate: Referint a: cuv ref1 cuv ref2 cuv ref3 . . . cuv refNr Ipotez a: cuv ip1 cuv ip2 cuv ip3 . . . cuv ipNi Evaluare: O S I Compararea unei ipoteze cu transcrierea de referint a corespunz atoare se poate face calcul and printr-un algoritm de programare dinamic a distant a de editare dintre ele, denit a ca ind costul total minim al operat iunilor de editare (substitut ie, insert ie sau stergere/omisiune), ecare cu un cost specic, prin care unul din cele dou a siruri de cuvinte este transformat n cel alalt [249]. Programarea dinamic a consta n sinteza dinamic a a unor strategii sau programe (de unde si numele) global optime din decizii succesive optime la ecare moment. Ea se bazeaz a pe principiul de optimizare enunt at de Bellman [21]: O strategie optim a are proprietatea c a, oricare ar starea init ial a si decizia init ial a, deciziile r amase trebuie s a constituie o strategie optim a n raport cu starea care rezult a din prima decizie. T in and cont de acest principiu, evaluarea distant ei de editare D (I, R) dintre ipoteza I de Ni cuvinte si referint a asociat a R de Nr cuvinte se poate face recursiv: not and cu Cs , Ci si Co costul unei substitut ii, insert ii respectiv omisiuni, distant a part ial a D (I1,i , R1,r ) dintre prexele I1,i , R1,r de lungimi i si r ale I respectiv R poate scris a D (I1,i1 , R1,r1 ) , D (I1,i1 , R1,r1 ) + Cs , D (I1,i , R1,r ) = min D (I1,i1 , R1,r ) + Ci , D (I1,i , R1,r1 ) + Co ,

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

Ii corect Ii substituit lui Rr Ii inserat Rr omis

(3.7)

c Marian Boldea, Timi soara, 2003

DISTANT E ACUSTICE

47

Algoritmul 3.1 Compararea prin programare dinamic a a unei ipoteze cu referint a 1: Ni lungimea ipotezei I , Nr lungimea referint ei R 2: aloc a D [Ni , Nr ], E [Ni , Nr ], e[Ni + Nr 1] 3: D [i, r ] , i = 1 . . . Ni , r = 1 . . . Nr 4: for i = 1 . . . Ni do 5: for r = 1 . . . Nr do 6: D [i, r ] valoarea conform ecuat iei (3.7) 7: E [i, r ] evaluarea care a minimizat D [i, r ] 8: end for 9: end for 10: n = 0 {refacere n ordine invers a} 11: while i > 0 si r > 0 do 12: e[n + 1] = E [i, r ], n = n + 1, i = i 1 if e[n] = omis, r = r 1 if e[n] = inserat 13: end while Aceast a recursie se poate implementa ntr-o matrice de distant e D de dimensiune Ni N r , n care ecare linie corespunde unui cuv ant recunoscut si ecare coloan a unuia de referint a , iar distant a nal a se obt ine n D [Ni , Nr ]. Alinierea necesit a refacerea sirului de evalu ari care au minimizat distant ele part iale calculate succesiv conform ecuat iei (3.7). Aceasta impune p astrarea evalu arilor ntr-o a doua matrice E de dimensiune Ni Nr , astfel nc at odat a calculat a D [Ni , Nr ], sirul de evalu ari care au dus la obt inerea ei s a poat a ref acut prin parcurgere n sens invers. Intregul proces de comparare este descris de algoritmul 3.1: n liniile 13 se preg atesc variabilele necesare, liniile 49 corespund calculului D (I, R), iar n liniile 1013 se reface secvent a e[n] de evalu ari (corect, substituit, inserat, omis) care au dus la minimizarea distant elor part iale si nal a. Odat a aceast a secvent a disponibil a, calculul diferitelor metrice de performant a si alinierea celor dou a siruri de cuvinte sunt imediate. Costurile asociate erorilor (Cs , Ci si Co ) n ecuat ia (3.7) determin a n bun a m asur a comportamentul algoritmului 3.1. Cea mai simpl a posibilitate este de a le atribui valori egale, dar pentru evaluarea sistemelor de recunoa stere automat a a vorbirii prin aliniere la nivel de cuv ant [181], [72], [260] se aleg de obicei valori ale acestora Ci + C o > C s > C i = C o (3.8)

astfel nc at o substitut ie s a e preferat a unei perechi insert ie+omisiune sau invers. Dat ind criteriul de minimizare urm arit, o asemenea alegere face ca algoritmul 3.1 s a favorizeze insert iile si omisiunile, care vor plasate n pozit ii premerg atoare substitut iilor chiar si atunci c and nu este cazul. Ameliorarea acestei situat ii se poate obt ine prin cobor area la nivel sublexical n calculul D (I, R) si utilizarea drept costuri a unor distant e motivate fonetic sau fonologic ntre unit a ti acustice sublexicale [188], [187], [182], [72].

3.2

Distant e acustice

Dat a ind natura nestat ionar a a semnalului vocal, analiza lui se face, dup a cum am v azut n capitolul 2, la nivelul unor cadre cu lungimi de ordinul n 10 ms, ecare descris

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

A VORBIRII 48 RECUNOAS TEREA AUTOMATA prin valorile anumitor parametri. In termenii generali ai recunoa sterii formelor [64], [76], [243], ace sti parametri pot grupat i n vectori caracteristici, elemente ale unui spat iu multidimensional al caracteristicilor. In cazul recunoa sterii vorbirii, vectorii caracteristici sunt cunoscut i drept vectori acustici, elemente ale unui spat iu acustic. Evaluarea distant elor dintre vectorii caracteristici este o problem a fundamental a n recunoa sterea formelor, complicat a n cazul distant elor acustice de cerint a ca ele s a aib a pe c at posibil si o interpretare perceptual a: distant a dintre doi vectori acustici ar trebui s a aib a valori mari dac a port iunile de semnal din care provin sunt diferite din punct de vedere lingvistic, si valori mici, ideal nule, n cazul identit a tii lor lingvistice. De-a lungul timpului au fost propuse si studiate multe distant e acustice [224], [194], toate bazate pe faptul c a informat ia spectral a este esent ial a pentru identicarea sunetelor vorbirii [160], [184], [180], [3]. Distant a acustic a dintre dou a cadre ar putea deci evaluat a n prim a instant a printr-o metric a Minkowsky de ordin p:
N 1

lp (X, Y ) =

k =0

|X (k ) Y (k )|p

(3.9)

unde X, Y sunt spectrele discrete ale celor dou a cadre. T in and cont c a t aria perceput a subiectiv a unui sunet, conform legii Weber-Fechner, este proport ional a cu logaritmul intensit a tii lui obiective, iar recunoa sterea de c atre oameni a vorbirii nu depinde de faza diferitelor componente spectrale ale acesteia, o distant a mai potrivit a din punct de vedere perceptual este una n care spectrul este nlocuit cu log-spectrul de amplitudine:
N 1

dp (X, Y ) =

k =0

|log |X (k )| log |Y (k )||p

(3.10)

Conform sect iunii 2.6.1, ecuat ia (2.54), log-spectrul de amplitudine este transformata Fourier a cepstrului real:
N 1

log |S (k )| =

c(l)ej (2/N )kl


l=0

(3.11)

astfel nc at pentru p = 2 ecuat ia (3.10) devine:


N 1

d2 (X, Y ) =
l=0

|cX (l) cY (l)|2

(3.12)

sau, n cazul utiliz arii trunchierii cepstrale:


L

d2 (X, Y )

l=0

|cX (l) cY (l)|2

(3.13)

Aceasta nseamn a c a distant a euclidian a dintre vectorii cepstrali satisface cerint ele perceptuale enunt ate anterior, ceea ce poate una din explicat iile succesului analizei cepstrale ca metod a de extragere a caracteristicilor pentru recunoa sterea vorbirii.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

TRANSFORMARI ALE SPAT IULUI ACUSTIC

49

3.5

2.5

1.5

0.5

10

15

20

0.5

1.5

2.5

1/

10

15

20

Indice

Figura 3.1: Abaterile standard si inversele lor pentru primii 20 de coecient i cepstrali melodici, estimate din 9802 cadre (98 secunde) de semnal vocal.

3.3

Transform ari ale spat iului acustic

Una dintre problemele utiliz arii distant elor n recunoa sterea formelor [64], [76], [243] este cauzat a de diferent ele dintre dispersiile componentelor vectorilor caracteristici. Ca exemplu, prezent am n gura 3.1 valorile abaterilor standard si ale inverselor lor pentru primii 20 de coecient i cepstrali melodici, valori estimate din 9802 cadre (98 secunde) de semnal vocal obt inut prin citirea de c atre 20 de vorbitori uniform distribuit i pe sexe si grupe de v arst a a unei propozit ii n care apar toate unit a tile din tabelul 4.1. Se observ a c a valorile 1/ au o variat ie cvasiliniar a cu indicii coecient ilor, deci valo rile sunt invers proport ionale cu indicii coecient ilor cepstrali. In mod corespunz ator, coecient ii cepstrali vor avea ponderi invers proport ionale cu indicii lor n distant ele euclidiene dintre vectorii acustici cepstrali. O alt a problem a poate apare dac a dou a sau mai multe componente ale vectorilor caracteristici au covariant a nenul a cij = E{(xi i )(xj j )} = 0 (3.14)

unde xi , xj si i , j sunt dou a componente ale vectorilor, respectiv valorile lor medii. Aceasta indic a posibilitatea corelat iei liniare a celor dou a componente, care poate duce la evalu ari eronate ale distant elor prin luarea repetat a n calcul a unei aceleia si variat ii. In cazul general, solut ia acestor probleme este decorelarea caracteristicilor si normalizarea dispersiilor lor prin aplicarea unei transform ari liniare. Aceasta poate obt inut a plec and de la matricea de covariant a C = [cij ], care ind simetric a (cij = cji ) poate scris a C = T (3.15)

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

A VORBIRII 50 RECUNOAS TEREA AUTOMATA unde este matricea vectorilor ei proprii normat i, iar matricea diagonal a a valorilor ei proprii. Deoarece E{1/2 T [x ][x ]T 1/2 } = I

(3.16)

rezult a c a transformarea c autat a este y = 1/2 T x (3.17)

Utilizarea transform arii (3.17) este costisitoare din punct de vedere computat ional, iar reducerea acestui cost poate f acut a tin and cont de particularit a tile caracteristicilor folosite. In cazul coecient ilor cepstrali, o asemenea particularitate este corelat ia lor redus a datorat a transform arii ortogonale prin care sunt obt inut i. Renunt a nd la decorelare, normalizarea dispersiilor coecient ilor cepstrali poate aproximat a mult mai simplu prin nmult irea lor cu ponderi constante wi care pot [237] a) inversele dispersiilor: wi = 1/i ; b) indicii coecient ilor cepstrali: wi = i. Ambele variante pot privite e ca metode de introducere a unor distant e ponderate, e ca operat iuni de liftrare, iar un studiu efectuat din aceast a ultim a perspectiv a [122] a condus la ponderi de forma L i wi = 1 + sin (3.18) 2 L utilizate actualmente n majoritatea sistemelor de recunoa stere automat a a vorbirii.

3.4

Metode statistice de recunoa stere a vorbirii

Pe l ang a deformarea dinamic a a timpului, la nceputul anilor 70 se mai utilizau n cercet arile asupra recunoa sterii automate a vorbirii metode bazate pe cuno stint e, implementate n sisteme expert, cele mai cunoscute ind cele dezvoltate n cadrul unui program ARPA [141], [257], [127]. Pentru transcrierea semnalelor vocale, acestea foloseau informat ii furnizate de a sa-numite surse de cuno stint e (fonetice, fonologice, lexicale, sintactice, semantice si pragmatice), n fapt seturi de reguli formulate de expert i umani. Ca si tiparele n cazul deform arii dinamice a timpului, regulile s-au dovedit incapabile s a reprezinte variabilitatea semnalelor vocale. O metod a care s-a dovedit adecvat a pentru reprezentarea acestei variabilit a ti a fost propus a si implementat a n sistemul DRAGON [16], [15] dezvoltat la CMU n acela si program al ARPA. Metoda folosea un model teoretic general bazat pe funct ii de probabilitate ale unor procese Markov, care n timp au ajuns s a e cunoscute sub numele de modele Markov ascunse MMA ( n engl. Hidden Markov Models HMM) si a c aror prezentare va detaliat a n restul capitolului. Aceea si metod a a fost propus a, n mod independent, de cercet atori de la IBM [116], [13], [113] plec and de la tratarea recunoa sterii automate a vorbirii ca o problem a de teoria comunicat iei, ceea ce a oferit un cadru teoretic cuprinz ator pentru tratarea matematic a riguroas a a diferitelor ei aspecte, nu doar a metodei de reprezentare a cuno stint elor. Aceast a abordare utilizeaz a o particularizare a modelului general al unui sistem de comunicat ie [221], prezentat a n gura 3.2: sursa de informat ie din modelul general devine o abstractizare a proceselor cognitive premerg atoare formul arii unui mesaj si

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

METODE STATISTICE DE RECUNOAS TERE A VORBIRII

51

Vorbitorul Generare cuvinte Sursa W Producere vorbire s(t)

Sistemul de recunoa stere Procesor acustic A Decodor lingvistic Receptorul W

Canalul de comunicat ie

Figura 3.2: Recunoa sterea vorbirii din perspectiva teoriei comunicat iei

av and ca rezultat generarea unui sir de cuvinte W ; sirul de cuvinte W este transformat n semnalul vocal s(t) de c atre organele de producere a vorbirii; acestea mpreun a cu procesorul acustic din sistemul de recunoa stere automat a a vorbirii formeaz a canalul de comunicat ie; iar receptorul este decodorul lingvistic al sistemului de recunoa stere, care genereaz a o estimare W a sirului de cuvinte pronunt at. , decodorul lingvistic utilizeaz Pentru g asirea W a sirul A de date acustice1 obt inut de procesorul acustic din semnalul vocal s(t). Dac a pentru un sir de cuvinte oarecare W = w 1 w2 . . . wn (3.19)

probabilitatea ca el s a fost pronunt at, date ind datele acustice A, este P (W |A), pentru minimizarea frecvent ei erorilor sistemul va alege = arg max P (W |A) W
W

(3.20)

sau, exprim and P (W |A) conform formulei lui Bayes P (W |A) = P (W ) P (A|W ) P (A) (3.21)

si neglij and P (A), aceea si pentru toate sirurile de cuvinte W = arg max[P (W ) P (A|W )] W
W

(3.22)

Ecuat ia (3.22) pune n evident a cele dou a probleme esent iale pentru recunoa sterea automat a a vorbirii prin metode statistice: modelarea gener arii cuvintelor, cunoscut a drept modelare lingvistic a ( n engl. language modeling), astfel ca utiliz and modelul lingvistic (language model) rezultat s a se poat a estima P (W ); aceasta corespunde surselor de cuno stint e de pe nivelurile superioare (sintactic, semantic, pragmatic) din metodele bazate pe cuno stint e;
1

De-a lungul timpului au existat unele variat iuni, dar n esent a A este un sir de vectori acustici.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

A VORBIRII 52 RECUNOAS TEREA AUTOMATA modelarea producerii vorbirii, cunoscut a drept modelare acustic a, av and ca obiectiv construirea unor modele acustice pe baza c arora s a e calculat a probabilitatea P (A|W ) ca datele acustice A s a fost obt inute n urma pronunt a rii sirului de cuvinte W ; n cadrul metodelor bazate pe cuno stint e, aceasta era realizat a prin intermediul surselor de pe nivelurile inferioare (fonetic, fonologic, lexical). Datorit a generalit a tii ment ionate anterior, modelele Markov ascunse pot utilizate si pentru modelarea lingvistic a si pentru cea acustic a, astfel nc at o scurt a prezentare a lor precede discutarea celor dou a probleme.

3.5

Modelele Markov ascunse

Modelele Markov ascunse MMA ( n engl. Hidden Markov Models HMM) [195], [105], [59], [115] sunt automate nite stochastice folosite pentru descrierea statisticilor locale si a evolut iilor globale ale caracteristicilor unor procese aleatoare nestat ionare, dar care pot considerate stat ionare pe port iuni, prin funct ii de probabilitate a valorilor acestor caracteristici. In modelele Markov ascunse, tranzit iile ntre st ari se fac conform unor probabilit a ti de tranzit ie, iar producerea/observarea caracteristicilor si funct iile de probabilitate care modeleaz a distribut iile valorilor lor pot asociate st arilor sau tranzit iilor, n mod similar automatelor Moore respectiv Mealy. In continuare vom considera doar cazul funct iilor de probabilitate asociate st arilor. Un model Markov ascuns este denit prin: mult imea st arilor S = {si , i = 1 . . . N }; matricea de tranzit ie A = [aij ], unde aij = P [s(t + 1) = sj |s(t) = si ], i, j = 1 . . . N sunt probabilit a tile tranzit iilor ntre st ari; mult imea probabilit a tilor init iale ale st arilor = {i = P [s(0) = si ], i = 1 . . . N }; mult imea valorilor caracteristicilor procesului modelat Y ; B = {bj (y )|bj (y = ot ) = P [ot |s(t) = sj ], j = 1 . . . N } mult imea funct iilor de probabilitate a valorilor caracteristicilor observate/produse n ecare stare, unde prin ot am notat valoarea observat a (observat ia, pe scurt) la momentul t. In aceast a denit ie, mult imea st arilor mpreun a cu mult imea probabilit a tilor init iale si matricea de tranzit ie corespund unui lant /proces/model Markov. St arile lui nu sunt ns a observabile direct, ci doar prin intermediul observat iilor generate conform funct iilor de probabilitate asociate ec arei st ari, de unde numele de model Markov ascuns. Modelele Markov ascunse au fost folosite init ial cu succes n recunoa sterea automat a a vorbirii, apoi n multe alte aplicat ii n care procesul studiat poate modelat secvent ial: prelucrarea limbajului natural [152], recunoa sterea scrisului de m an a [48], recunoa sterea fet ei [168], decodarea genomului uman [128] etc. Acest lucru se datoreaz a existent ei unor algoritmi ecient i pentru rezolvarea a trei probleme fundamentale: evaluarea probabilit a tii P (O |M ) ca un sir de observat ii O = o1 o2 . . . oT s a apar a n urma unei realiz ari a procesului modelat de modelul M ;

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

MODELELE MARKOV ASCUNSE

53

decodarea secvent ei de st ari S = s(1)s(2) . . . s(T ) parcurs a prin model pentru producerea sirului de observat ii O ; estimarea parametrilor (probabilit a tile init iale i si de tranzit ie aij si funct iile de probabilitate bj ) sau antrenarea MMA pe baza unor date corespunz atoare. In toate cazurile, recursia joac a un rol esent ial pentru calculul ecient al diferitelor m arimi care intervin. Astfel, probabilit a tile i (t) ca modelul M s a se ae n starea si la momentul t dup a ce a produs prexul o1 . . . ot din sirul de observat ii O = o1 o2 . . . oT i (t) = P [o1 . . . ot , s(t) = si |M ] se pot calcula recursiv: i (1) = i bi (o1 ) ,
N

(3.23)

i = 1...N j = 1...N , t = 2...T

(3.24) (3.25)

j (t) =
i=1

i (t 1)aij bj (ot ) ,

Deoarece recursia se face n sensul direct al timpului t, i (t) sunt numite probabilit a ti nainte, iar pe baza lor se poate rezolva prima dintre problemele de mai sus: P (O |M ) = i (T )
si nal a

(3.26)

Similar se pot calcula probabilit a tile napoi i (t) ca modelul M , aat n starea si la momentul t, s a produc a n continuare suxul ot+1 . . . oT i (t) = P [s(t) = si , ot+1 . . . oT |M ] dar recursia are loc n sens invers: i (T ) =
N

(3.27)

1 pentru si stare nal a 0 altfel i = 1...N , t = T 1...1

(3.28)

i (t) =
j =1

aij bj (ot+1 )j (t + 1) ,

(3.29)

unde init ializarea i (T ) s-a f acut astfel nc at ecuat ia (3.26) s a devin a o particularizare a cazului general
N

P (O |M ) =

i (t)i (t) ,
i=1

t = 1...T

(3.30)

A doua dintre problemele enunt ate, decodarea secvent ei de st ari parcurse printr-un model M pentru producerea unui sir de observat ii O , are solut ii dependente de criteriul de optim utilizat. Un prim criteriu ar putea probabilitatea st arii si la momentul t date ind O si M P [s(t) = si , O |M ] (3.31) i (t) = P [s(t) = si |O, M ] = P (O |M )

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

A VORBIRII 54 RECUNOAS TEREA AUTOMATA care poate scris a funct ie de i (t) si i (t) i (t) = astfel nc at se poate face estimarea s(t) = arg max i (t) ,
si S

i (t)i (t) P (O |M )

(3.32)

t = 1...T

(3.33)

Dac a modelul cont ine st ari ntre care nu exist a tranzit ii, secvent a rezultat a poate s a nu formeze o cale continu a prin model, ind deci invalid a. Eliminarea acestei probleme se poate face prin impunerea condit iei suplimentare ca ntre st arile succesive s a existe tranzit ii, iar rezultatul este algoritmul Viterbi [247] care va prezentat n sect iunea 3.9. Ultima dintre probleme, cea a antren arii MMA, are solut ii dependente de tipul mult imii Y a valorilor caracteristicilor procesului modelat. In cazul n care Y este o mult ime discret a, funct iile bj (y ) sunt distribut ii de probabilitate, iar MMA rezultate sunt cunoscute ca MMA discrete. Dac a Y este continu a, bj (y ) sunt cel mai adesea densit a ti parametrice de probabilitate, rezult and MMA continue. Alternativa este reprezentat a de metodele neparametrice de estimare a probabilit a tilor: ret ele neuronale [36], [205], [161], metoda celor mai apropiat i k vecini [138], ma sini cu vectori suport ( n engl. Support Vector Machines SVM) [78]. De si acestea sunt n fapt doar variante de estimare a probabilit a tilor, sistemele rezultate sunt considerate sisteme hibride.

3.5.1

Antrenarea MMA discrete

Antrenarea MMA presupune estimarea valorilor parametrilor acestora: ntruc at nu se cunosc solut ii analitice ale problemei, toate metodele de antrenament se bazeaz a pe optimizarea iterativ a a parametrilor folosind date de antrenament corespunz atoare si diferite criterii de optim. Dintre criterii, cel mai frecvent folosit este cel al plauzibilit a tii maxime ( n engl. maximum likelihood), conform c aruia estimarea de maxim a plauzibilitate a parametrilor unui model M este cea care maximizeaz a probabilitatea condit ionat a ca datele de antrenament s a fost generate de M , date ind valorile parametrilor lui. Problema estim arii parametrilor MMA este complicat a de ascunderea st arilor s i n spatele sirurilor de observat ii O = o1 o2 . . . oT , astfel nc at datele de antrenament sunt incomplete: chiar dac a se cunosc valorile observat iilor, nu se stie c aror st ari le sunt asociate. Estimarea de maxim a plauzibilitate a parametrilor din date incomplete se poate face prin algoritmul de maximizare a a stept arii (Expectation-Maximization) [60], [159], a c arui particularizare la MMA este algoritmul Baum-Welch [19], [20]. Acesta realizeaz a o optimizare iterativ a a parametrilor unui model M prin calculul pe baza lor a a stept arilor (sperant elor matematice) pentru numerele de aparit ii ale unor evenimente, urmat de reestimarea parametrilor folosind valorile acestor a stept ari. Dac a parametrii modelului M sunt reestimat i pe baza a R realiz ari ale procesului modelat, care au produs R secvent e de observat ii Or = or,1 or,2 . . . or,Tr , r = 1 . . . R, calculul a stept arilor se face sum and probabilit a tile corespunz atoare pentru toate secvent ele si la toate momentele relevante.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

MODELELE MARKOV ASCUNSE Probabilit a tile init iale reestimate vor astfel 1 R i = i,r (1) , R r=1 i = 1...N

55

(3.34)

unde i,r (1) este probabilitatea ca modelul s a se ae n starea si la momentul t = 1 de pe parcursul gener arii secvent ei Or . Reestimarea probabilit a tilor de tranzit ie pe baza numerelor a steptate de tranzit ii ntre st ari necesit a calculul probabilit a tilor tranzit iilor din starea si la momentul t n starea sj la momentul t + 1 date ind sirul de observat ii O si modelul M ij (t) = P [s(t) = si , s(t + 1) = sj |O, M ] = P [s(t) = si , s(t + 1) = sj , O |M ] P (O |M ) (3.35)

Probabilit a tile conjugate P [s(t) = si , s(t + 1) = sj , O |M ] pot calculate ca produse ale probabilit a tilor ca modelul: 1) s a se ae n starea si la momentul t dup a ce a generat prexul o1 . . . ot ; 2) s a treac a din starea si n starea sj ; 3) n starea sj s a genereze ot+1 ; 4) din starea sj la momentul t + 1 s a genereze n continuare ot+2 . . . oT . T in and cont de expresiile acestor probabilit a ti, obt inem ij (t) = i (t)aij bj (ot+1 )j (t + 1) , P (O |M )
R r =1 R r =1

i, j = 1 . . . N ,

t = 1...T 1

(3.36)

iar probabilit a tile de tranzit ie reestimate vor a ij =


Tr 1 t=1 ij,r (t) Tr 1 t=1 i,r (t)

i, j = 1 . . . N

(3.37)

MMA discrete au o mult ime nit a a observat iilor, Y = {yk , k = 1 . . . K }, astfel nc at funct iile de probabilitate bj (y ) sunt distribut ii de probabilitate a c aror reestimare se poate face prin simpla num arare a aparit iilor valorilor yk bj (yk ) =
R r =1 Tr t=1 j,r (t) (or,t , yk ) Tr R t=1 j,r (t) r =1

j = 1...N ,

k = 1...K

(3.38)

unde este simbolul lui Kronecker: dac a x = y , (x, y ) = 1, altfel (x, y ) = 0. Algoritmul Baum-Welch (algoritmul 3.2) integreaz a toate aceste calcule, repetate de un anumit num ar de ori sau p an a la atingerea unui criteriu de convergent a . Aplicarea lui este ns a posibil a doar dup a proiectarea MMA si init ializarea parametrilor. Proiectarea MMA presupune alegerea num arului de st ari N , a st arilor init iale (i = 0) si tranzit iilor permise (aij = 0), care mpreun a denesc topologia unui model, iar n cazul MMA discrete trebuie stabilit a si mult imea Y a valorilor caracteristicilor procesului modelat. Deoarece algoritmul Baum-Welch realizeaz a numai o optimizare local a a parametrilor, init ializarea lor poate esent ial a pentru performant ele obt inute ulterior. Experimental, s-a constatat c a probabilit a tile init iale i si de tranzit ie aij pot init ializate cu valori uniforme, arbitrar alese sau aleatoare f ar a a afecta performant ele, dar c a poate necesar a init ializarea din datele de antrenament a funct iilor de probabilitate bj (y ).

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

A VORBIRII 56 RECUNOAS TEREA AUTOMATA Algoritmul 3.2 Algoritmul Baum-Welch pentru antrenarea MMA discrete 1: Spi[N ] 0 {sum a ecuat ia (3.34)} 2: N ra[N, N ], N ua[N ] 0 {num ar ator/numitor ecuat ia (3.37)} 3: N rb[N, K ], N ub[N ] 0 {num ar ator/numitor ecuat ia (3.38)} 4: repeat 5: for toate secvent ele Or , r = 1 . . . R do 6: calculeaz a i,r (t) conform ecuat iilor (3.24) si (3.25) 7: calculeaz a i,r (t) conform ecuat iilor (3.28) si (3.29) 8: calculeaz a P (Or |M ) conform ecuat iei (3.26) 9: calculeaz a i,r (t) conform ecuat iei (3.32) 10: calculeaz a ij,r (t) conform ecuat iei (3.36) 11: actualizeaz a Spi[i], N ra[i, j ], N ua[i], N rb[j, k ], N ub[j ] 12: end for 13: reestimeaz a i , aij , bj (yk ) conform ecuat iilor (3.34), (3.37) si (3.38) 14: until atingerea convergent ei sau a unui num ar de iterat ii

3.6

Modelarea lingvistic a

Procesul de generare a cuvintelor poate modelat n mod determinist prin gramatici [1], [123]. Datorit a rigidit a tii lor, vizibil a de exemplu n cazul limbajelor formale, acestea nu pot ns a acoperi variabilitatea mesajelor dec at n cazul unor aplicat ii foarte simple, pentru care ele pot denite iar vorbitorii pot antrenat i s a le respecte. Alternativa este reprezentat a de modelarea statistic a [14], [118], [115], [152]: pentru aceasta, probabilitatea unui sir de cuvinte P (W ) poate descompus a ntr-un produs de probabilit a ti condit ionate
L

P (W ) =
i=1

P (wi |wi1 . . . w1 )

(3.39)

n care ecare factor poate estimat pe baza unui corpus de texte. Presupun and c a recunoa sterea se face la nivelul propozit iilor, la o lungime a propozit iei de L cuvinte si o m arime a vocabularului de V cuvinte, pentru utilizarea ecuat iei (3.39) ar trebui estimate
L L

Np =
l=1

V V l1 =

Vl =
l=1

V L+1 V V 1

(3.40)

probabilit a ti, ceea ce cu except ia unor aplicat ii foarte simple este imposibil din punct de vedere practic. De exemplu, pentru L = 5 si V = 1000, Np 1015 , astfel c a utiliz and o reprezentare n virgul a otant a simpl a precizie, numai memoria necesar a p astr arii acestor probabilit a ti ar de ordinul 106 Go, f ar a s a mai consider am si spat iul de disc necesar p astr arii textelor din care sunt estimate. In plus, foarte multe dintre condit iile wi1 . . . w1 din ecuat ia (3.39) nu vor apare n aceste texte. Ameliorarea unora dintre aceste probleme se face prin limitarea num arului de cuvinte din condit iile wi1 . . . w1 si/sau gruparea lor n categorii: au rezultat astfel modelele lingvistice statistice de tip n-gram si/sau utiliz and clase de cuvinte. In cazul unui

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

MODELAREA LINGVISTICA

57

model lingvistic statistic de tip n-gram, probabilitatea unui cuv ant este condit ionat a doar de maximum n 1 cuvinte anterioare
L

P (W ) =
i=1

P (wi |wi1 . . . win+1 )

(3.41)

iar dac a sunt denite si clase de cuvinte Ck = {wk,1 , . . . wk,Nk }, k = 1 . . . K


L

P (W ) =
i=1

P [wi |C (wi )] P [C (wi )|C (wi1 ) . . . C (win+1 )]

(3.42)

unde C (w ) este clasa din care face parte cuv antul w . Ambele ecuat ii pot interpretate ca rezultate ale model arii Markov a producerii cuvintelor: n cazul ecuat iei (3.41), printr-un proces Markov cu st ari denite de condit iile wi1 . . . win+1 , iar n cel al ecuat iei (3.42) printr-un MMA cu st arile identicate de secvent ele de clase C (wi1 ) . . . C (win+1 ). Chiar si n urma aplic arii acestor metode, exist a nc a posibilitatea ca unele evenimente (secvent e de cuvinte sau clase) s a nu apar a n textele de antrenament. Pentru rezolvarea problemei au fost introduse diferite metode: netezirea modelelor prin reducerea ( n engl. discounting) probabilit a tilor unor evenimente ap arute urmat a de redistribuirea masei de probabilitate astfel eliberat a celor care nu au ap arut [167], [125], [256], [170]; combinarea mai multor modele prin interpolare [117] sau repliere (backing-o) [125] etc. Obiectul acestei teze neind modelarea lingvistic a, nu intr am n detalii ale acestor probleme, ci ne rezum am s a preciz am c a n practic a modelele cele mai utilizate sunt cele de tip bigram sau trigram cu diferite variante de netezire si combinare. Perplexitatea Pentru a putea compara performant ele sistemelor de recunoa stere a vorbirii trebuie precizate ( si) modelele lingvistice utilizate, iar aprecierea acestora impune cuanticarea complexit a tii aplicat iei din punctul lor de vedere. Prima m asur a a acestei complexit a ti a fost a sa-numitul factor de ramicare (branching factor), denit ca num arul maxim de cuvinte care pot apare dup a cuv antul curent. Acesta nu tinea ns a cont de variat iile num arului de cuvinte care pot urma celui curent, nici de frecvent ele cuvintelor, astfel nc at pentru a lua n calcul aceste aspecte a fost introdus a perplexitatea. De si din punct de vedere teoretic poate pus a n leg atur a cu entropia sursei care genereaz a cuvintele, n practic a perplexitatea unui model lingvistic fat a de o aplicat ie se evalueaz a pe un corpus de texte de test, considerat reprezentativ pentru acea aplicat ie. Prin denit ie, pentru o secvent a de N cuvinte perplexitatea este PP = 1
N

P (w1 . . . wN )

(3.43)

si poate interpretat a, ntr-un mod compatibil cu factorul de ramicare anterior, ca media geometric a a num arului de cuvinte care urmeaz a dup a cel curent, ind deci de dorit s a e c at mai mic a.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

A VORBIRII 58 RECUNOAS TEREA AUTOMATA

3.7

Modelarea acustic a

A sa cum am ment ionat deja, principala problem a n recunoa sterea vorbirii este marea ei variabilitate: dac a asupra celei de la nivelul cuvintelor ne-am putut face o idee destul de exact a n sect iunea 3.6, cea de la nivelul acustic este mult mai greu de intuit si cuanticat. S i chiar dac a ea poate part ial redus a prin cuantizare vectorial a [96], [151], [87], care nlocuie ste spat iul multidimensional al vectorilor acustici cu o mult ime nit a de vectori prototip, posibilit a tile acestora de combinare sunt mult mai multe dec at cele ale cuvintelor: de exemplu, la o frecvent a de 100 vectori acustici/secund a si 256 de vectori prototip, vor exista 256100 1080 combinat ii posibile ntr-o singur a secund a. Din acest motiv, modelarea acustic a este esent ial a pentru orice sistem de recunoa stere a vorbirii. Primele cercet ari asupra recunoa sterii vorbirii folosind MMA au apelat frecvent la cuantizare vectorial a si MMA discrete pentru a reduce cerint ele computat ionale. Au fost obt inute astfel rezultate care au mers de la recunoa sterea independent a de vorbitor a unui num ar mic de cuvinte pronunt ate izolat [199] p an a la recunoa sterea dependent a de vorbitor a unui num ar mare (5000) [114] sau foarte mare (20000) [10] de cuvinte izolate, si au culminat la sf ar situl anilor 80 cu recunoa sterea independent a de vorbitor a vorbirii continue cu un vocabular de 1000 cuvinte [135]. P an a n prima jum atate a anilor 80, modelarea acustic a prin MMA continue [15], [113], care avea teoretic avantajul elimin arii erorilor de cuantizare, a fost f acut a folosind metode neoptimale de estimare a parametrilor densit a tilor de probabilitate utilizate, a sa nc at potent ialul avantaj nu se putea realiza datorit a neoptimiz arii acestor parametri. Abia dup a stabilirea relat iilor de reestimare prin algoritmul Baum-Welch a parametrilor unei largi clase de densit a ti de probabilitate [143], [120], [121] a devenit posibil a utilizarea de o manier a optim a a MMA continue, iar n anii 90 ele s-au impus prin superioritatea demonstrat a n mod constant n evalu arile anuale DARPA [259]. Dintre densit a tile parametrice de probabilitate, cele mai performante s-au dovedit a sa-numitele mixturi gaussiene, cunoscute si ca modele cu mixturi gaussiene ( n engl. Gaussian Mixture Models GMM), de forma
K K

b(y ) =
k =1

wk N

k,

(y ) , k
k =1

wk = 1

(3.44)

cu N

k,

densit a ti normale multivariate de medii k si matrice de covariant a Ck N

k,

(y ) =

1 (2 )D |C
k|

e 2 (

k)

1 ( k

k)

(3.45)

unde y este un vector acustic de dimensiune D . Utilizarea unor matrice de covariant a complete duce la un timp de calcul O (D 2 ) necesar pentru evaluarea probabilit a tilor observat iilor, cu valori tipice ale lui D n jur de 30. Pentru cre sterea vitezei calculelor, cele mai multe sisteme care utilizeaz a vectori acustici cepstrali se bazeaz a pe corelat ia redus a a acestora (v. sect iunea 3.3) si recurg la matrice de covariant a diagonale, cu elemente nule n afara diagonalelor: cij = 0, i = j . In acest fel, evaluarea unei densit a ti normale multivariate se reduce la cea a D densit a ti

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

MODELAREA ACUSTICA

59

normale simple, iar timpul de calcul se reduce n mod corespunz ator la O (D ). In plus, scade n aceea si proport ie si num arul parametrilor MMA care trebuie estimat i. Succesul mixturilor gaussiene are explicat ii multiple. Pe de o parte, alofonele unui fonem sunt pronunt ate folosind congurat ii apropiate ale tractului vocal: cum vectorii acustici rezultat i depind de aceste congurat ii, intuitiv ne a stept am, si studii experimentale o conrm a [263], ca pentru un acela si vorbitor sau vorbitori de acela si sex ei s a e apropiat i n spat iul acustic. Mai mult, tin and cont de num arul mare de factori de care vectorii acustici depind, ne putem a stepta, si acela si studii o conrm a, ca densit a tile gaussiene s a e adecvate pentru modelarea distribut iei lor. Pe de alt a parte, densit a tile gaussiene au o mult ime de propriet a ti matematice care le fac instrumentul ideal pentru modelarea incertitudinii, oferind totodat a posibilitatea de adaptare a lor la schimb ari datorate mediului sau vorbitorilor [83], [84], [139]. Alternativele la mixturile gaussiene ncercate de-a lungul timpului au inclus at at densit a ti parametrice, de exemplu mixturi laplaciene [169], c at si metode neparametrice de estimare a densit a tilor de probabilitate: ret ele neuronale [36], [205], [161], metoda celor mai apropiat i k vecini [138] sau ma sini cu vectori suport ( n engl. Support Vector Machines SVM) [78]. De si init ial promit a toare, metodele neparametrice e s-au dovedit dicil de scalat la vocabulare foarte mari sau de adaptat la schimb arile de mediu sau ale vorbitorilor (cazul ret elelor neuronale), e au nc a de trecut aceste teste, a sa c a pentru moment mixturile gaussiene r am an cea mai bun a opt iune n modelarea acustic a.

3.7.1

Antrenarea MMA cu mixturi gaussiene

Inlocuirea distribut iilor de probabilitate din MMA discrete cu densit a ti parametrice n MMA continue nu afecteaz a probabilit a tile init iale si de tranzit ie, a sa nc at formulele de reestimare a lor pentru MMA discrete (sect iunea 3.5.1) r am an valabile si n acest caz. Modic arile constau n introducerea unor noi formule pentru reestimarea parametrilor mixturilor: ponderile densit a tilor wk , vectorii medii k si matricele de covariant a C k. Densit a tile gaussiene multivariate componente ale mixturilor reprezint a un nou nivel ascuns al modelelor, sub cel al st arilor, a sa nc at pentru estimarea lor probabilitatea j (t) de ocupare a st arii sj la momentul t trebuie divizat a n probabilit a tile ca densit a tile componente s a emis observat ia ot n timp ce modelul se aa n aceast a stare jk (t) = j (t) wjk N K k =1 wjk

jk ,

jk jk ,

(ot )
jk

(ot )

k = 1...K

(3.46)

Utiliz and R secvent e de observat ii O r = or,1 or,2 . . . or,Tr , r = 1 . . . R, pentru a antrena modelul M , formulele de reestimare a valorilor parametrilor mixturilor sunt jk = jk = C w jk =
R r =1 Tr t=1 R Tr r =1 t=1 jk,r (t) or,t R Tr r =1 t=1 jk,r (t)

k = 1...K k = 1...K k = 1...K

(3.47) (3.48) (3.49)

jk,r (t) (or,t jk )(or,t jk )T , Tr R t=1 jk,r (t) r =1 =


R Tr r =1 t=1 jk,r (t) R Tr K r =1 t=1 k =1 jk,r (t)

R r =1 R r =1

Tr t=1 jk,r (t) Tr t=1 j,r (t)

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

A VORBIRII 60 RECUNOAS TEREA AUTOMATA

zero zero unu START . . . nou a STOP START unu . . . STOP

nou a

Figura 3.3: Exemplu de integrare a modelului lingvistic cu cele acustice

Modic arile care trebuie aduse algoritmului 3.2 pentru antrenarea MMA cu mixturi gaussiene includ: introducerea unor noi variabile pentru num ar atorul respectiv numitorul ec areia din aceste formule; calculul probabilit a tilor densit a tilor componente ale ec arei mixturi, jk,r (t); reestimarea parametrilor mixturilor conform formulelor (3.473.49).

3.8

Reprezentarea integrat a a cuno stint elor

C autarea sirului de cuvinte prin pronunt area c aruia este cel mai probabil s a rezultat un sir de observat ii acustice necesit a integrarea cuno stint elor incorporate de modelele lingvistice si acustice ntr-un spat iu de c autare unic, n care se poate evalua produsul P (W ) P (A|W ) din ecuat ia (3.22). Modelele Markov ascunse ofer a un cadru pentru realizarea acestei integr ari, permit a nd construct ia ierarhic a a unui MMA global care modeleaz a at at generarea cuvintelor c at si producerea vorbirii. Pentru exemplicare consider am o aplicat ie simpl a const and n recunoa sterea cifrelor zecimale (gura 3.3). Pentru recunoa sterea cifrelor zecimale, modelul lingvistic poate o gramatic a simpl a de tipul bucl a de cuvinte, reprezentabil a prin diagrama de sintax a din st anga gurii 3.3, n care o cifr a poate urmat a de oricare alta. Presupun and c a modelarea acustic a este realizat a prin MMA ale cuvintelor, integrarea acestora cu modelul lingvistic se poate face prin inserare n nodurile corespunz atoare ale diagramei de sintax a, rezultatul ind MMA extins din dreapta gurii 3.3, denumit frecvent ret ea de recunoa stere sau ret ea integrat a, care include acum at at modelul lingvistic c at si modelele acustice. Dac a gramatica nu specic a probabilit a tile cuvintelor, tranzit iile din starea START sunt implicit considerate echiprobabile, astfel nc at probabilit a tile lor pot omise din calcule, nerealiz and nici o diferent iere a cuvintelor. Dar aceea si bucl a de cuvinte poate reprezenta un model lingvistic de tip unigram, caz n care probabilit a tile cuvintelor trebuie atribuite tranzit iilor corespunz atoare din starea START sau n starea STOP. Pentru vocabulare mari si foarte mari, modelarea acustic a utilizeaz a MMA ale unor unit a ti sublexicale (silabe, semisilabe, foneme etc.), iar integrarea modelului lingvistic cu cele acustice presupune utilizarea unui model lexical, uzual un simplu dict ionar, pentru obt inerea pronunt iilor cuvintelor, eventual cu variante, n termenii unit a tilor sublexicale. Pronunt iile la r andul lor sunt reprezentabile prin modele Markov ale c aror st ari pot

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ALGORITMI DE CAUTARE

61

nlocuite cu modelele acustice ale unit a tilor sublexicale componente. Simpla nlocuire a pronunt iilor din dict ionar n nodurile modelului lingvistic duce la o reprezentare costisitoare din punct de vedere computat ional, n special n cazul vocabularelor mari si foarte mari, astfel nc at pentru cre sterea vitezei si reducerea necesarului de memorie dict ionarul poate reprezentat printr-o structur a arborescent a [12], [169], eventual comprimat a [131]. O asemenea structur a arborescent a poate folosit a si pentru factorizarea probabilit a tilor cuvintelor din modelul lingvistic statistic la nivelul unit a tilor sublexicale [231], [5], [178]. In cazul unui model lingvistic de tip n-gram, acesta poate n ntregime integrat cu dict ionarul si transformat ntr-o mult ime de subarbori [70]. Dimensiunea unei ret ele de recunoa stere este dependent a n primul r and de modelul lingvistic, motiv pentru care integrarea cuno stint elor n ret ele statice este fezabil a doar pentru modele lingvistice simple (unigram, bigram) si/sau cu vocabulare de dimensiuni moderate. Pentru vocabulare mari si foarte mari si modele mai complexe, de tip trigram sau de mai mare ntindere, integrarea se face n mod dinamic [171], [241], [264], prin construct ia efectiv a a spat iului de c autare doar n zona celor mai plauzibile ipoteze.

3.9

Algoritmi de c autare

Odat a cu integrarea cuno stint elor acumulate de modelele lingvistice si acustice ntr-o ret ea de recunoa stere, g asirea sirului de cuvinte cel mai probabil s a fost pronunt at, date ind observat iile acustice, se poate face prin c autarea n ret ea a c aii pentru care produsul P (W ) P (A|W ) este maxim. In acest produs, probabilit a tile lingvistice pot aplicate la tranzit iile ntre cuvinte, sau pe durata cuvintelor, dac a dict ionarul a fost reprezentat sub form a de arbore si probabilit a tile lingvistice au fost factorizate [231]. Datorit a valorilor foarte mici ale probabilit a tilor, nmult irile lor repetate pot ajunge rapid s a cauzeze dep a siri inferioare (underow), astfel nc at pentru evitarea acestei probleme se utilizeaz a de obicei un sistem logaritmic de reprezentare [39], [41]. Una din sl abiciunile MMA, datorat a propriet a tii Markov, este imposibilitatea lor de a tine cont de corelat ia observat iilor succesive, ceea ce face ca probabilit a tile acustice s a e subevaluate. Pentru corectare, probabilit a tile lingvistice sunt de obicei ridicate la o putere supraunitar a > 1, determinat a experimental si cunoscut a sub diferite nume, pe care n continuare o vom denumi pondere lingvistic a (language weight) [136]. Alt a problem a a sistemelor de recunoa stere automat a a vorbirii este cea a echilibrului ntre omisiuni si insert ii, pentru asigurarea c aruia se utilizeaz a o penalizare de tranzit ie , deasemeni determinat a experimental, aplicat a la tranzit iile ntre cuvinte pentru a reduce frecvent a insert iilor. Folosind o reprezentare logaritmic a a probabilit a tilor si cele dou a variabile de control si , ecuat ia (3.22) trebuie rescris a n forma = arg max[|W | + log P (W ) + log P (A|W )] W
W

(3.50)

unde |W | este lungimea sirului de cuvinte W , astfel nc at n loc de probabilitatea unui sir de cuvinte este mai corect s a vorbim despre scorul lui. Algoritmii fundamentali de c autare a c aii corespunz atoare celui mai probabil sir de cuvinte sunt algoritmul Viterbi [247] si algoritmul A [210], mai cunoscut n domeniul recunoa sterii automate a vorbirii ca algoritmul de decodare cu stiv a (stack decoding)

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

A VORBIRII 62 RECUNOAS TEREA AUTOMATA [112], [115]. Algoritmul Viterbi este unul de tip sincron, care evalueaz a toate c aile posibile p an a la un acela si moment n baza unei startegii de c autare n l a time (breadth rst), iar scorurile c ailor pot comparate deoarece toate corespund aceleia si port iuni a semnalului; ca urmare, algoritmul Viterbi este admisibil, adic a garanteaz a g asirea c aii cu scorul maxim care poate s a coincid a sau nu cu sirul de cuvinte corect. Pentru sirul de observat ii O = o1 o2 . . . oT , algoritmul Viterbi g ase ste calea (secvent a de st ari) Q = q1 q2 . . . qT optim a prin MMA integrat M (ret eaua de recunoa stere) prin calculul pentru ecare moment t si ecare stare si a probabilit a tii maxime ca modelul s a generat observat iile o1 . . . ot si s a se ae n starea si la momentul t i (t) = max P [o1 . . . ot , q1 . . . qt , qt = si |M ]
q1 ...qt1

(3.51)

simultan cu memorarea st arii anterioare care a asigurat maximizarea, i (t). Ca si p an a acum, calculele se pot realiza recursiv i (1) = i bi (o1 ) , i (1) = 0 ,
i

i = 1...N

(3.52) (3.53) t = 2...T t = 2...T (3.54) (3.55)

i = 1...N j = 1...N , j = 1...N ,

j (t) = max[i (t 1)aij ]bj (ot ) , j (t) = arg max[i (t 1)aij ] ,


i qT = arg max i (T ) , si nal a

iar calea optim a este obt inut a n nal prin parcurgerea n sens invers a matricei i (t):
(t + 1) , qt = qt +1

t = T 1...1

(3.56)

Pe l ang a decodarea lingvistic a, algoritmul Viterbi permite si obt inerea unei aproxim ari a probabilit a tii P (O |M ), cunoscut a ca aproximarea Viterbi, prin cea a c aii optime P (O |M ) = max i (T )
si nal a

(3.57)

iar pe baza corespondent ei dintre st arile q1 q2 . . . qT si observat iile o1 o2 . . . oT , parametrii modelelor acustice pot reestimat i prin a sa-numita metod a Viterbi de antrenare a MMA, care utilizeaz a doar evenimentele asociate cu parcurgerea c aii de probabilitate maxim a. De si admisibil, algoritmul Viterbi se poate dovedi prohibitiv din punct de vedere al timpului de calcul necesar c aut arii solut iei optime. Pentru cre sterea vitezei de obt inere a unei solut ii, el a fost modicat prin reducerea (pruning) spat iului de c autare doar la un fascicol (beam) de c ai printre care este cel mai probabil s a e localizat a si cea optim a [146], [171], ceea ce a dus la un algoritm de c autare neadmisibil. Determinarea fascicolului considerat la un moment dat se poate face pe baza unui prag de reducere (pruning threshold) fat a de starea cea mai probabil a la acel moment, a unui num ar maxim permis de st ari componente [231] sau a unor combinat ii ale acestor criterii. Algoritmul A sau de decodare cu stiv a este un algoritm asincron, de tip best rst, cu o parcurgere arborescent a a spat iului de c autare, diferit a de cea de tip grilaj (trellis) din cazul algoritmului Viterbi, ceea ce conduce la c ai part iale de lungimi diferite, ntre ale c aror scoruri comparat iile directe nu au sens. Comparat iile se fac doar la nivelul unor

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CONCLUZII

63

c ai complete, Q = q1 q2 . . . qT , pe baza unor estim ari ale scorurilor lor date de o funct ie de evaluare f (Q) = g (Q1,t ) + h(Qt+1,T ) (3.58) unde g (Q1,t ) este scorul exact al c aii part iale Q1,t = q1 . . . qt , iar h(Qt+1,T ) este o funct ie euristic a realiz and o estimare a scorului restului c aii Qt+1,T = qt+1 . . . qT . Caracterul euristic al funct iei h face ca algoritmul A s a nu e ntotdeauna admisibil. Impreun a cu dicult a tile estim arii propriu-zise, acest lucru a f acut ca algoritmul A s a e mai put in utilizat n sistemele de recunoa stere a vorbirii. Oferind o decuplare ideal a a modelului lingvistic de cele acustice [8], el are ns a o serie de avantaje n cazul utiliz arii unor modele lingvistice de tip n-gram de mai mare ntindere (n > 3), astfel nc at pe viitor ne putem a stepta la o cre stere a frecvent ei utiliz arii lui. In forma de baz a, at at algoritmul Viterbi c at si A asigur a g asirea unei c ai optime unice, dar n practic a, datorit a erorilor de modelare sau c autare, aceasta poate diferit a de cea corect a, corespunz atoare sirului de cuvinte pronunt at. Unele dintre erorile de acest tip pot corectate de aplicat ia n care este integrat sistemul de recunoa stere dac a acesta genereaz a nu doar sirul de cuvinte corespunz ator c aii optime, ci o structur a de date mai complex a. Au ap arut astfel algoritmi de tip N-Best [217], [216], gener and o list a a celor mai probabile N propozit ii, si algoritmi n mai mult i pa si [9], [226], eventual cu generarea unor structuri de date mai complicate, de tip latice sau graf de cuvinte [4], [103]. Aceste structuri de date asigur a reprezentarea at at a unor spat ii de c autare reduse pentru pa si succesivi, c at si a rezultatelor nale.

3.10

Concluzii

Pentru recunoa sterea automat a a vorbirii au fost ncercate de-a lungul timpului diferite metode, iar acest capitol le-a prezentat pe cele care, n urma performant elor demonstrate prin evaluarea sistemelor n care au fost implementate, se num ar a printre cele mai frecvent utilizate n sistemele contemporane de recunoa stere a vorbirii si au fost utilizate si n cercet arile proprii. Pentru a clar modul n care se poate face evaluarea sistemelor, primele au fost descrise chiar metodele si metricele utilizate n acest scop. Utilizarea parametrilor semnalului vocal pentru recunoa sterea automat a a vorbirii presupune gruparea lor n vectori dintr-un spat iu acustic. Recunoa sterea ca atare poate precedat a de o serie de operat iuni n acest spat iu: calculul unor distant e acustice semnicative din punct de vedere perceptual; transform ari ale spat iului acustic n scopul reducerii anizotropiei lui; cuantizarea vectorial a care, utiliz and o mult ime de vectori prototip, permite comprimarea si reprezentarea discret a a vectorilor acustici. Dintre diferitele metode ncercate pentru recunoa sterea propriu-zis a, doar dou a au rezistat p an a n prezent: deformarea dinamic a a timpului si modelele Markov ascunse. Deformarea dinamic a a timpului este nc a utilizat a pentru recunoa sterea dependent a de vorbitor a unor vocabulare mici de cuvinte rostite izolat, av and avantajul gener arii simple a tiparelor cu care sunt comparate ulterior pronunt iile de recunoscut. Aceast a simplitate nu permite ns a reprezentarea cu sucient a precizie a marii variabilit a ti a semnalelor vocale, care poate acoperit a doar apel and la metode statistice.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

A VORBIRII 64 RECUNOAS TEREA AUTOMATA Recunoa sterea automat a a vorbirii prin metode statistice presupune modelarea ei lingvistic a si acustic a si integrarea modelelor rezultate ntr-un spat iu unic al solut iilor. Atingerea acestor obiective poate realizat a prin utilizarea modelelor Markov ascunse, care constituie fundamentul sistemelor moderne de recunoa stere a vorbirii, iar acest capitol a inclus o vedere de ansamblu asupra lor, cu detalierea aspectelor esent iale, alte am anunte legate de utilizarea lor urm and a prezentate n restul tezei. G asirea sirului de cuvinte cel mai probabil s a fost pronunt at dat ind semnalul de recunoscut necesit a construct ia unei reprezent ari integrate a modelelor lingvistice si acustice si evaluarea posibilelor solut ii prin utilizarea unor algoritmi de c autare n spat iul solut iilor. Modelele Markov ascunse permit rezolvarea elegant a a ambelor probleme prin construct ia ierarhic a a unor modele nglob andu-le pe cele lingvistice si acustice, cunoscute sub numele de ret ele de recunoa stere sau ret ele integrate, n care sirul cel mai probabil de cuvinte este g asit cel mai adesea folosind algoritmul Viterbi.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CAPITOLUL 4 Baza de date fonetice


Utilizarea metodelor statistice de recunoa stere automat a a vorbirii, prezentate n capitolul 3, impune existent a unor date pe baza c arora s a poat a construite modelele implicate de ecuat ia (3.22): semnale vocale pentru modelele acustice, respectiv texte pentru modelele lingvistice. In cursul primelor cercet ari au fost utilizate semnale vocale colectate ad-hoc, uzual specice unor aplicat ii [15], [146], si arhive de texte private [113]. Dezvoltarea cercet arilor asupra recunoa sterii automate a vorbirii, utiliz and multiple abord ari ale problemelor ei, a f acut necesar a evaluarea nu doar a performant elor n sine ale sistemelor de recunoa stere, ci si a semnicat iei statistice [37], [158] a diferent elor dintre aceste performant e. Drept urmare, n anii 80 a nceput colectarea si publicarea unor baze de date vocale de uz general [45] sau specice unor aplicat ii. Acestea s-au dovedit esent iale pentru dezvoltarea si testarea unor sisteme de recunoa stere, precum si pentru evaluarea si compararea acestor sisteme utiliz and seturi de date standard. Probabil cele mai cunoscute exemple de baze de date specice unor aplicat ii sunt TIDIGITS [140], colectat a la Texas Instruments (TI) pentru studiul recunoa sterii sirurilor de cifre, si Resource Management (RM) [192], dezvoltat a n cadrul programului DARPA de recunoa stere automat a a vorbirii si av and n vedere o aplicat ie de conducere a resurselor militare navale (nave de r azboi) ale Statelor Unite. Disponibilitatea acesteia din urm a a fost esent ial a n demonstrarea fezabilit a tii recunoa sterii independente de vorbitor a vorbirii continue cu vocabulare mari [135] si, n ultim a instant a , impunerea metodelor statistice de recunoa stere automat a a vorbirii n raport cu alte abord ari. Succesul metodelor statistice, bazate pe estimarea automat a din date de antrenament a parametrilor sistemelor de recunoa stere, a pus n evident a important a fundamental a a datelor si a condus la construirea unor noi baze de date vocale, de dimensiuni din ce n ce mai mari, viz and aplicat ii diverse si ncerc and s a acopere port iuni c at mai extinse din variabilitatea semnalului vocal. Cele mai importante, prin contribut ia la atingerea nivelului actual, r am an cele din cadrul programului amintit al DARPA, program care
Cercet ari realizate cu sprijinul Comisiei Europene prin contractul COPERNICUS 1304/1994 si al fostului Consiliu Nat ional al Cercet arii S tiint ice Universitare CNCSU (devenit din 1999 Consiliul Nat ional al Cercet arii S tiint ice din Inv a ta m antul Superior CNCSIS) prin grantul 56/1995.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

65

66 BAZA DE DATE FONETICE de-a lungul timpului a inclus sisteme de informat ii despre tracul aerian [99], dictare automat a [183], transcrierea convorbirilor telefonice [94] si a emisiunilor radio-TV [95]. O categorie aparte a bazelor de date vocale, destul de restr ans a datorit a dicult a tilor implicate de construct ia lor, este constituit a de a sa-numitele baze de date fonetice, prima si cea mai cunoscut a si utilizat a dintre ele ind TIMIT [81], construit a n cooperare de Texas Instruments (TI) [71] si Massachusetts Institute of Technology (MIT) [132], cu unele contribut ii de la Stanford Research Institute [51]. Elementele denitorii ale unei asemenea baze de date sunt cont inutul controlat prin proiectarea corespunz atoare a materialelor nregistrate si selectarea vorbitorilor, o calitate deosebit a a nregistr arilor, precum si adnotarea cont inutului cu informat ii fonetice si fonologice. Datorit a acestor caracteristici, o baz a de date fonetice constituie o resurs a esent ial a nu numai pentru cercet arile n direct ia recunoa sterii automate a vorbirii, ci si pentru cele din alte domenii ale prelucr arii automate a vorbirii, precum si o surs a de cuno stint e fundamentale, de fonetic a si fonologie a limbii n care au fost pronunt ate materialele nregistrate. Date ind inexistent a unei baze de date corespunz atoare pentru cercet arile asupra recunoa sterii automate independent a de vorbitor a vorbirii continue n limba rom an a si insucient a constatat a a cuno stint elor de fonetic a acustic a si fonologie a limbii rom ane (insucient a conrmat a ulterior chiar si de lingvi sti n literatura de specialitate [234]), construct ia unei asemenea baze de date s-a impus ca o prim a etap a a cercet arilor, iar n acest capitol vor prezentate detalii legate de proiectarea si colectarea ei [32], [34].

4.1

Considerat ii de proiectare

Disponibilitatea unor baze de date vocale corespunz atoare reprezint a o precondit ie pentru multe cercet ari fundamentale sau aplicative din diverse domenii ale stiint ei si tehnologiei vorbirii, iar amploarea pe care aceste cercet ari o pot lua face imposibil a din punct de vedere practic colectarea, pentru o anumit a limb a, a unei baze de date care s a le satisfac a simultan cerint ele. Uneori, aceste cerint e pot satisf acute prin utilizarea unor baze de date deja existente sau a unor subseturi convenabil alese ale acestora. Exist a ns a si numeroase situat ii n care se impune colectarea unor noi baze de date, una dintre acestea ind si extinderea la noi limbi sau dialecte a cercet arilor asupra recunoa sterii automate a vorbirii: de si au fost ncercate diferite metode de utilizare a datelor dintr-o limb a pentru recunoa sterea pronunt iilor unei alte limbi [253], [162], unele viz and limba rom an a [155], recunoa sterea multi- si croslingual a [215] sau independent a de limb a [44], performant ele obt inute se mbun at a tesc odat a cu cre sterea cantit a tii datelor din noua limb a folosite pentru construirea sau adaptarea modelelor acustice. Proiectarea si colectarea unei noi baze de date devine cu at at mai necesar a atunci c and cuno stint ele fundamentale de fonetica si fonologia noii limbi, necesare si pentru recunoa sterea automat a, sunt insuciente: din p acate, aceasta este si situat ia limbii rom ane, n cazul c areia aceste lipsuri se manifest a n literatura de specialitate e prin lipsa abord arii unor subiecte, e prin tratarea lor contradictorie sau chiar eronat a. Deciziile de proiectare a bazei de date descrise aici au fost inuent ate, n consecint a , de necesitatea de a facilita: modelarea acustic a a semnalului vocal, n vederea atingerii obiectivului principal

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ILOR DE MODELARE ALEGEREA UNITAT

67

stabilit al acestor cercet ari (sect iunea 1.3) recunoa sterea vorbirii continue n limba rom an a, independent a de vorbitor, cu vocabulare n jurul a 1000 de cuvinte; validarea sau obt inerea unor noi cuno stint e de fonetic a si fonologie a limbii rom ane, a c aror insucient a a fost resimt it a nc a din aceast a faz a a cercet arilor si conrmat a n parte de rezultate prezentate n capitolele urm atoare. Din marea varietate de tipuri de pronunt are, condit ii de mediu etc. posibile, aceast a baz a de date a fost limitat a la nregistr ari de calitate, ntr-un mediu afectat c at mai put in de zgomote si reverberat ii, ale unor pronunt ii rezultate cu preponderent a din citirea n varianta standard (literar a) a limbii rom ane a unor texte preg atite n mod special pentru a asigura un cont inut al nregistr arilor corespunz ator scopurilor propuse. Dat ind obiectivul principal al cercet arilor, proiectarea bazei de date, descris a n urm atoarele trei sect iuni, a cuprins: alegerea unor unit a ti de modelare acustic a adecvate; preg atirea materialelor de nregistrat; specicarea caracteristicilor vorbitorilor si alocarea materialelor pe care le vor nregistra.

4.2

Alegerea unit a tilor de modelare

Recunoa sterea automat a a vorbirii se poate realiza, dup a cum s-a ment ionat, folosind modele acustice ale cuvintelor sau ale unor unit a ti sublexicale silabe, semisilabe, sunete etc. Alegerea unit a tilor de modelare are o inuent a decisiv a asupra acuratet ii cu care modelele acustice reprezint a variabilitatea semnalului vocal, n special cea cauzat a de coarticulat ie, const and n modicarea caracteristicilor sunetelor vorbirii funct ie de cele adiacente si datorat a mi sc arilor anticipatorii si inert iale ale articulatorilor. Exemple de manifest ari ale coarticulat iei pot urm arite n gura 5.1: coarticulat ia este cea mai vizibil a n cazul sunetului [l], cele trei aparit ii ale lui av and ecare caracteristici spectrale diferite, dar poate observat a si n cazul altor sunete de exemplu [j] sau [a]. Utiliz and cuvinte ca unit a ti de modelare acustic a, o bun a parte din variabilitatea datorat a coarticulat iei cea corespunz atoare interact iunii dintre sunete n interiorul cuvintelor va inclus a n modelele rezultate, dar va r am ane totu si neacoperit a cea cauzat a de interact iunile dintre cuvinte, localizat a la extremit a tile lor. Aceasta ar putea la r andul ei reprezentat a prin modele dependente de context ale cuvintelor, dar odat a cu cre sterea m arimii vocabularului va cre ste si num arul modelelor. In plus, va cre ste proport ional si cantitatea de date necesare pentru antrenarea lor. Un alt dezavantaj, poate cel mai important, al cuvintelor ca unit a ti de modelare acustic a, este acela al lipsei lor de generalitate: extinderea vocabularului unui sistem de recunoa stere bazat pe modele ale cuvintelor necesit a date suplimentare, const and din nregistr ari ale cuvintelor nou introduse n vocabular, pentru antrenarea unor noi modele acustice. Din aceste motive, modele acustice ale cuvintelor sunt utilizate doar n sisteme pentru aplicat ii simple, cu vocabulare nchise de zeci sau maximum sute de cuvinte. Dintre unit a tile de modelare sublexicale, silabele si unit a tile derivate sunt adesea considerate unit a ti naturale din punct de vedere al coarticulat iei si al posibilit a tilor de a reprezenta variabilitatea asociat a ei. In practic a, ele se dovedesc ns a dicil de utilizat datorit a problemelor care pot apare la extinderea vocabularului, precum si a celor de

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

68 BAZA DE DATE FONETICE

Tabelul 4.1: Unit a ti fonetice de modelare acustic a simboluri si exemple

Simboluri IPA ASCII i I e y  @  a  u o  j E  w

Exemple vin ani el n ca an ud om iar deal nou

Simboluri IPA ASCII O p b t  d f  v  s  z S  J

Exemple coate pa r ban tip dar foc vin stop zi si jok

Simboluri IPA ASCII k g T


C  G h  m   n  l r  #

Exemple cap ga t tap ce ger han mic nas lac ra u pauz a

acoperire a pronunt iilor de recunoscut, care fac necesar a combinarea lor cu modele de tip fonemic. In plus, unele experimente [35] au ar atat c a performant ele astfel obt inute sunt inferioare celor ale sistemelor bazate pe modele dependente de context de tip fonemic. Ulterior, studii teoretice [97] au ar atat c a silabele ar putea cea mai bun a unitate de modelare a variabilit a tii din vorbirea spontan a, iar experimente de recunoa stere [79] au conrmat unele avantaje ale silabelor ca unit a ti de modelare acustic a. Dar chiar c and sistemele evaluate au utilizat modele ale silabelor, ele au inclus si modele dependente de context de tip fonemic pentru a putea acoperi toate pronunt iile de recunoscut. Pentru a obt ine modele acustice c at mai generale folosind o cantitate minim a de date pentru antrenarea lor, recunoa sterea automat a a vorbirii continue cu vocabulare mari si foarte mari este n general bazat a pe unit a ti de modelare de tip fonetic sau, prin legarea parametrilor la nivelul st arilor, chiar subfonetic [108]. In acest caz, variabilitatea datorat a coarticulat iei este acoperit a prin modelarea dependent a de context, o aceea si unitate put and reprezentat a prin mai multe modele, diferent iate funct ie de unit a tile care o preced si/sau urmeaz a. Se obt in astfel modele cu un grad mare de generalitate, u sor de reutilizat n cazul modic arii sau extinderii vocabularului si care pot valorica cu ecient a maxim a cantitatea de date disponibile pentru antrenarea lor. T in and cont de aspectele ment ionate, proiectarea bazei de date s-a f acut av and n vedere modelarea acustic a prin unit a ti sublexicale de tip fonetic. Din p acate, cuno stint ele disponibile de fonetic a acustic a si fonologie a limbii rom ane, pe baza c arora ar trebuit denit un set de asemenea unit a ti, s-au dovedit insuciente, exist and diverse pozit ii ale lingvi stilor n ceea ce prive ste fonemele limbii rom ane [193], [244], uneori contradictorii [190] sau chiar gre site [206]. Analiz and seturile de foneme identicate sau acceptate de diver si autori si lu and n considerare diferent ele dintre ele, am denit un set de unit a ti care, direct sau prin combinat ii, acoper a aceste variante (tabelul 4.1). Tabelul 4.1 cuprinde at at simboluri din alfabetul fonetic internat ional (International Phonetic Alphabet IPA), pentru a facilita comparat iile cu literatura lingvistic a, c at si

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

MATERIALELE DE INREGISTRAT

69

simboluri ASCII, pentru adnotarea fonetic a pe calculator a semnalelor vocale, alese c at mai aproape de simbolurile IPA sau c at mai sugestive si utilizate si n continuare. Trei unit a ti sunt implicate ntr-o bun a parte din diferent ele dintre seturile de foneme ale limbii rom ane identicate si/sau acceptate n literatura lingvistic a: /I/ apare doar n pozit ie postconsonantic a nal a, n cuvinte ca ani, azi, mari etc.: unele sisteme fonologice ale limbii rom ane standard l consider a un alofon o variant a pozit ional a, scurt a, asilabic a si (uneori) devocalizat a, a lui /i/, /j/ sau /e/; altele neag a chiar existent a separat a a realiz arilor lui zice, reduc andu-l la un rol diacritic, de marcaj al palataliz arii consoanei precedente n acest caz, sistemul fonologic include cu statut de foneme o serie de consoane palatalizate; /E/ si /O/ sunt uneori interpretate ca alofone e ale vocalelor /e/ respectiv /o/, e ale semivocalelor/semiconsoanelor /j/ respectiv /w/; n mod corespunz ator, va diferi mult imea acceptat a a diftongilor si triftongilor unii dintre ei subiect, la r andul lor, al unor discut ii asupra naturii lor mono- sau multifonemice. Alte diferent e ntre sisteme fonologice (de ex. statutul de foneme sau alofone pentru consoanele [k] si [g] palatalizate) au fost considerate neglijabile din punctul de vedere al cercet arilor noastre, put and acoperite prin modelare dependent a de context. Unit a tile din tablelul 4.1 vor denumite n continuare foneme (sg. fonem), notate /x/, c and va vorba de categorii abstracte de sunete distinctive ale limbii rom ane, respectiv sunete, notate [x], pentru a indica realiz ari zice ale acestor categorii.

4.3

Materialele de nregistrat

Scopul principal al cercet arilor ind recunoa sterea automat a a vorbirii continue n limba rom an a, nregistr arile din baza de date trebuie s a cont in a un num ar sucient de mare de aparit ii ale unor unit a ti de modelare acustic a pentru a permite estimarea cu acuratet e a modelelor lor. In plus, pentru a asigura si independent a de vorbitor a modelelor, aceste aparit ii trebuie s a provin a din pronunt ii ale c at mai multor vorbitori. Pe l ang a modelarea acustic a, la construct ia unei baze de date pentru cercet ari asupra recunoa sterii automate a vorbirii trebuie avut a n vedere si modelarea lingvistic a. Intr-o faz a mai avansat a a cercet arilor, aceasta se poate realiza prin extragerea textelor ce vor citite pentru nregistrare dintr-un corpus de texte de mai mari dimensiuni, utilizabil si pentru construct ia de modele lingvistice de tip n-gram. Adesea, un asemenea corpus este obt inut, datorit a caracteristicilor textelor cont inute, din arhive n format electronic ale unor ziare. Aceast a metod a a fost folosit a, de exemplu, pentru construct ia bazei de date WSJ, plec and de la arhive ale Wall Street Journal, n cadrul programului DARPA [183], sau a bazei de date franceze BREF [86], utiliz and texte din Le Monde. Dat ind stadiul incipient al cercet arilor noastre, dicultatea obt inerii si prelucr arii unui corpus de tipul ment ionat, precum si unele aspecte (pre-normalizare si standarde) vizate de programul COPERNICUS al Comisiei Europene, n cadrul c aruia a nceput construct ia ei [203], [204], pentru aceast a baz a de date s-a ales varianta compatibilit a tii cu baza de date EUROM [46], dezvoltat a anterior n proiectele ESPRIT SAM si SAM-A.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

70 BAZA DE DATE FONETICE Compatibilitatea se refer a at at la materialele cont inute si vorbitorii nregistrat i, c at si la utilizarea acelora si organiz ari si formate ale sierelor constituente [90]. EUROM a fost proiectat a cu un cont inut comparabil pentru cele 11 limbi ociale (la acea dat a) din ta rile Uniunii Europene: 40 de pasaje de c ate 5 propozit ii legate tematic, cu teme comune n toate limbile, utile pentru antrenarea, testarea si evaluarea sistemelor de recunoa stere; un num ar de propozit ii de completare, asociate pasajelor, compuse n mod special pentru a compensa variat iile frecvent elor fonemelor n pasaje; 100 de numere ntregi ntre 0 si 9999, selectate pentru a acoperi principalele lor constr angeri fonotactice, utile pentru testarea si evaluarea unor sisteme; logatomi de forma CVC (consoan a-vocal a-consoan a), izolat i si n cinci contexte de c ate dou a cuvinte, pentru diagnoza sistemelor [229], [230]. Pentru ecare limb a, (circa) 60 de vorbitori, (c at mai) egal distribuit i pe sexe, au nregistrat 3-5 pasaje, 0-5 propozit ii de completare si numerele, iar c a tiva logatomi. Compatibilitatea cu EUROM este asigurat a printr-un nucleu obt inut plec and de la materialele din aceasta: 40 de pasaje; 26 propozit ii de completare; un set de 26 numere ntre 0 si 9999, acoperind constr angerile fonotactice ale numerelor din aceast a gam a n limba rom an a si minimizat plec and de la diagramele lor de sintax a; logatomi de forma CVC si cinci perechi de cuvinte-contexte, proiectate pentru limba rom an a conform acelora si principii utilizate si n cazul EUROM [230]. In jurul acestui nucleu au mai fost incluse: patru propozit ii fonemic compacte, citite de c atre tot i vorbitorii si utile pentru init ializarea modelelor acustice; propozit ii individuale, specice ec arui vorbitor, selectate dintr-un corpus printr-un algoritm de tip greedy av and ca obiectiv maximizarea num arului de difoni a steptat i s a apar a din citirea pasajelor si a propozit iilor de completare si individuale; materiale care s a permit a dezvoltarea unor aplicat ii simple si studiul diferent elor ntre stilul citit si cel semispontan de vorbire: alfabetul limbii rom ane (citit) si unele informat ii furnizate semispontan de vorbitori (numele, pe cuvinte si litere; seria si num arul buletinului de identitate; num arul de telefon; data na sterii; adresa). Prezent am n continuare unele detalii legate de materialele principale, utilizate pentru antrenarea si evaluarea sistemelor de recunoa stere a vorbirii pasajele si propozit iile.

4.3.1

Pasajele

Criteriul temelor lor comune n toate limbile din EUROM a impus traducerea si adaptarea pasajelor dintr-o versiune init ial a n limba englez a. Realizate ca transcrieri fonemice folosind un editor cu facilit a ti de calcul si a sare n timp real a unor statistici

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

MATERIALELE DE INREGISTRAT Algoritmul 4.1 Algoritmul de grupare a pasajelor 1: P num arul de pasaje, K num arul de clustere {K divizor al lui P} 2: FON list a foneme, PAS list a pasaje, CLUS list a clustere (vide) 3: for f FON, p PAS, c CLUS do 4: N p[f] num arul de aparit ii ale f n pasajul p 5: N c[f] 0 {clustere vide} 6: N[f] num arul total de aparit ii ale f 7: end for n ordinea cresc atoare a num arului de aparit ii ale fonemelor 8: ordoneaz a FON 9: for f FON do 10: ordoneaz a CLUS n ordinea descresc atoare a num arului de aparit ii ale f 11: ordoneaz a PAS n ordinea cresc atoare a num arului de aparit ii ale f 12: while c CLUS a. . N c[f] < N[f]/K [f] do 13: for c CLUS do 14: if N c[f] < N[f]/K [f], c incomplet si PAS nevid a then 15: adaug a la c primul pasaj p din PAS 16: N c[f] N c[f] + N p[f] 17: sterge primul pasaj din PAS 18: else if N c[f] < N[f]/K [f] si c complet sau PAS vid a then 19: abandoneaz a ncercarea de grupare 20: end if 21: end for 22: end while 23: end for 24: for p PAS do 25: adaug a p la primul cluster incomplet 26: end for

71

ale fonemelor, traducerea si adaptarea au inclus modic ari, n special ale unor toponime, pentru a cre ste frecvent ele de aparit ie ale fonemelor rare. Pentru a obt ine o structur a c at mai ordonat a a nregistr arilor si o distribut ie c at mai echilibrat a a fonemelor n pronunt iile vorbitorilor, cele 40 de pasaje au fost grupate n 10 clustere de c ate 4 pasaje folosind un algoritm special conceput (algoritmul 4.1) care urm are ste gruparea a P pasaje n K clustere de c ate P/K pasaje n care fonemele s a e, n limita posibilit a tilor, c at mai uniform distribuite. In cursul producerii vorbirii, fonemele sunt realizate cu frecvent e diferite ( n pasaje, de exemplu, numerele totale de aparit ii ale fonemelor, N p[f], variaz a ntre 15 si 1104), iar construct ia unor modele acustice de o calitate acceptabil a impune ca ecare fonem s a aib a cel put in un anumit num ar minim de realiz ari. Din aceast a cauz a, fonemele rare trebuie urm arite cu prioritate maxim a, iar numerele minime de aparit ii ale fonemelor n clustere (liniile 12, 14 si 18) sunt asigurate n ordinea cresc atoare a numerelor totale de aparit ii ale fonemelor (linia 8): pentru a obt ine si o distribut ie pe clustere c at mai uniform a, num arul de aparit ii ale fonemului f n clusterul c, N c[f], poate cu cel mult [f] mai mic dec at num arul s au mediu de aparit ii ntr-un cluster, N[f]/K. Abaterea maxim a

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

72 BAZA DE DATE FONETICE

Tabelul 4.2: Gruparea pasajelor n clustere

Cluster Pasaje

0 1 P6 O7 Q0 P4 Q3 Q5 R0 R2

2 O1 P7 Q1 R7

3 4 5 O0 O9 P2 O2 P8 Q4 O3 Q8 R1 Q9 R3 R9

6 7 8 9 O6 O5 O4 O8 P1 Q2 P9 P0 P3 Q7 Q6 R4 P5 R6 R5 R8

admisibil a [f], dependent a de fonem pentru a tine cont de inegalitatea frecvent elor de aparit ie, a fost calculat a n implementarea practic a a algoritmului cu formula [f] = a N[f] minf (N[f]) maxf (N[f]) minf (N[f]) (4.1)

gruparea efectiv a a pasajelor ind realizat a prin utilizarea constantei a = 73. In m asura n care acest lucru a fost posibil, aceea si abatere maxim a [f] a fost utilizat a si pentru a limita dep a sirea num arului mediu de aparit ii ale unui fonem ntr-un cluster. Pasajele au fost identicate printr-un cod format dintr-o liter a (O, P, Q sau R) si o cifr a zecimal a (0. . . 9), iar gruparea lor n clustere este prezentat a n tabelul 4.2.

4.3.2

Propozit iile

Pe l ang a necesit a tile model arii acustice si compatibilitatea cu EUROM, preg atirea materialelor de nregistrat a luat n calcul si aspecte legate de etichetarea bazei de date. Astfel, av and n vedere automatizarea etichet arii folosind modele Markov ascunse, au fost create patru propozit ii fonemic compacte citite de c atre tot i vorbitorii nregistrat i, propozit ii a sa-zise de init ializare: din citirea ec areia se a steapt a s a se obt in a minimum o realizare a ec arui fonem, iar prin etichetarea manual a a nregistr arilor (sect iunea 5.3.1) materialul pentru init ializarea unor modele acustice ale fonemelor. O a doua categorie de propozit ii este a celor de completare: n urma grup arii pasajelor, c ateva foneme erau nc a slab reprezentate n unele clustere de exemplu, fonemele /G/ si /h/ ap areau doar de c ate 15 ori n total, si n multe clustere doar o singur a dat a. Din acest motiv au fost create, folosind acela si editor de transcrieri fonemice utilizat si pentru pasaje, 26 propozit ii de completare care s a asigure pentru toate fonemele un num ar minim de aparit ii n ecare cluster. Acest num ar minim a fost ales av and din nou n vedere automatizarea etichet arii: studii anterioare [214] au indicat c a etichetarea automat a folosind MMA ale fonemelor necesit a pentru antrenarea unui MMA un num ar minim de cca. 70 realiz ari ale fonemului asociat; ca urmare, av and n vedere etichetarea n tran se de nregistr ari ale celor 10 clustere, ecare cluster a fost extins cu 2 sau 3 propozit ii de completare, care s a asigure oric arui fonem minimum 7 aparit ii/cluster. Ultima categorie de propozit ii, incluse pentru o mai mare varietate a materialelor nregistrate, sunt cele individuale, specice unui anumit vorbitor. Ele au fost obt inute plec and de la texte literare, din care ntr-o prim a faz a au fost extrase propozit ii de dimensiuni convenabile pentru nregistr ari. Printr-un algoritm de tip greedy urm arind maximizarea num arului de difoni, din corpus au fost apoi alese 558 propozit ii.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

VORBITORII

73

Tabelul 4.3: Distribut ia vorbitorilor pe clustere extinse alocate pentru citire. Prima din cele dou a litere care formeaz a codul unui vorbitor arat a sexul (F,G feminin, M,N masculin), iar indicii arat a grupele de v arst a, numerotate n ordinea: sub 20 de ani; 20-29; 30-39; 40-49; 50 si peste 50 de ani.

Cluster 0 1 2 3 4 5 6 7 8 9

MA1 FA1 MB2 FB2 MC3 FC3 MD4 FD4 ME5 FE5

FF2 MF2 FG3 MG3 FH4 MH4 FI5 MI5 FJ1 MJ1

MK3 FK3 ML4 FL4 MM5 FM5 MN1 FN1 MO2 FO2

FP4 MP4 FQ5 MQ5 FR1 MR1 FS2 MS2 FT3 MT3

Vorbitori MU5 GA1 FU5 NA1 MV1 GB2 FV1 NB2 MX2 GC3 FX2 NC3 MY3 GD4 FY3 ND4 MZ4 GE5 FZ4 NE5

NF2 GF2 NG3 GG3 NH4 GH4 NI5 GI5 NJ1 GJ1

GK3 NK3 GL4 NL4 GM5 NM5 GN1 NN1 GO2 NO2

NP4 GP4 NQ5 GQ5 NR1 GR1 NS2 GS2 NT3 GT3

GU5 NU5 GV1 NV1 GX2 NX2 GY3 NY3 GZ4 NZ4

4.4

Vorbitorii

Existent a celor 10 clustere extinse a f acut posibil a planicarea nregistr arilor n grupe de 20 de vorbitori egal distribuit i pe sexe, iar compatibilitatea cu EUROM [46] a impus nregistrarea a minimum 60 de vorbitori. Pentru a obt ine ns a c at mai multe date pentru antrenarea, testarea si evaluarea sistemelor de recunoa stere, am anticipat o extindere p an a la 100 de vorbitori, cu o posibil a faz a intermediar a la 80 de vorbitori. Ansamblul vorbitorilor constituie, n terminologia EUROM, a sa-numita mult ime Many Talker, prescurtat MT, tot i vorbitorii trebuind s a nregistreze ntr-o singur a sesiune: materiale care asigur a compatibilitatea cu EUROM: c ate un cluster extins (4 pasaje si 2 sau 3 propozit ii de completare asociate) si cele 26 numere ntre 0 si 9999; materiale adit ionale: cele 4 propozit ii de init ializare, 3. . . 7 propozit ii individuale, alfabetul si informat iile personale. Dat a ind repetarea nregistr arilor celor 10 clustere extinse, pe l ang a reprezentarea egal a a celor dou a sexe am mai urm arit si distribut ia uniform a a vorbitorilor n cinci grupe de v arst a sub 20, 20-29, 30-39, 40-49, 50 si peste 50 ani. Vorbitorii au fost astfel repartizat i pe clustere ntr-o structur a bloc aleatoare (randomized block design) [37], [158] av and ca variabile de blocare sexul si grupa de v arst a (tabelul 4.3). In tabelul 4.3, primele sase coloane de vorbitori asigur a compatibilitatea cu EUROM, iar urm atoarele dou a faza intermediar a de 80 vorbitori. Zece vorbitori, unul din ecare sex si grup a de v arst a (evident iat i n tabel), constituie mult imea Few Talker, prescurtat FT. Ei au fost planicat i s a nregistreze n plus logatomii de tip CVC, iar n patru sesiuni suplimentare, decalate la c ate cel put in dou a s apt am ani patru noi clustere extinse si numerele. Doi vorbitori din mult imea FT (subliniat i n tabel), unul din ecare sex,

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

74 BAZA DE DATE FONETICE

Tabelul 4.4: Propriet a ti ale clusterelor de pasaje extinse cu propozit ii de completare: entropiile fonemelor si numerele de cuvinte distincte si totale

Cluster 0 1 2 3 4 5 6 7 8 9 Toate

Entropie 4,51 4,54 4,49 4,49 4,48 4,51 4,51 4,55 4,53 4,55 4,53

Cuvinte distincte 177 170 182 178 161 174 171 177 166 188 1160

Total cuvinte 272 244 256 267 219 238 238 246 239 259 2478

formeaz a mult imea Very Few Talker, prescurtat VT, ei nregistr and n prima sesiune si logatomii n cinci contexte de c ate dou a cuvinte, precum si aceste cuvinte izolate.

4.5

Analize statistice

Analiza clusterelor extinse (tabelul 4.4) a ar atat c a ele au caracteristici comparabile at at prin prisma valorilor entropiei fonemelor, c at si a numerelor de cuvinte distincte si totale, numere n limitele a 8% respectiv 12% fat a de medie (sub dou a abateri standard). Constatarea este sust inut a si de valorile entropiei relative (divergent a informat ional a [129] sau Kullback-Leibler) dintre distribut iile lor fonemice, valori cuprinse ntre 0,02 si 0,05 bit i, cu o medie de 0,032 bit i si o abatere standard de 0,0075 bit i. Se constat a de asemeni c a num arul de 1160 cuvinte distincte din clusterele extinse permite abordarea obiectivului principal al cercet arilor (sect iunea 1.3) recunoa sterea vorbirii continue, independent a de vorbitor, cu vocabulare n jurul a 1000 de cuvinte. Pentru a verica satisfacerea criteriului num arului minim de aparit ii ale unui fonem (sect iunea 4.3.2) si a estima cantitatea de date disponibil a pentru antrenarea modelelor acustice, a fost realizat a si o statistic a a fonemelor (tabelul 4.5) n transcrierile fonemice ale pasajelor si propozit iilor de completare, respectiv a numerelor de pronunt ii ale lor a steptate s a apar a in nregistr arile de pasaje si propozit ii de completare si individuale ale 60, 80 si 100 vorbitori. In tabelul 4.5, fonemele sunt n general n ordinea cresc atoare a numerelor (a steptate) de aparit ii. C ateva except ii apar n cazul transcrierilor pentru perechile de foneme /z/-/b/, /p/-/m/ si /t/-/n/, ale c aror numere de aparit ii sunt n ordine invers a: diferent ele dintre numere sunt ns a mici, iar textele literare din care provin propozit iile individuale, luate n calcul doar n cazul ultimelor trei coloane, pot considerate mai reprezentative pentru limba rom an a dec at propozit iile de completare si pasajele, astfel nc at aceste c ateva except ii pot neglijate.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ANALIZE STATISTICE

75

Tabelul 4.5: Numerele de aparit ii ale fonemelor n transcrierile pasajelor si propozit iilor de completare, respectiv a steptate n pronunt iile pasajelor si propozit iilor de completare si individuale de c atre 60, 80, 100 vorbitori

Fonem h G J O w g z b E f T v I C S y j p m o d k l s @ u i t n r a e

Transcrieri 70 72 72 76 81 98 112 108 119 129 132 147 177 181 195 222 293 363 362 377 384 437 456 478 508 598 677 711 707 803 1226 1233

60 vorbitori 457 474 492 556 598 742 813 850 969 1015 1025 1097 1252 1324 1424 1798 2227 2759 2887 2912 2987 3361 3613 3757 3870 4777 5286 5443 5513 6054 9213 9330

80 vorbitori 605 630 650 732 792 968 1068 1108 1262 1326 1348 1442 1653 1739 1853 2349 2935 3591 3780 3835 3897 4392 4728 4919 5073 6231 6912 7141 7224 7950 12079 12232

100 vorbitori 751 785 804 904 970 1183 1316 1349 1542 1601 1642 1782 2039 2145 2273 2852 3613 4396 4643 4727 4777 5395 5790 6017 6198 7601 8437 8750 8812 9756 14823 15034

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

76 BAZA DE DATE FONETICE Analizele nu au inclus: propozit iile de init ializare, folosite doar pentru init ializarea modelelor; numerele si logatomii CVC, utile doar pentru testare, evaluare si diagnoz a; alfabetul si informat iile personale, cu pronunt ii greu sau imposibil de anticipat ( n plus, pronunt iile semispontane pot avea caracteristici acustice diferite de ale celor citite).

4.6

Organizarea bazei de date

Compatibilitatea cu EUROM a bazei de date a fost asigurat a si la nivelul organiz arii si formatelor sierelor componente prin nregistrarea ei folosind acela si pachet software utilizat si pentru EUROM, denumit EUROPEC [262], [90]. Acesta utilizeaz a, gestioneaz a si genereaz a diverse siere, majoritatea de tip text: un sier de descriere a vorbitorilor, completat la momentul nregistr arii cu date de identicare si caracteristici ale acestora care pot avea leg atur a cu modul n care vorbesc ( n alt imea, greutatea, limba matern a, educat ia etc.); un sier de descriere a materialelor, preciz and pentru ecare codul de identicare si tipul (tabelul 4.6), protocolul folosit pentru nregistrare etc.; siere corpus, incluz and materialele pentru nregistr ari: n cazul celor cu cont inut predeterminat (pasaje, propozit ii, numere, logatomi, alfabet), textul acestora, iar n cazul celor semispontane, un text generic indic and informat ia solicitat a nume, adres a etc.; textele au fost formatate conform cerint elor EUROPEC nainte de realizarea nregistr arilor, iar pe durata lor au fost a sate pentru citire si stocate, mpreun a cu alte informat ii, n sierele de adnot ari ortograce ale semnalelor; protocoale de nregistrare, referite n sierul de descriere a materialelor si specice diferitor tipuri de materiale: acestea sunt interpretate de EUROPEC pe durata nregistr arilor, asigur and secvent a dorit a de operat iuni; siere de semnal, singurele de tip binar, obt inute prin nregistrarea vorbitorilor n timpul citirii textelor sau al pronunt a rii informat iilor solicitate; siere de adnot ari ortograce corespunz atoare celor de semnal, generate odat a cu ele si cuprinz and ecare: numele sierului de semnal asociat si ale sierelor corpus si de descriere a protocolului folosite la nregistrarea lui; date despre vorbitorul nregistrat (sex, v arst a, limb a matern a); caracteristicile nregistr arii (frecvent a de e santionare, num arul si caracteristicile e santioanelor) si localizarea n ea a port iunilor corespunz atoare unor propozit ii/p art i din textele citite etc.; alte siere cu descrieri ale congurat iilor de lucru, condit iilor de nregistrare etc. Pentru ecare nregistrare, EUROPEC genereaz a un sier de semnal, unul de adnot ari ortograce si unul cont in and congurat ia folosit a. Pentru identicarea vorbitorului si a materialului, numele acestor siere includ codurile lor, ind de forma vvmmnnnn.ext, unde vv este codul vorbitorului (tabelul 4.3), mm codul materialului (tabelul 4.6), iar nnnn un num ar de ordine al sierului. Extensia ext este CFG pentru sierele

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

REALIZAREA INREGISTRARILOR

77

Tabelul 4.6: Codurile de identicare (dou a caractere, sub form a de expresii regulate) si tipurile materialelor nregistrate

Materiale Pasaje Propozit ii de completare Propozit ii individuale Propozit ii de init ializare Numere Logatomi CVC, contexte Alfabet Nume Adres a Serie si num ar B.I. Dat a na stere Telefon

Coduri de identicare [O-R][0-9] F[0-9] [AB][A-Z], C[A-H], [DE][A-T] I0 N0 S[1-3], [A-C][1-5], Z1 SZ SN SA SI SB ST

Tip P S D 0 N C Z N A I B T

de congurat ie si de forma TRS, TRO pentru sierele de S emnal respectiv adnot ari O rtograce, unde T este o liter a indic and tipul materialului (tabelul 4.6).

4.7

Realizarea nregistr arilor

Utilizarea EUROPEC pentru realizarea nregistr arilor a necesitat: congurarea unei stat ii de lucru SESAM [46] pentru rularea lui prin instalarea unei pl aci de achizit ie si prelucrare a semnalelor de tip OROS AU21 [177] ntr-un calculator compatibil PC; modicarea unor fonturi pentru caracterele diacritice rom ane sti; traducerea si adaptarea mesajelor EUROPEC n limba rom an a; formatarea materialelor de nregistrat n siere corpus conforme cu cerint ele EUROPEC; scrierea, testarea si depanarea protocoalelor de nregistrare specice diferitelor tipuri de materiale. Fi sierele astfel rezultate au fost organizate ntr-o structur a unitar a (sect iunea 4.6) utiliz and siere de congurare si de descriere a materialelor si condit iilor de nregistrare. In sf ar sit, au fost dezvoltate siere de comenzi pentru simplicarea ment inerii acestei structuri si a oper arii EUROPEC. Pentru a obt ine o calitate c at mai bun a a nregistr arilor prin minimizarea zgomotelor si distorsiunilor, acestea au fost realizate ntr-o camer a izolat a si tratat a fonic, n care vorbitorii citeau textele alocate sau pronunt au informat iile cerute sub supravegherea unor operatori plasat i, mpreun a cu echipamentele, ntr-o camer a al aturat a (gura 4.1). Init ial se intent iona ca vorbitorii s a citeasc a instruct iunile si textele de pe ecranul unui monitor, a sa cum erau ele a sate de EUROPEC, dar experimente preliminare au ar atat c a bobinele de deexie ale monitoarelor constituie o surs a semnicativ a de zgomot. Deoarece la momentul realiz arii nregistr arilor monitoarele cu cristale lichide erau practic inaccesibile, monitorul din camera izolat a si tratat a fonic a fost nlocuit cu un interfon si listinguri ale textelor de citit. Pe l ang a eliminarea zgomotului monitorului,

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

78 BAZA DE DATE FONETICE

calculator microfon texte cabluri operator


preamplif.

vorbitor

interfon u si izolatoare operator Camera operatorilor

Camera izolat a si tratat a fonic

Figura 4.1: Schit a camerelor folosite pentru nregistr ari

aceast a solut ie are si dou a avantaje suplimentare: pe de o parte, faciliteaz a detectarea de c atre operatori a zgomotelor sau altor probleme de pe durata nregistr arilor, permit a nd ntreruperea si reluarea lor imediat a, f ar a a mai a stepta o vericare auditiv a ulterioar a; pe de alt a parte, reduce efectele nedorite care pot resimt ite de persoane plasate ntr-o camer a izolat a si tratat a fonic, efecte merg and de la dicult a ti n controlul volumului vocii p an a la claustrofobie. Interfonul era controlat de un operator astfel nc at n timpul nregistr arilor s a e activ a doar comunicarea dinspre vorbitor spre operatori. O alt a problem a potent ial a a fost cea a ordinii de nregistrare a diferitor tipuri de materiale citite sau semispontane. Pentru a evita pe c at posibil inuent a unui stil de vorbire asupra celuilalt, a fost stabilit a urm atoarea ordine de nregistrare: informat iile personale (nume, adres a etc.) solicitate de c atre operatori si pronunt ate semispontan de c atre vorbitori; alfabetul limbii rom ane, citit de ecare vorbitor n felul cu care era obi snuit; pasajele, citite c at mai uent, f ar a a marca n mod special pauzele dintre propozit ii; propozit iile de completare si individuale, citite cu pauze sucient de lungi ntre ele pentru a permite separarea vorbirii si a pauzelor cu algoritmii din EUROPEC; propozit iile de init ializare, citite ca si cele anterioare, dar vorbitorii au fost instruit i n mod special s a le pronunt e c at mai clar si mai apropiat de varianta standard;

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

DATELE COLECTATE numerele, citite ca si propozit iile, cu pauze ntre ele;

79

logatomii de tip CVC, citit i izolat i doar de vorbitorii din mult imile restr anse FT si VT, si n contexte de c ate dou a cuvinte doar de c atre cei din mult imea VT; cuvintele-contexte CVC, citite izolat doar de vorbitorii din mult imea VT. Inregistr arile au fost realizate folosind un microfon cu electret, omnidirect ional, de tip SONY ECM-44B, plasat la aproximativ 25 cm de gura vorbitorului si la un unghi de circa 30 grade fat a de direct ia lui nainte. Pentru evitarea zgomotelor electrice si adaptarea la placa de achizit ie si prelucrare a semnalelor din calculator, microfonul a fost conectat la aceasta prin cabluri ecranate si un preamplicator cu un c a stig x de circa 20 dB (gura 4.1). Semnalul a fost e santionat la 20 KHz si cuantizat pe 16 bit i. Inaintea sesiunii de nregistr ari (a primei sesiuni, n cazul vorbitorilor din mult imile restr anse FT si VT), ecare vorbitor a furnizat o serie de informat ii personale, unele introduse si n sierul de descriere a vorbitorilor, si a fost instruit asupra modului de lucru ntr-o scurt a sesiune de antrenament folosind informat iile personale si alfabetul. Pe parcursul nregistr arilor, operatorii au urm arit permanent aparit ia unor zgomote sau erori majore de citire (omisiuni, insert ii sau substitut ii de cuvinte, b alb aieli etc.), cu ntreruperea si reluarea imediat a a nregistr arilor afectate. Inregistr arile au fost ref acute imediat si n cazul n care asemenea probleme erau constatate prin ascultarea sierelor de semnal. Cu except ia propozit iilor de init ializare, n cazul c arora vorbitorii au fost solicitat i s a le citeasc a ntr-un mod c at mai clar si mai apropiat de varianta standard, variat iile de pronunt ie nu au constituit motive de refacere a nregistr arilor. Pentru evitarea zgomotelor transmise n interiorul camerei izolate fonic prin peret ii cl adirii, nregistr arile au fost efectuate n zile nelucr atoare (s amb ata si duminica), ceea ce a f acut dicil a g asirea unor vorbitori dispu si s a ia parte la nregistr ari. Vorbitorii au fost recrutat i urm arind satisfacerea criteriilor stabilite de sex si v arst a (sect iunea 4.4), precum si capacitatea de a citi n mod uent materialele de nregistrat. In aceste condit ii, nregistrarea a 100 de vorbitori a durat peste un an (martie 1996 iunie 1997).

4.8

Datele colectate

Din nregistrarea celor 100 de vorbitori au rezultat peste 1700 siere de semnal nsum and peste 1,3 gigaoctet i de date si cuprinz and peste 9 ore si 41 minute de nregistr ari, distribuite pe diferite categorii de materiale conform tabelului 4.7.
Tabelul 4.7: Cantit a ti de date colectate, pe categorii

Fi siere Durat a Propozit ii

Propozit ii Pasaje Comp. Ind. Init . 560 140 100 100 3h3912 2823 433 3322 2758 364 558 400

Numere CVC 140 62 2h2129 198

Alfabet Info 100 500 4329 5245

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

80 BAZA DE DATE FONETICE Dintre acestea, pasajele si propozit iile de diverse tipuri, care sunt materialele cele mai importante din punctul de vedere al obiectivului principal al cercet arilor, ind cele mai potrivite pentru antrenarea, testarea si evaluarea sistemelor de recunoa stere automat aa vorbirii, au o durat a total a de 5 ore si 24 minute si cuprind 4080 de propozit ii.

4.9

Calitatea nregistr arilor

Printre caracteristicile bazelor de date fonetice, enumerate la nceputul capitolului, se num ar a si calitatea deosebit a a nregistr arilor, apreciat a prin elemente subiective (lipsa zgomotelor, corectitudinea pronunt iilor etc.) si m asuri cantitative. Aceste aspecte au fost avute n vedere pe toat a durata sau chiar dinaintea nceperii nregistr arilor. Prin utilizarea pentru nregistr ari a unei camere izolate fonic s-a urm arit atenuarea zgomotelor acustice propagate din exterior, iar prin efectuarea lor n zile nelucr atoare reducerea la minimum a posibilit a tii aparit iei zgomotelor. Alte zgomote acustice puteau produse chiar de vorbitorii ns a si n timpul nregistr arilor: minimizarea lor a fost asigurat a prin ascultarea de c atre operatori a nregistr arilor prin interfon si din siere n timpul si dup a efectuarea lor, urmat a de reluare sau refacere c and era cazul. Zgomotele electrice au fost minimizate prin ecranarea leg aturii microfon-preamplicator. Pe l ang a zgomote, semnalul putea afectat si de distorsiuni cauzate de reexiile si reverberat iile incintei acustice folosite pentru nregistr ari: acestea au fost evitate grat ie trat arii fonice a camerei utilizate. O alt a categorie de distorsiuni posibile ale semnalului erau cele datorate neliniarit a tilor sau satur arii lant ului de nregistrare. Pentru evitarea neliniarit a tilor au fost utilizate un microfon cu o caracteristic a c at mai liniar a si un preamplicator liniar, iar saturat ia a fost supravegheat a cu ajutorul EUROPEC. Ecient a m asurilor de asigurare a calit a tii a fost evaluat a obiectiv prin estimarea si vericarea unor caracteristici ale semnalelor rezultate. Astfel, componenta continu a, estimat a ca medie a tuturor e santioanelor dintr-un sier, a fost cuprins a ntre 0,08 si 0,07, cu o medie practic nul a si o abatere standard sub 0,01, ind deci nesemnicativ a n raport cu amplitudinile posibile ale semnalelor, cuprinse ntre 32768 si 32767. La r andul ei, saturat ia a ap arut doar ntr-un sier, sub forma a patru secvent e de 3-4 e santioane cu valori minime (32768), toate n limitele unui singur segment de circa 20 ms. O alt a m asur a a calit a tii nregistr arilor este raportul semnal/zgomot, denit ca [59] RSZ = 10 log10 Es = 10 (log10 Es log10 Ez ) [dB] Ez (4.2)

unde Es si Ez sunt energia semnalului util respectiv zgomotului. Dat ind caracterul nestat ionar al semnalului vocal, valorile raportului semnal/zgomot sunt n acest caz variabile n timp, astfel nc at nu poate estimat a dec at o valoare medie. In plus, zgomotul este dicil de separat de semnal: n principiu, un zgomot stat ionar ar putea estimat din analiza pauzelor de vorbire, dar delimitarea acestora este o problem a n sine. Unele metode de estimare a valorii raportului semnal/zgomot evit a identicarea pauzelor prin utilizarea distribut iei valorilor energiei cadrelor de semnal (gura 4.2), care are dou a maxime: unul corespunz ator pauzelor si fazelor de nchidere ale sunetelor plozive nesonore, la valori mici, si unul corespunz ator vorbirii la valori mari.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CALITATEA INREGISTRARILOR
50 Total Zgomot 45 40 35 30 25 20 15 10 5 0 0 10 20 30 40 50 60 70 80 90 Zgomot = 24.25 Semnal = 74.25

81

Aparit ii

Energie (dB)
Figura 4.2: Exemplu de distribut ie a energiei cadrelor dintr-o nregistrare

O metod a simpl a este ca energiei zgomotului s a-i e atribuit a valoarea sub care se a a un anumit procent din valori, iar celei a semnalului valoarea sub care se ncadreaz a un procent complementar. Aceste procente, xe, sunt alese n mod empiric, n mod curent ind utilizate valorile de 15% si respectiv 85%. In aceste condit ii, valoarea raportului semnal/zgomot este calculat a ca diferent a dintre cele dou a valori ( n decibeli). Metode mai elaborate tin cont de distribut ia efectiv a a valorilor energiei pentru a estima modele ale zgomotului. O asemenea metod a, folosit a de National Institute of Science and Technology al Statelor Unite, estimeaz a energia zgomotului ca media unei distribut ii de tip cosinus ridicat a valorilor sale (cu linie ntrerupt a n gura 4.2). Odat a energia zgomotului estimat a, valoarea raportului semnal/zgomot este calculat a prin aceea si metod a a procentelor complementare din paragraful de mai sus. Aceast a metod a a fost utilizat a si pentru vericarea nregistr arilor din aceast a baz a de date, iar rezultatele au conrmat calitatea lor: raportul semnal/zgomot are media de 48,41 dB, abaterea standard de 2,91 dB si valorile extreme de 33,75 si 57,75 dB. Pentru comparat ie, analiza prin aceea si metod a a bazei de date TIMIT a condus la o valoare medie a raportului semnal/zgomot de 53,71 dB (cu 5,3 dB mai mare), cu o abatere standard de 5,19 dB (de 1,78 ori mai mare) si valori extreme de 27 si 69,75 dB. T in and cont de faptul c a nregistr arile din TIMIT au fost f acute cu un microfon de mic a distant a [81], pe c and ale noastre cu unul plasat la cca. 25 cm, putem considera c a baza noastr a de date este de o calitate comparabil a, ba chiar mai bun a din punctul de vedere al dispersiei valorilor raportului semnal/zgomot.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

82 BAZA DE DATE FONETICE

4.10

Concluzii

Recunoa sterea vorbirii prin metode statistice cere cantit a ti considerabile de date pentru estimarea modelelor acustice si lingvistice pe care se bazeaz a, iar acest capitol a prezentat proiectarea si colectarea unei baze de date cuprinz and semnale vocale n limba rom an a, utilizabil a pentru antrenarea de modele acustice si testarea si evaluarea unor sisteme de recunoa stere a vorbirii continue de tipul celor vizate prin aceste cercet ari. Pe l ang a utilitatea direct a pentru antrenarea modelelor acustice, aceast a baz a de date are ns a o important a mult mai mare din punctul de vedere al metodologiei cercet arii, existent a si utilizarea ei permit a nd efectuarea n condit ii controlate a unor experimente de recunoa stere a vorbirii si comparat ii semnicative ntre rezultatele lor. Date ind inexistent a cercet arilor anterioare asupra recunoa sterii vorbirii continue n limba rom an a si insucient a celor de fonetic a si fonologie a limbii rom ane, constatate prin consultarea literaturii si a speciali stilor din aceste domenii, proiectarea si colectarea bazei de date au pus un accent deosebit pe calitatea nregistr arilor, n lipsa c areia unele investigat ii necesare n aceast a faz a a cercet arilor ar dicile sau chiar imposibile. Astfel, n etapa de proiectare a bazei de date a fost ales un set de unit a ti fonetice de modelare acustic a considerat acoperitor n raport cu sistemele fonologice ale limbii rom ane identicate n literatura lingvistic a, iar cont inutul unei p art i semnicative a nregistr arilor a fost planicat pentru a permite antrenarea de modele ale acestor unit a ti. Pentru a putea antrena si testa modele acustice independente de vorbitor, populat ia nregistrat a a inclus un num ar considerabil de vorbitori (100), iar pentru o c at mai bun a acoperire a variabilit a tii datorate lor, ace stia au fost selectat i pentru a obt ine o distribut ie uniform a dup a dou a variabile biologice controlabile sexul si grupa de v arst a. In sf ar sit, pentru ca informat ia lingvistic a inclus a n semnalele vocale nregistrate s a e c at mai put in afectat a de zgomote, distorsiuni, reverberat ii, o atent ie deosebit a a fost acordat a condit iilor de realizare a nregistr arilor, iar analiza lor prin prisma c atorva criterii obiective de evaluare a calit a tii acustice indic a atingerea acestui obiectiv. Datorit a cont inutului lingvistic controlat nc a din faza de proiectare al unei p art i semnicative a ei si calit a tii deosebite a nregistr arilor, aceast a baz a de date va util a nu doar pentru cercet arile asupra recunoa sterii automate a vorbirii continue, ci si n alte cercet ari aplicative, precum si pentru cercet arile fundamentale de fonetic a acustic a si fonologie a limbii rom ane, a c aror insucient a a fost ment ionat a.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CAPITOLUL 5 Etichetarea semnalelor vocale


Valoarea unei baze de date de tipul celei descrise n capitolul 4 cre ste dac a, pe l ang a sierele de semnal, ea include si informat ii suplimentare referitoare la cont inutul lor. Deoarece nregistr arile din aceast a baz a de date au fost f acute prin citirea unor texte preg atite n prealabil sau prin solicitarea anumitor informat ii, iar programul utilizat pentru realizarea acestor nregistr ari a fost astfel implementat, ecare sier de semnal are asociat unul de adnot ari ortograce (sect iunea 4.6), cuprinz and printre altele e textul citit, e descrierea informat iei solicitate. De si aceste informat ii sunt f ar a ndoial a utile, utilitatea semnalelor poate n continuare crescut a dac a ele sunt etichetate. Prin etichetarea semnalului vocal vom nt elege denirea unor evenimente din cadrul acestuia, evenimente identicate prin coordonate (limite) temporale si simboluri (etichete) alese dintr-o mult ime nit a si denite n termeni acustici, ziologici, fonetici sau apart in and unor niveluri lingvistice superioare [18]. Dat a ind utilitatea ei pentru cercet arile preconizate asupra recunoa sterii automate a unit a tilor sublexicale de modelare acustic a, ca si pentru alte cercet ari fundamentale si aplicative, etichetarea bazei de date [33], [34] a fost un obiectiv (sect iunea 1.3) urm arit nc a din faza de proiectare a ei. Un exemplu de etichetare a unei propozit ii din baza de date n termenii unit a tilor fonetice din tabelul 4.1 este prezentat n gura 5.1: localiz arile realiz arilor unit a tilor fonetice sunt indicate prin limite temporale (liniile punctate verticale), iar identit a tile lor prin plasarea ntre aceste limite a simbolurilor ASCII corespunz atoare. Etichetarea semnalului vocal este deci o abstractizare dependent a de anumite puncte de vedere analitice si teoretice, care conduc la diferite niveluri de etichetare, ecare nivel put and la r andul lui format din straturi grup and multiple aspecte ce pot plasate pe acela si nivel. O prezentare a unora dintre nivelurile de etichetare cele mai relevante din punctul de vedere al utiliz arii bazelor de date vocale n cercet arile fundamentale si aplicative este realizat a n sect iunea 5.1, mpreun a cu o justicare a nivelului ales pentru etichetarea semnalelor din baza noastr a de date.
Cercet ari realizate cu sprijinul Comisiei Europene prin contractul COPERNICUS 1304/1994, al fostului CNCSU (din 1999 CNCSIS) prin grantul 354/1996, al Academiei Rom ane prin grantul 136/1997, si al fostului Minister al Cercet arii si Tehnologiei prin contractul de grant 3019GR/1997-98.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

83

84 ETICHETAREA SEMNALELOR VOCALE

S j a l w a

t l@d i T e gO a l e y n J

u ru j

Frecvent a (KHz)

5 4 3 2 1 0 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4

Timp (s)
Figura 5.1: Exemplu de etichetare a propozit iei S i-a luat l adit e goale n juru-i folosind simbolurile ASCII din tabelul 4.1. Urm arit i cum se schimb a aspectul spectrogramei pentru diferite aparit ii ale sunetelor [j], [a] si [l], urmare a fenomenului de coarticulat ie.

Metoda de etichetare cea mai simpl a consta n utilizarea unor programe adecvate [74], [107], [225] pentru vizualizarea formelor de und a si a spectrogramelor semnalelor si ascultarea lor selectiv a, urmate de atribuirea manual a de pozit ii temporale si identit a ti anumitor evenimente (lingvistice sau de alt a natur a). De si aparent cea mai abil a, ind bazat a pe expertiza uman a, aceast a metod a este totu si susceptibil a de lipsa consistent ei pozit iilor temporale si a identit a tilor evenimentelor evident iate n cadrul semnalelor, dat a ind existent a unor cazuri ambigue care necesit a decizii subiective ce vor varia cu experient a personal a a expert ilor implicat i n etichetarea manual a. Dar poate chiar mai important dec at problema inconsistent ei etichet arii este faptul c a volumul de munc a solicitat pentru etichetarea manual a este foarte mare, de ordinul sutelor de ori durata semnalelor. Din acest motiv, automatizarea etichet arii semnalelor vocale a fost urm arit a nc a din fazele preliminare ale construct iei primelor baze de date fonetice, scop n care au fost propuse si experimentate diferite metode [142], [266], [68], [144], [40], iar sect iunea 5.2 face o trecere n revist a a celor mai semnicative aspecte ale problemei, precum si a metodelor de evaluare a rezultatelor etichet arii automate. Datorit a utilit a tii modelelor Markov ascunse si pentru cercet arile ulterioare asupra recunoa sterii automate a vorbirii, pentru etichetarea bazei de date a fost aleas a varianta unui sistem bazat pe MMA, a c arui construct ie este descris a n sect iunea 5.3. Pentru a asigura calitatea etichet arii si a permite evaluarea sistemului de etichetare, rezultatele etichet arii au fost vericate si, acolo unde a fost cazul, corectate manual pe baza unor criterii de decizie prezentate n sect iunea 5.4.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ALEGEREA NIVELULUI DE ETICHETARE

85

In nal sunt prezentate si comentate rezultatele etichet arii automate, evaluate prin compararea etichetelor generate automat cu cele vericate si corectate manual.

5.1

Alegerea nivelului de etichetare

Etichetarea semnalului vocal se poate face la diferite niveluri, lu and sau nu n calcul anumite fenomene zice si/sau lingvistice si corelat iile care se pot stabili ntre ele. Pentru cercet arile noastre, dar si pentru multe altele, cele mai interesante sunt nivelurile care pot reprezenta leg aturile dintre semnalele vocale si interpret arile lor lingvistice n termenii unor unit a ti fonetico-fonologice segmentale [18]: nivelul zic cuprinde etichetele denite cu referint a n exclusivitate la evenimentele zice dintr-o pronunt ie, ind n mod clar cel mai susceptibil de a divizat n straturi corespunz atoare diferitor metode de achizit ie si prelucrare a semnalului; nivelul fonetico-acustic include etichete ce descriu evenimente omogene din punct de vedere acustic folosind termeni fonetici ( nchidere, eliberare, aspirat ie, frict iune, sonoritate, nazalizare etc.), f ar a referiri la funct iile lor lingvistice sau distinctive, sau la leg aturi cu evenimente zice; cu toate acestea, deciziile asupra delimit arii lor temporale si a setului de simboluri utilizate ca identicatori adesea necesit a sau sunt facilitate de informat ii asupra rolului lor n termeni fonologici; nivelul fonetic restr ans grupeaz a etichete care caracterizeaz a calitatea fonetic a a sunetelor vorbirii folosind simboluri din alfabetul fonetic internat ional (IPA) sau altele echivalente, reprezentabile pe calculator SAMPA [251], Worldbet [104] etc.; n acest caz, impresia perceptual a a persoanei care realizeaz a etichetarea este esent ial a pentru stabilirea delimit arilor temporale si a identit a tilor sunetelor; nivelul fonemic este cel mai abstract dintre nivelurile prezentate aici, simbolurile folosite corespunz and fonemelor limbii n care a fost rostit a o pronunt ie, a sa cum apar ele n formele standard ale cuvintelor din cadrul pronunt iei, f ar a luarea n considerat ie a fenomenelor specice vorbirii uente (sect iunea 5.4.1); drept urmare, simbolurile nu vor putea puse ntotdeauna n corespondent a cu evenimente din semnal, astfel nc at acest nivel nu este folosit pentru etichetarea efectiv a; el este ns a indispensabil ca mediator ntre semnal si vocabular, ind prezent n dict ionarele de pronunt ii pe care le folosesc sistemele de recunoa stere si sintez a a vorbirii; nivelul fonetic extins: adesea denumit fonemic, datorit a faptului c a utilizeaz a de asemeni simboluri corespunz atoare fonemelor limbii n care a fost rostit a pronunt ia adnotat a, acest nivel, spre deosebire de cel anterior, ia n considerat ie fenomenele specice vorbirii uente si le reect a ca atare, av and astfel un grad de abstractizare intermediar ntre cel al nivelului fonetic restr ans si cel al nivelului fonemic. Etichetarea avut a n vedere aici trebuind s a asigure leg atura dintre caracteristicile anumitor port iuni ale semnalului si categorii lingvistice asociabile lor, doar ultimele trei dintre aceste niveluri, care includ simboluri motivate lingvistic, prezint a interes n

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

86 ETICHETAREA SEMNALELOR VOCALE continuare. Dintre acestea, nivelul fonemic este eliminat ca opt iune practic a din motivele deja ment ionate, astfel nc at n nal am optat pentru nivelul fonetic extins. Aceast a opt iune are motivat ii multiple: nivelul fonetic extins este cel mai economic, reprezent and un maximum de informat ie fonetic a cu un set minimal de simboluri; av and n comun cu nivelul fonemic setul de simboluri folosit, are si avantajul c a faciliteaz a antrenarea si evaluarea la nivel de fonem a sistemelor de recunoa sterea automat a a vorbirii bazate pe modelarea acustic a a unit a tilor sublexicale de tip fonemic. In plus, acest nivel este mai abil dec at nivelul fonetic restr ans n ceea ce prive ste consistent a ntre diferit i expert i a simbolurilor folosite pentru etichetarea acelora si semnale, si aproximativ la fel de abil ca acesta n privint a delimit arilor temporale [67].

5.2

Automatizarea etichet arii

A sa dup a cum am precizat, etichetarea semnalului vocal n general, si cea la nivelul fonetic extins n particular, presupune dou a act iuni: segmentarea semnalului prin identicarea momentelor de timp la care ncepe respectiv se termin a o port iune din semnal ce poate asociat a unui fonem; identicarea fonemului corespunz ator unui segment. In literatura de specialitate, termenul de etichetare cu sensul dat de noi este adesea nlocuit cu cel de adnotare, iar n locul celui de identicare se folose ste cel de etichetare. Prefer am ns a folosirea sensului extins al termenului de etichetare, cel de segmentare si identicare, deoarece respect am astfel denit ia etichet arii dat a la nceputul capitolului. In plus, fonemele dintr-o pronunt ie pot identicate si prin transcrierea ei, ceea ce nu nseamn a c a a fost realizat a o etichetare, de si a avut loc o adnotare a semnalului. Automatizarea total a a etichet arii ar presupune deci at at segmentarea semnalului, c at si identicarea (recunoa sterea) fonemului reprezentat de ecare segment. Evident, astfel pus a, problema este mai dicil a chiar si dec at recunoa sterea vorbirii si nu are solut ii cunoscute. In practic a, automatizarea etichet arii poate facilitat a simplic and sau elimin and problema identic arii: eliminarea consta n transcrierea de c atre expert i umani a ec arei pronunt ii ce se dore ste a etichetat a n termenii setului de simboluri ales, singura incertitudine care r am ane ind cea cauzat a de subiectivismul inerent procedurii [266]; simplicarea ei se poate face prin reducerea num arului de alternative dintre care trebuie f acut a identicarea unui anumit segment prin utilizarea unei reprezent ari de tip ret ea a unor posibile variante de pronunt ie [144], [126], [254]; o asemenea reprezentare poate obt inut a plec and de la o transcriere ortograc a (existent a dac a semnalul a rezultat din citirea unor texte) prin prelucrare cu componenta de traducere grafeme-foneme dintr-un sistem de conversie text-vorbire, urmat a de ad augarea unor variante de pronunt ie specicate de reguli fonologice.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

AUTOMATIZAREA ETICHETARII

87

In principiu, multe dintre nregistr arile din baza de date ind nsot ite de transcrieri ortograce, am putut ncerca o automatizare complet a a etichet arii apel and la a doua variant a de eliminare a problemei identic arii prin utilizarea unui sistem de conversie text-vorbire deja existent [185], [65]. Pentru o etichetare de calitate ns a, reprezentarea fonemic a astfel generat a ar trebuit mbog a tit a cu variante de pronunt ie prin aplicarea unor reguli fonologice, indisponibile la acel moment pentru limba rom an a. T in and cont de aceast a situat ie, pentru a asigura o calitate maxim a a etichet arii am ales varianta elimin arii problemei identic arii prin transcrierea manual a a semnalelor de etichetat [266] n termenii unit a tilor fonetice din tabelul 4.1. In ceea ce prive ste segmentarea, am optat pentru realizarea ei folosind modele Markov ascunse datorit a posibilit a tii de a le utiliza n continuare si pentru recunoa sterea automat a a vorbirii.

5.2.1

Evaluarea etichet arii automate

Ca si n cazul evalu arii sistemelor de recunoa stere a vorbirii (sect iunea 3.1), si ie sirile sistemelor de etichetare automat a pot privite ca ipoteze referitoare la identit a tile si limitele sunetelor pronunt ate n sierele de semnal c arora le sunt asociate. Spre deosebire de sistemele de recunoa stere, n cazul sistemelor de etichetare, pe l ang a identit a tile sunetelor, care pot comparate prin acela si algoritm de programare dinamic a (sect iunea 3.1.1), n cazul n care identit a tile coincid trebuie luate n considerat ie si diferent ele dintre limitele de referint a ale sunetelor si cele generate automat. In plus, dac a referint ele folosite pentru evaluarea sistemelor de recunoa stere sunt n general simplu de obt inut prin transcrierea ortograc a a sierelor de semnal, nu aceea si este situat ia referint elor pentru evaluarea sistemelor de etichetare: a sa cum am ment ionat deja, funct ie de nivelul ales pentru etichetare si experient a expert ilor implicat i, ntre etichet arile realizate de diferit i expert i pot apare diferent e [67]. Ca atare, si rezultatele evalu arii pot diferi funct ie de referint ele utilizate, o solut ie propus a pentru atenuarea acestei probleme ind cea a comparat iilor cu etichet ari manuale multiple [252]. Corespunz ator celor dou a probleme segmentarea si identicarea implicate de etichetare, evaluarea sistemelor de etichetare poate realizat a prin intermediul a dou a categorii de metrice: un grup de metrice caracteriz and performant ele de identicare acelea si folosite si pentru evaluarea performant elor sistemelor de recunoa stere automat a a vorbirii (sect iunea 3.1); funct ie de modul de tratare a problemei identic arii (sect iunea 5.2), acestea vor reprezenta m asuri e ale diferent elor de transcriere ntre expert i umani, e ale performant elor combinate ale algoritmilor de traducere grafeme-foneme, de aplicare a eventualelor reguli fonologice si de etichetare propriu-zis a; metrice care descriu performant ele segment arii semnalelor vocale, obt inute pe baza diferent elor dintre limitele stabilite automat si cele de referint a ; aceste diferent e sunt calculate doar dac a identit a tile segmentelor comparate coincid, iar metricele derivate includ at at caracteristici globale ale distribut iilor lor (media, mediana, abaterea standard etc. ale diferent elor sau valorilor lor absolute) c at si unele legate de anumite obiective de performant a , de tipul % diferent e ntre anumite limite.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

88 ETICHETAREA SEMNALELOR VOCALE

Fi siere de semnale

Extragere caracteristici

Modele acustice

Decodare Viterbi

Transcriere fonetic a ri Prelucra manuale Etichetare/ vericare

Fi siere de transcrieri

Antrenare MMA

Ret ele de decodare

Fi siere de etichete

Figura 5.2: Schema bloc a sistemului de etichetare

5.3

Sistemul de etichetare

A sa cum am precizat n sect iunea 5.2, pentru etichetarea semnalelor din baza de date am ales varianta unui sistem de etichetare n care problema identic arii a fost eliminat a prin transcrierea manual a a semnalelor, iar segmentarea a fost automatizat a prin utilizarea modelelor Markov ascunse. Automatizarea segment arii semnalelor vocale ar putea realizat a foarte simplu prin utilizarea algoritmului Viterbi (sect iunea 3.9) pentru decodarea unor MMA compuse din modele acustice ale segmentelor conform transcrierilor semnalelor n termenii acestor unit a ti, cu condit ia existent ei prealabile a modelelor acustice. In cazul nostru, inexistent a unor modele ale unit a tilor fonetice din tabelul 4.1 a f acut imposibil a aceast a abordare, iar solut ia a constat ntr-un sistem dezvoltat si utilizat n dou a etape (gura 5.2). Intr-o prim a etap a, de dezvoltare a sistemului, a avut loc antrenarea unor modele acustice pentru unit a tile din tabelul 4.1, simultan cu segmentarea automat a a semnalelor utilizate n acest scop si alinierea la ele a transcrierilor lor fonetice. In etapa a doua au fost prelucrate alte semnale, neutilizate n prima, folosind modelele astfel antrenate.

5.3.1

Etichetarea manual a

Pentru c at mai buna init ializare a funct iilor de probabilitate ale modelelor acustice, construct ia acestora a fost precedat a de etichetarea manual a (gura 5.3) a celor 400 de propozit ii de init ializare (sect iunea 4.3.2), cu o durat a de circa 3322, pe baza vizualiz arii formelor de und a si spectrogramelor de band a larg a ale semnalelor si a ascult arii lor

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

SISTEMUL DE ETICHETARE

89

Timp (ms) 3705 18023

3755

3805

3855

3905

3955

4005

4055

4105

4155

4205

Forma de und a

Amplitudine
-12377

Spectrograma de band a larg a


8k

Frecvent a (Hz)

6k 4k 2k

Etichetele

m Timp (ms) 3705

u 3755

n 3805

3855

t 3905

O 3955

a 4005

4055

s 4105

4155

e 4205

Figura 5.3: Exemplu de realizare manual a a etichet arii si veric arii

selective folosind pachetul de programe SFS (Speech Filing System) [107]. Etichetarea manual a a fost f acut a la nivel fonetic extins, tin and cont de fenomenele specice vorbirii uente (sect iunea 5.4.1), de corelat iile generale ce se pot stabili ntre propriet a tile acustice si cele articulatorii ale sunetelor vorbirii [69], [186], precum si de experient a acumulat a n cadrul altor cercet ari [266], [81], [17], [133], [55]. Dat ind ns a num arul mic de propozit ii distincte implicate, variabilitatea problemelor ap arute a fost limitat a, iar unele dintre criteriile de decizie folosite pentru a le trata au fost reevaluate pe parcurs, astfel nc at prezentarea lor unitar a va f acut a n sect iunea 5.4.

5.3.2

Transcrierea fonetic a

Pe l ang a cele 400 de propozit ii de init ializare etichetate manual, n prima etap a au mai fost utilizate pasajele si propozit iile de completare nregistrate de c atre tot i vorbitorii n prima sesiune (2230 de propozit i cu o durat a total a de circa 2h5612), dar singura lor prelucrare manual a a fost transcrierea fonetic a n termenii unit a tilor din tabelul 4.1, tin and cont de fenomenele specice vorbirii uente (sect iunea 5.4.1). Deoarece ecare pasaj sau propozit ie de completare au fost repetate de c ate zece ori, pentru accelerarea transcrierii s-a plecat de la transcrieri-prototip, obt inute din cele ortograce si adaptate pe baza ascult arii semnalelor si a examin arii formelor lor de und a.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

90 ETICHETAREA SEMNALELOR VOCALE

Semnal Preaccentuare ( = 0,97) Cadrare (12,8 ms) Ferestruire (Hamming) Autocorelat ie Predict ie liniar a (Durbin) Coecient i cepstrali Cepstru de predict ie liniar a

Figura 5.4: Analiza cepstral a prin predict ie liniar a

In etapa a doua au fost prelucrate alte 1450 de propozit ii cu o durat a total a de circa 1h5426: pasajele si propozit iile de completare nregistrate n c ate patru sesiuni suplimentare de cei 10 vorbitori din mult imea FT (892 de propozit ii cu o durat a total a de circa 1h1123) si cele 558 de propozit ii individuale (circa 433). Pentru pasaje si propozit iile de completare a fost utilizat a aceea si adaptare a transcrierilor-prototip, iar propozit iile individuale, dat a ind unicitatea nregistr arilor lor, au fost transcrise separat.

5.3.3

Extragerea caracteristicilor

Deoarece este de dorit ca etichetarea s a e realizat a cu o precizie temporal a c at mai bun a, extragerea caracteristicilor a fost f acut a la nivelul unor cadre mai scurte si mai frecvente dec at cele utilizate n mod curent pentru recunoa sterea vorbirii, cu o durat a de 12,8 ms (256 e santioane) si o deplasare de 5 ms ntre cadre (gura 5.4). Dup a preaccentuarea semnalelor (sect iunea 2.2.4) cu un coecient = 0,97 si cadrare, ecare cadru a fost ferestruit cu o fereastr a Hamming (sect iunea 2.2.1). In continuare, din ecare cadru au fost calculate log-energia (sect iunea 2.2.2) si, prin metoda autocorelat iei (sect iunea 2.3.1), un predictor liniar de ordinul 12. Pe baza ecuat iei (2.55), coecient ii de predict ie liniar a au fost convertit i n coecient ii cepstrali c1...12 . Coecient ii cepstrali au fost supu si unei liftr ari conform ecuat iei (3.18) cu lungimea L = 12 si, mpreun a cu log-energia, unui proces de derivare peste intervale de 40 ms (ecuat ia 2.60 cu L = 4), aproximat prin diferent e simple la capetele sierelor. Fi sierele de semnal au fost astfel transformate n secvent e de vectori acustici 26-dimensionali, incluz and ecare 12 coecient i cepstrali, log-energia si coecient ii lor (sect iunea 2.7.2).

5.3.4

Modelele acustice

In vederea segment arii automate a semnalelor transcrise au fost construite si utilizate modele Markov ascunse ale unit a tilor fonetice din tabelul 4.1. Structura modelelor a fost

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

SISTEMUL DE ETICHETARE

91

a22 a12 = 1 s1 b2 (y ) s2 a23

a33 b3 (y ) s3 a34

a44 b4 (y ) s4 a45 s5

Figura 5.5: Structura MMA ale unit a tilor fonetice

una de tip st anga-dreapta (gura 5.5) cu trei st ari emit a toare si dou a st ari (init ial a si nal a) utilizate doar pentru concatenarea lor n modele ale pasajelor si propozit iilor. Corespunz ator vectorilor acustici 26-dimensionali extra si din semnale, funct iile de probabilitate bj (y ), j = 2 . . . 4, au fost mixturi de densit a ti gaussiene 26-dimensionale cu matrice de covariant a diagonale (sect iunea 3.7). St arilor init ial a si nal a, s 1 si s5 , ale ec arui model, destinate doar interconect arii lor, nu le-au fost asociate funct ii de probabilitate, iar st arile emit a toare s2 . . . s4 au avut rolul de a modela port iunile init ial a, medie si respectiv nal a ale ec arei unit a ti. T in and cont de deplasarea de 5 ms a cadrelor, modelele corespund astfel unei durate minime de 15 ms a unei unit a ti fonetice. Datorit a introducerii n MMA a st arilor init iale si nale neemit a toare, reestimarea probabilit a tilor de tranzit ie (ecuat ia 3.37) trebuie modicat a n cazul acestor st ari: n mod evident, datorit a structurii alese, probabilitatea a12 = 1, iar formula de reestimare a probabilit a tilor de tranzit ie n ultima stare devine a 45 =
R r =1 R r =1

4,r (Tr ) Tr t=1 4,r (t)

(5.1)

Pentru o calitate c at mai bun a a segment arii, modelele acustice au fost construite n dou a variante, una pentru ecare sex, dar procesul de construct ie a fost identic si a constat din dou a faze: una de init ializare, folosind propozit iile etichetate manual, si una de reestimare utiliz and semnalele transcrise fonetic n prima etap a, de dezvoltare a sistemului de etichetare. Init ializarea C ate 200 de propozit ii de init ializare nregistrate de vorbitorii de acela si sex si etichetate manual au fost folosite pentru init ializarea modelelor acustice ale unit a tilor fonetice. Pentru ecare model, toate aparit iile unit a tii asociate au fost divizate n trei segmente egale, corespunz atoare celor trei st ari emit a toare s2 . . . s4 , rezult and astfel o divizare n submult imi disjuncte a vectorilor acustici extra si din aceste propozit ii. Pe baza vectorilor acustici corespunz atori unei st ari sj au fost init ializat i parametrii densit a tilor sale gaussiene: pentru a obt ine K gaussiene, vectorii au fost grupat i folosind un algoritm de tip K -medii [6], iar ec arui grup k i-a fost asociat a o gaussian a de medie

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

92 ETICHETAREA SEMNALELOR VOCALE jk , matrice de covariant a diagonal a C jk si pondere wjk egale cu cele ale grupului jk =
Njk i=1 (oijk [l ] Njk i=1

oijk

Njk jk [l])2 Njk K k =1 Njk , l = 1 . . . 26

(5.2)

C jk [l] =

Njk wjk =

(5.3) (5.4)

unde oijk , i = 1 . . . Njk sunt cei Njk vectori acustici din grupul k corespunz ator st arii sj , iar C jk [l] componentele de pe diagonala matricei sale de covariant a . Folosind, pe l ang a densit a tile gaussiene astfel init ializate, probabilit a ti de tranzit ie atribuite manual, datele au fost resegmentate prin algoritmul Viterbi (sect iunea 3.9) iar parametrii gaussienelor au fost reactualizat i conform metodei de mai sus. Dup a c ateva iterat ii ale acestui proces, init ializarea a fost ncheiat a cu algoritmul Baum-Welch (sect iunile 3.5.1 si 3.7.1), care a permis si reestimarea probabilit a tilor de tranzit ie. Reestimarea concatenat a Init ializarea modelelor acustice s-a f acut separat pentru ecare unitate fonetic a, net in and cont c a realiz arile lor nu apar separat, ci doar interconectate. Pentru a lua n calcul si acest aspect s-a utilizat algoritmul Baum-Welch concatenat [135], [136], care opereaz a asupra unor modele compuse ale propozit iilor sau pasajelor folosite pentru antrenament, formate prin concatenarea de instant e ale modelelor unit a tilor fonetice n conformitate cu ret ele de decodare obt inute din transcrierile sau etichetele asociate. Pentru reestimarea parametrilor modelului unei unit a ti fonetice, algoritmul BaumWelch concatenat utilizeaz a tot formulele din varianta de baz a, dar sumele sunt calculate peste toate instant ele lui din modelele compuse ale nregistr arilor prelucrate. In plus, n cazul unei structuri de tipul celei din gura 5.5 a modelelor unit a tilor fonetice, concatenarea lor duce la modicarea formulei de reestimare a probabilit a tilor de tranzit ie n st arile nale: cu except ia ultimei instant e dintr-un model compus, pentru care se utilizeaz a formula (5.1), probabilit a tile reestimate ale tranzit iilor nale devin a 45 =
R Tr 1 r =1 t=1 4,r a45 R Tr r =1 t=1 4,r

(5.5)

Formulele de reestimare, cu sumele de la numitori si num ar atori calculate conform celor de mai sus, sunt aplicate n paralel pentru toate modelele unit a tilor fonetice, astfel nc at parametrii acestora sunt reestimat i simultan.

5.3.5

Segmentarea automat a

Dup a init ializarea si reestimarea concatenat a a modelelor unit a tilor fonetice, sierele de semnal transcrise fonetic au fost segmentate prin decodarea Viterbi a modelelor lor compuse, av and ca observat ii vectorii acustici extra si din acele siere.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CRITERIILE DE DECIZIE

93

In etapa de dezvoltare a sistemului, procesul de antrenare a modelelor si segmentare a semnalelor a fost reluat de c ateva ori, folosind ns a pentru init ializarea modelelor sierele de semnal transcrise fonetic si etichetele lor generate automat n pasul anterior. Etichetarea nal a a fost realizat a utiliz and modele acustice cu mixturi de patru gaussiene pe stare, rezultate n urma a sase iterat ii de segmentare/reantrenare.

5.3.6

Vericarea etichet arii

Segment arile semnalelor si alinierile la acestea ale transcrierilor lor fonetice produse n mod automat de sistemul de etichetare sunt n multe cazuri foarte bune. Exist a ns a si destul de multe cazuri, inevitabile pentru orice sistem automat, n care ele sufer a de erori de pozit ionare, sau cazuri, mai put in frecvente, n care transcrierile fonetice au fost din start afectate de erori. T in and cont de existent a acestor erori, pentru a asigura o calitate c at mai bun a a etichet arii si a face posibil a o evaluare a sistemului de etichetare, a fost necesar a vericarea si, acolo unde a fost cazul, corectarea manual a a etichetelor generate automat, realizate ntr-un mod asem an ator etichet arii manuale (gura 5.3). Vericarea etichet arii presupune ns a denirea unor criterii de decizie asupra celor dou a procese componente segmentarea semnalului vocal si identicarea segmentelor. Deoarece aceste criterii au fost denite si ranate n mod iterativ pe parcursul cercet arilor legate de etichetarea semnalului vocal, pentru a asigura consistent a global a a etichet arii, vericarea a inclus si rezultatele etichet arii manuale a propozit iilor de init ializare.

5.4

Criteriile de decizie

Datorit a coarticulat iei sunetelor vorbirii, un fonem poate semnalat printr-o serie de indicii distribuite n mai multe segmente de semnal vocal, si invers, propriet a tile unui segment pot determinate de mai multe foneme succesive [69], [265]. Aceasta face ca localizarea realiz arilor fonemelor, urm arit a prin etichetarea la nivelul fonetic extins, s a nu e ntotdeauna u soar a, iar n unele cazuri nici m acar posibil a, astfel nc at desemnarea unui segment ca realizare a unui fonem se face ntr-o oarecare m asur a arbitrar, pe baza indiciilor fonemice principale considerate a cont inute n acel segment [18]. Indiciile fonemice put and distribuite de-a lungul mai multor segmente succesive, etichetarea si vericarea manual a au acordat o pondere redus a percept iei auditorii a semnalelor n deciziile asupra delimit arii segmentelor asociate fonemelor percepute ca realizate. Delimitarea a fost astfel bazat a n primul r and pe caracteristicile acustice ale semnalelor (aspectul formelor de und a si al spectrogramelor), care pot cel mai adesea corelate cu mi sc arile articulatorii efectuate pentru realizarea fonemelor. La r andul lor, formelor de und a, ca reprezent ari primare ale semnalelor vocale, le-a fost acordat a uneori o pondere superioar a spectrogramelor, care au dezavantajul unei rezolut ii mai reduse n timp datorit a cadr arii semnalelor n cursul gener arii lor. Corelat iile dintre propriet a tile articulatorii si cele acustice ale sunetelor vorbirii [69], [186] sunt sucient de puternice pentru ca expert i umani s a poat a reconstitui cont inutul unor pronunt ii pe baza examin arii spectrogramelor lor [265], [157], ele put and cu at at mai mult folosite pentru decizii asupra etichet arii, c and semnalele pot si ascultate.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

94 ETICHETAREA SEMNALELOR VOCALE

Tabelul 5.1: Clasicarea consoanelor limbii rom ane dup a criteriile manierei si locului de articulare (simboluri ASCII conform tabelului 4.1)

Maniera de articulare Plozive Fricative Africate Nazale Laterale Vibrante Semivocale

Bilabiale pb

wO

Locul de articulare Labio- Dentale Postal- Palatale dentale veolare td fv sz SJ T CG n l r jE

Velare kg h

Tabelul 5.2: Clasicarea vocalelor limbii rom ane dup a gradul de deschidere si locul de articulare (simboluri ASCII conform tabelului 4.1)

Gradul de deschidere Inchise Medii Deschise

Locul de articulare Anterioare Centrale Posterioare i e y @ a u o

Caracterizarea articulatorie a sunetelor limbii rom ane [234] poate f acut a n cazul consoanelor prin locul si maniera de articulare (tabelul 5.1), iar n cel al vocalelor prin locul de articulare si gradul de deschidere a cavit a tii bucale (tabelul 5.2). In plus, consoanele pot distinse si dup a sonoritate n tabelul 5.1, aceasta diferent iaz a perechile de sunete cu acelea si locuri de articulare din primele trei linii, cele sonore ind evident iate. Distinct ia sonor/nesonor nu este relevant a pentru consoanele sonante (nazale, laterale si vibrante) si semivocale, care sunt toate sonore. Semivocalele au fost incluse mpreun a cu consoanele datorit a diferent elor fonetice (sunt sunete tranzitorii) si fonologice (nu pot forma nucleul unei silabe) fat a de vocale. Distinct ia n cadrul perechilor de semivocale cu acela si loc de articulare se poate face ns a similar vocalelor, dup a gradul de deschidere. Maniera de articulare, sonoritatea si locul de articulare pot ierarhizate n aceast a ordine din punctul de vedere al discrimin arii consoanelor [186]. Dintre acestea, maniera de articulare este cea mai str ans corelat a cu propriet a tile acustice ale semnalelor, ind din aceast a cauz a baza cea mai potrivit a pentru deciziile asupra segment arii [69]. Locul de articulare, relevant si pentru vocale, are drept corelate acustice valorile frecvent elor formant ilor, determinate de volumele cavit a tilor componente ale tractului vocal: F1 este determinat a n principal de volumul faringelui, iar F2 de cel al cavit a tii bucale. Av and o evolut ie n general lent a n timp (v. gurile 2.3 si 5.1), corelatele locului de articulare sunt utile n special pentru deciziile asupra identit a tii segmentelor.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CRITERIILE DE DECIZIE

95

Sonoritatea este indicat a cu maximum de abilitate de prezent a n spectrogram aa primului formant, cauzat de rezonant a faringelui, deoarece vibrat iile coardelor vocale, specice sunetelor sonore, sunt singura surs a posibil a de excitat ie a faringelui. Criteriile de decizie, grupate n continuare pe categorii, au fost formulate plec and de la obiectivele cercet arilor proprii si caracteristicile generale ale sunetelor vorbirii [69], [186] si tin and cont de rezultatele altor proiecte similare [266], [81], [17], [133], [55] si experient a acumulat a pe parcursul acestor cercet ari. In m asura n care acest lucru este posibil, ele sunt denite cu referire la propriet a tile acustice si articulatorii ale sunetelor limbii rom ane, dar exist a si cazuri ambigue n care lipsa unor repere clare a impus introducerea unor reguli pentru rezolvarea ambiguit a tilor si asigurarea consistent ei.

5.4.1

Fenomenele specice vorbirii uente

Pe durata etichet arii manuale, a transcrierii fonetice si veric arii etichet arii, opt iunea pentru nivelul fonetic extins (sect iunea 5.1) a condus la luarea n considerat ie a unor fenomene specice vorbirii uente: asimilarea, eliziunea si epenteza. Asimilarea, const and n transformarea unor sunete sub inuent a celor adiacente (de exemplu, exemplu pronunt at [egzemplu]), a fost marcat a prin atribuirea identit a tilor corespunz atoare realiz arilor efective ale segmentelor acustice implicate. Eliziunea, sau omiterea segmentului corespunz ator unui fonem, apare n vorbirea uent a chiar si la viteze moderate. In cazul eliziunii complete, chiar dac a un fonem apare n pronunt ia standard a unui cuv ant, el nu a fost etichetat, neexist and un segment cu care s a poat a asociat. Uneori, contrastul fonemic este realizat prin intermediul altor tr as aturi distinctive, iar fonemul respectiv poate perceput ca pronunt at, chiar dac a la examinarea semnalului nu putem localiza un segment speic: n asemenea cazuri au fost etichetate componentele acustice efectiv ap arute de exemplu, nazalizarea unei vocale perceput a ca realizare a unei consoane nazale (sect iunea 5.4.5). Epenteza (introducerea unor segmente acustice suplimentare fat a de pronunt iile standard) se manifest a n special sub forma unor semivocale (de exemplu, /j/ la nceputul cuvintelor ei, ele), dar si ca pauze n interiorul cuvintelor, datorate lipsei de sincronizare a mi sc arilor articulatorii, si a fost marcat a ca atare n etichetare.

5.4.2

Vocalele si semivocalele

Datorit a producerii lor f ar a obstruct ii sau constrict ii ale tractului vocal, vocalele sunt caracterizate prin structur a formantic a si, de obicei, sonoritate. Caracteristicile articulatorii si cele acustice sunt legate n acest caz prin dou a corelat ii majore: pe de o parte, cea a locului de articulare cu caracterul grav sau acut al vocalei, indicat de valoarea frecvent ei formantului al doilea, F2 nalt a (acut a) pentru vocalele anterioare, respectiv joas a (grav a) pentru cele posterioare; pe de alt a parte, cea dintre gradul de deschidere si caracterul difuz sau compact al spectrului, indicat de diferent a F2 F1 mare (spectru difuz) pentru vocalele nchise, mic a (spectru compact) pentru cele deschise. Valorile frecvent elor formant ilor trebuie ns a interpretate relativ la ansamblul unei pronunt ii, tin and cont de evolut iile lor n timp si variat iile dintre vorbitori.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

96 ETICHETAREA SEMNALELOR VOCALE Deoarece F2 este determinat a de rezonant a cavit a tii bucale, al c arui volum poate varia cel mai mult de-a lungul tractului vocal, formantul al doilea are cea mai mare dinamic a, iar n lipsa altor indicii, delimitarea se poate face la mijlocul tranzit iei sale. Secvent ele vocal a-vocal a sau semivocal a-vocal a sunt n general cele mai dicil de delimitat: dac a cele dou a componente nu sunt similare din punctul de vedere al locului de articulare, delimitarea se face la mijlocul tranzit iei formantice, n caz contrar se utilizeaz a indiciile furnizate de schimb arile de amplitudine ale formei de und a si variat iile de energie din spectrogram a. In lipsa altor indicii, o secvent a semivocal a-vocal a a fost n general divizat a n raportul o treime din durat a semivocala, dou a treimi vocala. Limitele n raport cu consoanele plozive, fricative sau africate sunt de obicei clare datorit a manierei de articulare a acestora, iar cele fat a de consoanele sonante corespund cre sterii intensit a tii formant ilor si amplitudinii si/sau complexit a tii formei de und a.

5.4.3

Consoanele plozive

Pe durata producerii acestor consoane pot apare trei evenimente acustice distincte: lini stea, corespunz atoare nchiderii articulatorilor, explozia, produs a la eliberarea lor, si aspirat ia de dup a explozie. Explozia este format a din impulsuri dep a sind amplitudinea oric arui zgomot de frict iune ulterior, corespunz ator aspirat iei, iar n cazul n care aceasta din urm a lipse ste, poate identicat a ca un impuls n forma de und a, de amplitudine mult mai mic a dec at a sunetului sonor urm ator. Aspirat ia este semnalul aperiodic de dup a explozie, al c arui sf ar sit este marcat de nceputul vibrat iilor coardelor vocale pentru urm atorul sunet sonor. Limitele consoanelor plozive corespund deci nceputului nchiderii articulatorilor si sf ar sitului exploziei sau eventualei aspirat ii. C and o ploziv a este precedat a de un sunet fricativ sau sonor, nceputul nchiderii coincide cu sc aderea energiei sunetului anterior la toate frecvent ele, sau peste cca. 500 Hz, dac a sonoritatea continu a pe durata nchiderii si este vizibil a n spectrogram a. Dup a o pauz a, limita init ial a a unei plozive sonore este pozit ionat a la nceputul vibrat iilor coardelor vocale. Dac a vibrat iile nu sunt vizibile nici n forma de und a, nici n spectrogram a, aceast a limit a este plasat a cu cca. 50 ms naintea exploziei. Dac a dup a o pauz a apare o nchidere nesonor a, nceputul ei este de obicei marcat printr-un mic impuls n forma de und a si/sau spectrogram a, iar limita init ial a a consoanei plozive asociate este plasat a la acest moment. In lipsa acestor indicii, ca si n cazul anterior, limita init ial a este plasat a cu cca. 50 ms naintea exploziei. Dac a o ploziv a nesonor a este precedat a de o vocal a, sonoritatea este adesea prelungit a pe durata nchiderii, limita dintre vocal a si ploziv a ind n acest caz plasat a pe baza spectrogramei, n punctul de disparit ie a formant ilor. O consoan a ploziv a urmat a de una fricativ a sau nazal a nu are de obicei o explozie identicabil a, caz n care ea include numai o nchidere, iar limita ei nal a este plasat a acolo unde apare o cre stere marcat a a energiei la frecvent e de peste 500 Hz. Limita dreapt a a unei consoane plozive nale este plasat a la sf ar situl exploziei, iar n lipsa acestei la cca. 50 ms de la nceputul consoanei. Intr-o secvent a de dou a consoane plozive, dac a nu exist a indicii ale exploziei primei consoane, nchiderea este mp art it a n mod egal ntre cele dou a.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CRITERIILE DE DECIZIE

97

5.4.4

Consoanele fricative si africate

Datorit a intensit a tii zgomotului de nalt a frecvent a care le caracterizeaz a, /s/, /z/, /S/ si /J/ sunt cel mai u sor de identicat dintre consoanele fricative, nceputul lor put and determinat pe baza cre sterii energiei acestui zgomot, vizibil a n spectrogram a. Celelalte consoane fricative sunt semnalate de asemeni prin zgomot n spectrogram a, dar vizibilitatea acestuia poate foarte redus a; ele sunt ns a caracterizate de sc aderi ale energiei formant ilor n raport cu sunetele al aturate si indicii ale frict iunii care permit delimitarea lor. Dac a nici unele dintre aceste indicii nu sunt vizibile, limitele vor plasate prin excludere, acolo unde nu exist a n mod clar altceva. Fricativele adiacente sunt separate pe baza diferent elor de intensitate si frecvent a inferioar a a zgomotului din spectrogram a, provocate de schimbarea locului de articulare, iar n cazul identit a tii lor prin divizarea n p art i egale a segmentului fricativ. Dac a o fricativ a este nsot it a de o nchidere produs a prin apropierea articulatorilor mai mult dec at necesarul pentru frict iune, nchiderea este inclus a n fricativ a, iar dac a ntre un sunet sonor si o fricativ a apare o scurt a pauz a, aceasta este atribuit a fricativei. Deoarece o consoan a africat a este realizat a asem an ator nchiderii unei plozive, urmat a de o frict iune homorganic a nlocuind explozia, criteriile din acest caz sunt similare celor folosite pentru plozive si fricative: limita init ial a este stabilit a folosind regulile pentru nchiderile plozivelor, iar cea nal a pe baza regulilor pentru fricative.

5.4.5

Consoanele sonante

Limitele nchiderii orale de pe durata unei consoane nazale sunt marcate prin sc aderea, relativ a la segmentele adiacente, a energiei din spectrogram a peste frecvent a de cca. 500 Hz. Amplitudinea semnalului variaz a de obicei n aceste puncte, ca si cea a oscilat iilor de nalt a frecvent a , corespunz atoare formant ilor, suprapuse peste frecvent a fundamental a, astfel nc at pe durata nazalelor forma de und a este mai simpl a, iar formant ii sunt mai slabi si discontinui n raport cu cei ai vocalelor din jur. Nazalele adiacente cu locuri de articulare diferite sunt distinse prin deplas ari ale formant ilor, iar cele ngem anate pentru care nici forma de und a nici spectrograma nu ofer a indicii asupra unei posibile delimit ari se segmenteaz a n p art i egale. Eliziunea nazalelor apare frecvent n vorbirea uent a, caz n care ele pot totu si indicate prin nazalizarea vocalei precedente, iar dac a pot percepute, ele sunt marcate prin alocarea c atorva perioade fundamentale din aceste zone de nazalizare. Laterala /l/ poate delimitat a de vocale similar nazalelor, pe baza schimb arilor de amplitudine ale formei de und a si sc aderii energiei la frecvent e nalte, dar formantul al doilea este considerabil mai puternic dec at n cazul nazalelor. C and exist a tranzit ii formantice, delimit arile se fac la mijlocul acestora, ca si n cazul (semi)vocalelor. Vibranta /r/ are cea mai mare variabilitate a articul arii si, n mod corespunz ator, a caracteristicilor acustice [130]. In cazul lui /r/ dental (normal) apar sc aderi si chiar ntreruperi ale uxului de aer, care duc la sc aderi ale amplitudinii formei de und a si energiei din spectrogram a, iar delimitarea se face la ultima respectiv prima oscilat ie a coardelor vocale anterioar a sau urm atoare acestor sc aderi. Varianta graseiat a poate delimitat a pe baza reducerii amplitudinii formei de und a si a energiei formant ilor.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

98 ETICHETAREA SEMNALELOR VOCALE

5.4.6

Problema /I/

Compar and tabelul 4.1 cu tabelele 5.1 si 5.2, se observ a c a /I/ nu apare printre sunetele descrise n acestea din urm a, literatura lingvistic a m arginindu-se (atunci c and l ment ioneaz a) s a-l descrie ca un alofon nesilabic al unei vocale sau semivocale (v. sect iunea 4.2), f ar a a detalia caracteristicile lui acustice sau articulatorii, si mai ales f ar a dovezi experimentale conving atoare, ci mai mult cit and p arerile unor nume prestigioase. Analiza datelor etichetate arat a ns a c a acesta are o frecvent a de realizare foarte redus a, sub 20% din cea a steptat a n urma proiect arii bazei de date, iar examinarea semnalelor si a spectrogramelor lor arat a o foarte mare variabilitate a caracteristicilor lui acustice, merg and p an a la lipsa unor segmente care i-ar putea asociate. Cu toate neclarit a tile legate de existent a realiz arilor lui zice si propriet a tile lor acustice si articulatorii, fonemul /I/ a fost inclus n transcrierile fonetice atunci c and a fost perceput, iar n lipsa unor segmente care s a-i poat a puse n corespondent a i-au fost alocate scurte port iuni de semnal ntre fonemele adiacente.

5.5

Rezultate si comentarii

Pentru dezvoltarea sistemului de etichetare descris n sect iunea 5.3 au fost etichetate manual cele 400 de propozit ii de init ializare, iar pasajele si propozit iile de completare si cele individuale au fost etichetate semiautomat, pe parcursul dezvolt arii sistemului (pasajele si propozit iile de completare nregistrate de tot i vorbitorii n prima sesiune) si prin utilizarea lui (propozit iile individuale si pasajele si propozit iile de completare nregistrate de vorbitorii din mult imea FT n sesiunile suplimentare). Au fost astfel etichetate toate cele 4080 de propozit ii, iar pentru asigurarea calit a tii si a consistent ei, toate sierele de etichete au fost vericate si corectate manual conform criteriilor din sect iunea 5.4. Acelea si criterii au fost folosite si pentru a eticheta manual logatomii CVC, alfabetul si informat iile semispontane, care nu au fost prelucrate folosind sistemul de etichetare datorit a simplit a tii si/sau caracteristicilor acustice diferite de cele ale propozit iilor utilizate la construct ia acestuia. Nu au fost etichetate numerele. Dat ind modul de dezvoltare si utilizare a sistemului de etichetare, evaluarea lui a fost f acut a doar pe baza analizei etichet arii celor 558 propozit ii individuale pentru a obt ine o c at mai bun a estimare a capacit a tii lui de generalizare: aceste propozit ii nu au fost folosite pentru dezvoltarea sistemului, iar vocabularul lor, de peste 2500 de cuvinte, este mult diferit de cel de 1160 de cuvinte al pasajelor si propozit iilor de completare utilizate pentru antrenarea modelelor acustice ale sistemului de etichetare. Evaluarea a fost f acut a conform metodologiei din sect iunea 5.2.1 prin compararea sierelor de etichete generate automat plec and de la transcrierile fonetice manuale cu cele vericate si corectate manual. Metricele caracteriz and performant ele de identicare reprezint a n acest caz o m asur a a corectitudinii transcrierii fonetice manuale si au, cum era de a steptat, valori foarte bune: transcrierile init iale au cuprins 27553 de etichete, iar sierele corectate 27580, deci o diferent a sub 0,1%. Alinierea lor (sect iunea 3.1.1) a identicat 37 substitut ii (sub 0,14%), 66 omisiuni (sub 0,24%) si 39 insert ii (sub 0,15%), corespunz atoare unei corectitudini de peste 99,62% si unei acuratet i de peste 99,48%.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

REZULTATE S I COMENTARII

99

Aparit ii

0 100

2000

4000

50

50

100

Eroare (ms)
Figura 5.6: Histograma erorilor de segmentare

Analiza erorilor arat a c a substitut iile cele mai frecvente au fost datorate confuziei /j/-/J/ la tastare (de 7 ori), /I/ a fost fonemul cel mai frecvent inserat (de 10 ori), iar pauza / / cea mai frecvent omis a. In rest, erorile pot atribuite incertitudinii inerente procesului de transcriere si n foarte mic a m asur a altor confuzii la tastare (/s/-/S/). Evaluarea performant elor de segmentare ale sistemului a fost bazat a pe analiza a 27241 de cazuri n care ambele etichete din jurul unei limite ntre segmente au fost corecte. Erorile de segmentare, calculate ca diferent e ntre limitele generate de sistemul de etichetare si cele stabilite n urma veric arii si corect arii manuale, au fost cuprinse ntre 275 si 226,002 ms, cu media de 3,027 ms, mediana de 3,102 ms si abaterea standard de 17,278 ms. Erorile au fost mai mari de 100 ms n valoare absolut a doar n 91 (0,33%) dintre cele 27241 de cazuri, iar gura 5.6 prezint a histograma lor ntre aceste limite: dup a cum se observ a din cifrele de mai sus si din histogram a, pe ansamblu sistemul a avut o u soar a tendint a de nt arziere a segment arii. Pentru o apreciere mai exact a a performant elor de segmentare ale sistemelor de etichetare, o metric a frecvent folosit a este procentajul erorilor care se ncadreaz a ntre anumite limite. In cazul sistemului prezentat aici, valorile acestei metrice pentru c ateva limite sunt prezentate n tabelul 5.3: se observ a c a peste 80% din delimit arile automate ale segmentelor au fost la maximum 15 ms de cele considerate corecte n urma veric arii si corect arii manuale, iar peste 95% la maximum 35 ms.

Tabelul 5.3: Procentajele erorilor de segmentare ntre anumite limite

Limite %

5 ms 37,68

10 ms 64,87

15 ms 80,51

20 ms 88,09

25 ms 91,70

30 ms 93,98

35 ms 95,50

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

100 ETICHETAREA SEMNALELOR VOCALE

Tabelul 5.4: Clasele de sunete folosite n analiza erorilor de segmentare

Clasa A F I P S V

Sunetele TCG fvszSJh I pbtdkg mnlrjw ieEy@auoO

O analiz a mai detaliat a a erorilor de segmentare a fost f acut a prin considerarea c atorva clase de sunete pentru care au fost observate probleme similare (tabelul 5.4), iar rezultatele acestei analize, sub forma unor boxplot-uri ale distribut iilor erorilor, sunt reprezentate funct ie de clasele sunetelor adiacente n gura 5.8. Explicat ia reprezent arilor prin boxplot-uri din gura 5.8 poate urm arit a n detaliu n gura 5.7: sfertul inferior este valoarea sub care sunt plasate cele mai mici 25% din valori; cel superior valoarea peste care se a a cele mai mari 25% din valori; minima si maxima acceptabil a sunt la maximum 1,5 intervale ntre sferturi sub, respectiv peste sfertul adiacent; iar valorile aberante, din afara lor (outliers), sunt reprezentate individual. Revenind la gura 5.8, se observ a, pe baza intervalelor ntre sferturi, c a erorile cele mai mari apar n cazul delimit arii unor sunete din aceea si clas a, cele mai afectate ind, n ordine, clasele P (consoanele plozive si pauza), V (vocalele si semivocalele /E/ si /O/) si S (consoanele sonante si semivocalele /j/ si /w/). Mecanismele de producere a erorilor difer a ns a ntre clase: n cazul clasei P, principala cauz a, indicat a si de deplasarea distribut iei erorilor, este dicultatea de a detecta nceputul unei noi nchideri n lipsa unei explozii asociate celei anterioare; n cazul claselor V si S, problemele si au originea n modic arile lente ale caracteristicilor spectrale ale sunetelor din aceste clase, f ar a evenimente u sor detectabile, iar distribut iile sunt aproape simetrice.

Sfertul inferior Valori aberante Mediana

Sfertul superior Valori aberante

Minima acceptabil a
100 50 0

Maxima acceptabil a
50 100

Figura 5.7: Reprezentarea prin boxplot a unei distribut ii

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

REZULTATE S I COMENTARII

101

100

50

50

100

S
V S P I F A

I
V

Clasa primului sunet

S P I F A

A
V S P I F A

100

50

50

100

Figura 5.8: Distribut iile erorilor de segmentare funct ie de clasele sunetelor adiacente (clasa celui de-al doilea sunet este titlul unuia dintre cele sase panouri)

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

102 ETICHETAREA SEMNALELOR VOCALE

5.6

Concluzii

Etichetarea semnalelor vocale, const and n denirea unor evenimente identicate prin coordonate temporale si etichete, asigur a baza mecanismelor de indexare si reg asire rapid a a acestor evenimente n cadrul unei baze de date vocale. Din punctul de vedere al cercet arilor n direct ia recunoa sterii automate a vorbirii, etichetarea corespunz atoare a unei asemenea baze de date permite localizarea aparit iilor unor unit a ti de modelare acustic a si utilizarea lor pentru antrenarea modelelor acustice, si asigur a transcrierile de referint a necesare evalu arii rezultatelor n experimentele de recunoa stere desf a surate la nivelul acestor unit a ti de modelare. Etichetarea poate f acut a la diferite niveluri, posibil divizate n straturi, iar datorit a avantajelor pe care le prezint a din punctul de vedere al antren arii modelelor acustice si al utiliz arii lor n cursul recunoa sterii, ca si al etichet arii n sine, pentru etichetarea bazei de date proiectate si colectate n cursul acestor cercet ari a fost ales nivelul fonetic extins. Acesta utilizeaz a simboluri ale fonemelor unei limbi ( n cazul nostru, ale unit a tilor fonetice de modelare acustic a) pentru a identica realiz arile lor efective. Efectuat a manual, etichetarea poate foarte mare consumatoare de timp, astfel nc at pentru automatizarea ei au fost ncercate de-a lungul timpului diferite solut ii, iar pentru etichetarea bazei noastre de date am ales varianta unui sistem bazat pe modele Markov ascunse dependente de sex ale unit a tilor fonetice de modelare acustic a. Acest sistem nu elimin a ns a total intervent iile manuale, cum nu o face nici un alt sistem de etichetare, ele r am an and necesare e pentru a eticheta materialele folosite n procesul de init ializare a modelelor, e pentru a transcrie fonetic nregistr arile ce urmeaz a a prelucrate, e pentru a verica si corecta etichetele generate automat. Pentru vericarea si corectarea etichetelor generate automat, ca si pentru etichetarea manual a, este necesar a existent a unui cadru de referint a al acestor procese, concretizat prin criterii de decizie asupra delimit arii si identic arii evenimentelor etichetate. Un asemenea set de criterii, bazat n general pe corelat ii ntre caracteristici articulatorii si acustice ale sunetelor, a fost formulat si folosit si pentru aceste cercet ari. Dezvoltarea si utilizarea sistemului de etichetare si a criteriilor de decizie au permis etichetarea aproape total a a bazei de date descrise anterior, iar evaluarea sistemului prin compararea unor etichete generate de el cu cele vericate si corectate a dovedit bunele performant e de segmentare ale acestuia peste 80% din limitele ntre segmente evaluate au fost la maximum 15 ms de pozit iile de referint a , iar peste 95% la maximum 35 ms. De si efectuat a n primul r and n scopul cercet arilor asupra recunoa sterii automate a vorbirii continue, sper am ca etichetarea bazei de date s a contribuie si la dezvoltarea altor domenii de exemplu, pe baza informat iilor temporale incluse s-ar putea construi modele de ritm si durat a a sunetelor pentru conversia text-vorbire.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CAPITOLUL 6 Experimente de modelare acustic a


A sa cum am ment ionat n sect iunea 3.7, modelarea acustic a joac a un rol esent ial n sistemele automate de recunoa stere a vorbirii, de modul n care aceasta reu se ste s a acopere variabilitatea semnalelor vocale depinz and performant ele lor, iar experimentele descrise n acest capitol constituie prima abordare a problemelor model arii acustice folosind unit a ti sublexicale pentru recunoa sterea vorbirii continue n limba rom an a. Variabilitatea semnalelor vocale are surse multiple, dintre care unele lingvistice, altele extralingvistice. O surs a de variabilitate de natur a intrinsec lingvistic a, si pentru a c arei tratare alegerea unit a tilor de modelare acustic a poate determinant a, este coarticulat ia sunetelor vorbirii, ment ionat a deja n sect iunea 4.2 si exemplicat a n gura 5.1. Printre sursele extralingvistice se num ar a mediile n care sunt produse semnalele si canalele de comunicat ie prin care ele sunt transmise de la vorbitori la sistemele de recunoa stere: n cazul acestora, solut ia consta n utilizarea unor metode de extragere a caracteristicilor capabile s a reduc a efectele nedorite ale mediilor sau canalelor si s a ofere reprezent ari spectrale robuste ale semnalelor. Acest tip de variabilitate nu a fost prezent n aceste cercet ari deoarece semnalele folosite au fost colectate ntr-un mediu controlat prin nregistrare direct a pe calculator, f ar a canale de comunicat ie intermediare. Alte surse de variabilitate tin de vorbitori si cuprind caracteristicile lor biologice (sex, v arst a, stare ziologic a etc.), sociale (educat ie, ocupat ie etc.) si lingvistice (eventualul dialect vorbit, particularit a ti de pronunt ie etc.) In aceste cercet ari am ncercat acoperirea acestui tip de variabilitate prin selectarea si nregistrarea n baza de date a unui num ar semnicativ de vorbitori, urm arind n mod riguros dou a criterii biologice, pe care le-am considerat cele mai importante si mai u sor de apreciat sexul si grupa de v arst a. Studiile asupra model arii acustice descrise n acest capitol au fost realizate folosind subseturi din baza de date proiectat a, colectat a si etichetat a anterior n acest scop. Pentru nceput a fost dezvoltat un sistem de recunoa stere automat a a vorbirii continue dependent de vorbitor, care a permis o prim a punere n evident a a unor probleme legate de alegerea unit a tilor fonetice de modelare acustic a.
Cercet ari realizate cu sprijinul fostului CNCSU (devenit din 1999 CNCSIS) prin granturile 56/1995, 355/1996 si 281/1998, si al CNCSIS prin grantul 567/1999.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

103

104 EXPERIMENTE DE MODELARE ACUSTICA Problemele model arii acustice au fost apoi studiate prin experimente de recunoa stere independent a de vorbitor desf a surate at at la nivelul unit a tilor de modelare, c at si la cel lexical (al cuvintelor), dependent si independent de vocabular. Rezultatele acestor studii, evaluate conform metodologiei descrise n sect iunea 3.1, sunt din c ate cunoa stem primele referitoare la modelarea acustic a pentru recunoa sterea automat a a vorbirii continue n limba rom an a, put and deci considerate un punct de referint a pentru eventuale alte cercet ari viitoare n acest domeniu.

6.1

Experimente dependente de vorbitor

Prima etap a a studiului model arii acustice sublexicale pentru recunoa sterea automat a a vorbirii continue n limba rom an a a constat n dezvoltarea unui sistem de recunoa stere dependent de vorbitor [31]. Acest sistem a fost bazat pe acela si set de unit a ti fonetice de modelare acustic a folosit si pentru proiectarea bazei de date (tabelul 4.1). Pentru construct ia sistemului au fost folosite circa 15 minute de semnal vocal colectat de la un singur vorbitor, obt inut prin citirea celor 40 de pasaje si a propozit iilor de init ializare folosite pentru nregistrarea bazei de date (aproximativ 200 de propozit ii). In vederea antren arii modelelor acustice si a recunoa sterii, semnalul a fost supus unei analize cepstrale prin predict ie liniar a similar a celei folosite la etichetare (sect iunea 5.3.3), dar din cadre cu o lungime (25,6 ms 512 e santioane) si o deplasare (10 ms) tipice pentru sistemele de recunoa stere a vorbirii. Log-energia nu a fost ns a inclus a printre caracteristicile extrase, astfel nc at vectorii acustici rezultat i au fost 24-dimensionali. Modelele acustice au avut aceea si structur a ca si n cazul etichet arii (gura 5.5), dar datorit a deplas arii de 10 ms ntre cadre acestea au corespuns acum unei durate minime de 30 ms a unei unit a ti de modelare. Funct iile de probabilitate ale st arilor emit a toare au fost mixturi gaussiene 24-dimensionale cu matrice de covariant a diagonale. Antrenarea modelelor acustice a fost realizat a prin aceea si procedur a folosit a si pentru etichetare (sect iunea 5.3.4), pentru init ializare ind utilizate cele patru propozit ii de init ializare etichetate manual, iar pentru reestimarea Baum-Welch concatenat a cele 40 de pasaje, transcrise fonetic. Datorit a cantit a tii mici de date folosite, num arul de gaussiene dintr-o stare a fost limitat la K = 5.

6.1.1

Decodarea lingvistic a

Aceste prime experimente de recunoa stere automat a a vorbirii continue n limba rom an a au utilizat n procesul de decodare lingvistic a toate constr angerile secvent iale dintr-un sistem de recunoa stere tipic (gura 1.1) dict ionare de pronunt ii ale cuvintelor, respectiv un model statistic si o gramatic a a pronunt iilor de recunoscut. Dict ionarele de pronunt ii si modelele lingvistice folosite n aceste experimente au fost bazate n exclusivitate pe textele celor 40 de pasaje. O prim a analiz a a textelor a rezultat n identicarea unui vocabular de 1041 cuvinte cu pronunt ii distincte, incluz and dou a corespunz atoare pauzelor din si dintre propozit ii. Transcrierea lor n termenii unit a tilor de modelare acustic a a rezultat ntr-un prim dict ionar de pronunt ii, care a inclus n transcrieri si fenomene de fonetic a sintactic a de exemplu, ce-ar transcris /Car/ etc.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

EXPERIMENTE DEPENDENTE DE VORBITOR

105

O a doua variant a a dict ionarului de pronunt ii a fost obt inut a prin eliminarea /I/ din transcrierile fonetice ale cuvintelor conform sect iunii 6.1.2. Pentru a simplica o prim a implementare a unui algoritm de decodare prin eliminarea necesit a tii de a gestiona si informat ii despre forma ortograc a a cuvintelor, modelele lingvistice au fost bazate pe transcrierile fonetice ale pasajelor si au inclus un model statistic de tip bigram, n care probabilitatea P (w2 |w1 ) de aparit ie a unui cuv ant w2 dat ind predecesorul lui w1 a fost estimat a prin frecvent a relativ a P (w2 |w1 ) = N (w1 w2 )/N (w1 ) (6.1)

si o gramatic a de tip perechi-de-cuvinte (cf. engl. word-pair), n care toate cuvintele care urmeaz a unui cuv ant au fost considerate echiprobabile. Dict ionarele, modelele lingvistice si cele acustice au fost utilizate ntr-un algoritm Viterbi cu reducerea spat iului de c autare (pruning sect iunea 3.9), implementat folosind liste de st ari ale MMA active la un moment dat [136]. Pentru a reduce viteza de cre stere a spat iului de c autare, tranzit iile ntre cuvinte au fost restrict ionate n mod euristic p an a la atingerea unor durate ale cuvintelor corespunz atoare unei medii de 60 ms a duratelor unit a tilor sublexicale componente [31].

6.1.2

Rezultate si comentarii

In aceste prime experimente, acelea si date au fost folosite si pentru antrenarea MMA si pentru testarea sistemului de recunoa stere. De si din punct de vedere metodologic o asemenea abordare (testare pe datele de antrenament [64]) este contraindicat a, neput and evident ia capacit a tile de generalizare ale modelelor, ea este avantajoas a din punct de vedere al punerii la punct a algoritmilor. In cazul particular discutat aici, ea a condus totu si si la un prim rezultat semnicativ din punct de vedere al model arii acustice. Pe durata etichet arii bazei de date (capitolul 5) a devenit discutabil a existent a fonemului /I/, postulat a de lingvi sti n sistemul fonologic al limbii rom ane cu acceptarea cea mai larg a la acest moment [244], [234]: de si el ar trebui s a aib a asociate segmente de semnal disticte, specice, adesea asemenea segmente sunt imposibil de identicat. Datorit a acestei situat ii, utilizarea setului de unit a ti de modelare din tabelul 4.1 a avut ca urmare obt inerea unui model acustic pentru /I/ caracterizat prin lips a de specicitate n lipsa segmentelor de semnal corespunz atoare lui /I/, modelul pentru acesta a fost construit prin colectarea unor segmente (minimum 30 ms) din sunetele adiacente. Rezultatul a fost c a acest model avea tendint a de a determina probabilit a ti importante ale multor cuvinte scurte av and pronunt ii terminate n /I/ ( mi, si, t i etc.), care erau inserate n mod frecvent si determinau erori de recunoa stere foarte numeroase. Aceast a problem a a fost rezolvat a prin eliminarea lui /I/ din setul de unit a ti de modelare acustic a, urmat a de modicarea corespunz atoare a dict ionarului de pronunt ii si a transcrierilor semnalelor si construct ia unor noi modele acustice. Aceasta a dus la disparit ia fenomenului ment ionat mai sus si a f acut posibile primele demonstrat ii ale recunoa sterii automate a vorbirii continue n limba rom an a ( n iunie 1997).

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

106 EXPERIMENTE DE MODELARE ACUSTICA

6.2

Experimente independente de vorbitor

Odat a un prim sistem de recunoa stere disponibil, cercet arile au continuat n direct ia recunoa sterii independente de vorbitor. Trecerea de la recunoa sterea dependent a la cea independent a de vorbitor s-a f acut prin selectarea din baza de date a unor submult imi de vorbitori cu distribut ii similare pe sexe si grupe de v arst a: submult imi de c ate 60 de vorbitori pentru antrenarea modelelor acustice, respectiv 20 de vorbitori pentru testarea si evaluarea sistemelor de recunoa stere bazate pe aceste modele. Dintre materialele folosite pentru nregistrarea bazei de date (sect iunea 4.3), cele 40 de pasaje si propozit iile de completare asociate au fost citite de tot i vorbitorii, ceea ce a permis evaluarea modelelor acustice n mod dependent de vocabular. Existent a n baza de date si a unor semnale obt inute prin citirea de propozit ii individuale, specice ec arui vorbitor, a f acut posibil a si evaluarea n mod independent de vocabular. Evalu arile au fost f acute at at la nivelul unit a tilor de modelare, c at si la cel lexical, al cuvintelor. Primele experimente de recunoa stere independent a de vorbitor au fost efectuate la nivelul sublexical, al unit a tilor de modelare acustic a, si au urm arit evaluarea dependent a si independent a de vocabular a celor dou a seturi alternative de unit a ti de modelare acustic a, conturate ca urmare a dezvolt arii sistemului dependent de vorbitor: fonemele limbii rom ane cu cea mai larg a acceptare la acest moment (tabelul 4.1), considerat set de baz a, respectiv un set redus, obt inut prin eliminarea fonemului /I/. De si recunoa sterea si evaluarea la nivel sublexical pot utile pentru a mbun at a ti performant ele recunoa sterii la nivel lexical [82], recunoa sterea trebuie n cele din urm a efectuat a la nivelul cuvintelor. Restul experimentelor au fost n consecint a dedicate recunoa sterii la nivel lexical, evaluat a dependent si independent de vocabular. Pentru a obt ine informat ii referitoare strict la modelarea acustic a, experimentele au fost efectuate utiliz and gramatici deterministe de tip bucl a (gura 3.3), n care toate unit a tile de modelare respectiv cuvintele au fost considerate echiprobabile.

6.3

Recunoa sterea unit a tilor de modelare

Experient a acumulat a p an a la acest moment, pe durata etichet arii bazei de date (capitolul 5) si a experimentelor de recunoa stere dependent a de vorbitor (sect iunea 6.1), indica posibila inadecvare a setului de unit a ti fonetice folosit pentru proiectarea bazei de date (tabelul 4.1) n vederea model arii acustice sublexicale pentru recunoa sterea automat a a vorbirii continue n limba rom an a. Pentru claricarea acestei probleme, primele experimente de recunoa stere independent a de vorbitor au fost efectuate la nivelul unit a tilor de modelare acustic a [30] si au urm arit evaluarea performant elor asigurate de posibile seturi alternative de unit a ti de modelare.

6.3.1

Vorbitori si date

In aceste experimente au fost folosit i 80 de vorbitori 60 de antrenament si 20 de test uniform distribuit i pe sexe si grupe de v arst a (tabelul 6.1). Datele de antrenament au inclus pasajele si propozit iile de completare nregistrate de vorbitorii de antrenament, iar pentru teste au fost folosite mult imi de date colectate

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ILOR DE MODELARE RECUNOAS TEREA UNITAT

107

Tabelul 6.1: Mult imile de vorbitori folosite n experimentele de recunoa stere a unit a tilor de modelare (v. tabelul 4.3 pentru interpretarea codic arii)

MA1 FA1 MB2 FB2 MC3 FC3 MD4 FD4 ME5 FE5

FF2 MF2 FG3 MG3 FH4 MH4 FI5 MI5 FJ1 MJ1

Antrenament MK3 FP4 FK3 MP4 ML4 FQ5 FL4 MQ5 MM5 FR1 FM5 MR1 MN1 FS2 FN1 MS2 MO2 FT3 FO2 MT3

MU5 FU5 MV1 FV1 MX2 FX2 MY3 FY3 MZ4 FZ4

GA1 NA1 GB2 NB2 GC3 NC3 GD4 ND4 GE5 NE5

Test NF2 GK3 GF2 NK3 NG3 GL4 GG3 NL4 NH4 GM5 GH4 NM5 NI5 GN1 GI5 NN1 NJ1 GO2 GJ1 NO2

Tabelul 6.2: Caracteristici ale textelor citite pentru nregistrarea datelor folosite n experimentele de recunoa stere a unit a tilor de modelare acustic a

Texte Pasaje Completare Individuale

Num ar propozit ii 197 26 91

Num ar cuvinte 2217 263 878

Lungime medie a propozit iilor 11,3 cuvinte 10,1 cuvinte 9,65 cuvinte

Cuvinte distincte 1043 174 575

de la vorbitorii de test: pentru teste dependente de vocabular (DV), nregistr arile pasajelor f acute de c atre cei 20 de vorbitori de test; pentru teste independente de vocabular (IV), cele 91 de propozit ii individuale specice vorbitorilor de test (4-5 propozit ii/vorbitor). Caracteristicile textelor folosite pentru nregistrarea datelor sunt prezentate n tabelul 6.2, iar caracteristicile mult imilor de date de antrenament si de test n tabelul 6.3. Fat a de experimentele dependente de vorbitor, num arul de cuvinte distincte din pasaje a crescut la 1043 datorit a consider arii separate a componentelor c atorva cuvinte compuse. Din tabele se poate observa c a propozit iile de completare au ad augat doar 116 cuvinte distincte la cele 1043 din pasajele utilizate pentru teste dependente de vocabular, adic a 10% din cele 1159 cuvinte distincte din mult imea datelor de antrenament. Se observ a de asemeni c a n propozit iile individuale, utilizate n testele independente de vocabular, aproape 72% dintre cuvintele distincte sunt specice acestora: deoarece vorbirea este foarte greu separabil a n submult imi cu vocabulare disjuncte, am considerat aceste valori ca ind acceptabile pentru cele dou a condit ii de test dependent (DV) respectiv independent de vocabular (IV).

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

108 EXPERIMENTE DE MODELARE ACUSTICA

Tabelul 6.3: Caracteristici ale datelor utilizate pentru antrenarea modelelor acustice si teste dependente (DV) respectiv independente de vocabular (IV) n experimentele de recunoa stere a unit a tilor de modelare acustic a

Date Antrenare Teste DV Teste IV

Num ar propozit ii 1338 394 91

Num ar cuvinte 14880 4434 878

Cuvinte distincte 1159 1043 575

Cuvinte specice 1159 (100%) 0 (0%) 412 (71,7%)

Durat a 1h4550 3037 713

6.3.2

Alternativele de modelare

Analiza problemelor cauzate de utilizarea lui /I/ ca unitate de modelare acustic a si a literaturii lingvistice n privint a sunetelor limbii rom ane a condus init ial la conturarea a dou a posibile seturi alternative de unit a ti de modelare acustic a. Prima alternativ a ar constat n nlocuirea secvent elor de tipul consoan a-/I/ prin variante palatalizate ale consoanelor, corespunz ator teoriilor lingvistice care postuleaz a existent a consoanelor palatalizate n limba rom an a. O analiz a a etichet arii datelor de antrenament a ar atat ns a c a frecvent ele de aparit ie ale secvent elor consoan a-/I/ sunt foarte reduse n raport cu frecvent ele consoanelor de baz a n general sub 1%, singurul caz n care acest prag a fost dep a sit ind cel al consoanei /r/ (1,56%). A doua alternativ a consta n eliminarea lui /I/ din setul init ial de unit a ti de modelare, deja testat a n sistemul dependent de vorbitor. Aceasta s-a dovedit singura fezabil a n condit iile existente deoarece frecvent ele reduse de aparit ie ale secvent elor consoan a-/I/ constatate, conjugate cu dimensiunile bazei de date colectate, nu permit antrenarea de modele ale consoanelor palatalizate, presupuse de prima alternativ a.

6.3.3

Extragerea caracteristicilor

Fi sierele de semnal vocal din mult imile de date de antrenament si de test au fost supuse unei analize cepstrale melodice (sect iunea 2.7.1) conform gurii 6.1: dup a preaccentuarea cu un coecient = 0,97, e santioanele semnalelor au fost grupate n cadre cu lungimea de 25,6 ms (512 e santioane) distant ate la 10 ms, ferestruite cu o fereastr a Hamming si prelucrate folosind un algoritm de transformare Fourier rapid a. Spectrul de amplitudine rezultat a fost transformat ntr-unul melodic prin sum ari ponderate ale componentelor sale, corespunz atoare unui bloc de 30 ltre triunghiulare uniform distribuite pe scara melodic a, iar printr-o transformare cosinus discret a a spectrului melodic au fost obt inut i 12 coecient i cepstrali melodici. Coecient ii cepstrali melodici au fost liftrat i cu un liftru de tip sinus ridicat cu o lungime L = 22 (ecuat ia 3.18) si mpreun a cu o estimare a log-energiei ec arui cadru si coecient ii lor (sect iunea 2.7.2) au format vectori acustici 26-dimensionali folosit i efectiv la antrenarea modelelor acustice si recunoa stere.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ILOR DE MODELARE RECUNOAS TEREA UNITAT

109

Semnal Preaccentuare ( = 0,97) Cadrare (25,6 ms) Ferestruire (Hamming) Analiz a Fourier Spectru melodic Transformare cosinus discret a Cepstru melodic

Figura 6.1: Analiza cepstral a melodic a

6.3.4

Modelele acustice

Modelarea acustic a a fost realizat a folosind tot MMA de tipul st anga-dreapta cu dou a st ari conectoare si trei st ari emit a toare (gura 5.5), av and ca funct ii de probabilitate b(y ) mixturi gaussiene cu matrice de covariant a diagonale 26-dimensionale. Antrenarea MMA a fost f acut a conform procedurii din sect iunea 5.3.4; pentru a evita ns a unele instabilit a ti ale algoritmului de grupare folosit, n faza de init ializare vectorii asociat i unei st ari emit a toare au fost utilizat i pentru estimarea unei singure gaussiene. Dup a ecare reestimare concatenat a, num arul de gaussiene al ec arei st ari emit a toare a fost incrementat prin divizarea gaussienei de pondere maxim a si nlocuirea ei cu altele dou a de ponderi egale cu jum atate din ponderea celei init iale. Vectorii medii ai noilor gaussiene au fost obt inut i prin deplas ari ale vectorului mediu al gaussienei init iale cu 20% din abaterea standard corespunz atoare. Dup a ecare m arire a num arului de gaussiene, modelele au fost reestimate folosind algoritmul Baum-Welch concatenat.

6.3.5

Rezultate si comentarii

Experimentele de recunoa stere a unit a tilor sublexicale de modelare acustic a din setul de baz a (tabelul 4.1) si cel redus (f ar a /I/) s-au desf a surat folosind MMA cu p an a la 16 gaussiene/stare emit a toare si au fost evaluate conform metodologiei prezentate n sect iunea 3.1, iar rezultatele sunt prezentate sub form a numeric a n tabelele 6.4 respectiv 6.5 si sub form a grac a n gurile 6.26.6. Analiza rezultatelor evident iaz a faptul c a procedura de antrenare utilizat a conduce la modele cu o foarte bun a capacitate de generalizare: frecvent a recunoa sterilor corecte evaluat a independent de vocabular este superioar a celei evaluate dependent de vocabular at at n cazul setului de baz a de unit a ti de modelare, c at si al celui redus (gura 6.2), iar acuratet ea evaluat a independent de vocabular este foarte apropiat a de cea evaluat a dependent de vocabular (gura 6.3). Dar aspectul cel mai interesant se refer a la unit a tile de modelare acustic a folosite:

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

110 EXPERIMENTE DE MODELARE ACUSTICA

Tabelul 6.4: Rezultatele experimentelor de recunoa stere a unit a tilor de modelare acustic a folosind setul de baz a (tabelul 4.1)

Num ar de gaussiene 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Dependent de vocabular C A S O 61,09 55,29 26,80 12,11 61,36 55,77 26,47 12,17 62,37 56,90 25,86 11,77 64,01 58,23 24,76 11,23 65,35 59,38 23,93 10,71 66,91 61,19 22,94 10,14 68,20 62,41 21,91 9,89 69,09 63,40 21,33 9,58 69,81 64,15 20,80 9,38 70,53 65,06 20,46 9,02 71,12 65,84 20,08 8,80 71,54 66,22 19,80 8,66 71,78 66,67 19,75 8,47 71,95 66,79 19,61 8,44 72,17 67,10 19,48 8,34 72,35 67,33 19,27 8,37

I 5,80 5,58 5,46 5,78 5,97 5,72 5,80 5,69 5,66 5,47 5,28 5,32 5,11 5,15 5,07 5,02

Independent de vocabular C A S O I 62,03 54,22 28,25 9,71 7,82 62,28 54,46 27,88 9,84 7,82 63,25 55,85 27,11 9,65 7,40 65,01 57,81 25,63 9,36 7,20 66,17 59,11 24,77 9,05 7,07 67,10 59,70 24,42 8,48 7,40 68,80 61,24 23,17 8,04 7,55 70,03 62,37 22,13 7,84 7,66 70,62 62,96 21,87 7,51 7,66 71,42 64,08 21,14 7,44 7,33 72,10 65,05 20,44 7,47 7,05 72,38 65,43 20,30 7,31 6,96 72,61 65,58 20,28 7,11 7,02 73,13 66,40 19,91 6,96 6,74 73,82 67,34 19,22 6,96 6,47 73,64 67,10 19,51 6,85 6,54

Tabelul 6.5: Rezultatele experimentelor de recunoa stere a unit a tilor de modelare acustic a folosind setul redus (f ar a /I/)

Num ar de gaussiene 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Dependent de vocabular C A S O 61,16 55,75 26,72 12,12 61,46 56,16 26,37 12,16 62,61 57,39 25,60 11,79 64,20 58,60 24,68 11,13 65,54 59,83 23,82 10,64 67,05 61,52 22,81 10,14 68,32 62,80 21,86 9,82 69,23 63,81 21,17 9,60 69,94 64,51 20,72 9,34 70,64 65,39 20,15 9,21 71,14 65,91 20,05 8,80 71,64 66,46 19,88 8,48 71,82 66,76 19,70 8,47 72,15 67,14 19,39 8,46 72,48 67,63 19,15 8,37 72,67 67,92 19,00 8,33

I 5,41 5,30 5,23 5,59 5,71 5,53 5,52 5,41 5,43 5,25 5,24 5,18 5,06 5,02 4,85 4,75

Independent de vocabular C A S O I 62,08 54,99 28,22 9,70 7,09 62,57 55,48 27,72 9,72 7,09 63,65 56,65 26,65 9,70 7,00 65,30 58,24 25,49 9,21 7,07 66,32 59,45 24,65 9,03 6,87 67,42 60,23 23,98 8,59 7,20 69,02 61,53 22,90 8,08 7,49 70,38 63,01 21,67 7,95 7,38 71,22 64,05 21,31 7,46 7,18 71,40 64,42 21,09 7,51 6,98 72,08 65,24 20,34 7,58 6,85 72,55 65,68 20,38 7,07 6,87 73,03 66,63 19,99 6,98 6,40 73,32 66,89 19,61 7,07 6,43 73,56 67,07 19,39 7,05 6,49 73,90 67,54 19,26 6,85 6,36

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ILOR DE MODELARE RECUNOAS TEREA UNITAT


75

111

70

Corectitudine (%)

Independent de vocabular c

c Dependent de vocabular

65

60

Setul Setul Setul Setul

de baz a, dep. de vocabular redus, dep. de vocabular de baz a, ind. de vocabular redus, ind. de vocabular

55 0 2 4 6 8 10 12 14 16

Gaussiene
Figura 6.2: Evolut ia corectitudinii recunoa sterii unit a tilor de modelare acustic a funct ie de num arul de gaussiene/stare emit a toare
70

65

Acuratet e (%)

Dependent de vocabular c c Independent de vocabular


60

55

Setul Setul Setul Setul

de baz a, dep. de vocabular redus, dep. de vocabular de baz a, ind. de vocabular redus, ind. de vocabular

50 0 2 4 6 8 10 12 14 16

Gaussiene
Figura 6.3: Evolut ia acuratet ii recunoa sterii unit a tilor de modelare acustic a funct ie de num arul de gaussiene/stare emit a toare

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

112 EXPERIMENTE DE MODELARE ACUSTICA


30
Setul Setul Setul Setul de baz a, dep. de vocabular redus, dep. de vocabular de baz a, ind. de vocabular redus, ind. de vocabular

25

Independent de vocabular

Substitut ii (%)

20

Dependent de vocabular

15

10 0 2 4 6 8 10 12 14 16

Gaussiene
Figura 6.4: Evolut ia frecvent ei substitut iilor unit a tilor de modelare acustic a funct ie de num arul de gaussiene/stare emit a toare
20
Setul Setul Setul Setul de baz a, dep. de vocabular redus, dep. de vocabular de baz a, ind. de vocabular redus, ind. de vocabular

15

Omisiuni (%)

10

Dependent de vocabular

Independent de vocabular
5

0 0 2 4 6 8 10 12 14 16

Gaussiene
Figura 6.5: Evolut ia frecvent ei omisiunilor unit a tilor de modelare acustic a funct ie de num arul de gaussiene/stare emit a toare

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ILOR DE MODELARE RECUNOAS TEREA UNITAT


20
Setul Setul Setul Setul de baz a, dep. de vocabular redus, dep. de vocabular de baz a, ind. de vocabular redus, ind. de vocabular

113

15

Insert ii (%)

10

Independent de vocabular

Dependent de vocabular

0 0 2 4 6 8 10 12 14 16

Gaussiene
Figura 6.6: Evolut ia frecvent ei insert iilor unit a tilor de modelare acustic a funct ie de num arul de gaussiene/stare emit a toare

dup a cum se observ a, setul redus (f ar a /I/) a condus la rezultate u sor superioare at at din punctul de vedere al corectitudinii, c at si al acuratet ii recunoa sterii, indiferent de dependent a sau independent a de vocabular. Studiind si tipurile de erori substitut ii (gura 6.4), omisiuni (gura 6.5) si insert ii (gura 6.6) se observ a c a diferent ele ntre rezultate sunt datorate nu at at modic arii setului de unit a ti de modelare, c at mai ales dependent ei sau independent ei de vocabular. Inuent a setului de unit a ti de modelare asupra omisiunilor (gura 6.5) este practic neglijabil a, n acest caz diferent a ind dat a de dependent a/independent a de vocabular. In schimb, ea este sesizabil a n cazul insert iilor (gura 6.6) si substitut iilor (gura 6.4), care au fost n general reduse prin utilizarea setului alternativ de unit a ti de modelare. Reducerea insert iilor este sistematic a, indiferent de dependent a sau independent a de vocabular, iar cea a substitut iilor se manifest a n special independent de vocabular. In plus, valorile frecvent ei substitut iilor converg odat a cu cre sterea num arului de gaussiene. Compar and rezultatele obt inute cu unele [85] raportate n condit ii apropiate (35 unit a ti de modelare cu 16 densit a ti gausiene pe stare) pentru o alt a limb a romanic a, franceza (C = 62,4%, A = 59,2%, S = 25,4%, O = 12,2%, I = 3,2%), s-ar putea spune c a ele sunt mult mai bune dec at acestea din urm a. Lu and ns a n calcul c a modelele folosite aici au fost antrenate cu mai mult i vorbitori (60 fat a de 43) si mai mult semnal (aproape 106 minute fat a de cca. 50), consider c a aceste rezultate sunt normale. Aceast a opinie este sust inut a si de rezultatele obt inute n condit ii comparabile pentru limba spaniol a [35]: cu 25 unit a ti de modelare si 3 gaussiene pe stare, dependent de

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

114 EXPERIMENTE DE MODELARE ACUSTICA

Tabelul 6.6: Vorbitorii folosit i n experimentele de recunoa stere a cuvintelor (v. tabelul 4.3 pentru interpretarea codic arii)

MU5 FU5 MV1 FV1 MX2 FX2 MY3 FY3 MZ4 FZ4

GA1 NA1 GB2 NB2 GC3 NC3 GD4 ND4 GE5 NE5

Antrenament NF2 GK3 GF2 NK3 NG3 GL4 GG3 NL4 NH4 GM5 GH4 NM5 NI5 GN1 GI5 NN1 NJ1 GO2 GJ1 NO2

NP4 GP4 NQ5 GQ5 NR1 GR1 NS2 GS2 NT3 GT3

GU5 NU5 GV1 NV1 GX2 NX2 GY3 NY3 GZ4 NZ4

Test MA1 FF2 FA1 MF2 MB2 FG3 FB2 MG3 MC3 FH4 FC3 MH4 MD4 FI5 FD4 MI5 ME5 FJ1 FE5 MJ1

vocabular, C = 63,4% pentru spaniol a fat a de C = 62,6% pentru rom ana, iar independent de vocabular C = 61,4% pentru spaniol a fat a de C = 63,6% pentru rom an a.

6.4

Recunoa sterea cuvintelor

In experimentele de recunoa stere a cuvintelor descrise n continuare, ca si n cele de recunoa stere a unit a tilor de modelare, a fost utilizat a o gramatic a simpl a de tip bucl a (gura 3.3) pentru a obt ine informat ii referitoare strict la modelarea acustic a. Pentru aceste experimente au fost utilizate si dou a pachete publice de programe pentru construct ia si evaluarea sistemelor de recunoa stere a vorbirii: unul dezvoltat la Universitatea statului Mississippi [176], si HTK (HMM Toolkit) [260], dezvoltat la Universitatea Cambridge [258] si rma Entropic Research Laboratories Inc., f acut public n anul 2000, dup a preluarea acestei rme de c atre compania Microsoft. In continuare vor prezentate doar experimentele bazate pe al doilea dintre cele dou a pachete, care are avantajul maturit a tii si al documentat iei superioare.

6.4.1

Vorbitori si date

Experimentele de recunoa stere a cuvintelor au utilizat tot o submult ime de 60 de vorbitori de antrenament si una de 20 de vorbitori de test (tabelul 6.6), dar schimbate fat a de experimentele de recunoa stere a unit a tilor de modelare pentru a maximiza cantitatea de semnale disponibile pentru testele independente de vocabular. Datele folosite pentru antrenarea modelelor acustice si teste dependente de vocabular (tabelul 6.7) p astreaz a cele mai multe din caracteristicile celor anterioare (tabelul 6.3), diferite ind doar duratele: pe de o parte datorit a schimb arii vorbitorilor, pe de alta datorit a segment arii pasajelor n propozit ii, nsot it a de eliminarea pauzelor dintre ele. Setul de date pentru teste independente de vocabular a fost extins de la 91 la 133 de propozit ii individuale (6-7 propozit ii/vorbitor), av and acum o durat a de aproape 10

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

RECUNOAS TEREA CUVINTELOR

115

Tabelul 6.7: Caracteristici ale datelor utilizate pentru antrenarea modelelor acustice si teste dependente (DV) respectiv independente de vocabular (IV) n experimentele de recunoa stere a cuvintelor

Date Antrenare Teste DV Teste IV

Num ar propozit ii 1338 394 133

Num ar cuvinte 14880 4434 1290

Cuvinte distincte 1159 1043 784

Cuvinte specice 1159 (100%) 0 (0%) 585 (74,6%)

Durat a 1h3711 2738 953

minute. Aceast a extindere a fost urmat a de cre sterea at at a dimensiunii vocabularului aferent de la 575 la 784 cuvinte, c at si a num arului de cuvinte specice (de la 412 la 585) si a ponderii lor n acest vocabular (de la 71,7% la 74,6%). A rezultat de asemeni si o u soar a cre stere (de la 9,65 la 9,7 cuvinte) a lungimii medii a propozit iilor individuale utilizate pentru testele independente de vocabular.

6.4.2

Dict ionarele

Cuvintele distincte din cele trei mult imi de date (pentru antrenament si pentru teste dependente si independente de vocabular tabelul 6.7) au fost grupate n dou a dict ionare de pronunt ii: unul utilizat pe durata antren arii modelelor si a testelor dependente de vocabular, si unul pentru testele independente de vocabular. Corespunz ator celor dou a seturi de unit a ti de modelare acustic a evaluate (de baz a si redus), ecare dintre aceste dict ionare a avut la r andul lui dou a variante, n care pronunt iile cuvintelor au fost precizate n termenii unit a tilor din setul respectiv. Au fost ad augate pronunt ii alternative pentru a tine cont de posibila aparit ie a unor pauze ntre cuvinte (v. si sect iunea 6.4.3) si de variantele de pronunt ie ale cuvintelor (de exemplu, optsprezece poate pronunt at /optsprezeCe/ sau /opSpe/). Deoarece gramatica de tip bucl a utilizat a n aceste experimente nu permite distinct ii ntre cuvintele cu pronunt ii identice (homofone), prin examinarea dict ionarelor au fost identicate perechile de cuvinte homofone, ale c aror substitut ii nu au fost considerate erori. Listele acestor cuvinte, mpreun a cu pronunt iile lor, sunt incluse n anexa A.

6.4.3

Modelele acustice

Pentru recunoa sterea cuvintelor au fost folosite tot modele acustice cu o structur a de tip st anga-dreapta cu dou a st ari conectoare si trei emit a toare (gura 5.5). Deoarece analiza semnalelor a fost f acut a ca si pentru experimentele de recunoa stere a unit a tilor de modelare (sect iunea 6.3.3), funct iile de probabilitate asociate st arilor emit a toare au fost mixturi de densit a ti gaussiene 26-dimensionale cu matrice de covariant a diagonale. Procedura de antrenare a fost ns a modicat a pentru a tine cont de dict ionarele de pronunt ii ca intermediare ntre nivelul unit a tilor de modelare si cel lexical. Astfel, dup a init ializarea si prima reestimare concatenat a a modelelor cu o gaussian a pe stare emit a toare folosind datele de antrenament etichetate, modelul pauzelor a fost nlocuit cu

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

116 EXPERIMENTE DE MODELARE ACUSTICA

Modelul pauzelor terminale a24 = 0,2 Modelul general al pauzelor a42 = 0,2

a13 = 0,3 Modelul pauzelor intermediare


Figura 6.7: Inlocuirea modelului general al pauzelor cu modele ale pauzelor terminale (de la nceputul si sf ar situl propozit iilor) si intermediare (dintre cuvinte)

alte dou a obt inute prin editarea lui (gura 6.7): unul pentru pauzele terminale (init ial a si nal a) si unul pentru cele intermediare, care pot apare opt ional ntre cuvinte [260]. Modelul pauzelor terminale a fost obt inut prin copierea modelului general al pauzelor, iar cel al pauzelor intermediare a inclus o singur a stare emit a toare pentru a putea modela si pauze foarte scurte ntre cuvinte. Init ial, aceast a stare avea funct ia de probabilitate a st arii de mijloc din modelul general al pauzelor, iar n continuare parametrii acesteia au fost partajat i cu cei ai st arii de mijloc din modelul pauzelor terminale. Caracterul opt ional al pauzelor intermediare a fost marcat n modelul lor printr-o tranzit ie direct a din starea init ial a n cea nal a. Alte tranzit ii au fost ad augate n modelul pauzelor terminale pentru a permite travers ari mai rapide sau multiple ale acestuia. Tranzit iilor noi ad augate le-au fost atribuite probabilit a ti arbitrare, iar probabilit a tile celorlalte tranzit ii au fost scalate pentru a respecta restrict iile stochastice specice. Luarea n considerat ie a dict ionarelor de pronunt ii a nceput prin utilizarea pentru urm atoarele reestim ari concatenate nu a etichetelor semnalelor, ci a transcrierilor lor fonetice obt inute din cele ortograce prin nlocuirea ec arui cuv ant cu o pronunt ie a lui incluz and pauza nal a opt ional a dintre cuvinte. Aceste transcrieri au fost folosite pentru nc a dou a reestim ari Baum-Welch concatenate ale modelelor. Detectarea aparit iilor efective ale pauzelor opt ionale dintre cuvinte a fost realizat a prin decodarea Viterbi a datelor de antrenament folosind ret ele de recunoa stere obt inute prin nlocuirea ec arui cuv ant din transcrierile lor ortograce cu pronunt iile de baz a si cele incluz and pauzele opt ionale nale, conectate n paralel. A rezultat astfel un nou set de transcrieri fonetice, care au luat n calcul at at pronunt iile din dict ionare c at si pauzele dintre cuvinte si care au fost folosite pentru restul reestim arilor concatenate. Dup a nc a dou a reestim ari concatenate a nceput m arirea num arului de gaussiene pe stare emit a toare (sect iunea 6.3.4). Pentru a tine ns a cont de diferent ele care apar ntre

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

RECUNOAS TEREA CUVINTELOR

117

pronunt iile din dict ionar si cele efective ale cuvintelor, ecare incrementare a num arului de gaussiene a fost urmat a nu de una, ci de dou a reestim ari Baum-Welch concatenate.

6.4.4

Rezultate si comentarii

Experimentele de recunoa stere a cuvintelor au fost efectuate utiliz and setul de baz a si cel redus de unit a ti de modelare si MMA cu p an a la 16 gaussiene pe stare emit a toare. Decodarea a fost realizat a folosind implementarea cu liste nl ant uite [261] a algoritmului Viterbi cu reducere, inclus a n pachetul HTK, iar experimentele nale, ale c aror rezultate sunt prezentate aici, au fost precedate de unele preliminare, mult mai cuprinz atoare, pentru alegerea penaliz arii de tranzit ie si a pragului de reducere (sect iunea 3.9). Urm arind maximizarea simultan a a corectitudinii si acuratet ii recunoa sterii si evitarea erorilor de c autare, au fost determinate experimental penalizarea de tranzit ie de 25 si pragul de reducere de 600 pentru testele dependente de vocabular, respectiv 30 si 900 pentru cele independente de vocabular: se observ a c a n cazul independent ei de vocabular au fost necesare valori mai mari n valoare absolut a, corespunz atoare unei tendint e mai puternice spre insert ii, respectiv unui spat iu mai extins al solut iilor. Experimentele nale, desf a surate folosind ace sti parametri, au fost evaluate conform metodologiei din sect iunea 3.1, iar rezultatele sunt prezentate numeric n tabelele 6.8 si 6.9 si grac n gurile 6.86.12 atent ie la diferent ele de scar a! Pentru a ilustra unele aspecte discutate n continuare, exemple de recunoa stere sunt incluse n anexa B. Dup a cum era de a steptat, dat ind num arul mai redus de cuvinte din acest caz (784 fat a de 1043 v. tabelul 6.7), performant ele independente de vocabular sunt superioare celor dependente de vocabular. Diferent a dintre cele dou a condit ii de test este u sor observabil a n toate reprezent arile grace ale evolut iilor metricelor de performant a cu num arul de gaussiene/stare emit a toare, cu except ia frecvent ei insert iilor, n cazul c areia diferent a este greu sesizabil a datorit a alegerii valorilor penaliz arii de tranzit ie. Se observ a de asemeni aparit ia unor abateri pronunt ate de la tendint ele de ameliorare ale performant elor n cazurile model arii cu 8 si 14 gaussiene/stare emit a toare, abateri manifestate la nivelul tuturor metricelor cu except ia frecvent ei omisiunilor si al c aror mecanism nu a fost nc a elucidat: dat ind faptul c a abaterile, de si mai put in pronunt ate, apar si in cazul testelor dependente de vocabular, ar putea vorba de particularit a ti ale datelor de antrenament care ngreuiaz a antrenarea unor modele n aceste cazuri, sau de fenomene care tin de dinamica procesului de antrenare a modelelor acustice. Examin and rezultatele si din punctul de vedere al setului de unit a ti de modelare folosit, constat am c a setul de baz a a condus la rezultate u sor superioare n cazul testelor independente de vocabular cu peste 8 gaussiene/stare si al celor dependente de vocabular cu mai put in de 8 gaussiene/stare, iar cel redus n cazul celor dependente de vocabular cu peste 8 gaussiene/stare. Studiul ipotezelor decodate si al alinierilor lor cu transcrierile de referint a , exemplicate n anexa B, arat a ns a c a aceste diferent e nu pot atribuite direct noilor cuvinte homofone introduse prin utilizarea setului redus (anexa A). Evaluarea la nivelul de semnicat ie p = 0,05 a semnicat iei statistice [37] a diferent elor dintre performant ele obt inute folosind setul de baz a si cel redus de unit a ti de modelare acustic a, realizat a prin compararea distribut iilor numerelor de erori din zonele eronate corespondente statistic independente [91], [182], arat a c a aceste diferent e sunt n general

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

118 EXPERIMENTE DE MODELARE ACUSTICA

Tabelul 6.8: Rezultatele experimentelor de recunoa stere a cuvintelor folosind setul de baz a de unit a ti de modelare

Num ar de gaussiene 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Dependent de vocabular C A S O 49,48 45,60 39,85 10,67 55,05 51,49 35,34 9,61 56,54 53,47 33,99 9,47 59,97 57,53 31,08 8,95 63,08 60,89 28,66 8,25 64,91 62,86 27,02 8,07 65,27 63,08 27,15 7,58 64,75 62,11 27,76 7,49 67,16 65,16 25,15 7,69 67,57 65,70 24,70 7,74 68,09 66,17 24,29 7,62 68,72 66,89 23,61 7,67 68,43 66,71 23,82 7,76 67,64 65,47 24,88 7,49 69,35 67,82 23,21 7,44 68,99 67,34 23,55 7,47

I 3,88 3,56 3,07 2,44 2,19 2,05 2,19 2,64 2,01 1,87 1,92 1,83 1,71 2,17 1,53 1,65

Independent de vocabular C A S O I 58,53 54,65 32,25 9,22 3,88 65,19 61,78 26,74 8,06 3,41 65,74 62,79 26,51 7,75 2,95 69,15 66,36 23,80 7,05 2,79 70,85 68,29 22,79 6,36 2,56 72,02 69,77 22,02 5,97 2,25 72,71 70,54 21,24 6,05 2,17 71,09 67,52 23,26 5,66 3,57 74,88 72,79 19,30 5,81 2,09 75,89 74,03 18,68 5,43 1,86 75,97 74,26 18,68 5,35 1,71 76,20 74,50 18,68 5,12 1,71 76,82 74,88 18,22 4,96 1,94 74,26 70,54 20,70 5,04 3,72 77,13 75,50 17,67 5,19 1,63 76,90 74,57 17,91 5,19 2,33

Tabelul 6.9: Rezultatele experimentelor de recunoa stere a cuvintelor folosind setul redus de unit a ti de modelare

Num ar de gaussiene 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Dependent de vocabular C A S O 49,55 45,76 39,90 10,55 54,94 51,38 35,68 9,38 56,61 53,38 34,28 9,11 59,90 57,22 31,48 8,62 62,52 60,08 29,36 8,12 64,19 61,82 27,90 7,92 65,07 62,58 27,47 7,47 65,31 62,36 27,33 7,35 67,23 64,86 25,35 7,42 67,93 65,79 24,70 7,37 68,58 66,67 24,04 7,37 68,74 66,91 23,88 7,37 68,94 67,16 23,75 7,31 67,73 65,49 24,85 7,42 68,61 66,46 24,11 7,28 69,24 67,43 23,41 7,35

I 3,79 3,56 3,23 2,68 2,44 2,37 2,48 2,95 2,37 2,14 1,92 1,83 1,78 2,23 2,14 1,80

Independent de vocabular C A S O I 58,68 55,19 31,86 9,46 3,49 65,04 61,78 26,43 8,53 3,26 65,50 62,40 26,51 7,98 3,10 68,91 66,36 24,19 6,90 2,56 70,70 68,22 22,87 6,43 2,48 71,94 70,08 21,71 6,36 1,86 72,40 70,23 21,63 5,97 2,17 70,62 67,05 23,72 5,66 3,57 74,34 72,09 19,92 5,74 2,25 74,26 72,09 20,39 5,35 2,17 75,50 73,95 19,15 5,35 1,55 75,43 73,64 19,15 5,43 1,78 75,43 73,57 18,99 5,58 1,86 73,41 69,61 21,32 5,27 3,80 74,88 71,78 19,77 5,35 3,10 76,43 74,88 18,45 5,12 1,55

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

RECUNOAS TEREA CUVINTELOR


80

119

75

Independent de vocabular

70

Corectitudine (%)

65

Dependent de vocabular
60

55

50

45

Setul Setul Setul Setul

de baz a, dep. de vocabular redus, dep. de vocabular de baz a, ind. de vocabular redus, ind. de vocabular

40 0 2 4 6 8 10 12 14 16

Gaussiene
Figura 6.8: Evolut ia corectitudinii recunoa sterii cuvintelor funct ie de num arul de gaussiene/stare emit a toare
80

75

Independent de vocabular
70

Acuratet e (%)

65

60

Dependent de vocabular

55

50

45

Setul Setul Setul Setul

de baz a, dep. de vocabular redus, dep. de vocabular de baz a, ind. de vocabular redus, ind. de vocabular

40 0 2 4 6 8 10 12 14 16

Gaussiene
Figura 6.9: Evolut ia acuratet ii recunoa sterii cuvintelor funct ie de num arul de gaussiene/stare emit a toare

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

120 EXPERIMENTE DE MODELARE ACUSTICA


50
Setul Setul Setul Setul de baz a, dep. de vocabular redus, dep. de vocabular de baz a, ind. de vocabular redus, ind. de vocabular

45

40

Substitut ii (%)

35

30

Dependent de vocabular

25

20

Independent de vocabular
15

10 0 2 4 6 8 10 12 14 16

Gaussiene
Figura 6.10: Evolut ia frecvent ei substitut iilor cuvintelor funct ie de num arul de gaussiene/stare emit a toare
20
Setul Setul Setul Setul de baz a, dep. de vocabular redus, dep. de vocabular de baz a, ind. de vocabular redus, ind. de vocabular

15

Omisiuni (%)

10

Dependent de vocabular

Independent de vocabular

0 0 2 4 6 8 10 12 14 16

Gaussiene
Figura 6.11: Evolut ia frecvent ei omisiunilor cuvintelor funct ie de num arul de gaussiene/stare emit a toare

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

RECUNOAS TEREA CUVINTELOR


5
Setul Setul Setul Setul de baz a, dep. de vocabular redus, dep. de vocabular de baz a, ind. de vocabular redus, ind. de vocabular

121

Insert ii (%)

0 0 2 4 6 8 10 12 14 16

Gaussiene
Figura 6.12: Evolut ia frecvent ei insert iilor cuvintelor funct ie de num arul de gaussiene/stare emit a toare

nesemnicative, singurele except ii, favorabile setului de baz a, ap ar and n cazul testelor dependente de vocabular cu 5, 6 si 15 gaussiene/stare emit a toare si al celor independente de vocabular cu 10 si 15 gaussiene/stare emit a toare (tabelul 6.10). Semnicat ia statistic a redus a a diferent elor poate ns a considerat a normal a dac a tinem cont si de frecvent a redus a de realizare a fonemului /I/, observat a pe durata etichet arii semnalelor (capitolul 5) si conrmat a si de analiza datelor de antrenament: din cele 774 aparit ii ale fonemului /I/, a steptate pe baza pronunt iilor din dict ionar, doar 168 au fost efectiv realizate, corespunz ator unei frecvent e de realizare de cca. 21,7%. Aceast a situat ie ar putea explicat a prin faptul c a informat ia lingvistic a presupus a a transmis a prin intermediul fonemului /I/ este n realitate partajat a ntre diferitele niveluri ale comunic arii verbale (acustic, sintactic, semantic, pragmatic etc.), a sa nc at mesajele pot nt elese corect chiar si atunci c and acest fonem nu este realizat.
Tabelul 6.10: Semnicat ia statistic a la nivelul p = 0,05 a diferent elor dintre performant ele n recunoa sterea cuvintelor folosind setul de baz a si cel redus funct ie de num arul de gaussiene si dependent a de vocabular

Gaussiene Teste DV Teste IV

1 2

3 4 5 +

6 7 +

8 9

10 11 12 13 14 15 + + +

16

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

122 EXPERIMENTE DE MODELARE ACUSTICA

6.5

Concluzii

Experimentele descrise n acest capitol au urm arit n primul r and validarea setului de unit a ti sublexicale ales n faza init ial a a cercet arilor si folosit pentru proiectarea bazei de date construite pe parcursul lor, dar elementele noi ap arute pe durata etichet arii semnalelor si a experimentelor au indicat existent a a dou a posibile seturi alternative de unit a ti de modelare unul incluz and consoane palatalizate si altul redus, obt inut prin eliminarea /I/ reect and n fapt neclarit a tile din literatura lingvistic a referitoare la fonemele limbii rom ane. Drept urmare, un al doilea obiectiv al experimentelor a fost compararea celor trei posibile seturi de unit a ti de modelare, ns a analiza datelor a ar atat c a acestea sunt suciente doar pentru comparat ii ntre setul de baz a si cel redus. Prima comparat ie a fost f acut a pe durata experimentelor dependente de vorbitor, c and utilizarea setului de baz a a fost nsot it a de erori atribuite problemelor de modelare a fonemului /I/, diminuate prin eliminarea lui si utilizarea setului redus. Compararea sistematic a a celor dou a seturi, simultan cu evaluarea performant elor la care conduc, a fost f acut a printr-o serie de experimente independente de vorbitor. In plus, prin teste independente de vocabular, de recunoa stere a unor vocabulare semnicativ diferite de cel al datelor de antrenament, a fost evaluat a si capacitatea de generalizare a modelelor acustice care s a permit a utilizarea lor n sisteme cu vocabulare exibile. Experimentele independente de vorbitor au fost desf a surate la nivelurile unit a tilor de modelare si cuvintelor: la nivelul unit a tilor de modelare, rezultatele au demonstrat o bun a capacitate de generalizare a modelelor n raport cu schimbarea vocabularului, iar utilizarea setului redus a condus la performant e superioare. Comparat iile dintre cele dou a seturi de unit a ti pe baza rezultatelor n recunoa sterea cuvintelor arat a diferent e n favoare setului de baz a, manifestate n special independent de vocabular si la o modelare destul de detaliat a (peste opt gaussiene/stare emit a toare), ns a aceste diferent e au o semnicat ie statistic a redus a. Neclarit a tile din literatura lingvistic a, pe baza c areia a fost f acut a alegerea init ial aa unit a tilor de modelare, au continuat deci si pe parcursul acestor experimente: nlocuirea setului de baz a cu cel redus a condus e la ameliorarea rezultatelor (cazul experimentelor dependente de vorbitor si al recunoa sterii unit a tilor de modelare), e la reduceri ale performant elor, n general nesemnicative statistic (cazul recunoa sterii cuvintelor). Cu toate neclarit a tile nc a persistente, experimentele au marcat primii pa si spre solut ionarea problemelor model arii acustice sublexicale pentru recunoa sterea vorbirii continue cu vocabulare mari si foarte mari n limba rom an a, iar rezultatele ca atare constituie un prim punct de referint a pentru cercet arile viitoare din domeniu.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CAPITOLUL 7 Incheiere
Aceast a tez a a descris primele cercet ari (din c ate cunoa stem) viz and recunoa sterea automat a a vorbirii continue n limba rom an a, pentru care obiectivul principal ales init ial a fost recunoa sterea independent a de vorbitor a unor vocabulare n jurul a 1000 de cuvinte: dat ind stadiul incipient al cercet arilor, acest obiectiv a fost considerat realist n condit iile date, av and n acela si timp avantajul de a semnicativ at at din punctul de vedere al dicult a tii problemei, c at si din cel al aplicabilit a tii practice a rezultatelor de exemplu, n sisteme de dialog vocal om-ma sin a orientate pe domenii bine denite, pentru care o asemenea dimensiune a vocabularului poate sucient a. Metodele statistice de recunoa stere a vorbirii, care s-au impus pe plan mondial si au fost folosite si n aceste cercet ari, presupun utilizarea unor modele acustice pentru a descrie evolut ia n timp a propriet a tilor spectrale ale semnalelor vocale si a unor modele lingvistice ale succesiunii cuvintelor, iar aceste cercet ari au fost axate pe problemele model arii acustice, fundamental a n raport cu cea lingvistic a. Pentru recunoa sterea unui num ar redus de cuvinte, modelele acustice pot construite separat pentru ecare cuv ant, ns a recunoa sterea vorbirii continue cu vocabulare mari si foarte mari, de ordinul miilor sau zecilor de mii de cuvinte, impune utilizarea de modele acustice ale unor unit a ti sublexicale (silabe, foneme etc.), n num ar mult mai redus dec at cel al cuvintelor din vocabular, antrenabile n consecint a pe baza unor cantit a ti mult mai reduse de semnale vocale, si utilizabile si n cazul schimb arii vocabularului. In principiu, cea mai economic a si n acela si timp cea mai general a modelare acustic a sublexical a ar putea realizat a utiliz and setul de foneme ale unei limbi, care sunt prin denit ie categoriile abstracte ale sunetelor ei distinctive. In practic a, diferent ele dintre propriet a tile spectrale ale alofonelor (variantele pozit ionale de realizare ale fonemelor), cauzate de fenomenul de coarticulat ie, pot conduce la utilizarea unor seturi alofonice de unit a ti de modelare acustic a sublexical a, diferite de cel al fonemelor. In cazul limbii rom ane, utilizarea direct a a unui set de foneme sau alofone ca unit a ti de modelare acustic a sublexical a nu este posibil a din cel put in dou a motive: pe de o parte, literatura lingvistic a ment ioneaz a mai multe seturi de foneme; pe de alta, insucient a studiilor de fonetic a si fonologie a limbii rom ane, care ar permis claricarea problemei setului de foneme si ar fost utile si pentru eventuale decizii de modelare alofonic a.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

123

124 INCHEIERE In consecint a , principala problem a investigat a n aceast a tez a a fost cea a unit a tilor de modelare acustic a sublexical a, investigat ie din care au rezultat si contribut iile ei.

7.1

Contribut ii

Un prim grup de contribut ii ale tezei sunt cele legate de proiectarea si colectarea bazei de date fonetice, prezentat a n capitolul 4. Aceast a baz a de date este n sine o contribut ie esent ial a, cea mai important a pe termen lung: n primul r and prin cadrul pe care l creeaz a pentru experimente controlate de recunoa stere a vorbirii si comparat ii ntre rezultatele lor, necesare n cursul cercet arilor, si abia apoi prin materialul pe care l furnizeaz a pentru antrenarea modelelor acustice, testarea si evaluarea sistemelor. In plus, datorit a proiect arii corespunz atoare a cont inutului lingvistic al unei p art i importante a materialelor nregistrate si asigurarea unei foarte bune calit a ti acustice a nregistr arilor, baza de date poate folosit a si n cercet arile fundamentale de fonetic a si fonologie, a c aror insucient a a fost semnalat a, precum si pentru alte cercet ari aplicative. Contribut iile legate de proiectarea bazei de date constau n: analiza literaturii lingvistice si denirea unui set de unit a ti fonetice de modelare acustic a (tabelul 4.1) astfel nc at direct sau prin combinat ii acestea s a acopere toate elementele diferitelor seturi de foneme ale limbii rom ane din literatur a, elemente considerate potent ial semnicative pentru modelarea acustic a sublexical a; un algoritm de grupare a pasajelor (algoritmul 4.1), n cazul cel mai general al unor materiale de citit n vederea nregistr arii, care n limitele specice limbajului natural asigur a obt inerea unor grupuri de materiale c at mai apropiate ntre ele din punctul de vedere al distribut iilor unit a tilor fonetice de modelare acustic a; o metodologie sistematic a de proiectare, bazat a pe gruparea materialelor folosind algoritmul ment ionat si distribuirea lor pe vorbitori conform unui experiment cu o structur a bloc aleatoare, utiliz and ca variabile de blocare criteriile de select ie uniform a a vorbitorilor n cazul nostru, sexul si grupa de v arst a. Al doilea grup de contribut ii este legat de etichetarea semnalelor vocale din baza de date, descris a n capitolul 5. In cadrul cercet arilor asupra recunoa sterii automate a vorbirii, etichetarea faciliteaz a antrenarea modelelor acustice si asigur a referint ele pentru evaluarea experimentelor de recunoa stere la nivelul unit a tilor de modelare. Datorit a ns a accesului rapid pe care l permite la realiz arile acestor unit a ti si informat iilor de durat a pe care le include, ea este util a pentru multe alte cercet ari, iar mpreun a cu celelalte caracteristici ale bazei de date (controlul cont inutului lingvistic si al vorbitorilor nregistrat i si calitatea nregistr arilor) i confer a acesteia caracterul de baz a de date fonetice. Contribut iile din acest grup includ: dezvoltarea unui sistem de etichetare a semnalelor vocale care combin a transcrierea lor fonetic a manual a si alinierea automat a a transcrierilor fonetice cu semnalele asociate, folosit pentru a realiza etichetarea bazei de date la nivel fonetic extins;

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

CONTINUARI

125

elaborarea unor criterii de decizie asupra identit a tilor si limitelor segmentelor de semnal, utilizate pe durata etichet arii manuale si/sau a veric arii si corect arii etichetelor generate automat folosind sistemul dezvoltat anterior; etichetarea, vericarea si corectarea etichet arii majorit a tii nregistr arilor. Ultimul grup de contribut ii este legat de utilizarea efectiv a n modelarea acustic aa unit a tilor sublexicale, prezentat a n capitolul 6. Experimentele de recunoa stere a vorbirii continue descrise n acest capitol au fost efectuate folosind subseturi ale bazei de date, iar obiectivul lor era init ial validarea setului de unit a ti denit n etapa de proiectare a acesteia. Pe durata etichet arii si a experimentelor a ap arut ns a problema reducerii setului de unit a ti, motiv pentru care un al doilea obiectiv urm arit a fost compararea setului de baz a cu cel redus. Pentru evaluarea capacit a tii de generalizare a modelelor la schimbarea vocabularului, majoritatea experimentelor au urm arit si contrastul dintre dependent a si independent a de vocabular. Contribut iile din acest grup cuprind: dezvoltarea unor sisteme automate de recunoa stere a vorbirii continue n limba rom an a, dependente si independente de vorbitor, la nivel lexical si sublexical, care au fost utilizate pentru efectuarea experimentelor; studiul si evaluarea seturilor de baz a si redus de unit a ti fonetice de modelare acustic a sublexical a pentru recunoa sterea automat a a vorbirii continue n limba rom an a. Experimentele nu au reu sit s a clarice diferent ele dintre setul de baz a si cel redus, aceast a claricare r am an and n sarcina continu arilor acestor cercet ari.

7.2

Continu ari

De si aceast a tez a cuprinde rezultatele c atorva ani de cercet ari, ea nu a rezolvat toate problemele model arii acustice sublexicale pentru recunoa sterea vorbirii continue n limba rom an a, iar din experient a si rezultatele de p an a acum reies si c ateva posibile continu ari. Datele colectate si utilizate n cursul acestor prime cercet ari asupra recunoa sterii automate a vorbirii continue n limba rom an a au fost n mod necesar limitate cantitativ, accentul ind pus pe calitatea lor acustic a, astfel nc at informat ia lingvistic a din semnalul vocal s a e c at mai put in afectat a de zgomote, reverberat ii etc. Datorit a acestei limit ari, unele posibile alternative de modelare nu au putut abordate (sect iunea 6.3.2). Chiar si a sa, rezultatele obt inute sugereaz a posibilitatea ca setul de unit a ti fonetice de modelare acustic a ales init ial (tabelul 4.1) s a nu e cel optim. O posibil a alternativ a, care pe baza rezultatelor de p an a acum nu poate respins a, este renunt area la fonemul /I/: a sa cum rezult a din analiza datelor, acesta are o frecvent a de realizare redus a, ceea ce ar putea indica faptul c a informat ia lingvistic a presupus a a transmis a prin intermediul lui este de fapt partajat a ntre mai multe niveluri ale comunic arii verbale. Ca atare, claricarea problemelor legate de acest aspect ar putea avea loc doar prin studiul simultan al problemelor model arii acustice si lingvistice. Datorit a limit arii ment ionate a datelor, ncerc arile de utilizare n acest scop a unor modele statistice de tip bigram sau a unor gramatici de tip perechi-de-cuvinte (sect iunea 6.1.1) estimate pe baza

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

126 INCHEIERE lor a dus la rezultate irelevante: date ind perplexit a tile foarte reduse ale acestor modele lingvistice, chiar cu modelele acustice cele mai simple, cu o gaussian a/stare emit a toare, frecvent a recunoa sterilor corecte si acuratet ea s-au situat peste 95%. De si n aparent a foarte bune, asemenea rezultate sunt inutile deoarece nu permit comparat ii semnicative ntre diferite condit ii testate, si n consecint a nici nu au fost prezentate aici. Studiul simultan al problemelor model arii acustice si lingvistice presupune ns a un efort preliminar pentru colectarea coordonat a a textelor si semnalelor vocale necesare, de exemplu plec and de la surse de texte disponibile pe Internet [23]. Date ind dimensiunile considerabile ale unui asemenea efort, direct ia de continuare a cercet arilor cea mai accesibil a pentru moment este cea a model arii acustice dependente de context, care pe l ang a certe amelior ari ale performant elor ar putea aduce contribut ii si la claricarea problemei setului optim de unit a ti de modelare. Din experient a acumulat a se degaj a si unele probleme metodologice, legate de analiza si diagnoza antren arii modelelor si recunoa sterii si evaluarea performant elor. Studiul procesului de antrenare, de exemplu pentru a putea explica abaterile de la tendint a de ameliorare a performant elor din cazurile recunoa sterii cuvintelor cu MMA av and 8 si 14 gaussiene/stare emit a toare (sect iunea 6.4.4), ar putea facilitat prin analiza si vizualizarea interactiv a a evolut iei modelelor si a datelor de antrenament. Examin and exemplele de recunoa stere din anexa B, se constat a c a n numeroase cazuri erorile apar grupate si nu sunt independente ntre ele: datorit a constr angerilor reduse impuse n cazul lor de dict ionarele de pronunt ii, cuvintele scurte sunt cele mai frecvent omise sau inserate, iar omisiunile si insert iile la r andul lor sunt adesea nsot ite de substitut ii. Analiza unor asemenea situat ii tin and cont si de pronunt iile cuvintelor si similaritatea lor arat a c a de fapt pe l ang a substitut ii, omisiuni si insert ii exist a si erori de divizare sau contopire a cuvintelor. Identicarea acestora si modicarea corespunz atoare a procesului si metricelor de evaluare a performant elor s-ar putea face recurg and la alinierea fonetico-fonologic a a ipotezelor cu referint ele [188], [187], [72]. In sf ar sit, diagnoza recunoa sterii n sine necesit a recurgerea la metode de analiz aa zonelor eronate, cu posibilitatea de clasicare si stabilire automat a a cauzelor lor [47].

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ANEXA A Detalii ale dict ionarelor


Utiliz and setul de baz a de unit a ti de modelare acustic a, au fost identicate urm atoarele perechi de cuvinte homofone: n datele pentru teste dependente de vocabular Cuv ant ce-i de-a ea s-a s-ar s-au Homofon cei dea ia sa sar sau Pronunt ie Cej dEa ja sa sar saw

n datele pentru teste independente de vocabular Cuv ant ce-i s-a Homofon cei sa Pronunt ie Cej sa

Prin nlocuirea setului de baz a cu cel redus de unit a ti de modelare s-au mai ad augat c ateva perechi de homofone: n datele pentru teste dependente de vocabular Cuv ant bet ivan Homofon bet ivani Pronunt ie beTivan

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

127

128 DETALII ALE DICT IONARELOR n datele pentru teste independente de vocabular Cuv ant a- si bun m-ar Homofon a s buni mari Pronunt ie aS bun mar

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

ANEXA B Exemple de recunoa stere


In continuare sunt prezentate rezultatele recunoa sterii independente de vocabular a cuvintelor folosind modele acustice cu 16 densit a ti gaussiene/stare. Fiecare dintre cele 133 propozit ii individuale folosite este identicat a prin codul vorbitorului, cel al materialului citit si num arul ei de ordine n acest material de exemplu, FA-AZ1 este prima dintre propozit iile nregistrate de vorbitorul FA prin citirea materialului AZ. Pentru ecare propozit ie este prezentat a transcrierea de referint a aliniat a cu ipotezele obt inute folosind setul de baz a si cel redus de unit a ti de modelare acustic a sublexical a. Nu au fost considerate erori substitut iile unor cuvinte homofone ale celor de referint a . In rest, substitut iile si insert iile sunt evident iate, iar omisiunile marcate prin ****. Ref. FA-AZ1: nu se teme s a- si m arturiseasc a sl abiciune dup a sl abiciune Setul de baz a: nu s a teme s a- si m arturiseasc a sl abiciune dup a sl abiciune Setul redus: nu s a teme s a- si m arturiseasc a sl abiciune dup a sl abiciune Ref. FA-AZ2: mai v azusem a sa ceva n ni ste plan se reprezent and anatomia subtil a Setul de baz a: mai v azusem a sa ceva n ni ste plan se reprezent and anatomia subtil a Setul redus: mai v azusem a sa ceva mi ni ste plan se reprezent and anatomia subtil a conform yog ai conform yog ai conform yog ai Ref. FA-AZ3: si zise c a n-avea nici el vreo let caie Setul de baz a: si zise c a n-avea nici si-a vreo let caie Setul redus: si zise c a n-avea nici si-a vreo let caie Ref. FA-AZ4: respira g af ait pe marginea propriei sale gropi Setul de baz a: respira g af ait pe marginea propriei sale gropi Setul redus: respira g af ait te marginea tot mi sale gropi Ref. FA-AZ5: p an a ast azi n-am r avnit la bun mai de pret dec at s a cunosc cartea Setul de baz a: urma ast azi m-am g af ait m-a bun mai v a pret dec at s a cunosc cartea Setul redus: urma ast azi m-am g af ait m-a bun mai v a pret dec at s a cunosc cartea

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

129

130 EXEMPLE DE RECUNOAS TERE Ref. FA-AZ5: evreul era foarte cumsecade Setul de baz a: te vreo ea foarte cumsecade Setul redus: te vreo ea foarte cumsecade Ref. FA-AZ7: circumstant ele existent ei noastre sunt socotite de noi Setul de baz a: circumstant ele insist n ti noastr a sunt socotite ** numai Setul redus: circumstant ele insist mi ti noastr a s a-mi socotite ** numai tot i tot i tot i Ref. FB-AB1: o grav a acuzat ie era aceea de subminare moral a a statului Setul de baz a: o grav a acuzat ie era ***** cere subminare moral a a statului Setul redus: o grav a acuzat ie era ***** cere subminare moral a a statului Ref. FB-AB2: c a ti dintre d an sii vorbeau m acar la nivelul unor discut ii de salon Setul de baz a: c a st anc a d an sii vorbeau m acar la nivelul unor discut ii de salon Setul redus: c a st anc a d an sii vorbeau m acar la nivelul unor discut ii de salon Ref. FB-AB3: ghemul timpului nu s-a desf a surat n ntregime n ad ajduiesc Setul de baz a: ghemul timpului nu sa desf a surat ** ntregime n ad ajduiesc Setul redus: ghemul timpului nu sa desf a surat ** ntregime v ad ntins Ref. FB-AB4: cu c at naintez le v ad mai mari si goana lor mi se pare mai Setul de baz a: cu c atre naintez ** *** rev ad m-am a- si goana lor mi s a pare mai Setul redus: cu c atre naintez ** *** rev ad m-am a- si goana lor mi s a pare mai ciudat a ciudat a ciudat a Ref. FB-AB5: se opri acolo unde ndeob ste n-aveai voie s-o faci Setul de baz a: se opri acolo unde ndeob ste m-a pe voie s-o faci Setul redus: se opri acolo unde ndeob ste m-a te voie s-o faci Ref. FB-AB6: pentru a- si des av ar si penitent a poetul refuza s ai se mai Setul de baz a: pe haz des av ar si penitent a poetul refuza s a-i s a **** ** mai Setul redus: pe crezi des av ar si penitent a poetul refuza ** s a-i se mai nc alzeasc a odaia nc alzeasc a odaia nc alzeasc a odaia Ref. FC-AT1: statuia nchipuia un subiect cu care sculptorii erau mai put in h ar sa it i Setul de baz a: statuia nchipuia au subiect cu care sculptorii erau m-a put in h ar sa it i Setul redus: statuia nchipuia au subiect cu care sculptorii erau m-a put in h ar sa it i Ref. FC-AT2: intent ia spectacolului oferit de el era s a- si crut e soat a si s-o rup a de Setul de baz a: intent ia spectacolului oferit doi ele era s a- si crut e soat a si s-o rup a de Setul redus: intent ia spectacolului oferit doi ele era s a- si crut e soat a si s-o rup a de soarta lui neagr a soarta lui neagr a soarta lui neagr a

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

EXEMPLE DE RECUNOAS TERE Ref. FC-AT3: nic aieri nu se nnegresc de dorint a r azbun arii Setul de baz a: nic aieri nu se nnegresc de dorint a r azbun arii Setul redus: nic aieri nu se nnegresc de dorint a r azbun arii

131

Ref. FC-AT4: tudor m a urm arise abia st ap anindu-se s a nu izbucneasc a-n r as Setul de baz a: tudor m-a urm arise abia st ap anindu-se ** seama izbucneasc a-n r as Setul redus: tudor m-a urm arise abia st ap anindu-se s a nu izbucneasc a-n r as Ref. FC-AT5: la scoal aa izbucnit un adev arat scandal Setul de baz a: era scoal a pare izbucnit un adev arat scandal Setul redus: la scoal a ar izbucnit un adev arat scandal Ref. FC-AT6: mi-am f acut un program riguros de autoanaliz a Setul de baz a: mi-am f acut un program riguros de autoanaliz a Setul redus: mi-am f acut un program riguros de autoanaliz a Ref. FC-AT7: cel dint ai fu expediat grabnic s a nt ampine un oaspete ocial Setul de baz a: ce dintre i fu expediat grabnic s a nt ampine au oaspete ocial Setul redus: ce dintre i fu expediat grabnic s a nt ampine au oaspete ocial Ref. FD-AW1: orgoliul mi sopte ste c a putea si mai r au Setul de baz a: orgoliul n sopte ste c a putea si m-ar ou Setul redus: orgoliul n sopte ste c a putea si-mi aer ou Ref. FD-AW2: ziaristul se schimonosi ncerc and s a- si ascund a r asul Setul de baz a: ziaristul se schimonosi pe ncerc and s a- si ascund a r asul Setul redus: ziaristul se schimonosi ncerc and s a- si ascund a r asul Ref. FD-AW3: m-am ridicat ntr-o r an a am n sf acat sticla de ap a de l ang a pat Setul de baz a: m-am ridicat ntr-o r an a apar a-n n sf acat sticla de ap a de l ang a pat Setul redus: m-am ridicat ntr-o r an a am n sf acat sticla de ap a de l ang a pat si am sorbit pe si am sorbit si am sorbit Ref. FD-AW4: de astfel de vorbe se si temea duhovnicul de la putna Setul de baz a: de astfel de vorbe se si temea duhovnicul de-l a putna Setul redus: de astfel de vorbe se si temea duhovnicul de-l a putna Ref. FD-AW5: congestionat si gret os intent ion a s a se arate amenint a tor Setul de baz a: congestionat si gret os intent ion a s a s a arate amenint a tor Setul redus: congestionat si gret os intent ion a s a s a arate amenint a tor Ref. FD-AW6: dac a ie seam mpreun a s a-mi cumpere ciorapi sau o c ama sa Setul de baz a: dat a ie seam mpreun a ar s a-mi cumpere ciorapi *** s au c ama sa Setul redus: dac a ie seam mpreun a ar s a-mi cumpere ciorapi *** s au c ama sa protam s-o atrag ntr-o biseric a protam *** soarta ntr-o biseric a protam *** soarta ntr-o biseric a

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

132 EXEMPLE DE RECUNOAS TERE Ref. FD-AW7: o arm cu m ahnire Setul de baz a: ou arm cu m ahnire Setul redus: ou arm cu m ahnire Ref. FE-BB1: aproape tot i cei de acolo se gr abeau s a- si dezic a viet ile Setul de baz a: aproape tot i ce-i de acolo se gr abeau s a- si dezic a viet ile Setul redus: aproape tot i ce-i de acolo se gr abeau s a- si dezic a viet ile Ref. FE-BB2: p an a atunci nu avusesem prilejul s a stau n preajma unui ins cu un Setul de baz a: p an a atunci nu avusesem prilejul se stau n preajma unui ins ** cum Setul redus: n atunci nu avusesem prilejul se stau n preajma unui ins ** cum atare handicap atare handicap atare handicap Ref. FE-BB3: e sigur c a se nmult iser a ca niciodat a urticariile de tot soiul Setul de baz a: de sigur c a se nmult iser a ca niciodat a urticariile de tot i soiul Setul redus: i sigur ** c a ti nmult iser a ca niciodat a urticariile de tot i soiul Ref. FE-BB4: tot ce ne aduce imaginat ia e fals Setul de baz a: tot ce ne aduce imaginat ia i fals Setul redus: tot ce ne aduce imaginat ia i fals Ref. FE-BB5: eroul i cere diavolului s a-i arate lumea spiritual a de care este Setul de baz a: eroul i cere diavolului se arate lumea spiritual a de care-i este Setul redus: eroul i cere diavolului se arate lumea spiritual a de care-i este nfometat nfometat nfometat Ref. FE-BB6: i vine s a se rup a de aceast a femeie care-i cere s a se jertfeasc a Setul de baz a: i vine s a-l se rup a de aceast a femeie care-i cere se se jertfeasc a Setul redus: i vine s a-l se rup a de aceast a femeie care-i cere se se jertfeasc a pentru ea pentru ea pentru ea Ref. FE-BB7: l rev ad acolo nve sm antat n negru a sezat pe un scaun Setul de baz a: l rev ad acolo nve sm antat e negru a sezat pe un scaun Setul redus: l rev ad acolo nve sm antat e negru a sezat te un scaun Ref. FF-AG1: sf ar situl c art ii de fat a sosea grabnic Setul de baz a: sf ar situl c art ii de fat a sosea dat mic Setul redus: sf ar situl c art ii de fat a sosea dat mic Ref. FF-AG2: n redactare se bizuia pe ni ste note luate chiar dup a ce se Setul de baz a: p an a redactare se bizuia pe ni ste note luate chiar dup a ce se Setul redus: p an a redactare se bizuia pe ni ste note luate chiar dup a ce se desp art ise de gazda sa desp art ise de gazda sa desp art ise de gazda sa

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

EXEMPLE DE RECUNOAS TERE Ref. FF-AG3: spert ul ocazion a ntunecarea n adejdilor Setul de baz a: spert ul ocazion a ntunecarea n adejdilor Setul redus: spert ul ocazion a ntunecarea n adejdilor Ref. FF-AG4: scrierea ce o nchei aici a b ajb ait n c autarea unui r aspuns al Setul de baz a: scrierea ce om ce-i aici a b ajb ait n c autarea mi r aspuns ar Setul redus: scrierea ce om ce-i aici a b ajb ait n c autarea mi r aspuns ar acestei dileme acestei dileme acestei dileme Ref. FF-AG5: perdeaua se umase de o pal a de aer Setul de baz a: perdeaua s a umase de o pal a de a-i Setul redus: perdeaua s a umase de o pal a de a-i

133

Ref. FF-AG6: doar c a nu ne-au aruncat cu lovituri de cizm a pe trepte-n jos Setul de baz a: **** **** dac a lumea aruncat cu lovituri de cizm a pe trepte-n jos Setul redus: **** dac a nu ne-au aruncat cu lovituri de cizm a te trepte-n jos Ref. FG-BI1: era dorint a de a istorisi mereu acelea si nt ampl ari cu un haz re nnoit Setul de baz a: ea dorint a de * istorisi mereu acelea si nt ampl ari ** cum haz re nnoit Setul redus: ea dorint a de * istorisi mereu acelea si nt ampl ari ** cum haz re nnoit Ref. FG-BI2: tata s-ar nfuriat cu sigurant a si poate m a pocnea Setul de baz a: tata s a vrea cu sigurant a si poate m-a pocnea Setul redus: tata s a u fu ea cu sigurant a si poate m-a pocnea Ref. FG-BI3: se pomenise prelu and pe nea steptate cea mai dicil a misiune Setul de baz a: se pomenise prelu and te nea steptate cea mai dicil a misiune Setul redus: se pomenise prelu and te nea steptate cea mai dicil a misiune Ref. FG-BI4: schit a o gur a de gimnastic a s a se dezmort easc a dup a trezire Setul de baz a: schit a au gur a de gimnastic a s a se dezmort easc a dup a trezire Setul redus: schit a au gur a de gimnastic a s a se dezmort easc a dup a trezire Ref. FG-BI5: r am anea doar s a njghebeze at at de bine planul nc at nimeni s a nu-i Setul de baz a: r am anea doar s a njghebeze at at de bine planul nc at nu-i s a nu-i Setul redus: r am anea ba s a njghebeze at at de bine planul nc at nu-i s a nu-i nt eleag a jocul nt eleag a jocul nt eleag a jocul Ref. FG-BI6: impulsurile pe care le resimt am mi dep a seau puterile de st ap anire de Setul de baz a: impulsurile pe care le resimt am mi dep a seau puterile de st ap anire de Setul redus: impulsurile te care le resimt am mi dep a seau puterile de st ap anire de sine sine sine

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

134 EXEMPLE DE RECUNOAS TERE Ref. FG-BI7: din prima dup a-amiaz a am dat fuga la m an astirea locului Setul de baz a: din prima dup a-amiaz a al dat fuga la m an astirea locului Setul redus: din prima dup a-amiaz a al dat fuga la m an astirea locului Ref. FH-AY1: eu am r amas mirat a indc a tata nu p area un familist Setul de baz a: i om r amas mirat a indc a tata nu p area om familist Setul redus: i om r amas mirat a indc a tata nu p area om familist Ref. FH-AY2: peste c atva timp m-am pomenit victim a a unui sumar interogatoriu Setul de baz a: peste c atva timp m-am pomenit victim a au mi sumar interogatoriu Setul redus: peste c atva timp m-am pomenit victim a au mi sumar interogatoriu Ref. FH-AY3: m a pofti s a-l a stept Setul de baz a: m a pofti s a-l a stept Setul redus: m a pofti s a-l a stept Ref. FH-AY4: sunt sigur c a-i era greu cu un n at aeat a ca mine Setul de baz a: **** sus ion era greu cu ** n at aeat a ca mine Setul redus: **** sus ion era greu cu ** n at aeat a ca mine Ref. FH-AY5: pleoapele ti le stergeai ntruna de stropii de ulei ta snit i p an a la ele Setul de baz a: pleoapele ti de stergeai ntruna de stropii de ulei ta snit i p an a lui ele Setul redus: pleoapele ti de stergeai ntruna de stropii de ulei ta snit i p an a lui ele Ref. FH-AY6: din c and n c and si freca pleoapele p an a le ro sea Setul de baz a: din c and ** nc at si freca pleoape p an a le ro sea Setul redus: din c and ** nc at si freca pleoape p an a le ro sea Ref. FH-AY7: ngrijea n chilia sa vreo optsprezece canari Setul de baz a: ngrijea mi chilia sa v ad optsprezece canari Setul redus: ngrijea n chilia sau v ad optsprezece canari Ref. FI-BZ1: gazda mea se dovedea prea indulgent a cu ifosele copilului ce eram Setul de baz a: un gazda mea se dovedea prea indulgent a cu ifosele copilului cel al Setul redus: un gazda mea se dovedea prea indulgent a cu ifosele copilului cel al Ref. FI-BZ2: a cunoscut de mic foamea batjocura Setul de baz a: a cunoscut de mic foamea batjocura Setul redus: a cunoscut de mic foamea batjocura Ref. FI-BZ3: nu e mai bine s a primeasc a altul care nu e a sa de ndu sm anit Setul de baz a: ** ne mai vine se primeasc a altul care ** nu-i a sa de ndu sm anit Setul redus: ** ne mai vine se primeasc a altul care ** nu-i a sa de ndu sm anit ca mine ca mine ca mine

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

EXEMPLE DE RECUNOAS TERE Ref. FI-BZ4: st atea n spatele tejghelei cu lum an ari de la intrarea bisericii Setul de baz a: st atea ** spatele tejghelei cu lum an ari ** ** naintarea bisericii Setul redus: st atea ** spatele tejghelei cu lum an ari ** ** naintarea bisericii umbroase umbroase umbroase Ref. FI-BZ5: purta ve sminte albe ntret esute cu r de aur Setul de baz a: purta ve sminte albe ntret esute cu r de aur Setul redus: purta ve sminte albe ntret esute cu r de aur Ref. FI-BZ6: eram plin de n adejdi Setul de baz a: te aur plin unde n adejdi Setul redus: te aur plin de n adejdi

135

Ref. FI-BZ7: tudor m a ntrerupse pentru prima dat a n cursul acelei dup a-amieze Setul de baz a: tudor ** ntrerupse pentru prima dat a n cursul acelei dup a-amieze Setul redus: tudor m-a ntrerupse pentru prima dat a n cursul acelei dup a-amieze Ref. FJ-BC1: acestea l-au impus unui for internat ional acesta angaj andu-l Setul de baz a: acestea l-au impus i for internat ional acesta angaj andu-l Setul redus: acestea l-au impus i for internat ional acesta angaj andu-l Ref. FJ-BC2: era de dorit s a ne doboare n num ar c at mai mare Setul de baz a: ea de doi ti ne doboare ** num ar c a ti m a mare Setul redus: ea de doi se ne doboare ** num ar c a ti m a mare Ref. FJ-BC3: iar a si simt ea nevoia s a se duc a la toalet a Setul de baz a: iar a simt ea ne v a s a se duc a la toalet a Setul redus: iar a si simt ea ne v a sus duc a la toalet a Ref. FJ-BC4: poate c a ar trebui s a v a adresat i altcuiva Setul de baz a: poate ** ca trebui s a v a adresat i altcuiva Setul redus: poate ** ca trebui s a v a adresat i altcuiva Ref. FJ-BC5: vine cu ciomagul subsuoar a Setul de baz a: vine cu ciomagul subsuoar a Setul redus: vine cu ciomagul subsuoar a Ref. FJ-BC6: a lucrat un costum nat ional ales a-i nm anat ns a si reginei Setul de baz a: a lucrat n costum nat ional **** alese nm anat ns a si reginei Setul redus: a lucrat mi costum nat ional **** alese nm anat ns a si reginei Ref. FJ-BC7: vasele de port elan se zdrobeau de parchet r am an and f ar a viat a Setul de baz a: vasele de port elan se zdrobeau de parchet pe r am an and f ar a viat a Setul redus: vasele de port elan se zdrobeau de parchet r am an and f ar a viat a Ref. MA-AX1: f acusem aceast a alegere dup a matur a chibzuint a Setul de baz a: f acusem aceast a alegere v a matur a chibzuint a Setul redus: f acusem aceast a alegere v a matur a chibzuint a

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

136 EXEMPLE DE RECUNOAS TERE Ref. MA-AX2: c and l z areai t i d adeai cu p arerea c a ar fost un om Setul de baz a: c and e z areai t i d adeai cu p arerea ** ** c art ii fost ** m-am Setul redus: c and e z areai t i d adeai cu p arerea ** ** c art ii fost ** m-am cumsecade cumsecade cumsecade Ref. MA-AX3: exasperat a apucat s a-i spun a c a nu p ar ase ste cabinetul f ar a Setul de baz a: exasperat * apucat se spun a c a nu p ar ase ste cabinetul f ar a Setul redus: exasperat * apucat se spun a ** cum p ar ase ste cabinetul f ar a aprobarea r avnit a aprobarea r avnit a aprobarea r avnit a Ref. MA-AX4: colonelul t acea respectuos Setul de baz a: colonelul t acea respectuos Setul redus: colonelul t acea respectuos Ref. MA-AX5: a trebuit s a insist mult cu r abdare si bl andet e Setul de baz a: a trebui se insist mult cu r abdare si bl andet e Setul redus: * atrag uit i insist mult cu r abdare si bl andet e Ref. MA-AX6: iar a eu beau vin si tuic a Setul de baz a: iar a eu beau vine si tuic a Setul redus: iar a eu beau vin si tuic a Ref. MA-AX7: mi-a venit s a pufnesc n r as Setul de baz a: **** **** devenise pufnesc ** ales Setul redus: **** **** devenise pufnesc ** ales Ref. MB-AC1: aparit ia unui profesor nsot itor le cenzureaz a instinctele dezl ant uite Setul de baz a: aparit ia unui profesor nsot itor le cenzureaz a e st anc a dezl ant uite Setul redus: aparit ia unui profesor nsot itor le cenzureaz a e st anc a dezl ant uite Ref. MB-AC2: n cele din urm a m-a ncredint at c a dac a se elibera postul urma Setul de baz a: un cele ghemul om a ncredint at c a dac a se elibera postul urma Setul redus: un cele ghemul om a ncredint at c a dac a se elibera postul urma s a u ntrebat de-l mai r avneam s a u ntrebat de-l mai r avneam s a u ntrebat de-l mai r avneam Ref. MB-AC3: pe ea vor st ap nii s-o sl abeasc a pentru a o putea manipula n Setul de baz a: ** mi-a vor st ap nii s-o sl abeasc a ****** pe ntr-o putea manipula n Setul redus: ** mi-a vor st ap nii s-o sl abeasc a ****** te ntr-o putea manipula n interesul lor interesul lor interesul lor

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

EXEMPLE DE RECUNOAS TERE Ref. MB-AC4: exist a si alte slujbe acolo Setul de baz a: exist a si alte slujbe acolo Setul redus: exist a si alte slujbe acolo Ref. MB-AC5: si astfel odiseea lu a sf ar sit Setul de baz a: si noastr a odiseea lu a sf ar sit Setul redus: si noastr a odiseea nu sf ar sit Ref. MB-AC6: murise cam pe la optsprezece ani si-mi devenise model Setul de baz a: murise cam ** p an a optsprezece al si-mi devenise model Setul redus: murise cam ** p area optsprezece ani si-mi devenise model Ref. MC-AA1: a ajuns s a-l vad a pe poetul voiculescu ntins n patul de acas a Setul de baz a: * ajuns al vad a ap a poetul voiculescu ntins n patul de acas a Setul redus: * ajuns al vad a c a poetul voiculescu ntins n patul de acas a Ref. MC-AA2: crezi c a pantelimon arat a a pustnic Setul de baz a: crezi c a pantelimon arat a a pustnic Setul redus: crezi c a pantelimon arat a a pustnic Ref. MC-AA3: doar eu m a simt eam nit el nelini stit de z ambetul s au enigmatic Setul de baz a: doar eu m a simt ea nit el nelini stit de z ambetul s-o enigmatic Setul redus: doar eu m a simt ea nit el nelini stit de z ambetul s-o enigmatic Ref. MC-AA4: si-a luat l adit e goale n juru-i Setul de baz a: si-a luat l adit e boal a n juru-i Setul redus: si-a luat l adit e boal a n juru-i

137

Ref. MC-AA5: ie si pe sleaul ce ducea drept spre drumul de la sulit a la boto sani Setul de baz a: ie si pe sleaul ce ducea drept spre drumul de-l a sulit a la boto sani Setul redus: ie si pe sleaul ce ducea drept spre drumul de-l a sulit a la boto sani Ref. MC-AA6: anchetatorul a dat ordin unui gealat s a m a loveasc a la t alpi Setul de baz a: anchetatorul a dat ordin unui gealat ** seama loveasc a la t alpi Setul redus: anchetatorul a dat ordin unui gealat ** s a-mi loveasc a la t alpi Ref. MD-AK1: hot ar asem s a m a inspir din numele s au n alegerea Setul de baz a: hot ar asem s a m a inspir din numele s au un alegere Setul redus: hot ar asem s a-mi i inspir din numele *** sub alegere pseudonimului meu pseudonimului i meu pseudonimului i meu Ref. MD-AK2: si lu a m asurile de prevedere esent ial era s a salveze pentru Setul de baz a: si o m asurile de prevedere pe esent ial era s a salveze pentru Setul redus: si l-au m asurile de prevedere esent ial era s a salveze pentru viitorime comoara de documente viitorime comoara de documente viitorime comoara de documente

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

138 EXEMPLE DE RECUNOAS TERE Ref. MD-AK3: tocmai eu m-am g asit s a judec proorocirea sa cu privire la viitorul Setul de baz a: tocmai om am g asit se judec proorocirea sa cu privire ** lovituri Setul redus: tocmai om am g asit se judec proorocirea sa cu privire ** lovituri meu meu meu Ref. MD-AK4: erau buni de chefuri la bucurii cu care se rugau n aceea si Setul de baz a: i r au bun bec circul a bucurii cu care s a-l rugau un aceea si Setul redus: i r au bun bec circul a bucurii cu care s a-l rugau un ace sti ob ste parohial a ob ste planul iar a ob ste planul iar a Ref. MD-AK5: ion sufer a de o boal a cronic a si mortal a Setul de baz a: ion sufer a ** * doboare cronic a si mortal a Setul redus: ion sufer a ** * doboare cronic a si mortal a Ref. MD-AK6: am ngenuncheat Setul de baz a: am ngenuncheat Setul redus: am ngenuncheat Ref. ME-BN1: numai c a respectivul student francez era n stipendiul securit a tii Setul de baz a: numai c a respectivul student francez era n stipendiul mi securit a tii Setul redus: numai c a respectivul student francez era n stipendiul securit a tii Ref. ME-BN2: v azusem o spinare sumet indu-se de sub arele unui pat Setul de baz a: v azusem o spinare t alpi sumet indu-se de si-mi arele unui pat Setul redus: v azusem o spinare sumet indu-se de si-mi arele unui pat Ref. ME-BN3: acum ni se adres a cu o tem a vrednic a de inteligent a noastr a Setul de baz a: acum ** se adres a cu o tem a vrednic a de inteligent a noastr a Setul redus: acum ** se adres a cu o tem a vrednic a de inteligent a noastr a Ref. ME-BN4: sleahta nemaiind un avanpost al societ a tii a disp arut Setul de baz a: sleahta pe nemaiind putna avanpost ar societ a tii te disp arut Setul redus: sleahta nemaiind una avanpost ar societ a tii trei disp arut Ref. ME-BN5: staret ul p arintele arsenie mi se nf a ti sa ca o siluet a f ar a Setul de baz a: staret ul mi p arintele arsenie plin se nf a ti sa ** planul siluet a f ar a Setul redus: staret ul p arintele arsenie mi se nf a ti sa c a aur siluet a f ar a pereche pereche pereche Ref. ME-BN6: am constatat seninul bun at a tii ce-i emana dintre pleoape Setul de baz a: am constatat seninul bun at a tii ce-i emana dintre pleoape Setul redus: am constatat seninul bun at a tii ce-i emana dintre pleoape

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

EXEMPLE DE RECUNOAS TERE

139

Ref. ME-BN7: am socotit visul de mai sus ca o soapt a ncurajatoare Setul de baz a: ani socotit i visul de m-ar si uit i pe au soapt a ncurajatoare Setul redus: ani socotit i visul de m-ar sus ** r au soapt a ncurajatoare a subcon stientului a s subcon stientului a- si subcon stientului Ref. MF-AD1: venerabilul mi dezleag a misterul smeririi necesare tuturor Setul de baz a: venerabilul n dezleag a misterul smeririi necesare tuturor Setul redus: venerabilul mi dezleag a misterul smeririi necesare tuturor Ref. MF-AD2: guvernul nu mai vrea s a nlocuiasc a dup a ce vor obt inut Setul de baz a: guvernul ** num ar a s-o nlocuiasc a dup a ** ceva obt inut Setul redus: guvernul ** num ar a s-o nlocuiasc a dup a ** ceva obt inut recunoa sterea recunoa sterea recunoa sterea Ref. MF-AD3: ajunsesem absolut ngrozitor de suportat de c atre cei care m a Setul de baz a: ajunsesem absolut ngrozitor v a suportat de c atre ** ce-i cam Setul redus: ajunsesem absolut ngrozitor de suportat de c atre ** ce-i cam acceptau n preajma lor acceptau ** preajma lor acceptau ** preajma lor Ref. MF-AD4: imaturi o duceam ntr-un permanent duel verbal Setul de baz a: imaturi o duceam ntr-un permanent de-l verbal Setul redus: imaturi tot ducea ntr-un permanent de-l verbal Ref. MF-AD5: au tr ait-o ca atare cu bel sugul dragostei de frat i Setul de baz a: o tr ait-o ca pare cu bel sugul dragostei de frat i Setul redus: o tr ait-o ca pare cu bel sugul dragostei de frat i Ref. MF-AD6: avusese o ndelungat a perioad a de refacere dup a o boal a Setul de baz a: avusese o ndelungat a perioad a v a refacere dup a o goal a Setul redus: avusese o ndelungat a perioad a v a refacere dup a ou boal a Ref. MG-AH1: ba mai g asesc c ate una goal a prin care nici nu se circul a Setul de baz a: ba mai g asesc *** ntruna goal a prin care nici smuls e circul a Setul redus: ba m-a g asesc *** ntruna boal a atunci care nici smuls e circul a Ref. MG-AH2: caut un pamet ce mi-a ap arut n evenimentul n urm a cu Setul de baz a: caut un pamet ** cele ap arut n evenimentul ** pe loveasc a Setul redus: caut un pamet ** cele ap arut n evenimentul ** lumea cu doi trei ani doi trei ar doi trei ar

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

140 EXEMPLE DE RECUNOAS TERE Ref. MG-AH3: atrage atent ia asupra greut a tilor nt ampinate n viat a Setul de baz a: atrage atent ia stau greut a tilor nt ampinate lui vrea te Setul redus: atrage atent ia stau greut a tilor nt ampinate lui viat a Ref. MG-AH4: ghemuit n patru labe se sprijini anevoie de bara de er si- si scoase Setul de baz a: ghemuit n patul labe se sprijini anevoie de bara de er si scoase Setul redus: ghemuit n patul labe se sprijini anevoie de bara de er si- si scoase capul la vedere capul a vedere capul a vedere Ref. MG-AH5: nu coboar a Setul de baz a: l-au coboar a Setul redus: l-au coboar a Ref. MG-AH6: dac a nu s-ar tinut seama de dorint a lui se risca provocarea Setul de baz a: dac a ** *** r as ocial seama de dorint a lui se risca provocarea Setul redus: dac a ** *** r as ocial seama de dorint a lui se risca provocarea unui incendiu ulei incendiu ulei incendiu Ref. MH-AR1: i jignisem prin cuvintele prea pripit alese Setul de baz a: l jignisem prin cuvintele prea pripit alese Setul redus: i jignisem prin cuvintele prea pripit alese Ref. MH-AR2: lucrurile nu stau ntocmai cum le-am descris Setul de baz a: lucrurile nu stau ntocmai cu le-am descris Setul redus: lucrurile nu stau ntocmai cu le-am descris Ref. MH-AR3: anghel a smuls din m ainile soldatului pu sca Setul de baz a: anghel * ***** ast azi m ainile soldatului pu sca Setul redus: anghel * ***** ast azi m ainile soldatului pu sca Ref. MH-AR4: n interiorul c art ii se desf acea o plan sa ce reprezenta trupul Setul de baz a: p arintele o c art ii se desf acea * plan se ce reprezenta trupul Setul redus: p arintele o c art ii se desf acea * plan se ce reprezenta trupul omului ou vor ou vor Ref. MH-AR5: trebuia s a te uit i la v arful picioarelor sau n bec Setul de baz a: trebuia se te uit i la v arful picioarelor sau p an a bec Setul redus: trebuia se te uit i la v arful picioarelor sau n bec Ref. MH-AR6: si lipe ste din nou uit aturile n acela si timp grele si pehlivane Setul de baz a: si lipe ste din *** uit aturile p an a acela si timp grele si pehlivane Setul redus: si lipe ste din *** uit aturile n acela si timp grele si pehlivane

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

EXEMPLE DE RECUNOAS TERE Ref. MH-AR7: din micul bloc de al aturi se auzi un zgomot Setul de baz a: din micul **** vorbe al aturi s a auzi nu zgomot Setul redus: din micul **** vorbe al aturi s a auzi un zgomot

141

Ref. MI-BA1: nu ndr azneau s a apar a-n lumea oamenilor mari unde eu eram Setul de baz a: nou ndr azneau s a apar a-n lumea oamenilor mari nchei o eram Setul redus: nou ndr azneau soarta v a lumea oamenilor m-ar nchei o eram admis admis admis Ref. MI-BA2: m-am ngrijorat deoarece stiam c at erau de ur a ti ace sti ortodoc si Setul de baz a: m-am ngrijorat deoarece stiam pripit erau de ur a ti ace sti ortodoc si Setul redus: m-am ngrijorat deoarece stiam te te erau de ur a ti ace sti ortodoc si care nu renunt au care nu renunt au care nu renunt au Ref. MI-BA3: m a zguduie ori de emot ie cu mult timp nainte de nt alnire Setul de baz a: m a zguduie ori de emot ie cu **** timp nainte de nt alnire Setul redus: m a zguduie ori de emot ie cu **** timp nainte de nt alnire Ref. MI-BA4: mustr ari si sfaturi legate de frecvent a lui se ngr am adeau la gura mea Setul de baz a: mustr ari si sfaturi legate de frecvent a lui se ngr am adeau la gura m a Setul redus: mustr ari si sfaturi legate de frecvent a lui se ngr am adeau la gura m a Ref. MI-BA5: am insistat continu and a crede n cinstea sa Setul de baz a: am insistat put in una crede n cinstea sa Setul redus: am insistat continu and a crede n cinstea sa Ref. MI-BA6: n urma incidentului fu convocat un consiliu profesoral Setul de baz a: n urma incidentului fu convocat un consiliu profesoral Setul redus: n urma incidentului fu convocat un consiliu profesoral Ref. MI-BA7: bulg arii mari de p am ant mi fac naintarea anevoioas a Setul de baz a: bulg arii **** mare p am ant p an a fac naintarea anevoioas a pe Setul redus: bulg arii **** mare p am ant timp fac naintarea anevoioas a mpiedicat a schioap a mpiedicat a optsprezece ap a mpiedicat a schioap a Ref. MJ-BE1: la toate ntreb arile procurorul consemnase c a voiculescu nega Setul de baz a: a pat ntreb arile ani procurorul consemnase cu voiculescu n-am Setul redus: a toate ntreb arile i procurorul consemnase cu voiculescu n-am acuzat ia acuzat ie acuzat ie

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

142 EXEMPLE DE RECUNOAS TERE Ref. MJ-BE2: pleoapele i acoper a part ial ochii mari alba stri Setul de baz a: ******** pleoape acoper a part ial ochii mari alba stri Setul redus: ******** pleoape acoper a part ial ochii mare alba stri Ref. MJ-BE3: st atea singur pe st anc a mbr a ti sa nd cerul cu brat ele Setul de baz a: st atea singur pe st anc a mbr a ti sa nd cerul cu gura f ar a Setul redus: st atea singur te st anc a mbr a ti sa nd cerul cu dat a Ref. MJ-BE4: dac a nu m-ar st ap anit amort irea vodcii a s f acut multe prostii Setul de baz a: dac a ** num ar st ap anit amort irea vodcii a s ** f acut multe prostii Setul redus: dac a ** num ar st ap anit amort irea vodcii a- si fu cu multe prostii Ref. MJ-BE5: am luat o gur a de ap a s a-mi potolesc ar sit a g atlejului uscat Setul de baz a: ** **** arat a gura de ap a s a-mi potolesc ar sit a g atlejului uscat Setul redus: ** arat a un gura de ap a s a-mi potolesc ar sit a g atlejului uscat Ref. MJ-BE6: au fost transferat i mpreun a cu un grup de delincvent i de drept comun Setul de baz a: o fost transferat i ntruna cu ** **** de delincvent i de drept comun Setul redus: o fost transferat i ntruna cu ** **** de delincvent i de drept comun Ref. MJ-BE7: am m ancat un ou ert Setul de baz a: a m ancat una ou ert Setul redus: a m ancat un ou ert

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

BIBLIOGRAFIE

[1] J. Allen. Natural Language Understanding. Benjamin/Cummings, Redwood City, California, 1995. [2] J. Allen, M.S. Hunnicut si D. Klatt. From text to speech: The MITalk system. Cambridge University Press, 1987. [3] J.B. Allen. How Do Humans Process and Recognize Speech? In R.P. Ramachandran si R.J. Mammone (editori), Modern Methods of Speech Processing, cap. 11, pag. 25175. Kluwer Academic Publishers, Boston, 1995. [4] F. Alleva, X.D. Huang si M.Y. Hwang. An Improved Search Algorithm Using Incremental Knowledge for Continuous Speech Recognition. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 2, pag. 307310, 1993. [5] F. Alleva, X.D. Huang si M.Y. Hwang. Improvements on the Pronunciation Prex Tree Search Organization. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 13336, 1996. [6] M.R. Anderberg. Cluster Analysis for Applications. Academic Press, New York, 1973. [7] B.S. Atal si S.L. Hanauer. Speech Analysis and Synthesis by Linear Prediction of the Speech Wave. The Journal of the Acoustical Society of America, 50(2):63755, 1971. [8] X.L. Aubert. A Brief Overview of Decoding Techniques for Large Vocabulary Continuous Speech Recognition. In Proceedings of the ISCA ITRW ASR2000, pag. 9196, Paris, 2000. [9] S. Austin, R. Schwartz si P. Placeway. The Forward-Backward Search Algorithm. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 697700, 1991.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

143

144 BIBLIOGRAFIE [10] A. Averbuch s.a. Experiments with the Tangora 20,000 Word Speech Recognizer. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 701704, 1987. [11] L.R. Bahl, P.F. Brown, P.V. de Souza si R.L. Mercer. Speech recognition with continuous-parameter hidden Markov models. Computer Speech and Language, 2(3/4):21934, 1987. [12] L.R. Bahl, S.V. De Gennaro, P.S. Gopalakrishnan si R.L. Mercer. A Fast Approximate Acoustic Match for Large Vocabulary Speech Recognition. In Proceedings EUROSPEECH89, vol. 1, pag. 15658, 1989. [13] L.R. Bahl si F. Jelinek. Decoding for Channels with Insertions, Deletions, and Substitutions with Applications to Speech Recognition. IEEE Transactions on Information Theory, 21(4):40411, iulie 1975. [14] L.R. Bahl, F. Jelinek si R.L. Mercer. A Maximum Likelihood Approach to Continuous Speech Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 5(2):17990, martie 1983. [15] J.K. Baker. Stochastic Modeling as A Means of Automatic Speech Recognition. Tez a de doctorat, Carnegie Mellon University, aprilie 1975. [16] J.K. Baker. The DRAGON System An Overview. IEEE Transactions on Acoustics, Speech, and Signal Processing, 23(1):2429, februarie 1975. [17] W. Barry. Labelling criteria: Phonemic and acoustic-segment labelling. ESPRIT Project 2589 (SAM) Report, University College, Londra, octombrie 1990. [18] W.J. Barry si A.J. Fourcin. Levels of labelling. Computer Speech and Language, 6(1):114, ianuarie 1992. [19] L.E. Baum si T. Petrie. Statistical Inference for Probabilistic Functions of Finite State Markov Chains. Annals of Mathematical Statistics, 37(6):155463, decembrie 1966. [20] L.E. Baum, T. Petrie, G. Soules si N. Weiss. A Maximization Technique Ocurring in the Statistical Analysis of Probabilistic Functions of Markov Chains. Annals of Mathematical Statistics, 41(1):16471, februarie 1970. [21] R. Bellman si S. Dreyfus. Programarea dinamic a aplicat a. Editura Tehnic a, Bucure sti, 1967. [22] L.L. Beranek. Acoustic Measurements. Wiley, New York, 1949. [23] D. Bohu s si M. Boldea. A Web-based Text Corpora Development System. In Proceedings Second International Conference on Language Resources and Evaluation LREC2000, Atena, Grecia, mai 2000.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

BIBLIOGRAFIE

145

[24] D. Bohu s si M. Boldea. Stochastic Speech Understanding for Human-Computer Dialogue. Romanian Journal of Information Science and Technology, 4(3-4):261 72, 2001. [25] M. Boldea. A Database of Spoken Romanian Isolated Digits. In Buletinul S tiint ic al Universit a tii Tehnice din Timi soara, vol. 40(54) din Seria Automatic a si Calculatoare, pag. 13538. Timi soara, 1995. [26] M. Boldea. Speaker Independent Isolated Word Recognition Experiments. In Buletinul S tiint ic al Universit a tii Tehnice din Timi soara, vol. 40(54) din Seria Automatic a si Calculatoare, pag. 12934. Timi soara, 1995. [27] M. Boldea. A Comparison of Speech Processing Methods in Speaker Independent Isolated Word Recognition. In Buletinul S tiint ic al Universit a tii Politehnica din Timi soara, vol. 41(55) din Seria Automatic a si Calculatoare, pag. 16470. Timi soara, 1996. [28] M. Boldea. Speech Technology Research at Computer Science Department, Politehnica University of Timi soara. In D. Tu s si P. Andersen (editori), Recent Advances in Romanian Language Technology, pag. 17477, Bucure sti, 1997. Editura Academiei Rom ane. [29] M. Boldea. Analiza semnalului vocal pentru recunoa sterea automat a a vorbirii. Referat de doctorat, Departamentul de Calculatoare, Universitatea Politehnica din Timi soara, decembrie 1999. [30] M. Boldea. Speaker Independent Phoneme Recognition in Romanian. In Proceedings 12th International Conference on Control Systems and Computer Science CSCS12, vol. 2, pag. 712, Bucure sti, mai 1999. [31] M. Boldea si A. Doroga. Towards Automatic Recognition of Continuous Speech in Romanian. In Proceedings Third International Conference on Technical Informatics CONTI98, vol. 3, pag. 21625, Timi soara, octombrie 1998. [32] M. Boldea, A. Doroga, T. Dumitrescu si M. Pescaru. Preliminaries to a Romanian Speech Database. In Proceedings International Conference on Spoken Language Processing, vol. 3, pag. 193437, Philadelphia, octombrie 1996. [33] M. Boldea si C. Munteanu. Labeling a Romanian Speech Database. In Proceedings Second International Workshop Speech and Computer SPECOM97, pag. 77 80, Cluj-Napoca, octombrie 1997. [34] M. Boldea, C. Munteanu si A. Doroga. Design, Collection, and Annotation of a Romanian Speech Database. In Proceedings LREC Workshop on Speech Database Development for Central and Eastern European Languages, pag. 4346, Granada, Spania, mai 1998.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

146 BIBLIOGRAFIE [35] A. Bonafonte, R. Estany si E. Vives. Study of Subword Units for Spanish Speech Recognition. In Proceedings EUROSPEECH95, pag. 160710, Madrid, septembrie 1995. [36] H. Bourlard si N. Morgan. Continuous Speech Recognition by Connectionist Statistical Methods. IEEE Transactions on Neural Networks, 4(6):893909, noiembrie 1993. [37] G.E.P. Box, W.G. Hunter si J.S. Hunter. Statistics for Experimenters. John Wiley & Sons, New York, 1978. [38] J.S. Bridle, M.D. Brown si R.M. Chamberlain. An Algorithm for Connected Word Recognition. In J.P. Haton (editor), Automatic Speech Analysis and Recognition, pag. 191204. D. Reidel Publishing Company, Dordrecht, Olanda, 1982. [39] P.F. Brown. The Acoustic-Modeling Problem in Automatic Speech Recognition. Tez a de doctorat, Carnegie Mellon University, mai 1987. [40] F. Brugnara, D. Falavigna si M. Omologo. Automatic segmentation and labeling of speech based on Hidden Markov Models. Speech Communication, 12(4):35770, august 1993. [41] F. Brugnara si R. De Mori. Acoustic Modelling. In R. De Mori (editor), Spoken Dialogues with Computers, cap. 5, pag. 14170. Academic Press, Londra, 1998. [42] F. Brugnara, R. De Mori, D. Giuliani si M. Omologo. Improved Connected Digit Recognition Using Spectral Variation Functions. In Proceedings International Conference on Spoken Language Processing, pag. 62730, Ban, Canada, 1992. [43] C. Burileanu. Caracterizarea unui vocabular limitat de cuvinte pronunt ate izolat n vederea recunoa sterii automate. In M. Dr ag anescu si C. Burileanu (editori), Analiza si sinteza semnalului vocal, pag. 36131. Editura Academiei Rom ane, Bucure sti, 1986. [44] W. Byrne, P. Byerlein s.a. Towards Language Independent Acoustic Modeling. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 2, pag. 102932, 2000. [45] R. Carre, R. Descout, M. Eskenazi, J. Mariani si M. Rossi. The French Language Database: Dening, Planning, and Recording a Large Database. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, 1984. [46] D. Chan, A. Fourcin s.a. EUROM A Spoken Language Resource for the EU. In Proceedings EUROSPEECH95, vol. 1, pag. 86770, Madrid, septembrie 1995. [47] L.L. Chase. Error-Responsive Feedback Mechanisms for Speech Recognizers. Tez a de doctorat, Carnegie Mellon University, aprilie 1997.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

BIBLIOGRAFIE

147

[48] M.Y. Chen, A. Kundu si J. Zhou. O-Line Handwritten Word Recognition Using a Hidden Markov Model Type Stochastic Network. IEEE Transactions on Pattern Analysis and Machine Intelligence, 16(5):48196, mai 1994. [49] R. Chengalvarayan si L. Deng. Use of Generalized Dynamic Feature Parameters for Speech Recognition. IEEE Transactions on Speech and Audio Processing, 5(3):232 42, mai 1997. [50] Y.L. Chow s.a. BYBLOS: The BBN Continuous Speech Recognition System. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 8992, 1987. [51] M. Cohen, G. Baldwin, J. Bernstein, H. Murveit si M. Weintraub. Studies for an Adaptive Recognition Lexicon. In Proceedings of the DARPA Speech Recognition Workshop, San Diego, California, 1987. [52] M. Constantinescu si D. Cristescu. Sistem de analiz a si recunoa stere automat aa vorbirii. In M. Dr ag anescu si C. Burileanu (editori), Analiza si sinteza semnalului vocal, pag. 21020. Editura Academiei Rom ane, Bucure sti, 1986. [53] P. Cosi, D. Falavigna, G.A. Mian si M. Omologo. A Comparison between Melscale Cepstrum and Auditory Model Representation for Noisy Speech Recognition. In L. Torres, E. Masgrau si M.A. Lagunas (editori), SIGNAL PROCESSING V: Theories and Applications, pag. 11991201. Elsevier Science Publishers, 1990. [54] R.V. Cox, B.G. Haskell, Y. Lecun, B. Shahraray si L. Rabiner. On the Applications of Multimedia Processing to Telecommunications. Proceedings of the IEEE, 86(5):755824, mai 1998. [55] K. Croot si B. Taylor. Criteria for Acoustic-Phonetic Segmentation and Word Labelling in the Australian National Database of Spoken Language. Speech, Hearing and Language Research Centre, Macquarie University, 1995. [56] R.I. Damper. Introduction to Discrete-Time Signals and Systems. Chapman & Hall, Londra, 1995. [57] S.B. Davis si P. Mermelstein. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences. IEEE Transactions on Acoustics, Speech, and Signal Processing, 28(4):35766, august 1980. [58] R. De Mori (editor). Spoken Dialogues with Computers. Academic Press, Londra, 1998. [59] J.R. Deller, J.G. Proakis si J.H.L. Hansen. Discrete-Time Processing of Speech Signals. Macmillan Publishing Company, New York, 1993. [60] A.P. Dempster, N.M. Laird si D.B. Rubin. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society. Series B (Methodological), 39(1):138, 1977.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

148 BIBLIOGRAFIE [61] L. Deng. Processing of Acoustic Signals in a Cochlear Model Incorporating Laterally Coupled Supressive Elements. Neural Networks, 5(1):1934, 1992. [62] G.R. Doddington. Speaker Recognition Identifying People by their Voices. Proceedings of the IEEE, 73(11):165164, noiembrie 1985. [63] M. Dr ag anescu. Tehnologia vorbirii. In M. Dr ag anescu si C. Burileanu (editori), Analiza si sinteza semnalului vocal, pag. 916. Editura Academiei Rom ane, Bucure sti, 1986. [64] R.O. Duda si P.E. Hart. Pattern Classication and Scene Analysis. John Wiley & Sons, New York, 1973. [65] T. Dumitrescu. Elemente de sinteza vorbirii n limba rom an a. Dizertat ie de studii aprofundate, Departamentul de Calculatoare, Universitatea Politehnica din Timi soara, iulie 1996. [66] T. Dutoit. An Introduction to Text-to-Speech Synthesis. Kluwer Academic Publishers, Dordrecht, Olanda, 1997. [67] B. Eisen. Reliability of Speech Segmentation and Labelling at Dierent Levels of Transcription. In Proceedings EUROSPEECH93, vol. 1, pag. 67376, Berlin, 1993. [68] D. Falavigna si M. Omologo. A DTW-based Approach to the Automatic Labeling of Speech According to the Phonetic Transcription. In L. Torres, E. Masgrau si M.A. Lagunas (editori), SIGNAL PROCESSING V: Theories and Applications, pag. 113942. Elsevier Science Publishers, 1990. [69] G.C.M. Fant. Analysis and synthesis of speech processes. In B. Malmberg (editor), Manual of phonetics, cap. 8, pag. 173277. North Holland, Amsterdam, a doua edit ie, 1970. [70] M. Federico, M. Cettolo, F. Brugnara si G. Antoniol. Language modelling for ecient beam-search. Computer Speech and Language, 9(4):35379, 1995. [71] W.M. Fisher, G.R. Doddington si K.M. Goudie-Marshal. The DARPA Speech Recognition Research Database: Specication and Status. In Proceedings of the DARPA Speech Recognition Workshop, Palo Alto, California, februarie 1986. [72] W.M. Fisher si J.H. Fiscus. Better Alignment Procedures for Speech Recognition Evaluation. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 2, pag. 5962, 1993. [73] J.L. Flanagan. Technologies for Multimedia Communications. Proceedings of the IEEE, 82(4):590603, aprilie 1994. [74] Center for Spoken Language Understanding. Speech Tools User Manual. Oregon Graduate Institute of Science and Technology, Beaverton, Oregon, august 1993.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

BIBLIOGRAFIE

149

[75] L. Fortuna. Vorbirea articial a. Aplicat ii n industrie si telecomunicat ii. Editura Mirton, Timi soara, 1996. [76] K. Fukunaga. Introduction to Statistical Pattern Recognition. Academic Press, New York, 1972. [77] S. Furui. Speaker-Independent Isolated Word Recognition Using Dynamic Features of Speech Spectrum. IEEE Transactions on Acoustics, Speech, and Signal Processing, ASSP-34(1):5259, februarie 1986. [78] A. Ganapathiraju. Support Vector Machines for Speech Recognition. Tez a de doctorat, Mississippi State University, ianuarie 2002. [79] A. Ganapathiraju, J. Hamaker, J. Picone, M. Ordowski si G.R. Doddington. Syllable-Based Large Vocabulary Continuous Speech Recognition. IEEE Transactions on Speech and Audio Processing, 9(4):35866, mai 2001. [80] M. Garman. Psycholinguistics. Cambridge University Press, 1990. [81] J.S. Garofolo, L.F. Lamel, W.M. Fisher, D.S. Pallett si N.L. Dahlgren. DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. U.S. Department of Commerce Technology Administration, National Institute of Standards and Technology, Gaithersburg, Maryland, 1993. [82] J.L. Gauvain, L.F. Lamel, G. Adda si M. Adda-Decker. Speaker-independent continuous speech dictation. Speech Communication, 15(1):2137, 1994. [83] J.L. Gauvain si C.H. Lee. Bayesian learning for hidden Markov model with Gaussian mixture state observation densities. Speech Communication, 11:20513, 1992. [84] J.L. Gauvain si C.H. Lee. Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains. IEEE Transactions on Speech and Audio Processing, 2(2):29198, aprilie 1994. [85] J.L. Gauvin si L. Lamel. Speaker-Independent Phone Recognition Using BREF. In Proceedings DARPA Workshop on Automatic Speech Recognition, 1992. [86] J.L. Gauvin, L.F. Lamel si M. Esk enazi. Design Considerations and Text Selection for BREF, a large French read-speech corpus. In Proceedings International Conference on Spoken Language Processing, pag. 10971100, 1990. [87] A. Gersho, S. Wang si K. Zeger. Vector Quantization Techniques in Speech Coding. In S. Furui si M.M. Sondhi (editori), Advances in Speech Signal Processing, cap. 2, pag. 4984. Marcel Dekker, New York, 1992. [88] O. Ghitza. Auditory nerve representation as a front-end for speech recognition in a noisy environment. Computer, Speech, and Language, 1(1):10931, 1986.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

150 BIBLIOGRAFIE [89] O. Ghitza. Auditory Nerve Representation as a Basis for Speech Processing. In S. Furui si M.M. Sondhi (editori), Advances in Speech Signal Processing, cap. 15, pag. 45385. Marcel Dekker, New York, 1992. [90] D. Gibbon, R. Moore si R. Winski (editori). Handbook of Standards and Resources for Spoken Language Systems. Mouton de Gruyter, Berlin, 1997. [91] L. Gillick si S.J. Cox. Some Statistical Issues in the Comparison of Speech Recognition Algorithms. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, pag. 53235, 1989. [92] H. Gish si M. Schmidt. Text-Independent Speaker Identication. IEEE Signal Processing Magazine, (5):1832, octombrie 1994. [93] M. Giurgiu. Results on Automatic Speech Recognition in Romanian. In D. Tu s si P. Andersen (editori), Recent Advances in Romanian Language Technology, pag. 17887. Editura Academiei Rom ane, Bucure sti, 1997. [94] J.J. Godfrey, E.C. Holliman si J. McDaniel. SWITCHBOARD: Telephone Speech Corpus for Research and Development. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 51720, 1992. [95] D. Gra. The 1996 Broadcast News Speech and Language-Model Corpus. In Proceedings of the DARPA Speech Recognition Workshop, Chantilly, Virginia, 1997. [96] R.M. Gray. Vector Quantization. IEEE Acoustics, Speech, and Signal Processing Magazine, pag. 429, aprilie 1984. [97] S. Greenberg. Speaking in shorthand A syllable-centric perspective for understanding pronunciation variation. Speech Communication, 29:15976, 1999. [98] O. Grigore, I. Gav at si M. Zirra. Neural Network Vowel Recognition in Romanian Language. In Proceedings Second International Conference on Technical Informatics CONTI96, pag. 16572, Timi soara, octombrie 1996. [99] Multisite ATIS Data Collection Working Group. Multi-Site Data Collection for a Spoken Language Corpus. In Proceedings of the DARPA Workshop on Speech and Natural Language, pag. 714, Harriman, New York, februarie 1992. [100] V. Groza, M. Boldea si C. B arbulescu. Recunoa sterea vocalelor cu ajutorul unui microsistem de calcul. In Buletinul sesiunii stiint ice pentru tineret Tehnic 2000, pag. 27477, Timi soara, aprilie 1984. [101] V.N. Gupta, M. Lennig si P. Mermelstein. Integration of Acoustic Information in a Large Vocabulary Word Recognizer. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 697700, 1987. [102] H. Hermansky si N. Morgan. RASTA Processing of Speech. IEEE Transactions on Speech and Audio Processing, 2(4):57889, octombrie 1994.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

BIBLIOGRAFIE

151

[103] I.L. Hetherington, M.S. Philips, J.R. Glass si V.W. Zue. A Word Network Search for Continuous Speech Recognition. In Proceedings EUROSPEECH93, vol. 3, pag. 153336, Berlin, 1993. [104] J.L. Hieronimus. Ascii Phonetic Symbols for the Worlds Languages: Worldbet. Journal of the International Phonetic Association, 1993. [105] X.D. Huang, Y. Ariky si M.A. Jack. Hidden Markov Models for Speech Recognition. Edinburgh University Press, 1990. [106] X.D. Huang si M.A. Jack. Semi-continuous hidden Markov models for speech signals. Computer Speech and Language, 3:23951, 1989. [107] M. Huckvale. SFS for Users. University College, Londra, martie 1996. [108] M.Y. Hwang. Subphonetic Acoustic Modeling for Speaker-Independent Continuous Speech Recognition. Tez a de doctorat, Carnegie Mellon University, decembrie 1993. [109] M. Ionit a , C. Burileanu si M. Ionit a . DTW Algorithm with Associated Matrix for a Password Access System. In Proceedings Second International Workshop Speech and Computer SPECOM97, pag. 9196, Cluj-Napoca, octombrie 1997. [110] F. Itakura. Minimum Prediction Residual Principle Applied to Speech Recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing, 23(1):6771, februarie 1975. [111] N. Jayant, J. Johnston si R. Safranek. Signal Compression Based on Models of Human Perception. Proceedings of the IEEE, 81(10):13851422, octombrie 1993. [112] F. Jelinek. Fast Sequential Decoding Algorithm Using a Stack. IBM Journal of Research and Development, noiembrie 1969. [113] F. Jelinek. Continuous Speech Recognition by Statistical Methods. Proceedings of the IEEE, 64(4):53256, aprilie 1976. [114] F. Jelinek. The Development of an Experimental Discrete Dictation Recognizer. Proceedings of the IEEE, 73(11):161624, noiembrie 1985. [115] F. Jelinek. Statistical Methods for Speech Recognition. MIT Press, 1997. [116] F. Jelinek, L.R. Bahl si R.L. Mercer. Design of a Linguistic Statistical Decoder for the Recognition of Continuous Speech. IEEE Transactions on Information Theory, 21(3):25056, mai 1975. [117] F. Jelinek si R.L. Mercer. Interpolated Estimation of Markov Source Parameters from Sparse Data. In E.S. Gelsema si L.N. Kanal (editori), Pattern Recognition in Practice, pag. 38197. North-Holland, 1980. [118] F. Jelinek, R.L. Mercer si S. Roukos. Principles of Lexical Language Modeling for Speech Recognition. In S. Furui si M.M. Sondhi (editori), Advances in Speech Signal Processing, cap. 21, pag. 65199. Marcel Dekker, New York, 1992.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

152 BIBLIOGRAFIE [119] C.R. Jankowski Jr., H.D.H. Vo si R.P. Lippmann. A Comparison of Signal Processing Front Ends for Automatic Word Recognition. IEEE Transactions on Speech and Audio Processing, 3(3):28693, iulie 1995. [120] B.H. Juang. Maximum-Likelihood Estimation for Mixture Multivariate Stochastic Observations of Markov Chains. AT&T Technical Journal, 64(6):123549, iulieaugust 1985. [121] B.H. Juang, S.E. Levinson si M.M. Sondhi. Maximum Likelihood Estimation for Multivariate Mixture Observations of Markov Chains. IEEE Transactions on Information Theory, 32(2):307309, martie 1986. [122] B.H. Juang, L.R. Rabiner si J.G. Wilpon. On the Use of Bandpass Liftering in Speech Recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing, 35(7):94754, iulie 1987. [123] D. Jurafsky si J.H. Martin. Speech and Language Processing. Prentice Hall, 2000. [124] J.M. Kates. A Time-Domain Digital Cochlear Model. IEEE Transactions on Signal Processing, 39(12):257392, decembrie 1991. [125] S.M. Katz. Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recognizer. IEEE Transactions on Acoustics, Speech, and Signal Processing, 35(3):400401, martie 1987. [126] A. Kipp, M.B. Wesenick si F. Schiel. Automatic Detection and Segmentation of Pronunciation Variants in German Speech Corpora. In Proceedings International Conference on Spoken Language Processing, vol. 1, pag. 106109, Philadelphia, octombrie 1996. [127] J.W. Klovstad si L.F. Mondshein. The CASPERS Linguistic Analysis System. IEEE Transactions on Acoustics, Speech, and Signal Processing, 23(1):11823, februarie 1975. [128] A. Krogh. An introduction to hidden Markov models for biological sequences. In S. L. Salzberg, D.B. Searls si S. Kasif (editori), Computational Methods in Molecular Biology, cap. 4, pag. 4563. Elsevier, Amsterdam, 1998. [129] S. Kullback. Information Theory and Statistics. John Wiley & Sons, New York, 1959. [130] K. Kvale si A.K. Foldvik. The multifarious r-sound. In Proceedings International Conference on Spoken Language Processing, pag. 125962, 1992. [131] R. Lacouture si R. De Mori. Lexical Tree Compression. In Proceedings EUROSPEECH91, vol. 1, pag. 58184, 1991. [132] L.F. Lamel, R.H. Kassel si S. Sene. Speech Database Development: Design and Analysis of the Acoustic-Phonetic Corpus. In Proceedings DARPA Speech Recognition Workshop, 1986.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

BIBLIOGRAFIE

153

[133] T. Lander si S.T. Metzler. The CSLU Labeling Guide. Center for Spoken Language Understanding, Oregon Graduate Institute, februarie 1994. [134] J. Lazzaro s.a. Silicon Auditory Processors as Computer Peripherals. IEEE Transactions on Neural Networks, 4(3):52328, mai 1993. [135] K.F. Lee. Large-Vocabulary Speaker-Independent Continuous Speech Recognition: The SPHINX System. Tez a de doctorat, Carnegie Mellon University, aprilie 1988. [136] K.F. Lee si F. Alleva. Continuous Speech Recognition. In S. Furui si M.M. Sondhi (editori), Advances in Speech Signal Processing, cap. 20, pag. 62350. Marcel Dekker, New York, 1992. [137] K.F. Lee si H.W. Hon. Large-Vocabulary Speaker-Independent Continuous Speech Recognition Using HMM. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 12326, 1988. [138] F. Lef` evre. Estimation de probabilit e non-param etrique pour la reconnaissance markovienne de la parole. Tez a de doctorat, Universit e Pierre et Marie Curie, Paris, ianuarie 2000. [139] C.J. Leggeter si P.C. Woodland. Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Computer Speech and Language, 9(2):17185, aprilie 1995. [140] R.G. Leonard. A Database for Speaker-Independent Digit Recognition. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, pag. 42.11.14, 1984. [141] V.R. Lesser, R.D. Fennel, L.D. Erman si D.R. Reddy. Organization of the Hearsay II Speech Understanding System. IEEE Transactions on Acoustics, Speech, and Signal Processing, 23(1):1124, februarie 1975. [142] H.C. Leung si V. Zue. A Procedure for Automatic Alignment of Phonetic Transcriptions with Continuous Speech. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, pag. 2.7.14, 1984. [143] L.A. Liporace. Maximum Likelihood Estimation for Multivariate Observations of Markov Sources. IEEE Transactions on Information Theory, 28(5):72934, septembrie 1982. [144] A. Ljolje si M.D. Riley. Automatic Segmentation and Labeling of Speech. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 47376, 1991. [145] E.P. Loeb si R.F. Lyon. Experiments in Isolated Digit Recognition with a Cochlear Model. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, 1987.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

154 BIBLIOGRAFIE [146] B.T. Lowerre. The HARPY Speech Recognition System. Tez a de doctorat, Carnegie Mellon University, aprilie 1976. [147] P.A. Lynn si W. Fuerst. Digital Signal Processing with Computer Applications. John Wiley & Sons, New York, 1992. [148] R.F. Lyon. A Computational Model of Filtering, Detection, and Compression in the Cochlea. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, 1982. [149] R.F. Lyon. Speech Recognition Experiments with a Cochlear Model. In Proceedings DARPA Speech Recognition Workshop, Palo Alto, California, februarie 1986. [150] R.F. Lyon si C. Mead. An analog electronic cochlea. IEEE Transactions on Acoustics, Speech, and Signal Processing, 36(7):111934, iulie 1988. [151] J. Makhoul, S. Roucos si H. Gish. Vector Quantization in Speech Coding. Proceedings of the IEEE, 73(11):155188, noiembrie 1985. [152] C.D. Manning si H. Sch utze. Foundations of Statistical Natural Language Processing. MIT Press, 1999. [153] J.D. Markel si A.H. Gray. Linear Prediction of Speech. Springer, Berlin, 1976. [154] V. Mar ai si Gh. Mar ai. Comanda vocal a a sistemelor tehnice. Editura Militar a, Bucure sti, 1991. [155] G. Micca, A. Frasca si M.G. Di Benedetto. Cross-lingual Interpolation of Speech Recognition Models. In Proceedings of the Language Resources and Evaluation Conference, vol. 3, pag. 158992, 2000. [156] W. Minker, A. Waibel si J. Mariani. Stochastically-based semantic snalysis. Kluwer Academic Publishers, Boston/Dordrecht/Londra, 1999. [157] MIT. Speech spectrogram reading. Cursul 6.67s, iulie 1985. [158] D.C. Montgomery. Design and Analysis of Experiments. John Wiley & Sons, New York, a treia edit ie, 1991. [159] T.K. Moon. The Expectation-Maximization Algorithm. IEEE Signal Processing Magazine, 13(6):4760, noiembrie 1996. [160] B.C.J. Moore. An Introduction to the Psychology of Hearing. Academic Press, Londra, 1982. [161] N. Morgan si H. Bourlard. Neural Networks for Statistical Recognition of Continuous Speech. Proceedings of the IEEE, 83(5):74270, mai 1995. [162] N. Mukherjee, N. Rajput, L.V. Subramaniam si A. Verma. On Deriving a Phoneme Model for a New Language. In Proceedings International Conference on Spoken Language Processing, 2000.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

BIBLIOGRAFIE

155

[163] C. Munteanu si M. Boldea. A Description Language for Dialog Modeling and Management. In Proceedings Fourth International Conference on Technical Informatics CONTI2000, Timi soara, octombrie 2000. [164] C. Munteanu si M. Boldea. MDWOZ: A Wizard of Oz Environment for Dialog Systems Development. In Proceedings Second International Conference on Language Resources and Evaluation LREC2000, Atena, Grecia, mai 2000. [165] Y.K. Muthusamy, E. Barnard si R.A. Cole. Reviewing Automatic Language Identication. IEEE Signal Processing Magazine, (5):3341, octombrie 1994. [166] C. Myers si L.R. Rabiner. Connected Word Recognition Using a Level Building Dynamic Time Warping Algorithm. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 3, pag. 95155, 1981. [167] A. N adas. On Turings Formula for Word Probabilities. IEEE Transactions on Acoustics, Speech, and Signal Processing, 33(6):141416, decembrie 1985. [168] A.V. Nean. A Hidden Markov Model-Based Approach for Face Detection and Recognition. Tez a de doctorat, Georgia Institute of Technology, august 1999. [169] H. Ney. Modeling and Search in Continuous Speech Recognition. In Proceedings EUROSPEECH93, vol. 1, pag. 49198, Berlin, 1993. [170] H. Ney, U. Essen si R. Knesser. On structuring probabilistic dependencies in stochastic language modeling. Computer Speech and Language, 8(1), ianuarie 1994. [171] H. Ney, D. Mergel, A. Noll si A. Paeseler. Data Driven Search Organization for Continuous Speech Recognition. IEEE Transactions on Signal Processing, 40(2):272 81, februarie 1992. [172] E. Nicolau, I. Weber si S t. Gav at. Aparat pentru recunoa sterea automat a a vocalelor. Automatica si Electronica, (6), 1963. [173] E. Oancea. Analiza si sinteza vorbirii. Editura Militar a, Bucure sti, 1976. [174] A.V. Oppenheim si R.W. Schafer. Homomorphic Analysis of Speech. IEEE Transactions on Audio and Electroacoustics, 16(6):11823, iunie 1968. [175] A.V. Oppenheim si R.W. Schafer. Digital Signal Processing. Prentice-Hall International, Londra, 1975. [176] M. Ordowski, N. Deshmukh, A. Ganapathiraju, J. Hamaker si J. Picone. A Public Domain Speech-to-Text System. In Proceedings of EUROSPEECH99, vol. 5, pag. 212730, Budapesta, septembrie 1999. [177] OROS, Meylan, Frant a. Documentat ii ale pl acii OROS AU21, 1995. [178] S. Ortmans, H. Ney si A. Eiden. Language-Model Look-Ahead for Large Vocabulary Speech Recognition. In Proceedings International Conference on Spoken Language Processing, vol. 4, pag. 209598, 1996.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

156 BIBLIOGRAFIE [179] D. OShaughnessy. Speaker Recognition. IEEE Acoustics, Speech, and Signal Processing Magazine, (5):417, octombrie 1986. [180] D. OShaughnessy. Speech Communication: Human and Machine. Addison-Wesley, 1987. [181] D.S. Pallet. Benchmark Tests for DARPA Resource Management Database Performance Evaluations. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, pag. 53639, 1989. [182] D.S. Pallet, W.M. Fisher si J.G. Fiscus. Tools for the Analysis of Benchmark Speech Recognition Tests. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, pag. 97100, 1990. [183] D.B. Paul si J.M. Baker. The Design for the Wall Street Journal-based CSR Corpus. In Proceedings of the DARPA Workshop on Speech and Natural Language, pag. 35762, Harriman, New York, februarie 1992. [184] W.H. Perkins si R.D. Kent. Textbook of Functional Anatomy of Speech, Language, and Hearing. Taylor & Francis, Londra, Philadelphia, 1986. [185] M. Pescaru. Prelucr ari de texte pentru sinteza automat a a vorbirii n limba rom an a. Dizertat ie de studii aprofundate, Departamentul de Calculatoare, Universitatea Politehnica din Timi soara, iulie 1996. [186] J.M. Pickett. The Sounds of Speech Communication. University Park Press, Baltimore, 1980. [187] J. Picone, G.R. Doddington si D.S. Pallett. Phone-Mediated Word Alignment for Speech Recognition Evaluation. IEEE Transactions on Acoustics, Speech, and Signal Processing, 38(3):55962, martie 1990. [188] J. Picone, K.M. Goudie-Marshall, G.R. Doddington si W. Fisher. Automatic Text Alignment for Speech System Evaluation. IEEE Transactions on Acoustics, Speech, and Signal Processing, ASSP-34(4):78084, august 1986. [189] L.C.W. Pols. Real-Time Recognition of Spoken Words. IEEE Transactions on Computers, 20(9):97278, septembrie 1971. [190] H. P arlog. The Sound of Sounds. Hestia Publishing House, Timi soara, 1995. [191] W.H. Press, S.A. Teukolsky, W.T. Vetterling si B.P. Flannery. Numerical Recipes in C. Cambridge University Press, a doua edit ie, 1992. [192] P. Price, W.M. Fisher, J. Bernstein si D.S. Pallett. The DARPA 1000-Word Resource Management Database for Continuous Speech Recognition. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 65154, 1988. [193] S. Pu scariu. Limba rom an a: Rostirea. Editura Academiei, Bucure sti, 1959.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

BIBLIOGRAFIE

157

[194] L. Rabiner si B.H. Juang. Fundamentals of Speech Recognition. Prentice Hall, 1993. [195] L.R. Rabiner. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proceedings of the IEEE, 77(2):25786, februarie 1989. [196] L.R. Rabiner. Applications of Voice Processing to Telecommunications. Proceedings of the IEEE, 82(2):199228, februarie 1994. [197] L.R. Rabiner, B.H. Juang, S.E. Levinson si M.M. Sondhi. Recognition of Isolated Digits Using Hidden Markov Models with Continuous Mixture Densities. AT&T Technical Journal, 64(6):121134, iulie-august 1985. [198] L.R. Rabiner si S.E. Levinson. A Speaker-Independent, Syntax-Directed, Connected Word Recognition System Based on Hidden Markov Models and Level Building. IEEE Transactions on Acoustics, Speech, and Signal Processing, 33(3):56173, iunie 1985. [199] L.R. Rabiner, S.E. Levinson si M.M. Sondhi. On the Application of Vector Quantization and Hidden Markov Models to Speaker-Independent, Isolated Word Recognition . The Bell System Technical Journal, 62(4):10751105, aprilie 1983. [200] L.R. Rabiner si R.W. Schafer. Digital Processing of Speech Signals. Prentice-Hall, 1978. [201] L.R. Rabiner, J.G. Wilpon si F.K. Soong. High Performance Connected Digit Recognition Using Hidden Markov Models. IEEE Transactions on Acoustics, Speech, and Signal Processing, 37(8):121425, august 1989. [202] R.W. Ramirez. The FFT: Fundamentals and Concepts. Tektronix, Inc., Beaverton, Oregon, 1975. [203] P. Roach, S. Arneld, W. Barry, J. Baltova, M. Boldea, A. Fourcin, W. Gonet, R. Gubrynowicz, E. Hallum, L. Lamel, K. Marasek, A. Marchal, E. Meister si K. Vicsi. BABEL: An Eastern European Multi-Language Database. In Proceedings International Conference on Spoken Language Processing, Philadelphia, 1996. [204] P.J. Roach, S. Arneld, W. Barry, S. Dimitrova, M. Boldea, A. Fourcin, W. Gonet, R. Gubrynowicz, E. Hallum, L. Lamel, K. Marasek, A. Marchal, E. Meister si K. Vicsi. BABEL: A Database of Central and Eastern European Languages. In Proceedings First International Conference on Language Resources and Evaluation LREC, vol. 1, pag. 37174, Granada, Spania, mai 1998. [205] A.J. Robinson. An Application of Recurrent Nets to Phone Probability Estimation. IEEE Transactions on Neural Networks, 5(2):298305, martie 1994. [206] A. Roceric-Alexandrescu. Fonostatistica limbii rom ane. Editura Academiei, Bucure sti, 1968.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

158 BIBLIOGRAFIE [207] A.E. Rosenberg, L.R. Rabiner, J.G. Wilpon si D. Kahn. Demisyllable-Based Isolated Word Recognition System. IEEE Transactions on Acoustics, Speech, and Signal Processing, ASSP-31(3):71326, iunie 1983. [208] M. Rossi. Electroacoustique . Presses polytechniques romandes, Lausanne, 1986. [209] S. Roucos si M.O. Dunham. A Stochastic Segment Model for Phoneme-Based Continuous Speech Recognition. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, 1987. [210] S. Russel si P. Norvig. Articial Intelligence: A Modern Approach. Prentice Hall, 1995. [211] I.Gh. S abac. Matematici speciale, vol. 2. Editura Didactic a si Pedagogic a, Bucure sti, 1965. [212] H. Sakoe. Two-Level DP-Matching A Dynamic Programming-Based Pattern Matching Algorithm for Connected Word Recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing, 27(6):58895, decembrie 1979. [213] R.W. Schafer si L.R. Rabiner. Digital Representations of Speech Signals. Proceedings of the IEEE, 63(4):66277, 1975. [214] M.S. Schmidt si G.S. Watson. The Evaluation and Optimization of Automatic Speech Segmentation. In Proceedings EUROSPEECH91, vol. 2, pag. 701704, Genova, Italia, 1991. [215] T. Schultz si A. Waibel. Language Independent and Language Adaptive Large Vocabulary Speech Recognition. In Proceedings International Conference on Spoken Language Processing, 1998. [216] R. Schwartz si S. Austin. A Comparison of Several Approximate Algorithms for Finding Multiple (N-BEST) Sentence Hypotheses. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 701704, 1991. [217] R. Schwartz si Y.L. Chou. The N-Best Algorithm: An Ecient and Exact Procedure for Finding the N Most Likely Sentence Hypotheses. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 8184, 1990. [218] R. Schwartz si Y. Chow. Improved Hidden Markov Modeling of Phonemes for Continuous Speech Recognition. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, 1984. [219] R. Schwartz, Y.L. Chow si F. Kubala. Rapid Speaker Adaptation using a Probabilistic Spectral Mapping. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 63336, 1987. [220] S. Sene. A joint synchrony/mean-rate model of auditory speech processing. Journal of Phonetics, 16:5576, 1988.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

BIBLIOGRAFIE

159

[221] C. Shannon. A mathematical theory of communication. The Bell System Technical Journal, 27:379423, 62356, iulie, septembrie 1948. [222] H. Sheikhzadeh si L. Deng. Speech Analysis and Recognition Using Interval Statistics Generated from a Composite Auditory Model. IEEE Transactions on Speech and Audio Processing, 6(1):9094, ianuarie 1998. [223] K. Shikano. Evaluation of LPC Spectral Matching Measures for Phonetic Unit Recognition. Raport tehnic CMU-CS-86-108, Carnegie Mellon University, februarie 1986. [224] K. Shikano si F. Itakura. Spectrum Distance Measures for Speech Recognition. In S. Furui si M.M. Sondhi (editori), Advances in Speech Signal Processing, cap. 14, pag. 41952. Marcel Dekker, New York, 1992. [225] K. Sj olander si J. Beskow. WaveSurfer an Open Source Speech Tool. In Proceedings International Conference on Spoken Language Processing, Beijing, China, 2000. [226] F.K. Soong si E.F. Huang. A Tree-Trellis Based Fast Search for Finding the N Best Sentence Hypotheses in Continuous Speech Recognition. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 705708, 1991. [227] A.S. Spanias. Speech Coding: A Tutorial Review. Proceedings of the IEEE, 82(10):154182, octombrie 1994. [228] D. Stanomir. Electroacustic a. Editura Didactic a si Pedagogic a, Bucure sti, 1968. [229] H.J.M. Steeneken si J.G. van Velden. Objective and Diagnostic Assessment of (Isolated) Word Recognizers. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, pag. 54043, 1989. [230] H.J.M. Steeneken si J.G. van Velden. Recognizer assessment by means of CVCwords as available in the EUROM-1 data-base. Raport tehnic, TNO Institute for Perception, Soesterbergh, Olanda, 1991. [231] V. Steinbiss. Improvements in Beam Search. In Proceedings International Conference on Spoken Language Processing, vol. 4, pag. 214346, 1994. [232] G. Stolojanu, V. Podaru si F. Cetin a. Prelucrarea numeric a a semnalului vocal. Editura Militar a, Bucure sti, 1984. [233] R.D. Stuart. Introducere n analiza Fourier cu aplicat ii n tehnic a. Editura Tehnic a, Bucure sti, 1971. [234] A. T ataru. Limba rom an a: Specicul pronunt a rii n contrast cu germana si engleza. Editura Dacia, Cluj-Napoca, 1997.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

160 BIBLIOGRAFIE [235] H.N. Theodorescu, L. Buchholtzer si C. Po sa. Comunicarea oral a om-ma sin a. Editura Tehnic a, Bucure sti, 1986. [236] G. Toderean, M. Costeiu si M. Giurgiu. Ret ele neuronale articiale. Editura Albastr a, Cluj-Napoca, 1995. [237] Y. Tohkura. A Weighted Cepstral Distance Measure for Speech Recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing, 35(10):141422, octombrie 1987. [238] L. Toma si T. Jurca. Isolated word recognition system. Buletinul stiint ic si tehnic al Institutului Politehnic Traian Vuia Timi soara, 1990. [239] H. Traunm uller. Auditory scales of frequency representation. Pagin a WWW, http://www.ling.su.se/sta/hartmut/bark.htm, august 1997. [240] S. Umesh, L. Cohen si D. Nelson. Fitting the Mel Scale. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, 1999. [241] V. Valtchev, J.J. Odell, P.C. Woodland si S.J. Young. A Dynamic Network Decoder Design for Large Vocabulary Speech Recognition. In Proceedings International Conference on Spoken Language Processing, vol. 2, pag. 135154, 1994. [242] J.P.H. van Santen, R.W. Sproat, J.P. Olive si J. Hirschberg (editori). Progress in Speech Synthesis. Springer, New York, 1997. [243] R. Vancea, S t. Holban si D. Ciubotariu. Recunoa sterea formelor Aplicat ii. Editura Academiei, Bucure sti, 1989. [244] E. Vasiliu. Fonologia limbii rom ane. Editura S tiint ic a, Bucure sti, 1965. [245] T.K. Vintsiuk. Two Approaches to Create a Dictation/Translation Ma chine. In Proceedings Second International Workshop Speech and Computer SPECOM97, pag. 17, Cluj-Napoca, octombrie 1997. [246] T.K. Vintsyuk. Speech Discrimination by Dynamic Programming. Kibernetika, 4(1):8188, 1968. [247] A.J. Viterbi. Error Bounds for Convolutional Codes and an Asymptotically Optimum Decoding Algorithm. IEEE Transactions on Information Theory, 13(2):260 69, aprilie 1967. [248] Z. V alsan, I. Gav at, B. S abac s.a. Statistical and Hybrid Methods for Speech Recognition in Romanian. International Journal of Speech Technology, 5:25968, septembrie 2002. [249] R.A. Wagner si M.J. Fischer. The String-to-String Correction Problem. Journal of the ACM, 21(1):168173, ianuarie 1974.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

BIBLIOGRAFIE

161

[250] L. Watts, D.A. Kerns, R.F. Lyon si C.A. Mead. Improved Implementation of the Silicon Cochlea. IEEE Journal of Solid-State Circuits, 27(5):692700, mai 1992. [251] J.C. Wells. Computer-coding the IPA: a proposed extension of SAMPA. Department of Phonetics and Linguistics, University College, Londra, 1995. [252] M.B. Wesenick si A. Kipp. Estimating the Quality of Phonetic Transcriptions and Segmentations of Speech Signals. In Proceedings International Conference on Spoken Language Processing, vol. 1, pag. 12932, Philadelphia, 1996. [253] B. Wheatley, K. Kondo, W. Anderson si Y. Muthusamy. An Evaluation of CrossLanguage Adaptation for Rapid HMM Development in a New Language. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 23740, 1994. [254] C.W. Wightman si D.T. Talkin. The Aligner: Text-to-Speech Alignment Using Markov Models. In J.P.H. Van Santen, R.W. Sproat, J.P. Olive si J. Hirschberg (editori), Progress in Speech Synthesis, cap. 25, pag. 31323. Springer, New York, 1997. [255] J.G. Wilpon, B.H. Juang si L.R. Rabiner. An Investigation on the Use of Acoustic Sub-Word Units for Automatic Speech Recognition. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pag. 82124, 1987. [256] I.H. Witten si T.C. Bell. The Zero-Frequency Problem: Estimating the Probabilities of Novel Events in Adaptive Text Compression. IEEE Transactions on Information Theory, 37(4):108594, iulie 1991. [257] W.A. Woods. Motivation and Overview of SPEECHLIS: An Experimental Prototype for Speech Understanding Research. IEEE Transactions on Acoustics, Speech, and Signal Processing, 23(1):210, februarie 1975. [258] S.J. Young. The HTK Hidden Markov Model Toolkit: Design and Philosophy. Raport tehnic TR-152, Cambridge University Engineering Department, 1994. [259] S.J. Young si L.L. Chase. Speech recognition evaluation: a review of the U.S. CSR and LVCSR programmes. Computer Speech and Language, 12(4):26379, octombrie 1998. [260] S.J. Young, D. Kershaw, J. Odell, D. Ollason, V. Valtchev si P. Woodland. The HTK Book Version 3.0. Cambridge University, 2000. [261] S.J. Young, N.H. Russel si J.H.S. Thornton. Token Passing: a Conceptual Model for Connected Speech Recognition Systems. Raport tehnic TR-38, Cambridge University Engineering Department, 1989. [262] J. Zeiliger si J.F. Serignat. Europec software v4.1 users guide. Raport SAM-ICP045, Institute de la Comunication Parl e, Grenoble, Frant a, 1991.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

162 BIBLIOGRAFIE [263] Y. Zhang, R. Togneri si M. Adler. Phoneme-Based Vector Quantization in a Discrete HMM Speech Recognizer. IEEE Transactions on Speech and Audio Processing, 5(1):2632, ianuarie 1997. [264] Q. Zhou si W. Chou. An Approach to Continuous Speech Recognition Based on Layered Self-Adjusting Decoding Graph. In Proceedings International Conference on Acoustics, Speech, and Signal Processing, pag. 177982, 1997. [265] V.W. Zue. The Use of Speech Knowledge in Automatic Speech Recognition. Proceedings of the IEEE, 73(11):160215, noiembrie 1985. [266] V.W. Zue si S. Sene. Transcription and Alignment of the TIMIT Database. In Proceedings Second Symposium on Advanced Man-Machine Interface Through Spoken Language, Oahu, Hawaii, noiembrie 1988.

Contribut ii la recunoa sterea automat a a vorbirii continue n limba rom an a

c Marian Boldea, Timi soara, 2003

S-ar putea să vă placă și