Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
REFERAT II
PLATFORME PENTRU
ANALIZA I GENERAREA SEMNALULUI VOCAL
Coordonator tiinific: Prof. Dr. Ioan Dan TUFI Membru Corespondent al Academiei Romane Doctorand: Tiberiu BORO
Cuprins
1. Introducere .................................................................................................................. 3 1.1. 1.2. 2. Vorbirea uman .................................................................................................... 3 Sisteme TTS ......................................................................................................... 6
Arhitectura sistemelor TTS ......................................................................................... 8 2.1. Prelucrarea limbajului natural .............................................................................. 8 Normalizarea textelor ................................................................................... 8 Analiza morfologic ................................................................................... 10 Transcrierea fonetic .................................................................................. 13 Sinteza prozodic ........................................................................................ 14 Sinteza concatenativ ................................................................................. 15 Algoritmi de modificare prozodic a segmentelor acustice ....................... 16 Metode de evaluare a sistemelor TTS ........................................................ 19
Aplicaii de sintez a vorbirii .................................................................................... 22 3.1. 3.2. 3.3. Aplicaii comerciale ........................................................................................... 22 Aplicaii gratuite ................................................................................................ 22 Evaluarea sistemelor .......................................................................................... 22
4. 5.
1. Introducere
n prezenta lucrare, evideniez o serie de aspecte legate de sinteza vorbirii pornind de la text, incluznd elemente de prelucrare a limbajului natural, prelucrare digital a semnalelor i metode de evaluare a sistemelor TTS (text-to speech). Primul capitol este unul introductiv, n care prezint elemente teoretice legate de modul de producere a vorbirii umane i de caracteristicile acustice ale diferitelor sunete din limba romn.
iii. Vocale nchise: i, (), u b. n funcie de localizarea lor, deci de locul de articulare (punctul din cavitatea bucal n care se creeaz spaiul optim de rezonan, realizat prin diferitele poziii pe care le ia muchiul lingual): i. Vocale anterioare: e, i ii. Vocale centrale (neutre): a, , () iii. Vocale posterioare (postpalatale): o, u c. Dup modul n care sunt nsoite sau nu de rotunjirea buzelor: i. Vocale labializate (rotunjite): o, u ii. Vocale nelabializate: a, e, i, , ()
Vocale
Deschidere
Anterioare nchise i y
Anterioritate
Semianterioare Centrale Semiposterioare Posterioare u
Cvasinchise
Seminchise
Mijlocii
Semideschise
Cvasideschise
Deschise
2. Consoanele: De asemenea i consoanele sunt mprie n consoane sonante i nesonante. a. Clasificarea consoanelor nesonante: i. Dup modul de articulare: 1. Consoane oclusive (explozive, sau plozive): p, b, t, d, c, g, ch, gh (produse prin nchiderea complet a canalului fonator i apoi deschiderea sa brusc); 2. Consoane fricative (constrictive): f, v, s, z, , j, h (sunt consoane produse printr-o ngustare a canalului fonator); 3. Consoane semioclusive (africate): , c(e/i), g(e/i) (sunt consoane ce au un nceput oclusiv, dar un final fricativ).
ii. Dup locul de articulare (locul din cavitatea bucal unde se creeaz obstacolul): 1. Consoane bilabiale: p, b; 2. Consoane labio-dentale: f, v; 3. Consoane dentale (alveorare): t, d, s, z, ; 4. Consoane prepalatale (anteropalatale): , j, c(e/i), g(e/i); 5. Consoane palatale: ch, gh; 6. Consoane velare (postpalatale): c, g; 7. Consoane laringale (glotale): h; iii. Dup sonoritate (pronunia unei consoane este nsoit sau nu de vibraia coardelor vocale): 1. Consoane sonore: b, d, g, gh, v, z, j, g(e/i); 2. Consoane nesonore (surde): p, t, c, ch, f, s, , h, c(e/i), ; b. Clasificarea consoanelor sonante: aceast clas de consoane reprezint o categorie distinct care are caracteristici comune att cu vocalele ct i cu consoanele. Astfel, la articularea lor predomin tonurile muzicale, zgomotele specifice consoanelor fiind mai slab. Ca i consoanele nesonante, ele nu primesc accent n silab. i. n funcie de modul de articulare: 1. Sonante oclusive: m, n; 2. Sonante lichide: l; 3. Sonante vibrante: r. ii. n funcie de locul de articulare 1. Sonante bilabiale: m; 2. Sonante dentale: n, r; 3. Sonante laterale: l. iii. n funcie de timbru: 1. Sonante nazale: m, n; 2. Sonante orale: l, r.
Locul de articulare
Bilabiale
Labiodentale
Dentale
Prepalatale
Palatale
Velare
Laringiale
Sonore
Sonore
Sonore
Sonore
Sonore
Sonore
t f v s
d ce/ci ge/gi z n l r j
ch
gh
Sonore
Surde
Surde
Surde
Surde
Surde
Surde
Surde
Sinteza concatenativ i sinteza parametric statistic intr n categoria sintetizatoarelor bazate pe corpus. Sinteza concatenativ folosete segmente acustice extrase din vorbirea natural pe care le concateneaz pentru a obine vocea sintetizat. Inventarul i tipul unitilor folosite n sinteza concatenativ nflueneaz domeniul n care sistemele TTS pot fi aplicate. Din punct de vedere al adaptrii la un anumit domeniu, sinteza concatenativ poate fi clasificat n specializat sau general. Din punct de vedere al interveniei asupra intervalului acustic sinteza concatenativ poate fi clasificat n sintez care modific segmentele acustice i n sintez concatenativ care nu modific modific segmentele acustice. n continuare sunt prezentate avantajele i dezavantajele acestor tipuri de sintez concatenativ (Huang et al., 2001): 1. Sinteza concatenativ specializat pe un anumit domeniu se aplic pentru un inventar limitat de propoziii ce urmeaz a fi sintetizate. Aceast abordare are rezultate bune din punct de vedere al inteligibiliii i naturaleii vocii, ns numrul mic de segmente acustice prenregistrate face ca acest tip de sintez s nu poat fi utilizat pentru un sistem generic. Acest tip de sistem TTS concatenativ este cel folosit n majoritatea sistemelor de navigaie GPS. 2. Sinteza concatenativ fr modificarea segmentelor acustice este util n cazul n care este vorba de un sistem TTS specializat pe un anumit domeniu deoarece se poate stabili apriori prozodia necesar pentru diferitele segmentele acustice i acestea pot fi nregistrate ca atare. Dac se ncearc folosirea acestei metode ntr-un sistem TTS generic, rezultatele obinute sunt foarte slabe deoarece elementele prozodice sunt responsabile att pentru naturaleea i inteligibilitatea vocii ct i pentru transmiterea corect a mesajului. 3. Sinteza concatenativ cu modificarea segmentelor acustice permite o flexibilitate crescut din perspectiva alegerii candidailor pentru concatenare, datorit faptului c elementele de prozodie pot fi modelate prin modificarea segmentelor acustice prenregistrate. Sinteza parametric statistic folosete un corpus prenregistrat din care extrage un set de parametrii grupai dup context i caracteristici prozodice. Cel mai cunoscut sistem care folosete Modele Markov Ascunse pentru modelarea parametrilor este HMM-based Speech Synthesis System sau H Triple S (HTS) (Zen et al., 2007). Avantajul major al folosirii acestei metode este dat de faptul c se pot ncerca mai multe contururi pentru F0 fr a afecta naturaleea vocii obinute.
Preprocesare
Analizor morfologic
Analizor contextual
Analizor prozodic
Transcriere fonetic
DSP
Figura 2.1 - Modul NLP (adaptat dup A Short Introduction to Text-to-Speech Synthesis)
De regul, textul care trebuie sintetizat este iniial supus unei preprocesri, care elimin simboluri incompatibile cu sistemul TTS (caractere care nu pot fi transformate n voce, de exemplu: (, ), `, [) etc., transform secvenele de numere n cuvinte, (de exemplu 1002 o mie doi), trateaz formule matematice, etc. (Ordean, 2009; Dutoit, 1999) (acest proces va fi detaliat n capitolul 2.1.1). Transcrierea fonetic este un pas important n orice sistem TTS, dar acest lucru nu poate fi realizat fr o adnotare morfologic a cuvintelor (pentru rezolvarea problemei cuvintelor omografe), lucru realizat automat cu ajutorul unui POS tagger (detaliat n capitolul 2.1.3). Percepia sunetelor din punct de vedere fizic este influenat de trei factori importani: volumul care este o msur a intensitii sunetului, frecvenei componentei fundamentale a sunetului cunoscut sub numele de nlime a vocii i timbrul care reprezint coninutul armonic al semnalului. Astfel, impunerea elementelor de prozodie se refer la modificarea frecvenei fundamentale, a energiei semnalului i a duratei de pronunie (detaliat n capitolul 2.1.4).
acronime nu sunt urmate de punct n special dac ele sunt scrise cu majuscule. Un astfel de exemplu este regsit n fragmentul [...]vor contura imaginea LRC ca entitate supraindividual[...], n care grupul de litere LRC este un acronim pentru limba romn contemporan i rezolvarea este dat de transcrierea fonetic corespunztoare (lerece) sau expansiunea sa n cuvintele componente. Alte modaliti de a detecta acronime sunt: i. Considerarea cuvintelor din afara vocabularului ca i candidate ale acestei categorii poate reprezenta o metod, ns acest lucru nu este determinist; ii. Scrierea cu majuscule a literelor unui cuvnt face din acest cuvnt un candidat bun chiar i n absena caracterului .. ns un cuvnt scris cu majuscule nu este n mod obligatoriu un acronim chiar dac acesta este n afara vocabularului. De exemplu, n anumite formulare este obligatorie scrierea numelor proprii cu majuscule acestea fiind n general cuvinte din afara vocabularului; iii. Cuvintele formate doar din consoane sunt atipice n multe limbi, motiv pentru care exist anse destul de mari ca aceste cuvinte s fie acronime. n cazul abrevierilor: iv. Grupurile de litere aflate la finalul unor valori numerice pot reprezenta uniti de msur (de exemplu 13cm, unde cmcentimetri). v. Exist i acronime care nu sunt formate din caractere de la a la z cum este situaia 15 , n care caracterul este un simbol pentru inci. Chiar i dup identificarea unei abrevieri sau acronim, rmne problema expansiunii. O variant este citirea pe litere a cuvntului aa cum este cazul LRClerece dar acest lucru nu este ntotdeanuna satisfctor mai ales c anumite abrevieri cer neaprat extinderea lor. n situaia []dl. George[] , un utilizator nu va fi mulumit s aud citirea dele George, sistemul fiind nevoit s ia decizia de a extinde abrevierea dl. domnul. O soluie n acest sens este utilizarea unei liste de abrevieri i acronime, dar i aici putem avea de-a face cu ambiguiti. Un exemplu este grupul de litere AG care poate s fie att o abreviere pentru cuvntul argint ct i pentru cuvntul Arge. b. Tratarea numerelor este o alt problem a sistemelor TTS. Exist situaii n care numerele au o semnificaie cantitativ, moment n care normalizarea lor se face respectnd un anumit set de reguli sau cazuri n care ele reprezint un identificator (numr de telefon, cod, adres potal etc.) caz n care normalizarea acestora trebuie s respecte alt set de reguli. i. n situaia Sondajul s-a desfurat pe un numr de 1247 de persoane, grupul de cifre 1247 exprim o valoare cantitativ i normalizarea sau extinderea se face prin grupul de cuvinte o mie dousute patruzeci i apte. ii. Pe de alt parte n cazurile interior 1217 sau cod de acces 2233, grupul de cifire reprezint un numr de telefon, respectiv un cod. n 9
aceast situaie este de preferat normalizarea 1217 unu doi unu apte, 2233 doi doi trei trei. Ambiguiti pot s apar att la identificare (de exemplu numerele separate de ., - sau de / pot forma o dat calendaristic, acest lucru fiind discutat n continuare la punctul c) dar i la diferenierea ntre situaiile expuse la punctele i i ii. c. Tratarea expresiilor de timp este o problem puin mai simpl acestea aprnd n general, sub formate bine determinate. O neclaritate intervine n cazul scrierii restrnse, n care 11 poate reprezenta att anul 2011 ct i 1911, aceast informaie fiind direct dependent de context. Odat identificate aceste expresii, regulile de normalizare sunt simple i bine determinate: 01.01.2012nti ianuarie dou mii doisprezece, 11:45 unsprezece patruzeci i cinci sau pentru o naturalee mai mare doisprezece fr un sfert. d. La cele prezentate se adaug tratarea expresiilor matematice, a valorilor monetare, a formulelor chimice etc. O parte din cazurile neclare cu care se confrunt un sistem TTS pot fi rezolvate cu ajutorul tehnicilor de prelucrare a limbajului natural (capitolul 2.1.2).
o Este precedat de o abreviere cunoscut i nu este urmat de un cuvnt scris cu liter mare; o Se descalific un ? dac este urmat de un cuvnt cu liter mic; Se pot luat n considerare i ali separatori de propoziie.
Practic, prile de vorbire sunt cuvinte care au acelai comportament sinctactic. Cele mai importante pri de vorbire sunt substantivul, pronumele, verbul i adjectivul. Cel mai bun test pentru a verifica dac un cuvnt aparine de aceeai clas cu alte cuvinte este testul de nlocuire: Biatul cel {cuminte, blond} este n cas. Pentru stabilirea automat a prii de vorbire se aplic POS Tagging-ul care are ca rezultat asocierea unui descriptor morfosintactic (MSD) fiecrui cuvnt. Acesta este un ir de caractere n care fiecare poziie corespunde unui atribut iar caracterul de pe poziia respectiv indic valoarea atributului: 1. Primul caracter indic partea de vorbire; 2. Urmtoarele n caractere codeaz valoarea fiecrui atribut (persoan, numr, gen etc.); 3. Dac un atribut nu se aplic n cazul respectiv, atunci se folosete caracterul -. Pentru codarea lexiconului romnesc este necesar un numr de 614 etichete MSD (Tufi et al., 2007). Cuvintele sunt mprite n dou mari categorii: categorii deschise (la care se pot aduga mereu cuvinte noi) din care fac parte substantivele, adjectivele i verbele; categoriile funcionale sau nchise. n continuare vom prezenta un model statistic de POS Tagging. n acest model privim secvena de tag-uri din text ca pe un lan Markovian. El are urmtoarele dou proprieti: Orizont limitat: Invariana n timp: ( | ) ( | ) Asta nseamn ca tagul unui cuvnt depinde doar de tagul anterior (orizont limitat) i dependena nu se schimb n timp (invariana n timp). Cu alte cuvinte, dac probabilitatea 11
apariiei unui verb dup un pronume, la nceputul propoziiei este de 0.2%, atunci acest lucru nu se schimb n timp, indiferent de tag-urile pe care le asociem. Notaii: = cuvntul de la poziia i. = tag-ul de la poziia i = cuvintele care apar de la poziia i pn la poziia i+m = tagurile care apar de la poziia i pn la poziia i+m = cuvntul din lexicon de pe poziia l = tag-ul din tagset de pe poziia j = numrul de apariii pentru cuvntul respectiv n corpusul de antrenare = numrul de apariii pentru tag-ul respectiv n corpusul de antrenare = numrul de apariii pentru primul tag, urmat de al doilea tag = numrul de apariii pentru tag-ul respectiv n corpusul de antrenare = numrul de tag-uri din corpus T = numrul de cuvinte din lexicon W = lungimea propoziiei n este estimat din frecvenele relative ale diferitelor tag-uri care urmeaz altor taguri(ecuaia 2.1) ( | )
(2.1)
Cu aceste estimri, putem calcula probabilitile unei secvene particulare de taguri. n practic problema este gsirea celei mai probabile secven de taguri pentru o secven observabil de cuvinte. Putem calcula probabilitatea de emisie a unui cuvnt de ctre o stare anume a sistemului, prin folosirea estimrii Maximum Likelihood: ( | )
(2.2)
Acum, singura problem este gsirea secvenei optime , aplicnd regula lui Bayes: |
(2.3)
Pe lng proprietatea orizontului limitat, se mai fac nc dou presupuneri despre cuvinte: - Cuvintele sunt independente unul fa de cellalt; - Identitatea unui cuvnt depinde doar de tagul su. | ) ( ) [ Deci formula final este: 12 ( ( ] ) ( ) ( ) ( ) )
(2.4)
Algoritmul de antrenare pentru un sistem Markov vizibil, dat fiind un corpus adnotat este (Manning i Schutze, 1999):
for all tags do for all tags ( | ) end end for all tags do for all words ( end end | ) do
do
Un algoritm bun pentru gsirea secvenei optime de tag-uri pentru o propoziie de lungime n este agloritmul Viterbi. Este un agloritm inductiv, n care la fiecare pas, se pstreaz cea mai bun soluie de pn n momentul respectiv. Pseudocodul este dat n continuare:
for t PUNCT for i:=1 to n step 1 do for all tags do [ [ end end for j:=n to 1 step end P( -1 do
| |
] |
reprezint de fapt transcrierea fonetic a cuvntului format din concatenarea sirului de caractere observabil. Rezultatele obinute pentru limba englez sunt destul de slabe, accurateea la nivel de cuvnt fiind de aproximativ 40% (Taylor, 2005). O alt abordare posibil este utilizarea arborilor de decizie, aceast metod avnd performane mai bune n ceea ce privete acurateea, care este de aproximativ 60% pentru limba englez (Pagel et al. 1998). Pentru limba romn au exista mai multe abordri n rezolvarea problemei L2P, folosindu-se reele neurale (Burileanu et al., 1999b; Josef et al., 2009) sau metode bazate pe reguli (Toma et al., 2009; Ungureanu et al., 2011)
indic plictiseal, o stare de nervozitate reprimat sau depresie; vorbirea rapid transmite entuziasm etc. n urma analizei macroprozodice, innd cont de tipul propoziiilor (declarative, imperative etc.), se stabilete conturul frecvenei fundamentale. Acest informaie este combinat cu cea obinut n analiza microprozodic pentru fiecare fonem n parte. b. Pauzele joac un rol important n transmiterea corect a coninutului unui mesaj. n general, cuvintele se pronun legat unul de altul, ele fiind separate de pauze numai dac cerinele legate de limbaj impun acest lucru. Scopul principal al modulului prozodic este de a stabili locul n care trebuie s apar pauzele, durata lor fiind pe loc secundar. Sistemul nu trebuie s introduc pauze acolo unde nu este cazul, deorece poate genera ambiguiti. Un exemplu de folosire incorect a pauzelor n vorbire este dat de mesajul transmis de urmtoarele dou propoziii: i. Nu e aici cu nelesul c un obiect sau o persoan nu se afl n locul respectiv. ii. Nu, e aici cu nelesul ca o persoan sau obiect se afl n acel loc. Semnele de punctuaie ofer un indiciu bun pentru separarea frazelor prozodice i introducerea de pauze n vorbire. Cu toate acestea n anumite situaii este necesar o analiz semantic foarte bun pentru a detecta graniele dintre frazele prozodice nemarcate cu semne de punctuaie. c. Durata fonemelor este de cele mai multe ori legat de conturul lui F0, avnd n comun multe atribute care le determin pe amndou, dar din motive pragmatice cele dou probleme sunt tratate separat (Wang, 1999). Dei o analiz semantic este de preferat n cazul determinrii duratei fonemelor, studiile au artat c, cel puin pentru anumite limbi, o analiz limitat de context este suficient n majoritatea situaiilor pentru a obine rezultate acceptabile (Plumpe i Meredith, 1999). Astfel, se folosete o fereastr limitat de context, centrat pe fonem, a crei durat trebuie stabilit i se ine cont de urmtoarele atribute: identitatea fonemului, prezena accentului lexical, fonemul din stnga i fonemul din dreapta. d. Accentuarea cuvintelor n fraz este un fenomen legat de procesul de transmitere corect a mesajului. Unele sisteme utilizeaz pentru determinarea cuvintelor accentuate un model format din tipul propoziiei, partea de vorbire a cuvntului i un istoric contextual de cuvinte care au fost accentuate nainte. Un sistem complet de sintez prozodic pentru limba romn, folosete metode bazate pe reguli pentru preprocesarea textelor, silabificare i modelarea conturului F0 , metode statistice pentru poziionarea accentului i utilizeaz reele neurale pentru transcrierea fonetic (Burileanu i Negrescu, 2006).
prin redarea unor segmente acustice, care sunt selectate din corpus dup criterii legate de context i prozodie. Exist o serie de elemente care trebuie luate n calcul n momentul n care se construiete un sistem TTS bazat pe concatenare (Huang et al., 2001): a. Tipul de uniti acustice ce urmeaz a fi folosit. Astfel, se pot utiliza foneme, difoneme (uniti acustice fomate din perechi de foneme alturate), trifoneme (trei foneme alturate), silabe, cuvinte sau propoziii. b. Modul n care urmeaz s se realizeze inventarul acustic n funcie de un set de propoziii deja existent (nu n toate situaiile se pot obine suficiente uniti acustice); sau n cazul n care se fac nregistrri noi, trebuie stabilit ce anume se va nregistra. c. Cum se va alege cea mai bun secven de uniti acustice pentru a se potrivi att cu textul ct i cu prozodia acestuia. d. Cum se va modifica prozodia segmentelor alese pentru a obine rezultatul dorit. Considernd c inventarul fonetic al unei limbi are dimensiunea N, numrul de difoneme necesar pentru a sintetiza orice cuvnt din limba int este teoretic N2, iar n cazul trifonemelor N3. Cu toate acestea numrul de astfel de uniti este mult mai mic, deoarce nu toate combinaiile sunt posibile. De exemplu pentru limba romn se poate utiliza un inventar redus de 630 de difoneme (Burileanu i Negrescu, 2006). n momentul concatenrii pot aprea anumite discontinuiti la nivel spectral sau prozodic care nu pot fi evitate. Pentru a reduce efectul produs de acestea, este recomandat folosirea unor uniti acustice cu lungime mai mare. Este de menionat c o discontinuitate la nivelul unei vocale este mai observabil dect la nivelul unei consoane fricative, iar o discontinuitatea aflat n interiorul unei silabe este mai perceptibil dect o discontinuitate aflat la grania dintre dou silabe. Generalitatea unui sistem TTS se refer la posibilitatea utilizrii lui n sinteza unui text arbitrar. De exemplu, ntr-un sistem de asistare GPS indicaiile pe care acesta le d se rezum la cteva tipuri de propoziii, direcii i numere. n astfel de situaii, unitile acustice alese pot s fie fraze sau cuvinte. Alegerea optim a unitilor folosite n concatenare se face n general cu algoritmul Viterbi, ncercnd minimizarea unei funcii format din dou costuri: costul de model i costul de concatenare. Costul de model este calculat n funcie de diferenele prozodice ale segmentului folosit i cele impuse de context, iar costul de concatenare msoar ct de bine se vor potrivi dou segmente acustice adiacente. n practic, costul de concatenare are un rol foarte important n asigurarea calitii vocii obinute, fiind obiectul mai multor studii de-a lungul anilor (Pantazis et al. 2005; Black i Hunt, 1996; Vepa i King, 2004).
Modificarea energiei se realizeaz direct prin operaia de nmulire. Pentru durat i nlime lucrurile sunt mai complicate. Algoritmii descrii n continuare sunt folosii pentru modificarea prozodic a segmentelor acustice folosite n concatenare (Huang et al., 2001). SOLA Este un algoritm utilizat pentru modificarea duratei segementelor acustice, foarte eficient pentru compresia semnalului vocal. Pentru analiz se folosete o serie de ferestre Hanning (ecuaia 2.1) de dimensiune 2N care sunt aezate la distan fN una fa de cealalt. Aceste ferestre sunt folosite pentru a multiplica semnalul original. ( ) 2.1 n momentul reconstruciei, acestea sunt aezate la distan N una fa de cealalt. Dac f=1, atunci reconstrucia semanlului este perfect. Figura 2.1 arat rezultatele obinute prin metoda SOLA pentru reducerea duratei semnalului vocal.
Figura 2.1 SOLA folosit pentru reducerea duratei unui semnal vocal (imagine preluat dupa Huang, 2001)
PSOLA Pitch Sincronous Overlap Add (PSOLA) este o tehnic n prelucrarea digital a semnalelor folosit att pentru modificarea temporar a unui semnal ct i pentru modificarea frecvenei fundamentale a acestuia. Spre deosebire de SOLA, ferestrele de analiz sunt aezate n funcie de valoarea frecvenei fundamentale. Acest lucru presupune cunoaterea apriori a acesteia, lucru care se poate realiza n mod automat prin aplicarea unui algoritm pentru detecia F0 (PDA). O soluie optim n acest sens nu a fost gsit nc, existnd o varietate mare de algoritmi, mprii n dou categorii: - Algoritmii PDA n domeniul timp, care utilizeaz funcia de autocorelaie, obinnd rezultate bune n cazul semnalelor periodice. 17
Algoritmii PDA n domeniul frecven, care funcioneaz n general prin analiza spectral a semnalului. nainte de aplicarea algoritmului PSOLA pentru un segment acustic trebuie stabilit dac acesta este vocalizat sau nevocalizat. n cazul n care semnalul este vocalizat el se poate scrie ca o funcie dependent de periodicitatea frecvenei fundamentale F0 (ecuaia 2.2). (2.2)
[ ] sunt epoci ale semnalului, astfel nct diferena dintre dou epoci adiacente [] [ ] s aib valoarea lui F0 la momentul [ ] ca numr de eantioane. Funcia este obinut prin ferestruirea semnalului original (ecuaia 2.3). (2.3) Alegerea tipului de fereastr precum i lungimea acesteia se face n funcie de condiia impus de ecuaia 2.4. Acest condiie este respectat dac se utilizeaz fereastra Hanning cu [ ] (care este, de fapt, de dou ori valoarea frecvenei lungime fundamentale). ( ) (2.4)
Scopul final este de a sintetiza un semnal care are aceleai caracteristici spectrale ca i dar cu alte valori pentru F0 i durat. Acest lucru se face prin nlocuirea valorilor folosite la pasul de analiz cu , care sunt valorile dorite pentru semnalul sintetizat (ecuaia 2.5). (2.5)
Pentru zonele nevocalizate din semnal, valorile sunt distribuite uniform peste eantioane, n aa fel nct spaierea s se fac la intervale mai mici de 10ms. n cazul n care se dorete modificarea duratei n timp a segmentelor, acestea trebuie repetate de mai multe ori i pentru a evita o periodicitate creat artificial, acestea se inverseaz n timp. MBROLA Multiband Resynthesis Overlap and Add este un alt algoritm de sintez a vorbirii, care lucreaz n domeniul timp i care are avantajul de a netezi discontinuitile spectrale care apar n cazul TD-PSOLA. Situaia optim pentru algoritmul PSOLA este atunci cnd toate ferestrele de analiz sunt identice (Dutoit i Leich, 1993). Pentru ca acest lucru s fie posibil, baza de date trebuie s aib urmtoarele proprieti: a. Toate cuvintele trebuie pronunate cu un ton constant; b. Interpolarea spectral ntre segmentele concatenate trebuie s fie uor de realizat din punct de vedere computaional. 18
Pentru a rezolva cerinele impuse mai sus, MBROLA resintetizeaz segmentele acustice nainte de utilizarea acestora n sintez. Acest lucru se face n faza de creare a bazei de date, n aa fel nct, n momentul concatenrii, operaiile asupra segmentelor s fie minime ca numr i complexitate (figura 2.2)
Start (segmente acustice)
Analiz MBE
Segment Vocalic
Proces de rearmonizare
R sint z s gm nt
Fazele semnalelor sunt resetate n momentul resintezei iar calitatea vocii sintetizate depinde foarte mult de strategia folosit n acest pas. n cazul n care se folosesc valori constante sau distribuite liniar va aprea un efect nedorit de voce metalic. De asemenea, s-a artat c rezultate bune se obin dac frecvenele nalte sau joase sunt lsate nemodificate (cu faza iniial neschimbat) (Dutoit i Leich, 1993).
procedura de testare fiind redus ca timp i utilizatorii nu au nevoie de instruire nainte de a participa la evaluarea sistemului TTS (Jekosh, 1993). n plus efectele date de antrenarea subiecilor umani pentru setul de date dat sunt neglijabile iar rezultatele sunt utile n a ajuta la localizarea problema i a observa care foneme creaz confuzie. a. Diagnostic Rhyme Test (DRT) a fost introdus de Fairbanks n 1958 i folosete un set izolat de cuvinte care difer doar prin prima consoan. Utilizatorul ascul cuvinte monosilabice pronunate izolat i alege ceea ce a auzit dintr-o list de dou variante posibile. b. Modified Rhyme Test (MRT) este o extensie a DRT folosit pentru a stabili inteligibilitatea att pentru prima ct i pentru ultima consoan. Testul const ntr-un numr de 50 de grupuri de cte 6 cuvinte. Utilizatorul ascult fiecare grup de ase cuvinte rostite separat i marcheaz apoi ntr-o list cu variante multiple cuvintele pe care consider c le-a auzit. Primele 3 cuvinte sunt utilizate pentru stabilirea inteligibilitii primei consoane, iar ultimile 3 cuvinte pentru inteligibilitatea ultimei consoane. Vocea uman primete un scor de aproximativ 99% la testul MRT, iar cele mai bune sistem TTS au valori situate ntre 70% i 95% (Huang et al., 2001). c. Diagnostic Medial Consonant Test (DMCT) este tot un test bazat pe cuvinte care rimeaz numai c n acest caz ele sunt bisilabice i sunt alese n aa fel nct s difere printr-o singur fonem median. d. Standard Segmental Test (SST) folosete liste de cuvinte fr sens de forma consoan-vocal, vocal-consoan i vocala-consoan-vocal. Utilizatorul trebuie s completeze ntr-un formular consoana lips din cuvntul pe care tocmail l-a ascultat. e. Cluster Identification Test (CLID) este un test n care vocabularul folosit nu este predefinit. Transcrierea fonetic a cuvintelor este generat automat dup o structur data (de exemplu CVCCV) apoi este convertit n grafeme (deorece majoritatea sistemelor TTS nu accept dect acest mod de a introduce datele). Utilizatorii ascult cuvintele sintetizate i completeaz ce au auzit ntr-un formular cu rspuns deschis (pot scrie rspunsul att la nivel grafemic ct i fonemic). f. Phonemically Balanced Word Lists (PB) este un test care folosete o list de cuvinte monosilabice. Lista este balansat din punct de vedere fonetic deoarece cuvintele sunt alese n aa fel nct s aproximeze relativ numrul de apariii al fiecrui fonem specific limbii. Metode de testare a inteligibilitii unui cuvnt la nivel de propoziie Aceste teste sunt folosite pentru a msura inteligibilitatea unui sistem TTS cu ajutorul unor propoziii alese n aa fel nct cuvintele din ele s respecte frecvena relativ de apariie specific limbii int. a. Harvard Psychoacoustic Sentences este un set prestabilit de 100 de propoziii folosite pentru a testa inteligibilitatea unui cuvnt n fraz. Propoziiile sunt alese n aa fel nct anumite secvene de foneme s respecte frecvena de apariii specifice limbii engleze. Dezavantajul const n faptul c este un set 20
nchis de propoziii i efectul de nvare nu poate fi ignorat n momentul n care se folosete acelai grup de oameni. b. Haskins Sentences este un set de propoziii asemntor cu cel de la Harvard cu singura diferen c aceste propoziii sunt lipsite de sens i cuvntul care nu se nelege corect nu poate fi dedus din context. c. Semantically Unpredictable Sentences (SUS) este tot un test de inteligibilitate numai c n acest caz cuvintele pe care se face testul sunt alese dintr-un set de candidai formnd astfel la fiecare testare propoziii noi. Propoziiile sunt de forma: subiect-verb-adverb, subiect-verb-obiect, adverb-verb-obiect, adverb interogativ-verb-obiect, subiect-verb-obiect complex. Metode de evaluare la nivel prozodic Inteligibilitatea unui segment sau a unui cuvnt nu garanteaz percepeia corect a mesajului transmis, de aceea testele menionate pn acum sunt utile doar din anumite puncte de vedere. Mai mult, o rat de inteligilitate de 100% nu este obligatorie pentru ca un sistem s fie considerat inteligibil. O metod complet de testare a unui sistem TTS trebuie s aib n vedere i evaluarea din punct de vedere prosodic al acestuia. Testul funcioneaz n felul urmtor: un set de propoziii sunt sintetizate pentru forma imperativ, neutr i interogativ, apoi utilizatorii sunt pui s asculte propoziiile i s aleag tipul fiecreia. Metode de evaluare general a sistemelor TTS Testele pentru evaluarea general a sistemelor TTS au la baz Mean Opinion Score (MOS). Scorul MOS este o medie aritmetic a notelor date de un grup de experi umani pentru o serie de propoziii sintetizate. Iniial, acest tip de evaluare a fost folosit pentru sistemele de compresie a vocii.
21
lucru care rezult din faptul c j a fost precedat de consoan g n vocea sintetizat dei aceasta nu aprea n text. Sistemul TTS de la Google nu a putut fi testat cu SST deoarece ultimul fonem nu se auzea niciodat n cazul n care acesta era o consoan iar vocalele erau tiate abrupt. O alt observaie este aceea c au existat probleme de nelegere la sistemul Phobos TTS chiar i atunci cnd s-au folosit propoziii normale din demo-ul de pe site-ul lor n care se citea un pasaj din Domnul Goe de I. L. Caragiale. Dei Moromete a obinut cel mai mare scor SST i a ieit n eviden prin articularea extrem de clar a consoanelor, naturaleea general a vocii a fost sub cea a sistemelor IVONA i TTS UTC. Tabelul 3.1 arat rezultatele obinute la teste. Sistem TTS Ivona TTS TTS UTC Phobos TTS Google TTS Moromete TTS SST MOS A2 Total A 1 A 2 A3 A4 75% 72.50% 3.6 4.8 4.6 4.6 3.6 4 68% 66.00% 4 4 40% 40.00% 2 1.2 2.2 2.2 1.4 0% 0.00% 1 2 2 2.8 80% 83% 3.2 3.2 3 Tabel 3.1 Rezultate SST i SUS
23
4. Concluzii
n prima parte a lucrrii am evideniat aspecte legate de modul de producere al vorbirii i caracteristici, din punct de vedere acustic, ale sunetelor din limba romn. De asemenea, am dat o atenie deosebit modulului de prelucrare a limbajului natural i am explicat pai i ce trebuie urmai n prelucrarea textului nainte ca vocea s fie sintetizat de ctre modulul DSP. Am evideniat problemele legate de normalizarea textului, dezambiguizarea omografelor neomofone, transcrierea fonetic, detectarea accentului, generarea conturului F0 i stabilirea locului unde trebuie plasate pauzele n vorbire. Acolo unde a fost cazul am menionat soluiile propuse pentru limba romn i unde s-a putut am scos n eviden rezultatele obinute de aceastea. n ceea ce privete metodele de sintez a vorbirii am pus accent pe o serie de algoritmi utilizai pentru modelarea prozodiei n cazul sintezei concatenative. De menionat este faptul c nivelul de inteligibilitate i naturalee al unui sistem TTS nu este dependent doar de modulul DSP, prelucarea limbajului natural i sinteza prozodic jucnd un rol foarte important n acest sens. Mai mult, fr o modelare prozodic foarte bun, chiar dac o voce sintetic este inteligibil i natural acest lucru nu garanteaz transmiterea corect a mesajului din text. Din aceste considerente, am ales s prezint i o serie de metode de evaluare a sistemelor TTS mprite n: metode de testare a inteligibilitii pentru segmente izolate; metode de testare a inteligibilitii unui cuvnt la nivel de propoziie; metode de evaluare la nivel prozodic i metode de evaluare general. n finalul lucrrii am evaluat cinci astfel de sisteme pentru limba romn: Ivona, UTC, Phobos, Google i Moromete. Dup cum s-a putut observa din rezultate, este important folosirea combinat a mai multor teste din categorii diferite, pentru a surprinde calitatea unui TTS. Scorul Moromete pentru testul SST a fost de departe cel mai bun rezultat obinut de vreun sistem. Cu toate acestea, scorul MOS, care reflect calitatea general a sistemului TTS a scos n eviden sistemele Ivona i UTC.
24
5. Referine bibliografice
1. Black, A., Lenzo, K. i Pagel, V. Issues in building general letter to sound rules. ESCA Speech Synthesis Work-shop, Jenolan Caves, 1998. 2. Burileanu, D., Contribuii la sinteza vorbirii din text pentru limba romn. Tez doctorat, 1999 3. Burileanu, D. i Dan, C., Principii i tehnici de baz n prelucrarea digital a semnalelor. Editura Printech, 2000, ISBN 973-652-127-3 4. Burileanu, D., Sima, M., i Neagu, A. (1999b). A phonetic converter for speech synthesis in romanian. Proceedings of the XIVth Congress on Phonetic Sciences (ICPhS), San Francisco, CA, vol. 1, pp. 503506, 1999 5. Burileanu, D. i Negrescu, C. Prosody modeling for an embedded TTS system implementation. 14th European Signal Processing Conference (EUSIPCO 2006), Florence, Italy, September 4-8, 2006 6. Burileanu, D., Negrescu, C., Prosody Modeling for an Embedded TTS System Implementation. Proceedings of the 14th European Signal Processing Conference EUSIPCO 2006, Florence, pp. 715718, 2006 7. Dutoit, T. i Leich, H., MBR-PSOLA: Text-To-Speech Synthesis based on an MBE Re-Synthesis of the Segments Database. Speech Communication, Elsevier Publisher, November 1993, vol. 13. 8. Dutoit, T. A Short Introduction to Text-to-Speech Synthesis, http://tcts.fpms.ac.be/synthesis/, accesat la 12.07.2011 9. Fant, G., Acoustic Theory of Speech Production., Mouton De Gruyter, 1970, ISBN 90-279-1600-4 10. Huang, X., Acero, A., Hon, H.W. Spoken Language Processing. Prentice-Hall, Englewood Cliffs, NJ, 2001 11. Hunt, A., Black, A. (1996). Unit selection in a concatenative speech synthesis system using a large speech database. Proceedings of IEEE int. conf. acoust., speech, and signal processing (vol. 1, pp. 373376). 12. Jiampojamarn, S., Cherry, C. i Kondrak, G. Joint processing and discriminative training for letter-to-phoneme conversion. Proceedings of ACL-2008: Human Language Technology Conference, pp. 905913, Columbus, Ohio, June, 2008. 13. Jozsef, D., Ovidiu, B. i Gavril, T. Automated grapheme-to-phoneme conversion system for Romanian. Speech Technology and Human-Computer Dialogue (SpeD), 2011 14. Kaszczuk, M. i Osowski, L. Evaluating Ivona Speech Synthesis System for Blizzard Challenge 2006, Blizzard Workshop, 2006. 15. Manning, C. D., i Schutze, H. Foundations of statistical natural language processing. Cambridge Massachusetts: MIT Press, 1999. 16. Ungurean, C., Burileanu, D., Popescu, V. i Dervi, A. Hybrid syllabification and letter-to phone conversion for tts synthesis. U.P.B. Sci. Bull., Series C, Vol. 73, Iss. 3, ISSN 1454-234x, 2011
25
17. Ordean, M., Saupe, A., Ordean, M., Gorgan, D. Componentele unui sistem de sinteza text-vorbire. A 6-a Conferinta Nationala de Interactiune Om-Calculator, RoCHI2009, Cluj-Napoca, Romania, 2009 18. Pagel, V., Lenzo, K. and Black, A., Letter to sound rules for accented lexicon compression, International Conference on Spoken Language Processing, Sydney, Australia, 1998 19. Pantazis, Z., Stylianou, Y., i Klabbers, E. Discontinuity detection in concatenated speech synthesis based on nonlinear speech analysis. Proc. of Interspeech 2005, Lisbon, Portugal, 2005, pp. 2817-2820 20. Stan, A., Yamagishia, J., Kinga, S. i Aylettc, M. The Romanian Speech Synthesis (RSS) corpus: building a high quality HMM-based speech synthesis system using a high sampling rate. 2010 21. Taylor, P. Hidden Markov Models for grapheme to phoneme conversion. Proceedings of the 9th European Conference on Speech Communication and Technology, 2005. 22. Toma, S. A., Munteanu, D.P. Rule-Based Automatic Phonetic Transcription for the Romanian Language. Computation World: Future Computing, Service Computation, Cognitive, Adaptive, Content, Patterns, 2009 23. Vepa, J., & King, S. Join cost for unit selection speech synthesis. Text to speech synthesis: new paradigms and advances. New York: Prentice Hall (pp. 3562), 2004. 24. Zen, H., Tokuda, K., Masuko, T., Kobayashi, T., Kitamura, T. A hidden semi-Markov model-based speech synthesis system. IEICE Trans. Inf. Syst. E90-D (5), 825834, 2007.
26