Sunteți pe pagina 1din 26

Academia Romn Secia tiina i Tehnologia Informaiei Institutul de Cercetri pentru Inteligen Artificial

REFERAT II

PLATFORME PENTRU
ANALIZA I GENERAREA SEMNALULUI VOCAL

Coordonator tiinific: Prof. Dr. Ioan Dan TUFI Membru Corespondent al Academiei Romane Doctorand: Tiberiu BORO

Platforme pentru analiza i generarea semnalului vocal

Cuprins
1. Introducere .................................................................................................................. 3 1.1. 1.2. 2. Vorbirea uman .................................................................................................... 3 Sisteme TTS ......................................................................................................... 6

Arhitectura sistemelor TTS ......................................................................................... 8 2.1. Prelucrarea limbajului natural .............................................................................. 8 Normalizarea textelor ................................................................................... 8 Analiza morfologic ................................................................................... 10 Transcrierea fonetic .................................................................................. 13 Sinteza prozodic ........................................................................................ 14 Sinteza concatenativ ................................................................................. 15 Algoritmi de modificare prozodic a segmentelor acustice ....................... 16 Metode de evaluare a sistemelor TTS ........................................................ 19

2.1.1. 2.1.2. 2.1.3. 2.1.4. 2.2.

Sinteza vorbirii ................................................................................................... 15

2.2.1. 2.2.2. 2.2.3. 3.

Aplicaii de sintez a vorbirii .................................................................................... 22 3.1. 3.2. 3.3. Aplicaii comerciale ........................................................................................... 22 Aplicaii gratuite ................................................................................................ 22 Evaluarea sistemelor .......................................................................................... 22

4. 5.

Concluzii ................................................................................................................... 24 Referine bibliografice............................................................................................... 25

Platforme pentru analiza i generarea semnalului vocal

1. Introducere
n prezenta lucrare, evideniez o serie de aspecte legate de sinteza vorbirii pornind de la text, incluznd elemente de prelucrare a limbajului natural, prelucrare digital a semnalelor i metode de evaluare a sistemelor TTS (text-to speech). Primul capitol este unul introductiv, n care prezint elemente teoretice legate de modul de producere a vorbirii umane i de caracteristicile acustice ale diferitelor sunete din limba romn.

1.1. Vorbirea uman


Vorbirea este un proces de comunicare specific omului care se dezvolt de-a lungul timpului. Din punct de vedere fizic, vorbirea ncepe prin producerea unui flux de aer pornind din plmni sau diafragm, care trece prin laringe unde este modulat de corzile vocale. Acest pas se numete fonaie i determin nlimea i tonul vocii. Exist patru corzi vocale (dou superioare i dou inferioare), ntre care se afl o deschiztur (glota interligamentoas), diferit ca dimensiuni pentru brbai i femei. Activitatea corzilor vocale este stimulat i dirijat de ctre sistemul nervos central. Faringele ajusteaz direcia fluxului de aerul spre cavitatea bucal, spre cavitatea nazal sau spre amndou simultan, aerul fiind astfel filtrat de gur, nas i gt proces numit articulare. Ca o consecin a acestei fiziologii, se observ unele caracteristici ale spectrului vorbirii n domeniul frecven. n primul rnd, oscilaia glotei determin o frecven fundamental (F0) i o serie de armonici. Valorile armonicilor sunt multipli ai F0. Localizarea frecvenei fundamentale este dependent de vorbitor i n mod direct responsabil de nlimea vocii. Diferite foneme (cea mai mic unitate sonor a limbii, care are funcia de a diferenia cuvintele ntre ele, precum i formele gramaticale ale aceluiai cuvnt) (n special vocalele) au regiuni caracteristice de energie ridicat n cadrul spectrului. Aceste regiuni de vrf sunt numite formani (Fant, 1970) i localizarea lor poate fi folosit att pentru identificarea fonemelor ct i a vorbitorului. Toat energia spectrului vocal se regsete intre 0 i 4kHz, iar dincolo de 10kHz, n afara intervalului neexistnd practic nici un fel de energie. De altfel, aceasta este unul din motivele pentru care este este preferat rata de eantionare de 8kHz n sistemele de telefonie. n majoritatea limbilor din lume, inventarul de foneme este mprit n dou mari categorii: 1. Consoanele, care sunt articulate cu ajutorul obstacolelor formate de componentele cavitii bucale n calea fluxului de aer. 2. Vocalele sunt articulate fr obstacole. La rndul lor, sunetele pot fi mprite n subgrupuri. n cazul limbii romne exist urmtoarea clasificare a sunetelor din punct de vedere articulatoriu (Burileanu, 1999): 1. Vocalele: se disting prin nlime (dat de frecvena fundamental) i prin timbru (reprezentat prin coninutul de armonici care se altur frecvenei fundamentale). a. n funcie de unghiul de deschidere a maxilarelor (apertura): i. Vocale deschise: a ii. Vocale medii (semideschise): e, , o 3

Platforme pentru analiza i generarea semnalului vocal

iii. Vocale nchise: i, (), u b. n funcie de localizarea lor, deci de locul de articulare (punctul din cavitatea bucal n care se creeaz spaiul optim de rezonan, realizat prin diferitele poziii pe care le ia muchiul lingual): i. Vocale anterioare: e, i ii. Vocale centrale (neutre): a, , () iii. Vocale posterioare (postpalatale): o, u c. Dup modul n care sunt nsoite sau nu de rotunjirea buzelor: i. Vocale labializate (rotunjite): o, u ii. Vocale nelabializate: a, e, i, , ()

Vocale
Deschidere
Anterioare nchise i y

Anterioritate
Semianterioare Centrale Semiposterioare Posterioare u

Cvasinchise

Seminchise

Mijlocii

Semideschise

Cvasideschise

Deschise

Figura 1.1 - Clasificarea vocalelor dup deschidere, loc de articulare i rotunjire

2. Consoanele: De asemenea i consoanele sunt mprie n consoane sonante i nesonante. a. Clasificarea consoanelor nesonante: i. Dup modul de articulare: 1. Consoane oclusive (explozive, sau plozive): p, b, t, d, c, g, ch, gh (produse prin nchiderea complet a canalului fonator i apoi deschiderea sa brusc); 2. Consoane fricative (constrictive): f, v, s, z, , j, h (sunt consoane produse printr-o ngustare a canalului fonator); 3. Consoane semioclusive (africate): , c(e/i), g(e/i) (sunt consoane ce au un nceput oclusiv, dar un final fricativ).

Platforme pentru analiza i generarea semnalului vocal

ii. Dup locul de articulare (locul din cavitatea bucal unde se creeaz obstacolul): 1. Consoane bilabiale: p, b; 2. Consoane labio-dentale: f, v; 3. Consoane dentale (alveorare): t, d, s, z, ; 4. Consoane prepalatale (anteropalatale): , j, c(e/i), g(e/i); 5. Consoane palatale: ch, gh; 6. Consoane velare (postpalatale): c, g; 7. Consoane laringale (glotale): h; iii. Dup sonoritate (pronunia unei consoane este nsoit sau nu de vibraia coardelor vocale): 1. Consoane sonore: b, d, g, gh, v, z, j, g(e/i); 2. Consoane nesonore (surde): p, t, c, ch, f, s, , h, c(e/i), ; b. Clasificarea consoanelor sonante: aceast clas de consoane reprezint o categorie distinct care are caracteristici comune att cu vocalele ct i cu consoanele. Astfel, la articularea lor predomin tonurile muzicale, zgomotele specifice consoanelor fiind mai slab. Ca i consoanele nesonante, ele nu primesc accent n silab. i. n funcie de modul de articulare: 1. Sonante oclusive: m, n; 2. Sonante lichide: l; 3. Sonante vibrante: r. ii. n funcie de locul de articulare 1. Sonante bilabiale: m; 2. Sonante dentale: n, r; 3. Sonante laterale: l. iii. n funcie de timbru: 1. Sonante nazale: m, n; 2. Sonante orale: l, r.
Locul de articulare

Bilabiale

Labiodentale

Dentale

Prepalatale

Palatale

Velare

Laringiale

Sonore

Sonore

Sonore

Sonore

Sonore

Sonore

Modul de articulare Sonante Nesonante Oclusive Semioclusive Constrictive

t f v s

d ce/ci ge/gi z n l r j

ch

gh

Ocluzive nazale Laterale Lichide Vibrante

Tabel 1.1 - Clasificarea consoanelor dup locul i modul de articulare

Sonore

Surde

Surde

Surde

Surde

Surde

Surde

Surde

Platforme pentru analiza i generarea semnalului vocal

1.2. Sisteme TTS


Sistemele TTS (text-to-speech) sunt folosite pentru a sintetiza voce plecnd de la un anumit text. La baza lor stau o multitudine de procese, care includ elemente de prelucrare a limbajului natural i prelucrare digital a semnalelor, i care sunt absolut necesare pentru a obine rezultatul dorit. n cazul sistemelor TTS unul dintre cele mai importante aspecte este calitatea vocii sintetizate, aceasta fiind determinat mai ales de inteligibilitate i naturalee. Inteligibilitatea reflect nivelul de nelegere a mesajului transmis. n situaiile n care este vorba de un interlocutor uman informaiile de natur vizual ajut mult la descifrarea mesajului. n cazul sistemelor TTS, n absena altor indicii vizuale, inteligibilitatea este dat de claritatea vocii sintetizate i de efectul de nvare aprut ca rezultat al folosirii ndelungate a sistemului. Naturaleea msoar gradul de asemnare ntre vocea sintetizat i vocea uman. Alte atribute de natur tehnic utilizate pentru evaluarea calitativ a unui sistem TTS sunt: 1. ntrzierea: Timpul necesar unui sistem TTS din momentul n care a primit o comand pn cnd vocea este sintetizat. Aceast caracteristic este foarte important pentru sistemele interactive (n mod uzual decalajul trebuie s fie sub 200ms). 2. Memoria ocupat: Pentru sinteza bazat pe reguli, nivelul de memorie ocupat este mic n comparaie cu sistemele concatenative care necesit de sute de ori mai mult memorie (Huang et al., 2001). 3. Resurse ocupate: Gradul de ocupare al sistemului pe care ruleaz aplicaia TTS n timpul procesului de sintez, este un factor important cnd se dorete sinteza simultan a mai multor texte pe un singur calculator (cum este cazul sistemelor client-server). 4. Vitez variabil: n anumite cazuri se poate cere posibilitatea de a controla viteza de pronunie a cuvintelor. Lipsa acestei faciliti este un impediment pentru sistemele bazate pe concatenare n care nu se pot modifica segmentele acustice prenregistrate. n astfel de sisteme, se poate obine o vitez variabil doar dac exist un numr mare de nregistrri, la viteze diferite. Exit o serie de metode propuse de-a lungul anilor pentru sinteza vorbirii. Alegerea uneia dintre ele determin implicit valorile atributelor enumerate mai sus. Metodele pot fi clasificate, dup modul n care este obinut semnalul vocal, n dou categori: sintetizatoare bazate pe reguli i sintetizatoare bazate pe corpus. Sinteza formantic i sinteza articulatorie intr n categoria sintetizatoarelor bazate pe reguli. Sinteza formantic modeleaz frecvena fundamental i frecvenele formanilor dup un set de reguli, utiliznd un set de filtre aplicate pe trenurile de impulsuri (zonele sonore) sau pe zgomot alb (zonele nesonore) i modificnd parametrii filtrelor pentru a modela elementele prozodice. Sinteza articulatorie modeleaz toate efectele fiziologice implicate n formarea semnalului vocal.

Platforme pentru analiza i generarea semnalului vocal

Sinteza concatenativ i sinteza parametric statistic intr n categoria sintetizatoarelor bazate pe corpus. Sinteza concatenativ folosete segmente acustice extrase din vorbirea natural pe care le concateneaz pentru a obine vocea sintetizat. Inventarul i tipul unitilor folosite n sinteza concatenativ nflueneaz domeniul n care sistemele TTS pot fi aplicate. Din punct de vedere al adaptrii la un anumit domeniu, sinteza concatenativ poate fi clasificat n specializat sau general. Din punct de vedere al interveniei asupra intervalului acustic sinteza concatenativ poate fi clasificat n sintez care modific segmentele acustice i n sintez concatenativ care nu modific modific segmentele acustice. n continuare sunt prezentate avantajele i dezavantajele acestor tipuri de sintez concatenativ (Huang et al., 2001): 1. Sinteza concatenativ specializat pe un anumit domeniu se aplic pentru un inventar limitat de propoziii ce urmeaz a fi sintetizate. Aceast abordare are rezultate bune din punct de vedere al inteligibiliii i naturaleii vocii, ns numrul mic de segmente acustice prenregistrate face ca acest tip de sintez s nu poat fi utilizat pentru un sistem generic. Acest tip de sistem TTS concatenativ este cel folosit n majoritatea sistemelor de navigaie GPS. 2. Sinteza concatenativ fr modificarea segmentelor acustice este util n cazul n care este vorba de un sistem TTS specializat pe un anumit domeniu deoarece se poate stabili apriori prozodia necesar pentru diferitele segmentele acustice i acestea pot fi nregistrate ca atare. Dac se ncearc folosirea acestei metode ntr-un sistem TTS generic, rezultatele obinute sunt foarte slabe deoarece elementele prozodice sunt responsabile att pentru naturaleea i inteligibilitatea vocii ct i pentru transmiterea corect a mesajului. 3. Sinteza concatenativ cu modificarea segmentelor acustice permite o flexibilitate crescut din perspectiva alegerii candidailor pentru concatenare, datorit faptului c elementele de prozodie pot fi modelate prin modificarea segmentelor acustice prenregistrate. Sinteza parametric statistic folosete un corpus prenregistrat din care extrage un set de parametrii grupai dup context i caracteristici prozodice. Cel mai cunoscut sistem care folosete Modele Markov Ascunse pentru modelarea parametrilor este HMM-based Speech Synthesis System sau H Triple S (HTS) (Zen et al., 2007). Avantajul major al folosirii acestei metode este dat de faptul c se pot ncerca mai multe contururi pentru F0 fr a afecta naturaleea vocii obinute.

Platforme pentru analiza i generarea semnalului vocal

2. Arhitectura sistemelor TTS


Un sistem de sintez a vorbirii este format din dou componente importante: 1. Un modul de prelucrare a limbajului natural (NLP) folosit pentru a obine o transcriere fonetic i a extrage elemente de prozodie. 2. Un modul de prelucrare digital a semnalului care se ocup de sinteza vorbirii. Figura 2.1 reprezint schema bloc a modulului NLP.
Modul NLP Analiz text
Text

Preprocesare

Analizor morfologic

Analizor contextual

Analizor prozodic

Transcriere fonetic

Generare de elemente de prosodie

DSP

Figura 2.1 - Modul NLP (adaptat dup A Short Introduction to Text-to-Speech Synthesis)

De regul, textul care trebuie sintetizat este iniial supus unei preprocesri, care elimin simboluri incompatibile cu sistemul TTS (caractere care nu pot fi transformate n voce, de exemplu: (, ), `, [) etc., transform secvenele de numere n cuvinte, (de exemplu 1002 o mie doi), trateaz formule matematice, etc. (Ordean, 2009; Dutoit, 1999) (acest proces va fi detaliat n capitolul 2.1.1). Transcrierea fonetic este un pas important n orice sistem TTS, dar acest lucru nu poate fi realizat fr o adnotare morfologic a cuvintelor (pentru rezolvarea problemei cuvintelor omografe), lucru realizat automat cu ajutorul unui POS tagger (detaliat n capitolul 2.1.3). Percepia sunetelor din punct de vedere fizic este influenat de trei factori importani: volumul care este o msur a intensitii sunetului, frecvenei componentei fundamentale a sunetului cunoscut sub numele de nlime a vocii i timbrul care reprezint coninutul armonic al semnalului. Astfel, impunerea elementelor de prozodie se refer la modificarea frecvenei fundamentale, a energiei semnalului i a duratei de pronunie (detaliat n capitolul 2.1.4).

2.1. Prelucrarea limbajului natural


2.1.1. Normalizarea textelor
Majoritatea textelor includ abrevieri, dialoguri amestecate cu naraiune, grafice i figuri numerotate, ecuaii matematice, adrese de e-mail cu caractere speciale, date calendaristice etc. Normalizarea textului este esenial n orice sistem TTS, iar problema ei invers se aplic n cazul sistemelor de dictare, pentru reconstituirea textului din cuvintele recunoscute. Procesul de normalizare ncepe prin identificarea expresiilor i a tipului acestora (abreviere, dat, numr etc.) urmat de extinderea textului iniial prin adugare de taguri SNOR (Standard Normalized Orthographic Representation). n continuare vom prezenta cteva probleme n normalizarea textelor. a. Caracterul . situat la finalul unui cuvnt este un indiciu c grupul de litere precedent ar putea fi o abreviere sau un acronim. Cu toate acestea el poate fi omis n anumite cazuri din greeli de ortografie sau pur i simplu datorit faptului c anumite 8

Platforme pentru analiza i generarea semnalului vocal

acronime nu sunt urmate de punct n special dac ele sunt scrise cu majuscule. Un astfel de exemplu este regsit n fragmentul [...]vor contura imaginea LRC ca entitate supraindividual[...], n care grupul de litere LRC este un acronim pentru limba romn contemporan i rezolvarea este dat de transcrierea fonetic corespunztoare (lerece) sau expansiunea sa n cuvintele componente. Alte modaliti de a detecta acronime sunt: i. Considerarea cuvintelor din afara vocabularului ca i candidate ale acestei categorii poate reprezenta o metod, ns acest lucru nu este determinist; ii. Scrierea cu majuscule a literelor unui cuvnt face din acest cuvnt un candidat bun chiar i n absena caracterului .. ns un cuvnt scris cu majuscule nu este n mod obligatoriu un acronim chiar dac acesta este n afara vocabularului. De exemplu, n anumite formulare este obligatorie scrierea numelor proprii cu majuscule acestea fiind n general cuvinte din afara vocabularului; iii. Cuvintele formate doar din consoane sunt atipice n multe limbi, motiv pentru care exist anse destul de mari ca aceste cuvinte s fie acronime. n cazul abrevierilor: iv. Grupurile de litere aflate la finalul unor valori numerice pot reprezenta uniti de msur (de exemplu 13cm, unde cmcentimetri). v. Exist i acronime care nu sunt formate din caractere de la a la z cum este situaia 15 , n care caracterul este un simbol pentru inci. Chiar i dup identificarea unei abrevieri sau acronim, rmne problema expansiunii. O variant este citirea pe litere a cuvntului aa cum este cazul LRClerece dar acest lucru nu este ntotdeanuna satisfctor mai ales c anumite abrevieri cer neaprat extinderea lor. n situaia []dl. George[] , un utilizator nu va fi mulumit s aud citirea dele George, sistemul fiind nevoit s ia decizia de a extinde abrevierea dl. domnul. O soluie n acest sens este utilizarea unei liste de abrevieri i acronime, dar i aici putem avea de-a face cu ambiguiti. Un exemplu este grupul de litere AG care poate s fie att o abreviere pentru cuvntul argint ct i pentru cuvntul Arge. b. Tratarea numerelor este o alt problem a sistemelor TTS. Exist situaii n care numerele au o semnificaie cantitativ, moment n care normalizarea lor se face respectnd un anumit set de reguli sau cazuri n care ele reprezint un identificator (numr de telefon, cod, adres potal etc.) caz n care normalizarea acestora trebuie s respecte alt set de reguli. i. n situaia Sondajul s-a desfurat pe un numr de 1247 de persoane, grupul de cifre 1247 exprim o valoare cantitativ i normalizarea sau extinderea se face prin grupul de cuvinte o mie dousute patruzeci i apte. ii. Pe de alt parte n cazurile interior 1217 sau cod de acces 2233, grupul de cifire reprezint un numr de telefon, respectiv un cod. n 9

Platforme pentru analiza i generarea semnalului vocal

aceast situaie este de preferat normalizarea 1217 unu doi unu apte, 2233 doi doi trei trei. Ambiguiti pot s apar att la identificare (de exemplu numerele separate de ., - sau de / pot forma o dat calendaristic, acest lucru fiind discutat n continuare la punctul c) dar i la diferenierea ntre situaiile expuse la punctele i i ii. c. Tratarea expresiilor de timp este o problem puin mai simpl acestea aprnd n general, sub formate bine determinate. O neclaritate intervine n cazul scrierii restrnse, n care 11 poate reprezenta att anul 2011 ct i 1911, aceast informaie fiind direct dependent de context. Odat identificate aceste expresii, regulile de normalizare sunt simple i bine determinate: 01.01.2012nti ianuarie dou mii doisprezece, 11:45 unsprezece patruzeci i cinci sau pentru o naturalee mai mare doisprezece fr un sfert. d. La cele prezentate se adaug tratarea expresiilor matematice, a valorilor monetare, a formulelor chimice etc. O parte din cazurile neclare cu care se confrunt un sistem TTS pot fi rezolvate cu ajutorul tehnicilor de prelucrare a limbajului natural (capitolul 2.1.2).

2.1.2. Analiza morfologic


Analiza morfologic constituie un domeniu de interes pentru prelucrarea limbajului natural avnd i o aplicabilitate direct n sistemele TTS pentru: a. Determinarea granielor dintre propoziii; b. Dezambiguizarea omografelor care nu sunt omofone: aceast problema se refer la cuvinte cu aceeai scriere, dar cu pronunie diferit. n principiu aceste cuvinte se difereniaz prin partea de vorbire asociat, motiv pentru care n cele mai multe cazuri este suficient utilizarea unui POS (part -ofspeech) Tagger asupra textului; c. Idetificarea tipului de propoziie: acest proces este esenial pentru stabilirea elementelor macroprozodice la nivel de propoziie; d. Determinarea grupurilor sintactice: este util pentru modulul prozodic n stabilirea lungimii segmentelor i a duratei pauzelor n vorbire.

2.1.2.1. Determinarea granielor dintre propoziii


Determinarea granielor dintre propoziii nu este un procedeu simplu n principal pentru c: punctul este folosit att n abrevieri ct i ca separator ntre propoziii; cratima se folosete ca delimitator ntre propoziii dar i n anumite cuvinte compuse; n unele cazuri caractere precum :, ,, ; separ ceea ce trebuie privit ca fiind o propoziie. Un algoritm euristic simplu funcioneaz n felul urmtor (Manning i Schtze, 1999): - Se pun separatori la ntlnirea ., ? , ! ; - Se descalific un punct dac: o Este precedat de o abreviere recunoscut care n mod normal nu apare ca i cuvnt de final; 10

Platforme pentru analiza i generarea semnalului vocal

o Este precedat de o abreviere cunoscut i nu este urmat de un cuvnt scris cu liter mare; o Se descalific un ? dac este urmat de un cuvnt cu liter mic; Se pot luat n considerare i ali separatori de propoziie.

2.1.2.2. Dezambiguizarea omografelor care nu sunt omofone


Omografele neomofone sunt cuvinte cu aceeai scriere i pronunie diferit. Din acest motiv este important ca un sistem TTS s poat distinge ntre formele acestora. Diferenierea se face n principal prin partea de vorbire asociat, ns n limba romn exist variante verbale ale aceluiai cuvnt la timpuri diferite (prezent, imperfect sau perfect simplu) sau chiar variante substantivale cu sensuri diferite la care tagger-ul s-ar putea s nu aib informaia de discriminare. Cteva exemple se regsesc n tabelul 2.1. Pronunie 1 abdic abjur abrog castele boli acele Pronunie 2 abdic abjur abrog castele boli acele Explicaie Aceeai parte de vorbire

Pri de vorbire diferite

Tabel 2.1 Cteva exemple de omografe neomofone

Practic, prile de vorbire sunt cuvinte care au acelai comportament sinctactic. Cele mai importante pri de vorbire sunt substantivul, pronumele, verbul i adjectivul. Cel mai bun test pentru a verifica dac un cuvnt aparine de aceeai clas cu alte cuvinte este testul de nlocuire: Biatul cel {cuminte, blond} este n cas. Pentru stabilirea automat a prii de vorbire se aplic POS Tagging-ul care are ca rezultat asocierea unui descriptor morfosintactic (MSD) fiecrui cuvnt. Acesta este un ir de caractere n care fiecare poziie corespunde unui atribut iar caracterul de pe poziia respectiv indic valoarea atributului: 1. Primul caracter indic partea de vorbire; 2. Urmtoarele n caractere codeaz valoarea fiecrui atribut (persoan, numr, gen etc.); 3. Dac un atribut nu se aplic n cazul respectiv, atunci se folosete caracterul -. Pentru codarea lexiconului romnesc este necesar un numr de 614 etichete MSD (Tufi et al., 2007). Cuvintele sunt mprite n dou mari categorii: categorii deschise (la care se pot aduga mereu cuvinte noi) din care fac parte substantivele, adjectivele i verbele; categoriile funcionale sau nchise. n continuare vom prezenta un model statistic de POS Tagging. n acest model privim secvena de tag-uri din text ca pe un lan Markovian. El are urmtoarele dou proprieti: Orizont limitat: Invariana n timp: ( | ) ( | ) Asta nseamn ca tagul unui cuvnt depinde doar de tagul anterior (orizont limitat) i dependena nu se schimb n timp (invariana n timp). Cu alte cuvinte, dac probabilitatea 11

Platforme pentru analiza i generarea semnalului vocal

apariiei unui verb dup un pronume, la nceputul propoziiei este de 0.2%, atunci acest lucru nu se schimb n timp, indiferent de tag-urile pe care le asociem. Notaii: = cuvntul de la poziia i. = tag-ul de la poziia i = cuvintele care apar de la poziia i pn la poziia i+m = tagurile care apar de la poziia i pn la poziia i+m = cuvntul din lexicon de pe poziia l = tag-ul din tagset de pe poziia j = numrul de apariii pentru cuvntul respectiv n corpusul de antrenare = numrul de apariii pentru tag-ul respectiv n corpusul de antrenare = numrul de apariii pentru primul tag, urmat de al doilea tag = numrul de apariii pentru tag-ul respectiv n corpusul de antrenare = numrul de tag-uri din corpus T = numrul de cuvinte din lexicon W = lungimea propoziiei n este estimat din frecvenele relative ale diferitelor tag-uri care urmeaz altor taguri(ecuaia 2.1) ( | )
(2.1)

Cu aceste estimri, putem calcula probabilitile unei secvene particulare de taguri. n practic problema este gsirea celei mai probabile secven de taguri pentru o secven observabil de cuvinte. Putem calcula probabilitatea de emisie a unui cuvnt de ctre o stare anume a sistemului, prin folosirea estimrii Maximum Likelihood: ( | )
(2.2)

Acum, singura problem este gsirea secvenei optime , aplicnd regula lui Bayes: |
(2.3)

, pentru o secven de cuvinte | )

Pe lng proprietatea orizontului limitat, se mai fac nc dou presupuneri despre cuvinte: - Cuvintele sunt independente unul fa de cellalt; - Identitatea unui cuvnt depinde doar de tagul su. | ) ( ) [ Deci formula final este: 12 ( ( ] ) ( ) ( ) ( ) )

Platforme pentru analiza i generarea semnalului vocal

(2.4)

Algoritmul de antrenare pentru un sistem Markov vizibil, dat fiind un corpus adnotat este (Manning i Schutze, 1999):
for all tags do for all tags ( | ) end end for all tags do for all words ( end end | ) do

do

Un algoritm bun pentru gsirea secvenei optime de tag-uri pentru o propoziie de lungime n este agloritmul Viterbi. Este un agloritm inductiv, n care la fiecare pas, se pstreaz cea mai bun soluie de pn n momentul respectiv. Pseudocodul este dat n continuare:
for t PUNCT for i:=1 to n step 1 do for all tags do [ [ end end for j:=n to 1 step end P( -1 do

| |

] |

2.1.3. Transcrierea fonetic


Un element important pentru orice sistem TTS, este reprezentat de transcrierea fonetic. n cazul limbilor cu ortografie fonetic (un exemplu este limba romn) conversia de la litere la sunete (L2P) este o operaie simpl, dar pentru alte limbi acest lucru devine mai complicat. n astfel de situaii se pot folosi lexicoane ns, indiferent de dimensiunea lor, vor exista ntotdeauna cuvinte n afara vocabularului (OOV) pentru care este nevoie de o metod automat de L2P. Pentru conversia L2P este necesar o metod de a surprinde acele reguli dependente de limb, care fac legtura ntre litere i sunete. Regulile pot fi introduse manual de un lingvist sau pot fi deduse automat dintr-un set de perechi de cuvinte i transcrieri fonetice ale acestora. n general algoritmul expectation-maximization (EM) este folosit pentru detectarea celor mai probabile perechi ntre litere i sunete n procesul de aliniere (Black et al. 1998; Jiampojamarn et al. 2008; Pagel et al. 1998). O metod de a obine transcrierea fonetic a cuvintelor OOV se bazeaz pe tratarea acestei probleme ca i cum ar fi una de POS Tagging. Astfel, litere sau grupuri de litere sunt tratate ca nite cuvinte independente. Folosind sisteme Markov se obin pri de vorbire, care 13

Platforme pentru analiza i generarea semnalului vocal

reprezint de fapt transcrierea fonetic a cuvntului format din concatenarea sirului de caractere observabil. Rezultatele obinute pentru limba englez sunt destul de slabe, accurateea la nivel de cuvnt fiind de aproximativ 40% (Taylor, 2005). O alt abordare posibil este utilizarea arborilor de decizie, aceast metod avnd performane mai bune n ceea ce privete acurateea, care este de aproximativ 60% pentru limba englez (Pagel et al. 1998). Pentru limba romn au exista mai multe abordri n rezolvarea problemei L2P, folosindu-se reele neurale (Burileanu et al., 1999b; Josef et al., 2009) sau metode bazate pe reguli (Toma et al., 2009; Ungureanu et al., 2011)

2.1.4. Sinteza prozodic


Din punct de vedere acustic sinteza prozodic impune modelarea pauzelor, a nlimii vocii, a duratei fonemelor i a energiei semnalului vocal. Toate aceste elemente sunt foarte importante pentru a transmite mesajul. n cazul unui vorbitor uman aceste elemente codific mai mult dect sensul strict al cuvintelor din propoziie. Ele pot da informaii att despre starea vorbitorului (plictiseal, nervozitate, entuziasm) ct i despre contextul propoziiei. Mai mult, utilizarea incorect a lor duce la ambiguiti de ntelegere a mesajului. Vom reveni asupra aspectelor legate de nelegerea mesajului mai trziu n acest capitol. Informaia pe care un sistem TTS o poate folosi n sinteza prozodic se rezum n general la elemente superficiale care in de prile de vorbire ale cuvintelor, de punctuaia utilizat, de lungimea propoziiilor i foarte rar de context. Sinteza prozodic are dou nivele: a. La nivel macroprozodic, propoziiile se mpart n fraze prozodice. Conturul frecvenei fundamentale este generat pentru acestea i ntre ele se pot introduce pauze, pot avea loc modificri de nlime a vocii sau lungirea anumitor silabe finale din cuvinte terminale. Aici se ine cont de punctuaia utilizat la finalul propoziiei pentru a stabili tipul acesteia: declarativ, interogativ, exclamativ sau imperativ. n plus se pot aduga marcatori pentru scoaterea n eviden a numitor cuvinte. b. La nivel microprozodic se ine cont de lugimea tipic a fonemelor i de poziia accentului. Modulul prozodic combin ieirile analizatoarelor microprozodic i macroprozodic, stabilind informaia de durat, nlime i energie pentru fiecare fonem. n anumite cazuri, unui singur fonem i se pot aduga mai multe puncte n conturul frecvenei fundamentale. Sistemele actuale sunt statistice sau bazate pe reguli, cele din urm regulile putnd fi introduse manual sau deduse dintr-un corpus mare adnotat corespunztor. n continuare voi prezenta fiecare dintre trasturile ce trebuie modelate i rolul lor: a. nlimea vocii este cel mai expresiv element de prozodie fiind utilizat pentru a transmite sentimentele vorbitorului despre ceea ce spune, sau, n anumite limbi chiar pentru a face diferena ntre cuvinte. De exemplu, n cazul chinezei mandarine exist patru contururi bine definite de tonaliti utilizate pentru a distinge ntre cuvinte (Huang et al.,). n majoritatea limbilor emoia, atenia i starea vorbitorului pot fi deduse din elementele de prozodie. Astfel, variaia foarte mic a tonului n timpul vorbirii, 14

Platforme pentru analiza i generarea semnalului vocal

indic plictiseal, o stare de nervozitate reprimat sau depresie; vorbirea rapid transmite entuziasm etc. n urma analizei macroprozodice, innd cont de tipul propoziiilor (declarative, imperative etc.), se stabilete conturul frecvenei fundamentale. Acest informaie este combinat cu cea obinut n analiza microprozodic pentru fiecare fonem n parte. b. Pauzele joac un rol important n transmiterea corect a coninutului unui mesaj. n general, cuvintele se pronun legat unul de altul, ele fiind separate de pauze numai dac cerinele legate de limbaj impun acest lucru. Scopul principal al modulului prozodic este de a stabili locul n care trebuie s apar pauzele, durata lor fiind pe loc secundar. Sistemul nu trebuie s introduc pauze acolo unde nu este cazul, deorece poate genera ambiguiti. Un exemplu de folosire incorect a pauzelor n vorbire este dat de mesajul transmis de urmtoarele dou propoziii: i. Nu e aici cu nelesul c un obiect sau o persoan nu se afl n locul respectiv. ii. Nu, e aici cu nelesul ca o persoan sau obiect se afl n acel loc. Semnele de punctuaie ofer un indiciu bun pentru separarea frazelor prozodice i introducerea de pauze n vorbire. Cu toate acestea n anumite situaii este necesar o analiz semantic foarte bun pentru a detecta graniele dintre frazele prozodice nemarcate cu semne de punctuaie. c. Durata fonemelor este de cele mai multe ori legat de conturul lui F0, avnd n comun multe atribute care le determin pe amndou, dar din motive pragmatice cele dou probleme sunt tratate separat (Wang, 1999). Dei o analiz semantic este de preferat n cazul determinrii duratei fonemelor, studiile au artat c, cel puin pentru anumite limbi, o analiz limitat de context este suficient n majoritatea situaiilor pentru a obine rezultate acceptabile (Plumpe i Meredith, 1999). Astfel, se folosete o fereastr limitat de context, centrat pe fonem, a crei durat trebuie stabilit i se ine cont de urmtoarele atribute: identitatea fonemului, prezena accentului lexical, fonemul din stnga i fonemul din dreapta. d. Accentuarea cuvintelor n fraz este un fenomen legat de procesul de transmitere corect a mesajului. Unele sisteme utilizeaz pentru determinarea cuvintelor accentuate un model format din tipul propoziiei, partea de vorbire a cuvntului i un istoric contextual de cuvinte care au fost accentuate nainte. Un sistem complet de sintez prozodic pentru limba romn, folosete metode bazate pe reguli pentru preprocesarea textelor, silabificare i modelarea conturului F0 , metode statistice pentru poziionarea accentului i utilizeaz reele neurale pentru transcrierea fonetic (Burileanu i Negrescu, 2006).

2.2. Sinteza vorbirii


2.2.1. Sinteza concatenativ
Metodele de sintez bazate pe corpus obin cele mai bune rezultate n materie de inteligibilitate i naturalee a vocii sintetizate. n sinteza concatenativ, vocea este sintetizat 15

Platforme pentru analiza i generarea semnalului vocal

prin redarea unor segmente acustice, care sunt selectate din corpus dup criterii legate de context i prozodie. Exist o serie de elemente care trebuie luate n calcul n momentul n care se construiete un sistem TTS bazat pe concatenare (Huang et al., 2001): a. Tipul de uniti acustice ce urmeaz a fi folosit. Astfel, se pot utiliza foneme, difoneme (uniti acustice fomate din perechi de foneme alturate), trifoneme (trei foneme alturate), silabe, cuvinte sau propoziii. b. Modul n care urmeaz s se realizeze inventarul acustic n funcie de un set de propoziii deja existent (nu n toate situaiile se pot obine suficiente uniti acustice); sau n cazul n care se fac nregistrri noi, trebuie stabilit ce anume se va nregistra. c. Cum se va alege cea mai bun secven de uniti acustice pentru a se potrivi att cu textul ct i cu prozodia acestuia. d. Cum se va modifica prozodia segmentelor alese pentru a obine rezultatul dorit. Considernd c inventarul fonetic al unei limbi are dimensiunea N, numrul de difoneme necesar pentru a sintetiza orice cuvnt din limba int este teoretic N2, iar n cazul trifonemelor N3. Cu toate acestea numrul de astfel de uniti este mult mai mic, deoarce nu toate combinaiile sunt posibile. De exemplu pentru limba romn se poate utiliza un inventar redus de 630 de difoneme (Burileanu i Negrescu, 2006). n momentul concatenrii pot aprea anumite discontinuiti la nivel spectral sau prozodic care nu pot fi evitate. Pentru a reduce efectul produs de acestea, este recomandat folosirea unor uniti acustice cu lungime mai mare. Este de menionat c o discontinuitate la nivelul unei vocale este mai observabil dect la nivelul unei consoane fricative, iar o discontinuitatea aflat n interiorul unei silabe este mai perceptibil dect o discontinuitate aflat la grania dintre dou silabe. Generalitatea unui sistem TTS se refer la posibilitatea utilizrii lui n sinteza unui text arbitrar. De exemplu, ntr-un sistem de asistare GPS indicaiile pe care acesta le d se rezum la cteva tipuri de propoziii, direcii i numere. n astfel de situaii, unitile acustice alese pot s fie fraze sau cuvinte. Alegerea optim a unitilor folosite n concatenare se face n general cu algoritmul Viterbi, ncercnd minimizarea unei funcii format din dou costuri: costul de model i costul de concatenare. Costul de model este calculat n funcie de diferenele prozodice ale segmentului folosit i cele impuse de context, iar costul de concatenare msoar ct de bine se vor potrivi dou segmente acustice adiacente. n practic, costul de concatenare are un rol foarte important n asigurarea calitii vocii obinute, fiind obiectul mai multor studii de-a lungul anilor (Pantazis et al. 2005; Black i Hunt, 1996; Vepa i King, 2004).

2.2.2. Algoritmi de modificare prozodic a segmentelor acustice


Datorit variaiei prozodice foarte mari, de la un context la altul, unitile acustice extrase n momentul crerii bazei de date nu sunt ntotdeauna potrivite pentru sinteza unui anumit text arbitrat. Pentru a compensa acestu lucru este necesar modificarea energiei, a duratei i a nlimii vocii pentru segmentele utilizate n concatenare. 16

Platforme pentru analiza i generarea semnalului vocal

Modificarea energiei se realizeaz direct prin operaia de nmulire. Pentru durat i nlime lucrurile sunt mai complicate. Algoritmii descrii n continuare sunt folosii pentru modificarea prozodic a segmentelor acustice folosite n concatenare (Huang et al., 2001). SOLA Este un algoritm utilizat pentru modificarea duratei segementelor acustice, foarte eficient pentru compresia semnalului vocal. Pentru analiz se folosete o serie de ferestre Hanning (ecuaia 2.1) de dimensiune 2N care sunt aezate la distan fN una fa de cealalt. Aceste ferestre sunt folosite pentru a multiplica semnalul original. ( ) 2.1 n momentul reconstruciei, acestea sunt aezate la distan N una fa de cealalt. Dac f=1, atunci reconstrucia semanlului este perfect. Figura 2.1 arat rezultatele obinute prin metoda SOLA pentru reducerea duratei semnalului vocal.

Figura 2.1 SOLA folosit pentru reducerea duratei unui semnal vocal (imagine preluat dupa Huang, 2001)

PSOLA Pitch Sincronous Overlap Add (PSOLA) este o tehnic n prelucrarea digital a semnalelor folosit att pentru modificarea temporar a unui semnal ct i pentru modificarea frecvenei fundamentale a acestuia. Spre deosebire de SOLA, ferestrele de analiz sunt aezate n funcie de valoarea frecvenei fundamentale. Acest lucru presupune cunoaterea apriori a acesteia, lucru care se poate realiza n mod automat prin aplicarea unui algoritm pentru detecia F0 (PDA). O soluie optim n acest sens nu a fost gsit nc, existnd o varietate mare de algoritmi, mprii n dou categorii: - Algoritmii PDA n domeniul timp, care utilizeaz funcia de autocorelaie, obinnd rezultate bune n cazul semnalelor periodice. 17

Platforme pentru analiza i generarea semnalului vocal

Algoritmii PDA n domeniul frecven, care funcioneaz n general prin analiza spectral a semnalului. nainte de aplicarea algoritmului PSOLA pentru un segment acustic trebuie stabilit dac acesta este vocalizat sau nevocalizat. n cazul n care semnalul este vocalizat el se poate scrie ca o funcie dependent de periodicitatea frecvenei fundamentale F0 (ecuaia 2.2). (2.2)

[ ] sunt epoci ale semnalului, astfel nct diferena dintre dou epoci adiacente [] [ ] s aib valoarea lui F0 la momentul [ ] ca numr de eantioane. Funcia este obinut prin ferestruirea semnalului original (ecuaia 2.3). (2.3) Alegerea tipului de fereastr precum i lungimea acesteia se face n funcie de condiia impus de ecuaia 2.4. Acest condiie este respectat dac se utilizeaz fereastra Hanning cu [ ] (care este, de fapt, de dou ori valoarea frecvenei lungime fundamentale). ( ) (2.4)

Scopul final este de a sintetiza un semnal care are aceleai caracteristici spectrale ca i dar cu alte valori pentru F0 i durat. Acest lucru se face prin nlocuirea valorilor folosite la pasul de analiz cu , care sunt valorile dorite pentru semnalul sintetizat (ecuaia 2.5). (2.5)

Pentru zonele nevocalizate din semnal, valorile sunt distribuite uniform peste eantioane, n aa fel nct spaierea s se fac la intervale mai mici de 10ms. n cazul n care se dorete modificarea duratei n timp a segmentelor, acestea trebuie repetate de mai multe ori i pentru a evita o periodicitate creat artificial, acestea se inverseaz n timp. MBROLA Multiband Resynthesis Overlap and Add este un alt algoritm de sintez a vorbirii, care lucreaz n domeniul timp i care are avantajul de a netezi discontinuitile spectrale care apar n cazul TD-PSOLA. Situaia optim pentru algoritmul PSOLA este atunci cnd toate ferestrele de analiz sunt identice (Dutoit i Leich, 1993). Pentru ca acest lucru s fie posibil, baza de date trebuie s aib urmtoarele proprieti: a. Toate cuvintele trebuie pronunate cu un ton constant; b. Interpolarea spectral ntre segmentele concatenate trebuie s fie uor de realizat din punct de vedere computaional. 18

Platforme pentru analiza i generarea semnalului vocal

Pentru a rezolva cerinele impuse mai sus, MBROLA resintetizeaz segmentele acustice nainte de utilizarea acestora n sintez. Acest lucru se face n faza de creare a bazei de date, n aa fel nct, n momentul concatenrii, operaiile asupra segmentelor s fie minime ca numr i complexitate (figura 2.2)
Start (segmente acustice)

Analiz MBE

Segment Vocalic

Proces de rearmonizare

R sint z s gm nt

Stop (segmente MBROLA)

Figura 2.2 resinteza MBROLA

Fazele semnalelor sunt resetate n momentul resintezei iar calitatea vocii sintetizate depinde foarte mult de strategia folosit n acest pas. n cazul n care se folosesc valori constante sau distribuite liniar va aprea un efect nedorit de voce metalic. De asemenea, s-a artat c rezultate bune se obin dac frecvenele nalte sau joase sunt lsate nemodificate (cu faza iniial neschimbat) (Dutoit i Leich, 1993).

2.2.3. Metode de evaluare a sistemelor TTS


Evaluarea i compararea sistemelor TTS se face n funcie de inteligibilitatea, naturaleea i aplicabilitatea acestora n diferite domenii. Aceste atribute sunt imposibil de msurat n mod automat, fiind nevoie de implicarea unor subieci umani n procedura de testare. Acetia sunt rugai s asculte un set de silabe, cuvinte sau propoziii i s rspund la un set de ntrebri. De menionat c exist factori subiectivi care pot afecta rezultatele: - n cazul testelor de inteligibilitate, reevaluarea unui sistem de ctre acelai grup de subieci duce la creterea artificial a rezulatelor, chiar dac setul de date este schimbat; - Stresul sau distragerea ateniei pot afecta n mod negativ rezultatele. Metode de testare a inteligibilitii pentru segmente izolate Aceste metode au n vedere inteligibilitatea unui singur segment izolat. Exist dou grupuri de teste utilizate mai des n acest scop i anume testele bazate pe rim i testele pe cuvinte fr sens. Primul grup este mai avantajos prin faptul c numrul de stimuli este redus, 19

Platforme pentru analiza i generarea semnalului vocal

procedura de testare fiind redus ca timp i utilizatorii nu au nevoie de instruire nainte de a participa la evaluarea sistemului TTS (Jekosh, 1993). n plus efectele date de antrenarea subiecilor umani pentru setul de date dat sunt neglijabile iar rezultatele sunt utile n a ajuta la localizarea problema i a observa care foneme creaz confuzie. a. Diagnostic Rhyme Test (DRT) a fost introdus de Fairbanks n 1958 i folosete un set izolat de cuvinte care difer doar prin prima consoan. Utilizatorul ascul cuvinte monosilabice pronunate izolat i alege ceea ce a auzit dintr-o list de dou variante posibile. b. Modified Rhyme Test (MRT) este o extensie a DRT folosit pentru a stabili inteligibilitatea att pentru prima ct i pentru ultima consoan. Testul const ntr-un numr de 50 de grupuri de cte 6 cuvinte. Utilizatorul ascult fiecare grup de ase cuvinte rostite separat i marcheaz apoi ntr-o list cu variante multiple cuvintele pe care consider c le-a auzit. Primele 3 cuvinte sunt utilizate pentru stabilirea inteligibilitii primei consoane, iar ultimile 3 cuvinte pentru inteligibilitatea ultimei consoane. Vocea uman primete un scor de aproximativ 99% la testul MRT, iar cele mai bune sistem TTS au valori situate ntre 70% i 95% (Huang et al., 2001). c. Diagnostic Medial Consonant Test (DMCT) este tot un test bazat pe cuvinte care rimeaz numai c n acest caz ele sunt bisilabice i sunt alese n aa fel nct s difere printr-o singur fonem median. d. Standard Segmental Test (SST) folosete liste de cuvinte fr sens de forma consoan-vocal, vocal-consoan i vocala-consoan-vocal. Utilizatorul trebuie s completeze ntr-un formular consoana lips din cuvntul pe care tocmail l-a ascultat. e. Cluster Identification Test (CLID) este un test n care vocabularul folosit nu este predefinit. Transcrierea fonetic a cuvintelor este generat automat dup o structur data (de exemplu CVCCV) apoi este convertit n grafeme (deorece majoritatea sistemelor TTS nu accept dect acest mod de a introduce datele). Utilizatorii ascult cuvintele sintetizate i completeaz ce au auzit ntr-un formular cu rspuns deschis (pot scrie rspunsul att la nivel grafemic ct i fonemic). f. Phonemically Balanced Word Lists (PB) este un test care folosete o list de cuvinte monosilabice. Lista este balansat din punct de vedere fonetic deoarece cuvintele sunt alese n aa fel nct s aproximeze relativ numrul de apariii al fiecrui fonem specific limbii. Metode de testare a inteligibilitii unui cuvnt la nivel de propoziie Aceste teste sunt folosite pentru a msura inteligibilitatea unui sistem TTS cu ajutorul unor propoziii alese n aa fel nct cuvintele din ele s respecte frecvena relativ de apariie specific limbii int. a. Harvard Psychoacoustic Sentences este un set prestabilit de 100 de propoziii folosite pentru a testa inteligibilitatea unui cuvnt n fraz. Propoziiile sunt alese n aa fel nct anumite secvene de foneme s respecte frecvena de apariii specifice limbii engleze. Dezavantajul const n faptul c este un set 20

Platforme pentru analiza i generarea semnalului vocal

nchis de propoziii i efectul de nvare nu poate fi ignorat n momentul n care se folosete acelai grup de oameni. b. Haskins Sentences este un set de propoziii asemntor cu cel de la Harvard cu singura diferen c aceste propoziii sunt lipsite de sens i cuvntul care nu se nelege corect nu poate fi dedus din context. c. Semantically Unpredictable Sentences (SUS) este tot un test de inteligibilitate numai c n acest caz cuvintele pe care se face testul sunt alese dintr-un set de candidai formnd astfel la fiecare testare propoziii noi. Propoziiile sunt de forma: subiect-verb-adverb, subiect-verb-obiect, adverb-verb-obiect, adverb interogativ-verb-obiect, subiect-verb-obiect complex. Metode de evaluare la nivel prozodic Inteligibilitatea unui segment sau a unui cuvnt nu garanteaz percepeia corect a mesajului transmis, de aceea testele menionate pn acum sunt utile doar din anumite puncte de vedere. Mai mult, o rat de inteligilitate de 100% nu este obligatorie pentru ca un sistem s fie considerat inteligibil. O metod complet de testare a unui sistem TTS trebuie s aib n vedere i evaluarea din punct de vedere prosodic al acestuia. Testul funcioneaz n felul urmtor: un set de propoziii sunt sintetizate pentru forma imperativ, neutr i interogativ, apoi utilizatorii sunt pui s asculte propoziiile i s aleag tipul fiecreia. Metode de evaluare general a sistemelor TTS Testele pentru evaluarea general a sistemelor TTS au la baz Mean Opinion Score (MOS). Scorul MOS este o medie aritmetic a notelor date de un grup de experi umani pentru o serie de propoziii sintetizate. Iniial, acest tip de evaluare a fost folosit pentru sistemele de compresie a vocii.

21

Platforme pentru analiza i generarea semnalului vocal

3. Aplicaii de sintez a vorbirii


3.1. Aplicaii comerciale
Ivona este un sistem TTS multilingv cu suport pentru limba romn. Aceast aplicaie folosete o baz de date foarte mare de uniti ne-uniorme i un algoritm numit Unit Selection Algorithm with Limited Time-scale Modifications (USLTMS). Scorul MOS raportat de ctre autori pentru IVONA este de 3.9 (Kaszczuk and Osowski, 2006). Baum Engineering a dezvoltat sistemul TTS Moromete despre care nu se dau prea multe detalii dar, la o prim ascultare pare s fie vorba de sintez concatenativ cu MBROLA.

3.2. Aplicaii gratuite


Google TTS este un API introdus de Google de curnd pentru a permite sinteza vorbirii. Momentan motorul se poate folosi gratuit ns este limitat la un numr de 100 de caractere. n spate Google folosete mai multe aplicaii TTS n funcie de limba int, vocea pentru limba romn fiind obinut prin sintez formantic. Evaluarea acestui sistem nu a fost posibil din cauza faptului ca ultima consoan nu se auzea niciodat. MBROLA este o aplicaie care permite sintez concatenativ cu un inventar de difoneme i folosete algoritmul cu acelai nume n prelucrarea segmentelor acustice. MBROLA nu este un sistem TTS complet deoarece modulul de prelucrare a limbajului natural lipsete. Pentru a putea sintetiza voce, utilizatorul trebuie s introduc datele n formatul acceptat de aplicaie: 1. Numele fonemului 2. Durata n milisecunde a acestuia 3. Un set de valori reprezentnd valorile de referin pentru nlimea vocii i durata lor relativ. Nefiind un sistem TTS complet, am ales s nu evaluam MBROLA ci mai degrab un produs care folote sintetizatorul MBROLA i introduce un modul de prelucrare a limbajului natural numit Phobos TTS. Universitatea Tehnic din Cluj-Napoca mpreun cu Centre for Speech Technology Research a creat primul sistem TTS pentru limba romn bazat pe Modele Markov Ascunse utiliznd sistemul HTS. Aplicaia folosete pentru antrenare corpusul Romanian Speech Synthesis (RSS) (Stan et al., 2010)

3.3. Evaluarea sistemelor


Pentru evaluarea sistemelor TTS am folosit dou criterii i anume Standard Segmental Test (SST) i scorul MOS. n cazul SST am folosit 50 de cuvinte fr sens de forma CVC, VCV iar pentru scorul MOS au fost folosite notele date de 4 utilizatori pentru 10 propoziii. Ivona i sistemul TTS de la UTC au obinut scoruri comparabile la testul SST, ns acestea au fost departe de scorul obinut de Moromete (83%). O problem constatat la sistemul Ivona, care a redus scorul SST obinut, este pronunia greit a literei j situat la nceputul cuvintelor. Aceast problem este aparent dat de segmentarea incorect a unit ilor acustice, 22

Platforme pentru analiza i generarea semnalului vocal

lucru care rezult din faptul c j a fost precedat de consoan g n vocea sintetizat dei aceasta nu aprea n text. Sistemul TTS de la Google nu a putut fi testat cu SST deoarece ultimul fonem nu se auzea niciodat n cazul n care acesta era o consoan iar vocalele erau tiate abrupt. O alt observaie este aceea c au existat probleme de nelegere la sistemul Phobos TTS chiar i atunci cnd s-au folosit propoziii normale din demo-ul de pe site-ul lor n care se citea un pasaj din Domnul Goe de I. L. Caragiale. Dei Moromete a obinut cel mai mare scor SST i a ieit n eviden prin articularea extrem de clar a consoanelor, naturaleea general a vocii a fost sub cea a sistemelor IVONA i TTS UTC. Tabelul 3.1 arat rezultatele obinute la teste. Sistem TTS Ivona TTS TTS UTC Phobos TTS Google TTS Moromete TTS SST MOS A2 Total A 1 A 2 A3 A4 75% 72.50% 3.6 4.8 4.6 4.6 3.6 4 68% 66.00% 4 4 40% 40.00% 2 1.2 2.2 2.2 1.4 0% 0.00% 1 2 2 2.8 80% 83% 3.2 3.2 3 Tabel 3.1 Rezultate SST i SUS

A1 70% 64% 40% 0% 86%

Total 4.40 3.90 1.90 1.60 3.05

23

Platforme pentru analiza i generarea semnalului vocal

4. Concluzii
n prima parte a lucrrii am evideniat aspecte legate de modul de producere al vorbirii i caracteristici, din punct de vedere acustic, ale sunetelor din limba romn. De asemenea, am dat o atenie deosebit modulului de prelucrare a limbajului natural i am explicat pai i ce trebuie urmai n prelucrarea textului nainte ca vocea s fie sintetizat de ctre modulul DSP. Am evideniat problemele legate de normalizarea textului, dezambiguizarea omografelor neomofone, transcrierea fonetic, detectarea accentului, generarea conturului F0 i stabilirea locului unde trebuie plasate pauzele n vorbire. Acolo unde a fost cazul am menionat soluiile propuse pentru limba romn i unde s-a putut am scos n eviden rezultatele obinute de aceastea. n ceea ce privete metodele de sintez a vorbirii am pus accent pe o serie de algoritmi utilizai pentru modelarea prozodiei n cazul sintezei concatenative. De menionat este faptul c nivelul de inteligibilitate i naturalee al unui sistem TTS nu este dependent doar de modulul DSP, prelucarea limbajului natural i sinteza prozodic jucnd un rol foarte important n acest sens. Mai mult, fr o modelare prozodic foarte bun, chiar dac o voce sintetic este inteligibil i natural acest lucru nu garanteaz transmiterea corect a mesajului din text. Din aceste considerente, am ales s prezint i o serie de metode de evaluare a sistemelor TTS mprite n: metode de testare a inteligibilitii pentru segmente izolate; metode de testare a inteligibilitii unui cuvnt la nivel de propoziie; metode de evaluare la nivel prozodic i metode de evaluare general. n finalul lucrrii am evaluat cinci astfel de sisteme pentru limba romn: Ivona, UTC, Phobos, Google i Moromete. Dup cum s-a putut observa din rezultate, este important folosirea combinat a mai multor teste din categorii diferite, pentru a surprinde calitatea unui TTS. Scorul Moromete pentru testul SST a fost de departe cel mai bun rezultat obinut de vreun sistem. Cu toate acestea, scorul MOS, care reflect calitatea general a sistemului TTS a scos n eviden sistemele Ivona i UTC.

24

Platforme pentru analiza i generarea semnalului vocal

5. Referine bibliografice
1. Black, A., Lenzo, K. i Pagel, V. Issues in building general letter to sound rules. ESCA Speech Synthesis Work-shop, Jenolan Caves, 1998. 2. Burileanu, D., Contribuii la sinteza vorbirii din text pentru limba romn. Tez doctorat, 1999 3. Burileanu, D. i Dan, C., Principii i tehnici de baz n prelucrarea digital a semnalelor. Editura Printech, 2000, ISBN 973-652-127-3 4. Burileanu, D., Sima, M., i Neagu, A. (1999b). A phonetic converter for speech synthesis in romanian. Proceedings of the XIVth Congress on Phonetic Sciences (ICPhS), San Francisco, CA, vol. 1, pp. 503506, 1999 5. Burileanu, D. i Negrescu, C. Prosody modeling for an embedded TTS system implementation. 14th European Signal Processing Conference (EUSIPCO 2006), Florence, Italy, September 4-8, 2006 6. Burileanu, D., Negrescu, C., Prosody Modeling for an Embedded TTS System Implementation. Proceedings of the 14th European Signal Processing Conference EUSIPCO 2006, Florence, pp. 715718, 2006 7. Dutoit, T. i Leich, H., MBR-PSOLA: Text-To-Speech Synthesis based on an MBE Re-Synthesis of the Segments Database. Speech Communication, Elsevier Publisher, November 1993, vol. 13. 8. Dutoit, T. A Short Introduction to Text-to-Speech Synthesis, http://tcts.fpms.ac.be/synthesis/, accesat la 12.07.2011 9. Fant, G., Acoustic Theory of Speech Production., Mouton De Gruyter, 1970, ISBN 90-279-1600-4 10. Huang, X., Acero, A., Hon, H.W. Spoken Language Processing. Prentice-Hall, Englewood Cliffs, NJ, 2001 11. Hunt, A., Black, A. (1996). Unit selection in a concatenative speech synthesis system using a large speech database. Proceedings of IEEE int. conf. acoust., speech, and signal processing (vol. 1, pp. 373376). 12. Jiampojamarn, S., Cherry, C. i Kondrak, G. Joint processing and discriminative training for letter-to-phoneme conversion. Proceedings of ACL-2008: Human Language Technology Conference, pp. 905913, Columbus, Ohio, June, 2008. 13. Jozsef, D., Ovidiu, B. i Gavril, T. Automated grapheme-to-phoneme conversion system for Romanian. Speech Technology and Human-Computer Dialogue (SpeD), 2011 14. Kaszczuk, M. i Osowski, L. Evaluating Ivona Speech Synthesis System for Blizzard Challenge 2006, Blizzard Workshop, 2006. 15. Manning, C. D., i Schutze, H. Foundations of statistical natural language processing. Cambridge Massachusetts: MIT Press, 1999. 16. Ungurean, C., Burileanu, D., Popescu, V. i Dervi, A. Hybrid syllabification and letter-to phone conversion for tts synthesis. U.P.B. Sci. Bull., Series C, Vol. 73, Iss. 3, ISSN 1454-234x, 2011

25

Platforme pentru analiza i generarea semnalului vocal

17. Ordean, M., Saupe, A., Ordean, M., Gorgan, D. Componentele unui sistem de sinteza text-vorbire. A 6-a Conferinta Nationala de Interactiune Om-Calculator, RoCHI2009, Cluj-Napoca, Romania, 2009 18. Pagel, V., Lenzo, K. and Black, A., Letter to sound rules for accented lexicon compression, International Conference on Spoken Language Processing, Sydney, Australia, 1998 19. Pantazis, Z., Stylianou, Y., i Klabbers, E. Discontinuity detection in concatenated speech synthesis based on nonlinear speech analysis. Proc. of Interspeech 2005, Lisbon, Portugal, 2005, pp. 2817-2820 20. Stan, A., Yamagishia, J., Kinga, S. i Aylettc, M. The Romanian Speech Synthesis (RSS) corpus: building a high quality HMM-based speech synthesis system using a high sampling rate. 2010 21. Taylor, P. Hidden Markov Models for grapheme to phoneme conversion. Proceedings of the 9th European Conference on Speech Communication and Technology, 2005. 22. Toma, S. A., Munteanu, D.P. Rule-Based Automatic Phonetic Transcription for the Romanian Language. Computation World: Future Computing, Service Computation, Cognitive, Adaptive, Content, Patterns, 2009 23. Vepa, J., & King, S. Join cost for unit selection speech synthesis. Text to speech synthesis: new paradigms and advances. New York: Prentice Hall (pp. 3562), 2004. 24. Zen, H., Tokuda, K., Masuko, T., Kobayashi, T., Kitamura, T. A hidden semi-Markov model-based speech synthesis system. IEICE Trans. Inf. Syst. E90-D (5), 825834, 2007.

26