Documente Academic
Documente Profesional
Documente Cultură
Grant:
Introducere
In prima parte a lucrrii se prezint studiile realizate asupra cercetriolor din
domeniul procesrii vorbirii, n principal asupra produselor cu interactivitate vocal aprute pe
plan internaional.
Au fost analizate mai nti principalele aplicaii disponibile utilizate n prelucrarea i
analiza semnalului vocal, cum ar fi: mediul de analiz i dezvoltare Matlab, mediul de
instrumentaie virtual LabView, programele de prelucrare audio Goldwave i CoolEdit.
A fost fcut de asemenea o sintez a situaiei interne i internaionale n domeniul
sistemelor i aplicaiilor de procesare a vorbirii.
In a doua parte a lucrrii au fost prezentate cercetrile efectuate asupra metodelor
de analiz i prelucrare a semnalului vocal, dar i asupra metodelor de codare n vederea
transmiterii datelor audio la distan.
Au fost studiate metodele existente de analiz i prelucrare a semnalului vocal, att
metode de analiz n domeniul timp, cum ar fi: metoda autocorelaiei, metoda funciei
diferen de amplitudine medie, metoda cu limitare central, dar i metode de analiz n
domeniul frecven : analiza prin banc de filtre digitale, analiza Fourier, analiza prin predicie
liniar, analiza cepstral, analiza perceptual.
Au mai fost studiate metodele de codare i compresie a semnalului vocal, precum i
standardele de compresie a semnalului audio de nalt fidelitate.
Al treilea obiectiv al lucrrii de fa este prezentarea cercetrilor asupra metodelor de
sintez i recunoatere a vocii, precum i a metodelor proprii concepute, metode utilizate n
sistemul vocal interactiv care a fost proiectat i realizat n faz de prototip.
procesul conversiei unui text in limbaj vorbit, numit text-to-speech. In cadrul acestui
proces, are loc o analiz lingvistic a textului pentru a-l separa in uniti lexicale
(cuvinte, silabe i foneme), apoi unitile lexicale sunt convertite in semnale sonore
care sunt combinate in final pentru a genera vorbirea continua [Wou00],[Mob00].
Astzi se folosesc noi metode pentru sinteza de voce, care s asigure o calitate ct
mai bun a sintezei, calitate apropiata de vorbirea naturala. Metodele cele mai utilizate se
bazeaz pe principiul PSOLA (Pitch Synchronous Overlap and Add), in care procesarea
vorbirii se realizeaz in domeniul timp [Hos00], [Tat05], [Tro02] sau metode bazate pe corpus,
care folosesc cantiti mari de date achiziionate in urma rostirii naturale a unui text [Mob00].
un modul numit Application Builderce permite obinerea de aplicaii de sinestttoare care pot fi distribuite ca programe executabile;
conectivitate cu alte surse de date sau cu alte aplicatii din reea prin interfee OLE,
DDE, NetDDE sau DLL, legturi SQL i protocoale TCP/IP sau UDP;
exemplu de codare entropic de lungime variabil este codarea Huffman, care presupune o
parcurgere a-priori a semnalului pentru gruparea eantioanelor i stabilirea claselor de valori.
Codarea Huffman poate de exemplu folosi o grupare a valorilor eantioanelor pe segmente
corespunztoare vocalelor i consoanelor, n cazul consoanelor (care au valori ale
eantioanelor mult mai mici comparativ cu vocalele) putndu-se folosi o codificare mai
condensat. Spre deosebire de codarea Huffman, codarea aritmetic nu codeaz
eantioanele pe grupe sau blocuri, ci ea caut secvene de valori identice ale semnalului,
crora le atribuie anumite simboluri dintr-un dicionar sau cuvinte de cod.
O metod care se folosete pentru eliminarea redundanei semnalului este codarea
predictiv [Feh93]. Metoda se utilizeaz pentru codarea vorbirii, dar i a imaginii i a surselor
de date, n vederea transmiterii informaiei la distan. Metoda urmrete s elimine din
semnal ceea ce poate fi prezis despre el la receptor. Predictorii de la receptor i de la
transmitor trebuie s funcioneze sincron, pe baza aceluiai set de reguli.
Tehnica cea mai uzual ce se bazeaz pe metoda prediciei se numete modulaia
diferenial a impulsurilor de cod ( DPCM Differential Pulse Code Modulation ).
Schema bloc a codorului DPCM este ilustrat n figura 2.1.
x(n)
e(n)
i(n)
Q
xp(n| n-1,n-2,...,n-p)
Predictor
ep(n)
xp(n)
x p ( n | n 1, n 2,..., n p) a k x p (n k ) ,
(2.1)
k 1
x p (n k ) x p (n k | n k 1, n k 2,..., n k p ) e p ( n k ) (2.2)
La fiecare pas, eroarea de predicie e cuantizat ntr-o valoare e p(n) de ctre
cuantizorul Q, care totodat genereaz i secven de indici i(n).
Astfel, semnalul x(n) va putea fi reconstruit pe baza valorilor e p(n) recepionate de la
transmitor. Utilizarea metodei DPCM e susinut de faptul c variaia semnalului diferen
ep(n) e mai mic dect variaia eantionului x(n). Astfel, presupunnd acelai debit de codare
i acelai cuantizor, tehnica DPCM aduce o mbuntire de aproximativ 6 dB a raportului
semnal/zgomot fa de codarea PCM.
Pentru tratarea nestaionaritii semnalului vocal se folosesc metode de codare
adaptive. Principiul de baz al adaptrii este de a realiza n codor estimarea unor aspecte
statistice ale semnalului vocal, precum energia, frecvena sau valorile spectrale [Feh93].
e(n)
b(n) = 1
xp(n| n-1)
Predictor
xp(n)
Informaia
de adaptare
(2.3)
x p (n) x p ( n 1) G n b( n) .
(2.4)
Zgomot de
suprapant
Zgomot granular
G n Gn 1 f (bn 1 , bn 2 , bn 3 ) ,
(2.5)
unde funcia f() ia valorile 1 sau 0 dup cum bn-1, bn-2 , bn-3 sunt sau nu toate de acelai semn.
Modulaia delta cu adaptare instantanee are ctigul :
G n G n 1 M (bn 1 , bn 2 ) ,
(2.6)
unde M ia una din dou valori dup cum b n-1, bn-2 sunt sau nu de acelai semn : M va fi
supraunitar pentru predicia de suprapant, i subunitar pentru predicia de granularitate.
Deosebirea dintre cele dou metode este c adaptarea silabic este mai lent, avnd
ca efect micorarea zgomotului de granularitate, dar i creterea zgomotului de suprapant.
La adaptarea instantanee crete zgomotul de granularitate, dar algoritmul se adapteaz rapid
la variaiile de suprapant.
2.1.2. Metode i standarde de compresie a semnalului vocal
Codarea predictiv DPCM i cea adaptiv ADPCM descrise anterior, din cauza
faptului c ele reduc debitul de date prin codare, se folosesc de asemeni i n procesul de
compresie a semnalului vocal. Bazat pe tehnica ADPCM, mai exist o metod de compresie
pe subbenzi numit SB-ADPCM. Lrgimea de band disponibil este mprit pe mai multe
subbenzi separate, pe care apoi este aplicat algoritmul adaptiv de modulare diferenial a
impulsurilor n cod, crescnd astfel acurateea codrii precum i lrgimea de band care
poate fi transmis. Rata de date la aceste metode variaz ntre 64kbps i 48kbps [Vla97].
O alt metod de compresie este numit compresia prin transformri, n care se
urmrete mprirea semnalului de la intrare n segmente sau blocuri i obinerea unei
transformri digitale pentru fiecare segment sau bloc de date considerat. Pentru fiecare
segment se calculeaz anumii coeficieni de transformare, care vor condensa energia
semnalului i vor fi transmii pe canalul de comunicaie.
Principiul compresiei prin transformri, ilustrat n figura 2.4, este urmtorul :
Dac la intrare avem un vector N-dimensional U(1..N), cu valoare medie nul, printr-o
transformare liniar A obinem un vector complex V(1..N) cu componente care sunt
necorelate mutual. Componentele din vectorul V se cuantizeaz independent i se transmit
pe canal. La receptor, vectorului V c obinut din cuantizarea lui V i se aplic o transformare
invers B pentru a recompune aproximarea vectorului iniial U, care este U r.
Vc
Ur
u(1)
u(2)
.
.
u(N)
v(1)
v(2)
.
.
v(N)
vc(1)
vc(2)
.
.
vc(N)
ur(1)
ur(2)
.
.
ur(N)
Tr A
Tr B
Intrare audio
Banc de filtre :
Conversia
timp-frecven
Model
psihoacustic
Semnal codat
Alocarea nivelelor
de cuantizare i
codare
Formatare
x
Figura 2.6. Funcie fereastr utilizat n ponderare
Mai departe, analiza semnalului vocal poate fi fcut n dou moduri, innd cont de
domeniul de analiz: n domeniul timp i n domeniul frecven. Analiza n domeniul timp
presupune determinarea proprietilor semnalului vocal din studierea formei de und a
semnalului, privit ca variaia valorilor eantioanelor vocale n funcie de timp. Analiza n
domeniul frecven presupune determinarea spectrului de frecvene a semnalului i
determinarea parametrilor dorii pe baza formei spectrale.
M ( n)
unde:
1
N
| x(m) | w(n m)
(2.7)
E ( n)
1
N
(2.8)
NTZ
(2.9)
1, n 0
1, n 0
sgn(n)
(2.10)
sonore numrul trecerilor prin zero este mai redus, n timp ce n segmentele nesonore acest
parametru este mai ridicat.
Frecvena fundamental este un parametru deosebit de important folosit att n
sinteza ct i n recunoaterea vorbirii. Frecvena fundamental corespunde cu periodicitatea
semnalului vocal. Determinarea acestui parametru nu se poate face ntotdeauna cu
exactitate, din cauza variabiliti semnalului vocal chiar pe poriuni scurte de timp. Rostirea
vocalelor prezint o frecven fundamental ce poate fi determinat, pe cnd consoanele,
care sunt rostiri neperiodice, nu au frecven fundamental.
Dintre metodele uzuale de determinare a frecvenei fundamentale a semnalului vocal
amintim urmtoarele:
A. Metoda autocorelaiei
Metoda se bazeaz pe calculul funciei de autocorelaie a semnalului vocal, care ne
d informaii despre interdependena temporal a eantioanelor. Funcia de autocorelaie se
definete astfel [Sto84]:
Rn ( k )
unde
N k 1
(2.11)
m 0
D ( n)
1
N
N 1
| s
k 0
s k n |
, cu 0 n N 1
(2.12)
x ( n) P , x ( n) 0
x ( n) P , x ( n) 0
x ( n)
(2.13)
FTB 1
Transformare
neliniar
FTB 2
Transformare
neliniar
x(n)
.
.
.
FTB N
x1(n)
x2(n)
.
.
.
Transformare
neliniar
xN(n)
unde:
F0
Excitaie
Parametrii
tractului vocal
Filtru variabil
H(z)
s(n)
H ( z)
G
p
1 a k z k
G
A( z )
(2.15)
k 1
unde:
Excitaie
e(n)
Filtru variabil
h(n)
s(n)
s ( n ) e( n) h( n)
unde:
(2.16)
S ( f ) E( f ) H ( f )
(2.17)
(2.18)
Din ecuaia (2.15) rezult posibilitatea separrii excitaiei sonore de influena tractului
vocal, de aici rezultnd i modul de calcul al cepstrumului [Gav00]:
Semnal vocal
Transformata
Fourier
Log
Transformata
Fourier invers
Cepstrum
c1 a1
n 1
k
c n a n (1 ) a k c n k , 1 n p
n
k 1
n 1
k
c n (1 ) a k c n k , n p
n
k 1
unde:
(2.19)
E. Analiza perceptual
Acest mod de analiz este adaptat dup modul de funcionare al sistemului
perceptual auditiv al omului, i anume dup faptul c sesizarea diferitelor tonaliti ale
sunetelor se face pe o scar logaritmic n interiorul urechii, proporional cu frecvena
fundamental a sunetului. Astfel, rspunsul urechii umane este neliniar n raport cu
frecvena, ea detectnd diferene mici de frecven mai uor la frecvene joase dect la
frecvene nalte [Lup04].
Din acest motiv au fost adoptate diferite scri neliniare de frecven, pentru care se
va calcula spectrul semnalului. Cele mai cunoscute sunt scara de frecven Bark i scara
Mel. Ambele sunt scri cu comportare logaritmic obinute prin studii realizate asupra
percepiei umane.
Exist dou metode de lucru n cadrul analizei perceptuale: analiza PLP i analiza
cepstral Mel.
Analiza PLP (Perceptual Linear Prediction) folosete scara perceptual Bark, fiind
o combinaie ntre metodele de analiz Fourier i LPC. Etapele de analiz n cadrul metodei
PLP cuprind [Her90]:
- calculul spectrului FFT prin transformata Fourier;
- aliniere spectral dup scara Bark;
- aplicarea unui set de filtre dreptunghiulare Bark pentru emularea rezoluiei
perceptuale a urechii umane;
- preaccentuare pentru stimularea frecvenelor nalte;
- conversia intensitate-trie sonor;
- aplicarea transformatei Fourier inverse pentru obinerea funciei de autocorelaie;
- calculul coeficienilor LPC sau cepstrali, numii n acest caz coeficieni PLP.
Coeficienii PLP de ordin inferior ne dau informaii despre coninutul lingvistic al
segmentului considerat (informaii semantice), pe cnd coeficienii de ordin superior sunt utili
n procesul de recunoatere a identitii vorbitorului [Lup04].
Analiza cepstral Mel se aseamn cu metoda de analiz PLP, folosindu-se n acest
caz scara de frecvene Mel. Spre deosebire de cazul anterior, acum se folosete un set de
filtre triunghiulare Mel pentru a descompune semnalul pe benzile de frecven asociate cu
scara Mel. Apoi pe fiecare band se calculeaz energia medie i se aplic transformata
cosinus pentru a obine un set de coeficieni numii coeficieni MFCC (Mel Frequency
Cepstral Coefficients).
Coeficienii MFCC au dat bune rezultate n procesul de recunoatere a vorbirii, mai
ales n combinaie cu setul de parametrii delta specificai de ctre Furui n [Fur01].
n concluzie, metodele de analiz a semnalului vocal utilizate n prezent sunt
numeroase, fiecare prezentnd variante specifice i beneficiind de aportul interesului i
studiilor a numeroi cercettori de pe mapamond. Aceste metode de analiz s-au dovedit utile
att n sinteza de voce ct i n recunoaterea semanticii vorbirii sau a identitii vorbitorului.
Ca o observaie, se poate spune c metodele de analiz au fost utilizate
distinct pe cele dou domenii: domeniul timp i domeniul frecven. Pentru viitor, se
estimeaz astfel c o abordare n paralel a analizei pe cele dou domenii va putea constitui o
baz de plecare mai robust att pentru sinteza de voce de calitate superioar, ct i pentru
generarea unor sisteme performante de recunoatere a vorbirii.
Rostire
Uniti
acustice
Form de und
codificat
Baza de date
Uniti
lexicale
Secvene de
forme de und
Rostire
CODIFICARE
Text
vocal
SINTEZA
Figura 3.1. Modelul sintezei n domeniul timp
In cadrul acestui model, ntr-o prim faz de codificare i nregistrare a formelor de
und, unitile acustice de tipul silabelor, fonemelor, demifonemelor, se nregistreaz dintr-o
rostire preliminar a unui vorbitor. Ele se vor nregistra ca forme de und cu o anumit
codificare (de exemplu PCM) ntr-o baz de date vocal.
In faza de sintez propriu-zis, dup separarea unitilor lexicale din textul de sintetizat
(uniti lexicale care trebuie s fie de acelai tip cu unitile acustice prenregistrate), se va
urmri punerea n coresponden cu unitile acustice din baza de date vocal i
reconstituirea secvenelor de und asociate. Apoi printr-un proces de concatenare a
secvenelor de und se va genera rostirea propriu-zis.
Avantajul major al acestor metode de sintez prin concatenare n domeniul timp este
reprezentat de calitatea aproape natural a vocii sintetizate. Dintre dezavantaje se pot aminti
o cantitate important de resurse folosite n procesul memorrii formelor de und, dar i
dificultile legate de modificarea prozodiei vorbirii.
Cele mai cunoscute metode de sintez n domeniul timp sunt:
- metoda PSOLA, ce folosete principiul compunerii de segmente vocale care se
ntreptrund, i
- metoda bazat pe corpus, ce folosete o baz de date (corpus vocal) de dimensiuni mari
n scopul producerii unei vorbiri de calitate ct mai natural.
Rostire
Uniti
acustice
Generare
parametrii
Baza de date
parametrizat
ANALIZA
Text
Uniti
lexicale
Secvene de
parametrii
Generare forme
de und
SINTEZA
Rostire
Figura 3.2. Modelul sintezei n domeniul frecven
In faza de analiz a sintezei din domeniul frecven, unitile acustice separate din
rostirea preliminar sunt parametrizate n funcie de caracteristicile spectrale ale semnalului
vocal. Parametrii sunt apoi nregistrai n baza de date i indexai n scopul unei regsiri facile.
In faza de sintez, unitile lexicale (cuvinte, silabe, foneme) din textul de sintetizat
sunt transformate n secvene de parametrii regsii din baza de date parametrizat.
Parametrii acustici sunt ajustai n funcie de prozodia cerut, iar pe baza lor vor fi generate
formele de und corespondente.
Avantajul metodelor bazate pe sinteza n domeniul frecven const n primul rnd din
posibilitatea realizrii facile a aspectelor de prozodie (ritm, accent, intonaie) prin calculul i
generarea corespunztoare a parametrilor acustici i spectrali. Un alt avantaj rezult din
faptul c n baza de date se pstreaz nu formele de und, ca n cazul metodelor din
domeniul timp, ci parametrii acustici, ceea ce duce la o mare economie de resurse de
memorie i computaionale.
Ca dezavantaj se poate aminti faptul c parametrizarea rostirii de la intrare n faza de
analiz duce la aproximarea semnalului vocal i ca urmare n faza de reconstrucie a
semnalului de la ieire vorbirea rezultat va avea o calitate sintetic, deprtndu-se de
vorbirea natural.
Ca exemple de metode ce utilizeaz analiza semnalului vocal n domeniul frecven
putem aminti:
-
metoda de sintez prin predicie liniar (LPC Linear Prediction Coding), ce utilizeaz
pentru generarea semnalului vocal o serie de parametrii numii coeficieni de predicie;
metoda de sintez formantic, ce utilizeaz informaiile despre formanii spectrali n
procesul generrii unitilor acustice.
n continuare se prezint trei metode cu rezultate bune n sintez, dou n domeniul timp
-metoda TD-PSOLA i metoda bazat pe corpus, a treia n domeniul frecven: metoda LPC.
3.1.1.
x(n)
Extragerea
segmentelor
ANALIZA
(x1, p1)
(x2, p2)
.
.
.
.
(xn, pn)
Segm. suprapuse
Mapare
SINTEZA
(X1, P1)
(X2, P2)
.
.
.
.
(Xm, Pm)
Overlap
Segm. mapate
(3.1)
X(n)
xi(n)
(3.2)
sum).
In faza de sintez va avea loc un proces de mapare a setului de segmente s={x i(n)}
determinate anterior ntr-un alt set de segmente S={X i(n)}. Segmentele Xi(n) se numesc
segmente mapate sau repoziionate, setul S fiind un subset sau supraset al lui s, fiind
constituit din segmentele xi(n) repoziionate pe axa timpului.
S este un subset al lui s dac exist elemente x i(n) din semnalul original care nu vor fi
utilizate n compunerea semnalului sintetizat. Dac, dimpotriv, n faza de sintez se vor
utiliza dubluri ale segmentelor originale, atunci S se va constitui ntr-un set extins (supraset)
al lui s.
Maparea segmentelor se va face n urmtorul mod:
x i ( n) X i ( n )
A
S
Fi Fi
D D
A
i
(3.3)
S
i
Xi(n) ,
(3.4)
x ( n)
x1 (n) x 2 (n)
x12 (n) x 22 (n)
(3.5)
SEMNALULO
RIGINAL
x(t)
SEGMENTELE
EXTRASE
x1(t)
p1(t)
T0
x2(t)
p2(t)
x1(t)
T0
p1(t)
SEGMENTELE
PONDERATE
x2(t)
p2(t)
T1 > T0
X1(t)
SEGMENTELE
MAPATE
p1(t)
X2(t)
p2(t)
Figura 3.4. Extragerea i maparea segmentelor n sinteza TD-PSOLA
acestea va trebui selectat doar o singur unitate, ce se potrivete cel mai bine contextului
vorbirii.
2. Construirea optim a bazei de date vocale n raport cu domeniul lingvistic, din punct de
vedere al vocabularului i limbajului folosit.
De obicei se folosesc baze de date vocale ce conin mai multe ore de vorbire nregistrat.
Baza de date este marcat pentru a ine cont de caracteristicile prozodice.
3. Acordarea trsturilor unitilor ce se concateneaz. Aici se folosesc dou tipuri de
trsturi: segmentale i prozodice.
Trsturile segmentale se refer la concatenarea a dou segmente din context lingvistic
apropiat. Astfel, este de urmrit s se concateneze dou segmente cu trsturi spectrale
ct mai apropiate pentru a asigura o tranziie ct mai fin ntre uniti.
Trsturile prozodice se refer la concatenarea a dou uniti integrate pe aceeai linie
prozodic, pentru a nu aprea salturi n intonaia i melodicitatea vorbirii.
Algoritmul de selecie al unitilor acustice [Mob00] :
n vederea selectrii unitilor fonetice din baza de date vocal se va lua n
considerare minimizarea a dou tipuri de costuri: costul pentru distorsiunea unitilor (Target
Cost) i costul pentru distorsiunea concatenrii (Concatenation Cost).
Costul pentru distorsiunea unitilor Target Cost calculeaz distanele acustice
dintre unitile candidat din baza de date vocal i unitile int care apar n textul de
sintetizat:
TC = D( UC , UT ) ,
(3.6)
unde:
- TC = Target Cost;
- UC reprezint unitatea candidat;
- UT este unitatea int.
Costul pentru distorsiunea concatenrii Concatenation Cost calculeaz distanele
spectrale dintre cele dou uniti care se concateneaz. Distanele spectrale se calculeaz n
punctul de concatenare:
CC = D( UN , UN+1 )
(3.7)
unde:
-
CC = Concatenation Cost;
UN i UN+1 reprezint dou uniti fonetice succesive din semnalul sintetizat.
(3.8)
unde:
- VT reprezint vectorul de trsturi al unitii fonetice;
- L[i], C[i] reprezint parametrii lingvistici ai unitii;
- F0, A(n), D, X(n) reprezint parametrii de semnal;
- F(n), A(n), D reprezint parametrii prozodici ai segmentului considerat, toi
parametrii avnd semnificaia indicat mai sus.
Potrivirea unitilor candidat cu unitile int [Hun96], [Mob00]:
Potrivirea unitilor candidat cu unitile int se face la run-time, astfel:
Pentru distorsiunea unitilor (Target Cost) se compar trsturile ce deriv din
textul de sintetizat cu trsturile unitilor din baza de date vocal. Nu se iau n calcul toate
trsturile care apar n vectorul de trsturi (relaia 8), ci doar cele care se pot determina runtime. De exemplu, pentru unitile int, ce deriv din textul de intrare, nu se pot determina
parametrii de semnal.
ma
Text
ma
ma
Baza de date
vocal
ma
ma
[VT-int]
[VT-candidat]
ma
i
i
ma
ma
ma
[VT (`ma`)]
[VT (`i`)]
na
na
na
na
[VT (`na`)]
n vederea calculrii costurilor, fiecare unitate din baza de date va fi asociat cu o stare
ntr-un graf. Fiecare stare are asociat un Target Cost, iar fiecare tranziie n graf are asociat
( i 1) k
un Concatenation Cost. In figura 4.5, Tij reprezint costul unitii Target Cost, iar C ij
reprezint costul concatenrii Concatenation Cost:
21
C11
21
C1122 C12
T11
T21
22
C12
T22
T12
21
13
22
C13
23
C12
23
C13
T13
23
11
T23
j 1, ni ; k 1, ni 1
(3.9)
i 1
unde :
- COST este costul total al parcurgerii grafului;
- i este indicele de nivel al grafului
- N este numrul total de nivele
- j exprim indicele unitii curente alese de pe nivelul i ;
- k exprim indicele unitii alese de pe nivelul urmtor (i+1) ;
- ni este numrul de noduri de pe nivelul i ;
- Tij este costul unitii curente de pe nivelul i ;
Cij( i 1) k este costul de tranziie dintre unitatea curent unitatea urmtoare .
Aadar algoritmul de gsire a cii din graf care minimizeaz acest cost va duce la
selecia optim a unitilor (numit n literatur unit selection ).
(ci ci ' )
(3.10)
unde:
-
In acest exemplu, Ctx indic apariia contextual a fonemei, T ij este costul unitii
(Target Cost), CCij este costul de concatenare (Concatenation Cost), aici fiind luate n
Ctx=[ms]
T11, CC11
T1n , CC1n
Ctx=[cs]
T21, CC21
Ctx=[ft]
T31, CC31
T2n , CC2n
T3n , CC3n
Faza de analiz :
F0
Surs
Parametrii
tractului vocal
Filtru variabil
H(z)
s(n)
H ( z)
G
p
1 a k z k
G
A( z )
(3.11)
k 1
unde:
W arg max P (W | Y ) .
w
(1)
P (Y | W ) P (W )
W arg max
.
P (Y )
w
(2)
Cum P(Y) este independent de W regula de decodare bazat pe o estimare de tip
maximum aposteriori este
W arg max P (Y | W ) P (W ) .
w
(3)
Primul termen din dreapta ecuaiei de mai sus corespunde modelului acustic i
estimeaz probabilitatea unei secvene de observaii acustice pe baza unui ir de cuvinte. Cel
de-al doilea termen corespunde modelului lingvistic i descrie probabilitatea unei secvene de
cuvinte. Astfel de modele pot conine constrngeri sintactice i semantice n funcie de
cerinele sistemului de recunoatere. Cnd sunt folosite numai constrngeri semantice
modelul lingvistic se numete gramatic.
3.2.5. Modele Markov cu stri ascunse aplicate n recunoaterea vorbirii
Pentru implementarea recunoaterii vorbirii avem nevoie de un model cu ajutorul
cruia s putem descrie condiiile n care se produce vorbirea. Modelul este util att pentru
procesarea semnalelor (de exemplu eliminarea zgomotului) ct i pentru identificarea sursei
care le-a generat, fr a dispune de informaii despre ea. Mai mult dect att, modelele pot
rezolva probleme complexe de predicie, recunoatere sau identificare.
n domeniul semnalelor electrice, domeniu din care fac parte i semnalele vocale,
exist dou tipuri de modele: dinamice i stochastice. Modelul dinamic presupune extragerea
caracteristicilor semnalului. De exemplu, un semnal sinusoidal este complet determinat de
ctre amplitudinea, frecvena i faza sa. Modelul stochastic se bazeaz pe caracteristicile
statistice ale semnalului ca urmare a variaiilor aleatoare ale unora dintre parametrii si. Astfel
de modele descriu procese aleatoare caracterizate de repartiii de tip Poisson sau Gauss sau
de procese Markov.
Vorbirea este un proces aleator, deci pentru modelarea ei este mai adecvat s
construim un model stochastic. Modul de prelucrare al semnalului vocal n cadrul unei sesiuni
de recunoatere include ns i o modelare dinamic: separarea semnalului vocal n cadre de
scurt durat i determinarea caracteristicilor acestora.Vorbirea fiind constituit dintr-o
succesiune de astfel de cadre se poate spune c modelul nostru stochastic este compus
practic dintr-o succesiune de modele dinamice, care depind unul de altul din punct de vedere
statistic. Un limbaj nu este o succesiune aleatoare de sunete. Probabilitatea ca dup un
model dinamic anume, cunoscut, s urmeze un alt model dinamic cunoscut se poate stabili
empiric prin observaii repetate.
Vorbirea este alctuit din succesiuni de foneme. Fiecare dintre aceste foneme poate
fi privit ca i o stare a unui proces. n concluzie, succesiunea de foneme este o succesiune
de stri. Deci vorbirea poate fi descris de un model cu mai multe stri. La trecerea dint-o
stare n alta se emite un simbol (fonem) care poate fi observat. Trecerea dintr-o stare n alta
este aleatoare, dar numai ntr-o anumit msur, deoarece dup o fonem oarecare poate
urma o alta dintr-un grup restrns. Avem de-a face deci cu un model statistic, cunoscut n
literatura de specialitate sub denumirea de model Markov.
Modelele Markov cu stri ascunse pot fi mprite n modele discrete i modele
continue, n funcie de natura observaiilor ataate fiecrei stri.
Un HMM discret este caracterizat de urmtoarele mrimi:
1. O mulime de N stri S={s1,s2,...,sN}. n fiecare moment t modelul se afl n una
din aceste stri, care va fi notat cu qt.
2. O mulime de K simboluri V={v1,v2,,vk}. n fiecare moment modelul genereaz
un simbol din aceast mulime, notat cu Ot.
3. Matricea tranziiilor ntre stri - A, care conine probabilitile de tranziie ntre
dou stri:
A {a ij } , unde aij P ( qt 1 s j | q t si ) , i , j 1...N i
a
j 1
ij
(4)
i 1...N , k 1...K i
b (v
k 1
) 1
(5)
5. Matricea strilor iniiale momentul iniial:
{ i } , unde
i P(q1 si }
, i 1...N i
i 1
(6)
Q {q1 , q 2 ,..., qT } .
n implementarea HMM apar trei probleme majore:
1. Problema evalurii. Dndu-se secvena de observaii O {O1 , O2 ,..., OT } i
un model ( A, B, ) , s se determine probabilitatea P (O | ) ca secvena
de observaii O s fi fost generat de modelul .
2. Problema alegerii secvenei optime de stri. Fiind dat secvena de observaii
O {O1 , O2 ,..., OT } i un model ( A, B, ) s se determine succesiunea
de stri Q q1 q 2 ...qT ale modelului care a generat secvena de observaii
O.
3. Problema antrenrii. Presupune ajustarea parametrilor modelului n vederea
maximizrii probabilitii P (O | ) .
n Figura 2 este prezentat schema unui sistem de recunoatere a cuvintelor bazat
pe un HMM discret.
Acest tip de sistem necesit rezolvarea celor trei probleme enunate anterior. Astfel
soluia primei probleme este utilizat n faza de recunoatere. Fiecrui cuvnt i corespunde
un model . Recunoaterea presupune calcularea pentru fiecare model n parte a
probabilitii P (O | ) , atunci cnd la intrare este aplicat secvena de observaii O .
Modelul cu probabilitatea cea mai mare ne d cuvntul recunoscut. Soluia celei de-a doua
probleme ne d secvena optim de stri ale modelului, iar prin rezolvarea problemei cu
numrul trei realizm antrenarea modelului.
H ( z ) 1 0,95 z 1
-
Q ( X ) arg min i d ( X ; Pi )
(7)
D d ( x, Q( x))
x
(8)
fiind obiectivul urmrit n construcia mulimii vectorilor - prototip (centroizi).
Problema construciei mulimii vectorilor - prototip pentru un sistem de cuantizare
vectorial este un caz particular al problemei gsirii unei structuri de clase pentru o mulime
de date prin algoritmi de grupare (clustering), algoritmi care la rndul lor fac parte din
Procent de recunoatere
91%
94%
Procent de recunoatere
32
86%
64
94%
128
96%
Text
Analiz
lingvistic
Generare
parametrii
acustici
Rostire
Tex
Figura 3.3.1. Sistemul text-to-speech
tAnaliza
to-lingvistic are ca scop determinarea unitilor lingvistice din cadrul textului,
cum ar fi: propoziii, cuvinte, silabe, foneme. Generarea parametrilor acustici urmrete
identificarea Spe
i extragerea dintr-o baz de date vocal a parametrilor corespunztori unitilor
lingvistice. Peech
baza acestor parametrii, un sintetizor vocal va genera rostirea propriu-zis.
Exist trei metode de baz n sinteza text-to-speech: metoda bazat pe concatenarea
Text metoda bazat pe analiz-sintez, i metoda bazat pe reguli [Bur97].
formelor de und,
Metoda direct, bazat pe concatenarea formelor de und, este cea mai simpl i
presupune nregistrarea n baza de date vocal a sunetelor nregistrate ca atare (codificate
sau nu). Rostirea este generat prin alturarea nregistrrilor ce corespund unitilor
lingvistice al textului de sintetizat. Metoda este schematizat n figura urmtoare:
Forme de
und
Codificare
Memorare
Compunerea
formelor de
und
Rostire
Metoda direct are avantajul unei caliti ridicate a vorbirii sintetizate, avnd rata
debitului de date de 64-128 kbit/s (fr codificare). Calitatea rostirii depinde de calitatea
unitilor acustice stocate n baza de date vocal, precum i de modul de conectare al
unitilor acustice. In schimb este dificil schimbarea trsturilor prozodice ale vorbirii: ritm,
intonaie, accent i timbru. Pentru reducerea dimensiunilor bazei de date, de obicei formele
de und se codific folosind metodele PCM sau ADPCM, rezultnd astfel o rat de date de
16-32 kbit/s
In cadrul metodei bazat pe analiz-sintez, formele de und prenregistrate sunt
transformate n secvene de parametrii care se memoreaz n baza de date vocal. Metoda
presupune dou faze distincte: faza de analiz, n care sunt generai parametrii din formele
de und iniiale, si faza de sintez, in care se genereaz rostirea prin concatenarea
secvenelor de parametrii i trimiterea secvenei rezultate ctre sintetizatorul de voce.
Metodele clasice care ilustreaz aceast categorie sunt metoda formantic i metoda
prediciei liniare LPC.
In prim faz, se nregistreaz unitile acustice dintr-o rostire preliminar. Apoi se va
genera secvena de parametrii corespunztoare unitilor acustice. In cadrul metodei
formantice, secvena de parametrii este constituit pe baza frecvenelor i limilor de band
ale formanilor. Metoda LPC furnizeaz ca secven de parametrii de sintez un set de
coeficieni de predicie, care aproximeaz forma spectral a undei sonore. In a treia faz se
concateneaz secvenele de parametrii i se genereaz rostirea propriu-zis [Bur97].
Metoda este ilustrat n figura urmtoare:
Secven de
parametrii
Codificare
Memorare
Compunerea
secvenelor
de parametrii
Rostire
Secven de
simboluri
Codificare
Memorare
Trsturi
prozodice
Codificare
Memorare
Set de
reguli
Codificare
Memorare
Generare
parametrii
Rostire
Simboluri fonetice
( a b c ...)
Text
Prozodie
Cunotine
Baza de
date
vocal
Secven de parametrii
( a1 a2 a3 ...)
Figura 3.3.5. Etapa de generare a parmetrilor acustici [Bur97]
n aceast etap se folosesc cunotinele nmagazinate n baza de date vocal, de
unde se regsesc parametrii de baz pentru fiecare unitate fonetic. Parametrii de baz se
vor modifica n urma alterrilor prozodice, i apoi se vor concatena pentru a genera secvena
parametric pentru ntregul context propoziional.
In continuare urmeaz faza de sintez propriu-zis, n care secvenele de
parametrii se transform n forme de und care pot fi redate sonor prin intermediul unui
dispozitiv audio. Constituirea formelor de und din secvena de parametrii se realizeaz pe
baza unor reguli de sintez bine determinate.
Etapele procesuale ale sintezei TTS sunt ilustrate n figura urmtoare:
Text
Preprocesare lingvistic
Analiz sintactic
Determinare uniti
lexicale
Transcriere fonetic
Determinarea prozodiei
Generare parametrii
acustici
Sinteza
Simboluri fonetice
Parametrii prozodici
Parametrii de sintez
Forme de und
Rostire
Figura 3.3.6. Etapele procesuale ale sintezei TTS [Bur97]
Preprocesare
Analiza sintaxei
Determinarea
unitilor lingvistice
Determinarea
prozodiei locale
Regsirea unitilor
acustice
Concatenarea
unitilor
Sinteza
a) Din prima categorie fac parte numerele, alctuite din cifre, precum i anumite simboluri
scrise cu caractere speciale, cum ar fi :
Simboluri pentru operaiile aritmetice :
+ <-> plus
- <-> minus
x <-> ori <-> nmulit cu
: sau / <-> supra <->mprit la
Simboluri pentru peratorii aritmetici :
< <-> mai mic
> <-> mai mare
<= <-> mai mic sau egal
>= <-> mai mare sau egal
= <-> egal
!= sau <> <-> diferit
b) Abrevierile sunt i ele mprite pe categorii:
Uniti de msur:
m <-> metru
g <-> gram
l <-> litru ,
Hz <-> heri
dB <-> decibeli
Prefixe reprezentnd subuniti de msur:
n <-> nano
m <-> mili
c <-> centi
d <-> deci
da <-> deca
k <-> kilo
M <-> mega
Grade universitare:
asist. <-> asistent
sl. <-> ef lucrri
conf. <-> confereniar
prof. <-> profesor
Grade de armat:
serg. <-> sergent
plut. <-> plutonier
mai. <-> maior
cp. <-> cpitan
col. <-> colonel
gen. <-> general
Alte abrevieri:
loc. <-> localitatea
str. <-> strada
bl. <-> bloc
sc. <-> scara
ap. <-> apartamentul
tel. <-> telefon
Dintre toate aceste categorii de informaii, cele mai importante i cel mai des folosite sunt
numerele. Pentru explicitarea acestora sub form textual, fonematic, au fost concepute
reguli lexicale speciale. Aceste reguli in cont de poziia unei anumite cifre n cadrul numrului
pentru a o denomina printr-o anumit categorie verbal :
Tabelul 1.
Indice
n=0
n=1
n=2
n=3
n=4
n=5
n=6
n=7
Categorie
zeci
sute
mii
zeci de mii
sute de mii
milioane
zeci de milioane
...
2. Analiza sintaxei
Analiza corectitudinii textului din punct de vedere al sintaxei reprezint al doilea pas
preliminar efectuat n vederea realizrii unei sinteze de vorbire de calitate. Orice greeal de
sintax care apare n textul iniial (generat de obicei prin omiterea unei litere din cuvnt sau
de omiterea diacriticelor) va duce la sinteza unui cuvnt eronat, ceea ce va avea ca efect att
o senzaie de not discordant n rostirea global, ct i solicitarea unui efort din partea
auditorului de recreare mental a cuvntului corect. Acest efort induce diminuarea ateniei
fa de cuvintele care urmeaz, i chiar la pierderea sensului ntregii propoziii care conine
aceste cuvinte.
Pentru a nltura aceste dezavantaje i a realiza o sintez de voce de calitate
ridicat, este prin urmare nevoie de un analizor de verificare a corectitudinii sintactice a
textului. Un astfel de analizor se poate proiecta prin dou metode de baz : prin construirea
unui vocabular complet pentru limba respectiv, sau prin folosirea unor reguli gramaticale
sintactice, nsoite de specificarea unor condiii de excepie.
Prima metod este mai complet, dar are dezavantajul unui efort mare de construire
a unui vocabular pentru acea limb (care poate avea mai multe zeci de mii de cuvinte),
vocabular ce trebuie s conin i informaii despre construirea formei flexionate a cuvintelor
(de exemplu rdcin sau morfem, terminaii pentru declinare sau conjugare).
A doua metod necesit generarea unui set de reguli pentru regsirea formei de baz
neflexionate a cuvintelor i verificarea corectitudinii acestora printr-un dicionar. Metoda are
dezavantajul unui anumit grad de necompletitudine, depinznd de numrul de excepii
introduse n analizor.
LEX
TEXT
REGULI
de
flexionare
Forma
flexionat
DICIONAR
Forma de
baz
neflexionat
EXCEPII
SUBSTANTIV
Comun
NOMINATIV / ACUZATIV
Propriu
GENITIV / DATIV
Diminutiv
ADJECTIV
ADVERB
ARTICOL
PRONUME
NOMINATIV / ACUZATIV
GENITIV / DATIV
INFINITIV
VERB
VOCATIV
PREZENT
IMPERFECT
CONJUNCTIV
PARTICIPIU
PERFECT SIMPLU
MAI MULT CA PERFECT
GERUNZIU
VIITOR
Cuvnt neflexionat
Cuvnt flexionat
Tip dicionar
Parte de vorbire
Numr persoane
Gen
Caz
Timp
Articulare
C.nf
C.f.
T.d.
P.v.
N.p.
G.
C.
T.
A.
C.nf
C.f.
T.d.
P.v.
N.p.
G.
C.
T.
A.
Adverb,
Setul de reguli pentru analiza de sintax este organizat modular, urmrind cele 10
categorii gramaticale prezente n dicionar. Fiecare categorie se mparte n subcategorii (de
ex. pentru substantive avem substantive comune, nume proprii, diminutive), iar pentru fiecare
subcategorie se genereaz reguli pentru toate formele flexionate (declinri la substantive,
conjugri la verbe), grupate dup clase de terminaii comune. La fiecare clas se mai adaug
un set de excepii (figura 3).
REGULI
SINTAX
CATEGORII
Substantiv
SUBCATEGORII
FORME
FLEXIONATE
TERMINAII
Adjectiv
Subst. comun
Nominativ
Subst: ea
Verb
Diminutiv
Dativ
Subst: ia
EXCEPII
Figura 4. Organizarea setului de reguli pentru analiza de sintax
Proceduri
de calcul
Shell
Procesare
Reguli
sintactice
Analizor
Sintactic
Procesare
uniti
Propoziii
Cuvinte
Text
Silabe
Analizor
Lexical
Cifre
Reguli
lexicale
Separatori
Text
Figura 5. Analizorul lingvistic pentru desprirea n silabe
Shell-ul program are rolul de master, apelnd modulele de nivel inferior. Astfel, acesta
apeleaz analizorul sintactic pentru a-i returna unitile sintactice. Analizorul sintactic va apela
la rndul lui analizorul
lexical pentru
parcurgereaSeparatori
efectiv a textului
i regsirea Separatori
unitilor
Propoziie
Separatori
Propoziie
Propoziie
lexicale de baz.
Analizorul lexical extrage caracterele din text i le grupeaz n uniti fonetice primare.
Aici intr determinarea caracterelor alfabetice, numerice, a caracterelor speciale i semnelor
de punctuaie. Pe baza unor reguli de producie lexicale, caracterele alfabetice vor fi grupate
n silabe, caracterele numerice
iar caracterele
speciale i? semnele! de
Spaiu n cifre
Tabi numere,Punct
Tab
Virgul
punctuaie vor fi folosite n determinarea cuvintelor i propoziiilor.
Analizorul sintactic preia silabele, respectiv caracterele speciale i cifrele furnizate de
analizorul lexical i le grupeaz n cuvinte i propoziii. i aici a fost necesar stabilirea unui
set de reguli sintactice pentru departajarea unitilor fonetice corespunztoare.
Modulul de procesare preia n final unitile fonetice gsite anterior i, pe baza unor
proceduri de calcul, le clasific i le memoreaz n structuri speciale. De aici vor fi preluate i
Cuvnt
Separatori
Cuvnt
Cuvnt
Separatori
transformate
n forme
de und de ctre
modulul deSeparatori
sintez.
Spaiu
Tab
Punct
Tab
Virgul
ntreg
Silab
Silab
Real
Silab
Tab
Silab
Silab
...
...
...
Analizorul lexical este apelat de ctre analizorul sintactic pentru regsirea unitilor
fonetice de baz, i anume : silabele, caracterele despritoare i numerele. Analizorul
sintactic va grupa aceste uniti lexicale de baz n cuvinte i propoziii. Analizorul sintactic
este implementat prin program, pe cnd analizorul lexical este rezultat n urma generrii
automate prin intermediul unui generator de parsere de text, numit LEX .
Generatorul automat LEX construiete un analizor lexical pornind de la o gramatic
ce descrie regulile de producie ale analizorului. Gramatica se scrie n limbaj standard BNF
(Backus-Naur Form) i specific secvenele de caractere care trebuie recunoscute din textul
de la intrare, precum i aciunile de efectuat corespunztoare acestor secvene. Secvenele
de caractere de recunoscut in cont de contextul stnga i dreapta n care ele apar.
Analizorul generat preia aadar de la intrare un text pe care l va parcurge secvenial
n scopul regsirii secvenelor specificate n gramatica BNF. In cazul nostru secvenele se
refer la regsirea numerelor, caracterelor speciale i a silabelor. Procesul realizat de ctre
analizorul lexical este ilustrat n figura urmtoare:
Text
CCCCCCCCCCCCC
Cifr
Separator
Alfanumeric
Reguli de
producie
Intreg
Real
Sep. 1
Tratare_numr
Silab
Sep. n
Tratare_separator
Tratare_silab
Reguli
lexicale
Analizor
sintactic
ACCENTE
SN_3
SN_2
F1 F2
...
Fn Sep
CUVNT
Analizor
lexical
SN_1
SN
Implementare
i segmentare;
Analiza lingvistic a textului de sintetizat ce cuprinde fazele de determinare a
silabelor i accentelor din text.
Potrivirea unittilor acustice i sinteza propriu-zis.
Text
Determinare
silabe
Determinare
accente
mbinarea
unitilor
Sintez
Baza de
date
vocal
nregistrare
Normalizare
Segmentare
Prima etap n proiectarea sistemului a fost construirea unei baze de date vocale.
n cazul sistemului LIGHTVOX, baza de date vocal cuprinde formele de und asociate
silabelor limbii romne.
semnelor de punctuaie. Pe baza unor reguli de producie lexicale, caracterele alfabetice vor fi
grupate n silabe, caracterele numerice n cifre i numere, iar caracterele speciale i semnele
de punctuaie vor fi folosite n determinarea cuvintelor i propoziiilor.
Analizorul sintactic preia silabele, respectiv caracterele speciale i cifrele furnizate de
analizorul lexical i le grupeaz n cuvinte i propoziii. i aici a fost necesar stabilirea unui
set de reguli sintactice pentru departajarea unitilor fonetice corespunztoare.
Modulul de procesare preia n final unitile fonetice gsite anterior i, pe baza unor
proceduri de calcul, le clasific i le memoreaz n structuri speciale. De aici vor fi preluate i
transformate n forme de und de ctre modulul de sintez.
Analizorul lexical pentru determinarea silabelor a fost proiectat pe baza facilitilor
oferite de ctre generatorul automat LEX, care genereaz un parser de text pe baza regulilor
de producie furnizate.
Dup etapa de desprire n silabe, urmeaz etapa de determinare a accentelor din
interiorul cuvintelor. Folosind un al doilea analizor lexical, de data aceasta proiectat pentru
determinarea accentelor, au fost stabilite silabele accentuate, respectiv silabele neaccentuate
din cadrul cuvintelor care au fost extrase n etapa anterioar.
Parserul de text sau analizorul sintactic returneaz cuvntul curent din stream-ul de
intrare, cuvnt alctuit dintr-o serie de foneme i terminat cu un separator. Cuvntul este
introdus la intrarea analizorului lexical care, pe baza unor reguli lexicale, va determina silaba
accentuat din cuvnt. n limba romn, silaba accentuat este una din ultimele trei silabe ale
cuvntului (SN = ultima silab, SN_1 = penultima silab, respectiv SN_2, SN_3 = silabele
anterioare).
Regulile de accentuare sunt constituite dintr-o regul de baz, i anume aceea c
penultima silab este cea accentuat (regula general pentru limba romn), respectiv un set
consistent de excepii organizat pe grupuri de cuvinte ce au terminaii comune.
Urmeaz apoi faza de potrivire a unitilor fonetice, determinate pe baza analizei
textului de la intrare, cu unitile acustice nregistrate n baza de date. Aici pot exista
urmtoarele situaii:
a) silaba dorit este regsit identic n baza de date vocal, att din punct de vedere
fonetic, ct i din punct de vedere prozodic. n acest caz silaba se reine ca atare pentru a fi
nglobat n cuvntul de sintetizat.
b) silaba este regsit fonetic, dar nu i prozodic. Se prefer n acest caz constituirea
acesteia din silabe i foneme mai scurte, care s respecte prozodia cerut (silab accentuat
sau neaccentuat).
c) silaba nu este regsit fonetic n baza de date. i in acest caz silaba va fi compus
pe baza fonemelor separate extrase din baza de date.
Urmeaz apoi mbinarea unitilor acustice regsite din baza vocal. Unitile se
concateneaz cu pauze corespunztoare pauzei dintre cuvinte, care se ajusteaz n funcie
de ritmul cerut vorbirii.
i n fine, ultima faz este cea de sintez propriu-zis, n care formele de und
corespunztoare textului de la intrare sunt redate sonor prin intermediul plcii audio a
calculatorului.
Ca i rezultate i observaii experimentale, s-a constatat o audiie satisfctoare a
textului sintetizat, care respect prozodia segmental (accentuarea cuvintelor) din limba
romn. Ceea ce se observ este fluena rostirii i un grad ridicat de naturalee. Ca i
mbuntiri viitoare, este clar c folosirea unor condiii profesioniste de nregistrare a
semnalului vocal i utilizarea unei voci cu caliti acustice superioare pot duce la creterea
semnificativ a calitii rostirii sintetizate.
Tot n aceast faz a proiectrii au fost proiectate baza de date n format electronic
(biblioteca de cri electronice), precum i interfaa de acces vocal la aceast baz de
date. De asemeni a fost realizat i testat prototipul final al aplicaiei.
Biblioteca de cri n format electronic a fost realizat prin conversia n format text
electronic a unor cri din diferite domenii de activitate, rezultnd o minibibiotec electronic
ordonat dup autori. Conversia a fost fcut respectnd standardul ASCII format Windows
Central European, prin preluarea unor documente n regim free de pe Internet, respectiv prin
scanarea unor cri i utilizarea unui program OCR pentru recunoaterea caracterelor.
Interfaa de acces vocal permite utilizatorului alegerea unui autor prin intermediul
tastaturii (n cazul unui nevztor, acesta va folosi o tastatur special ce are aplicate
caractere de tip Braille), apoi citirea automat prin intermediul programului a titlurilor
disponibile, i n final selectarea titlului dorit. Prin intermediul unor comenzi de la tastatur de
tip shortcut, nevztorul poate audia cartea electronic solicitat, poate ntrerupe audierea
sau poate reasculta ultima fraz rostit.
Concluzie:
n aceast ultim faz a proiectrii a fost realizat prototipul unui sistem vocal
interactiv pe baz de sintez de voce, destinat a fi utilizat de ctre persoanele nevztoare. A
fost implementat o metod proprie de sintez vocal bazat pe concatenarea silabelor. A
fost construit o bibliotec de cri electronice i o interfa de acces vocal la aceast
bibliotec ce poate fi accesat de ctre nevztori.
Sistemul a fost testat pe o configuraie local, urmnd implementarea pe o reea de
calculatoare, precum i perfecionarea n funcie de cerinele directe ale persoanelor
nevztoare.
Bibliografie :
[Bur05] Burileanu C., Oancea E., Radu M., Text-to-Speech Synthesis for Romanian
Language: Present and Future Trends, http://www.racai.ro/books/awde/ burileanu. htm
2005
[Bur97] Burileanu C. & al., Text-to-Speech Synthesis for Romanian Language, n Recent
Advances in Romanian LanguageTechnology, Editura Academiei Romne, Bucureti, 1997
[Buz 06] Buza O., Toderean G., Syllable detection for Romanian text-to-speech synthesis,
Sixth International Conference on Communications COMM06 Bucharest, June 2006, pp.
135-138.
[Buz 07] Buza O., Toderean G., A Romanian Syllable-Based Text-To-Speech System, 6th
WSEAS International Conference on Signal Processing, Robotics and Automation (ISPRA
'07), CD-Rom Proceedings, Corfu Island, Greece, February 16-19, 2007
[Feh93] Feher, K., Comunicaii digitale avansate, Editura Tehnic Bucureti, 1993.
[Fur01] Furui, S., Digital Speech Processing. Syntesis and Recognition, Marcel Dekker
Publications, 2001.
[Her90] Hermansky, H., Perceptual linear predictive (pip) analysis for speech, The Journal of
The Acoustical Society of America, vol. 87, pp.1738-1752, apr. 1990.
[Her92] Hermansky, H., Morgan, N., RASTA-PLP Speech Analysis Technique, IEEE Trans.
Speech and Audio, vol. 1, pp. 121-124, 1992.
[His05] History of Speech Recognition and Transcription Software, http://www.dragonmedical-transcription.com/historyspeechrecognition.html, 2005
[Hos00] Hosom J.P., Automatic Time Alignment of Phonemes Using Acoustic-Phonetic
Information, Computer Science and Engineering, Oregon Graduate Institute of Science and
Technology, Beaverton, OR, USA, Published as Technical Report CSE-00-TH-002 May 2000
[Jur00] Juravski D., Speech and language processing : an introduction to natural language
processing, computational linguistics, and speech recognition, 2000
[Kai00] Kaiser, E.C., Book Review: Extended Finite State Models of Langauge, in
Computational Linguistics, vol. 26, num. 2, pp. 282-285, Jun, 2000
[Kai01] Alexander B. Kain, High Resolution Voice Transformation, OGI School of Science &
Engineering at Oregon Health & Science University, 2001
[Kes04] Judith M. Kessens and Helmer Strik, On automatic phonetic transcription quality:
lower word error rates do not guarantee better transcriptions, Computer Speech & Language,
Volume 18, Issue 2, Pages 123-141, 2004
[Kla02] E. Klabbers, J. van Santen and J. Wouters, Prosodic Factors for Predicting Local
Pitch Shape, in IEEE Workshop on Speech Synthesis, Santa Monica, CA, USA, 2002
[Lup04] Lupu E., Pop P., Prelucrarea numeric a semnalului vocal, vol.1, Ed. Risoprint, 2004.
[Mah00] Mahomed, M. and Gader, P., Generalized Hidden Markov Models. IEEE
Transactions on Fuzzy Systems, 2:6793, 2000
[Mob00] Mobius B.,
Corpus-based speech synthesis: methods and challenges. In:
Arbeitspapiere des Instituts fr Maschinelle Sprachverarbeitung (Univ. Stuttgart), AIMS 6 (4),
pp. 87116, 2000
[Mon05] Elizabeth Montalbano, Microsoft Gets Exchange to Speak Up, PC World, August 02,
2005
[Pra04] V. Kamakshi Prasad , T. Nagarajan and Hema A. Murthy, Automatic segmentation of
continuous speech using minimum phase group delay functions, Speech Communication,
Volume 42, Issues 3-4, Pages 429-446, April 2004
[Ram05] Ramon Lopez Cozar Delgado, Masahiro Araki, Spoken, Multilingual and Multimodal
Dialogue Systems: Development and Assessment, ISBN: 0-470-02155-1, Wiley Publisher
House, September 2005
[Ros04] A-V. I. Rosti and M. J. F. Gales, Factor analysed hidden Markov models for speech
recognition, Computer Speech & Language, Volume 18, Issue 2, Pages 181-200, April 2004
[Tat05] Mark Tatham , Katherine Morton, Developments in Speech Synthesis, ISBN: 0-47085538-X, Wiley Publisher House, 2005
[Tod05] G. Toderean, Al. Caruntu, Metode de recunoatere a vorbirii, Editura Risoprint, ClujNapoca, 2005.
[Tro02] Trouvain, J. Tempo control in speech synthesis by prosodic phrasing. Proceedings of
Konvens, Saarbrucken, Germany, 2002
[Tuf01] Tufis, D. and Barbu, A.M., Automatic construction of translation lexicons, Advances in
Automation, Multimedia, Video System and Modern Computer Science, Electrical and
Computer Engineering Series, WSES Press, http://www.worldses.org, pp. 156161, 2001
[Vei04] Veikko Surakka, Marko Illi, Gazing and frowning as a new human--computer
interaction technique, ACM Transactions on Applied Perception (TAP), Volume 1 , Issue 1,
July 2004,Pages: 40 56, ISSN:1544-3558, 2004
[Vla97] Vlaicu A., Dobrot V., Tehnologii Multimedia Sisteme, reele i aplicaii, Editura
UTCN, Cluj-Napoca, 1997
[Wal01] Patricia Walsh, Randy Lundquist, and John A. Gardner, The Audio-Accessible
Graphing Calculator, Proceedings of the 2001 CSUN International Conference on Technology
and Persons with Disabilities, Los Angeles, CA, March 21-24, 2001
[Wou00] Johan Wouters and Michael W. Macon, Unit Fusion for Concatenative Speech
Synthesis, in Proceedings of the International Conference on Spoken Language Processing
(ICSLP), Oct, 2000
Director de proiect,
Prof. Dr. Ing. Gavril Toderean