Sunteți pe pagina 1din 60

Procesarea semnalelor vorbirii

Introducere
Recunoaterea vorbirii i identificarea vocal devin din ce n ce mai mult tehnologii
populare n societatea de astzi. Pe lng faptul c are un cost ridicat i aduce un venit
considerabil n toate cazurile n care este folosit, sistemul de recunoatere a vorbirii se
adreseaz unei mari varieti de utilizri i implementri. Aceste implementri se ntind
de la domeniul securitii pn la tendina sigur de cretere a productivitii. Prin fiarea
ateniei asupra tehnologiei i a companiilor care manevreaz sistemele actuale de
recunoatere vocal i de identificare, putem nva din
implementrile actuale i s stabilim tendinele viitoare.
!e cele mai multe ori recunoaterea i verificarea vorbirii sunt procese de
antitez, prima etap n acest traseu fiind recunoaterea.
Recunoaterea vorbirii a fost mult timp unul dintre scopurile diferiilor proiectani de
soft"are. #uli au ncercat s scrie programe care s fie capabile s nlocuiasc tastatura
cu microfonul. Au eistat mai multe aplicaii de acest tip, dar $ffice %P este prima suit
important care ofer aceast facilitate.
Principala dificultate cu care se confrunt programele de recunoatere vocal o
reprezint faptul c vocile a doi oameni nu sunt deloc asemntoare i chiar vocea
aceleiai persoane poate varia n anumite situaii.
$ffice %P ncearc s rezolve aceast problem prin crearea de profiluri
corespunztoare fiecrui utilizator. Astfel, vor putea fi cunoscute caracteristicile vocilor
diferitelor persoane.
&a fel ca i celelalte programe de recunoatere vocal i $ffice %P comite uneori
greeli. #icrosoft susine c '() dintre cuvinte sunt recunoscute corect, adic doar un
cuvnt din douzeci este greit. *ist unele aplicaii cu performane mai bune, dar nici
una nu depete o rat de '+). ,otui, este un prim pas pe drumul care va duce la
eliminarea tastaturii.

-
Capitolul I
Generarea vorbirii. Scheme echivalente

1.1 Caracteristici generale
.istemele actuale de recunoastere a vorbirii se situeaza deocamdata n limite
restrnse ale parametrilor caracteristici si dedicate unor aplicatii specifice. !in punct de
vedere a dimensiunii vocabularului si al modului de vorbire, sistemele de recunoastere cu
performante acceptabile, se mpart n trei categorii principale.
/ sisteme cu vocabular mic 012 3 122 cuvinte4 5
/ sisteme cu vocabular mediu si mare si vorbire izolata 012 222 3 62 222
cuvinte4 5
/ sisteme cu vocabular mediu si vorbire conectata sau continua, restrictiva la un
domeniu de aplicabilitate 01 222 7 ( 222 cuvinte4 .
8ele mai multe sisteme realizate, apartin claselor sistemelor mici si mi9locii cu
recunoasterea vorbirii izolate. .istemele de recunoastere a vorbirii continue, n marea lor
ma9oritate, eista doar n forma eperimentala, n conditii de laborator. 8hiar si sistemele
utilizate n practica, cele pentru vorbirea izolata sau conectata, nu sunt destul de robuste
la zgomotul mediului n care functioneaza si la variabilitatea vorbirii. ,oate sistemele dau
performante mai bune, daca numarul de utilizatori este mai redus si daca cei care folosesc
sistemul sunt cei cu a caror voce s7a folosit pentru nvatarea sistemului. Performantele se
degradeaza semnificativ, daca vorbitorii se schimba sau daca sistemul este folosit cu alte
cuvinte dect cu cele pentru care a fost antrenat.
8aracteristicile principale ale uni sistem de recunoastere automate a vorbirii,
fara a aminti parametrii si metodele specifice prin care s7a implementat, sunt urmatoarele:
/ dimensiunea vocabularului, adica numarul de cuvinte capabil sa le
recunoasca5
/ monolocutor sau multilocutor 0aici se poate preciza si seul vorbitorilor4 5
/ vorbirea izolata sau continua5
/ conditi de zgomot si robustetea sistemului5
/ domeniul de aplicabilitate 5
/ timpul de operare, care poate fi n timp real, cu ntrziere sau off7line 5
/ procenta9ul de recunoastere5
/ costul .
Pentru o mai bun nelegere a procesului de recunoatere a vorbirii, voi
eemplifica fiecare din componentele acestui proces, astfel:
7 analiza acustic este metoda prin care se etrag parametrii auditivi5
7 analiza fonetic este metoda prin care ies n eviden caracteristicile sunetelor5
7 analiza sintactic este metoda prin care se analizeaz coninutul sintactic al unui
cuvnt pe baza cuvintelor eprimate n prealabil5
7 analiza semantic este metoda prin care se verific nelesul cuvntului ales5
;
7 analiza pragmatic este metoda prin care se face o estimare a cuvintelor care ar
putea fi rostite.
1.2 Analiza vocii si a vorbirii

<ocea este rezultatul energiei respiratorii folosit pentru a mica corzile vocale, care
genereaz sunetele, aceast manifestare fiind principala metod a comunicrii prin coduri
comune, respectiv prin limba9.
Producerea vorbirii este compus din dou funcii mecanice de baz: fonetic i
articulaie. =onetica reprezint producerea unui semnal acustic. Articulaia include
modularea semnalului acustic, n special de ctre buze, limb i de palatul moale, precum
i de rezonana n cavitatea supraglotic, oral i> sau nazal.
Percepia vocii este general descris ca o transformare n cinci etape a semnalului
audio n mesa9: analiza auditiv periferic, analiza auditiv central, analiza fonetico7
acustic, analiza fonologic i analiza de ordin nalt 0leical, sintactic i semantic4.
?rechea uman este special adaptat s perceap vocea uman, spectrul de percepie fiind
ntre 1@762222 Az, cu o sensibilitate ridicat ntre (227;222 Az.
Printre primii specialiti care au dezvoltat o reprezentare vizual a unui cuvnt rostit
s7a aflat #elville Bell, acesta dezvoltnd un sistem de simboluri scrise. Cn anul 1';2
Potter, Dropp i Ereen, care lucrau pentru FBell &aboratoriesG, au dezvoltat un proiect ce
implica reprezentarea vizual a vocii cu a9utorul unui spectrograf de sunet, acesta
analiznd trei parametri: frecven, intensitate i timp.
Astfel, au fost trasate liniile de baz pentru admisibilitatea identificrii vocii ca prob,
susintorii pretinznd eistena unui proces valid i pertinent de identificare, iar
oponenii cernd efectuarea mai multor cercetri tiinifice care s susin admisibilitatea
acestei probe n instan.
!e7a lungul timpului au eistat trei metode de identificare:
7 recunoaterea vorbitorului prin ascultare5
7 recunoaterea vorbitorului prin compararea vizual a spectrogramelor5
7 recunoaterea automat a vorbitorului.
1. Recunoaterea vorbitorului prin ascultare are ca fundament principiul conform cruia
procesul de percepie auditiv i procesul de identificare sunt esenialmente subiective, n
sensul c o voce particular este asociat unui individ sau grup.
2. Recunoaterea vorbitorului prin compararea vizual a spectrogramelor are n vedere
capacitatea de a decide asupra identitii sau nonidentitii unei voci, bazat pe
eaminarea vizual a spectrogramelor. $ spectrogram este reprezentarea vizual a unui
set de sunete, n parametrii timpului, frecvenei i amplitudinii.

3. Recunoaterea automat a vorbitorului folosete metode computerizate bazate pe teorii
informatice, pe recunoaterea dup modele i pe sisteme de inteligen artificial. Pn n
prezent, metoda nu a cunoscut dect o aplicaie limitat.
(
,endina curent este de a integra rezultatele recunoaterii vorbitorului prin ascultare
cu cele ale recunoaterii automate a vorbitorului i folosirea rezultatelor spectrogramelor
doar pentru vizualizare.
1.3 Modelarea mecanismului de producere a vorbirii
Prelucrarea semnalului vocal este unul dintre domeniile n care tehnicile de
prelucrare numeric sunt foarte eficiente. Aplicarea algoritmilor de prelucrare a
semnalelor digitale s7a dovedit a fi deosebit de util n problemele de baz ale prelucrrii
vorbirii : analiza i sinteza vorbirii, codarea vorbirii, recunoaterea vorbirii, .a.
Primele modele de producere a vorbirii sintetice au fost cele mecanice realizate
nc din anii1++'.?lterior au fost realizate i modele electrice 01H+@7Eraham Bell, 1'-'7
!udleI, Riesz, JatKins4. ?n model electric liniar a fost propus de =ant n 1'@2.
.unetele generate n timpul vorbirii sunt sonore sau nesonore, de trei tipuri:
.unetele sonore0 vocalizate4 cum sunt a,e, i, o,u, , care sunt constituite din
impulsuri cvasi7periodice
.unetele fricative 0v, z, f, s, , ..4, echivalente cu un zgomot de band larg
uniform distribuit
.unetele plozive sonore 0b, d, g4 i sunetele plozive nesonore 0p, t, K4.
.unetele sunt caracterizate prin intensitate, nlime i timbru. Cnlimea
intensitii sunetului este fiat de frecvena fundamental. Lnversul acesteia, ,
2
M 1>=
2
se
numete perioad fundamental 0pitch7P4. =recvena fundamental poate varia ntre
limitele:
H27122 Az pentru o voce masculin
1(27;(2 Az pentru o voce feminin
6227@22 Az pentru o voce de copil
=ig.1. #odelul mecano7acustic de producere a vorbirii.
@
,imbrul unui sunet sonor este determinat de amplitudinile relative ale armonicelor
fundamentalei.
.7au realizat diferite modelari ale procesului de generare a semnalului vocal,
acusto7mecanice, electrice analogice sau digitale. Cn fig.1. este prezentat modelul acusto7
mecanic pentru producerea vorbirii.
Cn cadrul modelrii acusto7mecanice este necesar s se tin seama de urmtoarele
aspecte:
7 variaia temporal a parametrilor traseului vocal 5
7 pierderile prin viscozitate i conducie termic5
7 cuplarea cu traseul nazal5
7 modul de ecitare.
Cn privina modului de ecitare a traseului vocal, procesul poate avea loc n dou
moduri eseniale:
a. Pentru fonemele sonore impulsul glotal are forma unei succesiuni de
impulsuri periodice cu perioadaa ,
2
, aa cum se arat n fig.6. $ aproimare analitic a
epresiei presiunii emis de glot este de forma:

'

1
]
1

1
]
1

,
_

< < + +
+

2
,
6
,
1
, 5 N
2
, ,
6
,
1
O, t , 2

N
6
,
1
, ,
1
O, t ,
6
6,
1
, t
P cos
N
1
, O2, t ,
1
,
t
P cos 1
6
1
0t4
b. Pentru fonemele insonore, presiunea general este de tip zgomot alb.
=ig 6. =orma semnalului echivalent fonemelor sonore.
Relativ la traseul vocal, o abordare posibil const n reprezentarea acestuia ca o
nlnuire 0concatenare4 de tuburi sonore de seciuni diferite, adic un tub sonor global
neunuform, dar pe seciuni 0local4 uniform. Cn fig. -.a. este artat o asemenea structur,
+
t
-,
2
6,
2
,
2

iar n fig.-.b. este reprezentat schema electric echivalent, indicndu7se localizarea


elementelor specifice.
Astfel:
1. masa acustic a aerului5
6. elasticitatea aerului 5
-. rezistena de vscozitate5
;. conductana asociat pierderilor calorice5
(. admitana acustic transversal.
&inia electric echivalent din fig.-.b este terminat pe impedana acustuc
echivalent a gurii.
Q
at
M Q
c
> 01R1>9Sr4
Cn care Q
c
este impedana caracteristic a aerului , iar S constanta de faz n aer la
frecvena considerat. Presiunea creat n aer se poate calcula utiliznd relaia:
P0 r 4 M 09 S Q
c
> ;Pr 4 T
vt
. ep.0 7 9Sr4
unde T
vt
reprezint debitul aerului care parcurge impedana terminal.
H
1(c
m
2
distana de
glot
arie
transversal
cm
6
glot

artificii
de
radiaie
a4
=ig.- .chema echivalent a traseului vocal
a. .tructura cu tuburi sonore
b. .chema electric echivalent a unui tub sonor
Procesarea numeric a semnalelor permite realizarea modelului discret de
generare a sunetelor.
Pentru foneme sonore semnalul primar de ecitaie este U
,o
, semnalul delta
discret periodic cu perioada ,
2
corespunznd nlimii =
2
M 1> ,
2.
Pentru generarea
semnalului glotal discretizat, semnalul periodic este trecut printr7un sistem cu funcia de
pondere care rezult din urmtoarele considerente.
=recvena =
2
este impus de fonemul care trebuie sintetizat, valoarea fiind de
ordinul sutelor de Az. =recvena de eantionare este de ordinul H712 DAz, astfel c ntre
dou eantioane de ,
2
secunde se gsesc circa (27122 de eantioane. &ungimea
impulsului glotal trebuie s fie de ordinul zecilor de intervale de eantionare. Perioada de
eantionare s7a notat cu ,
e
. =uncia de pondere a sistemului care furnizeaz impulsul
glotal se eprim n unitide ,
e
.
Votm : ,
2
M V
2
,
e

'

1
]
1

1
]
1

,
_

rest in , 2

N
6
V
1
V ,
1
OV t ,
6
6V
1
V n
P cos
N
1
V O2, n ,
1
V
n
P cos 1
6
1
0t4
*ste evident c are loc inegalitatea : V
1
R V
6
WW V
2.
.emnalul g fiind mrginit , imaginea sa este de forma unui polinom n z
31
.
zOgNOzN E0z4
,rebuie fcute cteva precizri privind funciile de transfer n z utilizate la
modelarea discret a semnalului vocal.
=iltrul numeric este descris de o ecuaie recurent de forma:
'


V
2 K
#
2 m
mN On
m
b KN IOn
K
a
Cn care: a
2
M 1, I reprezint semnalul de ieire iar este semnalul de la intrare.
=uncia de transfer operaional A asociat ecuaiei anterioare este: QOIN M X, QON
M %, X M A. %.

V
2 K
K
z
z
a
#
2 m
m
z
m
b
A0z4

!ac procesul descris de relaia are tactul ,
e
0 echivalent frecvenei de eantionare
4 sau frecvena de tact f
e
M 1>,
e
, atunci el realizeaz o funcie de transfer frecvenial
A
p
0Y 4, a crei epresie este:



V
2 K
e
, 9KY
e
K
a
#
2 m
e
, 9mY
e
m
b
4
e
9YY
A0e Ap0Yp

!omeniul util de filtrare este :
2Z Y Z P> ,
e
sau 2Z f Z f
e
>6
!e regul se scrie :
Y,
e
M 6 P[ , [ M f> f
e
astfel c domeniul de filtrare devine: [ \ O 2, 1>6N.
!ac se consider un filtru trece 9os cu [ 0 frecvena digital de tiere 4 egal cu
2,1, atunci lucrnd cu tactul f
e
se realizeaz un filtru trece 9os cu frecvena de tiere f
c
M
2,1 f
e.
?n al doilea aspect particular care trebuie menionat se refer la o anumit
clasificare.
!ac n relaia anterioara are loc:
12
b
2
]2 5 b
m
M 2, m \ O1,mN
atunci devine :

V
2 K
K
z
K
a
2
b
A0z4
$peraia realizat este de tipul AR 0 Auto Regresiv4 sau all7 poles 0 numai cu
poli4.!ac n relaie se face inlocuirea:
a
2
M 1 5 a
K
M 2,

K \ O 1, V N^^
atunci relaia devine:
m
z
#
2 m
m
b A0z4


$peraia astfel realizat este de tip #A 0 #oving Average7 medie alunectoare4.
!eci, cu aceste denumiri forma general este de tip AR#A. !e regul, se prefer forma
AR.
Relaia descrie o structur #A. Cn aplicaii i pentru aceast structur se prefer o
realizare AR cu doi poli :
R S _, 5
4
1
Sz 401
1
az 01
1
0z4 E
`


&a o frecven de tact de 12 DAz, E0z4 reprezint un filtru trece 9os cu o frecven
de tiere de aproimativ 122 Az.
Pentru foneme insonore, semnalul primar de ecitaie este de tip zgomot 0 semnal
discret4 alb cu densitatea spectral de putere constant egal cu 1. &egea de repartiie nu
este important n acest caz i se poate considera un zgomot cu repartiie gaussian.
Cn ceea ce privete tractul vocal, modelul acusto7 mecanic , indic prezena unor
rezonane care genereaz formanii. #odelarea tractului vocal se face cu o structur AR
de forma:
11

V
1 K
N
6
z
6K
a
1
z
1K
a O1
1
<0z4

!at fiind caracteristica de tip trece band a filtrului real, polii apar n perechi
comple con9ugate.
Ln privina funciei de transfer care este asociat orificiului bucal, caracteristica sa
de tip trece sus poate fi modelat ntr7o prim aproimaie printr7o seciune #A de
forma:
( )
1
z 1
6
1
B0z4


valorile de la capetele domeniului spectral considerat 0[ M 2, i [ M 2,(4 sunt
respectiv:
B014 M 25 B0714 M 1
Pentru a nlocui structura #A printr7una AR 0 avanta9oas ca algoritmi de calcul4,
se consider urmtoarea form:
( )
1
z a 1
a 1
1
0z4
1
B


cu 2 W a W l, apropiat de unitate. <alorile la capete sunt:
1 4 1 0
1
B 5
a 1
a 7 1
0z4
1
B
+

ceea ce arat c dac aal atunci structura este apropiat de , dezvoltarea ei n serie :
....
6
z
6
a
1
az 1
1
1 az 1
1
1
+


arat c structura,
6
z
6
a
1
az 1
1
4
6
a a 01 0z4 B
`

+
+
cu valorile de la capete.
1 0714 B
`
5
6
a a 1
6
a a 1
014 B
`

+ +
+

reprezint un filtru trece sus.


16
Cn concluzie se poate spune c :
pentru foneme sonore funcia de transfer operaional este:

0z4 B
`
<0z4 0z4 E
b
0z4
c
,

cu semnalul de la intrare U
,o
iar
pentru foneme insonore:

0z4 B
`
<0z4 0z4
c
,

*ste necesar s se introduc i un factor multiplicativ 0 de scalare4, A
v
pentru
foneme sonore i Ac pentru foneme insonore.
!in cele analizate mai sus, rezult un model discret de producere a vorbirii, cu un
singur tract 0oral4 , prezentat n fig. ;.
=ig..;.#odelul electric de producere a vorbirii.
#odelarea prezentat n fig.;. este de tip AR, funcia de transfer asociat fiind de
forma:
,0z4
A
A0z4
1-
A
8
A
<
foneme
insonore
P
2
,
U
f
2
parametrii
traseului
vocal
efectul
buzelor
efectu
l
glotei
Eenerat
or
0z4 E
`
Eenerat
or de
zgomot
0z4 B
`
fonem
e
sonor
e
p 3presiunea
din cmp
n care A este o constant 0 diferit la cazul sonor i la cel insonor4, iar ,0z4 este un
polinom n z
71
, 0 diferit la cazul sonor sau insonor4. .tructura #A de forma:
,0z4 A 0z4
i
A
se numete filtrul invers sau G filtrul de albireG, deoarece filtrul n cascad cu filtrul
formeaz un sistem global cu funcia de transfer operaional egal cu o constant.
Prin schema din fig.;. ns nu pot fi modelate fonemele nazale , schema trebuind
completat i cu elementele corespunztoare tactului nazal.
Astfel relaia se va completa:
0z4
6
,
6
A
0z4
1
,
1
A
A0z4 +
indicele 1 referindu7se la tractul oral iar indicele 6 la tractul nazal.Relaia nu poate fi
redus la o structur AR i deci pentru fonemele nazale se folosete o structur AR#A.
Cn procesarea semnalului vocal se folosesc valorile tipice prezentate n continuare.
=recvena de eantionare se alege ntre H sau 12 DAz, rezultnd o band util de ;
sau de ( DAz.
Pentru recunoaterea sau sinteza fonemelor fricative frecvena de eantionare se
mrete la 62 DAz., considernd f
s
M12DAz, ,
s
M 2,1 ms.
Pe durata a 627-2ms, parametrii tractului vocal se pot considera ca fiind constani
0proces staionar4. Alegnd o secven de -2ms, rezult c intervalul de consatan
cuprinde VM -22 eantioane.
Pentru a nu se produce efecte de margine , ferestrele de -2ms se preleveaz din 12
n 12ms.
.e constata c pentru decelarea sau constituirea formanilor, tractul vocal trebuie
s fie reprezentat cu cel puin doi poli pe 1 DAz , ceea ce conduce la 12 poli. Pentru
impulsul glotic i pentru radiaia oral mai sunt necesari 67- poli. Cn final deci funcia de
transfer trebuie s aib ,0z4 de gradul1-71;.
Pentru determinarea lui ,0z4 de gradul p , sunt necesare p eantioane pentru care
se evalueaz funcia de autocorelaie.
Aceast prelucrare numeric a semnalului vocal se face n urmtoarele scopuri:
1;
codarea eficient a semnalului vocal5
sinteza semnalului vocal5
recunoaterea vocii5
studii de fonetic5
anatomia normal i patologic a organului formator.
=ig.(.#odelul n timp discret pentru producerea semnalului vocal.
1.4 eprezentarea digitala a semnalelor vorbirii
Pentru procesarea semnalului vocal, fie ca vorbim despre stocare, sau despre
prelucrare este necesara captarea si transformarea semnalului sonor ntr7o reprezentare
ntr7un alt domeniu, n domeniul electric. Reprezentarea electrica a unui semnal vocal se
poate face fie n modalitate pur electrica, n care semnalul eletric este analogul
semnalului vocal, fie o reprezentare codata sau digitala n care informatia digitala
stocheaza semnalul vocal ntr7o maniera independenta.
!in aceste doua metode cea mai utilizata n ultima vreme este reprezentarea
digitala, la baza acestei alegeri stau o multime de avanta9e pe care aceasta le ofera:
multitudinea de operatii care se pot efectua si usurinta mare cu care acestea se aplica fata
de cazul reprezentarii electrice.
Prin urmare n continuare ma voi ocupa doar de reprezentarea digitala a
semnalului vocal. Cn cadrul acestei reprezentari semnalul vocal este caracterizat de niste
parametrii care sunt etrasi din acest semnal. #odelul simplificat al etragerii acestor
parametrii este reprezentat n figura urmatoare :
1(
0n
4
8oeficienii
filtrului
Vesono
r
.ono
r
d
Eenerator
de
impulsuri
Eenerator
de
zgomot
A0z4
=ig @. #odelul etragerii parametrilor numerici
!upa cum se poate vedea din figura precedenta semnalul analogic este preluat
de blocul de prepocesare. .emnalul analogic este apoi pregatit pentru a fi supus
procesului de etragere a parametrilor. Aceste blocuri pot fi analogice, de eemplu filtre,
amplificatoare, sau numerice. #a9oritatea operatiilor de acest gen se fac n numeric, n
analogic ramnnd doar amplificatoarele si convertorul analogic7numeric. Lesirea din
acest bloc este un semnal digital.
!upa ce are loc transformarea semnalului analogic n digital, si aplicarea
catorva operatii asupra semnalului, acesta este preluat de blocul de etragere a
parametrilor. Cn cadrul acestui bloc se etrag tipurile de parametrii necesare n continuare.
Putem avea parametrii temporali, spectrali etc.
Activitatea acestor doua blocuri este supervizata de catre blocul de Modelare a
vorbirii care realizeaza o analogie ntre componente fiziologice si componente
matematice. Asadar se realizeaza o emulare a componentelor reale prin elemente
matematice ce tin de domeniul digital. Parametrii elementelor matematice sunt
determinati n blocul de etragere a parametrilor.
Lata n continuare o detaliere a acestor blocuri.
Blocul de preprocesare
Blocul de preprocesare realizeaza legatura ntre semnalul audio real si blocul de
etragere a parametrilor, n cadrul acestui bloc avnd loc pregatirea semnalului pentru
intrarea blocului de etragere a parametrilor. Cn lumea reala din momentul emiterii
sunetului pana cand acesta este captat de blocul de preprocesare, asupra undei sonore
intervin o serie de factori datorati canalului>mediului de transmisie, factori ce induc o
deformare care poate perturba partial sau total o prelucrare corecta a undei sonore.
1@
*ista o serie de operatii tipice ce se efectueaza aspura undei sonore n cadrul
blocului de preprocesare. Aceste operatii sunt urmatoarele :
a)Digitizarea semnalului vocal.
8ea mai mare parte a energiei semnalului vocal este continuta n banda de
frecvente (27@2Az si ;7(KAz, ceea ce impune folosirea unor filtre trece 9os sau a unor
filtre trece banda care vor selecta din unda sonora eact acest interval. Prin aplicarea
acestor filtre se vor elimina componenetele de frecventa 9oasa reprezentnd componenta
continua, preturbatii induse de sistemele de alimentare, prin urmare componenete fara
informatie utila, iar prin eliminarea componenetelor de frecventa nalta se doreste
eliminarea spectrului inutil precum si a efectului de alIasing, efect ce apare la esantionare
si despre care vom vorbi mai incolo. !upa filtrare urmeaza pasul prin care se efectueaza
transformarea din analogic n digital. ,eorema esantionarii a lui .hanon impune o
frecventa de esantionare de cel putin dublul frecventei celei mai nalte din semnalul
analizat. !upa cum am aratat mai sus frecventa utila cea mai nalta este n 9urul ;7(KAz
ceea ce impune necesitatea unei frecvente de esantionare mai mare de HKAz. 8onvertorul
analog7numeric poate avea o rezolutie de H71@ biti. 8odarea cea mai utilizata n domeniul
digital este P8# offset binar sau complement fata de 6.
=ig +. Procesul de digitizare.
b) Preaccentuarea semnalului vocal.
!upa cum aminteam la punctul anterior este necesara o anumita filtrare aplicata
asupra semnalului audio. Aceste filtre se pot aplica att asupra semnalului analog, despre
acestea discutnd anterior, ct si asupra semnalului digital, n acest caz avnd de7a face
cu filtre numerice. ?n astfel de filtru este si urmatorul , rolul sau fiind acela de a anula
efectul atenuarii eercitate de canalul de transmisie asupra undei sonore.

!upa cum demonstreaza practica, aplicarea unui asemenea filtru este benefica
doar n cazul sunetelor vocalice, nefiind utila n cazul sunetelor nesonore, consoane. $
valoare de compromis pentru care aplicarea filtrului este utila n ambele cazuri este
valoarea de 2.'( pentru e .
1+
c) Segmentarea semnalului vocal.
?na din problemele prelucrarii unui semnal vocal este modificarea tractului
vocal n timp, element ce influenteaza negativ orice operatiune. Aceasta implica
necesitatea analizarii semnalului vocal pe perioade scurte de timp, perioade n care unda
sonora este cvasistationara dat fiind faptul ca forma tractului vocal nu se modifica
semnificativ. $ astfel de perioada este estimata la 127;2 ms. Aceasta segmentare a
semnalului vocal digitizat se realizaeaza prin operatiunea de ferestruire. Aceasta operatie
nseamna aplicarea unei ferestre cu anume proprietati de7a lungul semnalului, iar
prelucrarea efectundu7se asupra fiecarui segment astfel obtinut prin ferestruire.. =ie
semnalul sursa s unde s0K4 reprezinta al K7lea esantion din cadrul semnalului. .e observa
ca semnalul nu este analizat functie de timp ci functie de numarul esantionului. Aplicarea
asupra acestui semnal a unei ferestre " va duce la obtinerea unui semnal si avnd forma :
K reprezinta n aceasta formula numarul de ordine al segmentului n timp ce n
reprezinta numarul de ordine al esantionului n cadrul segmentului, unde fiecare segment
contine V esantioane. Cn literatura de specialitate termenul de esantion este ntlnit si ca
sample .
=ereastra ce se aplica asupra semnalului poate fi de mai multe tipuri. 8el mai
utilizat tip de fereastra este cea dreptughiulara avnd forma:
!esi foarte frecvent utilizata aceasta fereastra are o mare problema determinata
de limitarea brusca la capatul segmentului a esantioanelor. Aceasta problema se rezolva
printr7o atenuare treptata a esantioanelor la capetele segmentului, prin aplicarea ferestrei
Aamming. Aceasta fereastra este de forma:

=ereastra Aamming se aplica de obicei aspura unui numar de esantioane putere
a lui 6: 16H, 6(@, (16. Pentru obtinerea unor rezultate si mai relevante, printr7o urmarire
mai fina a variatiei parametrilor semnalului vocal, n cadrul prelucrarii de multe ori se
alege o ferestruire prin acoperire, overlapping n literatura de specialitate. Aceasta
acoperire nseamna o suprapunere a doua segmente, suprapunere ce poate varia ntre ;2)
si H2).
=olosirea acestei ferestre duce la cresterea importantei esantioanelor din centrul
ferestrei, iar aplicarea si a unei suprapuneri a ferestrelor asigura calcurearea netezita a
1H
parametrilor semnalului vocal. Parametrii se vor calcula cadru cu cadru n ntreg
semnalul vocal de analizat.
=ig. H. =ereastra Aamming
Alte ferestre folosite adesea n domeniul prelucrarii semnalelor vocale sunt :
=ereastra Aamming:
=ereastra Barlett:
=ereastra BlacKman:
1'
!urata unui cadru, adica lungimea n sample7uri a acestuia este direct
proportionala cu viteza de articulare a sistemului de producere a vorbirii. Astfel lungimea
cadrelor trebuie sa ndeplineasca urmatoarele doua cerinte: sa nu aiba o lungime mai
mica dect cea necesara cuprinderii unei perioade de semnal dar nici una prea mare nct
sa compromita caracteristica de cvasistationaritate a semnalului. !e aici dimensiunea de
care vobeam anterior, anume de 12ms7;2ms pentru fiecare cadru n parte.
d)Eliminarea componentei de curent continuu
Vumarul de treceri prin zero este afectat de componenta continua a semnalului,
adica de media aritmetica a celor V esantioane ale cadrului de analiza. !atorita acestui
fapt, eliminarea componentei de curent continuu este unul din primii pasi efectuati la
procesarea unui semnal vocal.
.e defineste:
Primul pas este calcularea nceputului cadrului curent dupa care din valoarea
fiecarui esantion se scade valoarea lui !8. $peratia se repeta pentru fiecare cadru n
parte.
$ alta metoda este prin calcularea mediei aritmetice n tot semnalul si apoi
aceasta valoare sa se scada din fiecare esantion n parte. Cn acest caz valoare lui !8 este
eprimata sub forma:
unde & reprezinta lungimea ntregului semnal.
$ optimizare a celor doua metode, n vederea reducerii timpului de eecutie,
este aceea prin care !8 se calculeaza doar la al n7lea cadru si aceasta valoare se mentine
valabila pe o perioada de n cadre pana la calcularea unei noi valori.
$ alta alternativa mai usor de aplicat este folosirea unui filtru trece sus, util prin
faptul ca pe lnga eliminarea componentei continue, va elimina si variatiile lente datorate
tot lantului de prelucrare si mai ales canalului de transmisie. ?n astfel de filtru poate fi
urmatorul:
62
1.! "erceptia semnalelor vorbirii
Dimensiunea vocabularului . Cn mod normal, dificultatea recunoasterii vorbirii
continue creste cu dimensiunea vocabularului. 8ercetarile n domeniu au estimat, ca
dificultatea de recunoastere creste logaritmic cu dimensiunea vocabularului. #emoria
necesara si timpul de calcul, cresc si ele de obicei dupa aceasi regula. 8resterea memoriei
necesare este cauzata si de compleitatea sistemului, care creste si ea, fiind necesara si
memorarea mai multor parametri. .istemele de recunoastere a vorbiri, din punct de
vedere al dimensiunii vocabularului, se mpart n trei categorii: sisteme cu vocabular mic,
mediu si mare . Astfel sistemele cu vocabular mic se ncadreaza n intervalul 127''
cuvinte, cele de dimensiune medie n 1227''' cuvinte, iar cele mari cu dimensiune peste
1222 de cuvinte. Cnsa, aceste limite pot varia n functie de alte caracteristici ale
sistemului, crescnd n cazul vorbirii izolate. Cn cazul unui vocabular mic, sistemul poate
fi foarte simplu, cu metode de recunoastere bazate numai pe informatie acustica,
compararea rostirii putndu7se face cu fiecare cuvnt din baza de date. 8u ct dimensiunea
creste, sunt necesare metode mai complee care sa tina caracteristicile sistemului n
limite rezonabile. Aceste metode includ informatii si cunostinte lingvistice, constrngeri
ce elimina o parte a cuvintelor posibile candidate, nefiind necesara analiza acestora.
,otodata, eficientizarea sitemului se poate face si la nivel acustic, prin trecerea la unitati
de recunoastere mai mici, de la cuvinte la silabe sau la foneme.
Monolocutor sau multilocutor . Cn cazul sistemelor monolocutor, o singura
persoana este folosita pentru a antrena, testa si utiliza sistemul. !aca acelasi sistem nsa,
este antrenat de catre mai multi vorbitori, pla9a de variabilitate a vocii se etinde, nsa
numarul de unitati de referinta ramnnd constant, performantele de recunoastere se
degradeaza fata de cazul monolocutor. !e asemenea performantele sistemului vor scadea
daca utilizatorii sistemului nu fac parte din cei ce au fost folositi la antrenarea sistemului.
Lmportant este si seul persoanelor care au antreneaza respectiv utilizeaza sistemul
datorita diferentelor de caracteristici ntre cele doua see n ce priveste vorbirea.
Vorbire izolata sau continua . .istemele de recunoastere a vorbirii izolate
0R<L4 recunosc rostiri discrete ale cuvintelor, adica cu pauze semnificative dintre cuvinte,
dupa fiecare rostire avnd loc o determinare a etremitatilor cuvntului, dupa care are loc
procesul de recunoastere. Precizia determinarii limitelelor cuvntului are o influenta
importanta asupra reusitei de recunoastere. !aca dimensiunea vocabularului creste,
pentru eficientizarea sistemului, se poate trece la recunoasterea unitatilor sub7cuvinte,
introducnd n structura sistemului nivele de recunoastere suplimentare, bazate pe leica
limba9ului. Cn cazul sistemelor de recunoastere a vorbirii continue 0R<84, acesta trebuie
sa recunoasca cuvintele rostite n mod natural, fluent, fara nici o constrngere. .istemul
trebuie sa fie capabil sa treaca peste problema necunoasterii frontierelor cuvintelor, a
coarticulatiilor si a ntrepatrunderii cuvintelor, fara pauze ntre ele. Cn acest caz, este
aproape inevitabila folosirea unitatilor sub7cuvnt ca si unitati primare de recunoscut, si
introducerea de cunostinte lingvistice n structura sistemului de recunoastere. ?n astfel de
sistem depinde de limba n care se utilizeaza, deoarece constrngerile lingvistice difera de
la o limba la alta, pe cnd la sisteme de recunoastere a cuvintelor izolate, fara nivele
lingvistice, limba nu are nici o influenta asupra structurii si regulilor sistemului.
61
*ista o alta metoda de recunoastere a vorbirii, numita recunoasterea vorbirii
conectate . Aceasta este o metoda ntre cele doua metode amintite, cea izolata si cea
continua, din punctul de vedere a metodelor de recunoastere necesare a fi implementate.
.i n acest caz, cuvintele sunt rostite n mod fluent, nsa este nevoie de o cooperare mai
buna din partea vorbitorului. 8uvintele sunt recunoscute ca unitati de baza, dupa care se
folosesc reguli de succesiune a cuvintelor, pentru a discerne ntre succesiuni valide sau
invalide de cuvinte recunoscute, asemanator unui sistem de R<8.
Conditii de mediu si zgomot . Robustetea sistemului de recunoastere depinde si
de capaciatea de a recunoaste cuvintele n conditii mai severe. Prezenta zgomotului n
semnalul achizitionat degradeaza performantele sistemului, introducnd perturbatii
nedorite n caracteristica spectrala a semnalului vocal. Protectia sistemului la zgomot se
face prin filtrare sau alte metode mai complee. 8nd se prezinta performantele unui
sistem de recunoastere a vorbirii, se precizeaza si conditiile de mediu n care s7au
determinat performantele prezentate, care de obicei sunt: conditii de laborator, conditii de
oficiu cu zgomot de fond uman sau de alta natura, conditii de semnal telefonic sau
zgomot de trafic urban.
1.# Structura generala si $unctionarea unui sistem de recunoastere a
vorbirii
Recunoasterea vorbirii este un proces foarte comple, continnd diverse blocuri
constructive complee.
=ig. '. .tructura generala a unui sistem de recunoastere a vorbirii
.istemul este compus din doua parti componente principale. Prima componenta
este una fizica, echipament electronic, care are rolul de a transforma sunetul 0vibratiile
acustice4 n semnal electric si adaptarea acestuia la intrarea blocului urmator. ,raductorul
acustico7electric reprezinta microfonul, a carei iesire este conectata la intrarea unui
amplificator cu o caracteristica spectrala de tip filtru trece 9os. Aceasta caracteristica are
rolul de a elimina perturbatiilor de nalta frecventa si a efectului de alIazing ce ar putea
aparea la conversia analog7numerica. 8erintele esentiale ale acestui bloc sunt: microfon
de calitate mediu7buna, amplificare cu zgomot redus si la nivel optim pentru intrarea n
convertorul analog7numeric, amplificare liniara, fara deformarea formei de semnal
66
original, caracteristica ct mai uniforma n banda de trecere. &imitarea spectrului
semnalului vocal se poate face la ;7H KAz. 8onversia analog7numerica poate fi ntre H71@
biti, frecventa de esantionare putnd varia ntre H71@ KAz, codare P8#.
A doua componenta principala a sistemului este o componenta logica,
reprezentata de un sistem numeric de calcul. ?n eemplu de un astfel de sistem este un
calculator personal, echipat cu o placa de sunet. Placa de sunet reprezinta prima
componenta, care este fia si nemodificabila. A doua componenta reprezinta un program
care se eecuta pe calculator, implementnd toate prelucrarile necesare.
&a iesirea blocului de conversie analog7numerica, eista un flu de date
constant, reprezentnd semnalul vocal codat digital, prin esantioanele sale, eprimate ca
si numere binare. !aca consideram frecventa de esantionare de 12 KAz, si rezolutia de 1@
biti, atunci avem un flu de date de 62 222 de octeti>secunda, secvential. Recunoasterea
vorbirii nu se poate face pe baza formei de unda a semnalului vocal, deoarece aceasta este
o combinatie liniara si neliniara de diverse efecte, utile si redundante, inseparabile n
domeniul temporal, cum ar fi zgomotul, variatia amplitudini, a fazei, componente
armonice nedorite, etc. Parametrii ce reprezinta mai bine vorbirea sunt cei spectrali,
deoarece ei contin informatii relative la sistemul fonator al vorbitorului si dinamica
acestuia si sunt separabili. !in acest motiv, ma9oritatea metodelor de etragere a
parametrilor, analizeaza semnalul vocal din punct de vedere a spectrului de amplitudine
al acestuia.
Pentru atenuarea componentelor spectrale de frecventa nalta de origine
vocalica, datorita mediului de propagare a semnalului acustic, n primul rnd, semnalul
vocal se trece printr7un filtru cu caracteristica trece7sus implementat digital, proces numit
preaccentuare .
8adrul de semnal vocal se prezinta la intrarea blocului de etragere a
parametrilor. Cn acest bloc se determina parametrii ct mai reprezentativi ai semnalului
vocal, pe baza esantioanelor. Astfel de parametrii sunt:
Energia 3 da informatii asupra amplitudinii medii a semnalului vocal. Poate fi
utilizata pentru determinarea originii vocalice sau nevocalice ale sunetelor, determinarea
etremitatilor unitatilor acustice, variatia energiei da informatii relative la momentul
variatiilor fonetice.
Numarul trecerilor prin zero 3 se utilizeaza pentru masurarea grosiera a
continutului n frecventa a semnalului vocal. !a informatii suplimentare, lnga energie
despre etremitatile unitatilor acustice.
Frecventa fundamentala 3 reprezinta frecventa de rezonanta a corzilor vocale.
!in punct de vedere a recunoasterii vorbirii, se poate negli9a acest parametru, deoarece ea
varieaza de la o persoana la alta, dar ramne constanta pentru aceeasi persoana.
6-
Spectrul de energie sau de amplitudine 3 reprezinta imaginea n frecventa a
semnalului vocal. =orma spectrului este rezultatul combinarii efectului semnalului vocal
ecitatie si a functiei de transfer a semnalului vocal. *a prezinta maime ale anvelopei
spectrale n 9urul componentelor formantilor, si o variatie rapida, datorita semnalului de
ecitatie. !eoarece memorarea fiecarei componente de frecventa, n numar de N2 , este
ineficienta, se pot determina niste benzi reprezentative repartizate pe domeniul spectral si
calcularea amplitudinii medii pe banda respectiva. Vumarul de P benzi se poate alege
ntre 1271@, ele fiind mai aglomerate si de latime mai mica la frecvente 9oase si mai
rasfirate si mai largi, la frecvente nalte. #etoda utilizata de determinare a spectrului de
amplitudine este ,ransformata =ourier Rapida 0==,4.
Analiza liniar predictiva 3 urmareste determinarea parametrilor unui filtru care
modeleaza efectul de atenuare selectiva si dinamica de catre tractul vocal al semnalului
ecitatie. Prin aceasta metoda se face abstractie de semnalul ecitatie, astfel spectrul
filtrului rezultat va fi fara variatii bruste prezente n spectrul de amplitudine a semnalului
vocal. Parametrii determinati, n numar de P , pot fi furnizati direct la iesire, sau se pot
determina amplitudinea sau energia spectrala medie din P benzi reprezentative.
Analiza cepstrala 3 este o analiza speciala, prin care efectul compus al ecitatiei
si al functiei de transfer a tractului vocal se separa cu o eficienta mai buna, ca n cazul
analizei spectrale sau liniar predictive.
Blocul final al sistemului este blocul de recunoastere. .tructura acestuia variaza
foarte mult, n functie de metoda de recunoastere utilizata. *ista doua categorii
principale de metode de recunoastere: recunoasterea bazata pe re!erinte si recunoasterea
bazata pe modele .
a4 Prima metoda este folosita eclusiv la recunoasterea cuvintelor pronuntate
izolat sau conectate. Cn acest caz, pentru fiecare cuvnt ce se doreste a fi recunoscut, se
alege un sir de vectori reprezentanti rezultati dintr7o rostire de referinta a cuvintelor
respective, si se memoreaza n dictionar sub aceasta forma. Pentru a nu include n aceste
reprezentari, vectori rezultati din semnal vocal din afara cuvntului, etremitatile
cuvintelor referinta trebuiesc determinate cu precizie, care se poate face manual sau
automat, prin determinarea primului si a ultimului cadru a fiecarui cuvnt. Recunoasterea
se face prin achizitionarea cuvntului de recunoscut, aplicarea acelorasi prelucrari ca la
cuvintele referinta, rezultnd sirul de vectori reprezentanti. Cn continuare, se ia fiecare
referinta din biblioteca, si se calculeaza distanta dintre acestea si cuvntul de intrare.
!istanta se obtine prin acumularea distantei dintre vectorii celor doua cuvinte de7a lungul
aei temporale, comparatia facndu7se ntre vectorii corespunzatori acelorasi foneme
presupuse ale cuvintelor. Aceasta metoda de comparatie se numeste metoda de aliniere
temporala sau Dinamic "ime #rapping 0 D"# 4. !istanta de cautare a cadrelor
asemanatoare se limiteaza, pentru ca alinierea sa nu poata fi deviata pe o cale gresita.
!aca cuvntul de referinta si cel de intrare reprezinta acelasi cuvnt, avnd o variatie de
lungime rezonabila, alinierea temporala se face cu succes. !ecizia de recunoastere se face
pe baza distantei minime dintre cuvntul de intrare si toate cuvintele referinta. !aca
distanta minima este mai mare dect o valoare limita, se ia decizia de cuvnt necunoscut.
6;
!eoarece parametrii cuvintelor sunt memorate sub forma FcrudaG, astfel de sisteme de
obicei sunt monolocutor. !aca se doreste recunoasterea mai multor locutori, este
necesara introducerea n dictionar a unei referinte pentru fiecare cuvnt de la fiecare
locutor.
b4 $ alta metoda de recunoastere, mai evoluata si cu performante superioare,
este recunoasterea pe baza de modele. Cn aceasta abordare, fenomenul de producere a
vorbirii este asociat cu evolutia n timp a unui automat cu stari finite, care trece n stari
succesive, sincronizat de tactul de simbol, si la fiecare tranzitie emitnd un simbol, care
se observa si se nregistreaza. $ astfel de modelare a vorbirii se poate face la fiecare nivel
de recunoastere, prin stabilirea corespondentei starilor, a tranzitiilor si a simbolurilor
corespunzatoare procesului modelat. Astfel de modele pot fi definite pentru foneme,
cuvinte sau propozitii. ?n model de acest tip este Modelul Mar$ov %scuns &MM%) sau
'idden Mar$ov Model &'MM) . Vumarul de stari si a simbolurilor unui astfel de model
sunt limitate. Vumarul de stari ai modelului se determina prin corespondenta dintre
numarul de Fevenimente stationareG din fenomenul modelat. Astfel, daca se modeleaza
un cuvnt, numarul de stari al modelului va fi identic cu numarul de foneme si al
pauzelor dintre acestea. Vumarul de simboluri se alege n functie de numarul de
simboluri posibile a fi observate la fiecare tact de simbol. Cn cazul fonemelor, se alege cel
putin numarul fonemelor eistente n limba respectiva.
6(
Capitolul II
"arametrii semnalelor vorbirii
2.1 Compresia %i codarea semnalelor audio
8ompresia i codarea semnalelor audio constituie o parte important a
procesrii semnalelor audio i video. 8odarea , sinteza i recunoaterea sunt trei domenii
cheie n procesarea semnalelor. Cn cadrul codrii, scopul este de a se obine o reprezentare
digital compact a semnalului pentru economia transmisiei sau a stocrii, pentru
reducerea ratei de bit.
8ei patru parametri fundamentali ai codrii semnalelor sunt calitatea
semnalului, rata de bit, (nt)rzierea de procesare *i comple+itatea implement,rii.
Rata de bit eprimat n bii pe secund 0bps4 sau n biti pe esantion este
esenial n codarea semnalelor. Cn tabelul @.1 sunt prezentate ratele de eantionare i
benzile de frecvene tipice, conform normelor internaionale, utilizate n comunicaiile
audiovizuale.
,abel 1.
&ormat
audio
ata de
e%antionare
'anda de
$recven()
,elefonie H
DAz
6227-;22
Az
,eleconferine 1@
DAz
(27
+.222 Az
8ompact disc
08!4
;;,1
DAz
627
62.222 Az
Band magnetic
digital
;H
DAz
627
62.222 Az
8alitatea semnalului audio7video este descris pe baza unor criterii subiective.
*ste larg acceptat o scar cu cinci trepte a calitii semnalelor la care se adaug i
msurtori de inteligibilitate.
Cntrziereap cesrii este suma ntrzierilor care apar n procesele de codare7
decodare, n procesele de digitalizare a semnalelor la trnsmiterea n reea s.a.
8ompleitatea este msurat att prin procesele aritmetice necesare
algoritmului0 msurate n mips7milioane de instruciuni pe secund4 ct i prin cerinele
de memorie0 Kilooctei de R$# sau RA#4 Cn aplicaii de tipul transmisiilor de radio i
,< este n mod special important minimizarea compleitii decoderului. 8alitatea este
un parametru important de performan n special pentru nevoia de a minimiza puterea
disipat i costul echipamentelor.
6@
Pentru asigurarea acestor cerine s7a conceput o varietate de sisteme de
codare.Pentru toate acestea eist numai dou principii fundamentale de compresie:
a. eliminarea redundanei de ordin statistic sau determinist din sursa de semnal
b. adaptarea sistemului de cuantizare la proprietile sistemului de percepie
uman. Cn cazul semnalelor de date, compresia se bazeaz n ntregime pe eliminarea
redundanei.
.emnalele vorbirii au un model universal bine cunoscut de a se produce, ceea
ce face posibil o tehnic de reducere a redundane, n primul rnd prin codarea cu
predicie liniar n domeniul timp.
.istemul de cuantizare poate fi avanta9at n realizarea unei reduceri a ratei de
bit, de un fenomen fiziologic, numit mascarea zgomotului. #ascarea este fenomenul prin
care un stimul puternic 0semnalul util4 acoper complet un semnal mai slab 0 zgomotul de
cuantizare4 n vecintatea lui spectral sau spaio7temporal. =orma cea mai comun de
codare adaptat la percepie este cea n care anumite componente selectate dintr7o
transformare n domeniul frecven 0 specrele semnalelor cu durat mic4 sunt fie
cuantizate grosier, fie complet ignorate fr micorarea calitii semnalului.
,ehnicile de compresie au condus la reducerea semnificativ a ratei de bit.
Aplicaii cu o rat de bit sub 12 Kbps, cum sunt vorbirea prote9at 0 criptat4, radio
celular, transmisia prin pota electronic a vocii i a imaginii, sunt acum uor de realizat
practic. Cntre 12 i 62 Kbps aplicaiile a9ung n aria telefoniei i ale teleconferinei. Cntre
62 i 122 Kbps se plaseaz cteva aplicaii audio7vizuale incluznd grafica, video Lnternet,
voce prin Lnternet, muzic la nivel de radiodifuziune. 8odoarele cu analiz7prin7sintez i
predicie liniar sunt cele mai utilizate i stau la baza celor mai multe standarde de codare
a vorbirii de nalt calitate. Progrese remarcabile n compresia i codarea vorbirii, n
adoptarea algoritmilor de codare s7au realizat pe baza modelelor de producere a vorbirii
i pe modelele perceptuale ale auzului uman.
2.2 *+tragerea parametrilor semnalului vocal
!upa cum am spus anterior pentru o analiza corecta a semnalului vocal
etragerea parametrilor se va face utiliznd ferestruirea si suprapunerea ferestrelor.
Parametrii obtinuti sunt fie statici si atunci caracterizeaza cadrul curent, fie dinamici si
atunci caracterizeaza mai multe cadre succesive.
"ropriet)(ile statistice ale semnalului vocal.
.emnalul vocal este o realizare particular a unui proces aleatoriu nestaionar,
care se supune legilor satatisticii. .e poate vorbi de statistic pe termen lung i statistic
pe termen scurt n funcie de intervalele de timp considerate..emnalul vocal fiind
eantionat, estimarea statistic se realizeaz pe eantioane.
Alegerea frecvenei de eantionare se face n funcie de tipul semnalului, vocal 0
semnalul telefonic4 sau semnal audio0 vorbire plus muzic4. Astfel n cazul semnalului
telefonic, prin limitarea benzii la -;22Az. frecvena de eantionare se alege =
e
M H KAz.
Cn cazul semnalului audio pentru o reprezentare fidel a semnalului pn la 62 KAz, se
alege o frecven de eantionare f
e
M (H KAz. !ebitul binar0 BR7bit rateM f
e
V
6+
biti>secunda4 necesar pentru transmisii va fi i el difert. Astfel, pentru semnalul telefonic
cu H bii pe eantion, debitul este de H222 H M @; Kbii>s, iar pentru transmisia sau
nregistrarea semnalului audio necesit un debit de ;H222 1@ M +@H Kbii>s.
,rebuie subliniat faptul c semnalul vocal sub forma sa iniial 0 analogic4 este
un semnal aleatoriu, iar prelucrarea digital se efectueaz asupra semnalului eantionat.
Parametrii statistici sunt evaluai pe baza eantioanelor semnalului analogic iniial..
.emnalul transmis sau stocat este supus n prealabil la o discretizare a valorilor prin
cuantizare.
Statistica semnalului vocal.
Pe baza a numeroase eperimente s7a stabilit c semnalul vocal reprezint o
realizare a unui proces aleatoriu nestaionar. !eci, evoluia sa n timp se supune unor legi
statistice. Cn funcie de condiiile n care se fac observaiile se pot defini dou regimuri
statistice care depind n principal de durata segmentelor de vorbire. Astfel eist :
statistica pe termen lung 0 .,&4, n care caz proprietile statistice medii
ale semnalului vocal sunt estimate pe intervale de timp importante 0 cteva zeci de
secunde4 i mediate pe mai muli vorbitori5
statistica pe termen scurt 0.,.4, constnd n evaluarea proprietilor
statistice pe fragmente temporale de numai 127-2 de milisecunde, n decursul crora
semnalul poate fi considerat cvasistaionar.
Cn primul caz segmentele de semnal de durat relativ mare0 -27(24 secunde sunt
realizri ale unui semnal aleatoriu nestaionar, pe cnd cele pe termen scurt por fi
considerate realizri ale unui semnal aleatoriu staionar i ergodic. Cn ambele cazuri
semnalul fiind eantionat cu o frecven de eantionare compatibil cu teorema lui
.hannon, estimarea statistic se efectueaz pe eantioane.
Cn cazul .,& n care numrul de eantioane este de ordinul sutelor de mii ,
pentru prelucrarea numeric se poate folosi tehnica convoluiei secionate, iar n cazul
.,. unde numrul de eantioane este de cel mult -22 se poate folosi transformarea
=ourier rapid.
P rincipalii parametri statistici ai semnalului vocal sunt:
1. !ensitatea de probabilitate sau densitatea de repartiie 0 legea de repartiie a
semnalului vocal4
!ac V
f
reprezint numrul de eantioane ale semnalului OnN,ale cror
amplitudini sunt cuprinse n intervalul Of7gf>6, fRgf>6N, gf fiind o abatere relativ mic,
iar n \ O7V, VN, densitatea de probabilitate a semnalului presupus ergodic i staionar
este:
p

0f4 M lim 0 V
f
> 6VR14

gfh2
Vhi
6H
*stimri eperimentale ale acestei densiti, realizate pe segmente de vorbire de
ordinul a (2 de secunde i mediate pe cteva zeci de vorbitori, au artat c densitatea de
probabilitate pe termen lung este apropiat de distribuia Eamma de ordinul j i de
distribuia &aplace, distribuii cu legi de repartiie simetrice i cu valoare medie nul.
6.<aloarea medie,notat cu m

este definit prin relaia:



V
m

M limO1>0 6VR14N k OnN



Vhi n M 7V
Pentru semnalul vocal aceast medie este presupus nul.
-. <ariana. Pentru semnale discrete cu m

M 2, relaia de definiie este:



V
d
6

M limO1>0 6VR14N k
6
OnN
Vhi n M 7 V
<ariana reprezint energia medie a semnalului discret.
;. *nergia semnalului vocal
Prin determinarea energiei unui cadru se poate stabili caracterul sonor sau
nesonor al respectivului segment din semnal. Astfel energia alaturi de Fnumarul de treceri
prin zeroG este folosita pentru detectia liniste7vorbire. OBallzs 1''HN =ormula de calcul a
energiei este urmatoarea :
unde V reprezinta numarul de esantioane din cadrul curent iar n reprezinta
indicele esantionului curent.
*nergia din formula anterioara este un parametru static. !ar de asemenea se
defineste si o delta-energie care ne da informatii despre dinamica amplitudinii
semnalului. =ormula de calcul a acesteia este:
unde l reprezinta cadrul curent, si 6D71 lungimea intervalului de regresiune,
cadrul curent fiind eclus. <alorile practice folosite pentru D sunt 1 si 6.
6'
(. Vumarul trecerilor prin zero al semnalului vocal.
Vumarul trecerilor prin zero este folosit pentru determinarea grosiera a
continutului n frecventa a semnalului vocal. Astfel pentru o sinusoida de frecventa f,
V,Q va fi 6f. !upa cum am spus si anterior V,Q impreuna cu energia semnalului vocal
se folosesc la detectia liniste vorbire. 8aracaterul sonor al unui cadru va fi caracterizat
prin V,Q mic si energie mare, iar cel nesonor prin V,Q mare, energie mica.
=ormula de calcul a V,Q este:
unde n reprezinta indicele esantionului, iar V reprezinta numarul de esantioane
din cadrul curent de analizat.
@. !eterminarea frecventei fundamentale.
Acest parametru se defineste doar pentru cadrele vocalice si reprezinta frecventa
de rezonanta a corzilor vocale. !eterminarea ei este destul de dificila dar o aproimare
mai buna se poate face prin mediere aplicata asupra mai multor cadre succesive.
Cn continuare voi prezenta cele mai utilizate metode de determinare a frecventei
fundamentale.
@.1 #etoda autocorelatiei
Asupra fiecarui cadru se aplica o !unctie de autocorelatie definita dupa formula:
unde n este indicele curent al sample7ului, iar K indicele functiei de autocorelatie
avnd valori cuprinse ntre 1 si V71.
!aca n cadrul segmentului vocal analizat, semnalul prezinta o anumita
periodicitate atunci functia de autocorelatie va prezenta maime locale la anumita
distanta eprimata n numar de sample7uri. !istanta intre doua astfel de maime va defini
frecventa fundamentala.
-2
@.6 #etoda diferentei de amplitudine medie
Aceasta metoda reprezinta o varianta a metodei autocorelatiei, varianta
corespunzatoare a functiei nde autocorelatie purtnd denumirea de !unctie de di!erenta de
amplitudine medie fiind definita de formula:
unde n si K au aceeasi semnificatie ca n cazul functiei de autocorelatie.
.e observa ca daca semnalul este periodic de perioada p atunci .0ip4 M 2, unde i
M 2, 1, 6.... Cn cazul n care semnalul este unul nestationar, . are valori minime n
punctele ip. Cn acest caz frecventa fundamentala este definita de distanta de la 2 la primul
minim local al functiei de diferenta de amplitudine medie.
@.- .pectrul de amplitudine si de faza al semnalului vocal
.pectrul de amplitudine reprezinta imaginea n frecventa a semnalului electric.
,recerea din domeniul timp n domeniul frecventa se face cu ,ransformata =ourier
!irecta 0,=!4. ,recerea din domeniul frecventa n cel temporal se face cu a9utorul
,ransformatei =ourier Lnverse 0,=L4.
=orma discreta a ,=! este:

iar forma discreta a ,=L este
#ai multe despre ,ranformata =ourier vor fi prezentate n continuare. !eocamdata
trebuie spus ca n functie de scopul urmarit se pot folosi diferite tipuri de spectre. Astfel
daca se urmareste recunoasterea vorbirii se foloseste doar spectrul de amplitudine, faza
semnalului neprezentnd interes datorita faptului ca aceasta nu contine informatie
lingvistica. !rept eplicatie pentru cele afirmate e situatia n care vorbitorul isi schimba
distanta fata de ascultator, atunci faza semnalului vocal se schimba, nsa ascultatorul
primeste n continuare aceeasi informatie vocala.
-1
Capitolul III
Metode de analiza
3.1 Modele pentru productia vocala
#odelele de productie vocala prezentate n literatura de specialitate, urmaresc doua
aspecte:
modelarea tractului vocal, modelerea variabilitatii n timp a caracteristicilor sunetelor.
, Modelarea tractului vocal
8el mai cunoscut model al productiei vocale este cel numit Fmodelul sursa7filtruG,
descris de =ant n 1'@2. 8onform acestui model, componentele ansamblului de productie
vocala este compus din trei parti: sursa de ecitatie, echivalenta generatorului undei
vocale, un tub cu cavitati de rezonanta, echivalent unui filtru, n procesarea de semnal, si
tractului vocal superior,n mecanismul de productie vocala, si un filtru care simuleaza
fenomenul radiatiei bucale.
Parametrii referitori la rezonantele tubului 0n principal polii filtrului4 pot fi folositi
pentru a caracteriza din punct de vedere spectral portiuni ale fluului sonor vocal.
Pentru modelarea tuturor sunetelor vorbirii, se folosesc doua tipuri de surse de
ecitatie:
7 Eenerator de impulsuri5 forma implusurilor este asemanatoare celor glotale
naturale, cu o panta de crestere mai mica dect cea de scadere, si se desfasoara pe durata
deschiderii glotale. Acestea sunt separate de portiuni pe care semnalul ramne la zero si
corespund intervalelor de nchidere glotala. Acest tip de ecitatie se produce n cazul
vocalelor, consoanelor sonante 0nazale, lichide4 si a celorlalte consoane sonore. ,renurile
de impulsuri au o panta spectrala de 716 dB>octava.
7 Eenerator de zgomot aleator echivalent celui de fricatie produs la trecerea aerului
prin portiunile constrictive, n cazul consoanelor fricative sau a celor cu portiuni fricative.
Ldentitatea fiecarui sunet este data de pozitiile particulare ale articulatorilor mobili
careformeaza cavitatile rezonante ale tractului vocal superior. Acesta actioneaza ca un
filtru asupra semnalului de ecitatie. Cn stadiul final al modelarii sursa7filtru, se simuleaza
fenomenul radiatiei
bucale, care se concretizeaza n cresterea pantei spectrale cu R@ dB>octava. Cn
sinteza formantica a sunetelor sonore se combina efectul radiatiei bucale cu cel produs de
spectrul de ecitatie si se
foloseste un filtru care realizeaza, pe ansamblu, o panta spectrala de 3@ dB>octava.
, Modelarea semanlului vocal (n domeniul timp
Prin modelerea variabilitatii caracteristicilor sunetelor, se urmareste reprezentarea n timp
a urmatoarelor trasaturi: durata si co7articularea sunetelor, evolutia n timp a principalilor
parametrii ai modelului.

-6
a. Modele pentru durata sunetelor
&a nivel vorbitorului, durata sunetelor este n corelatie cu rapiditatea vorbirii.
Rapiditatea vorbirii este limitata de inertia articulatorilor iar durata sunetelor variaza
functie de mobilitatea articulatorilor implicati n producerea lor 0miscarea buzelor si a
limbii4. !uratele medii ale fonemelor variaza ntre 62 msec pentru consoanele plosive
sonore pna la 1(2 msec pentru diftongi, cu o durata medie a fonemelor de +2 msec. &a
vocale, durata variaza, functie de contet, ntre valori aflate ntr7un raport de 1>H si
depinde de silaba n care se afla. Danedera si AermansKI n studiul lor au pus n evidenta
faptul ca modulatia perceptuala cea mai importanta a vorbirii 0modificarile cele mai
importante n semnalul vocal4 este realizata n 9urul valori de ;7( Az, sau 62276(2 msec
ct este aproimativ durata unei silabe .
Dlatt face remarca ca n recunoasterea vorbirii informatia de durata este folosita
de fiintele umane pentru a distinge:
7 vocalele lungi de cele scurte,
7 consoanele sonore de perechile lor surde,
7 silaba de final fraza de cea neaflata n pozitie final fraza,
7 vocala din silaba accentuata de cea din silaba neaccentuata.
!aca se iau n considerare multitudinea factorilor care influienteaza duratele fonemelor si
perceptia, rezulta modele relativ complee. #odelul propus de Dlatt stabileste + factori
care influenteaza structura duratelor dintr7o propozitie, si H reguli care tin cont de acesti
factori.
?n model mai simplu propus de van .anten este capabil sa modeleze H@) din
situatiile de variatie a duratelor vocalelor cuprinse ntr7un corpus segmentat manual.
Acest model necesita urmatorii parametrii pentru controlul duratei vocalelor:
7 durata intrinseca a vocalei,
7 prezenta accentului de propozitie
7 prezenta accentului de cuvnt,
7 consoana dinaintea vocalei,
7 consoana dupa vocala,
7 pozitia n cadrul cuvntului
7 pozitia n cadrul rostirii.
Ln modelul statistic dezvoltat de 8hung, pentru modelarea duratei la nivel de
fonem si cuvnt este folosita o structura cu arbori 0AVEL* frame"orK4. Antrenarea
arborelui este facuta be baza unui corpus de date. Lnformatia de durata cuprinsa n arbore
poate fi folosita pentru a testa
diferite ipoteze asupra unor posibile cuvinte si a favoriza pe acelea care au o mai buna
apropiere cu modelul . =olosirea acestui model, n cadrul unui proces de recunoastere a
condus la o scadere cu H) a erorilor de recunoastere n vorbirea continua si cu 66) a
erorilor de recunoastere a cuvintelor.
b. Modele pentru co-articularea sunetelor
Cn ceea ce priveste co7articularea sunetelor vecine, aceasta se evidentiaza prin
tranzitii formantice lente de la unul la celalalt care fac dificila stabilirea granitelor
acestora.
Cn modelul dezvoltat de ./man , modificarea formei tractului vocal la tranzitiile de tipul
vocala7consoana7vocala a fost descrisa prin relatia :
s&+,t)0v&+)1$&t) 2 3c&+) - v&+)4 2 5c&+)
--
unde: s&+,t) este forma tractului vocal n pozitia + si la momentul de timp t,
v&+) este forma tractului vocal corespunzatore vocalei respective,
c&+) este forma tractului vocal corespunzatoare consoanei,
$&t) este un termen de interpolare ntre 2 si 1
5c&+) este un terman care descrie marimea etrinderii co7articulatiei.
Autorul recunoaste ca e greu de descris cu acest model co7articularea ntre
consoane, cum ar fi n cazul tranzitiei 8<8, consoana7vocala7consoana.
Cn modelul bazat pe teoria punctului de articulare , consoanele au asignate valori
fie pentru formanti, corespunzatoare punctului de articulare, care pot sa nu fie vizibili n
semnalul vocal. Acesti formanti virtuali sunt interpolati cu formantii propriu7zisi care
apar la
vocale, pentru a genera modificari formantice dependente de contet. 6latt a modificat
teoria punctului de articulare pentru ca valorile FformantilorG la consoane sa depinda si
de tipul vocalei . =olosind aceasta metoda el a atins o inteligibilitate a consoanelor de
'() n sinteza
silabelor 8<8, comparabila cu inteligibilitatea de '') pentru silabele 8<8 rostite
natural. Dlatt nu a evaluat modelul pe etensii ale co7articulatei mai mari de @ foneme.
Cn modelul propus de 78!9vist, raportat de 8ohen si #assaro , segmentele de speech
si suprapun functiile de dominanta care controleaza articulatorii, eistnd cte o functie
de dominanta pe cte un articulator. Acestea pot diferi n ceea ce priveste offset7ul de
timp,
durata si marime, dnd o mai mare sau mai mica pondere articulatorilor asociati cu
segmentul devorbire dat.
!esi aceste modele pentru co7articulatii sunt folosite cu succes n modelarea
reprezentarii miscarii articulatorilor n timpul vorbirii, ele nu pot fi folosite n sistemele
de recunoastere a vorbirii.
Analiza scenelor auditive
Analiza scenelor auditive 0A.A4 este un model teoretic al perceptiei umane n care se
foloseste o procesare bottom-up si top-do5n pentru a determina ce parti din semnalul de
vorbire apartin unui singur eveniment acustic . #odelul este construit pornind de la
analiza mediilor sonore complee ce implica eistenta mai multor sunete simultan.
!e asemenea, dupa izolarea unor componente de interes din fiecare portiune de semnal
vocal, pentru integrarea lor ntr7un mstreamsn, se foloseste criteriul similaritatii n ceea ce
priveste frecventa de mpitchn, sau alte aspecte . 8u a9utorul acestui model 8ooKe si Bro"n
au fost capabili sa detecteze si sa etraga anumite sunete macoperiten, cum ar fi cele
acoperite de sunetul unei sirene.
, Modelul :letc/er-%llen

AarveI =letcher si colegii sai a studiat mecanismul perceptii umane la Bell. &abs.
?n rezultat al cercetarilor sale a fost masurarea recunoasterii corecte a silabelor de forma
8<8 calculnd o rata de recunoastere a fonemelor componente :
S0c1 2 v 2 c2
unde: S este probabilitatea de recunoastere a silabei5
-;
c1, v, c2 probabilitatile de recunoastere corecta a consoanelor si a vocalei dintre acestea.
Aceasta formula are o implicatii importante deoarece oameni percep fiecare
fonemindividual, mai degraba ca unitate de intrare ntr7o silaba. Cn plus, =letcher a
observat ca fiintele umane proceseaza benzile de frecventa independent si ca eroarea
globala de recunoastere n mai multe benzi este data de multiplicarea erorilor n fiecare
din acestea.
Allen a interpretat aceste rezultate astfel: fiintele umane efectueaza recunoasteri partiale
n benzi de frecventa individuale si aceste rezultate partiale fuzioneaza pentru a produce o
estimare a fonemului. Vumarul benzilor de frecventa trebuie sa fie ntre 12 si -2. Allen
noteaza,
de asemenea, ca Freprezentarea neurala la nivelul creierului, a intensitatii sunetului este
transformata ntr7o masura a recunoasterii partiale ... noi nu trebuie sa consideram ca
aceste transformari sunt trivialeG.
Bazat pe descoperirile lui =letcher, Allen propune un model cascada al
mecanismului de perceptie, n care energia semnalul acustic este mai nti mpartita ntr7
un numar de benzi de frecventa intens suprapuse cu a9utorul unui banK de filtre cochlear.
Lesirile acestor benzi sunt folosite pentru a etrage trasaturile sunetului pentru al
clasifica la nivel de fonem. !upa clasificarea la nivelul fonemului se face recunoastere
silabei, pe care se bazeaza apoi recunoasterea la nivel de cuvnt. Allen noteaza ca n acest
model simplificat nu eista
feedbacK ntre diferitele nivele de recunoastere.
=ig. 12.#odel cascada al mecanismului de perceptie propus de
Allen
-(
3.2 -eoria motorie a perceptiei vorbirii
,eoria motorie a perceptiei vorbirii este una din cele mai cunoscute si mai des
folosite. Cntr7o versiune noua stabileste drept obiective ale perceptiei vorbirii, gesturilor
fonetice intentionate ale vorbitorului necesare pentru articularea sunetelor. &a nivelul
creierului, acestora le corespund comenzile motoare pentru miscarea articulatorilor, care
constituie comenzi invariante n raport cu un anumit sunet.8u alte cuvinte, ceea ce
percepem sunt gesture care corespund miscari articulatorilor efectuate de un vorbitor. ,ot
n aceasta teorie se sustine idea eistentei n creier a unui Fmodul specializatG care
transforma semnalul acustic n gesturi fonetice intentionate ale articulatorilor
=ig. 11. #odelul lui &iberman de perceptie a vorbirii
!upa &iberman, acest modul poate lucra dupa metoda de analiza prin sinteza, n
care modelul mental al sintetizatorului este folosi pentru a genera diferite proprietati
acustice. Parametrii gesturilor acustice de la intrare sintetizatorului sunt modificate pna
cnd eroarea dintre
proprietatile acustice sintetizate si proprietatile observate sunt minimizate. Lesirea
acestui modul este reprezentata prin gesturile articulatorilor. &iberman si #attinglI
afirma ca acest model al perceptiei este computational si indirect 0usor invesabil4.
?na din criticile aduse modelului este formulata de 8ole care arata, n urma unui
studiu , ca recunoasterea sunetelor se poate face si de pe spectrograma, prin mcitirean unei
forme vizuale a vorbirii fara implicarea unui modul biologic specializat. Persoanele care
efectueaza citirea spectrogramelor nu fac referiri la miscarile articulatorii. Acest studiu
combate afirmatiile conform carora semnalul acustic este prea comple pentru a fi mapat
n categorii fonetice si aparatul perceptiei auditive necesita un stadiu intermediar, de
transformare a informatiei n gesturi articulatorii.
?n alt studiu, cel al lui &ane, combate ideea transformarii semnalului acustic n
parametri de miscare a articulatorilor. .7au folosit stimuli de tip 8< carora li s7au
-@
inversat frecventele formantice pe aa frecventelor, obtinndu7se sunete nonverbale.
Auditorii au fost antrenati sa nvete sa le recunoasa si acest lucru a reusit, desi sunetele
neprovenind din rostiri verbale nu pot fi puse n legatura cu acei presupusi parametri
interni referitori la comanda miscarii articulatorilor .
?n alt argument l aduce &adefoged prin ideea ca aceleasi sunete, pronuntate diferit
din punct de vedere al articularii, sunt percepute ca reprezentnd acelasi sunet, desi
conform teoriei motoare ar trebui sa fie reprezentate intern diferit .
3.3 Arhitectura unui sistem de .n(elegere a vorbirii
*ist mai multe ci de integrare a surselor de cunostine ntr7un sistem de
recunoatere a formelor pentru ca acesta s devin un sistem de onelegere o a vorbirii.
8ea mai folosit arhitectur este cea de p 9os n susq reprezentat n fig. 16:

=ig.16..istem de nelegere a vorbirii cu arhitectur de
p 9os n sus q pentru integrarea surselor de cunotine.
Ln aceast arhitectur, procesele de la nivelul mai 9os 0de eemplu determinarea
parametrilor ca trsaturi eseniale, decoda9ul acustico7fonetic4 preced procesele de la
nivelurile superioare 0decoda9 leical adic formare de cuvinte dup modelul limbii4 ntr7
o manier secvenial, astfel nct eta9ele succesive s se constrng reciproc ct mai
puin.
$ alt variant ntlnit n construcia sistemelor de nelegere a vorbirii este
arhitectura de osus n 9oso n care, folosind un model al limbii se genereaz ipotezele cu
privire la cuvintele care se potrivesc cel mai bine cu secvena de semnal vorbit care
trebuie recunoscut .Pe baza scorurilor de potrivire se construiesc fraze corecte, cu sens
pentru aplicaia respectiv.. $ asemenea arhitectura este prezentat n fig.1-:
-+
=ig.1-. .istem de nelegere a vorbirii cu arhitectur de
p sus n 9os q pentru integrarea surselor de cunotine.
$ alt posibilitate de integrare a surselor de cunotine n sistemele de inelegere
a vorbirii, este cunoscut sub numele de arhitectura oblacKboardo. Cn acest caz sursele de
cunotine sunt considerate independente. *le comunic printr7un mediu constituit de o
succesiune de operaii ipotetizare7test5 fiecare din sursele de cunotie este activat de
date, pe baza apariiei unor forme pe oblacKboardo care se potrivesc cu modelele
specificate de fiecare din sursele de cunotine5 sistemul lucreaza asincron i se dovedete
a fi foarte fleibil n folosirea oeconomico a surselor de cunotine apelate numai atunci
cnd acestea sunt necesare .
Rezult c n sistemele de recunoatere a vorbirii este necesar integrarea unui
mare numr de surse de cunotine pentru a obine performane acceptabile. Cn realizarea
acestor sisteme dou categorii de procese 9oac un rol deosebit: procesul de nvare i
procesul de adaptare, care sunt adesea cuplate pentru realizarea recunoaterii.
Vumeroase modele sunt aplicate n vederea implementrii acestor procese:
modelul statistic #arKov, modelul cu reele neuronale, modelul fuzzI al mulimilor vagi
precum i combinaiile acestor modele.
Ln recunoaterea vorbirii, un procedeu adesea folosit pentru ostandardizarea n
timpo a unor secvene rostite cu rate diferite de vorbire, este alinierea temporal dinamic
0A,!4.
-H

=ig.1;. Arhitectura FblacKboardG pentru integrarea surselor de cunotine
ntr7un sistem de nelegere a vorbiri
3.4 Modele Mar/ov ascunse
#odelele #arKov sunt o ncercare de ofiareo a proprietailor statistice ale
vorbirii, n structura unui automat secvenial.
#odelele #arKov ascunse sunt automate finite, cu un numar distinct de stri ,
trecerea dintr7o stare n alt stare fcndu7se instantaneu la intervale de timp care
corespund unei ferestre de semnal din a crei analiz rezult un cadru de otrsturi
esenialeo numit i vector de parametri. &a fiecare trecere dintr7o stare n alt stare
sistemul genereaz observaii, n automat derulndu7se concomitent dou procese
aleatoare: unul reprezentat de succesiunea strilor, care este inobservabil, ascuns i un
altul perfect transparent i observabil, reprezentat de succesiunea observaiilor, respectiv
a vectorilor de parametri.
?n model #arKov ascuns simuleaz succesiunea vectorilor din fiecare cadru de
parametrii observai ca pe un proces staionar pe poriuni, deci o rostire este modelat ca
o succesiune de stri ale modelului.
!ac notm cu $ observaiile i cu [ un model #arKov al acestor observaii,
conform regulii lui BaIes reformulat, se pote scrie:

/ P0[>$4 este probabilitatea aposteriori a modelului asociat cu ounitatea
foneticao 0fonem, semisilab, silab, cuvnt4 care determin succesiunea de observaii $ .
/ P0$>A.4 este probabilitatea observaiei n condi9iile modelului i ar putea fi
interpretat ca o msur a probabilitii cu care modelul poate genera observaia $,
respectiv ca o probabilitate de emisie a unui anumit vector de trsturi.
-'
4 0 . 4 > 0
4 0
4 > 0

P ; P
; P
; P

/ P0[4 este o probabilitate apriori a modelului determinat de rstructuraG limbii


i care este determinant pentru fiecare limb
/ P0$4 este probabilitatea observaiei $ pe care o presupunem independent de
parametrii modelului
*cuaia poate fi privit ca ecuaia de antrenare a modelului, parametrii acestuia
fiind reestimai dupa criteriul maimei plauzibilitai a secventei $ n condiiile modelului
[. $ asemenea antrenare n care este maimizat numai probabilitatea modelului corect
ipotetizat corespunzator secventei $, conduce la lipsa de discriminare ntre modele. Pe
lang acest dezavanta9 o alt limitare a modelelor #arKov ascunse este legat de
presupunerea c procesul aleator cu care se aproimeaz segmentul de semnal vorbit are
cadrele succesive decorelate, rcstricie care nu se potrivete foarte bine vorbirii n care
coarticulaia, contetul sunt foarte importante.
#odelele #arKov se bucur de un suport matematic bine pus la punct n forma
unor algoritmi eftcieni de antrenare i de calcul pentru probabilitile aposteriori. 8u o
bun capacitate de nvare, se pot adapta cu uurin dinamicii temporale a semnalului i
nu necesit proceduri de aliniere speciale.
#odelele #arKov ascunse pot fi folosite pentru recunoaterea vorbirii att n
sisteme construite pe principiul recunoaterii formelor ct i n sisteme epert.
Ln sistemele de recunoatere a formelor, nvarea are loc din eperien, prin
antrenarea modelului cu cazuri particulare, rezultatul antrenrii fiind un model cu anumii
parametri care se utilizeaz n recunoatere.
Ln sistemele epert utilizarea modelelor #arKov ascunse este foarte indicat
dac diferitele niveluri de constrangere 0lingvistic, sintactic4 pot fi formalizate statistic.
Pentru limba romna de eemplu, eist date statistice n legatur cu frecvena
de apariie pentru litere, grupuri de litere, tipuri de silabe ,.a. pe baza crora se pot
alctui modele statistice ale limbii.
3.! Modele cu re(ele neuronale
?n punct de vedere acceptat n ceea ce privete reelele neuronale este
capacitatea lor de a modela ntr7o anumit msur procese din sistemul nervos uman .
.chema bloc bazat pe modelul perceperii vorbirii de ctre orn, este prezentat
n figura 1( .
Cn aceast schem semnalul acustic de intrare este analizat de un omodel al
urechiio care furnizeaz o reprezentare spectral a semnalului n funcie de timp. Aceasta
este stocat ntr7o memorie informaionalo7senzorial, la care mai au acces i alte
informaii senzoriale, ca cele provenite de eemplu de la vz i pipit. Ln aceast memorie
se gsete o descriere a semnalului la nivelul otrsturiloro sale relevante, al parametrilor
care l caracterizeaz. #emoria pe termen lung, cu caracter static si memoria pe termen
scurt, cu caracter dinamic sunt utilizate n procesul de detecie a diferitelor otrsturio.
!up cteva stadii de rafinare a deteciei de trsturi, ieirea final a sistemului reprezint
o interpretare a informaiei coninute n semnalul acustic de intrare.
;2
.istemul din figura 1(. este un model uman de nelegere a vorbirii la nivelul
cunotinelor actuale cu privire la mecanismele implicate n acest proces.
=ig.1(. .chema bloc conceptual a perceperii vorbirii de ctre om.
Ln acest model, diferitele trsturi obinute prin analiz, reprezint rezultatul
unor prelucrri care au loc pe nivelele succesive parcurse de informaia culeas cu
senzori pn la creier, memoria pe termen scurt i memoria pe termen lung asigurnd
controlul acestor procese. Lnterconectarea elementelor acestei scheme sugereaz structuri
asemanatoare celor din reelele neuronale, cu care se pot modela procesele de nvare i
adaptare.
Cn momentul de fa, cu reele neuronale se construiesc sisteme mult mai simple
dect creierul uman i care rezolv probleme cu mult mai simple dect cele pe care le
rezolv creierul uman. *le constituie o alternative la metodele convenionale n
recunoaterea vorbirii datorit unor caliti de necontestat.
8alitile pe care le prezint reelele neuronale i care le fac potrivite n
recunoaterea vorbirii sunt urmatoarele:
1. Prin structura lor, rezultat din punerea n paralel a unui mare numar de
elemente de calcul identice, reelele neuronale sunt procesoare tipice pentru calcul
paralel, ele putnd prelua setul de trsturi care caracterizeaz formele de recunoscut.
6. Prin odiseminareao informaiei dar i a perturbaiei la toate elementele de
calcul din reea, reelele neuronale au o mare toleran la erori, fiind structuri foarte
robuste din acest punct de vedere
Ponderile coneiunilor din reea nu sunt constrnse s fie fie, ele pot fi
adaptate n timp real, pentru mbuntirea performanelor5 retelele neuronale sunt
structuri care pot fi folositepentru nvarea adaptiv.
;. !in cauza neliniaritii nglobate n fiecare element, reelele neuronale pot
aproima cu o eroare mic orice comportare neliniar a sistemelor dinamice.
;1
.e poate afirma c dac proprietatea - este cea care asigur adaptabilitatea
reelei, proprietatea 1 determin viteza acestei adaptari, proprietatea 6 detennin
ostabilitateao iar proprietatea ; permie optimizarea strategiei de adaptare.
Ln recunoaterea vorbirii reelele neuronale i gsesc utilizrile cele mai
diferite, de la aplicaiile legate de modelarea i de clasificarea sistemelor de recunoatere
a formelor pn la testarea ipotezelor n sistemele epert. Reelele neuronale se utilizeaz
n acelai mod n ambele cazuri.
Cn cazul recunoaterii formelor n faza de antrenare reeaua i schimb structura
pentru a se adapta setului de date de antrenare, nvnd deci din eperien5 faza de
antrenare terminat, reeaua s7a structurat i a devenit model, iar modelul poate fi folosit
pentru recunoatere prin determinarea unor msuri de potrivire a datelor cu modelul.
Cn cazul sistemelor epert toate informaiile materializate ntr7un ansamblu de
reguli sau de cunotine sunt memorate n structura sistemului, reeaua constituind
de eemplu un model de limb sau de gramalic.
!in semnalul acustic, prin decodare fonetico7acustic se etrage, de eemplu, o
succesiune de litere: modelul de limb stabilete care sunt cuvintele care pot fi construite
cu aceste litere5 aceste cuvinte devin ipoteze care sunt testate n vederea alegerii
cuvntului cel mai probabil, iar decizia luat constituie o dat pentru nivelul superior.
Pentru nivelul urmator deci, datele sunt constituite dintr7o succesiune de cuvinte din care,
cu un model de gramatic putem construi fraze7ipoteze, alegnd ca soluie final pe cea
mai probabil dintre acestea 5 procesul poate astfel continua pn la ultimul nivel, pe
care selecionm fraza cea mai potrivit cu scopul propus, corect din punct de vedere
gramatical i semantic.
Reele neuronale cu autoorganizare!
!ezvoltarea hrilor cu auto7organizare ca modele neuronale a fost motivat de
o caracteristic distinct a creierului uman i anume aceea de a avea n corteul cerebral
arii corespunzatoare centrilor nervoi specializai pentru diverse activiti: vorbitul, auzul,
vzul, funciile motorii etc. Aceste arii sunt localizate n aceeai zon i, mai mult, ariile
individuale arat o ordonare logic a functionalitii lor.
Aceste reele sunt bazate pe nvarea competitiv5 neuronii de ieire ai reelei
concureaz ntre ei pentru a deveni activi, rezultatul fiind acela c numai unul dintre ei
are aceast ans la un moment dat. ?n neuron de ieire care nvinge n aceast
competiie este numit neuron nvingtor.
?n mod de a induce o competiie de acest tip ntre neuroni este folosirea
coneiunilor laterale inhibitorii ntre acetia.
Lntr7o hart cu auto7organizare, neuronii sunt plasai n nodurile unei matrice,
care de regul este uni sau bidimensional. Ln timpul procesului de nvare, neuronii
devin selectivi la diferite forme de intrare sau clase ale acestora. &ocalizarea neuronilor
nvingtori n raport cu ceilali neuroni se face n aa fel nct se pstreaz relaiile
topologice, de poziionare, eistente ntre vectorii de intrare n spaiul lor
multidimensional. !e aceea, stratul de ieire al reelei este similar unei hri topografice a
formelor de intrare n care coordonatele spaiale ale neuronilor din matrice sunt
;6
indicatori ai caracteristicilor statistice coninute n formele des intrare, i de aceea se
numesc ohri cu auto7organizareo.
Ln spaiul de ieire aezarea neuronilor se poate face sub form liniar, circular,
ptratic, cubic, n general m7dimensional.
*ist dou modele de structurare a reelelor neuronale cu auto7organizare,
prezentate n fig.1@. Cn ambele cazuri neuronii sunt aran9ai ntr7o matrice
bidimensional. Acest tip de topologie asigur fiecrui neuron un set de vecini. #odelele
difer ntre ele prin modul n care sunt specificate formele de intrare.
=ig.1@.,ipuri de hri de caracteristici.
a4modelul Dohonen5 b4 modelul Jillsha"7von der #alsburg.
Realizarea "#rilor fonetice cu a$utorul reelelor neuronale!
Prin harta fonetic se nelege reprezentarea ntr7un plan a informaiei coninute
n semnalul vocal. Aceast reprezentare trebuie astfel fcut nct s se consrve relaiile
de vecintate eistente ntre prile componente ale semnalului vocal n spaiul de
reprezentare primar. 8um iniial semnalul este caracterizat prin intermediul a ;2 de
coeficieni cepstrali i delta7cepstrali, problema care trebuie rezolvat const n
realizarea unei transltari din hiperspatiul iniial ;27dimensional n spaiul hrii fonetice
bidimensional. Ln literatura de specialitate o astfel de abordare se ntlnete sub
denumirea de selecie a caracteristicilor 0 features selection4.
#etoda optim de selecie a caracteristicilor const n aplicarea transformatei
Darhunen7&oeve.
Aceast transformare depinde de statistica semnalului de intrare, ea conduce la
obinerea unor rezultate mai slabe 0sub7optimale4 n cazul semnalelor vocale a cror
statistic nu este staionar.
Pentru obinerea unor rezultate mai bune n selecia caracteristicilor se
utilizeaz reele neuronale de tip Dohonen cu un strat de ieire bidimensional.
;-
&a alegerea acestei soluii contribuie dou idei ma9ore:
7utilizarea unei reele neuronale, care prin structura sa paralel conduce la o
prelucrare rapid a datelor5
7folosirea unei reele de tip Dohonen care datorit caracterului su topologic
ofer posibilitatea conservrii relaiilor de poziionare din spaiul iniial n cel
transformat.
Pentru realizarea hrilor fonetice se poate utiliza o reea Dohonen cu un strat de
ieire de form plan, aa cum este prezentat n fig. 1+. Cn fig. 1@ sunt prezentate dou
hri fonetice obinute folosind reeaua Dohonen.
=ig.1+..tructura reelei neuronale Dohonen cu strat de ieire bidimensional.
3.# Modele cu logica $uzz0
.tudiile arat c n articulaia vorbirii umane nu eist delimitri nete, binare.
Acest fapt i are cauza n principal n variabilitatea ca pronunie a vorbitorilor si n
diversitatea coarticulaiilor 0contetelor4 posibile. ,otui cnd vrem s stabilim care este
runitatea foneticao emis, dac nu pot fi luate decizii clare putem s ne adaptm la
variabilitatea datelor de intrare printr7o decizie fuzzI, o decizie vag, nuanat.
&ogica fuzzI a fost propusa in 1'@( de catre iranianul &otfi Qadeh i i7a gsit
numeroase aplicaii, n special n teoria recunoaterii i a reglrii automate.
&ogica propus lucreaz cu variabile ovagio, nebinare. !ac se consider
dependena _04, pentru definirea variabilei _ n logica binar sunt valabile relaiile:
_ M 1 t p
_ M 2 Z p
;;
care n logica fuzzI devin: _ M 1 5 t p
2 W _ W 1 5 Z p

=ig.1H. <ariabila fuzzI _v
.e vede c se poate defini astfel o msur variabil, _ cuprins ntre 2 i 1 a
apartenenei lui la domeniul Z p.
?n eemplu din domeniul vorbirii ar putea prezenta interes. Ln testele de
recunoatere a vocalelor ooo i ouo una din trsturile eseniale preferate n clasificare este
diferena =- 3 =1 unde =1, este frecvena formantului de ordin 1. Pentru ooou, =- 3 =1W
6,2( KAz, eist ns cazuri cnd =- 3=1 a9unge pn la 6,1 KAz. Pentru ouo =-7=1t
6,6(KAz dar sunt cazuri cnd aceasta diferen poate scdea pn la 6,1 KAz. $
reprezentare fuzzI a acestei situaii este prezentat n =ig.1'.

=ig. 1'. !ecizie fuzzI n recunoaterea vocalelor p o q i p u q.
;(
Cn domeniul de incertitudine, cu 6,2(W =- 7 =iW6,6( decizia se ia n favoarea
vocalei la care gradul de apartenen _ este mai mare, construindu7se astfel o punte ctre
soluionarea comod a unei probleme care nu prea uor de rezolvat.
Pe lng faptul c se acomodeaz bine datelor acustice, care reprezentate
parametric nu acoper un domeniu delimitat de reguli binare, punctul de vedere fuzzI se
potrivete i reaciei umane, care este diferit de cea a unei masini, a unui aparat.
Putem spune deci c logica fuzzI se adapteaz bine datelor acustice i c ntr7
un anume fel oumanizeazo , decizia luat ntr7un sistem de recunoatere, efectele
pozitive concretizndu7se n rate de recunoatere crescute .
3.1 Alinierea temporal) dinamic) 2A-34
Problema comprrii secvenelor spectrale pentru vorbire apare din faptul c
diferite realizri acustice ale aceleiai rostiri 0cuvnt, fraz, propoziie4 au foarte rar
aceeasi rat a vorbirii. !eci fluctuatiile ratei vorbirii trebuie mai nti normalizate nainte
s fie luat decizia recunoaterii, pentru a avea sens comparaia rostirilor.
8onsiderm dou forme de rostire % si X reprezentate de secvenele spectrale
01, 6, ...,, 4 i 0I1, I6, .... I,I4 unde , si I, sunt vectorii de parametri ai
caracteristicilor acustice pe timp scurt. =olosim i si iI pentru a reprezenta indicii
temporali ai celor dou forme % si X.
!uratele celor dou rostiri , si ,I nu sunt neaparat identice. Vesimilaritatea
ntre % si X este definit considernd o funcie a distorsiunilor spectrale pe timp scurt d
0i, 5iI4, care va fi notat pentru simplitate cu d 0i, iI4, unde i M l, 6, ..., ,, iar iIvMl,
6,..., ,v. . !eoarece ordinea secvenial a sunetelor este critic n definirea unei rostiri,
este necesar ca indicii perechilor spectrale care urmeaz s fie comparate s satisfac
anumite condiii. Lnteraciunea ntre aceste constrngeri secveniale i variaiile
naturale ale ratei vorbii constituie una dintre problemele centrale ale recunoaterii
vorbirii i anume, problema alinirii temporale i normalizrii.
Rezolvarea acestei probleme presupune folosirea a dou funcii de deformare
w, wI,, care asociaz indicii celor dou rostiri, i si iI cu o a K a timpului comun.
i M w 0K 4
KM1,6,^. ,
i I M wI 0K4
$ masur global a nesimilaritii formelor dw, 0%, X4 poate fi definit pe baza
funciei de deformare wM0 w,, wI4 astfel :
,
dw, 0%, X4 M k Od 0w 0K 4, wI 0K4 N n 0K4 > # w
K M 1
;@
unde d O0w 0K 4, wI 0K4N este o distorsiune spectrala pe timp scurt definit
pentru w 0K4 i IwI 0K4 5 m0K4 este un coeficient de ponderare a cii, iar # w este un
factor de normalizare a cii.
Esirea celui mai bun aliniament ntre o pereche de forme este echivalent cu
gsirea celei mai bune Fcio ntr7o matrice a caracteristicilor acustice, n care cele dou
forme au duratele ,, respectiv ,I . Esirea celei mai bune ci necesit rezolvarea unei
probleme de minimizare pentru care de cele mai multe ori se apeleaz la tehnici de
programare dinamic.
;+
Capitolul IV
Metode de sinteza 2 recunoasterea vorbirii 4
4.1 Arhitectura sistemelor de recunoa%tere a vorbirii
.istemele de recunoatere a vorbirii realizate pn n momentul de fa, din
punct de vedere al recunoaterii sunt relativ modeste situndu7se n urmtoarele
categorii:
x .isteme cu vocabular redus 0127122 cuvinte4
x .isteme n care cuvintele sunt pronunate izolat 0 12.222 cuvinte4
x .isteme care accept vorbire natural 0continu4 dar n domenii specializate
01.2227 (.222 cuvinte4
!e cele mai multe ori recunoaterea vorbirii este tratat ca o problem de
recunoatere a formelor, comparndu7se rformele vocaleG cu anumite modele. .tructura
unui sistem de recunoatere a vorbirii pe baza recunoaterii formelor este prezentat n fig.
62, iar procesul de recunoatere a vorbirii n fig. 61.
=ig.62. .tructura unui sistem de recunoatere a vorbirii
K71 antrenare 5 K76 recunoatere.
;H
=ig.61. Procesul de recunoatere automat a vorbirii.
.istemul poate fi folosit pentru recunoaterea vorbirii fie prin metoda
global, n care vorbirea este tratat ca un semnal global "i fcndu7se abstracie de
aspectele fonetice, sau prin metoda analitic n care vorbirea este tratat ca o succesiune
de uniti fonetice de baz "i, din care se compune secvena rostit. Aceste uniti pot fi :
cuvnt, silab sau fonem.
.istemul realizeaz urmtoarele prelucrri eseniale :
1. Cn prima etap se face Fparametrizarea semnaluluiG prin msurarea
trsturilor eseniale ale semnalului vocal, respectiv prin determinarea parametrilor
spectrali, fonetici, &P8 relevani pentru diferite cadre ale semnalului. Aceast operaie
este urmat de o segmentare a semnalului care urmrete desprirea fluului vorbit n F
uniti foneticeG ca foneme, semisilabe, silabe. Prin etichetare acestor uniti se
realizeaz de fapt decodarea acusto7fonetic, primul pas n procesul de recunoatere a
vorbirii prin metode analitice. Cn sistemele globale de recunoatere operaia de decodare
acusto7fonetic nu eist, recunoaterea fcndu7se la nivel de cuvinte sau chiar fraze.
6. Ln a doua etap se face antrenarea sistemului n vederea formrii modelului
fiecreia din clase. !ac pentru sistemele fonetice modelul corespunde unei uniti
ofoneticeo, pentru sistemele globale modelul se constitute pentru ntreaga rostire. Ln
aceast etap formele de recunoscut suficient de variate sunt folosite pentru crearea
modelelor fie utiliznd o tehnic de mediere a trsturilor eseniale fie o caracterizare
acustic a acestora5 n ultimul timp tehnici de clustering realizate prin cuantizare
vectorial sau omapareocu a9utorul unor reele neuronale ncep s 9oace un rol din ce n
ce mai important.
-. *tapa de antrenare se efectueaz cu un lot de antrenare,n scopul obinerii
modelelor
;. A treia etap este cea de clasificare a formelor. Ln aceast etap forma
necunoscut este comparat cu toate modelele elaborate n decursul antrenrii i sunt
evaluate distanele dintre formele necunoscute i modelele disponibile fie chiar n forma
unor distane n diferite metrici, fie n forma unor scoruri de opotrivireo,
;'
(. Ln ultima etap se ia o decizie fie pe baza unui criteriu de distan minim,
fie pe baza unui criteriu de plauzibilitate maim 0sau probabilitate maim45 forma
necunoscut se atribuie modelului cu care se aseaman, se potrivete cel mai bine.
*tapele de clasificare i decizie constituie procesul propriu7zis de recunoatere,
care se face on7 line i n urma cruia se stabilete succesiunea "i de clase recunoscute.
*ist o mare varietate de sisteme pentru recunoaterea formelor vocale, care se
pot deosebi n raport cu alegerea modurilor de reprezentare a tipului de model de
referin, a parametrilor pentru formarea modelului, a metodei de clasificare pentru
formele necunoscute.
8hiar cu aceste criterii de difereniere a sistemelor de recunoatere a formelor, o
clasificare riguroas nu este posibil din cauza diversitii abordrilor practice.
Performanele sistemului depind de cantitatea de date disponibile pentru faza de
antrenare, n vederea formrii modelului5 n general loturi mari de antrenament
mbuntesc performanele recunoaterii.
1.#odelele formate sunt sensibile la mediul n care se vorbete i la
caracteristicile de transmisie ale acestui mediu, cci aceste elemente afecteaz
caracterizarea spectral a vorbirii, efectele lor regsindu7se n diversificarea trsturilor
eseniale ale modelului.
6. 8omplcitatea de calcul att pentru antrenarea modelelor ct i pentru
recunoaterea formelor necunoscute este practic proporional cu numrul modelelor.
- .istemul nu nglobeaz eplicit cunostine despre vorbire, fiind insensibil la
clasele de sunete de recunoscut ca i la alegerea vocabularului.
;. .istemul fiind insensibil la clasele de sunete de recunoscut, aceleai tehnici
sunt aplcaibile unei largi categorii de secvene vorbite, cu alte cuvinte un sistem care
recunoate cuvinte poate fi adaptat s recunoasc fraze dar i uniti fonetice mai mici
dect cuvntul, ca silabele, semisilabele, fonemele. Astfel de sisteme i pot gsi deci cu
uurin locul n structurile ierarhice.
(. *ste avanta9oas nglobarea unor constrngeri sintactice i semantice pentru
mbuntirea performanelor de recunoatere.
8aracteristicile enumerate mai sus se pot oricnd constitui n criterii dup care
s se aleag un sistem de recunoatere potrivit unei anumite aplicaii.
!ac sistemul lucreaz dup metoda global, n urma deciziei se stabilete care
este rostirea cea mai probabil din cele posibile i eventual sunt ntreprinse aciuni n
sensul secvenei recunoscute.
!ac sistemul lucreaz dup metoda analitic, decizia se ia n favoarea unei
anumite ouniti foneticeo i trebuie vzut cum pot fi obinute prin concatenarea acestor
unitai cuvinte i cum se pot forma din cuvinte fraze cu sens pentru aplicaia respectiv..
!ac pentru vocabulare limitate aceste probleme se pot soluiona cu constrangeri interne,
pentru vocabulare mari se apelaz la o serie de surse de cunostine care s conin
regulile de urmat pentru ca sistemul s depeasc simplul stadiu al recunoaterii
ounitilor foneticeo. <or trebui nglobate cunostine de leic, eventual ntr7un model al
limbii pentru a forma cuvinte valide, reguli de sintaa cuprinse intr7o gramatica pentru a
forma construcii gramatical corecte, cunostine de semantic pentru a gsi succesiuni de
cuvinte care s aib un sens , pentru a alege din formulrile corecte gramatical i cu sens
(2
pe cele potrivite aplicaiei respective. Rezult n felul acesta un sistem capabil s
oneleago vorbirea bazat pe cunostine, numit i sistem epert.
4.2 Modele computationale pentru recunoasterea vorbirii
*ista un numar mare de modele pentru sisteme de recunoastere a vorbirii, fiecare cu
diferite perspective de abordare. 8ele mai multe modele pot fi, n general, clasificate n
doua categorii:
bazate pe segment 3 etragerea trasaturilor se face pe segmente de rostire mai mari
de 62msec5
bazate pe cadru 3 etragerea trasaturilor se face pe segmente de rostire mai mici de
62msec.
Cn continuare vom face referiri la cele mai importante dintre aceste sisteme.
Sisteme de recunoastere a vorbirii bazate pe segment.Sistemul S5MMI-
.istemul .?##L, a fost dezvoltat de <ictor Que de la #L, n 1'H2 iar n variante
ulterioare mbunatatite, de catre yim Elass. 8aracteristic acestui sistem este faptul ca mai
nti mparte semnalul n segmente si apoi clasifica din punt de vedere fonetic fiecare
segment. Procedura
generala de recunoastere n sistemul .?##L, este urmatoarea:
1. Eranitele acustice sunt determinate pe baza unei multimi de modificari spectrale. Cntr7o
implementare mai particulara a sistemului .?##L, granitele sunt plasate automat la
fiecare 12msec, transformndu7l efectiv dintr7un sistem bazat pe segment ntrunul bazat
pe cadru, dar aceasta implementare nu este folosita n mod curent deoarece necesita un
timp mare de calcul.
6. $ retea de segmente 0dendrograma4 este creata prin una din urmatoarele metode:
?nind segmentele mici n segmente mai mari n acord cu similaritatile lor
spectrale.
Aceasta este o metoda traditionala folosita n .?##L, , care necesita putine resurse
computationale.
.egmentarea prin recunoastere, folosind o procedura de recunoastere prin care
sunt clasificate fiecare segment sau zona, marcate fie ca foneme, fie ca portiuni tranzitorii
0co7articultii4. !upa aceasta clasificare, este facuta o cautare <iterbi Ffor"ord7passG, care
este urmata de o cautare napoi de tip %2. 8autarea %2 produce un numar de alternative
de segmentare fonetica care reprezinta rezultatul ntr7o dendograma.
Aceasta metoda are un cost computational mai mare dar are performante de
recunoastere mai bune.
-. Pe baza dendogramelor create n pasul 6, se efectueaza clasificarea fonetica a tuturor
segmentelor, folosind urmatoarele doua metode:
Prima metoda efectueaza recunoasterea independent de contet a fiecarui segment
din dendodrama. Cn aceasta metoda sunt ntre VR1 si 6zV categorii, dintre care un numar
de V categorii corespund celor V foneme posibile, iar restul de V categorii sunt folosite
pentru a modela segmentele neincluse n segmentarea cu ipoteze numite Fne7modelabileG
sau Faproape de a fi modelateG .
(1
A doua metoda efectueaza recunoasterea dependenta de contet a fiecarei granite
de segment din dendograma . 8ategoriile dependente de contet pot fi granite fonetice
sau granite interne unui fonem, si ar putea fi n numar de 0V R V64. Cn practica, numai
+(2 de categorii sunt folosite.
Aceste clasificatoare sunt antrenate cu aceleasi trasaturi spectrale care sunt comune
si sistemelor bazate pe A##7uri, iar clasificarea este facuta folosind o combinatie de
gaussiene.
;. 8autarea continua cu un FbigramG <iterbi !or5ard si, pentru cele mai bune V ipoteze,
o cautare de tip n-gram %2 cu trecere napoi. !aca ambele recunoasteri 0cea independenta
de contet si cea a zonelor de granita4 sunt efectuate n pasul -, atunci probabilitatea
finala a secventei de cuvinte este calculata prin nmultirea probabilitatilor fiecarui
segment si a
zonelor de granita dintre acestea.
Performantele celor mai recente sisteme .?##L, sunt de +6) pe clasificarea
fonemelor din baza ,L#L,. Rezultatele la nivel de fonem sunt printre cele mai bune
raportate. ?n sistem bazat pe A## raporteza @'.1) procent de recunoastere iar unul
bazat pe retele neurale +-.;) .
(6
Capitolul V
Aplicatia FJave to tetG. #etoda de lucru folosind
coeficientii &P8
!.1 eprezentarea digital) a sunetului.
&ormatul de compresie audio 6av.

8omprimarea unui "av folosind un algoritm lossless clasic este o operaie
destul de ineficient. Prin "av ne referim la un fiier cu etensia ."av, ce conine muzic,
o copie fidel a unui 8! audio.
?n fiier "av conine un numr imens de eantioane 0sample7uri4, fiecare fiind
codificat pe 6 bItes 01@ bii4. Cntre aceste sample7uri se poate trasa o funcie sinusoidal,
care reprezint unda sonor, cu o aproimare destul de bun fa de sunetul analogic
0real45 pe aa vertical este reprezentat amplitudinea sonor iar pe aa orizontal timpul.
!atorit naturii sale digitale, sunetul nu poate fi reprezentat pe calculator n forma sa
perfect natural, dar cu ct sunt mai dese aceste sample7uri n unitatea de timp, cu att se
poate trasa ntre ele o funcie mai apropiat de sunetul real. #etoda este numit P8#
0Pulse 8ode #odulation4. ?n sunet cu mai puine eantioane este lipsit de frecvene
nalte, aceste frecvene rezultnd tocmai prin alturarea unui numr mare de sample7uri.
$ rat de eantionare 0sampling rate4 bun i utilizat n cazul 8!7urilor audio este cea
de ;;.1 DAz 0;;122 de eantioane pe secund45 pentru Ai7=i e necesar o rat de pn la
'@ DAz, iar pentru voce este suficient un numr de cel puin patru ori mai mic dect
standardul, i anume 1126( sau chiar H222.
*plicaia pentru cele ;;122 de eantioane pe secund st n faptul c omul poate
percepe, n cel mai bun caz, frecvene de pn la 66 DAz. Pentru funcia sinusoidal
necesar formrii sunetului trebuie s avem un numr suficient de puncte descriptive,
care reprezint nite maime i minime locale. .trictul necesar 0dar nu i suficient4 pentru
ca funcia s poat fi reconstituit este un numr de sample7uri egal cu dublul frecvenei
dorite 0cte un sample pentru minim i cte unul pentru maim4. . lum eemplul unui
ton perfect, care este redat grafic printr7o funcie sinus perfect, ca in figura de mai 9os :

=ig. 66. =unctia sinus

Lmaginea reprezint un ton cu frecvena de 662(2 Az la o rat de eantionare de
;;122 Az. .cderea cu 1 Az a eantionrii duce la imposibilitatea pstrrii sunetului la
(-
frecvena dorit, fiind redate doar cele inferioare 0ineistente n acest eemplu4. Regula
descris anterior poart numele de &egea lui VI{uist.
;; KAz @ KAz
=ig. 6-. *santionarea unei secventa audio la ;;KAz, respectiv la @KAz

Am eemplificat n imaginile de mai sus o secven audio comple,
reprezentat n ;; DAz i respectiv @ DAz. Vumrul de eantioane fiind mult mai mic n
cel de7al doilea caz, sunetul este puternic denaturat, fiind pstrate doar frecvenele 9oase.
Prin upsampling 0creterea forat a ratei de eantionare4 se poate obine, prin interpolare,
un sunet mai bun, dar totui departe de original deoarece o mare parte din informaia
audio este pierdut iremediabil. Aceasta ntruct curba rezultat este foarte aproimativ,
cu mai puine rurcuuriG i rcoboruriG, mai aproape de reprezentarea unei funcii
trigonometrice simple.
;; KAz 7t @ KAz 7t ;; KAz
=ig. 6;. *santionarea pe ;;KAz
Putem face o analogie ntre rezoluia unei imagini i rata de eantionare a unui
sunet: la o rezoluie mare, eist un numr mai mare de pieli care descriu imaginea, deci
nivelul de detaliere este mai ridicat.
Alt caracteristic a unui fiier "av este rezoluia sa. 8a i n cazul adncimii de
culoare a imaginilor, unde mai multe culori nseamn o imagine mai aproape de realitate,
mai muli bii alocai unui sample nseamn un sunet mai rprecisG. Cn cazul uzual, sunt
folosii 1@ bii 06 bItes45 pentru domeniul Ai7=i este folosit rata de 6; sau chiar i -6 de
bii 0-, respecitiv ; bItes4. Cn trecut era utilizat rezoluia de H bii, deci fiecrui eantion
i era alocat un singur bIte.
!ac n cazul trecerii de la 1@ la 6; sau -6 de bii diferenele nu se observ aa
de uor, odat cu scderea la H bii va aprea un zgomot de fond suprtor. 8u alte
cuvinte, un sample poate lua @((-@ de valori 06 la puterea 1@4 n cazul rezoluiei de 1@
bii i doar 6(@ de valori n cazul al doilea.
$ metod de a mbunti calitatea slab datorat acestei scderi de rezoluie este
dithering7ul, adic generarea unui alt zgomot de fond, care s rnivelezeG sunetul5 chiar
dac zgomotul final va fi mai puternic, el va fi constant, oferind senzaia c eist dou
surse sonore: sunetul propriu zis i generatorul de zgomot.
(;
Cn primul caz, fr dithering, apare des senzaia unui sunet neclar, fenomen de multe ori
mai suprtor dect dithering7ul.

Vivelul de dithering poate fi ales dup necesiti, un nivel prea mare crescnd
zgomotul de fond, ceea ce evident c nu este de dorit.
Putem afirma c, din anumite puncte de vedere, scderea ratei de eantionare sau a
rezoluiei reprezint o compresie a sunetului cu pierdere de calitate pentru c sunt
eliminate o serie de aspecte ale sunetului astfel nct rezultatul final nu difer n mod
fundamental de original. 8ine dorete s pstreze doar informaia redat de vocea uman,
poate seta fr gri9 H DAz cu H bii i mesa9ul transmis va fi neles fr probleme.
.paiul ocupat de un fisier "av necomprimat ntr7o secund este calculat astfel 0n
parantez am trecut valorile standard n cazul unui 8! audio4: sampling rate 0;;1224 z
numrul de bii 01@4 z numr de canale 06 M stereo4. Avem, astfel, 1.;11.622 bii 0sau
1+@.;22 bItes4 pentru muzica de pe un 8! audio, ceea ce nseamn 1-+H,16( Kilobii>s.
Am a9uns aici pentru a defini unitatea de msur acceptat n compresia audio: numrul
de Kilobii pe secund 0Kbps4, numit i bitrate.
!.2 Aplicatia 76ave to te+t8
Programul permite realizarea conversiei de voce in tet, aceasta facandu7se in timp
real. Pentru aceasta avem nevoie de instrumente performante pentru a7l putea utiliza.
Jave7to7tet este o aplicatie complea de sinteza vocala. .e pot inregistra fisiere "av,
care apoi sa fie transformate in fisiere tt prin recunoastere vocala.
Aplicatia contine si o sectiune de dictare care permite convertirea vocii in tet in
timp real, aceasta dictare este probabil cea mai rapida cale de afisare in format tet a
cuvintelor rostite,care depinde mult de zgomotul ambiental si de viteza de rostire.


((
Pe langa utilitatea uneltelor de9a implementate n cadrul aplicatiei aceasta si
demonstreaza viabilitatea si prin usurinta unei dezvoltari ulterioare, datorita faptului ca
modularitatea ridicata a aplicatiei permite utilizatorului adaugarea cu usurinta a propriilor
unelte n oricare din modulele de prelucrare.
Ve vom opri nsa asupra algoritmilor proprii n ce priveste localizarea vorbirii
folosind spectru de frecvente, asupra performantei algoritmilor de recunoastere a
cuvintelor folosind coeficienti &P8 si cepstrali, si respectiv a algoritmilor de recunoastere
a vorbitorului.
Cn ce priveste algoritmul de localizare a vorbirii singura limitare este data de
posibilitatea utilizatorului de a determina pe baza unor semnale vocale anterioare
apartinnd aceluiasi vorbitor a limitelor intervalului n care este localizata vorbirea
respectivului n domeniul frecventa. Cn ce priveste algoritmul de recunoastere a
vorbitorului bazat pe frecventa fundamentala si V71 formanti performantele au fost foarte
bune megandu7se pna la '( ) n conditii de relativa lipsa a perturbatiilor si o rostire
normala n toate cazurile a cuvintelor.
!.2.1 &ormatul intern al semnalului audio
=ormatul intern al semnalului audio are o componenta comuna pentru formatul
#icrosoft Jave P8# , componenta n care se specifica elemente ca numarul de
esantioane pe secunda, numarul de bItes pe secunda etc. !upa aceste caracteristici
urmeaza esantioanele propri7zise care n functie de caracteristicile semnalului vocal sunt
memorate pe H sau 1@ biti. Aplicatia FJave to tet F lucreaza cu semnale vocale
memorate pe 1@biti, ceea ce este de altfel suficient pentru scopurile propuse ale aplicatiei.
.tocarea interna n cadrul aplicatiei a unui semnal vocal respecta n mare parte
structura interna a fisierelor n format #icrosoft Jave P8#.
(@
,oate informatiile legate de un semnal vocal, fie nregistrat cu prezenta
aplicatie, fie deschis dintr7un fisier de pe disc sunt incarcate in aplicatie si apoi convertite
in tet cu a9utorul #icrosoft .peech Recognition *ngine.
Atributele asupra carora ma voi opri , sunt matricile de coeficienti cepstrali si
&P8. #atricile sunt implementate n cadrul clasei 8#atri. 8ele doua atribute ce
stocheaza coeficientii respectivi sunt mt&P88oefs si mt8eps8oefs , atribute ce apar
att n clasa 8=rameArraI ct si n 8=rame . 8alcularea coeficientilor are loc n metodele
8epstral si &P8 din 8=rame, n metodele omonime din 8=rameArraI avnd loc doar o
combinare a rezultatelor.
$ metoda asemanatoare ca structura si functionalitate este metoda de
determinare a spectrului de frecventa prin aplicarea ,ransformatei =ourier Rapide,
!o==,.
Aplicarea transformatei ==, asupra unui semnal da un rezultat continuu, dar se
poate aplica aceasta functie si discret n n puncte fara o pierdere de informatie. Cn acest
caz transformata ar avea urmatoarea forma:
(+
iar transformata inversa:
Cn aplicatiea FJave to tetG, calculul transformatei =ourier se face utiliznd
algoritmul butterflI de calcul al ==,. 8aracteristica principala a acestui algoritm este ca
lucreaza cu operatii pe biti ceea ce ii asigura o viteza ridicata dar si i determina cteva
limitari. Printre acestea cele mai importante ar fi faptul ca numarul de frecvente
determinate trebuie sa fie de forma F6 la puterea G, iar domeniul n care sunt calculate
frecventele nu este cel real. $ricum aceste doua limitari nu reprezinta niste inconveniente
n cadrul aplicatiei noastre, primul deoarece oricum numai primele frecvente prezinta
interes iar al doilea pentru ca acest spectru este calculat n vedea comparatiei cu spectre
de acelasi fel, n acest caz contnd diferenta ntre doua spectre si nu valorile absolute ale
frecventelor.
!eterminarea spectrului se face n fiecare cadru de semnal n metoda !o==,
din 8=rame , pentru ca mai apoi aceste spectre sa fie combinate n cadrul metodei !o==,
din 8=rameArraI . 8ombinarea spectrelor consta de fapt n adunarea valorilor de pe
indici corespunzatori din vectorii ce contin spectrul frecventelor n fiecare frame.
.pectrul de frecvente este memorat tot n cadrul unei matrici numita
mt==,=re{s .
!.2.2 Implementarea metodei de lucru cu coe$icientii 9"C
Pentru asigurarea unei omogenitati n lucrul cu diferitele tipuri de coeficienti s7a
ales implementarea unei singure clase care sa fie fie folosita indiferent de tipul de
coeficienti. Acceasi structura este folosita si pentru lucrul cu spectrele de frecvente.
!aca e sa vorbim despre coeficientii &P8 sau cepstrali se stie ca pentru fiecare
cadru dintr7un semnal se determina cte un set de coeficienti. Asfel pentru o mai usoara
abordare a problemei s7a ales o reprezentare asemanatoare celei de la 8=rameArraI si
8=rame. Cn mod similar aici vom avea o clasa cu setul de coeficienti pentru un frame,
numita 88oefs, si o clasa care va reuni toate aceste seturi de coeficienti, numita
88oefsArraI.
(H
=ig. 6(. .tructura claselor de coeficienti cepstrali
8hiar daca nu este o asemanare ntre aceste multimi de seturi de coeficienti si
un spectru de frecvente reprezentat de un vector uni7dimensional, pentru consistenta s7a
ales solutia stocarii acestui vector folosind aceleasi clase sub urmatoarea forma: fiecare
element de frecventa este stocat ntr7un obiect 88oefs n atributul d=re{ .
8oeficientii cepstrali si &P8 sunt memorati n cadrul matricei mt8oefs . ,otusi
n cazul coeficientilor &P8, pe langa acestia n cadrul obiectului 88oefs se memoreaza si
matricea R ,ntr7o structura 8#atri, numita mtR.
Pentru a se putea face diferenta ntre attea tipuri de date stocate n cadrul
acestor structuri, clasa 88oefsArraI contine un atribut numit u*lements,Ipe care n
functie de valoarea sa va stabili tipul de date stocate: coeficienti &P8, coeficienti
cepstrali, spectru de frecvente.
&egatura ntre 88oefs si 88oefsArraI este realizata prin intermediul atributului
cc*lements care reprezinta un pointer din 88oefsArraI spre 88oefs.
Lncarcarea continutului obiectelor 88oefs se face din fisiere ntr7un format
specific ce n prealabil au fost salvate pe disc dupa prelucrari cu unelte standard din
aplicatia FJave to tetG. !at fiind acest fapt clasa 88oefsArraI dispune de o interfata de
lucru cu fisierele FJave to tetG bine pusa la punct.
Prin intermediul metodelor acestei interfete se vor citi diferitele tipuri de
coeficienti. #etodele sunt: Read8oefs 0metoda FparinteG din care se cheama celalalte n
functie de tipul fisierului deschis4, Read8*P8oefs, Read&P88oefs, Read=re{s .
Cn cazul n care clasa 88oefs este folosita pentru coeficienti &P8, pe lnga
coeficientii propriu7zisi, mai sunt stocate si cstigul filtrului, n atributul dvEap si eroarea
medie patratica n d*#P .
('
Cn fiecare obiect 88oefs va eista un inde ce memoreaza pozitia n
88oefsArraI.
#otivatia pentru care s7a ales memorarea coeficientilor n cadrul acestor
structuri este n calculul distantei ntre doua seturi de coeficienti sau respectiv doua
spectre de frecvente. Aceste operatii pentru calculul diferentei sunt implementate la
nivelul claselor prin metode specifice fiecarui tip de coeficienti. &a fel ca n cazul
claselor 8=rame si 8=rameArraI si aici avem o corespondenta ntre metodele7operatii
din 88oefs si 88oefsArraI. !iferenta semnificativa fiind ca n acest din urma caz
operatiile sunt implementate n metode WWfriendtt.
@2
Capitolul VI
Concluzii
Recunoaterea automat a vorbirii n condiii ambientale care
degradeaz semnalul vocal este o problem deosebit de dificil chiar i
pentru sistemele care beneficiaz de celemai performante tehnologii din
domeniu. ?n sistem de recunoatere antrenat cu vorbirercuratG
0nregistrarea formelor de und a fost realizat n condiii de laborator 3
camer anecoic, zgomot ambiental redus i aparatur de nalt fidelitate4
poate avea performane ecelente la testele efectuate n aceleai condiii, dar
mult mai slabe n condiii ambientale diferite 0camere cu ecou, zgomote
provenite de la ventilatoarele calculatoarelor, aer condiionat, etc.4.
Cn consecin, aplicaiile de recunoatere a vorbirii trebuie s in
cont de distorsiunile suferite de semnalul vocal n practic i s menin
performanele sistemului la nivelul cerut de beneficiar .
.istemele de recunoatere a vorbirii a cror rat de recunoatere nu
este sensibil la schimbrile ambientale se numesc sisteme robuste.
Performanele lor 0rata de recunoatere, costul de calcul, etc.4 rmn ntre
anumite limite n condiii ambientale variate. Prin influena mediului
ambiental acustic se nelege totalitatea transformrilor care afecteaz
semnalul vocal din momentul n care prsete tractul vocal pn cnd
acesta a9unge n format numeric.
Cn practic, timpul de recunoatere i memoria necesare sunt
indicatori de performan la fel de importani ca i rata de recunoatere.
@1
'I'9I:GA&I*
z #ariana yurian 7 Vote de curs
z Bahl, &.R., =. yelineK, and R. #ercer 7 A #aimum &iKelihood Approach to
8ontinuous .peech Recognition, L*** ,rans. on Pattern AnalIsis and #achine
Lntelligence
z !umitru, $., #unteanu, !., #ihai, 8. 7 *mbedded Baum7Jelch Procedure ?sed for
,raining A##s "ith ?nlabeled ,raining !ata, L***
; AermansKI, A. and V. #organ 7 RA.,A Processing of .peech, L*** ,rans. on
.peech and Audio Processing
z Aon, A.7J., Jang, D. 7 ?nified =rame and .egment Based #odels for Automatic
.peech Recognition, L*** Lnt. 8onf. on Acoustic, .ignal and .peech Processing

z #unteanu, !. 7 .peech ?ser Lnterface for Romanian &anguage, *8AL 622( 3
*lectronics, 8omputers and Artificial Lntelligence
z .A#PA 3 ,he machine7readable phonetic alphabet bI .A#PA 0.peech Assessment
#ethods Phonetic Alphabet4 la
http:>>""".phon.ucl.ac.uK>home>sampa>romanian.htm
z Xoung .y 7 ,he A,D Aidden #arKov #odel ,oolKit: !esign and PhilosophI
z EuIon L, <apniK <, Boser B 7 .tructural risK minimization for
character recognition Advances in Veural Lnformation Processing .Istems
z .peech Recognition ?sing Veural Vet"orKs.htm
z $stendorf, #., !igalaKis, <.<., Dimball, $.A. 7 =rom A##us to .egment #odels: a
?nified <ie" of .tochastic #odeling for .peech Recognition, L*** ,rans. on .peech
and Audio Processing
z Eavt, L. 7 *lemente de .inteza i Recunoaterea <orbirii, *d. Printech,
Bucureti,6222.
@6

S-ar putea să vă placă și