Documente Academic
Documente Profesional
Documente Cultură
Introducere
Recunoaterea vorbirii i identificarea vocal devin din ce n ce mai mult tehnologii
populare n societatea de astzi. Pe lng faptul c are un cost ridicat i aduce un venit
considerabil n toate cazurile n care este folosit, sistemul de recunoatere a vorbirii se
adreseaz unei mari varieti de utilizri i implementri. Aceste implementri se ntind
de la domeniul securitii pn la tendina sigur de cretere a productivitii. Prin fiarea
ateniei asupra tehnologiei i a companiilor care manevreaz sistemele actuale de
recunoatere vocal i de identificare, putem nva din
implementrile actuale i s stabilim tendinele viitoare.
!e cele mai multe ori recunoaterea i verificarea vorbirii sunt procese de
antitez, prima etap n acest traseu fiind recunoaterea.
Recunoaterea vorbirii a fost mult timp unul dintre scopurile diferiilor proiectani de
soft"are. #uli au ncercat s scrie programe care s fie capabile s nlocuiasc tastatura
cu microfonul. Au eistat mai multe aplicaii de acest tip, dar $ffice %P este prima suit
important care ofer aceast facilitate.
Principala dificultate cu care se confrunt programele de recunoatere vocal o
reprezint faptul c vocile a doi oameni nu sunt deloc asemntoare i chiar vocea
aceleiai persoane poate varia n anumite situaii.
$ffice %P ncearc s rezolve aceast problem prin crearea de profiluri
corespunztoare fiecrui utilizator. Astfel, vor putea fi cunoscute caracteristicile vocilor
diferitelor persoane.
&a fel ca i celelalte programe de recunoatere vocal i $ffice %P comite uneori
greeli. #icrosoft susine c '() dintre cuvinte sunt recunoscute corect, adic doar un
cuvnt din douzeci este greit. *ist unele aplicaii cu performane mai bune, dar nici
una nu depete o rat de '+). ,otui, este un prim pas pe drumul care va duce la
eliminarea tastaturii.
-
Capitolul I
Generarea vorbirii. Scheme echivalente
1.1 Caracteristici generale
.istemele actuale de recunoastere a vorbirii se situeaza deocamdata n limite
restrnse ale parametrilor caracteristici si dedicate unor aplicatii specifice. !in punct de
vedere a dimensiunii vocabularului si al modului de vorbire, sistemele de recunoastere cu
performante acceptabile, se mpart n trei categorii principale.
/ sisteme cu vocabular mic 012 3 122 cuvinte4 5
/ sisteme cu vocabular mediu si mare si vorbire izolata 012 222 3 62 222
cuvinte4 5
/ sisteme cu vocabular mediu si vorbire conectata sau continua, restrictiva la un
domeniu de aplicabilitate 01 222 7 ( 222 cuvinte4 .
8ele mai multe sisteme realizate, apartin claselor sistemelor mici si mi9locii cu
recunoasterea vorbirii izolate. .istemele de recunoastere a vorbirii continue, n marea lor
ma9oritate, eista doar n forma eperimentala, n conditii de laborator. 8hiar si sistemele
utilizate n practica, cele pentru vorbirea izolata sau conectata, nu sunt destul de robuste
la zgomotul mediului n care functioneaza si la variabilitatea vorbirii. ,oate sistemele dau
performante mai bune, daca numarul de utilizatori este mai redus si daca cei care folosesc
sistemul sunt cei cu a caror voce s7a folosit pentru nvatarea sistemului. Performantele se
degradeaza semnificativ, daca vorbitorii se schimba sau daca sistemul este folosit cu alte
cuvinte dect cu cele pentru care a fost antrenat.
8aracteristicile principale ale uni sistem de recunoastere automate a vorbirii,
fara a aminti parametrii si metodele specifice prin care s7a implementat, sunt urmatoarele:
/ dimensiunea vocabularului, adica numarul de cuvinte capabil sa le
recunoasca5
/ monolocutor sau multilocutor 0aici se poate preciza si seul vorbitorilor4 5
/ vorbirea izolata sau continua5
/ conditi de zgomot si robustetea sistemului5
/ domeniul de aplicabilitate 5
/ timpul de operare, care poate fi n timp real, cu ntrziere sau off7line 5
/ procenta9ul de recunoastere5
/ costul .
Pentru o mai bun nelegere a procesului de recunoatere a vorbirii, voi
eemplifica fiecare din componentele acestui proces, astfel:
7 analiza acustic este metoda prin care se etrag parametrii auditivi5
7 analiza fonetic este metoda prin care ies n eviden caracteristicile sunetelor5
7 analiza sintactic este metoda prin care se analizeaz coninutul sintactic al unui
cuvnt pe baza cuvintelor eprimate n prealabil5
7 analiza semantic este metoda prin care se verific nelesul cuvntului ales5
;
7 analiza pragmatic este metoda prin care se face o estimare a cuvintelor care ar
putea fi rostite.
1.2 Analiza vocii si a vorbirii
<ocea este rezultatul energiei respiratorii folosit pentru a mica corzile vocale, care
genereaz sunetele, aceast manifestare fiind principala metod a comunicrii prin coduri
comune, respectiv prin limba9.
Producerea vorbirii este compus din dou funcii mecanice de baz: fonetic i
articulaie. =onetica reprezint producerea unui semnal acustic. Articulaia include
modularea semnalului acustic, n special de ctre buze, limb i de palatul moale, precum
i de rezonana n cavitatea supraglotic, oral i> sau nazal.
Percepia vocii este general descris ca o transformare n cinci etape a semnalului
audio n mesa9: analiza auditiv periferic, analiza auditiv central, analiza fonetico7
acustic, analiza fonologic i analiza de ordin nalt 0leical, sintactic i semantic4.
?rechea uman este special adaptat s perceap vocea uman, spectrul de percepie fiind
ntre 1@762222 Az, cu o sensibilitate ridicat ntre (227;222 Az.
Printre primii specialiti care au dezvoltat o reprezentare vizual a unui cuvnt rostit
s7a aflat #elville Bell, acesta dezvoltnd un sistem de simboluri scrise. Cn anul 1';2
Potter, Dropp i Ereen, care lucrau pentru FBell &aboratoriesG, au dezvoltat un proiect ce
implica reprezentarea vizual a vocii cu a9utorul unui spectrograf de sunet, acesta
analiznd trei parametri: frecven, intensitate i timp.
Astfel, au fost trasate liniile de baz pentru admisibilitatea identificrii vocii ca prob,
susintorii pretinznd eistena unui proces valid i pertinent de identificare, iar
oponenii cernd efectuarea mai multor cercetri tiinifice care s susin admisibilitatea
acestei probe n instan.
!e7a lungul timpului au eistat trei metode de identificare:
7 recunoaterea vorbitorului prin ascultare5
7 recunoaterea vorbitorului prin compararea vizual a spectrogramelor5
7 recunoaterea automat a vorbitorului.
1. Recunoaterea vorbitorului prin ascultare are ca fundament principiul conform cruia
procesul de percepie auditiv i procesul de identificare sunt esenialmente subiective, n
sensul c o voce particular este asociat unui individ sau grup.
2. Recunoaterea vorbitorului prin compararea vizual a spectrogramelor are n vedere
capacitatea de a decide asupra identitii sau nonidentitii unei voci, bazat pe
eaminarea vizual a spectrogramelor. $ spectrogram este reprezentarea vizual a unui
set de sunete, n parametrii timpului, frecvenei i amplitudinii.
3. Recunoaterea automat a vorbitorului folosete metode computerizate bazate pe teorii
informatice, pe recunoaterea dup modele i pe sisteme de inteligen artificial. Pn n
prezent, metoda nu a cunoscut dect o aplicaie limitat.
(
,endina curent este de a integra rezultatele recunoaterii vorbitorului prin ascultare
cu cele ale recunoaterii automate a vorbitorului i folosirea rezultatelor spectrogramelor
doar pentru vizualizare.
1.3 Modelarea mecanismului de producere a vorbirii
Prelucrarea semnalului vocal este unul dintre domeniile n care tehnicile de
prelucrare numeric sunt foarte eficiente. Aplicarea algoritmilor de prelucrare a
semnalelor digitale s7a dovedit a fi deosebit de util n problemele de baz ale prelucrrii
vorbirii : analiza i sinteza vorbirii, codarea vorbirii, recunoaterea vorbirii, .a.
Primele modele de producere a vorbirii sintetice au fost cele mecanice realizate
nc din anii1++'.?lterior au fost realizate i modele electrice 01H+@7Eraham Bell, 1'-'7
!udleI, Riesz, JatKins4. ?n model electric liniar a fost propus de =ant n 1'@2.
.unetele generate n timpul vorbirii sunt sonore sau nesonore, de trei tipuri:
.unetele sonore0 vocalizate4 cum sunt a,e, i, o,u, , care sunt constituite din
impulsuri cvasi7periodice
.unetele fricative 0v, z, f, s, , ..4, echivalente cu un zgomot de band larg
uniform distribuit
.unetele plozive sonore 0b, d, g4 i sunetele plozive nesonore 0p, t, K4.
.unetele sunt caracterizate prin intensitate, nlime i timbru. Cnlimea
intensitii sunetului este fiat de frecvena fundamental. Lnversul acesteia, ,
2
M 1>=
2
se
numete perioad fundamental 0pitch7P4. =recvena fundamental poate varia ntre
limitele:
H27122 Az pentru o voce masculin
1(27;(2 Az pentru o voce feminin
6227@22 Az pentru o voce de copil
=ig.1. #odelul mecano7acustic de producere a vorbirii.
@
,imbrul unui sunet sonor este determinat de amplitudinile relative ale armonicelor
fundamentalei.
.7au realizat diferite modelari ale procesului de generare a semnalului vocal,
acusto7mecanice, electrice analogice sau digitale. Cn fig.1. este prezentat modelul acusto7
mecanic pentru producerea vorbirii.
Cn cadrul modelrii acusto7mecanice este necesar s se tin seama de urmtoarele
aspecte:
7 variaia temporal a parametrilor traseului vocal 5
7 pierderile prin viscozitate i conducie termic5
7 cuplarea cu traseul nazal5
7 modul de ecitare.
Cn privina modului de ecitare a traseului vocal, procesul poate avea loc n dou
moduri eseniale:
a. Pentru fonemele sonore impulsul glotal are forma unei succesiuni de
impulsuri periodice cu perioadaa ,
2
, aa cum se arat n fig.6. $ aproimare analitic a
epresiei presiunii emis de glot este de forma:
'
1
]
1
1
]
1
,
_
< < + +
+
2
,
6
,
1
, 5 N
2
, ,
6
,
1
O, t , 2
N
6
,
1
, ,
1
O, t ,
6
6,
1
, t
P cos
N
1
, O2, t ,
1
,
t
P cos 1
6
1
0t4
b. Pentru fonemele insonore, presiunea general este de tip zgomot alb.
=ig 6. =orma semnalului echivalent fonemelor sonore.
Relativ la traseul vocal, o abordare posibil const n reprezentarea acestuia ca o
nlnuire 0concatenare4 de tuburi sonore de seciuni diferite, adic un tub sonor global
neunuform, dar pe seciuni 0local4 uniform. Cn fig. -.a. este artat o asemenea structur,
+
t
-,
2
6,
2
,
2
artificii
de
radiaie
a4
=ig.- .chema echivalent a traseului vocal
a. .tructura cu tuburi sonore
b. .chema electric echivalent a unui tub sonor
Procesarea numeric a semnalelor permite realizarea modelului discret de
generare a sunetelor.
Pentru foneme sonore semnalul primar de ecitaie este U
,o
, semnalul delta
discret periodic cu perioada ,
2
corespunznd nlimii =
2
M 1> ,
2.
Pentru generarea
semnalului glotal discretizat, semnalul periodic este trecut printr7un sistem cu funcia de
pondere care rezult din urmtoarele considerente.
=recvena =
2
este impus de fonemul care trebuie sintetizat, valoarea fiind de
ordinul sutelor de Az. =recvena de eantionare este de ordinul H712 DAz, astfel c ntre
dou eantioane de ,
2
secunde se gsesc circa (27122 de eantioane. &ungimea
impulsului glotal trebuie s fie de ordinul zecilor de intervale de eantionare. Perioada de
eantionare s7a notat cu ,
e
. =uncia de pondere a sistemului care furnizeaz impulsul
glotal se eprim n unitide ,
e
.
Votm : ,
2
M V
2
,
e
'
1
]
1
1
]
1
,
_
rest in , 2
N
6
V
1
V ,
1
OV t ,
6
6V
1
V n
P cos
N
1
V O2, n ,
1
V
n
P cos 1
6
1
0t4
*ste evident c are loc inegalitatea : V
1
R V
6
WW V
2.
.emnalul g fiind mrginit , imaginea sa este de forma unui polinom n z
31
.
zOgNOzN E0z4
,rebuie fcute cteva precizri privind funciile de transfer n z utilizate la
modelarea discret a semnalului vocal.
=iltrul numeric este descris de o ecuaie recurent de forma:
'
V
2 K
#
2 m
mN On
m
b KN IOn
K
a
Cn care: a
2
M 1, I reprezint semnalul de ieire iar este semnalul de la intrare.
=uncia de transfer operaional A asociat ecuaiei anterioare este: QOIN M X, QON
M %, X M A. %.
V
2 K
K
z
z
a
#
2 m
m
z
m
b
A0z4
!ac procesul descris de relaia are tactul ,
e
0 echivalent frecvenei de eantionare
4 sau frecvena de tact f
e
M 1>,
e
, atunci el realizeaz o funcie de transfer frecvenial
A
p
0Y 4, a crei epresie este:
V
2 K
e
, 9KY
e
K
a
#
2 m
e
, 9mY
e
m
b
4
e
9YY
A0e Ap0Yp
!omeniul util de filtrare este :
2Z Y Z P> ,
e
sau 2Z f Z f
e
>6
!e regul se scrie :
Y,
e
M 6 P[ , [ M f> f
e
astfel c domeniul de filtrare devine: [ \ O 2, 1>6N.
!ac se consider un filtru trece 9os cu [ 0 frecvena digital de tiere 4 egal cu
2,1, atunci lucrnd cu tactul f
e
se realizeaz un filtru trece 9os cu frecvena de tiere f
c
M
2,1 f
e.
?n al doilea aspect particular care trebuie menionat se refer la o anumit
clasificare.
!ac n relaia anterioara are loc:
12
b
2
]2 5 b
m
M 2, m \ O1,mN
atunci devine :
V
2 K
K
z
K
a
2
b
A0z4
$peraia realizat este de tipul AR 0 Auto Regresiv4 sau all7 poles 0 numai cu
poli4.!ac n relaie se face inlocuirea:
a
2
M 1 5 a
K
M 2,
K \ O 1, V N^^
atunci relaia devine:
m
z
#
2 m
m
b A0z4
$peraia astfel realizat este de tip #A 0 #oving Average7 medie alunectoare4.
!eci, cu aceste denumiri forma general este de tip AR#A. !e regul, se prefer forma
AR.
Relaia descrie o structur #A. Cn aplicaii i pentru aceast structur se prefer o
realizare AR cu doi poli :
R S _, 5
4
1
Sz 401
1
az 01
1
0z4 E
`
&a o frecven de tact de 12 DAz, E0z4 reprezint un filtru trece 9os cu o frecven
de tiere de aproimativ 122 Az.
Pentru foneme insonore, semnalul primar de ecitaie este de tip zgomot 0 semnal
discret4 alb cu densitatea spectral de putere constant egal cu 1. &egea de repartiie nu
este important n acest caz i se poate considera un zgomot cu repartiie gaussian.
Cn ceea ce privete tractul vocal, modelul acusto7 mecanic , indic prezena unor
rezonane care genereaz formanii. #odelarea tractului vocal se face cu o structur AR
de forma:
11
V
1 K
N
6
z
6K
a
1
z
1K
a O1
1
<0z4
!at fiind caracteristica de tip trece band a filtrului real, polii apar n perechi
comple con9ugate.
Ln privina funciei de transfer care este asociat orificiului bucal, caracteristica sa
de tip trece sus poate fi modelat ntr7o prim aproimaie printr7o seciune #A de
forma:
( )
1
z 1
6
1
B0z4
valorile de la capetele domeniului spectral considerat 0[ M 2, i [ M 2,(4 sunt
respectiv:
B014 M 25 B0714 M 1
Pentru a nlocui structura #A printr7una AR 0 avanta9oas ca algoritmi de calcul4,
se consider urmtoarea form:
( )
1
z a 1
a 1
1
0z4
1
B
cu 2 W a W l, apropiat de unitate. <alorile la capete sunt:
1 4 1 0
1
B 5
a 1
a 7 1
0z4
1
B
+
ceea ce arat c dac aal atunci structura este apropiat de , dezvoltarea ei n serie :
....
6
z
6
a
1
az 1
1
1 az 1
1
1
+
arat c structura,
6
z
6
a
1
az 1
1
4
6
a a 01 0z4 B
`
+
+
cu valorile de la capete.
1 0714 B
`
5
6
a a 1
6
a a 1
014 B
`
+ +
+
0f4 M lim 0 V
f
> 6VR14
gfh2
Vhi
6H
*stimri eperimentale ale acestei densiti, realizate pe segmente de vorbire de
ordinul a (2 de secunde i mediate pe cteva zeci de vorbitori, au artat c densitatea de
probabilitate pe termen lung este apropiat de distribuia Eamma de ordinul j i de
distribuia &aplace, distribuii cu legi de repartiie simetrice i cu valoare medie nul.
6.<aloarea medie,notat cu m
P ; P
; P
; P