02 CorneliuBurileanu PDF

Experimente de recunoatere a limbajului vorbit,
n limba romn, pornind de la cuvinte izolate
Corneliu BURILEANU
Cristina Sorina PETREA
Andi BUZO
Horia CUCU
Laboratorul SpeeD
Facultatea de Electronic, Telecomunicaii i Tehnologia Informaiei
Universitatea Politehnica din Bucureti
cburileanu@messnet.pub.ro
www.upb.ro
6-May-10 CONSILR 2010 1

1. Tendine actuale n tehnologia limbajului vorbit
2. Recunoaterea vorbirii continue n limba romn - principii
3. Baze de date pentru recunoaterea vorbirii i a vorbitorului
4. Baze de date semnificative create n laboratorul SpeeD
5. Recunoaterea vorbirii continue n limba romn pornind de la cuvinte izolate

- rezultate

1. Tendine actuale n tehnologia limbajului vorbit
n volumul celei de-a 2-a Conferine Speech Technology and Human

Computer Dialogue, n aprilie 2003, acad. Mihai DRGNESCU, sublinia:
n 1984, Academia Romn a organizat prima sesiune despre analiza i
sinteza semnalului vocal i a publicat un volum cu lucrrile Conferinei. A fost
momentul recunoaterii activitii unei comuniti de oameni de tiin romni
n domeniul tehnologiei vorbirii, cu contribuii nc din 1963 De atunci,
domeniul a evoluat de la tehnologia vorbirii la tehnologia limbajului vorbit. De la
nceput aceasta a presupus utilizarea inteligenei artificiale att pentru
prelucrarea limbajului natural c i pentru prelucrarea acustico-fonetic a
limbajului vorbit.

Liniile directoare trasate la
IEEE/ACL Workshop on Spoken Language Technology, Aruba, Dec. 11-13, 2006
Domenii de interes:
nelegerea limbajului vorbit;
Gestionarea dialogului;
Generarea limbajului vorbit;
Achiziia documentelor vorbite;
Extragerea informaiilor din vorbire;
Rezumarea documentelor vorbite;
Automate pentru traducerea limbajului vorbit;
Motoare de cutare n limbajul vorbit i mineritul datelor;
Interfee persoan calculator bazate pe vorbire;
Sisteme de dialog vorbit, aplicaii i standarde;
Prelucrare multimodal, aplicaii i standarde;
Prelucrarea vorbirii n www.

Intervenia lui Hermann Ney, Human Language Technology and Pattern Recognition,
Computer Science Department RWTH Aachen University, Germany: Closing Remarks:
How to Continue?:
Se pune problema interaciunii consistente ntre specialitii prelucrrii limbajului

vorbit i specialitii prelucrrii limbajului natural (NLP)
Retrospectiva IEEE workshop on ASR, Arden House, Harriman, NY, 1985:

Sistemele de recunoatere a vorbirii (ASR) foloseau zeci sute de cuvinte,
dependente de vorbitor; IBM avea un sistem de recunoaterea cuvintelor izolate de
5000 de cuvinte.
O slab interaciune cu specialitii NLP; analiza acustico-fonetic era
determinant.
Nu se punea problema mainilor de tradus (MT) sau a modelrii dialogului.
Nu existau baze de date standard.
Se estima c sistemele expert sunt viitorul pentru ASR, MT, NLP.

La Conferina din 2006:
Domeniile de interes amintite sunt arii de interaciune ntre vorbire
i NLP (modelarea limbajului, traducere automat, nelegerea limbajului
vorbit, modelarea dialogului, rezumarea textelor, generarea limbajului,
comunicare multi-modal).
Condiii de progres n ASR i MT:

Acorduri cu privire la sarcinile comune.
Acorduri cu privire la modalitile de evaluare.
Baze de date comune i campanii de evaluare.

Intervenia lui David Nahamoo, Speech CTO, IBM Research, Speech Technology
Opportunities and Challenges:
Oportuniti majore n aplicaiile prelucrrii vorbirii:

n comer;
Acces global: traducere Speech to Speech, minerit multimedia n diverse limbi;
Dispozitive: n automobile, n telefonia mobil.
Recunoaterea vorbirii i sinteza automat a vorbirii ar trebui s fie baza a

ceea ce numim self-service. Se estimeaz o cretere a cestor tipuri de servicii de la
8% ntre 2003-2005 la 80% n anii urmtori.
Un obstacol dar i o provocare important o constituie bariera lingvistic. Sunt

enumerate ameninri importante n situaii extreme cnd aceast barier nu e depit.

Apare necesitatea unor progrese importante n traducerea automat de tipul Speech to
Speech (S2S):
n ASR: necesitatea de lucru n medii zgomotoase, recunoaterea vorbirii
spontane, conversaionale, n diverse limbi, influena emoiilor i stresului.
Traducerea va trebui s preia ieirea sistemelor ASR i s compenseze erorile de
recunoatere, sintaxa imperfect, lipsa caracteristicilor formale ale unui text
scris (indentare, punctuaie).
Textul tradus trebuie s poat fi vorbit: vorbirea sintetizat trebuie s fie
fluent, nu numai corect.
Intonaia (prozodia) rmne o provocare important.

Intervenia lui Pascale Fung, Human
Language Technology Center,
Department of Electronic &
Computer Engineering, Hong Kong
University of Science and
Technology, Multilingual Language
Processing:
Statistica celor mai vorbite limbi

pe glob:

Se propun sisteme multi-lingvistice ca alternativ a traducerii automate (MT):
spre deosebire de MT care presupune traducerea limbajului vorbit dintr-o limb n
alta, sistemele multi-lingvistice presupun interfee adecvate, extragerea informaiei
multi-lingve din documentele vorbite, nelegerea ntrebrilor formulate n diverse
limbi.
Exemple de sisteme multi-lingvistice: Google search (117 limbi), produse ale

companiei Nuance (OCR/119 limbi, SLT/46 limbi), Wikipedia (12 limbi), filtre anti-
spam.
Aplicaii multi-lingvistice: nelegerea i generarea limbajului vorbit, extragerea

informaiilor, afaceri pe Internet, cutare, filtre anti-spam, context generat de
utilizator.

Topul primelor 20 de ri cu cel mai mare numr de utilizatori Internet:

Signal Processing Magazine din mai 2008 este dedicat tehnologiei limbajului vorbit
(SLT). Este o continuare a preocuprilor formulate la primul workshop SLT inut n
Aruba, decembrie 2006.
Articolele sunt dedicate problemelor legate de limbaj i nelegere n prelucrarea

semnalelor. Se observ o schimbare major n domeniul prelucrrii semnalelor n care
modul convenional de gndire - la nivelul prelucrrii digitale e informaiei din semnal
este dirijat ctre o nou perspectiv privind valoarea simbolic a surselor de informaii
(limbaj vorbit sau text).

Un domeniu important de interes este cutarea documentelor vorbite pe Web.
Conforma statisticilor Web (sfritul lui 2006, 2007):

nume domenii - volum estimat: 138 milioane;
pagini Web arhivate - volum estimat: 85 miliarde;
video - volum estimat: 7 miliarde;
bloguri - volum estimat: 200 milioane;
utilizatori Internet - volum estimat: 850 milioane;
utilizatori Internet mobil - volum estimat: 35 milioane;
abonai broadband - volum estimat: 300 milioane;
utilizatori SMS - volum estimat: 430 milioane;
abonai voice over IP - volum estimat: 34 milioane;
utilizatori bloguri - volum estimat: 63 milioane;
cutri (pe lun) - volum estimat: 14 miliarde.

Cutarea documentelor vorbite este o combinaie ntre recunoaterea automat a
vorbirii (ASR) i cutarea documentelor. Este atractiv mai ales cnd se utilizeaz
dispozitive mobile pentru cutri pe Web (liste de companii i magazine, hri i rute,
media, cumprturi etc. Cutarea documentelor vorbite preia o cerin formulat prin
voce, folosete recunoaterea vorbirii pentru a prelua diverse rspunsuri ipotetice,
formuleaz texte de rspuns i propune utilizatorului rezultatele cutrii.

Nu sunt nc rezolvate multe dificulti legate de cutarea documentelor vorbite:
robusteea i eficiena recunoaterii automate a vorbirii,
nelegerea limbajului vorbit,
gestionarea dialogului.
Studiile arat c automatizarea dialogului vorbit poate avea o rat de succes de 92% n
laborator, dar numai 30% n lumea real din cauza comportrii imprevizibile a utilizatorilor
sistemelor de dialog vorbit i zgomotului ambiental.
De pild n sisteme de recunoaterea numelor proprii, 31% dintre erorile de recunoatere sunt
din cauza zgomotului ambiental i 22% legate de pronunie.

Concluzii cu privire la tendinele de dezvoltare a tehnologiei limbajului vorbit:
ASR bazat pe modele statistice
Legtura SLT NLP
Dezvoltarea sistemelor de dialog
Dezvoltarea aplicaiilor self-service
Globalizare bariera multi-lignvismului

2. Recunoaterea vorbirii continue n limba romn -
principii
Vocalele limbii romne

Exemple de cuvinte reprezentative
pentru vocalele limbii romne:

Consoanele limbii romne:

Exemple de cuvinte reprezentative
pentru consoanele limbii romne:

Abordarea recunoaterii vorbirii
Semnalul vocal cuprinde informaii foarte bogate:

ce se vorbete;
cine vorbete;
cum se vorbete;
condiiile n care se vorbete.
Recunoaterea vorbirii presupune identificarea anumitor informaii;

de pild, recunoaterea discursului nseamn descifrarea mesajului (ce se vorbete)
ignornd (sau innd seama de) variabilitile introduse de vorbitor (cine vorbete),
modul de pronunie i condiiile de zgomot ambiental.

Aadar, recunoaterea vorbirii: procesul de transformare a semnalului acustic
continuu, produs de organul fonator uman, ntr-o reprezentare discret creia i se
poate ataa o semnificaie i care, cnd este descifrat, poate fi utilizat pentru a
determina un rspuns.
Punctul de vedere adoptat n proiectare:

semnal acustic
mecanismul producerii vorbirii
recepia senzorial
percepia vorbirii

Recunoaterea automat a vorbirii continue
Semnal vocal extragere parametri caracteristici modul acustic (modelele statistice ale unitilor
elementare ale cuvintelor, de exemplu ale fonemelor) mai multe ipoteze fonetice asociate n general
unei probabiliti pentru fiecare segment (fereastr) de semnal de vorbire.
Ipotezele fonetice modul lexical recunoate numai cuvinte reprezentate n modulul lexical.
Modelele fonetice sunt reprezentate de un dicionar fonetic sau de automate probabiliste.
Cuvinte probabile modul sintactic (integreaz constrngeri sintactice, chiar semantice). Aceste
constrngeri sunt adesea formalizate prin modelele de limbaj. Pe baza unui model de limbaj cea
mai probabil suit de cuvinte.
Metode statistice de recunoatere a vorbirii:
Modele Markov ascunse (HMM)
Principiul metodei
Metodele statistice sunt, n esen, metode globale. Se modeleaz producerea unei

uniti lingvistice, care poate fi, de pild, unitatea sintactic de baz (cuvntul).
Se consider statistica pronuniei diverselor cuvinte i utilizarea unui sistem cu un
anumit numr finit de stri n care tranziiile i ieirile sunt guvernate de legi de
probabilitate.
Cele dou faze eseniale ale procedurii de recunoatere sunt:
antrenarea sistemului: se estimeaz probabiliti de tranziie i emisie plecnd
de la versiunile nregistrate ale aceluiai cuvnt;
recunoaterea propriu-zis: se utilizeaz modelele asociate referinelor pentru
a identifica enunul testat.

Problema 1 reprezint problema evalurii: date fiind un model i o secven de
observaii, i propune determinarea probabilitii c secvena observat s fi fost
produs de model.
Problema 2 reprezint problema decodrii: ea ncearc s descopere partea ascuns a
modelului, adic s gseasc secvena de stri care s fi generat cu cea mai mare
probabilitate secvena observat.
Problema 3 reprezint problema antrenrii: ea ncearc s potriveasc parametrii
unui model dat, pe o secven de observaii dat, astfel nct modelul s descrie cel mai
bine modul n care o secven de observaii poate aprea.
Proiectarea unui sistem de recunoatere a vorbirii a fost abordat utiliznd HMM:

A) Se construiesc modele Markov ascunse pentru unitile lingvistice considerate
(foneme sau trifoneme) problema 3.
B) Se segmenteaz fiecare secven de observaii n stri i pentru a studia relaia
dintre secvena de stri i secvena de observaii problema 2.
C) Se ia decizia de recunoatere a enunurilor selectnd setul de modele care s fi
generat cu cea mai mare probabilitate secvena de recunoscut problema 1.

3. Baze de date pentru recunoaterea vorbirii
i a vorbitorului
Problematic
Abordare statistic n recunoatere date de antrenare necesare

Baze de date pentru recunoaterea vorbirii i a vorbitorului: puncte comune, dar i
diferene
Datele necesare dependente de natura aplicaiei:
recunoaterea vorbitorului: dependent sau independent de text, verificare sau
identificare, set nchis sau deschis de vorbitori
recunoaterea vorbirii: dependent sau independent de vorbitor, vocabular mic
(10-100 cuvinte), mediu (100-1.000 cuvinte) sau mare (10.000-100.000 cuvinte),
dependent sau independent de domeniu, robust sau nu la condiiile de mediu
(zgomot, etc.).

Baze de date pentru recunoaterea vorbitorului:
s cuprind material vocal achiziionat de la ct mai muli vorbitori (de preferat, de
ordinul zecilor sau sutelor);
s conin, eventual, dialecte diferite;
s conin fraze ct mai variate;
frazele s fie rostite de mai multe ori, la intervale de timp;
pentru evaluare n condiii reale (de exemplu transmisie telefonic), materialul vocal
trebuie s fie achiziionat prin intermediul mai multor aparate telefonice, n decursul
mai multor legturi, de preferat la distane diferite.
Baze de date pentru recunoaterea vorbirii:

buna acoperire a vocabularului considerat (pentru vocabular mic), respectiv a
fonemelor limbii aplicaiei (pentru vocabular mediu si mare);
variaia intra-vorbitor: mai puin important;
variaia inter-vorbitor: importanta pentru recunoatere independenta de vorbitor
variaia intra-fonem: important;
separarea inter-fonem: important.

Moduri de colectare:
prin nregistrare direct; probleme: alegerea incintei pentru nregistrri
(studio/camer surd), alegerea microfonului (unidirecional, multidirecional, cu
sau fr filtru activ, etc.);
prin achiziia datelor TV transmise in Internet; probleme: omogenitatea
condiiilor de nregistrare (reportaje in aer liber, nregistrri in studio, filme, etc.),
uniformitatea codrilor folosite (A-PCM, - PCM, etc), diferene n frecvenele de
eantionare (16, 32, 44 kHz), controlul setului de vorbitori (ce variaz de la canal de
nregistrare la canal de nregistrare);
prin achiziia direct a datelor de la canalele radio sau TV; probleme: digitizarea
semnalului achiziionat, omogenitatea condiiilor de nregistrare, controlul
eventualelor pene de curent sau bruiaje in transmisie.

Componente ale unei baze de date:
fiiere de semnal vocal (in diferite formate: OGG, WAV, RAW, AIFF, etc.);
baza de date relaional ce asociaz fiierele de semnal vocal caracteristicilor sale:
moment al achiziiei, durata achiziiei, identitatea vorbitorilor, tipul vorbirii citit,
spontan etc.;
fiiere de etichete, ce precizeaz:
pentru recunoaterea vorbitorului: vorbitorii ce rostesc fiecare poriune de
semnal vocal;
pentru recunoaterea vorbirii: cuvintele sau fonemele ce sunt rostite pe fiecare
poriune de semnal vocal;
fiiere de parametri acustici, ce reprezint sintetic semnalul vocal: coeficieni de
predicie liniar, coeficieni cepstrali (eventual filtrai pe scala Mel de frecventa), etc.;
fiecrui fiier de semnal vocal i se asociaz un fiier de parametri acustici.

Probleme specifice:
segmentarea fiierelor de semnal vocal
controlul automat al volumului nregistrrilor (variaii mari n funcie de canalul TV i de
codarea n transmisia prin Internet) procedur automat bazat pe calculul energiei;
variaii n frecvena de eantionare a semnalului vocal achiziionat din Internet: de la 16 la
44kHz filtrare trece-jos la 16kHz;
alegerea unei configuraii optime pentru parametrizarea semnalului vocal:
dimensiunea unui segment de semnal vocal: 20 ms;
suprapunerea a dou cadre succesive: 10 ms;
fereastra de ponderare: Hamming, de lungime 20 ms;
parametrizare: coeficieni cepstrali filtrai pe scala Mel de frecvene:
o numr de filtre n banc: 26;
o calcul al energiei normalizate la lungimea cadrului;
o numr de coeficieni cepstrali: 13;
o calcul al derivatelor de ordinul nti i doi ai coeficienilor cepstrali;
o rezult dimensiunea vectorului de parametri pentru un cadru de semnal vocal: de
ex emplu 39 de valori;
algoritm semi-automat de determinare a acestei configuraii; criteriu: maximizarea
dispersiei inter-vorbitor si minimizarea dispersiei intra-vorbitor;
etichetarea semnalului vocal: la nivel de vorbitor.

Prelucrri suplimentare pentru utilizarea bazei de date la recunoaterea vorbirii
continue:
gsirea unei noi parametrizri optime (eventual bazate tot pe coeficienii cepstrali);
criteriu: maximizarea dispersiei inter-fonem si minimizarea dispersiei intra-fonem;
etichetarea semnalului acustic la nivel de fonem; etape:
etichetare manual la nivel de cuvnt;
separare automat a fiecrui cuvnt n foneme: pe baza dicionarului fonetic;
problema: se presupun durate egale pentru fonemele din interiorul unui cuvnt,
ceea ce este fals.
aliniere iterativ Viterbi forat a modelelor Markov ascunse (definite n prealabil) la
nivel de fonem i vectorii de parametri acustici; se urmrete maximizarea n
probabilitate, la fiecare iteraie.

4. Baze de date semnificative create in laboratorul
SpeeD
1) Baza de date in limba romn - vorbire spontan 37604 cuvinte

achiziie - anul 2008
2) Baza de date in limba romn - vorbire continu 94687 cuvinte
3) Baza de date in limba romn cuvinte izolate 50000 cuvinte

Baza de date in limba romn - vorbire spontan CORPUS2008
Metoda de achizi
achiziie nregistr
nregistrri emisiuni TV sau radio de pe internet
Autori Andi Buzo, Cristina Petrea,

Petrea, Diana Hanes
Data achizitiei 2008
Limba Rom
Romn vorbit
vorbit
Tip Vorbire liber
liber, spontan
spontan
Durata Aprox. 4 ore
Semnal vocal
Mediul de nregistrare studio TV, studio radio, cabinet medical
Frecven
Frecvena de e
eantionare 16 kHz. 16 bi
bii /e
/eantion
Etichetarea La nivel grup de cuvinte (60 secunde)
Voci feminine 8
Num
Numr vorbitori 12
Voci masculine 4
Vorbitori
Sesiuni per vorbitor 3-20
Timp
Timp ntre sesiunile de nregistrare 1 zi - 2 s
spt
ptmni
Num
Numr total
total apari
apariii 37604
Cuvinte
Num
Numr cuvinte diferite 8068

Baza de date in limba romn - vorbire continu CORPUS2009
Metoda de achizi
achiziie Etichetare de audiobook-
audiobook-uri i alte materiale vorbite
Data achizi
achiziiei Vara 2009
Adina Popa, Diana Uzum,
Uzum, Mihai Iordache,
Iordache, Horia Cucu, Dan Oneata,
Oneata, Tudor Mihailescu,
Mihailescu,
Autori Ioana Rolea
Limba Rom
Romn literar
literar
Tip Citit continuu
Durata total
total Aproximativ 11 ore
Mediul de achizi
achiziie Studio de nregistrare
Semnalul vocal Frecven
Frecvena de e
eantionare 16 kHz
Dimensiunea e
eantionului 16 bits
3% la nivel de cuv
cuvnt
Etichetarea 12% la nivel de grup de cuvinte (p
(pn la 3 secunde)
85% la nivel de grup de cuvinte (60 sesecunde)
Voci feminine 3
Num
Numr de vorbitori 7
Voci masculine 4
Vorbitori
Sesiuni per vorbitor Necunoscut (sursa audiobook)
audiobook)
Timpul ntre sesiunile de nregistrare Necunoscut (sursa audiobook)
audiobook)
Num
Numr total de apari
apariii 94687
Cuvinte
Num
Numr de cuvinte diferite 14577

Baza de date in limba romn cuvinte izolate CORPUS2010
Metoda de achizi
achiziie nregistrare direct
direct
Data achizitiei Prim
Primvara 2010
Autori Adina Popa, Diana Uzum,
Uzum, Tudor Mihailescu,
Mihailescu, Ioana Rolea,
Rolea, Florin Baltescu
Limba Rom
omn vorbit
vorbit
Tip Citit
Citit, cuvinte izolate
Durata total
total N/A
Semnalul vocal Mediul de achizi
achiziie Laborator
Laborator
Frecven
Frecvena de e
eantionare 16 kHz
eantionului
Dimensiunea e 16 bits
Etichetarea La nivel de cuv
cuvnt
Voci feminine 3
Num
Numr de vorbitori 5
Voci masculine 2
Vorbitori
Sesiuni per vorbitor 10 -20
Timpul ntre sesiunile de nregistrare De la 2 ore la 2 zile
Num
Numr total de apari
apariii 50000
Cuvinte
Num
Numr de cuvinte diferite 10000

Baze de date n limba romn: comparaii (1)
1)CORPUS 1 limba romn - vorbire spontan 37604 cuvinte 8068 cuvinte unice
2)CORPUS 2 limba romn - vorbire continu (extras) - 77793 cuvinte 14577 cuvinte unice
Statisticile la nivel de cuvnt evideniaz deficienele unei baze de date limitate:
de 1659 apariii CORPUS 1 (3.6% din 37604), 2801 apariii CORPUS 2 (~3.6% din 77793);
i 656 apariii CORPUS 1 (1.75% din 37604), 3100 apariii CORPUS 2 (~4% din 77793);
se, mai n CORPUS1, respectiv ca, din n CORPUS 2 sunt diferenele notabile.

1) CORPUS 1 limba romn - vorbire spontan 37604 cuvinte 8068 cuvinte unice
2) CORPUS 2 limba romn - vorbire continu extras - 77793 cuvinte 14577 cuvinte unice
i, de, n, s, la, cu, pe, se, mai, o, nu, a ordinea descresctoare CORPUS 1
de, la, n, a, i, s, pe, cu, o, nu, c, din ordinea descresctoare CORPUS 2
i, de, n, s, la, cu, pe, o, nu, a sunt n top n ambele baze de date, cu procente diferite
i conjuncie, adverb
de conjuncie, interjecie, prepoziie, pronume cuvinte scurte, uzuale
n prepoziie, prefix putnd fi pri de vorbire diferite
s conjuncie uor de manevrat ntr-o discuie
pe prepoziie
o interjecie, numeral, adjectiv, articol nehotrt
nu adverb
a prepoziie, interjecie, prefix

1) Baza de date in limba romn - vorbire spontan 37604 cuvinte

Statisticile la nivel de trifonem evideniaz particulariti ale spontaneitii.
2) Baza de date in limba romn cuvinte izolate 50000 cuvinte

Statisticile la nivel de cuvnt in strict de modul n care s-au ales cuvintele pentru
baza de date.
Statisticile la nivel de trifonem difer complet pentru cele dou baze de date.

Baze de date in limba romn: observaii (1)
Baza de date in limba romn - vorbire spontan 37604 cuvinte

Statisticile la nivel de trifonem evideniaz particulariti ale spontaneitii.
Vocabularul 5095 trifoneme:

1% din trifoneme 500..1000 apariii;
7% din trifoneme 100 .. 500 apariii;
41% din trifoneme 1 .. 5 apariii.
trifonemele d+e, d-e i i_+n > 1500 apariii

d+e (sfrit de cuvnt): 2305 apariii;
d-e (nceput de cuvnt): 1897 apariii;
de (cuvnt): 1659 apariii;
646 cuvinte terminate n d+e, 238 cuvinte ncepnd cu d-e.

Baze de date in limba romn: observaii (2)
Baza de date in limba romn - vorbire spontan 37604 cuvinte
Ezitarea, stresul, irascibilitatea, disconfortul psihic, nelinitea:

tendina de a dubla nceputul sau sfritul cuvntului, blbiala.
Evitarea blocajului conversaional, recptarea fluenei:
dublare construcii verbale n mod incontient;
interjecii lungite - , aa, , pii, hmm.
Vorbirea spontan:
Mare varietate de trifoneme.
Numr complet diferit de apariii pentru trifoneme.
Variabiliti inter, intra vorbitor.

5. Recunoaterea vorbirii continue n limba romn pornind
de la cuvinte izolate - rezultate
Paii de antrenare
Antrenare de foneme izolate:
Fiierele de etichete conin delimitarea strict a fonemelor.
Antrenare embedded de foneme cu cuvinte izolate:

Fiierele de etichete conin doar succesiunile de foneme.
Trecere de la foneme la trifoneme:

Iniializm modelele pentru trifoneme pornind de la modelele fonemelor.
Antrenare embedded de trifoneme cu cuvinte izolate folosind tehnica de tied-

states:
Trifonemele cu acelai fonem central vor avea aceiai parametrii pentru strile
centrale.
Antrenare embedded de trifoneme cu fraze:

Se folosesc bazele de date de vorbire spontan i continu (Corpus 1 i 2).
Aplicare a gramaticii n perspectiv.

Rezultatele recunoaterii (1)
Rate de recunoatere [%], cuvinte izolate
Vorbitor Vorbitor Vorbitor Vorbitor Vorbitor

Caracteristici de model
01 02 03 04 05
5 stri - 2 mixturi 48.69 60.16 41.15 47.08 36.82
6 stri - 2 mixturi 74.25 78.07 69.42 74.45 -
6 stri - 1 mixtur 72.03 78.07 59.15 68.21 70.32
6 stri - 2 mixturi + acceleraii 67.3 67.61 56.44 61.67 52.01

Evoluia ratei de recunoatere funcie de iteraia de antrenare

Rezultatele recunoaterii (2)
Recunoatere dependent de vorbitor Rata de recunoatere [%]

Cu foneme 74,25
Cu trifoneme 90,05
Recunoatere independent de vorbitor Rata de recunoatere [%]

Cu foneme 46,67
Cu trifoneme 72,91

Influena restriciilor
Recunoatere dependent de vorbitor Rata de recunoatere [%]

Foneme (fr restricii) 74,25
Trifoneme 90,25
Trifoneme + informaii asupra numrului 94,68
de cuvinte de test
Trifoneme + informaii asupra numrului 98,49
de cuvinte de test + dicionar redus

Paii urmtori
Implementarea N-gramelor (mai multe restricii).
Legarea strilor (tied-states) s se fac innd seama i de

caracteristicile fonemelor (vocale, consoane, nazale, fricative, etc.).
ncercarea modelrii altor elemente cum ar fi silabele.

02 CorneliuBurileanu PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

02 CorneliuBurileanu PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Experimente de recunoatere a limbajului vorbit,

n limba romn, pornind de la cuvinte izolate

6-May-10 CONSILR 2010 1

2. Recunoaterea vorbirii continue n limba romn - principii

3. Baze de date pentru recunoaterea vorbirii i a vorbitorului

4. Baze de date semnificative create n laboratorul SpeeD

5. Recunoaterea vorbirii continue n limba romn pornind de la cuvinte izolate

6-May-10 CONSILR 2010 2

n volumul celei de-a 2-a Conferine Speech Technology and Human

6-May-10 CONSILR 2010 3

6-May-10 CONSILR 2010 4

Se pune problema interaciunii consistente ntre specialitii prelucrrii limbajului

Retrospectiva IEEE workshop on ASR, Arden House, Harriman, NY, 1985:

6-May-10 CONSILR 2010 5

Condiii de progres n ASR i MT:

6-May-10 CONSILR 2010 6

Oportuniti majore n aplicaiile prelucrrii vorbirii:

Recunoaterea vorbirii i sinteza automat a vorbirii ar trebui s fie baza a

Un obstacol dar i o provocare important o constituie bariera lingvistic. Sunt

6-May-10 CONSILR 2010 7

6-May-10 CONSILR 2010 8

Statistica celor mai vorbite limbi

6-May-10 CONSILR 2010 9

Exemple de sisteme multi-lingvistice: Google search (117 limbi), produse ale

Aplicaii multi-lingvistice: nelegerea i generarea limbajului vorbit, extragerea

6-May-10 CONSILR 2010 10

6-May-10 CONSILR 2010 11

Articolele sunt dedicate problemelor legate de limbaj i nelegere n prelucrarea

6-May-10 CONSILR 2010 12

Conforma statisticilor Web (sfritul lui 2006, 2007):

6-May-10 CONSILR 2010 13

6-May-10 CONSILR 2010 14

6-May-10 CONSILR 2010 15

ASR bazat pe modele statistice

Legtura SLT NLP

Dezvoltarea sistemelor de dialog

Dezvoltarea aplicaiilor self-service

Globalizare bariera multi-lignvismului

6-May-10 CONSILR 2010 16

6-May-10 CONSILR 2010 17

6-May-10 CONSILR 2010 18

6-May-10 CONSILR 2010 19

6-May-10 CONSILR 2010 20

Semnalul vocal cuprinde informaii foarte bogate:

Recunoaterea vorbirii presupune identificarea anumitor informaii;

6-May-10 CONSILR 2010 21

Punctul de vedere adoptat n proiectare:

6-May-10 CONSILR 2010 22

Metodele statistice sunt, n esen, metode globale. Se modeleaz producerea unei

6-May-10 CONSILR 2010 24

Proiectarea unui sistem de recunoatere a vorbirii a fost abordat utiliznd HMM:

6-May-10 CONSILR 2010 26

Abordare statistic n recunoatere date de antrenare necesare

6-May-10 CONSILR 2010 27

Baze de date pentru recunoaterea vorbirii:

6-May-10 CONSILR 2010 28

6-May-10 CONSILR 2010 29

6-May-10 CONSILR 2010 30

6-May-10 CONSILR 2010 31

6-May-10 CONSILR 2010 32

1) Baza de date in limba romn - vorbire spontan 37604 cuvinte

6-May-10 CONSILR 2010 33

Autori Andi Buzo, Cristina Petrea,