Sunteți pe pagina 1din 47

Experimente de recunoatere a limbajului vorbit,

n limba romn, pornind de la cuvinte izolate

Corneliu BURILEANU
Cristina Sorina PETREA
Andi BUZO
Horia CUCU

Laboratorul SpeeD
Facultatea de Electronic, Telecomunicaii i Tehnologia Informaiei
Universitatea Politehnica din Bucureti

cburileanu@messnet.pub.ro
www.upb.ro

6-May-10 CONSILR 2010 1


1. Tendine actuale n tehnologia limbajului vorbit

2. Recunoaterea vorbirii continue n limba romn - principii

3. Baze de date pentru recunoaterea vorbirii i a vorbitorului

4. Baze de date semnificative create n laboratorul SpeeD

5. Recunoaterea vorbirii continue n limba romn pornind de la cuvinte izolate


- rezultate

6-May-10 CONSILR 2010 2


1. Tendine actuale n tehnologia limbajului vorbit

n volumul celei de-a 2-a Conferine Speech Technology and Human


Computer Dialogue, n aprilie 2003, acad. Mihai DRGNESCU, sublinia:
n 1984, Academia Romn a organizat prima sesiune despre analiza i
sinteza semnalului vocal i a publicat un volum cu lucrrile Conferinei. A fost
momentul recunoaterii activitii unei comuniti de oameni de tiin romni
n domeniul tehnologiei vorbirii, cu contribuii nc din 1963 De atunci,
domeniul a evoluat de la tehnologia vorbirii la tehnologia limbajului vorbit. De la
nceput aceasta a presupus utilizarea inteligenei artificiale att pentru
prelucrarea limbajului natural c i pentru prelucrarea acustico-fonetic a
limbajului vorbit.

6-May-10 CONSILR 2010 3


Liniile directoare trasate la
IEEE/ACL Workshop on Spoken Language Technology, Aruba, Dec. 11-13, 2006

Domenii de interes:
nelegerea limbajului vorbit;
Gestionarea dialogului;
Generarea limbajului vorbit;
Achiziia documentelor vorbite;
Extragerea informaiilor din vorbire;
Rezumarea documentelor vorbite;
Automate pentru traducerea limbajului vorbit;
Motoare de cutare n limbajul vorbit i mineritul datelor;
Interfee persoan calculator bazate pe vorbire;
Sisteme de dialog vorbit, aplicaii i standarde;
Prelucrare multimodal, aplicaii i standarde;
Prelucrarea vorbirii n www.

6-May-10 CONSILR 2010 4


Intervenia lui Hermann Ney, Human Language Technology and Pattern Recognition,
Computer Science Department RWTH Aachen University, Germany: Closing Remarks:
How to Continue?:

Se pune problema interaciunii consistente ntre specialitii prelucrrii limbajului


vorbit i specialitii prelucrrii limbajului natural (NLP)

Retrospectiva IEEE workshop on ASR, Arden House, Harriman, NY, 1985:


Sistemele de recunoatere a vorbirii (ASR) foloseau zeci sute de cuvinte,
dependente de vorbitor; IBM avea un sistem de recunoaterea cuvintelor izolate de
5000 de cuvinte.
O slab interaciune cu specialitii NLP; analiza acustico-fonetic era
determinant.
Nu se punea problema mainilor de tradus (MT) sau a modelrii dialogului.
Nu existau baze de date standard.
Se estima c sistemele expert sunt viitorul pentru ASR, MT, NLP.

6-May-10 CONSILR 2010 5


La Conferina din 2006:
Domeniile de interes amintite sunt arii de interaciune ntre vorbire
i NLP (modelarea limbajului, traducere automat, nelegerea limbajului
vorbit, modelarea dialogului, rezumarea textelor, generarea limbajului,
comunicare multi-modal).

Condiii de progres n ASR i MT:


Acorduri cu privire la sarcinile comune.
Acorduri cu privire la modalitile de evaluare.
Baze de date comune i campanii de evaluare.

6-May-10 CONSILR 2010 6


Intervenia lui David Nahamoo, Speech CTO, IBM Research, Speech Technology
Opportunities and Challenges:

Oportuniti majore n aplicaiile prelucrrii vorbirii:


n comer;
Acces global: traducere Speech to Speech, minerit multimedia n diverse limbi;
Dispozitive: n automobile, n telefonia mobil.

Recunoaterea vorbirii i sinteza automat a vorbirii ar trebui s fie baza a


ceea ce numim self-service. Se estimeaz o cretere a cestor tipuri de servicii de la
8% ntre 2003-2005 la 80% n anii urmtori.

Un obstacol dar i o provocare important o constituie bariera lingvistic. Sunt


enumerate ameninri importante n situaii extreme cnd aceast barier nu e depit.

6-May-10 CONSILR 2010 7


Apare necesitatea unor progrese importante n traducerea automat de tipul Speech to
Speech (S2S):
n ASR: necesitatea de lucru n medii zgomotoase, recunoaterea vorbirii
spontane, conversaionale, n diverse limbi, influena emoiilor i stresului.
Traducerea va trebui s preia ieirea sistemelor ASR i s compenseze erorile de
recunoatere, sintaxa imperfect, lipsa caracteristicilor formale ale unui text
scris (indentare, punctuaie).
Textul tradus trebuie s poat fi vorbit: vorbirea sintetizat trebuie s fie
fluent, nu numai corect.
Intonaia (prozodia) rmne o provocare important.

6-May-10 CONSILR 2010 8


Intervenia lui Pascale Fung, Human
Language Technology Center,
Department of Electronic &
Computer Engineering, Hong Kong
University of Science and
Technology, Multilingual Language
Processing:

Statistica celor mai vorbite limbi


pe glob:

6-May-10 CONSILR 2010 9


Se propun sisteme multi-lingvistice ca alternativ a traducerii automate (MT):
spre deosebire de MT care presupune traducerea limbajului vorbit dintr-o limb n
alta, sistemele multi-lingvistice presupun interfee adecvate, extragerea informaiei
multi-lingve din documentele vorbite, nelegerea ntrebrilor formulate n diverse
limbi.

Exemple de sisteme multi-lingvistice: Google search (117 limbi), produse ale


companiei Nuance (OCR/119 limbi, SLT/46 limbi), Wikipedia (12 limbi), filtre anti-
spam.

Aplicaii multi-lingvistice: nelegerea i generarea limbajului vorbit, extragerea


informaiilor, afaceri pe Internet, cutare, filtre anti-spam, context generat de
utilizator.

6-May-10 CONSILR 2010 10


Topul primelor 20 de ri cu cel mai mare numr de utilizatori Internet:

6-May-10 CONSILR 2010 11


Signal Processing Magazine din mai 2008 este dedicat tehnologiei limbajului vorbit
(SLT). Este o continuare a preocuprilor formulate la primul workshop SLT inut n
Aruba, decembrie 2006.

Articolele sunt dedicate problemelor legate de limbaj i nelegere n prelucrarea


semnalelor. Se observ o schimbare major n domeniul prelucrrii semnalelor n care
modul convenional de gndire - la nivelul prelucrrii digitale e informaiei din semnal
este dirijat ctre o nou perspectiv privind valoarea simbolic a surselor de informaii
(limbaj vorbit sau text).

6-May-10 CONSILR 2010 12


Un domeniu important de interes este cutarea documentelor vorbite pe Web.

Conforma statisticilor Web (sfritul lui 2006, 2007):


nume domenii - volum estimat: 138 milioane;
pagini Web arhivate - volum estimat: 85 miliarde;
video - volum estimat: 7 miliarde;
bloguri - volum estimat: 200 milioane;
utilizatori Internet - volum estimat: 850 milioane;
utilizatori Internet mobil - volum estimat: 35 milioane;
abonai broadband - volum estimat: 300 milioane;
utilizatori SMS - volum estimat: 430 milioane;
abonai voice over IP - volum estimat: 34 milioane;
utilizatori bloguri - volum estimat: 63 milioane;
cutri (pe lun) - volum estimat: 14 miliarde.

6-May-10 CONSILR 2010 13


Cutarea documentelor vorbite este o combinaie ntre recunoaterea automat a
vorbirii (ASR) i cutarea documentelor. Este atractiv mai ales cnd se utilizeaz
dispozitive mobile pentru cutri pe Web (liste de companii i magazine, hri i rute,
media, cumprturi etc. Cutarea documentelor vorbite preia o cerin formulat prin
voce, folosete recunoaterea vorbirii pentru a prelua diverse rspunsuri ipotetice,
formuleaz texte de rspuns i propune utilizatorului rezultatele cutrii.

6-May-10 CONSILR 2010 14


Nu sunt nc rezolvate multe dificulti legate de cutarea documentelor vorbite:
robusteea i eficiena recunoaterii automate a vorbirii,
nelegerea limbajului vorbit,
gestionarea dialogului.

Studiile arat c automatizarea dialogului vorbit poate avea o rat de succes de 92% n
laborator, dar numai 30% n lumea real din cauza comportrii imprevizibile a utilizatorilor
sistemelor de dialog vorbit i zgomotului ambiental.

De pild n sisteme de recunoaterea numelor proprii, 31% dintre erorile de recunoatere sunt
din cauza zgomotului ambiental i 22% legate de pronunie.

6-May-10 CONSILR 2010 15


Concluzii cu privire la tendinele de dezvoltare a tehnologiei limbajului vorbit:

ASR bazat pe modele statistice

Legtura SLT NLP

Dezvoltarea sistemelor de dialog

Dezvoltarea aplicaiilor self-service

Globalizare bariera multi-lignvismului

6-May-10 CONSILR 2010 16


2. Recunoaterea vorbirii continue n limba romn -
principii
Vocalele limbii romne

6-May-10 CONSILR 2010 17


Exemple de cuvinte reprezentative
pentru vocalele limbii romne:

6-May-10 CONSILR 2010 18


Consoanele limbii romne:

6-May-10 CONSILR 2010 19


Exemple de cuvinte reprezentative
pentru consoanele limbii romne:

6-May-10 CONSILR 2010 20


Abordarea recunoaterii vorbirii

Semnalul vocal cuprinde informaii foarte bogate:


ce se vorbete;
cine vorbete;
cum se vorbete;
condiiile n care se vorbete.

Recunoaterea vorbirii presupune identificarea anumitor informaii;


de pild, recunoaterea discursului nseamn descifrarea mesajului (ce se vorbete)
ignornd (sau innd seama de) variabilitile introduse de vorbitor (cine vorbete),
modul de pronunie i condiiile de zgomot ambiental.

6-May-10 CONSILR 2010 21


Aadar, recunoaterea vorbirii: procesul de transformare a semnalului acustic
continuu, produs de organul fonator uman, ntr-o reprezentare discret creia i se
poate ataa o semnificaie i care, cnd este descifrat, poate fi utilizat pentru a
determina un rspuns.

Punctul de vedere adoptat n proiectare:


semnal acustic
mecanismul producerii vorbirii
recepia senzorial
percepia vorbirii

6-May-10 CONSILR 2010 22


Recunoaterea automat a vorbirii continue

Semnal vocal extragere parametri caracteristici modul acustic (modelele statistice ale unitilor
elementare ale cuvintelor, de exemplu ale fonemelor) mai multe ipoteze fonetice asociate n general
unei probabiliti pentru fiecare segment (fereastr) de semnal de vorbire.
Ipotezele fonetice modul lexical recunoate numai cuvinte reprezentate n modulul lexical.
Modelele fonetice sunt reprezentate de un dicionar fonetic sau de automate probabiliste.
Cuvinte probabile modul sintactic (integreaz constrngeri sintactice, chiar semantice). Aceste
constrngeri sunt adesea formalizate prin modelele de limbaj. Pe baza unui model de limbaj cea
mai probabil suit de cuvinte.
6-May-10 CONSILR 2010 23
Metode statistice de recunoatere a vorbirii:
Modele Markov ascunse (HMM)

Principiul metodei

Metodele statistice sunt, n esen, metode globale. Se modeleaz producerea unei


uniti lingvistice, care poate fi, de pild, unitatea sintactic de baz (cuvntul).
Se consider statistica pronuniei diverselor cuvinte i utilizarea unui sistem cu un
anumit numr finit de stri n care tranziiile i ieirile sunt guvernate de legi de
probabilitate.
Cele dou faze eseniale ale procedurii de recunoatere sunt:
antrenarea sistemului: se estimeaz probabiliti de tranziie i emisie plecnd
de la versiunile nregistrate ale aceluiai cuvnt;
recunoaterea propriu-zis: se utilizeaz modelele asociate referinelor pentru
a identifica enunul testat.

6-May-10 CONSILR 2010 24


6-May-10 CONSILR 2010 25
Problema 1 reprezint problema evalurii: date fiind un model i o secven de
observaii, i propune determinarea probabilitii c secvena observat s fi fost
produs de model.
Problema 2 reprezint problema decodrii: ea ncearc s descopere partea ascuns a
modelului, adic s gseasc secvena de stri care s fi generat cu cea mai mare
probabilitate secvena observat.
Problema 3 reprezint problema antrenrii: ea ncearc s potriveasc parametrii
unui model dat, pe o secven de observaii dat, astfel nct modelul s descrie cel mai
bine modul n care o secven de observaii poate aprea.

Proiectarea unui sistem de recunoatere a vorbirii a fost abordat utiliznd HMM:


A) Se construiesc modele Markov ascunse pentru unitile lingvistice considerate
(foneme sau trifoneme) problema 3.
B) Se segmenteaz fiecare secven de observaii n stri i pentru a studia relaia
dintre secvena de stri i secvena de observaii problema 2.
C) Se ia decizia de recunoatere a enunurilor selectnd setul de modele care s fi
generat cu cea mai mare probabilitate secvena de recunoscut problema 1.

6-May-10 CONSILR 2010 26


3. Baze de date pentru recunoaterea vorbirii
i a vorbitorului

Problematic

Abordare statistic n recunoatere date de antrenare necesare


Baze de date pentru recunoaterea vorbirii i a vorbitorului: puncte comune, dar i
diferene
Datele necesare dependente de natura aplicaiei:
recunoaterea vorbitorului: dependent sau independent de text, verificare sau
identificare, set nchis sau deschis de vorbitori
recunoaterea vorbirii: dependent sau independent de vorbitor, vocabular mic
(10-100 cuvinte), mediu (100-1.000 cuvinte) sau mare (10.000-100.000 cuvinte),
dependent sau independent de domeniu, robust sau nu la condiiile de mediu
(zgomot, etc.).

6-May-10 CONSILR 2010 27


Baze de date pentru recunoaterea vorbitorului:
s cuprind material vocal achiziionat de la ct mai muli vorbitori (de preferat, de
ordinul zecilor sau sutelor);
s conin, eventual, dialecte diferite;
s conin fraze ct mai variate;
frazele s fie rostite de mai multe ori, la intervale de timp;
pentru evaluare n condiii reale (de exemplu transmisie telefonic), materialul vocal
trebuie s fie achiziionat prin intermediul mai multor aparate telefonice, n decursul
mai multor legturi, de preferat la distane diferite.

Baze de date pentru recunoaterea vorbirii:


buna acoperire a vocabularului considerat (pentru vocabular mic), respectiv a
fonemelor limbii aplicaiei (pentru vocabular mediu si mare);
variaia intra-vorbitor: mai puin important;
variaia inter-vorbitor: importanta pentru recunoatere independenta de vorbitor
variaia intra-fonem: important;
separarea inter-fonem: important.

6-May-10 CONSILR 2010 28


Moduri de colectare:
prin nregistrare direct; probleme: alegerea incintei pentru nregistrri
(studio/camer surd), alegerea microfonului (unidirecional, multidirecional, cu
sau fr filtru activ, etc.);
prin achiziia datelor TV transmise in Internet; probleme: omogenitatea
condiiilor de nregistrare (reportaje in aer liber, nregistrri in studio, filme, etc.),
uniformitatea codrilor folosite (A-PCM, - PCM, etc), diferene n frecvenele de
eantionare (16, 32, 44 kHz), controlul setului de vorbitori (ce variaz de la canal de
nregistrare la canal de nregistrare);
prin achiziia direct a datelor de la canalele radio sau TV; probleme: digitizarea
semnalului achiziionat, omogenitatea condiiilor de nregistrare, controlul
eventualelor pene de curent sau bruiaje in transmisie.

6-May-10 CONSILR 2010 29


Componente ale unei baze de date:
fiiere de semnal vocal (in diferite formate: OGG, WAV, RAW, AIFF, etc.);
baza de date relaional ce asociaz fiierele de semnal vocal caracteristicilor sale:
moment al achiziiei, durata achiziiei, identitatea vorbitorilor, tipul vorbirii citit,
spontan etc.;
fiiere de etichete, ce precizeaz:
pentru recunoaterea vorbitorului: vorbitorii ce rostesc fiecare poriune de
semnal vocal;
pentru recunoaterea vorbirii: cuvintele sau fonemele ce sunt rostite pe fiecare
poriune de semnal vocal;
fiiere de parametri acustici, ce reprezint sintetic semnalul vocal: coeficieni de
predicie liniar, coeficieni cepstrali (eventual filtrai pe scala Mel de frecventa), etc.;
fiecrui fiier de semnal vocal i se asociaz un fiier de parametri acustici.

6-May-10 CONSILR 2010 30


Probleme specifice:
segmentarea fiierelor de semnal vocal
controlul automat al volumului nregistrrilor (variaii mari n funcie de canalul TV i de
codarea n transmisia prin Internet) procedur automat bazat pe calculul energiei;
variaii n frecvena de eantionare a semnalului vocal achiziionat din Internet: de la 16 la
44kHz filtrare trece-jos la 16kHz;
alegerea unei configuraii optime pentru parametrizarea semnalului vocal:
dimensiunea unui segment de semnal vocal: 20 ms;
suprapunerea a dou cadre succesive: 10 ms;
fereastra de ponderare: Hamming, de lungime 20 ms;
parametrizare: coeficieni cepstrali filtrai pe scala Mel de frecvene:
o numr de filtre n banc: 26;
o calcul al energiei normalizate la lungimea cadrului;
o numr de coeficieni cepstrali: 13;
o calcul al derivatelor de ordinul nti i doi ai coeficienilor cepstrali;
o rezult dimensiunea vectorului de parametri pentru un cadru de semnal vocal: de
ex emplu 39 de valori;
algoritm semi-automat de determinare a acestei configuraii; criteriu: maximizarea
dispersiei inter-vorbitor si minimizarea dispersiei intra-vorbitor;
etichetarea semnalului vocal: la nivel de vorbitor.

6-May-10 CONSILR 2010 31


Prelucrri suplimentare pentru utilizarea bazei de date la recunoaterea vorbirii
continue:
gsirea unei noi parametrizri optime (eventual bazate tot pe coeficienii cepstrali);
criteriu: maximizarea dispersiei inter-fonem si minimizarea dispersiei intra-fonem;
etichetarea semnalului acustic la nivel de fonem; etape:
etichetare manual la nivel de cuvnt;
separare automat a fiecrui cuvnt n foneme: pe baza dicionarului fonetic;
problema: se presupun durate egale pentru fonemele din interiorul unui cuvnt,
ceea ce este fals.
aliniere iterativ Viterbi forat a modelelor Markov ascunse (definite n prealabil) la
nivel de fonem i vectorii de parametri acustici; se urmrete maximizarea n
probabilitate, la fiecare iteraie.

6-May-10 CONSILR 2010 32


4. Baze de date semnificative create in laboratorul
SpeeD

1) Baza de date in limba romn - vorbire spontan 37604 cuvinte


achiziie - anul 2008
2) Baza de date in limba romn - vorbire continu 94687 cuvinte
achiziie - anul 2009
3) Baza de date in limba romn cuvinte izolate 50000 cuvinte
achiziie - anul 2010

6-May-10 CONSILR 2010 33


Baza de date in limba romn - vorbire spontan CORPUS2008

Metoda de achizi
achiziie nregistr
nregistrri emisiuni TV sau radio de pe internet

Autori Andi Buzo, Cristina Petrea,


Petrea, Diana Hanes
Data achizitiei 2008

Limba Rom
Romn vorbit
vorbit
Tip Vorbire liber
liber, spontan
spontan
Durata Aprox. 4 ore
Semnal vocal
Mediul de nregistrare studio TV, studio radio, cabinet medical
Frecven
Frecvena de e
eantionare 16 kHz. 16 bi
bii /e
/eantion
Etichetarea La nivel grup de cuvinte (60 secunde)

Voci feminine 8
Num
Numr vorbitori 12
Voci masculine 4
Vorbitori
Sesiuni per vorbitor 3-20
Timp
Timp ntre sesiunile de nregistrare 1 zi - 2 s
spt
ptmni

Num
Numr total
total apari
apariii 37604
Cuvinte
Num
Numr cuvinte diferite 8068

6-May-10 CONSILR 2010 34


Baza de date in limba romn - vorbire continu CORPUS2009
Metoda de achizi
achiziie Etichetare de audiobook-
audiobook-uri i alte materiale vorbite
Data achizi
achiziiei Vara 2009
Adina Popa, Diana Uzum,
Uzum, Mihai Iordache,
Iordache, Horia Cucu, Dan Oneata,
Oneata, Tudor Mihailescu,
Mihailescu,
Autori Ioana Rolea

Limba Rom
Romn literar
literar
Tip Citit continuu
Durata total
total Aproximativ 11 ore

Mediul de achizi
achiziie Studio de nregistrare
Semnalul vocal Frecven
Frecvena de e
eantionare 16 kHz
Dimensiunea e
eantionului 16 bits

3% la nivel de cuv
cuvnt
Etichetarea 12% la nivel de grup de cuvinte (p
(pn la 3 secunde)
85% la nivel de grup de cuvinte (60 sesecunde)

Voci feminine 3
Num
Numr de vorbitori 7
Voci masculine 4
Vorbitori
Sesiuni per vorbitor Necunoscut (sursa audiobook)
audiobook)
Timpul ntre sesiunile de nregistrare Necunoscut (sursa audiobook)
audiobook)

Num
Numr total de apari
apariii 94687
Cuvinte
Num
Numr de cuvinte diferite 14577

6-May-10 CONSILR 2010 35


Baza de date in limba romn cuvinte izolate CORPUS2010
Metoda de achizi
achiziie nregistrare direct
direct
Data achizitiei Prim
Primvara 2010
Autori Adina Popa, Diana Uzum,
Uzum, Tudor Mihailescu,
Mihailescu, Ioana Rolea,
Rolea, Florin Baltescu

Limba Rom
omn vorbit
vorbit
Tip Citit
Citit, cuvinte izolate
Durata total
total N/A
Semnalul vocal Mediul de achizi
achiziie Laborator
Laborator
Frecven
Frecvena de e
eantionare 16 kHz

eantionului
Dimensiunea e 16 bits
Etichetarea La nivel de cuv
cuvnt

Voci feminine 3
Num
Numr de vorbitori 5
Voci masculine 2
Vorbitori
Sesiuni per vorbitor 10 -20
Timpul ntre sesiunile de nregistrare De la 2 ore la 2 zile

Num
Numr total de apari
apariii 50000
Cuvinte
Num
Numr de cuvinte diferite 10000

6-May-10 CONSILR 2010 36


Baze de date n limba romn: comparaii (1)

1)CORPUS 1 limba romn - vorbire spontan 37604 cuvinte 8068 cuvinte unice
2)CORPUS 2 limba romn - vorbire continu (extras) - 77793 cuvinte 14577 cuvinte unice

Statisticile la nivel de cuvnt evideniaz deficienele unei baze de date limitate:

de 1659 apariii CORPUS 1 (3.6% din 37604), 2801 apariii CORPUS 2 (~3.6% din 77793);
i 656 apariii CORPUS 1 (1.75% din 37604), 3100 apariii CORPUS 2 (~4% din 77793);
se, mai n CORPUS1, respectiv ca, din n CORPUS 2 sunt diferenele notabile.

6-May-10 CONSILR 2010 37


Baze de date n limba romn: comparaii (2)

1) CORPUS 1 limba romn - vorbire spontan 37604 cuvinte 8068 cuvinte unice
2) CORPUS 2 limba romn - vorbire continu extras - 77793 cuvinte 14577 cuvinte unice

i, de, n, s, la, cu, pe, se, mai, o, nu, a ordinea descresctoare CORPUS 1
de, la, n, a, i, s, pe, cu, o, nu, c, din ordinea descresctoare CORPUS 2
i, de, n, s, la, cu, pe, o, nu, a sunt n top n ambele baze de date, cu procente diferite
i conjuncie, adverb
de conjuncie, interjecie, prepoziie, pronume cuvinte scurte, uzuale
n prepoziie, prefix putnd fi pri de vorbire diferite
s conjuncie uor de manevrat ntr-o discuie
pe prepoziie
o interjecie, numeral, adjectiv, articol nehotrt
nu adverb
a prepoziie, interjecie, prefix

6-May-10 CONSILR 2010 38


Baze de date n limba romn: comparaii (3)

1) Baza de date in limba romn - vorbire spontan 37604 cuvinte


Statisticile la nivel de trifonem evideniaz particulariti ale spontaneitii.

2) Baza de date in limba romn cuvinte izolate 50000 cuvinte


Statisticile la nivel de cuvnt in strict de modul n care s-au ales cuvintele pentru
baza de date.
Statisticile la nivel de trifonem difer complet pentru cele dou baze de date.

6-May-10 CONSILR 2010 39


Baze de date in limba romn: observaii (1)

Baza de date in limba romn - vorbire spontan 37604 cuvinte


Statisticile la nivel de trifonem evideniaz particulariti ale spontaneitii.

Vocabularul 5095 trifoneme:


1% din trifoneme 500..1000 apariii;
7% din trifoneme 100 .. 500 apariii;
8% din trifoneme 50 .. 100 apariii;
8% din trifoneme 30 .. 40 apariii;
19% din trifoneme 10 .. 30 apariii;
16% din trifoneme 5 .. 10 apariii;
41% din trifoneme 1 .. 5 apariii.

trifonemele d+e, d-e i i_+n > 1500 apariii


d+e (sfrit de cuvnt): 2305 apariii;
d-e (nceput de cuvnt): 1897 apariii;
de (cuvnt): 1659 apariii;
646 cuvinte terminate n d+e, 238 cuvinte ncepnd cu d-e.

6-May-10 CONSILR 2010 40


Baze de date in limba romn: observaii (2)

Baza de date in limba romn - vorbire spontan 37604 cuvinte

Ezitarea, stresul, irascibilitatea, disconfortul psihic, nelinitea:


tendina de a dubla nceputul sau sfritul cuvntului, blbiala.
Evitarea blocajului conversaional, recptarea fluenei:
dublare construcii verbale n mod incontient;
interjecii lungite - , aa, , pii, hmm.

Vorbirea spontan:
Mare varietate de trifoneme.
Numr complet diferit de apariii pentru trifoneme.
Variabiliti inter, intra vorbitor.

6-May-10 CONSILR 2010 41


5. Recunoaterea vorbirii continue n limba romn pornind
de la cuvinte izolate - rezultate

Paii de antrenare
Antrenare de foneme izolate:
Fiierele de etichete conin delimitarea strict a fonemelor.

Antrenare embedded de foneme cu cuvinte izolate:


Fiierele de etichete conin doar succesiunile de foneme.

Trecere de la foneme la trifoneme:


Iniializm modelele pentru trifoneme pornind de la modelele fonemelor.

Antrenare embedded de trifoneme cu cuvinte izolate folosind tehnica de tied-


states:
Trifonemele cu acelai fonem central vor avea aceiai parametrii pentru strile
centrale.

Antrenare embedded de trifoneme cu fraze:


Se folosesc bazele de date de vorbire spontan i continu (Corpus 1 i 2).

Aplicare a gramaticii n perspectiv.

6-May-10 CONSILR 2010 42


Rezultatele recunoaterii (1)

Rate de recunoatere [%], cuvinte izolate

Vorbitor Vorbitor Vorbitor Vorbitor Vorbitor


Caracteristici de model
01 02 03 04 05

5 stri - 2 mixturi 48.69 60.16 41.15 47.08 36.82

6 stri - 2 mixturi 74.25 78.07 69.42 74.45 -

6 stri - 1 mixtur 72.03 78.07 59.15 68.21 70.32

6 stri - 2 mixturi + acceleraii 67.3 67.61 56.44 61.67 52.01

6-May-10 CONSILR 2010 43


Evoluia ratei de recunoatere funcie de iteraia de antrenare

6-May-10 CONSILR 2010 44


Rezultatele recunoaterii (2)

Recunoatere dependent de vorbitor Rata de recunoatere [%]


Cu foneme 74,25
Cu trifoneme 90,05

Recunoatere independent de vorbitor Rata de recunoatere [%]


Cu foneme 46,67
Cu trifoneme 72,91

6-May-10 CONSILR 2010 45


Influena restriciilor

Recunoatere dependent de vorbitor Rata de recunoatere [%]


Foneme (fr restricii) 74,25
Trifoneme 90,25
Trifoneme + informaii asupra numrului 94,68
de cuvinte de test
Trifoneme + informaii asupra numrului 98,49
de cuvinte de test + dicionar redus

6-May-10 CONSILR 2010 46


Paii urmtori

Implementarea N-gramelor (mai multe restricii).

Legarea strilor (tied-states) s se fac innd seama i de


caracteristicile fonemelor (vocale, consoane, nazale, fricative, etc.).

ncercarea modelrii altor elemente cum ar fi silabele.

6-May-10 CONSILR 2010 47

S-ar putea să vă placă și