Documente Academic
Documente Profesional
Documente Cultură
Corneliu BURILEANU
Cristina Sorina PETREA
Andi BUZO
Horia CUCU
Laboratorul SpeeD
Facultatea de Electronic, Telecomunicaii i Tehnologia Informaiei
Universitatea Politehnica din Bucureti
cburileanu@messnet.pub.ro
www.upb.ro
Domenii de interes:
nelegerea limbajului vorbit;
Gestionarea dialogului;
Generarea limbajului vorbit;
Achiziia documentelor vorbite;
Extragerea informaiilor din vorbire;
Rezumarea documentelor vorbite;
Automate pentru traducerea limbajului vorbit;
Motoare de cutare n limbajul vorbit i mineritul datelor;
Interfee persoan calculator bazate pe vorbire;
Sisteme de dialog vorbit, aplicaii i standarde;
Prelucrare multimodal, aplicaii i standarde;
Prelucrarea vorbirii n www.
Studiile arat c automatizarea dialogului vorbit poate avea o rat de succes de 92% n
laborator, dar numai 30% n lumea real din cauza comportrii imprevizibile a utilizatorilor
sistemelor de dialog vorbit i zgomotului ambiental.
De pild n sisteme de recunoaterea numelor proprii, 31% dintre erorile de recunoatere sunt
din cauza zgomotului ambiental i 22% legate de pronunie.
Semnal vocal extragere parametri caracteristici modul acustic (modelele statistice ale unitilor
elementare ale cuvintelor, de exemplu ale fonemelor) mai multe ipoteze fonetice asociate n general
unei probabiliti pentru fiecare segment (fereastr) de semnal de vorbire.
Ipotezele fonetice modul lexical recunoate numai cuvinte reprezentate n modulul lexical.
Modelele fonetice sunt reprezentate de un dicionar fonetic sau de automate probabiliste.
Cuvinte probabile modul sintactic (integreaz constrngeri sintactice, chiar semantice). Aceste
constrngeri sunt adesea formalizate prin modelele de limbaj. Pe baza unui model de limbaj cea
mai probabil suit de cuvinte.
6-May-10 CONSILR 2010 23
Metode statistice de recunoatere a vorbirii:
Modele Markov ascunse (HMM)
Principiul metodei
Problematic
Metoda de achizi
achiziie nregistr
nregistrri emisiuni TV sau radio de pe internet
Limba Rom
Romn vorbit
vorbit
Tip Vorbire liber
liber, spontan
spontan
Durata Aprox. 4 ore
Semnal vocal
Mediul de nregistrare studio TV, studio radio, cabinet medical
Frecven
Frecvena de e
eantionare 16 kHz. 16 bi
bii /e
/eantion
Etichetarea La nivel grup de cuvinte (60 secunde)
Voci feminine 8
Num
Numr vorbitori 12
Voci masculine 4
Vorbitori
Sesiuni per vorbitor 3-20
Timp
Timp ntre sesiunile de nregistrare 1 zi - 2 s
spt
ptmni
Num
Numr total
total apari
apariii 37604
Cuvinte
Num
Numr cuvinte diferite 8068
Limba Rom
Romn literar
literar
Tip Citit continuu
Durata total
total Aproximativ 11 ore
Mediul de achizi
achiziie Studio de nregistrare
Semnalul vocal Frecven
Frecvena de e
eantionare 16 kHz
Dimensiunea e
eantionului 16 bits
3% la nivel de cuv
cuvnt
Etichetarea 12% la nivel de grup de cuvinte (p
(pn la 3 secunde)
85% la nivel de grup de cuvinte (60 sesecunde)
Voci feminine 3
Num
Numr de vorbitori 7
Voci masculine 4
Vorbitori
Sesiuni per vorbitor Necunoscut (sursa audiobook)
audiobook)
Timpul ntre sesiunile de nregistrare Necunoscut (sursa audiobook)
audiobook)
Num
Numr total de apari
apariii 94687
Cuvinte
Num
Numr de cuvinte diferite 14577
Limba Rom
omn vorbit
vorbit
Tip Citit
Citit, cuvinte izolate
Durata total
total N/A
Semnalul vocal Mediul de achizi
achiziie Laborator
Laborator
Frecven
Frecvena de e
eantionare 16 kHz
eantionului
Dimensiunea e 16 bits
Etichetarea La nivel de cuv
cuvnt
Voci feminine 3
Num
Numr de vorbitori 5
Voci masculine 2
Vorbitori
Sesiuni per vorbitor 10 -20
Timpul ntre sesiunile de nregistrare De la 2 ore la 2 zile
Num
Numr total de apari
apariii 50000
Cuvinte
Num
Numr de cuvinte diferite 10000
1)CORPUS 1 limba romn - vorbire spontan 37604 cuvinte 8068 cuvinte unice
2)CORPUS 2 limba romn - vorbire continu (extras) - 77793 cuvinte 14577 cuvinte unice
de 1659 apariii CORPUS 1 (3.6% din 37604), 2801 apariii CORPUS 2 (~3.6% din 77793);
i 656 apariii CORPUS 1 (1.75% din 37604), 3100 apariii CORPUS 2 (~4% din 77793);
se, mai n CORPUS1, respectiv ca, din n CORPUS 2 sunt diferenele notabile.
1) CORPUS 1 limba romn - vorbire spontan 37604 cuvinte 8068 cuvinte unice
2) CORPUS 2 limba romn - vorbire continu extras - 77793 cuvinte 14577 cuvinte unice
i, de, n, s, la, cu, pe, se, mai, o, nu, a ordinea descresctoare CORPUS 1
de, la, n, a, i, s, pe, cu, o, nu, c, din ordinea descresctoare CORPUS 2
i, de, n, s, la, cu, pe, o, nu, a sunt n top n ambele baze de date, cu procente diferite
i conjuncie, adverb
de conjuncie, interjecie, prepoziie, pronume cuvinte scurte, uzuale
n prepoziie, prefix putnd fi pri de vorbire diferite
s conjuncie uor de manevrat ntr-o discuie
pe prepoziie
o interjecie, numeral, adjectiv, articol nehotrt
nu adverb
a prepoziie, interjecie, prefix
Vorbirea spontan:
Mare varietate de trifoneme.
Numr complet diferit de apariii pentru trifoneme.
Variabiliti inter, intra vorbitor.
Paii de antrenare
Antrenare de foneme izolate:
Fiierele de etichete conin delimitarea strict a fonemelor.