Sunteți pe pagina 1din 29

PLNTA_6 Recunoasterea vorbirii

continue
• Recunoasterea vorbirii continue in sens clasic
(utilizand extragerea trasaturilor)
• Schema de recunoasteresi etapele recunoasterii
• Modele de limba
• Baze de date
• Dictionare fonetice
• Reprezentarea unitatilor fonetice prin trasaturi(parametri) constituie
o compresie a vorbirii
• Recunoasterea vorbirii prin invatarea trasaturilor (Deep Learning)
• Structuri de Deep Learning
• Aplicatii de deep Learning.

1
Schema bloc a sistemului de recunoastere si
intelegere a vorbirii continue (ASRU – Automatic
Speech Recognition and understanding

2
Parametrizarea semnalului vocal
(Extragerea trasaturilor)
Are în vedere reprezentarea unei ferestre de semnal vorbit ce
conţine un număr mare de eşantioane (256–1024) cu un număr
redus de trăsături (10-15) asamblate într-un vector; se adaugă
adesea şi derivatele lor de ordin 1 şi 2

3
Etapele recunoasterii
• Etapa 1: în această etapă se realizează extragerea trăsăturilor importante,
parametrizarea semnalului vocal, sub formă de parametri obţinuţi pentru fiecare
cadru al semnalului vocal analizat. Aceşti parametri pot fi: parametri cepstrali,
parametri LPC, parametri PLP, etc. După parametrizarea semnalului vocal, în toate
sistemele de recunoaştere a vorbirii, urmează o segmentare în clase fonetice, ca de
exemplu: monofoni, trifoni, etc.
• Etapa 2: în această etapă se antrenează sistemul pentru a obţine câte un model
pentru fiecare clasă fonetică. Pentru obţinerea acestor modele se pot utiliza metodele
statistice (de exemplu modelele Markov ascunse), metodele neuronale (de exemplu
perceptronul multistrat, reţeaua Kohonen, TDNN, RNN, etc), sau metode hibride
(MMA şi MLP). Pentru a obţine modele bine antrenate avem nevoie de o bază de
antrenare cât mai mare. Într-un sistem de recunoaştere a vorbirii procesul de
antrenare se realizează off-line, deoarece durează foarte mult.
• Etapa 3: în etapa de clasificare a formelor, forma necunoscută este comparată cu
toate modelele obţinute în etapa anterioară, calculându-se între formele necunoscute
şi modelele antrenate diferite distanţe sau probabilităţi de potrivire.
• Etapa 4: în această etapă se ia o decizie. Forma necunoscută se atribuie modelului
cu care seamănă cel mai bine, pe baza unui criteriu de probabilitate maximă sau pe
baza distaţei minime. Procesul de recunoaştere se realizează on-line
• Etapa 5: Sirul de cuvinte recunoscute este ordonat cu ajutorul unui model de limba
astfel incat sa aiba un sens (criteriu semantic ) si o utilitate (nivel pragmatic)

4
Modele de limba (Modelare lingvistica)

• Modelul de limbă este o colecţie de cunoştinţe despre


limbajul natural, şi anume: cunoştinţe morfologice,
sintactice, semantice şi/sau pragmatice
• Modelele de limbă sunt de două tipuri:
• Modele de limbă bazate pe reguli
• Modele de limbă stocastice
• Modelele de limbă bazate pe reguli (gramatici) -
folosesc cunoştinţe lingvistice şi sunt, în general,
realizate de lingvişti

5
Modelele statistice (stohastice)

• Modelează relaţia probabilistică între secvenţe de


cuvinte fără a fi necesară realizarea unei gramatici
formale
• Au la bază proprietăţile limbii extrase prin analiza
textelor pe baza estimatelor legate de frecvenţa relativă
de apariţie a cuvintelor
• Necesită o mare cantitate de texte pentru antrenare
• Măsurarea calităţii modelului stocastic se face folosind
perplexitatea: 1
H (W )   log 2 P(W )
PP(W )  2 H (W )
NW
unde Nw = lungimea textului măsurată în cuvinte

6
Baze de date

• Pentru realizarea sistemelor de recunoastere si intelegere a vorbirii


este necesar un volum mare de material vorbit, care sa fie
inregistrat in formate standard (fisiere wav) si organizat in baze de
date (corpusuri).
• De obicei, bazele de date se realizeaza pentru o singura limba, rar
sunt baze de date multilinguale.
• Exista limbi cu un mare numar de corpusuri , bogate in resurse
lingvistice (engleza, franceza, italiana, spaniola, germana, chineza)
si limbi mai sarace in resurse lingvistice
• In procesul de recunoastere bazele de date se impart in material de
antrenare (60%-70%) si material de testare (30%-40%)
• Bazele de date trebuie sa indeplineasca o serie de conditii tehnice
si de continut care vor fi prezentate in continuare
7
Conditii de continut
• Corpus-ul trebuie să conţină pe cât posibil majoritatea tranziţiilor acustice în
conformitate cu limba respectivă. O descriere prozodică a unităţilor se poate
combina cu o descriere fonetică (exemplu: un anumit segment înregistrat în
diferite contexte prozodice)
• Să combine informaţiile la nivel fonetic şi la nivel lingvistic. Aceste informaţii
permit caracterizarea sunetelor care vor fi incluse în baza de date.
• Garantarea unei calităţi constante a semnalului vocal pe întreaga perioadă
a achiziţiei bazei de date. Calitatea semnalului vocal poate fi deteriorată de
schimbarea procedurilor de înregistrare sau de modificarea unor factori
lingvistici ai vorbitorilor (exemplu: vorbitorul este răcit).
• Numărul vorbitorilor (de sex masculin şi de sex feminin) să fie cât mai mare,
vorbitorii să fie de diferite vârste şi din diferite regiuni (având diferite
dialecte), iar numărul frazelor / cuvintelor / cifrelor să fie cât mai mare.
• Corpus-ul să acopere cât mai multe domenii, şi să fie cât mai diversificat din
punct de vedere al cuvintelor existe în el.

8
Conditii tehnice

• Baza de date să fie înregistrată într-o cameră izolată acustic. De exemplu


camera poate avea 5 pe 5 metri, izolată acustic cu o uşă dublă la intrare şi
ferestre duble.
• În camera acustică trebuie să existe un monitor, o tastatură, şi un mouse;
deasemeni şi un microfon şi un preamplificator. Pentru ca semnalul
înregistrat să nu fie afectat de zgomot, staţia de lucru (calculatorul)
necesara este bine sa fie situata în afara camerei acustice.
• Înregistrările trebuie realizate independent cu două microfoane (în sistem
stereo): un head-microphone şi un desk microphone. Microfonul de birou
este bine sa fie plasat la aproximativ jumătate de metru de capul
vorbitorului, la 30° în partea stângă aacestuia.
• Semnalele audio se esantioneaza de cele mai multe ori 16 kHz
• Sesiunea de înregistrare începe dupa ce vorbitorul s-a familiarizat cu
software-ul pentru înregistrare.
. 9
Baze de date cunoscute
• Pentru limba engleza: DARPA TIMIT (630 de vorbitori, 388
vorbitori de sex masculin şi 192 vorbitori de sex feminin din 8 regiuni
ale Statelor Unite (având diferite dialecte), fiecare vorbitor rostind
câte 10 fraze. Semnalele audio au fost eşantionate la 16kHz,
cuantizate cu 16 biţi), Wall Street Journal (WSOJ cu 64,000 cuvinte
alese din cele mai frecvent aparute in articollele acestui ziar
financiar)
• Pentru limba franceza: NEOLOGOS inregistrat pe reteaua de
telefonie fixa, cu 470 vorbitori de sex masculin si 530 vorbtori de sex
feminin. Datele au fost eşantionate la 8kHz şi cuantizate cu 8 biţi.
• Pentru limba germana: Verbmobil, cu 5600 cuvinte, in 12 dialecte.
Datele au fost eşantionate la 16kHz şi cuantizate cu 16 biţi.
• Pentru limba romana: Numărul de vorbitori este de 100, 50
vorbitori de sex masculin şi 50 de sex feminin, iar datele au fost
eşantionate la 20kHz, cuantizate cu 16 biţi; realizata in programul 10
Copernicus Babel
Dictionare fonetice (1)
• Elementul de bază în studiul limbii îl constituie fonemul, o unitate
lingvistică abstractă invariantă care nu este un sunet ca atare, ci
perceperea sunetului la nivel mental
• Limba română este o limbă fonetică
• În limba română există 34 de foneme: vocale, semivocale,
consoane, diftongi şi triftongi
• Monofonii sunt foneme independente de context
• Coarticularea se referă la schimbările intervenite în acustica şi
articularea unei foneme datorită unui alt sunet (precedent sau
următor) al aceleiaşi rostiri
• Coarticularea este fenomenul prin care, datorită înlănţuirii sunetelor
unul de altul, un sunet începe să fie articulat înainte ca articularea
sunetului precedent să fi luat sfârşit
• Ca efect al coarticulării apare bifonul şi trifonul
11
Dictionare fonetice (2)

• Bifonul este modelul unei foneme condiţionată de vecinul


său din dreapta/stânga pentru a surprinde efectul de
coarticulaţie
• Trifonul este modelul unei foneme condiţionată de
fonemele aflate în dreapta şi în stânga sa
• Dacă două foneme identice sunt aflate în context diferit,
atunci trifonii respectivi sunt diferiţi
• Pentru identificarea fonemei trebuie să se ţină cont de
poziţia ei în cadrul cuvântului

12
Dictionare fonetice (3)
• Pentru a putea construi dicţionarul fonetic trebuie folosite anumite notaţii
standardizate
• Pentru aceasta se foloseşte alfabetul SAMPA (Speech Assessment
Methods Phonetic Alphabet) care foloseşte caractere printabile ASCII pe 7
biţi folosind alfabetul fonetic internaţional (International Phonetic Alphabet –
IPA), dezvoltat pentru mai multe limbi, printre care şi româna
• Exemple de transcrieri fonetice
ADEVA'RATA' a d e v @ r a t @ sp
ADMINISTRAT'IA a d m i n i s t r a ts i j a sp
AERULUI a e r u l u j sp
AFECTAT a f e k t a t sp
AFECTATE a f e k t a t e sp
AFECTEAZA' a f e k t e_X a z @ sp
AJUNGE a Z u n dZ e sp

13
Problema
s(n)= e(n) * h(n)

modelul uzual de producere a vorbirii

Se considera modelul de producere a vorbirii reprezentat mai sus. Pentru cazul unei
analize cepstrale a vorbirii de calitate telefonica se cere:
•:Sa se stabileasca o valoare potrivita a duratei cadrului de analiza;
•Sa se nominalizeze parametrii excitatiei si ai traectului vocal
•Sa se codeze binar parametrii nominalizati
•Sa se stabileasca structura unui cuvant de cod pentru fiecare cadru de analiza
•Sa se determine rata de bit pentru iesirea analizorului
•Sa se calculeze factorul de compresie al analizorului
•Sa se explice cauza compresiei obtinute;
•Care este rezultatul compresiei? 14
Solutie
• Durata unui cadru trebuie sa fie mai mare decat durata celei mai scurte consoane
(plozive 15 ms.) si in acelasi timp sa cuprinda cel putin 3 perioade de ton
fundamental (cca.3x6ms) pentru a putea lua decizia vocalizat/nevocalizat. O durata
buna Tc a cadrului este de 20-30 ms, alegem 25ms.
• Parametrii excitatiei sunt:decizia vocalizat/nevocalizat si marimea perioadei
fundamentale, iar parametrii traiectului sunt cei 13 coeficienti cepstrali (eventual cu
derivatele lor de ordinul 1 si 2)
• Se va coda decizia V/N cu 1 bit, perioada fundamentala cu 5 biti, fiecare din
coeficientii cepstrali cu cate 4 biti, derivatele de ordin 1 cu cate 3 biti si derivatele de
ordinul 2 cu cate 2 biti.
• Rezulta pentru fiecare cadru un cuvant de cod cu Nbc=1+5+4x13+3x13+2x13= 123
biti
• La transportul spre o memorie, rata de bit Rbc= Nbc/Tc=123/25x10(-3)=4.92 Kb/s.
• Factorul de compresie F=Rb standard/Rbc; Rbstandard= nbst/ Tc=8/125x10(-6)
=64Kb/s; Factorul de compresie deci este 64x10(3) /4.92X10(3)=13.08
• Compresia se datoreaza faptului ca in loc ca semnalul sa fie reprezentat pe cadru cu
25x10(-3)/125x10(-6)=200 esantioane a cate 8 biti adica cu16kb, el este reprezentat
de numai 123 biti!
Rezultatul compresiei este micsorarea continutului informational al semnalului.

15
Recunoasterea up to date a vorbirii
folosind invatarea trasaturilor
• Sistemul clasic de recunoastere a vorbirii functioneaza si astazi. A debutat
in jurul anilor 60 in universitati si institutii de cercetare si a trecut insa cu
timpul, incepand din anii 90 in spatiul aplicatiilor de firma. Cu experienta
astfel dobandita, acestea sunt gata sa dezvolte si astazi aplicatii bazate pe
metode mai simple de recunoastere cu invatarea trasaturilor. Totusi acest
domeniu, care a aparut n jur de 2010, este in plina efervescenta si mai are
multe de spus, asa incat cercetarea este inca foarte productiva.
• Trebuie avut insa in vedere si faptul ca dezvoltarea acestei noi metode a
fost posibila mai ales datorita imenselor progrese in tehnica de calcul.
Viteza si capacitatea de calcul a unei statii de lucru nu se poate compara
cu aceea a unui PC de azi si desigur mult mai putin cu cea a unui PC din
jurul anilor 80. A fost deci in acele timpuri necesara reducerea volumului de
date de prelucrat si s-a ajuns la extragerea trasaturilor cu diferiti algoritmi
fixi, neoptimizati si neadaptati la date,pentru a comprima volumul acestora
in vederea adaptarii la capacitatea de calcul existenta.
16
Deep Learning (DL)
• Cercetari recente de neurologie au aratat ca in creierul mamiferelor si deci
si in cel al omului informatia se proceseaza nu comprimand datele initiale ci
trecandu le prin mai multe straturi de prelucrare pentru a obtine trasaturi cat
mai semnificative, care sa descrie datele cat mai exact, adancind (deeping),
aprofundand vederea noastra asupra lor.
• S a dezvoltat astfel o noua metoda de recunoastere a vorbirii, bazata pe
algoritmi de tip Deep Learning care foloseste intreg spectrul de putere al
vorbirii pentru antrenarea modelelor acustice, realizand astfel o procesare a
datelor mai apropiata de cea din cortexul uman.
• DL a aparut o data cu articolul: G. E. Hinton et all, A Fast Learning
Algorithm for Deep Belief Nets, in Neural Computation, vol. 18, 2006
• In momentul de fata este o metoda invatare automata (machine learning) cu
ramificatii in multiple domenii.
• Este o metoda in care invatarea este aplicata nu numai pentru
antrenarea modelelor ci si pentru cea a trasaturilor

17
Avantaje

A imbunatatit ratele de recunoastere atat pentru cuvinte cat si pentru fraze in


aplicatii de recunoastere si intelegere a vorbirii continue pentru vocabulare mari
A fost la inceput implementata cu retele neurale artificiale cu mai multe
straturi ascunse, DNN, (Deep Neural Networks): E. Dahl, D. Yu, L. Deng and
A. Acero, “Context-Dependent Pre-Trained Deep Neural Networks for Large-
Vocabulary Speech Recognition”, in IEEE Transactions on Audio Speech &
Language Processing, 2018.

18
Algoritmi de Deep Learning

• Autoencoders (AE) (Autocodoare)


• Convolutional Neural Networks (CNN) (Retele
neurale convolutionale)
• Restricted Bolzmann machines (RBM) (Masini
Bolzmann restrictionate)
• Deep Belive Nets (DBN) (Retele multistrat
directe)
• Long-short Term Memories(LSTM) (Memorii pe
timp lung si scurt)

19
Convolutiona neural networks (CNN)
Retele neurale convolutionale (1)

CNN au fost utilizate pentru prelucrari de imagini. Imaginea este inlocuita cu


spectrograma, aplicata pe stratul de intrare. Urmeaza stratul ascuns, pe care se realizeaz
convolutia cu una din benzile unui banc de filtre, rezultand hartile de convolutie.Urmeaza
pooling,subesantionare. subsampling pentru reducerea de dimensionalitate, care
furnizeaza hartile de trasaturi reduse, pe ultimul strat obtinandu se 20
vectorul de trasaturi invatate
Retele neurale convolutionale (2)

In figura de mai jos sunt reprezentate functionalitatile unei retele neurale


convolutionale cu un strat. La intrare se aplica spectrograma vorbirii sau
harta trasaturilor determinate in stratul precedent. Acestea sunt
convolvate in fiecare banda de frecvente cu filtre antrenabile fx si
summate cu bx, producand astfel harta de convolutie Cx. Dupa o
subesantionare cu 2 si o transformare neliniara de tip sigmoida se obtine
o harta redusa de trasauri Sk+1.

21
Subsampling, Subesantionare
(Pooling)
• Este procedeul prin care se reduce
dimensionalitatea.
• Exemplu de maxpooling

22
Retele neurale convolutionale (3)
O structura cu doua straturi si trei benzi de frecventa este reprezentata in
figura de mai jos. Primul strat este compus din C1 si S2, aldoilea strat din
C3 si S4. Hartile de trasaturi cu dimensiuni reduse S2 si S4 sunt asamblate
intr un singur vector de trasaturi pentru prelucrare ulterioara.

23
Retea convolutionala pentru
recunoasterea vorbirii

24
Prelucrarea vorbirii

Invatarea trasaturilor direct din


spectrul de putere al cadrelor
(ferestrelor) vorbirii,
conservand redundanta,
permite CNN sa descopere
corelatii utile ascunse in date
si deasemenea sa corecteze
variatii nedorite de frecventa,
asigurand astfel premizele
unei mai bune clasificari, cu
rate de recunoastere
imbunatatite.
25
RBM si DBN
RBM este o retea neurala statistica cu un strat vizibil v pentru date si un strat
ascuns h, interconectat cu ponderile w cu stratul vizibil. Reteaua este
antrenata sa descopere corelatii in date. Unitatile celor doua straturi nu sunt
interconectate, motiv care a dat caracteristica de “restrictionata” acestei
structuri.
Prin supraetajare de RBM uri se obtine o noua retea, DBN.

26
Transformarea RBM in DBN

27
LSTM Long-short term
memories

28
Multumesc pentru atentie

29

S-ar putea să vă placă și