continue
• Recunoasterea vorbirii continue in sens clasic
(utilizand extragerea trasaturilor)
• Schema de recunoasteresi etapele recunoasterii
• Modele de limba
• Baze de date
• Dictionare fonetice
• Reprezentarea unitatilor fonetice prin trasaturi(parametri) constituie
o compresie a vorbirii
• Recunoasterea vorbirii prin invatarea trasaturilor (Deep Learning)
• Structuri de Deep Learning
• Aplicatii de deep Learning.
1
Schema bloc a sistemului de recunoastere si
intelegere a vorbirii continue (ASRU – Automatic
Speech Recognition and understanding
2
Parametrizarea semnalului vocal
(Extragerea trasaturilor)
Are în vedere reprezentarea unei ferestre de semnal vorbit ce
conţine un număr mare de eşantioane (256–1024) cu un număr
redus de trăsături (10-15) asamblate într-un vector; se adaugă
adesea şi derivatele lor de ordin 1 şi 2
3
Etapele recunoasterii
• Etapa 1: în această etapă se realizează extragerea trăsăturilor importante,
parametrizarea semnalului vocal, sub formă de parametri obţinuţi pentru fiecare
cadru al semnalului vocal analizat. Aceşti parametri pot fi: parametri cepstrali,
parametri LPC, parametri PLP, etc. După parametrizarea semnalului vocal, în toate
sistemele de recunoaştere a vorbirii, urmează o segmentare în clase fonetice, ca de
exemplu: monofoni, trifoni, etc.
• Etapa 2: în această etapă se antrenează sistemul pentru a obţine câte un model
pentru fiecare clasă fonetică. Pentru obţinerea acestor modele se pot utiliza metodele
statistice (de exemplu modelele Markov ascunse), metodele neuronale (de exemplu
perceptronul multistrat, reţeaua Kohonen, TDNN, RNN, etc), sau metode hibride
(MMA şi MLP). Pentru a obţine modele bine antrenate avem nevoie de o bază de
antrenare cât mai mare. Într-un sistem de recunoaştere a vorbirii procesul de
antrenare se realizează off-line, deoarece durează foarte mult.
• Etapa 3: în etapa de clasificare a formelor, forma necunoscută este comparată cu
toate modelele obţinute în etapa anterioară, calculându-se între formele necunoscute
şi modelele antrenate diferite distanţe sau probabilităţi de potrivire.
• Etapa 4: în această etapă se ia o decizie. Forma necunoscută se atribuie modelului
cu care seamănă cel mai bine, pe baza unui criteriu de probabilitate maximă sau pe
baza distaţei minime. Procesul de recunoaştere se realizează on-line
• Etapa 5: Sirul de cuvinte recunoscute este ordonat cu ajutorul unui model de limba
astfel incat sa aiba un sens (criteriu semantic ) si o utilitate (nivel pragmatic)
4
Modele de limba (Modelare lingvistica)
5
Modelele statistice (stohastice)
6
Baze de date
8
Conditii tehnice
12
Dictionare fonetice (3)
• Pentru a putea construi dicţionarul fonetic trebuie folosite anumite notaţii
standardizate
• Pentru aceasta se foloseşte alfabetul SAMPA (Speech Assessment
Methods Phonetic Alphabet) care foloseşte caractere printabile ASCII pe 7
biţi folosind alfabetul fonetic internaţional (International Phonetic Alphabet –
IPA), dezvoltat pentru mai multe limbi, printre care şi româna
• Exemple de transcrieri fonetice
ADEVA'RATA' a d e v @ r a t @ sp
ADMINISTRAT'IA a d m i n i s t r a ts i j a sp
AERULUI a e r u l u j sp
AFECTAT a f e k t a t sp
AFECTATE a f e k t a t e sp
AFECTEAZA' a f e k t e_X a z @ sp
AJUNGE a Z u n dZ e sp
13
Problema
s(n)= e(n) * h(n)
Se considera modelul de producere a vorbirii reprezentat mai sus. Pentru cazul unei
analize cepstrale a vorbirii de calitate telefonica se cere:
•:Sa se stabileasca o valoare potrivita a duratei cadrului de analiza;
•Sa se nominalizeze parametrii excitatiei si ai traectului vocal
•Sa se codeze binar parametrii nominalizati
•Sa se stabileasca structura unui cuvant de cod pentru fiecare cadru de analiza
•Sa se determine rata de bit pentru iesirea analizorului
•Sa se calculeze factorul de compresie al analizorului
•Sa se explice cauza compresiei obtinute;
•Care este rezultatul compresiei? 14
Solutie
• Durata unui cadru trebuie sa fie mai mare decat durata celei mai scurte consoane
(plozive 15 ms.) si in acelasi timp sa cuprinda cel putin 3 perioade de ton
fundamental (cca.3x6ms) pentru a putea lua decizia vocalizat/nevocalizat. O durata
buna Tc a cadrului este de 20-30 ms, alegem 25ms.
• Parametrii excitatiei sunt:decizia vocalizat/nevocalizat si marimea perioadei
fundamentale, iar parametrii traiectului sunt cei 13 coeficienti cepstrali (eventual cu
derivatele lor de ordinul 1 si 2)
• Se va coda decizia V/N cu 1 bit, perioada fundamentala cu 5 biti, fiecare din
coeficientii cepstrali cu cate 4 biti, derivatele de ordin 1 cu cate 3 biti si derivatele de
ordinul 2 cu cate 2 biti.
• Rezulta pentru fiecare cadru un cuvant de cod cu Nbc=1+5+4x13+3x13+2x13= 123
biti
• La transportul spre o memorie, rata de bit Rbc= Nbc/Tc=123/25x10(-3)=4.92 Kb/s.
• Factorul de compresie F=Rb standard/Rbc; Rbstandard= nbst/ Tc=8/125x10(-6)
=64Kb/s; Factorul de compresie deci este 64x10(3) /4.92X10(3)=13.08
• Compresia se datoreaza faptului ca in loc ca semnalul sa fie reprezentat pe cadru cu
25x10(-3)/125x10(-6)=200 esantioane a cate 8 biti adica cu16kb, el este reprezentat
de numai 123 biti!
Rezultatul compresiei este micsorarea continutului informational al semnalului.
15
Recunoasterea up to date a vorbirii
folosind invatarea trasaturilor
• Sistemul clasic de recunoastere a vorbirii functioneaza si astazi. A debutat
in jurul anilor 60 in universitati si institutii de cercetare si a trecut insa cu
timpul, incepand din anii 90 in spatiul aplicatiilor de firma. Cu experienta
astfel dobandita, acestea sunt gata sa dezvolte si astazi aplicatii bazate pe
metode mai simple de recunoastere cu invatarea trasaturilor. Totusi acest
domeniu, care a aparut n jur de 2010, este in plina efervescenta si mai are
multe de spus, asa incat cercetarea este inca foarte productiva.
• Trebuie avut insa in vedere si faptul ca dezvoltarea acestei noi metode a
fost posibila mai ales datorita imenselor progrese in tehnica de calcul.
Viteza si capacitatea de calcul a unei statii de lucru nu se poate compara
cu aceea a unui PC de azi si desigur mult mai putin cu cea a unui PC din
jurul anilor 80. A fost deci in acele timpuri necesara reducerea volumului de
date de prelucrat si s-a ajuns la extragerea trasaturilor cu diferiti algoritmi
fixi, neoptimizati si neadaptati la date,pentru a comprima volumul acestora
in vederea adaptarii la capacitatea de calcul existenta.
16
Deep Learning (DL)
• Cercetari recente de neurologie au aratat ca in creierul mamiferelor si deci
si in cel al omului informatia se proceseaza nu comprimand datele initiale ci
trecandu le prin mai multe straturi de prelucrare pentru a obtine trasaturi cat
mai semnificative, care sa descrie datele cat mai exact, adancind (deeping),
aprofundand vederea noastra asupra lor.
• S a dezvoltat astfel o noua metoda de recunoastere a vorbirii, bazata pe
algoritmi de tip Deep Learning care foloseste intreg spectrul de putere al
vorbirii pentru antrenarea modelelor acustice, realizand astfel o procesare a
datelor mai apropiata de cea din cortexul uman.
• DL a aparut o data cu articolul: G. E. Hinton et all, A Fast Learning
Algorithm for Deep Belief Nets, in Neural Computation, vol. 18, 2006
• In momentul de fata este o metoda invatare automata (machine learning) cu
ramificatii in multiple domenii.
• Este o metoda in care invatarea este aplicata nu numai pentru
antrenarea modelelor ci si pentru cea a trasaturilor
17
Avantaje
18
Algoritmi de Deep Learning
19
Convolutiona neural networks (CNN)
Retele neurale convolutionale (1)
21
Subsampling, Subesantionare
(Pooling)
• Este procedeul prin care se reduce
dimensionalitatea.
• Exemplu de maxpooling
22
Retele neurale convolutionale (3)
O structura cu doua straturi si trei benzi de frecventa este reprezentata in
figura de mai jos. Primul strat este compus din C1 si S2, aldoilea strat din
C3 si S4. Hartile de trasaturi cu dimensiuni reduse S2 si S4 sunt asamblate
intr un singur vector de trasaturi pentru prelucrare ulterioara.
23
Retea convolutionala pentru
recunoasterea vorbirii
24
Prelucrarea vorbirii
26
Transformarea RBM in DBN
27
LSTM Long-short term
memories
28
Multumesc pentru atentie
29