Sunteți pe pagina 1din 10

Amprenta vocala.

Algoritmi de analiza de voce

Proiect realizat de:


Pascal Bogdan Andrei
Grupa:313AC
Facultatea de Automatica si Calculatoare
1) Introducere
Recunoasterea semnalului vocal reprezinta un domeniu de cercetare de
mare interes, avand implicatii multiple in diverse activitati. Acest lucru este justificat
si de faptul ca o mare parte din comunicarea intre persoane are loc prin
intermediul limbajului vorbit. Recunoasterea vorbirii este strans corelata cu
disponibilitatile robotilor, a sistemelor expert, a calculatoarelor de a vorbi si a
vedea.
In ceea ce priveste evolutia tehnologiei contemporane, se pune accentul
din ce in ce mai mult pe functiunile pe care trebuie sa le indeplineasca produsele
si sistemele tehnice. Structurile prin care se realizeaza functia unui produs sa aiba
cel putin un suport material (ele pot avea si un suport informational), cu conditia ca
aceste structuri sa fie: economice, compacte si fiabile
Functiunile vocale naturale pot fi clasificate in trei tipuri:
auditive (intrare vocala procesare mentala)
de vorbire (procesare mentala iesire vocala)
complete (intrare vocala procesare mentala iesire
vocala)
Aceasta clasificare serveste ca punct de plecare si pentru
functiunile vocale artificiale. Trebuie subliniat faptul ca se pune accent
pe functiile vocale in cadrul tehnologiei vorbirii, fara a lua in
consideratie si alte tipuri de manifestari vocale, spre exemplu cele
muzicale.
Amprenta de voce sau timbrul vocii se bazeaza pe o
spectograma pentru a verifica identitatea unei persoane: in prima faza
este inregistrata vocea,pentru o anumita faza,rezultand o
spectograma,care masoara inaltimea vocii si timpul necesar pentru a
vorbii,care apoi poate fi folosita ca etalon pentru recunoasterea vocii,pe
principiul ca fiecare voce creeaza o spectograma unica.Sistmele
moderne de azi pot separa vocea cuiva de zgomotul de fundal,astfel
incat identificarea vocii este posibila intr-un mediu aglomerat. Si chiar
daca vorbitorul este bolnav,ragusit sau foarte obosit,iar vocea sa suna
diferit,sistemele de identificare a vocii fac verificarea fara gres,pe baza
spectogramei stocata in baza de date,cu ajutorul unui software specific
de recunoastere.

2)Tehnici de analiza de voce.Analiza documentara.


Retele neurale
Retelele neurale au aparut ca o abordare atractiva de modelare
acustica in ASR la sfarsitul anilor 1980. De atunci,retelele neurale au fost
utilizate in multe aspecte ale recunoasterii vocale, cum ar fi clasificarea
fenomenelor,recunoasterea izolata a cuvintelor si adaptarea vorbitorilor.
Spre deosebire de HMM, retelele neuronale nu fac ipoteze cu
privire la proprietatile statistice caracteristice si au mai multe calitati care le
fac modele de recunoastere atractive pentru recunoasterea vorbirii. Atunci
cand se utilizeaza pentru a estima probabilitatile unui segment de functii de
vorbire, retelele neuronale permit formarea discriminatorie intr-o maniera
naturala si eficienta. Cateva ipoteze privind statisticile caracteristicilor de
intrare se fac cu retelele neuronale. Cu toate acestea, in ciuda eficacitatii lor in
clasificarea unitatilor cu timp scurt cum ar fi telefoanele individuale si
cuvintele izolate, retelele neuronale sunt rareori reusite pentru sarcini de
recunoastere continua, in mare parte datorita lipsei lor de a modela
dependentele temporale.

Cu toate acestea, recent s-au folosit retelele neuronale recurente


LSTM si retelele neuronale de timp (TDNN) care s-au dovedit a fi capabile sa
identifice dependentele temporale latente si utilizarea acestei informatii pentru
a efectua sarcina de recunoastere a vorbirii.
Datorita incapacitatii retelelor neuronale feedforward de a modela
dependentele temporale, o abordare alternativa este utilizarea retelelor
neuronale ca o pre-procesare, de ex:transformarea caracteristicilor, reducerea
dimensionalitatii, pentru recunoasterea bazata pe HMM.

Modelele ascunse ale lui Markov


Sistemele moderne de recunoastere a vorbirii generale se bazeaza
pe modelele ascunse ale lui Markov. Acestea sunt modele statistice care
transmit o secventa de simboluri sau cantitati. HMM-urile sunt utilizate in
recunoasterea vorbirii, deoarece un semnal de vorbire poate fi vazut ca un
semnal stationar in forma de piesa sau un semnal stationar de scurta durata.
Intr-o perioada scurta de timp (de exemplu, 10 milisecunde), vorbirea poate fi
aproximata ca un proces stationar. Vorbirea poate fi considerata ca un model
Markov pentru multe scopuri stocastice.
Un alt motiv pentru care HMM-urile sunt populare se datoreaza
faptului ca pot fi instruite in mod automat si sunt usor de utilizat. In
recunoasterea vorbirii, modelul ascuns Markov va scoate o secventa de
vectori n-dimensionali reali (cu n fiind un numar intreg mic, cum ar fi 10),
iesind unul din acestea la fiecare 10 milisecunde. Vectorii vor consta din
coeficienti cepstrali, care se obtin prin preluarea unei transformari Fourier a
unei ferestre scurte de timp de vorbire si prin decodarea spectrului utilizand o
transformare cosinus, luand apoi primii (cei mai semnificativi) coeficienti.
Modelul ascuns Markov va avea tendinta sa aiba in fiecare stat o distributie
statistica care este un amestec de Gaussieni cu covarianta diagonala, ceea ce
va da o probabilitate pentru fiecare vector observat. Fiecare cuvant, sau
(pentru sisteme de recunoastere vocala mai generale), fiecare fonem, va avea
o distributie de iesire diferita; un model Markov ascuns pentru o succesiune
de cuvinte sau foneme se face prin concatenarea modelelor Markov ascunse
individuale instruite pentru cuvintele si fonemele separate.

Deformarea dinamica a timpului

Deformarea dinamica a timpului este o abordare care a fost folosita


din punct de vedere istoric pentru recunoasterea vorbirii, insa a fost in mare
masura deplasata de abordarea bazata pe HMM mai reusita.
Deformarea dinamica a timpului este un algoritm pentru masurarea
asemanarii dintre doua secvente care pot varia in timp sau viteza. De
exemplu, ar putea fi detectate similitudini in modelele de mers pe jos, chiar
daca intr-un singur videoclip persoana mergea incet, iar daca intr-un altul
mergea mai repede sau chiar daca au existat acceleratii si deceleratii in cursul
unei singure observatii. DDT a fost aplicat pentru video, audio si grafica -
intr-adevar, orice date care pot fi transformate intr-o reprezentare liniara pot fi
analizate cu DDT.
O aplicatie bine cunoscuta a fost recunoasterea automata a vorbirii,
pentru a face fata diferitelor viteze de vorbire. In general, este o metoda care
permite unui computer sa gaseasca o potrivire optima intre doua secvente date
(de exemplu, serii de timp) cu anumite restrictii. Adica, secventele sunt
"deformate" neliniar pentru a se potrivi reciproc. Aceasta metoda de aliniere a
secventelor este adesea folosita in contextul modelelor Markov ascunse.

End-to-end Recunoasterea automata a vocii


Incepand cu anul 2014, a existat mult interes in cercetarea end-to end
ASR. Modele traditionale bazate pe fonetica (adica toate modelele bazate pe
HMM) necesita componente separate si formare pentru modelul de pronuntie,
acustic si lingvistic. Modelele end-to-end invata in comun toate componentele
dispozitivului de recunoastere a vorbirii. Acest lucru este valabil deoarece
simplifica procesul de instruire si procesul de implementare. De exemplu, un
model de limbaj n-gram este necesar pentru toate sistemele bazate pe HMM,
iar un tipic tipic de limbaj n-gram necesita adesea mai multi gigaocteti in
memorie, facandu-i imposibil de implementat pe dispozitive mobile. In
consecinta, sistemele ASR comerciale moderne de la Google si Apple
(incepand din 2017) sunt implementate in cloud si necesita o conexiune la
retea, spre deosebire de dispozitiv local.
Prima incercare a ASR de la capat la cap a fost cu sistemele bazate pe
Clasificarea temporala Connection (CTC) introduse de Alex Graves de la
Google DeepMind si Navdeep Jaitly de la Universitatea din Toronto in 2014.
Modelul a constat din retele neuronale recurente si un strat CTC. In comun,
modelul RNN-CTC invata propunerea si modelul acustic impreuna, cu toate
acestea, este incapabil sa invete limba datorita ipotezelor conditionate de
independenta similare cu cele ale unui HMM. In consecinta, modelele CTC
pot invata in mod direct sa actioneze acustica discursului pe caractere
englezesti, dar modelele fac multe greseli comune de scriere si trebuie sa se
bazeze pe un model de limba separat pentru a curata transcrierile. Ulterior,
Baidu sa extins asupra lucrarilor cu seturi de date extrem de mari si a
demonstrat un anumit succes comercial in limba chineza Mandarin si engleza.
O abordare alternativa a modelelor bazate pe CTC sunt modelele
bazate pe atentie. Modelele ASR bazate pe atentie au fost introduse simultan
de Chan et al. De la Universitatea Carnegie Mellon si Google Brain si
Bahdanaua si colab. De la Universitatea din Montreal in 2016. Modelul numit
"Listen, Attend and Spell" (LAS), literalmente "asculta" semnalul acustic,
acorda "atentie" diferitelor parti ale semnalului si "vrajeste" transcrierea unui
caracter la un moment dat. Spre deosebire de modelele bazate pe CTC,
modelele bazate pe atentie nu au ipoteze de independenta conditionala si pot
invata direct toate componentele unui recunoastere a vorbirii, incluzand
modelul de pronuntie, acustica si limba. Acest lucru inseamna ca, in timpul
desfasurarii, nu este nevoie sa efectuati un model lingvistic, ceea ce il face
foarte practic pentru implementarea pe aplicatii cu memorie limitata. Pana la
sfarsitul anului 2016, modelele bazate pe atentie au inregistrat un succes
considerabil, inclusiv depasirea performantelor modelelor CTC (cu sau fara
un model lingvistic extern).

3) Recunoasterea vocala prin transformata Fourier

Transformarile Fourier discrete sunt folosite an procesarea semnalelor


digitale pentru a analiza frecventele continute intr-o proba a unui semnal. In
recunoasterea vorbirii, aceste esantioane sunt de sunete de vorbire. Iesirea
transformarii este similara cu rezultatul unui spectrograf; Acest lucru face
posibila identificarea caracteristicilor fonetice si determinarea secventelor de
foneme in semnalul original.
O transformare discreta Fourier ia o intrare discreta de n numere
complexe, care corespund punctelor distantate la o anumita functie continua si
emite n numere complexe, fiecare descriind o functie sinus a unei anumite
frecvente.
Spectrul Fourier discret da caracteristicile de frecventa specifice si
individuale pentru vocile fiecarui vorbitor. Frecventa de esantionare a fost
setata la 16 [kHz]. Spectrele Fourier au fost calculate pentru unsprezece
nivele de rezolutie.

Fiecare sir de spectru DWFT este un spectru Fourier de o rezolutie la


nivel. Decompozitia se aplica semnalelor reale, prin urmare, semnalele
descompuse sunt, de asemenea, reale. Prin urmare, spectrele lor Fourier sunt
simetrice fata de centrul spectrului. Este clar ca pentru nivelurile de rezolutie
care contin frecvente inalte, spectrele lor Fourier au o putere spectrala mai
mare pentru frecventele mai mari.
Procedura de recunoastere a vorbitorilor se bazeaza pe o comparatie a
spectrelor persoanelor care urmeaza sa fie identificate.

4) Recunoasterea vocala prin diagrama spectrala

Modelarea spectrala implica doua operatii de baza: digitizarea, adica


conversia semnalului analogic de vorbire in unde de presiune sonora la
semnal digital, si filtrarea digitala, adica accentuarea componentelor de
frecventa importante an semnal. Scopul principal al procesului de digitizare
este de a produce o reprezentare de date a esantionului de semnal de vorbire.
Raportul semnal-zgomot ridicat (SNR) este posibil odata ce conversia
semnalului este finalizata, ultimul pas al postarii digitale,filtrarea,fiind cel mai
adesea executata folosind un raspuns impuls finit
Avantajele filtrului preemphasis
1. Sectiunile semnalului vocal exprimate in mod natural au o panta
spectrala negativa (atenuarea a aproximativ 20DB pe deceniu datorita
fiziologiei sistemului de productie a vorbirii). Filtrul preemphasis serveste
pentru a compensa aceasta panta naturala inainte de analiza spectrala,
imbunatatind astfel eficienta analizei .
2. Audierea este mai sensibila deasupra regiunii 1-kHz a spectrului.
Filtrul preemphasis amplifica acest lucru in zona spectrului. Acest lucru ajuta
algoritmul de analiza spectrala in modelarea aspectelor ale spectrului de
vorbire.
In recunoasterea vorbirii independente a vorbitorilor, se acorda o
prima extragere a elementelor care sunt intr-o oarecare masura invariabila la
schimbarile in voce a vorbitorilor. Deci, extractia fetrei implica analiza
semnalului de vorbire. In general, caracteristica tehnicilor de extractie sunt
clasificate ca analiza temporala si tehnica de analiza spectrala. In analiza
temporala forma de unda de vorbire insasi este utilizata pentru analiza. In
analiza spectrala, reprezentarea spectrala a semnalului de vorbire este folosita
pentru analiza.
Operatiile de baza ale sistemului de recunoastere a vorbirii au fost
discutate pe scurt.
Tehnicile de analiza pentru extragerea caracteristicilor au fost studiate
In detaliu si au fost trase concluzii:
1. Tehnicile de analiza temporala implica mai putine calcule,
usurinta in implementare. Dar ele sunt limitate la determinarea parametrilor
de vorbire simpli ca puterea, energia si periodicitatea vorbirii. Pentru gasirea
tractului vocal,parametrii necesita tehnici de analiza spectrala.
2. Banca critica de banda de filtru descompune semnalul de
vorbire in set discrete de esantioane spectrale care contin informatii, care este
similara cu informatia prezentata la niveluri superioare de procesare in
sistemul auditiv.
3. Analiza Cepstral separa semnalul de vorbire in componenta
reprezentand sursa de excitatie si o componenta reprezentand raspunsul
impulsului tractului vocal. Ofera astfel informatii despre tractul vocal si pe
teren
,dar este computational mai intensa.

5) Studiu de caz:Utilizarea Transformatei Fourier


in recunoasterea de voce
Au fost inregistrate voci ale fiecaruia dintre cele 14 candidati. Sa
atribuim numarul de afirmatii prin spectrele WFT obtinute in modul descris
mai sus sunt usor de comparat.
Cu caracteristicile tuturor vorbitorilor colectati intr-o baza de date, o
voce inregistrata pentru un necunoscut, persoana este prelucrata pentru a
obtine spectrele ei, v pentru M = 1,. . . , M, unde v este un index al unui
vorbitor care este verificat. La introducerea sistemului avem doua declaratii
care vor fi comparate. Lungimea celor doua instructiuni este aceeasi si in
experimentele noastre au fost stabilite la 10 s ceea ce este egal cu N = 160
000 de probe.
Pentru examinarea metodei prezentate au fost utilizate doua baze de
date. Prima a constat in media spectrelor DWFT si al doilea pe esantioane
DWFT constatate. Aceste baze de date s-au bazat pe propozitii diferite.
Dimensiunea matricei depinde de a numarul difuzoarelor comparate.
In experimentul nostru au fost folosite 14 vorbitori diferiti in dimensiunea
matricei de 14 14 = 196 elemente.
Matricea nu este simetrica deoarece coloanele reprezinta spectrele
medii, iar randurile reprezinta spectrul unei singure cuvinte. Cu cat este mai
mic coeficientul de similitudine, cu atat este mai similar esantionul DWFT la
spectrele medii. Este clar ca an majoritatea cazurilor, elementul de pe
diagonala are cea mai mica valoare in rand. Calitatea recunoasterii este bine
caracterizata de o pozitie medie a difuzorului adecvat p. In experimentele
noastre p = 1,3 pentru 14 persoane din baza de date.
Transformarea aplicata la vorbire nu trebuie doar sa extraga informatii
de frecventa de la un semnal,dar ar trebui sa pastreze si proprietatile
individuale ale fiecarui vorbitor. Combinatia dintre wavelet si transformarile
Fourier pe care le-am folosit, capteaza toate aceleasi frecvente in aceeasi
regiune, care faciliteaza localizarea acestora. Mai mult, o compozitie a acestor
transformari face posibila detectarea proprietatilor specifice ale semnalului
vocal. Aceste proprietati au caracteristici importante pentru un sistem de
recunoastere a difuzoarelor.

6) Concluzii

Recunoasterea vorbelor are un mare potential de a deveni un


important factor de interactiune intre om si masina in viitorul apropiat.
A fost propus un sistem de recunoastere a vorbirii independent de
vorbitor,care combina avantajele retelelor neuronale artificiale si Modelul
ascuns al lui Markov. Parametrii retelelor neuronale artificiale si ale
Modelului lui Markov se pot influenta reciproc. Incurajati de rezultatele
experimentului descris mai sus, se poate afirma ca globalizarea si optimizarea
unui model hibrid artificial neuronal - Model ascuns Markov ar oferi unele
beneficii semnificative de performanta. Am vazut cum un astfel de sistem
hibrid ar putea integra mai multe retele neuronale artificiale, care pot fi
recurente.Reteaua neuronala recurenta recunoaste 98% din foneme corect,
urmat de Modelul lui Markov care recunoaste cuvintele la o mai buna precizie
pentru corpul de vorbire in limba engleza.
Rezultatele arata un succes destul de bun in recunoasterea unui discurs
continuu de la diferiti vorbitori, pentru un vocabular mare.
Diferite module au fost analizate in domeniile lor respective si au fost
verificate cu succes pentru diferite fisiere de intrare a vorbirii.
7) Bibliografie

1. https://www.ee.iitb.ac.in/~esgroup/es_mtech03_sem/sem03_paper_03307003.
pdf

2. http://www.dsp.agh.edu.pl/_media/pl:wavelet-
fourier_analysis_for_speaker_recognition_final.pdf

3. http://shodhganga.inflibnet.ac.in/bitstream/10603/13796/10/10_chapter
%205.pdf

4. "Speaker Independent Connected Speech Recognition- Fifth Generation


Computer Corporation". Fifthgen.com. Retrieved 15 June 2013.

5. "British English definition of voice recognition". Macmillan Publishers


Limited. Retrieved 21 February 2012.

6. "voice recognition, definition of". WebFinance, Inc. Retrieved 21


February 2012.

7. "The Mailbag LG #114". Linuxgazette.net. Retrieved 15 June 2013.

8. Reynolds, Douglas; Rose, Richard (January 1995). "Robust text-independent


speaker identification using Gaussian mixture speaker models" (PDF). .
Retrieved 21 February 2012

9. "Speaker Identification (WhisperID)". Microsoft Research. Microsoft.


Retrieved 21 February 2014
10. Benesty, Jacob; Sondhi, M. M.; Huang, Yiteng (2008). Springer Handbook of
Speech Processing. Springer Science & Business Media.

S-ar putea să vă placă și