Documente Academic
Documente Profesional
Documente Cultură
1. Introducere
Vorbirea, privita ca fenomen fizic, consta in modificari ale presiunii acustice aparute ca urmare
a intrarii in actiune a organelor fonatorii. Variatiile presiunii genereaza unde acustice care se propaga
intr-un mediu de comunicare (de cele mai multe ori, aer). Semnalul sonor este captat ulterior de catre
segmente ale analizatorului auditiv ale receptorului si procesat la nivelul cortexului (Greenberg et al,
2001).
Un microfon plasat in campul acustic permite o analiza a semnalului sonor. Se obtine un semnal
electric care descrie variatiile presiunii acustice ca variatii de intensitate electrica in functie de timp.
Semnalul vocal contine informatii despre continutul mesajului verbal, informatii legate de
persoana care a vorbit, despre mediul in care s-a realizat convorbirea, tipul de canal de comunicare
folosit (microfon, echipament de inregistrare, etc.) si altele (Everest, 2001).
Analiza vorbirii se poate realiza la mai multe niveluri: analiza bazata pe semnal – analiza
frecventelor semnalului sonor, analiza bazata pe modele de producere a semnalului verbal (de exemplu
modelul liniar al producerii vorbirii) si analiza bazata pe perceptia mesajului sonor (Greenberg et al,
2001).
2. Tehnici utilizate in analiza vorbirii
In Figura 4 este prezentat rezultatul unei estimari automate a valorilor frecventelor primilor 5
formanti, reprezentate prin puncte suprapuse peste spectograma de banda larga. Frecventele formantilor
constituie o reprezentare foarte compacta a sunetelor vorbirii (Boldea, 2003).
Figura 5. Spectrograma pentru evidentierea aspectelor diferite a unor foneme in functie de fenomenul
de coarticulatie (dupa Boldea, 2003).
Analiza vorbirii ce utilizeaza bancul de filtre realizat de STFT are mai multe inconveniente:
filtrele au aceeasi forma, frecventele centrale sunt spatiate la intervele egale, fenestrarea liniteaza
rezolutia analizei.
O alta tehnica de analiza a vorbirii foloseste wavelets, functii matematice ce descompun
sunetele in frecventele lor componente. Filtrele ce utilizeaza wavelets sunt utilizate pentru analiza
semnalelor nestationare atat in domeniul audio cat si video (Akansu & Smith, 1996, citat de Greenberg,
2001). Sunt utilizate in aceasta tehnica cadre ce se contracta sau se dilata pentru a pune in evidenta
detalii ale semnalului ce depind de propritatile sale temporale. Moore, 1989 (citat de Greenberg et al,
2001) considera ca un tip similar de analiza a frecventei sunetelor este utilizat de analizatorul auditiv
uman.
2.4. Tehnici bazate pe producere
Semnalul vocal nu este un semnal sonor arbitrar; el este produs de un sistem fizic bine definit
(tractul vocal) intr-o maniera inca neelucidata pe deplin.
Unul din cele mai folosite si cunoscute modele ale producerii semnalului vocal utilizate in
analiza vorbirii este modelul liniar al vorbirii (Fant, 1960, citat de Greenberg et al, 2001). Vorbirea este
rezultatul trecerii semnalului generat de o sursa sonora localizata la nivelul tractului vocal, printr-un
filtru. Acest filtru este reprezentat de variatiile geometrice ale tractului fonator ocazionate de diferitele
miscari articulatorii, cuplarea intermitenta a cavitatii nazale la cavitatea rezonatorie bucala, efectele
tesuturilor netede de la nivelul peretilor tractului vocal asupra fluxului de aer expirat, efectele frecarii si
conducerii caldurii de la nivelul peretilor tractului vocal, ale vibratiei acestuia (Greenberg et al,
2001).Sursa sonora cuprinde o componenta cvasiperiodica in raport cu vibratiile corzilor vocale,
generata deci la nivelul glotei si responsabila de producerea vocalelor, a consoanelor sonore si a
sonantelor precum si o componenta neperiodica in raport cu pozitia indepartata a corzilor vocale, in
cazul vorbirii in soapta sau a pronuntiei consoanelor surde, fricative si ocluzive. In vorbirea fluenta,
caracteristicile sursei si filtrului se modifica in timp, astfel incat apare o variatie in timp a frecventelor
sunetelor emise.
In modelul liniar al producerii vorbirii se considera ca proprietatile filtrului (de exemplu
invelisul spectral) transporta cea mai mare parte a mesajului lingvistic, in timp ce rolul sursei este de a
determina excitatii la nivelul filtrului in scopul producerii semnalului acustic audibil. Varfurile
invelisului spectral corespund varfurilor formantilor. Frecventele formantilor depind de geometria
cavitatilor fonatorii si sunt tipic mai inalte la femei si copii, si mai joase la barbati.
Analiza prin predictie liniara a fost introdusa in analiza vorbirii in anii 1970. Se estimeaza
valoarea unui esantion din semnal pe baza unei combinatii liniare a unui numar de esantioane
anterioare. Numarul de coeficienti de predictie folositi depinde de largimea de banda a semnalului
vocal analizat si de precizia dorita a modelarii. Analiza prin predictie liniara se aplica eficient pentru
portiunile sonore ale semnalului vocal. Consoanele surde si cele nazale nu pot fi bine caracterizate.
Scopul acestei analize este mai ales sa determine invelisul spectral. Cu cat marimea de ordine a
modelului de predictie liniara creste, cu atat spectrul poate fi analizat mai bine aproximat.
O alta posibilitate de estimare a invelisului spectral al semnalului vocal o reprezinta analiza
cepstrala. Daca se logaritmeaza transformata Fourier a unui semnal sonor, se obtine o transformata
Fourier inversa, care face trecerea dintr-un domeniu de frecventa intr-un alt domeniu definit prin
anagramarea unor caracteristici din domeniul frecventa (cvefrenta - frecventa, cepstrul - spectrul).
Importanta acestei analize rezida in posibilitatea folosirii cepstrului in algoritmi de decizie asupra
caracterului sonor sau nesonor al unor segmente ale semnalului vocal. In plus, valorile cepstrului de la
cvefrente joase pot fi puse in corespondenta cu componenta lent variabila a spectrului determinata de
tractul vocal (filtru), iar cele de la cvefrente superioare cu structura spectrala fina datorata excitatiei.
Analiza cepstrala poate fi deci utilizata si pentru separarea componentelor sursei de cele ale filtrului
(Greenberg et al, 2001).
2.5. Tehnici bazate pe perceptie
Aceste tehnici incearca sa prezinte semnalul vocal din perspectiva sistemului de procesare al
vorbirii si isi propune sa extraga din vorbire numai informatiile relevante pentru sistemul auditiv.
Tehnicile de analiza ce utilizeaza scala de frecventa neliniara au aparut in anii 1970, cand
Makhoul (citat de Greenberg et al, 2001) a aproximat diferite parti ale spectrului vorbirii cu modele de
predictie liniara de ordine diferite: banda de frecventa mai joasa a spectrului este aproximata cu un
model de predictie liniara de ordin inalt, in timp ce banda de frecventa mai inalta a spectrului este
aproximata cu un model de predictie liniara de ordin scazut, ceea ce face ca la frecvente inalte sa se
obtina mai putine detalii despre spectru.
Analiza cepstrala Mel este folosita in mod uzul astazi de catre sistemele de recunoasterea
automata a vorbirii. Mel este unitatea de masura a scarii melodice folosita pentru inaltimea sunetelor
(scala a fost construita dupa multe experimente ce au facut corelatia intre frecventa unui sunet si
inaltimea sa – marime perceptiva; vezi Figura 5). Cepstrul melodic este obtinut prin modificarea
analizei cepstrale, luand in considerare perceptia neliniara cu frecventa a inaltimii sunetelor.
Bibliografie:
1. Anca, M. (2005) Logopedie (a doua editie). Cluj-Napoca, Presa Universitara Clujeana.
2. Boldea, M. (2003) Contributii la recunoasterea automata a vorbirii continue in limba romana.
Teza de doctorat. Universitatea Politehnica din Timisoara, Facultatea de Automatizari si
Calculatoare.
3. Everest, F.A. (2001) Master Handbook of Acoustics, Fourth Edition, Mc. Grow Hill
4. Greenberg, S., Ainsworth, W.A., Popper, A.N., Fay, R.R. (2001) Speech Processing in the
Auditory System. First Edition, Springer.
5. Http://www.fon.hum.uva.nl/praat/
6. Preda, V. (2007) Elemente de psihopedagogie speciala, Cluj-Napoca, Eikon.