Sunteți pe pagina 1din 8

Diana Iordan (Ciorba)

Master Terapia limbajului si audiologie educationala


Disciplina: Neurobiologia auditiei si fonatiei
Referat:
Analiza si reprezentarea vorbirii

1. Introducere

Vorbirea, privita ca fenomen fizic, consta in modificari ale presiunii acustice aparute ca urmare
a intrarii in actiune a organelor fonatorii. Variatiile presiunii genereaza unde acustice care se propaga
intr-un mediu de comunicare (de cele mai multe ori, aer). Semnalul sonor este captat ulterior de catre
segmente ale analizatorului auditiv ale receptorului si procesat la nivelul cortexului (Greenberg et al,
2001).
Un microfon plasat in campul acustic permite o analiza a semnalului sonor. Se obtine un semnal
electric care descrie variatiile presiunii acustice ca variatii de intensitate electrica in functie de timp.
Semnalul vocal contine informatii despre continutul mesajului verbal, informatii legate de
persoana care a vorbit, despre mediul in care s-a realizat convorbirea, tipul de canal de comunicare
folosit (microfon, echipament de inregistrare, etc.) si altele (Everest, 2001).
Analiza vorbirii se poate realiza la mai multe niveluri: analiza bazata pe semnal – analiza
frecventelor semnalului sonor, analiza bazata pe modele de producere a semnalului verbal (de exemplu
modelul liniar al producerii vorbirii) si analiza bazata pe perceptia mesajului sonor (Greenberg et al,
2001).
2. Tehnici utilizate in analiza vorbirii

2.1. Achizitia de date


Primul pas in achizitia de date ale semnalului vocal este reprezentat de inregistrarea semnalului
sonor. Se utilizeaza de obicei un microfon capabil sa capteze stimuli cu frecvente de la 0 la 10kHz. Al
doilea pas este convertirea semnalului sonor analogic in semnal digital.
2.2. Analiza pe termen scurt
Semnalul verbal nu este un semnal stationar, deoarece organele fonatorii sunt intr-o permanenta
miscare in timpul vorbirii. In schimb, un segment al vorbirii realizat intr-o perioada foarte scurta de
timp poate fi considerat stationar si poate fi deci analizat dupa tehnici de procesare a semnalelor
stationare. De aceea, un enunt va fi impartit in mai multe segmente desfasurate in timp scurt. Aceasta
impartire poarta numele de cadrare. Cadrele pot fi egale sau marimea lor poate varia in timp. Uneori
anumite segmente ale semnalului vorbit poate fi partajat intre doua cadre. Pentru atenuarea efectelor
cadrelor adiacente asupra masurarii parametrilor unor segmente ale semnalului sonor, se realizeaza
operatia de ferestruire, adica multiplicarea valorilor esantioanelor respective cu o fereastra. Cea mai
cunoscuta fereastra in prelucrarea semnalului sonor este fereastra Hamming (Boldea, 2003).
Odata cu divizarea semnalului in segmente cvasistationare, poate debuta procesul de analiza
efectiva a vorbirii. Analiza pe termen scurt a semnalului verbal este prezentata schematic in Figura 1.
(Greenberg et al, 2001)
Exista, dupa cum am precizat mai sus, trei categorii de tehnici de analiza a vorbirii: bazate pe
semnal, bazate pe producerea semnalului si bazate pe perceptia semnalului verbal.

Figura 1. Analiza pe termen scurt a vorbirii (dupa Greenberg)


2.3. Tehnici bazate pe semnal
Analiza bazata pe semnal ia in considerare elementele fundamentale ale semnalului sonor
verbal, fara sa tina cont de modul in care acest semnal a fost produs si nici de modul in care el va fi
procesat de aparatul auditiv. Astfel vorbirea va fi analizata pe fragmente mici, considerate semnale
stationare. Una din metodele de baza de analiza bazata pe semnal este analiza Fourier, care
descompune semnalul in constituentii sau sinusoidali in functie de frecventa si faza. Aplicarea analizei
Fourier pe un segment scurt de vorbire duce la o reprezentare cunoscuta sub numele de Transformarea
Fourier pe termen scurt, prescurtat STFT (short-time Fourier transform). STFT este utilizata in general
ca un banc de filtre, analiza semnalului sonor realizandu-se asemanator cu cea de la nivelul
analizatorului auditiv.
In Figura 2 este reprezentata o forma de unda a semnalului vocal “este o scurta” (Boldea, 2003).
Figura 2. Reprezentarea sub forma de unda a semnalului vocal (dupa Boldea)
Se poate observa amplitudinea mare a vocalelor si amplitudinea mica a consoanelor, mai ales
“t” si “c”.
Din STFT se poate obtine o spectrograma. In spectrograma, intensitatea unei marimi este data
de o scala de gri sau de culori diferite. Spectrograma poate fi de banda larga (rezolutie redusa in
frecventa si mare in timp) si de banda ingusta (rezolutie crescuta in frecventa si redusa in timp). In
spectrograma in banda larga (interval de analiza de 5ms) cvasiperiodicitatea se manifesta prin striuri
verticale corespunzatoare variatiilor energiei semnalului analizat. Zonele de intensitate crescuta situate
la diferite frecvente pe durata diferitelor sunete poarta numele de formanti. Formantii sunt rezonante
ale anumitor cavitati ale tractului vocal prin care oscilatiile de presiune acustica se propaga spre in
exterior, pe parcursul producerii sunetelor vorbirii.

Figura 3. Spectrograme de banda larga si de banda ingusta (dupa Boldea)

In Figura 4 este prezentat rezultatul unei estimari automate a valorilor frecventelor primilor 5
formanti, reprezentate prin puncte suprapuse peste spectograma de banda larga. Frecventele formantilor
constituie o reprezentare foarte compacta a sunetelor vorbirii (Boldea, 2003).

Figura 4. Primii cinci formanti ai semnalului din Figura 3 (dupa Boldea)


In spectrograma se pot evidentia deasemenea diferitele aspecte ale acelorasi consoane si vocale
in functie de contextul de coarticulatie. In Figura 5. se observa formele diferite ale fonemelor “l” si “i”
in propozitia “Si-a luat ladite goale in juru-i” (Boldea, 2003).

Figura 5. Spectrograma pentru evidentierea aspectelor diferite a unor foneme in functie de fenomenul
de coarticulatie (dupa Boldea, 2003).
Analiza vorbirii ce utilizeaza bancul de filtre realizat de STFT are mai multe inconveniente:
filtrele au aceeasi forma, frecventele centrale sunt spatiate la intervele egale, fenestrarea liniteaza
rezolutia analizei.
O alta tehnica de analiza a vorbirii foloseste wavelets, functii matematice ce descompun
sunetele in frecventele lor componente. Filtrele ce utilizeaza wavelets sunt utilizate pentru analiza
semnalelor nestationare atat in domeniul audio cat si video (Akansu & Smith, 1996, citat de Greenberg,
2001). Sunt utilizate in aceasta tehnica cadre ce se contracta sau se dilata pentru a pune in evidenta
detalii ale semnalului ce depind de propritatile sale temporale. Moore, 1989 (citat de Greenberg et al,
2001) considera ca un tip similar de analiza a frecventei sunetelor este utilizat de analizatorul auditiv
uman.
2.4. Tehnici bazate pe producere
Semnalul vocal nu este un semnal sonor arbitrar; el este produs de un sistem fizic bine definit
(tractul vocal) intr-o maniera inca neelucidata pe deplin.
Unul din cele mai folosite si cunoscute modele ale producerii semnalului vocal utilizate in
analiza vorbirii este modelul liniar al vorbirii (Fant, 1960, citat de Greenberg et al, 2001). Vorbirea este
rezultatul trecerii semnalului generat de o sursa sonora localizata la nivelul tractului vocal, printr-un
filtru. Acest filtru este reprezentat de variatiile geometrice ale tractului fonator ocazionate de diferitele
miscari articulatorii, cuplarea intermitenta a cavitatii nazale la cavitatea rezonatorie bucala, efectele
tesuturilor netede de la nivelul peretilor tractului vocal asupra fluxului de aer expirat, efectele frecarii si
conducerii caldurii de la nivelul peretilor tractului vocal, ale vibratiei acestuia (Greenberg et al,
2001).Sursa sonora cuprinde o componenta cvasiperiodica in raport cu vibratiile corzilor vocale,
generata deci la nivelul glotei si responsabila de producerea vocalelor, a consoanelor sonore si a
sonantelor precum si o componenta neperiodica in raport cu pozitia indepartata a corzilor vocale, in
cazul vorbirii in soapta sau a pronuntiei consoanelor surde, fricative si ocluzive. In vorbirea fluenta,
caracteristicile sursei si filtrului se modifica in timp, astfel incat apare o variatie in timp a frecventelor
sunetelor emise.
In modelul liniar al producerii vorbirii se considera ca proprietatile filtrului (de exemplu
invelisul spectral) transporta cea mai mare parte a mesajului lingvistic, in timp ce rolul sursei este de a
determina excitatii la nivelul filtrului in scopul producerii semnalului acustic audibil. Varfurile
invelisului spectral corespund varfurilor formantilor. Frecventele formantilor depind de geometria
cavitatilor fonatorii si sunt tipic mai inalte la femei si copii, si mai joase la barbati.
Analiza prin predictie liniara a fost introdusa in analiza vorbirii in anii 1970. Se estimeaza
valoarea unui esantion din semnal pe baza unei combinatii liniare a unui numar de esantioane
anterioare. Numarul de coeficienti de predictie folositi depinde de largimea de banda a semnalului
vocal analizat si de precizia dorita a modelarii. Analiza prin predictie liniara se aplica eficient pentru
portiunile sonore ale semnalului vocal. Consoanele surde si cele nazale nu pot fi bine caracterizate.
Scopul acestei analize este mai ales sa determine invelisul spectral. Cu cat marimea de ordine a
modelului de predictie liniara creste, cu atat spectrul poate fi analizat mai bine aproximat.
O alta posibilitate de estimare a invelisului spectral al semnalului vocal o reprezinta analiza
cepstrala. Daca se logaritmeaza transformata Fourier a unui semnal sonor, se obtine o transformata
Fourier inversa, care face trecerea dintr-un domeniu de frecventa intr-un alt domeniu definit prin
anagramarea unor caracteristici din domeniul frecventa (cvefrenta - frecventa, cepstrul - spectrul).
Importanta acestei analize rezida in posibilitatea folosirii cepstrului in algoritmi de decizie asupra
caracterului sonor sau nesonor al unor segmente ale semnalului vocal. In plus, valorile cepstrului de la
cvefrente joase pot fi puse in corespondenta cu componenta lent variabila a spectrului determinata de
tractul vocal (filtru), iar cele de la cvefrente superioare cu structura spectrala fina datorata excitatiei.
Analiza cepstrala poate fi deci utilizata si pentru separarea componentelor sursei de cele ale filtrului
(Greenberg et al, 2001).
2.5. Tehnici bazate pe perceptie
Aceste tehnici incearca sa prezinte semnalul vocal din perspectiva sistemului de procesare al
vorbirii si isi propune sa extraga din vorbire numai informatiile relevante pentru sistemul auditiv.
Tehnicile de analiza ce utilizeaza scala de frecventa neliniara au aparut in anii 1970, cand
Makhoul (citat de Greenberg et al, 2001) a aproximat diferite parti ale spectrului vorbirii cu modele de
predictie liniara de ordine diferite: banda de frecventa mai joasa a spectrului este aproximata cu un
model de predictie liniara de ordin inalt, in timp ce banda de frecventa mai inalta a spectrului este
aproximata cu un model de predictie liniara de ordin scazut, ceea ce face ca la frecvente inalte sa se
obtina mai putine detalii despre spectru.
Analiza cepstrala Mel este folosita in mod uzul astazi de catre sistemele de recunoasterea
automata a vorbirii. Mel este unitatea de masura a scarii melodice folosita pentru inaltimea sunetelor
(scala a fost construita dupa multe experimente ce au facut corelatia intre frecventa unui sunet si
inaltimea sa – marime perceptiva; vezi Figura 5). Cepstrul melodic este obtinut prin modificarea
analizei cepstrale, luand in considerare perceptia neliniara cu frecventa a inaltimii sunetelor.

Figura 5. Corespondenta dintre inaltime si frecventa (dupa Boldea)


Integrarea in analiza cepstrala a fenomenului perceptiei neliniare cu frecventa a inaltimii, se
face estimand un spectru melodic dupa transformarea Fourier directa prin sumarea ponderata a
componentelor spectrale din benzi de frecventa corespunzatoare unui anumit numar de filtre, fiind
astfel atenuate efectele structurii spectrale fine (Boldea, 2003).
Un alt tip de tehnici propuse pentru analiza vorbirii bazata pe perceptie iau in considerare
proprietatile dinamice ale perceptiei auditive, ca de exemplu rezolutia temporala, efectul de mascare,
adaptarea temporala, si altele.
Reprezentarile auditive complexe bazate pe descrierea mecanismelor fiziologice ale perceptiei
auditive umane au dus la construirea unor sisteme performante de recunoastere automata a vorbirii.
Macarea temporala a fost folosita pentru cresterea eficacitatii codarii semnalelor muzicale si vorbite.
Greenberg si Kingsbury (1997), (citati de Greenberg et al, 2001), au dezvoltat un instrument de
vizualizarea a vorbirii, reprezentand vorbirea in termeni de frecvente modulate dominant (in jur de 2-
8Hz). Spectrograma lor modulata utilizeaza o inalta rezolutie a frecventei modulate si o rezolutie
temorala redusa.

3. Utilitatea analizei si reprezentarii vorbirii in psihopedagogia speciala

Progresele realizate in analiza si reprezentarea vorbirii au permis conceperea, adaptarea si


utilizarea unor programe computerizate de vizualizare a vorbirii, care ofera persoanelor cu deficienta de
auz un feedback, care sa le permita controlul asupra unor parametrii perturbati ai limbajului lor oral.
Subiectii cu surditate prezinta deseori o voce monotona, in falset, ragusita, nazala sau inspirata. In
cursul vorbirii apar deseori “caderi”, ce denota dificultati in realizarea controlului tensiunilor corzilor
vocale si a presiunii subglotice (Ivimey, 1995, citat de Preda, 2007). Deficientii de auz prezinta
deasemenea o frecventa fundamentala mai ridicata decat la normoauzitori, ca urmare a unui slab
control laringian si a tensiunii corzilor vocale, precum si a nivelului ridicat de stres asociat cu efortul
producerii vorbirii, care genereaza o gestiune incorecta a curentullui de aer (Giusti, 2000, citata de
Preda, 2007). Pentru a avea succes in domeniul recuperarii si reabilitarii limbajului verbal la copiii cu
deficienta de auz programele de vizualizarea vorbirii trebuie sa indeplineasca criterii esentiale:
patternul vizual trebuie sa fie simplu si clar pentru ca elevul hipoacuzic sa-l inteleaga si sa-l valorifice
in antrenamentele verbale, patternul vizual trebuie prezentat in timp real si programul trebuie sa fie
usor de transportat si de folosit acasa.
Analizand limbajul copiilor cu deficiente de auz de grade diferite, precum a copiilor sau
adultilor cu implant cohlear, au fost puse in evidenta in mod obiectiv particularitatile de articulare, de
voce, de ritm si fluenta, de intonatie. In ceea ce priveste tulburarile de articulare ale vocalelor, acestea
au fost puse in evidenta mai ales in legarea lor in silabe si cuvinte, si mai putin frecvent in pronuntia
izolata. Cauza principala este lipsa de coordonare intre planul articulator si fonator si necesita seturi
specifice de exercitii de corectare, adecvate pronuntiei fircarei vocale (Anca, 2005).
Pornind de la ipoteza ca vizualizarea vorbirii permite o evaluare obiectiva a pronuntiei
deficientilor de auz, spectrogramele pot fi utile in cadrul programelor personalizate de antrenament
auditiv-verbal, de corectare a pronuntiei prin raportarea pronuntiei defectuoase la cea standard, cat si
prin comparatii succesive ale pronuntiei aflate in diverse stadii de corectare (Anca, 2005).

4. Exemplu de program pentru analiza si reprezentarea vorbirii

Paul Boersma si David Weenink, profesori la departamentul de Fonetica a Universitatii din


Amsterdam au conceput un program numit Praat (varianta actuala este 5.1.23), cu ajutorul caruia se pot
realiza analiza, sinteza si manipularea vorbirii. Programul se poate descarca gratuit de pe site-ul
Laboratorului de Fonetica al Universitatii olandeze.

Bibliografie:
1. Anca, M. (2005) Logopedie (a doua editie). Cluj-Napoca, Presa Universitara Clujeana.
2. Boldea, M. (2003) Contributii la recunoasterea automata a vorbirii continue in limba romana.
Teza de doctorat. Universitatea Politehnica din Timisoara, Facultatea de Automatizari si
Calculatoare.
3. Everest, F.A. (2001) Master Handbook of Acoustics, Fourth Edition, Mc. Grow Hill
4. Greenberg, S., Ainsworth, W.A., Popper, A.N., Fay, R.R. (2001) Speech Processing in the
Auditory System. First Edition, Springer.
5. Http://www.fon.hum.uva.nl/praat/
6. Preda, V. (2007) Elemente de psihopedagogie speciala, Cluj-Napoca, Eikon.

S-ar putea să vă placă și