Sunteți pe pagina 1din 19

Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr.

1
__________________________________________________________________________________________
1






LUCRAREA 1


I NTRODUCERE N TEHNOLOGIA VORBI RII
PRELUCRAREA SEMNALULUI VOCAL N TIMP I N FRECVEN

1. I ntroducere
Acest laborator i propune familiarizarea cu problematica abordat n domeniul
tehnologiei vorbirii i al recunoaterii vorbitorului, evideniind anumite probleme generale,
premergtoare oricrui demers tehnic n acest domeniu.
Scopul acestei lucrri este evidenierea unor caracteristici ale semnalului vocal
folosind metode de prelucrare n timp i n frecven. Metodele, pentru care exist i un suport
teoretic, sunt cele folosite n teoria prelucrrii semnalelor numerice. Lucrarea este gndit
astfel nct studentul s poat lucra individual urmrind nite pai simpli descrii n Capitolul
3, Desfurarea lucrrii. Prin ntrebri i cerine specific studentul va reui s simt
efectul variaiei unor parametri n metodele de prelucrare a semnalului vocal.
Pentru a asigura o bun nelegere a acestor probleme, n anexa acestui laborator se va
realiza o succint prezentare a ceea ce nseamn sintagma semnal vocal, la nivelul mai
multor caracteristici:
unitile relevante de semnal vocal;
parametrii primari ai semnalului vocal, ce pot fi extrai direct din acesta;
mecanismul producerii semnalului vocal, de ctre oameni;
mecanismul perceperii semnalului vocal.




Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
2

2. Breviar teoretic
Prelucrarea numeric a semnalului vocal - generaliti
2.1. Punerea problemei
Ideea fundamental din spatele analizei de semnal vocal cu ajutorul calculatorului
este descompunerea semnalului vocal sub forma unei surse de excitaie trecute printr-un filtru
cu coeficieni liniar variabili n timp. Coeficienii acestui filtru pot fi dedui plecnd de la
modele ale producerii vorbirii bazate pe teoriile acusticii, n care sursa de excitaie este
reprezentat de deplasarea aerului n contact cu coardele vocale, iar filtrul reprezint
rezonanele tractului vocal; aceste rezonane sunt variabile n timp.
Pentru a estima coeficienii filtrului amintit mai sus exist metode inspirate din modele
ale producerii vorbirii (precum codarea liniar predictiv sau analiza cepstral), sau din modele
ale perceperii vorbirii (precum analiza cepstral pe scale logaritmice de frecven ). O dat ce
filtrul a fost estimat, semnalul de excitaie devine accesibil abordrilor cantitative trecnd
semnalul vocal printr-un filtru avnd o funcie de transfer invers n raport cu filtrul estimat.
Una dintre cele mai dificile provocri ale analizei semnalului vocal este reprezentat de
separarea ntre sursa de excitaie i filtrul ce modeleaz tractul vocal.
Cercetrile din domeniul psihologiei perceptuale au artat c modul n care subiecii
umani clasific fonemele este dependent n foarte mare msur de caracteristica de transfer a
filtrului ce modeleaz tractul vocal.
Prin urmare, n aceast lucrare ne propunem evidenierea modalitilor de analiz n
frecven a semnalului vocal (bazate pe transformata Fourier).

2.2 Analiza Fourier in termen scurt
Pentru a putea aborda un semnal prin prisma metodelor analizei Fourier este necesar
ca acesta s fie periodic (n acest caz, seriile Fourier se pot utiliza) sau cel puin determinist
(caz n care se poate utiliza transformarea Fourier). ns, ca orice semnal care transport
informaie, semnalul vocal nu este nici periodic, nici determinist; acest semnal este de fapt
aleator. n plus, semnalul de vorbire nu este nici mcar staionar, adic media pe ansamblu a
unor realizri particulare nu coincide cu media n timp calculat pentru o realizare particular
oarecare. Prin urmare, analiza Fourier nu poate fi aplicat direct asupra acestui tip de semnal.
Totui, o dat cu primele ncercri de studiu cantitativ al semnalului vocal, prin
intermediul spectrogramelor, s-a constatat c semnalul vocal este staionar pe termen scurt,
adic, n locul analizei semnalului pe toat durata sa de existen, se decupeaz ferestre de
semnal, pe care se aplic prelucrrile aferente analizei Fourier. De la aceast constatare au
plecat toate metodele de analiz cantitativ a semnalului vocal; aceast idee este valorificat
inclusiv n implementrile actuale de sisteme ce prelucreaz i utilizeaz semnalul vocal.
ntr-o exprimare cantitativ a acestor idei, fie x[n] un semnal vocal, iar x
m
[n], semnalul
pe termen scurt, corespunztor ferestrei de analiz de indice m. Prin urmare, semnalul vocal
pe termen scurt se poate exprima astfel:
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
3

] [ ] [ ] [ n w n x n x
m m
=
(1)
Funcia w
m
[n] reprezint funcia fereastr, care este nul peste tot, cu excepia unei
regiuni (temporale) nguste. Dei funcia fereastr poate avea diferite valori pentru diferite
cadre (deci pentru diveri indici m), o alegere raspndit este aceea de a pstra fereastra
constant pentru toate cadrele:

<
=
rest n
N N m n dac
n w
m
0
2 / 1
] [ , (2)
N fiind lungimea unei ferestre de analiz. n practic, N este numrul de eantioane care
corespunde unei ferestre de analiz de ordinul a 20 sau 30 ms.
Plecnd de la definiiile de mai sus, se poate defini transformata Fourier n timp scurt
pentru fereastra de analiz de indice ma semnalului vocal x[n]:

+ =
=

+ =
=

= =
n
n
n j
m m
n
n
n j
m
j
m
e n x n w e n x e X

] [ ] [ ] [ ) (
(3)
cu toate proprietile transformatei Fourier cunoscute din teoria semnalelor (relaia ntre
reprezentarea temporal i cea spectral a unui semnal, etc).
nainte de a continua discuia, amintim c semnalul vocal poate fi clasificat n dou
mari categorii:
semnal sonor, corespunztor sunetelor vocalice; acesta are un pronunat caracter
periodic;
semnal nesonor, corespunztor sunetelor consonantice; acesta are un caracter
aperiodic.
Considernd c semnalul x[n] corespunde unei poriuni de vorbire sonor, putem
presupune c el este periodic la nivelul unei ferestre de analiz, deci pentru un mfixat. n
reprezentarea spectrului unui astfel de semnal se observ o serie de vrfuri. Pentru a putea
interpreta prezena acestor vrfuri, presupunem c proprietile ferestrei de semnal x
m
[n] se
menin i n afara intervalului pe care fereastra w
m
[n] este nenul, deci c semnalul vocal este
periodic de perioad M, unde M reprezint perioada fundamental (mrimea invers
frecvenei fundamentale) pentru x[n]. n acest caz, se tie din teoria semnalelor c spectrul su
este reprezentat de o sum de impulsuri Dirac:

+
=
=
k
m
j
m
N k k X e X ) / 2 ( ] [ ) (


(4)
Dar transformata Fourier a semnalului fereastr w[n] este:

+
=

=
n
n j j
e n w e W

] [ ) ( ,
(5)
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
4

astfel nct transformata lui w
m
[n] este W(e
j
)e
-jmN
. Prin urmare, cu ajutorul proprietii
convoluiei, deducem c, pentru un indice mal ferestrei fixat, transformata lui w
m
[ n] x[n]
este dat de convoluia n frecven:

+
=

=
k
m N k j N k j
m
j
m
e e W k X e X
) / 2 ( ) / 2 (
) ( ] [ ) (


(6)
ceea ce reprezint o sum ponderat de W(e
j
), deplasate pe fiecare armonic, cu o fereastr
dreptunghiular. Spectrul n timp scurt al unui semnal periodic prezint vrfuri (egal spaiate
la 2M) care reprezint de fapt armonicile semnalului. Estimnd X
m
[k] din spectrul n timp
scurt X
m
(e
j
), se poate constata importana alegerii ferestrei de ponderare w[n].
n practic, se utilizeaz fie ferestre dreptunghiulare (de lungime N =M), fie ferestre
Hamming (de lungime N =2M). Prin urmare, dac semnalul vocal nu este suficient de
staionar pe durata 2M, unde periodicitatea nu mai este asigurat, spectrul obinut la nivelul
unei ferestre reprezint de fapt o mediere spectral, n locul mai multor spectre distincte.
Rezult c la prima vedere o fereastr dreptunghiular ar fi de preferat. Pe de alt parte ns
rspunsul n frecven al ferestrei dreptunghiulare, fiind un sinus atenuat (sinc), nu este nul n
afara lobului central; de fapt, al doilea lob al rspunsului n frecven al unei ferestre
dreptunghiulare este cu doar aproximativ 17 dB sub lobul central. Ca urmare, armonica de
ordin k a lui X
m
(e
j
) nu conine doar X
m
[k], ci i o sum ponderat de (X
m
[l])
lk
, conducnd
astfel la apariia alierii spectrale. n ceea ce privete fereastra Hamming, practica arat c al
doilea lob al rspunsului ei n frecven este situat cu circa 43 dB sub primul lob, asigurnd o
aliere spectral mult mai puin pronunat. Mai mult, fereastra Hamming ofer i o netezire a
trecerilor brute de la valori nenule la zero, de la capetele ferestrei. Din aceste motive ea
reprezint n general opiunea preferat n aplicaiile ce presupun prelucrarea semnalului
vocal.

2.3. Parametri derivai direct din forma de und a semnalului vocal
Valorificnd discuia din seciunea precedent, se pot determina, pentru fiecare
fereastr de semnal vocal, doi parametri, unul cu semnificaie de mrime (energia) i altul cu
semnificaie de frecven (numrul de treceri prin zero).
Pstrnd notaiile precizate anterior, la nivelul unei ferestre de analiz a semnalului,
energia se exprim (utiliznd teorema lui Parseval) prin relaia:


=

=
= = =
1
0
2
1
0
2
1
0
2
]) [ ] [ ( ]) [ ] [ ( ]) [ (
N
j
m
N
j
m
N
j
m m
j W j X j w j x j x E
(7)
unde mreprezint indicele ferestrei de analiz, iar N, lungimea acesteia; w reprezint fereastra
cu care se pondereaz poriunea de semnal vocal aleas.
Energia servete n principal la decelarea poriunilor sonore ale semnalului vocal, de
cele nesonore.
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
5

Rata trecerilor prin zero este de asemenea un parametru util, mai ales pentru rafinarea
deciziei luate pe baza energiei. Definind funcia signumconform relaiei:

> +
<
=
0 ] [ 1
0 ] [ 1
]) [ sgn(
n x dac
n x dac
n x
m
m
m
,
(8)
o trecere prin zero a semnalului x
m
[n] este descris matematic prin existena semnului diferit,
pentru dou eantioane adiacente de semnal:
]) [ sgn( ]) 1 [ sgn( n x n x
m m
= +
(9)
Prin urmare, numrul de treceri prin zero (notat prin ntz), pentru o fereastr de
semnal x
m
[n], se poate exprima prin relaia:
2 / ])] 1 [ sgn( ]) [ sgn( 1 [
1
0

=
+ =
N
j
m m m
n x n x ntz
(10)


3. Desfurarea lucrrii
Programele Matlab utilizate n aceast lucrare se afl n directorul scripts, iar fiierele
cu esantioanele semnalului vocal (n format .wav) se afl n directorul samples. Fiierele cu
cuvinte se afl n subdirectorul words i fiierele cu foneme n subdirectorul phones. Outputul
diferitor experimente se poate salva numai n directorul student. Rspundei scris la ntrebri.

3.1. Analiza n timp
C1. Folosii funcia wavread pentru extragerea vectorului de eantioane din fiierul cu
semnalul vocal. Scriei n consola Matlab:
>>help wavread
pentru a afla utilizarea funciei.
1. Care este semnificaia parametrilor de ieire FS i NBITS?
C2. Folosii funcia sound pentru ascultarea semnalului vocal. Scriei n consola
Matlab:
>>help sound
pentru a afla utilizarea funciei.
Ascultai semnalele vocale folosind ca parametru in funcia sound o frecven de
eantionare diferit de cea a semnalului vocal. Ce se observ? De ce?
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
6

C3. Scriei o funcie care s trunchieze semnalul vocal la un numr configurabil de
bii. Funcia va primi ca parametri de intrare vectorul cu eantioanele semnalului vocal i
numrul de bii, iar outputul ei va fi vectorul cu valori trunchiate.
Ascultai semnalele vocale rezultate n urma trunchierii.
2. Care este valoarea maxim a numrului de bii pentru care sesizai o degradare a
semnalului vocal?
3. Care este valoarea scorului PESQ pentru diferite valori ale numrului de bii?
Pentru aceast sarcin trebuie mai nti s salvai vectorul de eantioane trunchiate
folosind funcia wavwrite. Scriei n consola Matlab:
>>help wavwrite
pentru a afla utilizarea funciei.
Atentie: Dei semnalul vocal a fost trunchiat la un numr de bii mai mic dect 16
(numrul original de bii), valoarea parametrului de intrare NBITS din funcia
wavwrite va fi tot 16. ns ultimii bii, cei trunchiai, vor fi egali cu zero.
Apoi scriei n linia de comand Windows:
>pesq +16000 fisier_original.wav fisier_trunchiat.wav
C4. Folosii funciile plot i stempentru vizualizarea unui semnal vocal din fiierele de
cuvinte. Outputul rulrii trebuie s semene cu Fig. 1.1.
4. Ce uniti de msur sunt pe axa abscisei i pe axa ordinatei?
C5. Modificai programul astfel nct unitatea de msur pe axa abscisei s fie [ms].
C6. Vizualizai forma de unda pentru semnalul trunchiat la 3 bii/eantion. Ce
observai?
5. Care este plaja de valori ale eantioanelor semnalului vocal? De ce?
Indicaie: inei cont de modul n care este fcut achiziia semnalului vocal i
conversia lui numeric.
C7. Vizualizai semnale vocale ale diferitor cuvinte.
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
7


Fig. 1.1. Exemplu de reprezentare n timp a semnalului vocal

6. Putei s determinai graniele ntre foneme?
C8. Scriei o funcie care s calculeze energia semnalului vocal pentru fiecare fereastr
de timp (vezi relaia (7)). Funcia trebuie s primeasc ca parametri de intrare vectorul de
eantioane ale semnalului vocal i dimensiunea ferestrei temporale. Outputul funciei va fi
vectorul cu valorile energiei pentru fiecare fereastr de timp. Vizualizai vectorul energiei n
aceeai figur cu semnalul vocal, dar cu alt culoare. n acest caz, trebuie rezolvat problema
scalrii vectorului energiei cu vectorul semnalului vocal; vectorul energiei are un numr de
elemente egal cu numrul de ferestre temporale, iar vectorul semnalului vocal are un numr
de elemente egal cu numrul de eantioane. Gama pentru valorile energiei este diferit fa de
cea pentru valorile eantioanelor, de aceea se poate folosi un coeficient de scalare.
7. Putei s determinai poriunile de linite din graficul energiei?
8. Poate fi folosit energia la detecia activitii vocale? Este energia un criteriu
suficient pentru stabilirea nceputului activitii vocale?
9. Cum este valoarea energiei pentru vocale fa de valoarea ei pentru consoane?
10. Poate fi folosit energia ca un criteriu pentru recunoaterea fonemelor?
C9. Adugai o component continu peste semnalul vocal. Ascultai semnalul
rezultat.
11. Ce observai? Ce se ntmpl cu energia semnalului.
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
8

C10. Calculai autocorelaia semnalului vocal pentru o fereastr de timp folosind
funcia xcorr i construii graficul acestei funcii. El trebuie s fie asemntor cu cel din Fig.
1.2., calculat pentru o fereastr de fonem sonor.
12. Ce observai? Msurai distana ntre maximele conzecutive. De ce aceste valori
sunt aproximativ egale?
13. Ce uniti de msur sunt pe axa abscisei?
C11. Generai un zgomot alb gaussian folosind funcia wgn. Calculai autocorelaia
acestui semnal i construii graficul ei. Repetai aceiai pai folosind funcia randn in loc de
wgn.
14. Comparai autocorelaia semnalului vocal cu cea a zgomotului. Ce observai?

Fig. 1.2. Exemplu de funcie de autocorelaie

3.2. Analiza n frecven
C12. Scriei o funcie care s calculeze un estimat al densitii spectrale de putere
pentru fiecare fereastr de timp (periodgrama). Funcia trebuie s primeasc ca parametri de
intrare vectorul de eantioane ale semnalului vocal, numrul de puncte n care se calculeaz
transformata Fourier, dimensiunea ferestrei temporale i gradul de suprapunere a ferestrelor.
Outputul funciei va fi succesiunea de vectori cu valorile absolute ale semnalului n frecven
pentru fiecare fereastr de timp. La realizarea acestei sarcini trebuie s folosii funciile fft i
fftshift. Consultai seciunea help din Matlab pentru utilizarea acestor funcii. Pentru o rulare
mai rapid, calculai transformata Fourier ntr-un numr de puncte care s fie putere a lui 2.
Rezultatul pentru o fereastr de timp trebuie s arate ca n Fig. 1.3.
15. Ce reprezint valorile de pe axa abscisei i de pe axa ordonatei?
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
9

C13. Modificai funcia astfel nct valorile de pe axa abscisei s fie n Hz.
Indicaie: inei cont de rolul frecvenei Nyquist.
16. Putei s identificai formanii?

Fig. 1.3. Exemplu de reprezentare n frecven a semnalului vocal

C14. Afiai spectograma semnalului vocal folosind funcia specgram. Rezultatul
trebuie s arate ca n Fig. 1.4.
17. Cum variaz spectrul semnalului vocal cu timpul?
18. Afiai spectrul semnalului vocal pentru diferite valori ale gradului de
suprapunere. Ce observai n spectrul semnalului?
19. Putei s determinai graniele ntre foneme?
C15. Vizualizai spectograma pentru diferite semnale vocale cu cuvinte.
20. Seamn spectrele realizrilor particulare diferite ale aceluiai fonem?
21. Ce au n comun spectrele vocalelor?
C16. Trecei semnalul vocal printr-un filtru trece-jos cu frecvena de tiere egal cu 8,
6, 4, i respectiv 2 kHz. Afisai spectograma semnalului obinut la ieirea filtrului. Ascultai
semnalul obinut la ieirea filtrului. Ce se observ? Pentru aceast cerin folosii funcia fir1.
Scriei n consola Matlab:
>>help fir1

Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
10


Fig. 1.4. Exemplu de spectogram

















Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
11

4. Anexa - Natura semnalului vocal - noiuni introductive
4.1. Producerea vorbirii - tractul vocal uman
Din punct de vedere evolutiv, prile tractului vocal sunt asociate n principal cu
funcii vegetative - limba pentru masticaie, faringele i epiglota pentru nghiit, coardele
vocale pentru eliberarea efortului la natere, etc. Acum 1,6 milioane de ani, aceste structuri au
nceput s evolueze, dobndind capabiliti de producere a sunetului. Mai mult, tractul vocal a
evoluat n paralel cu aparatul auditiv, pentru ca acesta din urm s fie acordat pe gama de
frecvene produse de cel dinti. Aceste dezvoltri au mers mn n mn cu extinderea
circuitelor neurale care controleaz muchii responsabili de vorbire. Datorit dovezilor
paleontologice care indic mrirea dimensiunii creierului i a terminaiilor nervoase necesare
n micarea limbii i respiraie, putem estima data la care a aprut vorbirea.
Sunetul vocal este influenat indirect de multe pri ale anatomiei umane. Doar cteva
dintre acestea sunt controlate n mod deliberat (de exemplu muchii inter-costali, limba,
muchii gtului). Totui n continuare ne vom concentra doar pe cele dou structuri principale
care funcioneaz mpreun pentru a produce vorbirea: coardele vocale i tractul
supralaringian. Acestea la rndul lor sunt legate n mod direct de respiraie i de aparatul
respirator fr de care producerea sunetului nu ar fi posibil.
Coardele vocale sunt dou pliuri mici de esut elastic cu o structur complex. Ele se
ntind deasupra traheei i pot fi manipulate n dou moduri: pot fi deschise sau nchise i pot fi
relaxate sau ncordate.
Cnd sunt deschise, ntre ele se formeaz un orificiu triunghiular numit glot.
Producerea sunetelor este determinat de apropierea coardelor vocale, care astfel
ngreuneaz glota.
Sunetele sonore sunt produse prin vibraia coardelor vocale la ieirea aerului din
plmni. Ele vor fi ntrite att de cavitile toracic, nazal, bucal, ct i de sinusurile
paranazale, care au rol de cutie de rezonan. La producerea sunetelor articulate mai particip
limba, buzele, dinii i vlul palatin.
Din combinarea sunetelor articulate rezult vorbirea. Caracteristicile acustice ale
sunetelor emise depind de presiunea creat n plmni, tensiunea aplicat asupra coardelor
vocale i aplicarea de diverse constrngeri pe parcursul cii vocale, prin aciunea limbii,
dinilor, etc.
Sunetele vocii emise prin vibrarea coardelor vocale cu amplitudine maxim se numesc
sonore; n aceast categorie intr n general vocalele i consoanele sonore. Dac sunetul este
emis fr vibrarea coardelor vocale atunci el se numete surd (nesonor), ca n cazul
consoanelor surde (nesonore).
Prin modificarea tensiunii coardelor vocale n timp ce vibreaz, se poate controla
frecvena de oscilaie a lor. Cu ct coardele vocale sunt mai tensionate (i mai apropiate una
de cealalt) sunetele emise sunt mai nalte i reciproc, cu ct sunt mai relaxate, sunetele sunt
mai joase. Astfel se controlez frecvena vorbirii.
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
12


4.2. Uniti ale semnalului vocal
n fonologie, fonemul este unitatea de sunet fundamental din limbile vorbite care
ajut la diferenierea cuvintelor. Prin modificarea unui fonem al unui cuvnt, se genereaz fie
un cuvnt inexistent dar perceput ca diferit de ctre vorbitorii limbii, fie un cuvnt cu alt sens.
Fonemele nu sunt sunetele ca atare, ci perceperea lor la nivel mental. Unui fonem i pot
corespunde mai multe sunete fizice, pe care vorbitorii unei limbi date le percep ca fiind unul
i acelai sunet. De exemplu, fonemul /h/ din cuvintele romneti har i hidra este
perceput ca fiind identic, dei n realitate n cele dou cazuri el se articuleaz n locuri complet
diferite (laringe, respectiv palat). Manifestrile fonetice diferite ale unuia i aceluiai fonem se
numesc alofone.
Dou cuvinte formeaz o pereche minimal atunci cnd sunt identice, cu excepia
unui singur fonem. Perechile minimale servesc la a demonstra c dou sunete date sunt
foneme diferite i nu doar variante sonore fr efect semantic ale aceluiai fonem. De
exemplu, cuvintele cal i car exist n limba romn i au sensuri diferite, ceea ce
dovedete c fonemele /l/ i /r/ sunt distincte. Aceleai sunete [l] i [r] n alte limbi (de
exemplu n coreean i japonez) sunt doar variante de pronunare ale aceluiai fonem, fr
distincie semantic, i percepute de vorbitorii acelor limbi ca fiind unul i acelai sunet.
Fonemele cele mai evidente sunt chiar sunetele limbii respective, aa cum sunt ele
percepute de vorbitori. De exemplu, limba romn standard foloseste 7 foneme vocalice, 20
consonantice i 4 semivocalice.
Acest set situeaz limba romn printre limbile cu un numr mediu de foneme.
Extremele se consider a fi limba vorbit de populaia Piraha din Brazilia cu doar 10 foneme
n total, i limba !Xoo din Botswana i Namibia care dispune de 141 de foneme.
n categoria fonemelor intr i alte aspecte ale articulrii cuvintelor, nu doar sunetele
propriu-zise.
Exist cteva categorii de foneme numite suprasegmentale, care in printre altele de
accentul, tonurile, i lungimea fonemelor, silabelor sau cuvintelor unei limbi.
n limba romn fiecare cuvnt polisilabic are o anumit silab pronunat mai
puternic dect celelalte.
n cele mai multe cazuri poziia schimbat a accentului nu poate modifica sensul unui
cuvnt, putnd doar s dea acelui cuvnt o pronunare nenatural. Exist totui situaii cnd
poziia accentului determin sensul cuvntului, iar existena acestui fenomen demonstreaz c
n limba romn accentul este fonemic. De exemplu, n propoziiile Mergeam la lumina
lanternei. i Lanterna nu lumina ndeajuns. silaba accentuat din lumina determin
categoria gramatical a cuvntului (substantiv, respectiv verb) i deci sensul acestuia. Prin
comparaie, n limbile francez sau maghiar accentul este fix i deci nu poate modifica sensul
cuvintelor.
n multe limbi lungimea sunetelor poate fi un element cu rol important n distingerea
cuvintelor.
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
13

Acest fonem se numete cronem (din grecete o o& (chronos): timp) i se poate
referi att la durata vocalelor ct i la a consoanelor.
Limba romn are foarte puine astfel de situaii n care lungimea unui sunet este
important, ca n cazul consoanei /n/ din cuvintele not i nnod; pentru alte limbi ns
diferenele de acest tip pot fi numeroase i eseniale. De exemplu cuvintele englezeti slip (a
aluneca) i sleep (a dormi) difer n primul rnd prin lungimea vocalei (care antreneaz i o
schimbare n calitatea acesteia). Similar, lungimea consoanelor (timpul de emitere sau de
ateptare pn la emiterea consoanei) este important n unele limbi precum italiana sau
japoneza. Mai mult, unele limbi difereniaz chiar trei niveluri n lungimea vocalelor sau
consoanelor; astfel estona distinge vocale scurte, semi-lungi i superlungi i de asemenea are
consoane cu trei lungimi posibile n funcie de care se modific sensul cuvintelor.
Unele limbi, ca de exemplu limbile cunoscute sub numele colectiv limba chinez,
dispun de foneme exprimate prin intonaia dat individual fiecrei silabe. Toate limbile
folosesc un sistem sau altul de intonaie (n limba romn de exemplu intonaia este esenial
pentru diferenierea enunurilor de ntrebri), dar numai n limbile tonale sensul unui cuvnt
separat se poate schimba o dat cu modificarea tonului. Exemplul clasic n acest sens este
cuvntul ma din limba chinez, care n funcie de ton poate s aib sensuri complet diferite.
Se spune despre o limb vorbit c are o ortografie fonetic (sau fonemic) atunci
cnd relaia dintre forma scris i forma pronunat este regulat, n sensul c dac se
cunoate un set de reguli orice cuvnt scris poate fi pronunat corect i orice cuvnt vorbit
poate fi scris corect. Romna este ntr-o bun msur o astfel de limb.
ntr-un sens strict, ortografia fonetic cere ca fiecrui sunet din vorbire s i
corespund un simbol scris unic, aa cum se procedeaz de exemplu n transcrierile fonetice
exacte. n general ns o asemenea precizie nu este necesar i atunci se aplic o ortografie
fonemic, n care se permite alofonelor unui fonem s fie notate cu acelai simbol.
Se consider c scrierea folosit n limbile srb i hindi se apropie cel mai mult de o
scriere fonemic.
Limba romn are o ortografie preponderent fonemic, dar prezint i numeroase
excepii. Printre acestea se pot meniona urmtoarele:
litera /c/ are valori fonetice diferite n grupurile (diftongii) /ce/ i /ci/ fa de celelalte
situaii.
Aceeai observaie este valabil pentru litera /g/;
grupul de litere /ch/ din /che/ i /chi/ reprezint o consoan ocluziv palatal surd,
care n limba romn este echivalent fonologic cu versiunea sa velar, notat n scris prin
litera /c/ (cu excepia grupurilor /ce/ i /ci/). Aceei observaie este valabil pentru litera /g/;
nu exist simboluri separate pentru semivocale; literele /i/, /u/, /e/ i /o/ putnd
reprezenta fie vocale, fie semivocale, n funcie de context, de exemplu litera /i/ din cuvintele
tiam i fiar are valori fonetice distincte;
nu se indic poziia accentului, de exemplu verbul intr poate fi la timpul prezent
sau la perfectul simplu n funcie de plasarea accentului;
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
14

nu se deosebete n scris vocala /i/ de palatalizare, de exemplu litera /i/ din cuvintele
(tu) umbli i (dou) boli se pronun diferit;
nu se noteaz n scris pronunia sonor sau surd a literei /x/, de exemplu n cuvintele
extrem i exemplu ea se citeste /ks/, respectiv /gz/;
grupul de consoane /ks/ se scrie fie ca /x/, fie ca /cs/, de exemplu n ax i ticsit;
cuvintele noi de origine strin sunt adesea lsate n forma original, de exemplu
watt, yoga, computer sau parial n techneiu (pronunat /tehne.tsju/);
literele // i // corespund aceluiai fonem, vocala nchis central nerotunjit /i/);
literele /k/, /w/, /y/ i /q/ nu noteaz sunete distincte, ci se suprapun fonetic cu litere
deja existente.
n fonetic, o vocal este un sunet elementar din limbile vorbite, caracterizat printr-o
configuraie deschis a cii vocale care nu mpiedic n mod semnificativ ieirea aerului. O
definiie exact care s acopere toate limbile existente nu se poate da, ntruct limita de
separaie ntre vocale i consoane este uneori neclar i nu se poate preciza ntotdeauna ce
nseamn o cale vocal liber. Un exemplu este consoana /h/ care de fapt nu blocheaz n nici
un fel calea vocal, dar care n toate limbile n care exist se comport fonologic ca o
consoan.
n cursul vorbirii dou sau mai multe vocale pot s apar n succesiune. n asemenea
cazuri vocalele pot s formeze fie hiaturi, atunci cnd fac parte din silabe diferite (de exemplu
n cuvntul mie), fie diftongi sau triftongi, atunci cnd se pronun mpreun ntr-o singur
silab (de exemplu n cuvntul miere). n acest din urm caz, ntruct o silab nu poate
conine mai mult de o vocal propriu-zis, celelalte sunete vocalice din silab se numesc
semivocale (n cazul exemplului anterior semivocala numit iot).
Limba romn standard are un set de apte vocale. Aceste vocale se pronun ca n
exemplele urmtoare:
[a] ca n amar - vocal deschis central nerotunjit,
[e] ca n elev - vocal mijlocie anterioar nerotunjit,
[i] ca n iris - vocal nchis anterioar nerotunjit,
[o] ca n ocol - vocal mijlocie posterioar rotunjit,
[u] ca n uluc - vocal nchis posterioar rotunjit,
[] ca n fr - vocal mijlocie central nerotunjit,
[i] ca n vr - vocal nchis central nerotunjit.
Literelor // i le corespund acelai sunet, [i].
n afar de aceste apte vocale n limba romn mai pot s apar n cuvinte
mprumutate i alte vocale:
[;] ca n bleu, loess - vocal mijlocie anterioar rotunjit,
[y] ca n fuhrer, bruxelez - vocal nchis anterioar rotunjit.
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
15


Vocalele orale, precum cele din limbile romn, italian, engleza britanic, etc., se pot
descrie n termenii a trei caracteristici, putndu-le astfel asocia cu puncte dintr-un spaiu
tridimensional. Aceste caracteristici sunt: deschiderea, locul de articulare (anterioritatea) i
rotunjimea. Trebuie menionat totui c aceste caracteristici nu sunt fonemic complet
independente, aa cum se va vedea mai jos.
Vocalele pronunate cu mandibula cobort i cu limba deprtat de cerul gurii se
numesc deschise, pentru c se pronun cu gura deschis. O vocal deschis tipic este [a];
aceast vocal este prezent ntr-o form sau alta n mai toate limbile cunoscute, inclusiv n
cele care au numai dou sau trei vocale.
Prin contrast, vocalele pronunate cu gura ntredeschis, cu limba relativ apropiat de
palat, se numesc nchise, un exemplu comun multor limbi fiind vocala [i]. Exist i grade
intermediare de deschidere, undeva la mijloc situndu-se de exemplu vocala [e] din limba
romn.
Alfabetul Fonetic Internaional stabilete n total apte niveluri de deschidere, dei nu
exist limbi care s conin i s diferenieze vocale n toate aceste niveluri. Limba romn
distinge trei niveluri (de exemplu seria [a]- [e]-[i]), limba francez distinge patru (de exemplu
seria [a]- [ ]-[e]-[i]), etc.
O consoan este un sunet elementar din limbile vorbite, pronunat printr- o blocare sau
o restrngere semnificativ a cii vocale, suficient pentru a produce o turbulen audibil.
Definiia simplist (inexact) conform creia consoanele nu pot fi emise dect mpreun cu
vocale (de unde i numele), nu mai este folosit n lingvistica modern.
n unele limbi exist consoane, numite consoane sonante, care se pot comporta ca
vocale, constituind elementul principal al silabei. De exemplu, n englez cuvntul table
(mas) se pronun /teIbl/, cu sunetul [l] avnd rol de vocal.
Dup modul de articulare, consoanele se clasific n:
Consoanele oclusive se articuleaz printr-o ocluzie a canalului fonator. Exemple: [p],
[t], [k].
Consoanele africative sunt intermediare ntre cele ocluzive i cele fricative (V. mai
jos), n sensul c ncep cu o ocluziune i se termin cu o friciune. Simbolurile grafice pentru
aceste consoane reflect caracterul intermediar prin contopirea a dou simboluri elementare,
de exemplu [ts] (//) ncepe cu un sunet similar cu [t] i se termin ca un [s].
Consoanele fricative sunt acelea la a cror pronunare canalul fonator se strmteaz
dar nu se blocheaz complet, astfel nct aerul se scurge pe toat durata emisiei. Exemple: [s],
[f], [h].
Consoanele nazale sunt acelea n care fluxul de aer este expirat (exclusiv sau parial)
pe nas.
Exemple: [m], [n].
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
16

Consoanele glide cuprind consoanele laterale i cele vibrante. Consoanele laterale (n
limba romn numai [l]) se articuleaz prin atingerea vrfului limbii de alveolele incisivilor
superiori, n timp ce fluxul de aer iese prin cele dou deschizturi lsate de marginile limbii.
Consoanele vibrante se realizeaz printr-o succesiune rapid de nchideri i deschideri ale
canalului fonator, determinat de vibrarea prii superioare a vrfului limbii (cum este cazul
consoanei romneti [r]) sau a altor pri de pe calea vocal.
Consoanele sonante se articuleaz cu o uoar constricie n canalul fonator, mai
mic dect n cazul fricativelor. Aici intr o serie de consoane i toate semivocalele. Exemplu
n limba romn: [j].
Dup locul de articulare, consoanele se clasific n:
Consoane bilabiale, la articularea crora particip amndou buzele. Exemple: [p],
[m].
Consoane labiodentale ce se articuleaz prin atingerea buzei inferioare de dinii
incisivi superiori, ca de exemplu [f].
Consoane dentale, ce se articuleaz prin apropierea vrfului limbii de dinii incisivi.
Exemplu: [s].
Consoane alveolare, articulate cu limba la nivelul alveolelor dinilor de pe maxilarul
superior. Exemple: [t], [n], [l].
Consoane postalveolare, ce se articuleaz n partea anterioar a palatului. Exemple:
[tch] din circ, [] din ofer.
Consoane palatale, ce se articuleaz prin atingerea sau apropierea dosului limbii de
cerul gurii. Exemple: [c] (din chitar), [c] (din hiat).
Consoane velare, ce se articuleaz n partea posterioar a cavitii bucale, prin
atingerea sau prin apropierea rdcinii limbii de vlul palatului. Exemplu [k].
Consoane glotale, ce se articuleaz prin ngustarea canalului fonator la nivelul glotei.
n limba romn singura consoan glotal este [h] din hain.
Numeroase consoane formeaz perechi, n care singura diferen dintre cele dou
consoane este c n articularea uneia coardele vocale oscileaz, iar n cazul celeilalte, nu. O
astfel de pereche este cea format din [z] i [s]. Aceste consoane sunt amndou fricative,
amndou dentale, dar n cazul lui [z] coardele vocale vibreaz, n timp ce [s] este mai
degrab optit, cu coardele vocale n repaus. Aceast calitate se numete sonoritate.
Consoanele la care coardele vocale intr n vibraie se numesc consoane sonore, iar celelalte
se numesc surde.
Enumerarea precedent scoate n eviden locul consoanelor limbii romne ntre cele
ale altor limbi.
O parte dintre consoane nu au dect varianta sonor, ca de exemplu [m] i [r], dei n
anumite situaii se poate ntmpla ca aceste consoane s se desonorizeze. Alte consoane,
precum [ts] i [h] au dimpotriv numai varianta surd. Din nou, exist situaii cnd aceste
consoane se sonorizeaz.
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
17

Uneori, pentru acelai fonem exist dou sau mai multe alofone (moduri de pronunare
fizic diferite, dar cu funcii identice). De exemplu, fonemul /n/ se pronun diferit n cuvintele
ban i banc, corespunznd transcrierilor fonetice [ban] i [bank]. Diferena este c n
ban /n/ este o consoan alveolar, produs prin blocarea i eliberarea fluxului de aer de
ctre vrful limbii pe alveolele dinilor de sus. n cuvntul banc, sub influena consoanei
velare [k] fonemul /n/ se articuleaz ntr-o cu totul alt poziie, i anume n partea posterioar
a cavitii bucale, prin atingerea rdcinii limbii de vlul palatului (spunem c se velarizeaz).
Aceast diferen se marcheaz prin folosirea de simboluri fonetice separate.
n mod similar, fonemele /k/ i /h/ se pronun diferit n funcie de sunetele nvecinate.
Lista de mai jos d exemple pentru fiecare sunet din lista de mai nainte:
Consoane oclusive:
[p] - oclusiv bilabial surd: pace, aparte, cap;
[b] - oclusiv bilabial sonor: bun, abac, cub;
[t] - oclusiv alveolar surd: tare, ating, sat;
[d] - oclusiv alveolar sonor: dor, odihni, rod;
[c] - oclusiv palatal surd: chel, achit, ochi (n grupurile scrise /che/, /chi/,
/ke/, /ki/);
[] - oclusiv palatal sonor: ghid, leghe, priveghi (n grupurile scrise /ghe/,
/ghi/);
[k] - oclusiv velar surd: cal, acolo, rac;
[g] - oclusiv velar sonor: gol, ogar, rog;
Consoane africative:
[ts] - africativ alveolar surd: ap, oet, ma;
[tch] - africativ postalveolar surd: cer, ace, taci (n grupurile scrise /ce/,
/ci/);
[dz] - africativ postalveolar sonor: ger, magic, rogi (n grupurile scrise /ge/,
/gi/);
Consoane fricative:
[f] - fricativ labiodental surd: foc, afar, puf;
[v] - fricativ labiodental sonor: var, covor, mov;
[s] - fricativ alveolar surd: sare, mas, cos;
[z] - fricativ alveolar sonor: zar, vaz, roz;
[S] - fricativ prepalatal surd: arpe, aa, co;
[j] - fricativ prepalatal sonor: jar, ajutor, vrej;
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
18

[c] - fricativ palatal surd: hien, mohican, vlahi (cnd /h/ este influenat de
/i/);
[x] - fricativ velar surd: heliu, aho, ch (cnd /h/ este influenat de orice
vocal nafar de /i/ i /a/);
[h] - fricativ glotal surd: ham, rahat, vlah (cnd /h/ este influenat de /a/);
Consoane nazale:
[m] - nazal bilabial sonor: mr, amic, cum;
[n] - nazal alveolar sonor: nor, sun, an;
[nj] - nazal velar sono: prunc, gong (nainte de /k/, /g/);
Consoane glide:
[l] - glid lateral alveolar sonor: lung, ales, mal;
[r] - glid vibrant alveolar sonor: rai, arid, far;
Consoane sonante (semivocale):
[w] - sonant labiovelar: cafeaua, rou, sau (articularea se realizeaz
concomitent prin rotunjirea buzelor i apropierea limbii de vlul palatin);
[j] - sonant palatal: iarn, voios, cui.

4.3. Parametri primari ai semnalului vocal
n seciunea precedent au fost descrise vocalele i consoanele. Aceste sunete se
numesc segmentale, deoarece ele sunt nirate ca nite segmente ntr-un cuvnt. O a doua
mare clas de sunete vocale este reprezentat de sunetele suprasegmentale, din cauza faptului
c ntr-un anumit sens se suprapun peste sunetele segmentale. Aceast denumire este
neltoare, deoarece intonaia, accentul i tonul sunt asociate n principal cu activitatea
laringian, care se gsete n partea de jos a tractului vocal.
Astfel, parametrii primari ai semnalului vocal sunt:
Accentul:
Pronunarea mai intens sau pe un ton mai nalt a unei silabe dintr-un cuvnt sau a
unui cuvnt dintr-un grup sintactic se numete accent.
Accentul de intensitate reprezint pronunarea cu for mai mare a unei silabe dintr-un
cuvnt.
Limba romn, la fel ca numeroase alte limbi moderne, are accent de intensitate. n
cuvintele cu mai multe silabe se distinge un accent de intensitate principal, mai puternic, i
unul sau mai multe accente de intensitate secundare, mai slabe, desprite prin silabe total
neaccentuate. Silabele accentuate sunt adesea mai lungi dect cele neaccentuate.
Laborator Tehnologia vorbirii. Recunoaterea vorbitorului. Lucrarea nr. 1
__________________________________________________________________________________________
19

Accentul este marcat printr-un semn grafic pus deasupra unei litere, pentru a indica fie
locul i felul accentului ntr-un cuvnt, fie alt particularitate de pronunare, dup cum
urmeaz:
accent ascuit (): indic ridicarea vocii pe silaba accentuat sau pe partea final a
silabei accentuate dintr-un cuvnt. El indic, de exemplu, n francez, timbrul nchis al vocalei
/e/, iar n ceh, lungimea vocalei.
accentul circumflex (): indic ridicarea vocii n prima parte a unei silabe lungi
accentuate, nsoit de o coborre a vocii n partea ei final. n francez se pune, n general, pe
vocalele lungi care au fost urmate de o consoan (n general, [s], ca n foret) sau de o
vocal disprut ulterior. (n general, [e], ca n dument).
accentul grav: (\): indic meninerea aceluiai ton pe o silab care, n mod obinuit,
are accent ascuit. El poate nota, n francez, pronunarea deschis a vocalei /e/, sau
difereniaz unele cuvinte omonime.
Dei majoritatea asculttorilor naivi cred c accentul are de a face cu tria sunetului, el
afectez mai mult nlimea vocii (frecvena fundamental).
Intonaia:
Intonaia reprezint variaia de nlime a vocii n timpul vorbirii sau interpretrii unui
text, folosit pentru a indica o anumit funcie sintactic (de exemplu, ntrebare vs. exclamaie
vs. enun). Poate indica i starea afectiv a vorbitorilor (sarcasmul, ngrijorarea, etc.).
Tonul:
Tonul reprezint intonarea diferit a unor cuvinte, formate din aceleai sunete, dar
deosebite prin sens.
Debitul verbal:
Debitul verbal reprezint numrul unitilor minimale (sunete, silabe) emise pe
secund. Dei numeroase studii au artat diferene ale ratei de articulare pentru voci diferite,
faptul c aceasta este puternic influenat i de contextul vorbirii (de exemplu, la telefon se
vorbete mai repede dect la o mas n restaurant) face ca aceast caracteristic s fie
nepotrivit pentru recunoaterea automat a vorbirii.
Frecvena fundamental:
Orice sunet are o frecven fundamental, frecvena cea mai joas, la care sunetul are
cea mai mare putere, i o serie de frecvene armonice superioare, care au o amplitudine mai
mic. nlimea sunetului este dat de frecvena sa fundamental. Timbrul sunetului este dat
de prezena pe lng frecvena fundamental a altor frecvene corelate cu cea fundamental
(armonicele superioare).
n vorbire frecvena fundamental este dat de vibraia coardelor vocale. Acest
parametru se definete doar pentru cadrele vocalice. Determinarea ei este destul de dificil dar
o aproximare satisfctoare se poate face prin mediere aplicat asupra mai multor secvene
succesive de eantioane de semnal vocal.

S-ar putea să vă placă și