Sunteți pe pagina 1din 23

1.

INTRODUCERE N PRELUCRAREA
SEMNALULUI VOCAL
1.1. Obiectivele prelucrrii semnalului vocal
Reprezentarea numeric a semnalului vocal
moduri de reprezentare
proprieti statistice ale semnalului vocal
codarea i compresia vorbirii
Analiza semnalului vocal n domeniile timp i frecven
punerea n eviden a proprietilor spectrale ale
semnalului vocal
utilizarea analizei spectrale n determinarea unor
parametri utili n sintez i recunoatere

Sinteza semnalului vocal (sinteza vorbirii)


= producerea semnalului vocal pornind de la un
dicionar de elemente fonetice i de reguli, sau pornind
de la o anumit reprezentare parametric a semnalului.
sinteza unor mesaje vocale cu coninut predeterminat
sinteza vorbirii pornind de la un text oarecare scris
Recunoaterea vorbirii
= a face maina capabil s interpreteze cuvintele sau
frazele pronunate de un vorbitor.

recunoaterea cuvintelor izolate


recunoaterea cuvintelor nlnuite
recunoaterea de mari vocabulare
recunoaterea vorbirii continue

Recunoaterea vorbitorului
= se urmrete recunoaterea (identificarea) unei
persoane dup voce
Aplicaii speciale ale prelucrrii semnalului vocal
aplicaii n domeniul medical, cum ar fi cele
referitoare la patologia laringelui, bazate pe detectarea
unor variabiliti de pronunie sau detectarea unor
stri particulare (stres, minciun, etc.)
aplicaii n studiul limbilor strine
aplicaii n dezvoltarea sistemelor de comunicaie
multimedia.

1.2. Generaliti asupra semnalului vocal


Vorbirea este facultatea de a comunica gndurile printr-un
sistem de sunete articulate.
Informaia coninut ntr-un mesaj este dat de
fluctuaiile presiunii aerului, generate i apoi emise de ctre
aparatul fonator uman.
aceste fluctuaii constituie semnalul vocal.
ele sunt detectate de ctre ureche, care realizeaz
o operaie de analiz a semnalului.
rezultatele analizei sunt transmise creierului,
care le interpreteaz i le folosete pentru
a comanda funciile vorbirii.

Un mesaj vocal este constituit dintr-o succesiune de


uniti (elemente) minimale lipsite de sens, numite foneme,
care prin asociere genereaz structuri sau elemente constitutive
de nivel superior: silabe, cuvinte, fraze.
Coninutul unui mesaj vocal poate fi definit n sens strict
i n sens larg.
n sens strict coninutul mesajului este dat de
inteligibilitatea sa (asemntor cu un mesaj scris).
n sens larg, coninutul mesajului vocal ia n consideraie
toate intonaiile ce nsoesc producerea sa (cretere
puternic a coninutului mesajului vocal fa de cel scris).

O trstur specific a semnalului vocal este redundana.


(redundan = introducerea n mesaj a unor componente
informaionale mai mult dect este necesar pentru
inteligibilitatea sa complet n absena zgomotului).
prezena redundanei n semnalul vocal l face rezistent
la perturbaiile mediului ambiant.
redundana este prezent i la nivel semantic, fapt ce
uureaz nelegerea mesajului de ctre creier.
Cadena maxim (ritmul maxim) de asimilare a unui mesaj
este determinat de coninutul strict al mesajului.
Fie un mesaj constituit din elemente discrete aparinnd unui
ansamblu de date (de exemplu un alfabet) X = {x1, x2, , xL}.

Dac p(xi) reprezint probabilitatea de apariie a simbolului xi,


selectarea acestuia va aduce informaia I = log2 p(xi) .
Entropia sursei (informaia medie asociat producerii mesajului X)
este dat de relaia:
L

H ( X ) p ( xi )log 2 p ( xi )

[bii]

i 1

Entropia prezint un maxim care s-ar produce atunci cnd


fonemele ar fi echiprobabile:
1
1
1
H max ( X ) L log 2
log 2
L
L
L

[bii]

Pentru fiecare limb se pot determina mrimile p(xi) (reprezentnd


probabilitile de apariie a fonemului xi) prin analize statistice
efectuate pe lucrri literare cu un vocabular bogat.

pentru limba englez (L = 42):


Hmax(X) = log242 = 5.39 bii
Hs(X) = 4.9 bii
pentru limba francez (L = 36):
Hmax(X) = log236 = 5.17 bii
Hs(X) = 4.73 bii
pentru limba romn (L = 34):
Hmax(X) = log234 = 5.08 bii
Hs(X) = necunoscut
pe baza mrimilor determinate statistic, fiecare fonem poate fi
codat cu 5 bii.
ntr-o conversaie curent sunt pronunate n medie 10 foneme pe
secund, ceea ce conduce la un debit informaional de 50 bii/s.

Formula de calcul pentru debitul maxim de informaie pe un


canal analogic fr erori (capacitatea canalului):

S
C B log 2 1
Z

[bii/sec.]

B = banda de trecere [Hz]


S/Z = raportul semnal pe zgomot
pentru un canal telefonic cu B = 3000 Hz i S/Z = 30 dB rezult:
C 3000 log 2 1 1000 3000 log 2 210 30000

[bii/sec.]

redundan mare n acest canal (fa de 50 bii/s stabilit anterior).


exist mult mai mult informaie ntr-un mesaj telefonic dect
ntr-un mesaj scris, unde informaia este redus la strictul necesar
pentru inteligibilitate; sporul de informaie este datorat intonaiei,
timbrului, etc.

1.3. Mecanismul fonaiei


Vorbirea = produs al aparatului fonator uman, controlat de
sistemul nervos central, care primete permanent informaie
prin reacia acustic (recepia auditiv a semnalului).
Aparatul fonator uman nu este un aparat special destinat producerii
vorbirii, ci este realizat prin adaptarea la aceast funcie a unor
organe aparinnd n principal aparatelor respirator i masticator.
Aparatul respirator furnizeaz energia necesar producerii vorbirii,
atunci cnd aerul este expirat prin trahee.
La captul superior al traheei se gsete laringele, unde presiunea
aerului este modulat nainte de a fi aplicat canalului (tractului)
vocal care se ntinde de la laringe la buze.

n zona central a laringelui se gsesc coardele vocale; acestea pot


nchide complet laringele, iar deprtndu-se, formeaz o deschidere
triunghiular, denumit glot.
Prin glot, aerul trece liber n timpul respiraiei i vocii optite,
precum i n timpul formrii sunetelor nesonore.
Sunetele sonore se produc prin vibraia periodic a coardelor vocale,
tractului vocal fiindu-i aplicate impulsuri periodice de presiune.
Tractul vocal este un ansamblu de caviti situate ntre glot i buze,
cuprinznd cavitatea faringian, cavitatea bucal i cavitatea nazal
(n derivaie cu cavitatea bucal).

Intensitatea sunetului emis este strns legat i determinat de


presiunea aerului aflat n amonte de laringe.
nlimea sunetului este determinat de frecvena de vibraie a
coardelor vocale, denumit frecven fundamental (F0 - pitch).
Inversul acestei frecvene (T0), se numete perioad fundamental.
Frecvena fundamental poate varia ntre limitele:
80 - 200 Hz pentru o voce masculin
150 - 450 Hz pentru o voce feminin
200 - 600 Hz pentru o voce de copil
Dou sunete sonore de aceeai intensitate i de aceeai nlime
se disting prin timbru, care este determinat de amplitudinile
relative ale armonicelor fundamentalei.

a
2000
1000
0
-1000
-2000
100

200

300

400

500
Esantioane

600

700

800

900

1000

70
65

dB

60
55
50
45
40
0

500

1000

1500

2000
Frecventa[Hz]

2500

3000

3500

4000

Unui sunet sonor i corespunde n timp un semnal cvasiperiodic.


Structura armonic a spectrului se mai numete structur de pitch.
Anvelopa spectrului prezint maxime denumite formani, care
corespund frecvenelor proprii ale tractului vocal.
Spectrul unui sunet sonor are structur formantic.

300
200
100
0
-100
-200
-300

200

400

600

Esantioane

800

1000

1200

1400

45

dB

40
35
30
25

500

1000

1500

2000
Frecventa[Hz]

2500

3000

3500

4000

Un sunet nesonor nu prezint structur periodic; forma sa n


domeniul timp este asemntoare cu cea a semnalelor de tip zgomot.
Sunetul nesonor poate fi asimilat cu un zgomot alb filtrat de ctre
tractul vocal.
Strucura spectral are caracteristici tipice de zgomot.

1.4. Modelarea producerii vorbirii


tractul vocal nlnuire (concatenare) de tuburi sonore de
lungimi i seciuni diferite (ntre glot i cavitatea bucal):
lungimea medie 17 cm (la brbai)
seciunea maxim 20 cm2
cavitatea nazal (cuprins ntre vlul palatin i nri):
lungime 12 cm
seciune constant
pentru sunetele sonore, sursa este un tren periodic de impulsuri
(reproduce creterea rapid a presiunii aerului, urmat de o cdere mai lent).

modelat prin rspunsul unui filtru trece-jos (FTJ) de ordinul 2


i frecven de tiere 100 Hz.

Modelarea sursei pentru sunetele sonore:


e[n]

y[n]
G(z)

e n P [ n]
G z

n kP

k 0

A
1 z 1 1 z 1

y n e n g n

g n kP

k 0

T0 Fe 8000

64
T F0 125

, R

g[n] Z 1 G ( z )

pentru sunetele nesonore, sursa este un zgomot alb


de varian unitar.

tractul vocal succesiune de tuburi acustice elementare.


cascad de rezonatori, cu transmitana global:
T z

B
K

1 b1k z 1 b2k z 2
k 1

fiecare rezonator elementar (de ordinul 2) are o caracteristic


de tip trece band i simuleaz producerea unui anumit formant.
deschiderea buzelor are o caracteristic de selectivitate de tip
trece-sus ce poate fi modelat prin transmitana:

R ( z ) (1 z 1 )

funcia de transfer global a tractului vocal (considerat ntre


excitaia idealizat i semnalul emis):
H ( z ) G ( z )T ( z ) R( z )

1 z 1

1 z 1

z 1

1 b1k z 1 b2k z 2
k 1

dac se consider 1 :
H ( z)

1 z 1 1 b1k z 1 b2k z 2

A z

k 1

2 K 1

k 1

i 1

A( z ) 1 z 1 1 b1k z 1 b2 k z 2 1

ai z i

model numai cu poli sau autoregresiv (AR - Auto-Regressive )

Observaii:
1 z 1
1. Simplificarea
1

1
1 z

este oarecum forat i ar fi posibil numai pentru fonemele sonore


o variant mai corect:
R ( z ) 1 az 1

R( z )

a 1

0 a 1

1
1 az 1 a 2 z 2 ...
1 az 1

2. Fonemele nazale nu pot fi produse cu modelul AR


cavitile bucal i nazal sunt cuplate n paralel:
H ( z)

1
2
A ( z ) 2 A1 ( z )

1 2
A1 z A2 ( z )
A1 ( z ) A2 ( z )

model ARMA (Auto-Regressive Moving Average)

1.5. Caracteristici fonetice


Mesajul vocal este compus din sunete distincte, denumite foneme.
Fonem = cea mai mic unitate sonor prezent n vorbire.
Fiecare limb are propriile foneme
limbile etimologice - valoarea fonetic difer de transcrierea literal
limbile fonetice - valoarea fonetic este apropiat de transcrierea literal
Pentru redarea grafic a valorii fonetice a literelor, grupurilor
de litere i cuvintelor se folosete Alfabetul fonetic internaional.
Producerea unui fonem dat las loc unei anumite variabiliti.
pe plan acustic; variaiile fonemului se numesc alofoni.
Pentru fiecare limb fonemele sunt mprite n clase i subclase.
Fiecare clas este legat de modul de articulare a aparatului fonator.

Dac s-ar considera tractul vocal ca un singur tub acustic cu


lungimea l (metri), rezonanele acestuia (frecvenele formanilor) ar fi:
Fk 2k 1

c
Hz
4l

k N* , c = viteza sunetului = 340 m/s.

Ex:

c
340
34000

500 Hz
4l 4 0,17 4 17

Fk 2k 1 500 Hz

F1 = 500 Hz, F2 = 1500 Hz, F3 = 2500 Hz


formanii vocalei neutre e mut din limba francez
(foarte apropiai de cei ai vocalei din limba romn)
- configuraia tractului la emisia acestei vocale este foarte
apropiat de cea observat n perioadele de linite, tractul
fiind n repaos.

Dac s-ar considera tractul vocal la producerea fonemelor


corespunztoare vocalelor ca fiind format din dou seciuni
(dou tuburi acustice n cascad) cu lungimile l1, l2 i ariile A1, A2:
A1
[cm2]
1
8

A2
[cm2]
7
1

l1
[cm]
9
9

l2
[cm]
8
6

Vocala
a
i

F1
[Hz]
750
250

F2
[Hz]
1250
1900

F3
[Hz]
2700
2800

Plajele primilor 3 formani pentru cteva dintre vocalele limbii romne


(mrimile barate semnific valorile medii statistice ale formanilor):
Vocala

Plaja F1
[Hz]

i
e
a
o
u

200-450
250-650
450-1100
225-675
200-475

Plaja F2
Plaja F3
F1
F2
F3
[Hz]
[Hz]
[Hz]
[Hz]
[Hz]
300 1850-2625 2200 2575-3500 2950
400 1475-2800 1950 2200-3350 2750
700 950-2100 1300 2050-3275 2600
400 550-1400 1000 1800-3350 2600
350 550-1200 850 2100-3050 2500

Reprezentarea unor vocale ale limbii franceze n planul formanilor F1, F2:
F1 [Hz]
800
a
600
400

200

u
1000

y
2000

i
3000

F2 [Hz]

S-ar putea să vă placă și