Sunteți pe pagina 1din 45

Analiza Semnalului Vocal

http://liceu.uab.es/~joaquim/phonetics/fon_anal_acus/herram_anal_acus.html

1
ANALIZA SV

In domeniul timp: In domeniul frecventa:


- Amplitudinea medie/maxima - TFD (TFR)
- Densitatea de amplitudine -Banc de filtre
- Energia medie - Analiza homomorfica
- Energia TEAGER - Analiza LPC
- Numarul trecerilor prin zero - Analiza perceptuala
- Frecventa fundamentala (F0)
- Codarea TESPAR
2
AMPLITUDINlLE
BANC de ESTIMAREA
BANCULUI de
FILTRE PUTERII FILTRE
DIGITALE

AMPLITUDINILE
BANC de FILTRE B.F. DERIVAT
din FFT
SEMNAL
VOCAL FFT COEFICIENTII
CEPSTRUM CEPSTRALI
DERIVATI din FFT

PREDICTIA LINIARA
(LP)

PREDICTIA BANC de FILTRE AMPLITUDINILE


LINIARA BF DERIVATA
din LP

CEPSTRUM COEFICIENTII
CEPSTRALI
DERIVATI din LP
ANALIZA PERCEPTUALA PLP, MFCC

3
Algoritmi folosiţi în analiza spectrală [Picone]
1. SPECTROGRAMA
• Evolutia functiei spectrale a SV in timp – spectrograful
• Plotarea spectrogramei poate fi : de contur sau luminos/intunecat;
• Primul instrument folosit de foneticieni – Key Elemetrics;
• Compus din : modulator, filtru, tambur de plotare sonograma (f/t)
• Principiul este filtrajul superheterodina, daca SV este s(t) semnalul modulat este
ŝ(t) = s(t)*cos 2πft, iar spectrul este deplasat spre frecvente mai inalte si baleiaza
intrarea FTB;

• Energia in aceasta banda este obtinuta printr-o redresare-integrare;


• Se modifica frecventa purtatoarei pentru a baleia tot spectrul semnalului in banda
filtrului;
• B=300Hz – spectrograma de banda larga - care subliniază modificările temporale
ale semnalului
• B=45Hz – spectrograma de banda ingusta - subliniază în semnal modificările de
4
frecvenţă
Spectrograf (Sonograf)

5
Spectrograma (sonograma)

6
Spectrograma de banda larga si banda ingusta

Spectograma de bandă largă (~3ms)


• urmează vârfuri spectrale largi (formanti) in timp
• evidentiaza cele mai multe perioade individuale ale FF ca striuri verticale,
deoarece banda filtrului de analiza este comparabilă în timp cu o perioada de
pitch
• pentru vorbirea nesonora nu există striuri de pitch verticale 7
OBS. Functie de banda filtrului se poate remarca ca daca B→0 spectrul tinde spre T. Fourier
Spectrograma de banda larga si banda ingusta

Spectograma de bandă îngustă (~20ms)


• armonicile sunt evidentiate in regiunile sonore
• frecvenţele formantilor sunt încă evidentiate
• de obicei, se poate vedea si frecvenţa fundamentală
• regiunile nesonore nu arată o structura bine conturata
8
2. Analiza prin TFR
- reprezintă semnalul ca suma de sinusoidele sau exponentiale complexe si aceasta
conduce la soluţii convenabile pentru diferite probleme (estimare formanti, estimare
F0, şi de analiza semnalului în sine)
• reprezentările Fourier furnizeaza :
- Mijloace convenabile pentru a determina răspunsul sistemelor liniare
la o sumă de sinusoidele
- Evidentierea clara a proprietăţilor semnalului care sunt ascunse în
semnalul original
- Algoritmul FFT (Cooley-Tukey 1965) – prelucrari de semnal in timp real
(reduce operatiile de la N2 > N*log2 N; ex. 106 >>104)

9
10
11
- Spectrul de putere pe timp scurt este compus din anvelopa spectrala globala
(se modifica lent- tractul-rezonante/antirezonante, forma spectrului sursei si caract. de
12
radiatie la nivel buze-nasal) si structura fina (rapid- periodicitatea sursei glotale)
TFTS (STFT) – TF pe timp scurt

- unde w(n-m) este o fereastra care determina portiunea din x(n) care se
foloseste la calculul Xn(ejω)

13
• 500 de esantioane/ferestra (50 msec)
• periodicitatea se poate vedea în timp şi în frecvenţă
• se poate vedea primul formant (300-400 Hz), IIa rezonanţă la 2200 Hz, IIIa rezonanţă
la 3800 Hz 14
• caderea spectrului de frecvenţe, datorită formei impulsurilor glotale
• o claritate mai mare a armonicelor FF din cauza lobului principal mai îngust al
ferestrei rectangulare (RW)
• spectrul de frecvenţe mai zgomotos ( ptr. RW), datorită interferenţei interarmonice,
15
deoarece lobii laterali ai RW au doar -14 dB atenuare
16
17
18
19
Tema. Generati si analizati spectrogramele BL/BI pentru unul din fisierele de lucru (MATLAB).
F[Hz]

t[s]

20
3. Banc de filtre derivat din TFR

N=256, fs=10kHz => δ~ 40Hz


21
22
23
4. ANALIZA PRIN BANC DE FILTRE DIGITALE
x i ( n ) = s( n )  h i ( n )
L −1
=  h i (m)s(n − m)
m =0 Xi (z) = S(z)Hi (z) = s(n)  hi (n)

- Masurarea energiei SV in anumite benzi


24
- Filtrele analogice (Dudley 1939, Bell Labs) >>> filtre digitale
Analiza cu Banc de Filtre Digitale
Fiecare filtru da masura
energiei SV in fiecare
si ( n ) = s( n )  h i ( n ) banda
L −1
Pastreaza componenta DC
=  h i (m)s(n − m) Si elimina imaginile de IF
m =0 create de neliniaritati
Deplaseaza spectrul benzii
semnalului spre banda de JF
Reduce datele Compresie
si creaza imagini de IF
Log, m-law

(20-30 Hz) (40-60 Hz)

FTB pot fi uniform sau neuniform 25


(log, mel, Bark) distrib.
Semnal
Original

500 Hz
concentrare

Varfuri la
500,1000, 1500,...

imagini
Concentrare
DC

26
Banc de filtre Uniform
Banda Filtrului Numarul
(no overlapping) Frecventele f =  Fs i, 1  i  Q filtrelor
i  N
Centrale  

27
Q – numarul filtrelor uniform distribuite pe gama de frecvente a SV
BF Neuniform
• Scara de frecventa logaritmica
• Scara de banda critica
– Mel Scale
– Bark Scale
Scala Logaritmica de Frecventa
• Ptr. Q FTB, fecventa centrala, fi si banda bi:
Banda arbitrara ptr.
b1 = C primul filtru
bi = bi −1 , 2i Q
i −1
(bi − b1 )
Factor logaritmic f i = f1 +  b j +
de crestere j =1 2
Uzual 2.
Frecventa centrala filtru i 28
Arbitrara la primul filtru
C = 200Hz; f 1 = 300Hz;  = 2; Q = 4;

C = 50Hz; f 1 = 225Hz;  = 1.33 Q = 12;

29
Scara de banda critica (perceptuala)

30
Si(n)

Exempu simplificat 31
33
Ex. Care este rata de compresie
la un vocoder de canal cu Q=16
FTB, la prelucrarea unui SV cu
B<8kHz fata de codarea PCM.
Presupunem fes=20kHz, si rez.
CAN 12 biti.

34
5. ANALIZA HOMOMORFICA
• Filtrarea/transformarea homomorfica este o transformare neliniară, x[n] = D(x[n]), aplicată
de obicei, la prelucrari de imagine și vorbire utilizată pentru a transforma un semnal obținut
din convoluția a două semnale în suma celor două semnale.

Analiza vorbirii => parametrii de estimare a unui model de producere a SV si se


măsoara variaţiile lor
SV = excitaţie * răspuns tract
 Daca doresc să separ din SV excitaţia de răspunsul tractului se pot folosi si metode
de filtrare homomorfice
 Sistemele liniare respecta principiul superpozitiei:

35
 Sistemele homomorfice respecta principiul superpozitiei
generalizate (ptr. convolutie):

- Pentru un sistem LTI (linear invariant in timp) avem:

- principiul superpozitiei “generalizate” inlocuieste + prin convolutie (*) :

36
Filtru homomorfic => sistem homomorfic [H] care permite semnalului
dorit sa treaca nealterat, in timp ce opreste pe cel nedorit
; X1 - nedorit

; Opresc X1

- Pentru sistemele liniare putem face analogia cu eliminarea zgomotelor aditive

37
Forma canonica pentru convolutia homomorfica

-orice sistem homomorfic poate fi reprezentat ca si 3 sisteme/blocuri cascadate ptr convolutie


1. Sistemul ia intrarile combinate prin convolutie si le transforma in iesiri aditive
2. Sistemul este unul liniar conventional
3. Sistemul este inversul primului sistem – ia intrarile aditive si le transforma in iesiri prin
convolutie

-relatia de convolutie
-Relatia aditiva

-Sistem liniar

38
- inversa rel. de conv.
Forma canonica pentru domeniul frecventa
- Trebuie gasit un sistem care transforma convolutia in adunare

- Functia logaritm transforma produsul in suma :

39
Cepstrum

Cepstrum = Spec-trum > ceps-trum 40


41
42
43
44
45
TEMA.
Un SV este esantionat la 20kHz. Pentru analiza spectrala pe timp scurt se utilizeaza o
fereastra glisanta de 20ms care se deplaseaza cu 10ms pentru analiza cadrelor
consecutive.Pentru calculul DFT se utilizeaza metoda FFT radix-2.
1.Cate esantioane se folosesc pentru fiecare cadru de analiza?
2. Care este rata de analiza a cadrelor pentru analiza spectrala pe timp scurt?
3. Ce dimensiune are este necesara pentru DFT si FFT pentru a garanta ca nu apare
alias temporal?
4. Care este rezolutia in frecventa (Hz) intre 2 esantioane consecutive?

46