Sunteți pe pagina 1din 28

curs1

Motto:
http://mirlab.org/jang/books/audioSignalProcessing/
http://www.speech.cs.cmu.edu/comp.speech/index.html
http://www.phys.unsw.edu.au/music/
http://mirlab.org/jang/books/audioSignalProcessing/index.asp
http://mirlab.org/jang/matlab/toolbox/asr/html/index.html

http://scgwww.epfl.ch/courses/Traitement_de_la_parole-2009-2010-pdf/
http://www.mathworks.com/products/signal/demos.html?file=/products/demos/shipping/signal/lpcardemo.html

Tematica
Introducere.Istoric
Notiuni despre procesul vorbirii
Mecanismul fonatiei
Parametrii acustici ai semnalului vocal
Caracteristici obiective si subiective ale SV
Modele de producere a SV
Incadrarea SV intre semnale
Aplicatii ale PSV
2. Notiuni despre procesul vorbirii
Prin intermediul vorbirii se transmit mai multe tipuri de informaii :

informaii lingvistice, care reprezint mesajul sec, independent
de cine l transmite
informaii legate de vorbitor (locutor), care dau indicii despre
identitatea celui care vorbete
informaii afective, legate de starea emoional a vorbitorului
(emoie, stress, sntate etc.)
Vorbire
Informatii lingvistice ~ text
Informatii extralingvistice
Vorbire
Vorbitor
(emitator)
Ascultator
(receptor)
Nivel
Lingvistic
Nivel
Fiziologic
Nivel
Acustic
Nivel
Fiziologic
Nivel
Lingvistic
Canalul Semnalului Vocal (Producere-Propagare- Receptie)
DISCRET CONTINUU DISCRET
(Denes and Pinson)


Procesul de producere-transmisie-percepie a vorbirii
Limba reprezint modul de percepie al lumii nconjurtoare i
este format din cuvinte legate prin reguli gramaticale
(sintactice)

Ideea >>>> propoziii >>>>> cuvinte >>> silabe >>>> foneme

Ideea (mesajul) se exprim prin propoziii
Cuvintele sunt purttorii de informaie
Silabele reprezint unitatea de articulare
Fonemele reprezint alfabetul lingvistic al unei limbi
- un cod al unui set unic de micri articulare care include tipul i
locaia excitaiei la fel ca i poziia sau micarea elementelor articulare
ale tractului vocal
- Fonemele definesc un grup de sunete similare, dar nu identice care
difer ntre ele datorit mai multor factori (accent, vrst, sex, efecte de
coarticulare)
- o fonem nu este un sunet ci o abstractizare care acoper o
clas de sunete care exprim acelai sens
LIMBA SCRISA ~ LIMBII VORBITE
sunete
text
Semnal vocal sonor si nesonor
(Voiced and Unvoiced Speech)
0 100 200 300 400 500 600 700 800 900 1000
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
Liniste nesonor
sonor
Corespondentul fonemei (care este unitate lingvistic), din punct de
vedere fizic (sonor) este fonul, care reflect micrile i poziiile
organului fonator
fiecrei foneme i este asociat o colecie de alofoni care
reprezint variante ale fonilor
Alofonii sunt elemente de trecere lin de la un fonem (fon) la
altul, care se modific n funcie de fonemele (fonii) care l preced
sau l succed (exemplu alofoni din arama)
Limba Consoane Vocale
Romn 20 7
Englez 24 12
Japonez 20 5
Francez 20 16
Fonemele pentru diferite limbi
Pentru a standardizarea transcrierii fonetice s-a dezvoltat
alfabetul fonetic internaional IPA (1888) care este nc
rspndit i utilizat. Un inconvenient - mainile de scris i
tastaturile calculatoarelor nu pot imprima toate caracterele IPA.
United States Advanced Research Projects Agency (ARPA) aa
numitul ARPAbet care are dou variante
SAMPA (Speech Assessment Methods Phonetic Alphabet) care
n principal const n maparea simbolurilor IPA pe codurile ASCII
n gama 30-127 (pe primii 7 bii printabili).
SAMPA (Speech Assessment Methods Phonetic Alphabet):
@ pentru ;
t, pentru ;
s, pentru ;
1 pentru

Fonemele limbii romne
3. Mecanismul fonaiei. Parametrii semnalului vocal
Vorbirea este un proces complex care implic un mecanism anatomo-
fiziologic ct i memorie i inteligen capabile s gndeasc ideile ce vor fi
transmise
Fonaia reprezint procesul de producere a sunetelor caracteristice vocii
umane plecnd de la procesele corticale pn la generarea fizic a sunetului la
nivelul buzelor
http://www.youtube.com/watch?v=rkZxYjl_D48

http://www.youtube.com/watch?v=v9Wdf-RwLcs

http://auditoryneuroscience.com/vocal_folds



Sectiune prin laringe vedere de sus
Mecanismul fiziologic de producere a vorbirii
Amplitudine
Timp (ms)
50 ms
Faza
deschidere
Faza
inchidere
Inchidere
Perioada = 12.5ms
FF = 1/0.0125 = 80Hz
Impulsurile Glotale
Frecventa fundamentala a SV (F0) frecventa de oscilatie a corzilor vocale

Obs. Frecventa perceputa (pitch) poate fi diferita de cea fizica
ex. La telefon Banda 0,3-3,4 kHz, deci frecventa de 110Hz (a corzilor vocale fizica)
nu trece, dar totusi e perceputa, deci pitch=110Hz.
Cea mai mica frecventa fizica care trece e armonica a III-a de 330Hz.
Pitch este senzatia mentala sau de perceptuala corelata cu F0
Relaia dintre pitch i F0 nu este liniar;
percepia umana a pitch-ului este mai precis ntre 100Hz i 1000Hz (liniar n acest
interval si peste 1000Hz, logaritmic)
Scar Mel este un model de corelare a F0 cu pitch
1 Mel este o unitate de pitch definita astfel nct perechi de sunete care sunt
percepute echidistante n pitch sunt separate printr-un numr egal de Mels
Frecventa n Mels = 1127 ln (1 + f / 700)
Spectrul impulsurilor glotale
Intensitate
Frecventa(Hz)
armonicile spectrului distantate la 80 Hz, corespund la o
perioada a FF de 12.5ms
tipuri de excitaie : mixt, ploziv, optit i linite
Forma si dimensiunea tractului vocal pot fi schimbate de organele articulatoare:
- buze, dinti, palat, velum, limba, falci, cutele alveolare, cavitatea nazala
http://www.exploratorium.edu/exhibits/vocal_vowels/vocal_vowels.html
http://www.chass.utoronto.ca/~danhall/phonetics/sammy.html
Modelul de producere a vorbirii sursa-filtru
Excitatia Filtru
Semnal vocal
Spectru glotal
Raspunsul in frecventa
a tractului vocal
Sursa si filtrul sunt independente, astfel:
Vocale diferite pot avea acelasi pitch
Aceeiasi vocala poate avea pitch diferit
Spectrul semnalului vocal
4. Caracteristici obiective si subiective ale SV

-nlimea - care este corespondentul subiectiv al frecvenei semnalului.
Vocalele sunt sunete armonice cu spectru dominant n domeniul frecvenelor
joase, iar consoanele prezint caracteristici de zgomot cu amplitudini spectrale
importante n partea superioar a spectrului


-intensitatea (tria) - care este echivalentul subiectiv al intensitii acustice,
fiind dat de amplitudinea undei acustice. Se tie c urechea este capabil s
perceap anumite sunete numai dac intensitatea lor depete o anumit
valoare, prag de audibilitate, care depinde de asculttor i este stabilit la
10-16 W/cm2 la o frecven de 1kHz










- timbrul sonor (calitatea) - corespunde caracteristicilor care confer individualitate sunetelor, pe
baza lor urechea putnd recunoate sunetele chiar dac prezint o serie de caracteristici
comune. n general timbrul se refer la compoziia spectral (continutul armonic) si caracteristicile
dinamice ca vibrato si cresterea-descresterea (attack-decay) anvelopei

5. Modele de producere a SV
- mecanice, modele hidrodinamice i modele electrice.
- Av este amplitudinea vocii
- F0 frecventa fundamentala
- Fi,Bi (I1...5) reprezinta formantii si benzile lor pentru tractul vocal
- AK, Ac amplitudinile zgomotelor fricative
- K1, K2 frecventele zgomotelor fricative
- AH - amplitudinea aspiratiei
- AN - amplitudinea componentei nazale
- N1 - formantul nazal (~250Hz).
Model simplificat de producere a vorbirii (LPC)
6. Incadrarea SV intre semnale
Pe termen lung semnalul vocal este un semnal continuu nestaionar proprietile lui
variind dup o lege oarecare.
Pe perioade scurte de timp (10-30ms) el poate fi considerat cvasistaionar
7. APLICATII ALE PRELUCRARII SV
Referinte suplimentare:

http://www.phys.unsw.edu.au/~jw/dB.html
Introduction to the definition of Decibels for measuring energy/volume of speech/audio
signals.
http://www.phys.unsw.edu.au/~jw/hearing.html
Introduction (including interactive demos) to curves of equal loudness.
http://www.phys.unsw.edu.au/music/
Homepage for "Music Acoustics".
http://www.phys.unsw.edu.au/~jw/musFAQ.html
FAQ for "Music Acoustics".
http://www.wotsit.org
File formats for various kinds, including audio and music.
http://www.speech.cs.cmu.edu/comp.speech/index.html
FAQ for the newsgroup "Comp.Speech".
http://www.bdti.com/faq/dsp_faq.htm
FAQ for the news group "Comp.DSP".
http://www.harmony-central.com/Effects/effects-explained.html
Introduction to audio effects, including many examples.