Documente Academic
Documente Profesional
Documente Cultură
Dr. Andrzej Drygajlo andrzej.drygajlo@epfl.ch ELE 233 Groupe de Traitement de la Parole et de Biomtrie (GTPB)
Institut de Traitement des Signaux (ITS) SECTION DELECTRICITE (SE) EPFL IDIAP, Martigny Lausanne 2003
Knowledge Navigator
Implications technologiques
Integration du tlphone
Mains libres/micro HiFi Majordome daccueil
Synthse
Vocabulaire illimit Intonation naturelle Synthse partir de
vocal Vidoconfrence
concepts
Codage de la parole
Dbit/cot/qualit Standardisation
Reconnaissance,
comprhension
Vocabulaire illimit Systme indpendant
du locuteur
dynamism
Speech
entropy
CRAZY JOE
Bumpers
Pourquoi?
Moyen de communication par excellence. Information qui est vhicule par les ondes
sonores. Cest un bruit qui a un sens. Cest le vecteur dinformation qui diffrencie lhomme de lanimal. Signal permettant la communication entre humains. Je ne sais pas en franais. Jespere que a sera plus clair aprs ce cours.
La parole
La voix et le langage
Le cerveau et le langage
Le langage nous aide
structurer le monde en concepts et reduire la complexit des structures abstraites afin de les apprhender: cest la proprit de compression cognitive
AUDITEUR
Comprehnsion Traitement cognitif Traitement linguistique et phontique Systme auditif priphrique
Production du son
Phontique et Phonologie
Phonme
Phonme (notion
phonologique) unit minimale du langage porteuse dune signification linguistique Allophone realisation dun phonme (un phonme peut avoir plusieurs allophones)
La parole
priodique) pour les sons voiss, Tantt alatoire pour les sons fricatifs, Tantt impulsionnelle dans les phases explosives des sons occlusifs.
Exemple: voix-parole
Robustness
Noise/distortion Noise/distortion
Human-machine interface
Ergonomics Ergonomics Subjective/objective Subjective/objective evaluation evaluation Database
Individuality
Speaker Speaker recognition recognition Speaker Speaker adaptation/normalization adaptation/normalization Voice Voice conversion conversion
Feature extraction eec Database (dynamics) h Ar an Signa n tif al o M i t l pro p e y n c ici r e cessin y o e s i g p m t o h i l c c a o s g e u e h s or lI c d c Sp i o m t Psy r e y/ nt p yst ne s l h Ac ell o e e c v h e a r ou e e p ig rn N p c stic S i e t y i s n g n n o s ce g ou atio siol l c y u h c A P rti
Sp
Speech Output
Speech Synthesis
Language Generation
Multimodal Interface
Dialogue System
Database
Speech Input
Language Understanding
Invention du tlphone
Lmetteur liquide de Bell
0110-05
PSTN Internet
VoIP
Voice
Traffic
Content
Content servers
UMTS
Objectifs
A la fin du cours, les tudiants seront capables dappliquer les principales mthodes de traitement numrique du signal pour lanalyse, la compression, la synthse et la reconnaissance de la parole.
Bibliographie
A. Drygajlo, Traitement de la parole,
EPFL, Lausanne, 2003
Bibliographie
B. Gold, N. Morgan, Speech and Audio Signal
Processing, John Wiley and Sons, New York, 2000
T. Quatieri, Discrete-Time
Speech Signal Processing: Principles and Practice, Prentice Hall PTR, Upper Saddle River, 2002. X. Huang, A. Acero, H.-W. Hon, Spoken Language Processing, Prentice Hall PTR, Upper Saddle River, 2001.
Contenu
Production et perception de la parole Analyse et modlisation de la parole Reconnaissance de la parole Reconnaissance du locuteur Synthse de la parole Compression et codage de la parole Communication vocale homme-machine
Modlisation de la parole
Spectrogramme denveloppe
Reconnaissance de la parole
Difficults Comparaison dynamique (DTW) Mthodes statistiques
Modles de Markov cachs (HMM) Algorithmes de Baum-Welch et de Viterbi Rseaux de neurones artificiels (ANN)
Reconnaissance:
de mots isols de mots connects de la parole continue
0103-19
Enveloppes spectrales
Dictionnaire
Histogrammes
Paramtre 1
Paramtre 2 GMM
Paramtre D
Reconnaissance du locuteur
Variabilit intra- et inter-locuteur Vrification et identification du locuteur Mthodes dterministes et statistiques Mthodes dpendantes du texte
Comparaison dynamique (DTW) Modles de Markov cachs (HMM)
Identification biomtrique
Iris
Voix
Signature
Population potentielle
Paramtres Paramtres
Contrles
Base des donnes de contrle (C) du suspect
Rfrences
Synthse de la parole
Prosodie Techniques de synthse
Synthse directe Synthse travers un modle Simulation du conduit vocal
Systmes de synthse
Synthse de messages Synthse partir du texte
- Traitements linguistico-prosodiques - Synthse par rgles - Synthse par diphones
Bande largie
50 Hz 7 kHz Frquence dchantillonage 16 kHz
Bande tlphonique
300 Hz 3.4 kHz Frquence dchantillonage 8 kHz
Quantification
Bits:
16
Intgration de sous-systmes Systmes de dialogue Serveurs vocaux interactifs Systmes de dicte Communication vocale homme-robot