Sunteți pe pagina 1din 128

MINISTERE DE LENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE

UNIVERSITE MOULOUD MAMMERI DE TIZI OUZOU

FACULTE DE GENIE ELECTRIQUE ET DE LINFORMATIQUE


DEPARTEMENT DELECTRONIQUE

MEMOIRE DE MAGISTER
En vue de lobtention du diplme de Magister en Electronique

Option tldtection

Prsent par :

Mr BERBECHE Kamal

Intitul :

Modles de Markov Cachs : Application La


Reconnaissance Automatique de la Parole.
Devant le Jury dexamen compos de :
Mr Laghrouche Mourad Professeur lUMMTO Prsident
Mr Haddab Salah Matre de confrences A lUMMTO Rapporteur
Mr Hammouche Kamal Professeur lUMMTO Examinateur
Mme Ameur Zohra Professeur lUMMTO Examinateur
Mr Lazri Mourad Matre de Confrences B lUMMTO Examinateur
REMERCIEMENTS
REMERCIEMENTS
Remerciements

La ralisation de ce mmoire en vue de lobtention du diplme de Magister en


lectronique a t rendue possible grce au soutien de plusieurs personnes qui je voudrai
tmoigner ma reconnaissance, leurs disponibilits et leurs comptences m'ont permis de
franchir beaucoup dobstacles, quils trouvent ici le tmoignage de ma gratitude et mes
remerciements les plus sincres.

Je voudrais tout d'abord adresser tous mes remerciements mon directeur de mmoire
Monsieur HADDAB Salah, Maitre de Confrences A luniversit de Tizi Ouzou pour son
immense patience, sa grande disponibilit et ses conseils qui ont contribu grandement la
ralisation de ce travail. Quil trouve ici lexpression de ma profonde gratitude.

Jexprime mes sincres remerciements et ma profonde gratitude Mr Laghrouche


Mourad, professeur lUniversit Mouloud MAMMERI de Tizi-ouzou pour lhonneur quil
me fait en prsidant ce jury.

Je tiens remercier chaleureusement Mme Ameur Zohra, professeur lUniversit


Mouloud MAMMERI de Tizi-ouzou, pour avoir accept de faire partie du jury.

galement, jexprime ma profonde gratitude Mr Hammouche Kamal, professeur


lUniversit Mouloud MAMMERI de Tizi-ouzou, pour avoir accept de faire partie du jury.

Jadresse mes vifs remerciements Mr Lazri Mourad, Maitre de confrance B


lUniversit Mouloud MAMMERI de Tizi-ouzou, pour avoir accepter aussi de faire partie du
jury.

Mes remerciements et ma gratitude aux responsables, chercheurs du laboratoire LAMPA.

Je dsir aussi remercier les enseignants du dpartement lectronique de luniversit de


tizi-ouzou qui mont fourni les outils et les connaissances ncessaires la russite de mes
tudes universitaires.

Je voudrais exprimer ma plus haute reconnaissance mes parents et toute ma famille


pour leur soutien, leur aide et leur patience.

Finalement, je noublierai pas de citer tous mes amis et collgues qui m'ont toujours
soutenu et encourag tout au long de cette dmarche.
Remerciements
TABLES DES MATIRES
Table des matires

GLOSSAIRE

INTRODUCTION GNRALE ------------------------------------------------------------------- 1

CHAPITRE I : GNRALITS SUR LA PAROLE

Introduction ------------------------------------------------------------------------------------------- 3

I.1. Production de la parole ------------------------------------------------------------------------- 3


I.1.1. Le processus de production -------------------------------------------------------------------------------------- 3
I.1.2. Les diffrentes tapes de production de la parole------------------------------------------------------------ 4
I.1.3. Les organes de production de la parole ------------------------------------------------------------------------ 5
I.1.3.1. Le larynx ------------------------------------------------------------------------------------------------------ 5
I.1.3.2. Les cavits supraglottiques --------------------------------------------------------------------------------- 8
I.1.4. Les sons de la parole par lapproche production------------------------------------------------------------ 10

I.2. Audition-perception des sons de parole ----------------------------------------------------- 13


I.2.1. Structure de loreille --------------------------------------------------------------------------------------------- 13
I.2.2. Principe de perception auditive -------------------------------------------------------------------------------- 14

I.3. Traitement de la parole ------------------------------------------------------------------------ 16


I.3.1. Numrisation ----------------------------------------------------------------------------------------------------- 17
I.3.2. Lchantillonnage ------------------------------------------------------------------------------------------------ 17
I.3.3. La Quantification ------------------------------------------------------------------------------------------------ 18
I.3.4. Le Codage --------------------------------------------------------------------------------------------------------- 18

I.4. Analyse du signal de parole ------------------------------------------------------------------- 18


I.4.1. Analyse temporelle ---------------------------------------------------------------------------------------------- 18
I.4.2. Analyse frquentielle -------------------------------------------------------------------------------------------- 19

CHAPITRE II : LES PARAMTRES PERTINENTS DU SIGNAL DE PAROLE

Introduction ------------------------------------------------------------------------------------------ 25

II.1. Coefficients cepstraux de prdiction linaire ---------------------------------------------- 25

II.2. Lanalyse en banc de filtre ------------------------------------------------------------------- 27

II.3. Analyse par prdiction linaire perceptuelle ---------------------------------------------- 28


II.4. Mthodes RASTA- PLP et JRASTA- PLP ----------------------------------------------- 29

II.5. Analyse rsolution multiple --------------------------------------------------------------- 30

II.6. Mthodes Acoustiques hybrides ------------------------------------------------------------ 33

II.7. Autres paramtres acoustiques -------------------------------------------------------------- 34

Conclusion ------------------------------------------------------------------------------------------- 34

CHAPITRE III : LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

Introduction ------------------------------------------------------------------------------------------ 35

III.1. Niveaux de complexit de la RAP --------------------------------------------------------- 35

III.2. Approche et techniques de reconnaissance automatique de la parole----------------- 37

III.2.1. Approche par la normalisation temporelle---------------------------------------------- 37

III.2.2. Approche par modlisation stochastique ----------------------------------------------- 39

III.2.3. Approche par modles neuromtriques ------------------------------------------------- 42

III.2.4. Approche Baysienne---------------------------------------------------------------------- 44

Conclusion ------------------------------------------------------------------------------------------- 45

CHAPITRE IV : LES MODLES DE MARKOV CACHS

Introduction ------------------------------------------------------------------------------------------ 46

IV.1. Historique ------------------------------------------------------------------------------------- 46

IV.2. Les chaines de Markov discrtes ----------------------------------------------------------- 48

IV.3. calcul de la vraisemblance ----------------------------------------------------------------- 53

IV.3.1. Lalgorithme Forward --------------------------------------------------------------------- 53

IV.3.2. Lalgorithme Backward ------------------------------------------------------------------- 55

IV.3.3. Probabilits dductibles ------------------------------------------------------------------- 57

IV.3.4. Dcodage/segmentation de squences dobservations -------------------------------- 57


IV.3.4.1. Etats cachs les plus probables chaque instant ------------------------------------------------------- 58
IV.3.4.2. Algorithme de viterbi --------------------------------------------------------------------------------------- 58
IV.4. Apprentissage des modles de Markov cachs ------------------------------------------ 60

IV.4.1 Apprentissage tiquet --------------------------------------------------------------------- 60

IV.4.2 Maximisation de la vraisemblance ------------------------------------------------------- 61


IV.4.2.1. Introduction lalgorithme Expectation-Maximisation----------------------------------------------- 62
IV.4.2.2. Lalgorithme de Baum-Welch----------------------------------------------------------------------------- 63
IV.4.2.3. Descente de gradient ---------------------------------------------------------------------------------------- 64

IV.5. Critre du maximum a posteriori (MAP) ------------------------------------------------ 67

IV.6. Maximisation de linformation mutuelle-------------------------------------------------- 69

IV.6.1. Maximisation de linformation mutuelle de la vraisemblance ---------------------- 69

IV.6.2. Maximisation de linformation mutuelle du MAP ------------------------------------ 71

IV.7. Le critre de segmental k-means ----------------------------------------------------------- 72

IV.8.1. Premire approche ------------------------------------------------------------------------- 73

IV.8.2. Deuxime approche ------------------------------------------------------------------------ 74

Conclusion ------------------------------------------------------------------------------------------- 76

CHAPITRE V : IMPLEMENTATION DE LA RECONNAISSANCE


AUTOMATIQUE PAR MMC

Introduction ------------------------------------------------------------------------------------------ 78

V.1. Objectif du travail : --------------------------------------------------------------------------- 78

V.2. Structure gnrale dun Reconnaissance Automatique de la parole continue ------- 78

V.3. Structure dun Systme de Reconnaissance Automatique de la parole continue par


MMC ------------------------------------------------------------------------------------------------------- 80

V.4. Premire Application : Dveloppement dun Systme de Reconnaissance de la


parole par MMC sous Matlab. ------------------------------------------------------------------------- 81

V.4.2.Extraction des paramtres MFCC --------------------------------------------------------- 82

V.4.3. Le modle HMM ---------------------------------------------------------------------------- 82

V.4.4. Lentrainement du modle MMC --------------------------------------------------------- 83


V.4.5 Tests et Rsultats----------------------------------------------------------------------------- 84

V.5 Deuxime Application : Dveloppement dun systme de Reconnaissance de la


Parole sous HTK

V.5.1 Systme Monophone ----------------------------------------------------------------------- 85

V.5.2 Systme triphone ---------------------------------------------------------------------------- 88

V.5.3 Analyse des rsultats ------------------------------------------------------------------------ 89

Conclusion ------------------------------------------------------------------------------------------- 89

CONCLUSION GNRALE --------------------------------------------------------------------- 90

ANNEXES ------------------------------------------------------------------------------------------- 92

ANNEXE A : MISE EN UVRE DELA RECONNAISSANCE AUTOMATIQUE


DE LA PAROLE SOUS HTK.

Introduction

A.1. Outils de prparation de donnes

A.2. Outils dapprentissage

A.3. Outils de reconnaissance

ANNEXE B :

LA PARAMTRISATION MFCC

Introduction

B.1. La paramtrisation par MFCC

BIBLIOGRAPHIE
Glossaire

GLOSSAIRE

LPC : Coefficients de prdiction linaire.


LPCC : Coefficients cepstrales de prdiction linaire.
MFCC : Coefficients cepstrales chelle frquentielle de Mel.
DCT : Transforme en cosinus discrte.
PLP : Prdiction linaire perceptuelle.
RASTA : Analyse spectrale relative.
JRASTA: Analyse spectral relative au bruit additif.
MRA: Analyse resolution multiple.
ANN: Artificiel Neural Network, Rseau de Neurones artificiel.
GMM: Gaussian mixture model, model de mixture de gaussiennes.
MMC: Model de Markov Cachs.
HMM: Hidden markov Model.
MAP: Maximum posteriori.
ML: Maximum de vraissamblance.
EM:ExpectationMaximisation.
SEM:Expectation Maximisation Stochastique.
ICE: Estimation Conditionnelle itrative.
MIM: Maximisation de linformation mutuelle.
Introduction gnrale

2
INTRODUCTION GNRALE
Introduction gnrale

Le traitement de la parole est, aujourdhui, une composante fondamentale des sciences de


lingnieur. Situe au croisement du traitement du signal numrique et du traitement du
langage (c'est--dire du traitement de donnes symboliques), cette discipline scientifique a
connu, depuis les annes 60, une expansion fulgurante, lie au dveloppement des moyens et
des techniques de tlcommunications.

Limportance particulire du traitement de la parole sexplique par la position privilgie


de la parole comme vecteur dinformation dans notre socit humaine.

Lextraordinaire singularit de cette science, qui la diffrencie fondamentalement des


autres composantes du traitement de linformation, tient, sans aucun doute, au rle fascinant
que joue le cerveau humain la fois dans la production et dans la comprhension de la parole
et ltendue des fonctions quil met en oeuvre.

Aprs plus de soixante annes de recherches et de dveloppement industriel, les


performances des systmes de reconnaissances automatiques de la parole (RAP) se sont
considrablement amliores, permettant daborder des domaines dapplication de complexit
croissante. Les travaux actuels les plus avancs concernent des systmes de dialogue via le
tlphone, la reconnaissance de la parole spontane ou la transcription dmissions de radio
ou tlvision. Les performances obtenues dpendent beaucoup du type de tche considre
(taille et difficult du vocabulaire, nombre et diversits des locuteurs, conditions
denregistrement). Le traitement automatique de la parole a t, ds lorigine fortement,
tributaire de lvolution technologique.

Sil nest pas en principe de parole sans cerveau humain pour la produire, lentendre, et la
comprendre, les techniques modernes de traitement de la parole tendent cependant produire
des systmes automatiques qui se substituent lune o lautre de ces fonctions.

Ainsi, les analyseurs de parole cherchent mettre en vidence les caractristiques du


signal vocal tel quil est produit, ou parfois tel quil est peru, mais jamais tel quil est
compris. Dun autre cot les reconnaisseurs ont pour mission de dcoder linformation porte
par le signal vocal partir de donnes fournies par lanalyse. On distingue fondamentalement
deux types de reconnaissance, en fonction de linformation que lon cherche extraire du
signal vocal : La reconnaissance du locuteur, avec pour objectif est reconnaitre la personne
qui parle, et la reconnaissance de la parole, o lon sattache plutt reconnaitre ce qui est dit.

1
Introduction gnrale

On classe galement les reconnaisseurs en fonction des hypothses simplificatrices sous


lesquelles ils sont appels fonctionner :

En reconnaissance du locuteur, on fait la diffrence entre la vrification et lidentification


du locuteur, selon que le problme est de vrifier que la voix analyse correspond bien la
personne qui est sense la produire, ou quil sagisse de dterminer qui, parmi un nombre fini
et prtabli de locuteur, a produit le signal analys.
Par ailleurs, on distingue la reconnaissance du locuteur dpendante du texte,
reconnaissance avec texte dict, et reconnaissance indpendante du texte. Dans le premier cas,
la phrase prononcer, pour tre reconnu, est fixe ds la conception du systme ; elle est fixe
lors du test dans le deuxime cas, et nest pas prcise dans le troisime.
On parle galement de reconnaisseur de parole monolocuteur, multilocuteur, ou
indpendant du locuteur, selon quil a t entrain reconnaitre la voix dune personne, dun
groupe fini de personnes, ou quil est, en principe, capable de reconnaitre nimporte qui.
On distingue enfin reconnaisseur de mots isols, reconnaisseur de mots connects, et
reconnaisseur de parole continue, selon que le locuteur spare chaque mot par un silence,
quil prononce de faon continue une suite de mots prdfinis, ou quil prononce nimporte
quelle suite de mots de faon continue.

Dans ce mmoire, nous consacrons le premier chapitre aux gnralits sur la parole, sa
production et perception chez ltre humain, son acquisition et ses traitements et analyse.

Dans le second chapitre, nous dcrivons les paramtres acoustiques pertinents du signal
de parole. Par la suite, le chapitre trois est consacr la description des systmes de
reconnaissance automatique de la parole.

Dans le quatrime chapitre, nous allons introduire les Modles de Markov Cachs et leurs
algorithmes, critres qui sont la base des systmes modernes de reconnaissance automatique
de la parole.

Nous terminons, dans le chapitre Cinq, par dcrire lapplication ralise qui consiste la
reconnaissance automatique de la parole sous matlab et sous HTK.

2
CHAPITRE I : GNRALITS
SUR LA PAROLE
Chapitre I Gnralits sur la parole

Introduction

Linformation porte par le signal de parole peut tre analyse de bien des faons. On
distingue, gnralement, plusieurs niveaux de description non exclusifs : Acoustique,
phontique et bien dautres [1].

Dans ce chapitre nous allons, dans un premier temps, dcrire les processus de production
et de perception auditive de la parole puis nous donnerons un aperu sur les notions de
phontique. Nous terminerons par la conversion de la parole en signal lectrique et nous
rappellerons quelques outils de base utiliss en traitement de signaux acoustiques.

I.1. Production de la parole

La parole peut tre dcrite comme le rsultat de laction volontaire et coordonne dun
certain nombre de muscles des appareils respiratoires et articulatoires [1]. Cette action se
droule sous le contrle du systme nerveux central qui reoit, en permanence, des
informations par rtroaction auditive et par les sensations kinesthsiques [2].

I.1.1. Le processus de production

De faon simple, on peut rsumer le processus de production de la parole comme un


systme dans lequel une ou plusieurs sources excitent un ensemble de cavits. La source sera
soit gnre au niveau des cordes vocales soit au niveau dune constriction du conduit vocal.

Dans le premier cas, la source rsulte dune vibration quasi-priodique des cordes vocales
et produit ainsi une onde de dbit quasi-priodique.

Dans le second cas, la source sonore est soit un bruit de friction soit un bruit dexplosion
qui peut apparatre sil y a un fort rtrcissement dans le conduit vocal o si un brusque
relchement dune occlusion du conduit vocal sest produit.

Lensemble de cavits situes aprs la glotte, dites les cavits supraglottiques, vont ainsi
tre excites par la ou les sources et "filtrer" le son produit au niveau de ces sources. Ainsi, en
changeant la forme de ces cavits, lhomme peut produire des sons diffrents. Les acteurs de
cette mobilit du conduit vocal sont communment appels les articulateurs.

3
Chapitre I Gnralits sur la parole

Fig.1.1-Lappareil phonatoire.

On peut donc rsumer le processus de production de la parole en trois tapes essentielles

La gnration dun flux dair qui va tre utilis pour faire natre une source
sonore (au niveau des cordes vocales ou au niveau dune constriction du
conduit vocal) Cest le rle de la soufflerie.
La gnration dune source sonore sous la forme dune onde quasi-priodique
rsultant de la vibration des cordes vocales ou/et sous la forme dun bruit
rsultant dune constriction ou dun brusque relchement ou occlusion du
conduit vocal : Cest le rle de la source vocale.
La mise en place des cavits supraglottiques (conduits nasal et vocal ) pour
obtenir le son dsir ( cest principalement le rle des diffrents articulateurs
du conduit vocal).

I.1.2. Les diffrentes tapes de production de la parole

Lappareil respiratoire fournit lnergie ncessaire la production de sons, en poussant de


lair travers la tranche-artre. Au sommet de celle-ci se trouve le larynx o la pression de
lair est module avant dtre applique au conduit vocal. Le larynx est un ensemble de
muscles et de cartilages mobiles qui entourent une cavit situe la partie suprieure de la
tranche (fig.1.1). Les cordes vocales sont en faite deux lvres symtriques places en travers
du larynx. Ces lvres peuvent fermer compltement le larynx et, en scartant
progressivement, dterminer une ouverture triangulaire appele glotte. Lair y passe librement
pendant la respiration et la voix chuchote, ainsi que pendant la phonation des sons non
voiss. Les sons voiss rsultent au contraire dune vibration priodique des cordes vocales.

4
Chapitre I Gnralits sur la parole

Le larynx est dabord compltement ferm, ce qui accroit la pression en amont des cordes
vocales, et les force souvrir, ce qui fait tomber la pression, et permet aux cordes vocales de
se refermer ; des impulsions priodiques de pression sont ainsi applique, au conduit vocal,
compos des cavits pharyngienne et buccale pour la plupart des sons. Lorsque la luette est en
position basse, la cavit nasale vient sy ajouter en drivation.

Dans la suite de cette section, nous allons dfinir au mieux les organes intervenants dans
ce processus.

I.1.3. Les organes de production de la parole

La parole est essentiellement produite par deux types de sources vocales. La premire,
plus sonore, est celle qui prend naissance au niveau du larynx suite la vibration des cordes
vocales. La seconde, moins sonore, prend naissance au niveau dune constriction du conduit
vocal ou lors dun relchement brusque dune occlusion du conduit vocal. On parlera dans ce
cas de sources de bruit.

I.1.3.1. Le larynx

Le larynx est un organe situ dans le cou qui joue un rle crucial dans la respiration et
dans la production de parole. Le larynx (fig.1.2) est plus spcifiquement situ au niveau de la
sparation entre la trache artre et le tube digestif, juste sous la racine de la langue. Sa
position varie avec le sexe et lge : il sabaisse progressivement jusqu la pubert et il est
sensiblement plus lev chez la femme.

Fig.1.2-Schma du larynx

Il est constitu dun ensemble de cartilages, il est constitu dun ensemble de cartilages
entours de tissus mous. La partie la plus prominente du larynx est forme du thyrode. La

5
Chapitre I Gnralits sur la parole

partie antrieure de cartilage est communment appele la "pomme dAdam". On trouve, juste
au dessus du larynx, un os en forme de U appel los hyoid. Cet os relie le larynx la
mandibule par lintermdiaire de muscles et de tendons qui joueront un rle important pour
lever le larynx pour la dglutition ou la production de parole.

La partie infrieure du larynx est constitue dun ensemble de pices circulaires, le


cricode, sous lequel on trouve les anneaux de la trache artre.

Le larynx assure ainsi trois fonctions essentielles :

Le contrle du flux dair lors de la respiration


La protection des voies respiratoires
La production dune source sonore pour la parole

Les muscles du larynx

Les mouvements du larynx sont contrls par deux groupes de muscles. On distingue
ainsi les muscles intrinsques, qui contrlent le mouvement des cordes vocales et des muscles
lintrieur du larynx, et les muscles extrinsques, qui contrlent la position du larynx dans le
cou.

La figure I.3 nous reprsente les muscles intrinsques. Les cordes vocales sont ouvertes
par une paires de muscles (les muscles cricoarytnoide postrieur) qui sont situs entre la
partie arrire du cricode et le cricoarytenode.

Fig.1.3 Schma des muscles intrinsques du larynx

6
Chapitre I Gnralits sur la parole

Les cordes vocales

Les cordes vocales situes au centre du larynx ont un rle fondamental dans la
production de la parole.

Elles sont constitues de muscles recouverts dun tissus assez fin couramment appel la
muqueuse. Sur la partie arrire de chaque corde vocale, on trouve une petite structure faite de
cartilages : Les arytnoides. De nombreux muscles y sont rattachs qui permettent de les
carter pour assurer la respiration.

Durant la production de parole, les arytnoides sont rapprochs (voir figure I.3). Sous la
pression de lair provenant des poumons, les cordes vocales souvrent puis se referment
rapidement. Ainsi, lorsquune pression soutenue de lair dexpiration est maintenue, les
cordes vocales vibrent et produisent un son qui sera par la suite modifi dans le conduit vocal
pour donner lieu un son vois. Ce processus de vibration des cordes vocales est dcrit un
peu plus en dtail ci-aprs.

Fig.1.4 Les cordes vocales en position ouvertes durant la respiration ( gauche) et ferms pour la
production de parole ( droite)

Plusieurs muscles aident pour fermer et tendre les cordes vocales. Les cordes vocales sont
elles mme constitues dun muscle, le thyroarytnoide. Un autre muscle, linterarytnoide ,
permet de rapprocher ces deux cartilages. Le muscle cricoarytnoide latral qui est lui aussi
situ entre larytnoide et le cartilage cricode sert la fermeture du larynx.

Le muscle cricothyroide va du cartilage cricoide jusquau cartilage thyroide. Lorsquil se


contracte, le cartilage cricoid bascule en avant et tend les cordes vocales ce qui rsultera un
lvement de la voix.

Les muscles extrinsques naffectent pas le mouvement des cordes vocales mais lvent
ou abaissent le larynx dans sa globalit.

7
Chapitre I Gnralits sur la parole

La figure 1.5 donne une vue schmatique dune coupe verticale du larynx. Sur ce schma,
les cordes vocales sont ici clairement spares, comme elles seraient durant la respiration. On
peut galement remarquer au-dessus des cordes vocales, des tissus ayant pour principal rle
dviter le passage de substances dans la trache durant la dglutition : ce sont les fausses
cordes vocales. Il est important de noter quelles ne jouent aucun rle lors de la phonation. Le
cartilage mou en forme grossire de langue qui se trouve au-dessus est appel lpiglotte et a
galement un rle pour protger laccs de la trache lors de la dglutition.

Fig.1.5-Vue longitudinale du larynx

I.1.3.2. Les cavits supraglottiques

Dautres organes situs au dessus de la glottes (organes supraglottiques) interviennent


galement, meme un degr moindre, dans la production du son. On distingue, ainsi :

Le conduit vocal

Considr comme un tube acoustique de section variable qui stend de la glotte


jusquaux lvres. Pour un adulte, le conduit vocal mesure environ 17 cm. Sa forme varie en
fonction du mouvement des articulateurs qui sont les lvres, la mchoire, la langue et le
velum. Ces articulateurs sont brivement dcrits ci-dessous.

Le conduit nasal

Le conduit nasal est un passage auxiliaire pour la transmission du son. Il commence au


niveau du velum et se termine aux niveaux des fosses nasales. Pour un homme adulte, cette
cavit mesure environ 12 cm.

Le couplage acoustique entre les deux cavits est contrl par louverture au niveau du
velum (figure I.1). On notera que le velum -ou voile du palais- est largement ouvert. Dans ce

8
Chapitre I Gnralits sur la parole

cas, on aura la production dun son nasal. Dans le cas contraire, lorsque le velum ferme le
conduit nasal le son produit sera dit non-nasal.

Dautre organes, dits articulateurs, joue galement un rle chacun en ce qui le concerne.
Les articulateurs sont :

La langue

La langue est une structure frontire, appartenant la fois la cavit buccale pour sa
partie dite mobile et au glosso-pharynx pour sa partie dite fixe, qui applique contre le palais
ou les dents constituent un organe vibratoire accessoire, intervenant dans la formation des
consonnes. Elle a donc de limportance pour la phonation.

On comprend que la langue est un articulateur fondamental puisque sa position est


dterminante dans le conduit vocal.

La mchoire

La mchoire possde un nombre de degrs de libert plus faible et tant un corps rigide
ne peut pas se dformer comme la langue. Nanmoins, la mchoire peut non seulement
souvrir et se fermer, mais peut galement savancer ou effectuer des mouvements de rotation.

Son rle dans la parole nest cependant pas primordial dans la mesure o il est possible
en bloquant la mchoire de parler de faon trs intelligible.

Les lvres

Les lvres sont situes lextrmit du conduit vocal et comme pour la langue, elles
possdent une grande mobilit en raison des nombreux muscles impliqus dans leur contrle.
Les points de jonction des lvres suprieure et infrieure sappellent les commissures et jouent
un grand rle dans la diplomatie (pour le sourire, bien sur...).

Au point de vue acoustique, cest lespace introlabial qui est important. On peut
observer diffrents mouvements importants pour la phonation dont :

locclusion (les lvres sont fermes)


La protrusion (les lvres sont avances vers lavant)

9
Chapitre I Gnralits sur la parole

llvation et labaissement de la lvre infrieure


ltirement, labaissement ou llvation des commissures

I.1.4. Les sons de la parole par lapproche production

Dans ce qui suit, nous allons sintresser aux diffrentes classes de sons au niveau
phontique tout en expliquant comment ces sons sont produits.

Notions de phontique

La parole, quelle quen soit la langue, est constitue dun nombre finis dlments
sonores distinctifs. Ces lments forment les units linguistiques lmentaires et ont la
proprit de changer le sens dun mot. Ces units lmentaires sont appels phonmes [3].

Un phonme est donc la plus petite unit phonique fonctionnelle, cest--dire distinctive.
Il nest pas dfini sur un plan acoustique, articulatoire, ou perceptuel, mais bien sur le plan
fonctionnel. Les phonmes nont pas dexistence indpendante : Ils constituent un ensemble
structur dans lequel chaque lment est intentionnellement diffrent de tous les autres, la
diffrence tant chaque fois porteuse de sens. La liste des phonmes pour la plupart des
langues europennes a t tablie ds la fin du 19 sicle.

Les phonmes peuvent ainsi tre vus comme les lments de base pour le codage de
linformation linguistique.

Cependant, ces phonmes peuvent se regrouper en classes dont les lments partagent des
caractristiques communes. On parlera ici de "traits distinctifs".

Trait distinctif : Un trait distinctif est lexpression dune similarit au niveau


articulatoire, acoustique ou perceptif des sons concerns.

Par exemple, pour les voyelles on distinguera 4 traits distinctifs :

La nasalit : la voyelle a t prononce laide du conduit vocal et du conduit


nasal suite louverture du velum.
Le degr douverture du conduit vocal
La position de la constriction principale du conduit vocal, cette constriction tant
ralise entre la langue et le palais.
La protrusion des lvres.

10
Chapitre I Gnralits sur la parole

De mme, les consonnes seront classes laide de 3 traits distinctifs :

Le voisement : la consonne a t prononce avec une vibration des cordes vocales


Le mode darticulation (on distinguera les modes occlusif, fricatif, nasal, glissant
ou liquide).
La position de la constriction principale du conduit, souvent appele lieu
darticulation qui contrairement aux voyelles nest pas ncessairement ralis
avec le corps de la langue.

En fait, les phonmes (qui peuvent donc tre dcrits suivant leurs traits distinctifs) sont
des lments abstraits associs des sons lmentaires. Bien entendu, les phonmes ne sont
pas identiques pour chaque langue et le /a/ du franais nest pas totalement quivalent au /a/
de langlais. Ainsi, est ne lide de dfinir un alphabet phontique international (alphabet
IPA) qui permettrait de dcrire les sons et les prononciations de ces sons de manire compacte
et universelle.

Il existe dautres faons dorganiser les sons, par exemple en opposant les sons sonnants
(voyelles), les consonnes nasales, les liquides ou les glissantes aux sons obstruants
occlusives, fricatives .

Les voyelles

Les voyelles sont typiquement produites en faisant vibrer ses cordes vocales. Le son de
telle ou telle voyelle est alors obtenu en changeant la forme du conduit vocal laide des
diffrents articulateurs. Dans un mode darticulation normal, la forme du conduit vocal est
maintenue relativement stable pendant quasiment toute la dure de la voyelle.

Les consonnes

Comme pour les voyelles, les consonnes vont pouvoir tre regroupes en traits distinctifs.
Contrairement aux voyelles, elles ne sont pas exclusivement voises (mme si les voyelles
prononces en voix chuchote sont, dans ce cas galement, non voises) et ne sont pas
ncessairement ralises avec une configuration stable du conduit vocal.

Les consonnes voises

On parlera de consonnes voises lorsquelles sont produites avec une vibration des cordes
vocales comme par exemple /b/ dans "bol" o les cordes vocales vibrent avant le

11
Chapitre I Gnralits sur la parole

relchement de la constriction . Lorsquen plus du voisement, une source de bruit est


prsente due une constriction du conduit vocal, on pourra parler de consonnes excitation
mixte cest le cas par exemple du /v/ dans "vent" .

Les fricatives

Sont produites par un flux dair turbulent prenant naissance au niveau dune constriction
du conduit vocal. On distingue plusieurs fricatives suivant le lieu de cette constriction
principale :

Les labio-dentales, pour une constriction ralise entre les dents et les lvres
comme pour le /f/ dans "foin" .
Les dentales, pour une constriction au niveau des dents comme pour le /t/
anglais dans "thin"
Les alvolaires, pour une constriction juste derrire les dents comme pour le /s/
dans "son" .

En fait, suivant les langues, en regardant plusieurs langues, on saperoit que quasiment
tous les points darticulations du conduit vocal peuvent tre utiliss pour raliser des
fricatives.

Cest dailleurs lune des difficults de lapprentissage des langues trangres car il nest
pas ais dapprendre raliser des sons qui demandent de positionner la langue des endroits
inhabituels.

Les plosives

Elles sont caractrises par une dynamique importante du conduit vocal. Elles sont
ralises en fermant le conduit vocal en un endroit. Lair provenant des poumons cre alors
une pression derrire cette occlusion qui est ensuite soudainement relche suite au
mouvement rapide des articulateurs ayant ralis cette occlusion. De mme, que pour les
fricatives, lun des traits distinctifs entre les plosives est le lieu darticulation. Pour les
plosives, on aura ainsi :

Les labiales, pour une occlusion ralise au niveau des lvres.


Les dentales, pour une occlusion au niveau des dents.
Les vlo-palatales, pour une occlusion au niveau du palais.

12
Chapitre I Gnralits sur la parole

En plus du lieu darticulation, les plosives peuvent galement tre voises ou non voises.

Ainsi, une dentale voise /d/ se distinguera uniquement par la prsence de voisement
vibration des cordes vocales du /t/ qui est prononce avec le mme lieu darticulation.

Les consonnes nasales

Elles sont en gnral voises et sont produites en effectuant une occlusion complte du
conduit vocal et en ouvrant le vlum permettant au conduit nasal dtre lunique rsonateur.
Comme pour les autres consonnes, on aura, suivant le lieu darticulation :

Les labiales, pour une occlusion du conduit vocal ralise au niveau des lvres.
Les dentales, pour une occlusion du conduit vocal au niveau des dents.
Les vlo-palatales, pour une occlusion du conduit vocal au niveau du palais.

Les glissantes et les liquides

Cette classe de consonnes regroupe des sons qui ressemblent aux voyelles. Les liquides
sont dailleurs parfois appeles semi consonnes ou semi-voyelles. Les glissantes et les
liquides, en gnral, voises et non nasales.

Les glissantes, comme leur nom lindique, sont des sons en mouvement et
prcdent toujours une voyelle ou un son vocalique .
Les liquides ou semi-voyelles sont des sons tenus, trs similaires aux voyelles
mais en gnral avec une constriction plus consquente et avec lapex de la langue
plus relev.

I.2. Audition-perception des sons de parole

Le son, et en particulier la parole, tant le moyen de communication privilgi pour ltre


humain, nous ne pourrons pas dcrire le phnomne sans aborder la notion daudition, c'est--
dire de rception et dinterprtation du son. Lorgane de perception du son est loreille.

I.2.1. Structure de loreille

Loreille est spare en 3 parties principales comme indiqu sur le schma de lappareil
auditif de la figure1.6

13
Chapitre I Gnralits sur la parole

Fig.1.6- Lappareil auditif

Loreille externe : Allant du pavillon au tympan et ralisant une conduction


arienne.
Loreille moyenne : Constitue de 3 osselets le marteau, lenclume et ltrier
stend du tympan la fentre ovale et ralise une adaptation dimpdance pour
transmettre les ondes acoustiques ariennes reues au niveau de loreille externe
vers loreille interne.
Loreille interne : dans laquelle se trouve la cochle. La cochle joue un rle
primordial dans la perception des sons. En effet, un son parvenant au pavillon de
loreille sera transform en vibration au niveau de lentre de la cochle.

I.2.2. Principe de perception auditive

La parole peur tre dcrite comme le rsultat de laction volontaire et coordonne dun
certain nombre de muscles. Cette action se droule sous le contrle du systme nerveux
central qui reoit en permanence des informations par rtroaction auditive et par les sensations
kinesthsiques, ce principe est prsent sur la figure 1.7.

Fig.1.7- Systme de production et la rtroaction auditif.

14
Chapitre I Gnralits sur la parole

Les ondes sonores sont recueillies par lappareil auditif, ce qui provoque les sensations
auditives. Ces ondes de pression sont analyses dans loreille interne qui envoie au cerveau
linflux nerveux qui en rsulte. Le phnomne physique induit alors un phnomne psychique
grce un mcanisme physiologique complexe [3].

Le mcanisme de loreille interne ( marteau, trier, enclume ) permet une adaptation


dimpdance entre lair et le milieu liquide de loreille interne. Les vibrations de ltrier sont
transmises au liquide de la cochle. Celle-ci contient la membrane basilaire qui transforme les
vibrations mcaniques en impulsions nerveuses. La membrane slargit et spaissit au fur et
mesure que lon se rapproche de lapex de la cochle.

Les fibres nerveuses aboutissent une rgion de lcorce crbrale, appele aire de
projection auditive, et situe dans le lobe temporal. En cas de lsion de cette aire, on peut
observer des troubles auditifs. Les fibres nerveuses auditives affrentes de loreille au
cerveau et effrentes du cerveau vers loreille sont partiellement croises : chaque moiti
du cerveau est mise en relation avec les deux oreilles internes.

. Entre larrive des signaux vibratoires aux oreilles et la sensation du son dans le
cerveau, a lieu le phnomne de traitement des signaux par le systme nerveux. Cela signifie
que la vibration physique de lair ne parvient pas de faon brute au cerveau. Elle est
transforme, Comme dcrit sur la figure 1.8.

Fig.1.8-Perception et analyse du son par ltre humain.

Il reste trs difficile de nos jours de dire comment linformation auditive est traite par le
cerveau. On a pu par contre tudier comment elle tait finalement perue, dans le cadre dune
science spcifique appele psychoacoustique [4]. Sans vouloir entrer dans trop de dtails sur
la contribution majeure des psychoacousticiens dans ltude de la parole, il est intressant
den connatre les rsultats les plus marquants.

Ainsi, loreille ne rpond pas galement toutes les frquences. La figure 1.9 prsente le
champ auditif humain, dlimit par la courbe de seuil de l'audition et celle du seuil de la

15
Chapitre I Gnralits sur la parole

douleur. Sa limite suprieure en frquence (~16000 Hz, variable selon les individus) fixe la
frquence d'chantillonnage maximale utile pour un signal auditif (~ 32000 Hz).

Fig.1.9- Champs auditif humain.

A l'intrieur de son domaine d'audition, l'oreille ne prsente pas une sensibilit identique
toutes les frquences. La figure 1.10, fait apparatre les courbes d'gale impression de
puissance auditive - physiologie auditive (aussi appele sonie, exprime en sones) en fonction
de la frquence. Elles rvlent un maximum de sensibilit dans la plage [500 Hz, 10 kHz], en
dehors de laquelle les sons doivent tre plus intenses pour tre perus.

Fig.1.10

I.3. Traitement de la parole

De faon gnrale, le traitement du signal est un ensemble de mthodes et de techniques


agissant sur un signal lectrique afin den extraire linformation dsire. Ce signal doit
traduire le plus fidlement possible le phnomne physique tudier.

La parole apparait physiquement comme une variation de lair cause et mise par le
systme articulatoire. Cest un phnomne physique acoustique qui prend une forme
analogique.

16
Chapitre I Gnralits sur la parole

La phontique acoustique tudie ce signal en le transformant dans un premier temps en


signal lectrique grce au transducteur appropri : le microphone (lui-mme associ un
pramplificateur).

De nos jours, le signal lectrique rsultant est le plus souvent numris. Il peut alors tre
soumis un ensemble de traitements, dans le but den extraire les informations et les
paramtres pertinents en rapport avec lapplication. Ainsi, la conversion du phnomne de
parole en signal lectrique ncessite les oprations suivantes.

I.3.1. Numrisation

La numrisation du signal de parole est prsent assure par un convertisseur


analogique- numrique ( CAN )

Cette opration, schmatise la figure1.11, requiert successivement : un filtrage de


garde, un chantillonnage, une quantification et un codage.

Fig.1.11- Enregistrement numrique dun signal acoustique.

I.3.2. Lchantillonnage

Lchantillonnage transforme le signal temps continu en signal temps discret


dfini aux instants dchantillonnage, multiples entiers de la priode
dchantillonnage ; celle-ci est elle-mme linverse de la frquence dchantillonnage .

En ce qui concerne le signal vocal, le choix de rsulte dun compromis. Son spectre
peut stendre jusqu' 12kHz. Il faut donc en principe choisir une frquence gale 24kHz
au moins pour satisfaire raisonnablement au thorme de shannon. Cependant, le cout dun
traitement numrique, filtrage, transmission, ou simplement enregistrement peut tre rduit
dune faon notable si lon accepte une limitation du spectre par un filtrage pralable. Cest le
rle du filtre de garde, dont la frquence de coupure est choisie en fonction de la frquence
dchantillonnage retenue.

17
Chapitre I Gnralits sur la parole

I.3.3. La Quantification

Cette tape consiste approximer les valeurs relles des chantillons selon une chelle de
niveaux appele chelle de quantification.

Parmi le continuum des valeurs possibles pour les chantillons , la quantification ne


retient quun nombre fini de valeurs, espaces du pas de quantification . Le signal
numrique rsultant est not . La quantification produit une erreur de quantification qui
normalement se comporte comme un bruit blanc, le pas de quantification est donc impos par
le rapport signal bruit garantir. Aussi adopte-t-on pour la transmission tlphonique une loi
de quantification logarithmique et chaque chantillon est reprsent sur 8 bits. Par contre, la
quantification du signal musical exige en principe une quantification linaire sur 16 bits.

I.3.4. Le Codage

Cest la reprsentation binaire des valeurs quantifies qui permet le traitement du signal
sur machine.

I.4. Analyse du signal de parole

Une fois numris, le signal de parole peut tre trait de diffrentes faons suivant les
objectifs viss. Le nombre de techniques possible tant trs vaste, nous allons, dans ce qui
suit, citer les outils relatifs au signal de parole.

I.4.1. Analyse temporelle

Le signal de parole est un signal quasi-stationnaire. Cependant, sur un horizon de temps


suprieur, il est clair que les caractristiques du signal voluent significativement en fonction
des sons prononcs comme illustr sur la figure ci-dessous.

Fig.1.12- Reprsentation temporelle(Audiogramme) de signaux de parole.

18
Chapitre I Gnralits sur la parole

La premire approche pour tudier le signal de parole consiste observer la forme


temporelle du signal. On peut partir de cette forme temporelle en dduire un certain nombre
de caractristiques qui pourront tre utilises pour le traitement de la parole. Il est, par
exemple, assez clair de distinguer les parties voises, dans lesquelles on peut observer une
forme donde quasi-priodique, des parties non voises dans lesquelles un signal alatoire de
faible amplitude est observ. De mme, on peut voir que les petites amplitudes sont beaucoup
plus reprsentes que les grandes amplitudes ce qui pourra justifier des choix fait en codage
de la parole.

Fig.1.13- Exemple de son vois (haut) et non vois (bas).

I.4.2. Analyse frquentielle

Une seconde approche pour caractriser et reprsenter le signal de parole est dutiliser
une reprsentation spectrale.

On peut classer en deux grandes catgories les mthodes de traitement du signal :

les mthodes gnrales : valables pour tout signal volutif dans le temps, en
particulier les analyses spectrales.
les mthodes se rfrant un modle : un modle de production du signal vocal
ou un modle daudition.

Mthodes gnrales

Les mthodes spectrales occupent une place prpondrante en analyse de la parole :


loreille effectue, entre autres, une analyse frquentielle du signal quelle peroit ; de plus, les
sons de la parole peuvent tre assez bien dcrits en termes de frquences.

La transforme de Fourier permet dobtenir le spectre dun signal, en particulier son


spectre frquentiel, cest--dire sa reprsentation amplitude-frquence.

19
Chapitre I Gnralits sur la parole

La figure 1.14 illustre la transforme de Fourier dune tranche voise et celle dune
tranche non voise. Les parties voises du signal apparaissant sous la forme de successions de
pics spectraux marqus, dont les frquences centrales sont multiples de la frquence
fondamentale. Par contre, le spectre dun signal non vois ne prsente aucune structure
particulire. La forme gnrale de ces spectres, appele enveloppe spectrale, prsente elle-
mme des pics et des creux qui correspondent aux rsonnances et aux anti-rsonnances du
conduit vocal et sont appels formants et anti-formants.

Fig.1.14- Evolution de la transforme de Fourier discrte du [a] et du [] de baluchon .

La parole tant un phnomne non stationnaire, il importe de faire intervenir le temps


comme troisime variable dans la reprsentation. Clairement, la reprsentation la plus
rpandue est le spectrogramme.

Spectrogramme

Le spectrogramme permet de donner une reprsentation tridimensionnelle dun son dans


laquelle lnergie par bande de frquences est donne en fonction du temps [1].

Plus prcisment, le spectrogramme reprsente le module de la transforme de Fourier


discrte calcul sur une fentre temporelle plus ou moins longue. La transforme de Fourier
discrte TFD de la ime fentre du signal de parole est donne par :

! "
1

Lamplitude du spectre y apparait sous la forme de niveaux de gris dans un diagramme en


deux dimensions temps-frquence, comme on peut le remarquer sur les Spectrogramme de la

20
Chapitre I Gnralits sur la parole

figure 1.16. On parle de spectrogramme large bande ou bande troite selon la dure de la
fentre de pondration. Les spectrogrammes bande large sont obtenus avec des fentres de
pondration de faible dur ; ils mettent en vidence lenveloppe spectrale du signal, et
permettent par consquent de visualiser lvolution temporelle des formants. Les priodes
voises y apparaissent sous la forme de bandes verticale plus sombres.

Fig.1.16- Spectrogramme large bande (en bas), bande troite (en haut), et volution temporelle de
la phrase anglaise Alices adventures , chantillonne 11.25 kHz (calcul avec fentre de hamming de
10 et 30 ms respectivement).

Caractristique du signal de parole

Le signal de parole est un vecteur acoustique porteur dinformations dune grande


complexit.

Traits acoustiques :

Les traits acoustiques du signal de parole sont lis sa production.

La frquence fondamentale

Cest Le premier trait acoustique, cest la frquence de vibration des cordes vocales.
Pour les sons voiss, la frquence fondamentale correspond la frquence du cycle
douverture/fermeture des cordes vocales.

21
Chapitre I Gnralits sur la parole

Le spectre de frquence

Cest le deuxime trait acoustique dont dpend principalement le timbre de la voix. Il


rsulte du filtrage dynamique du signal en provenance du larynx ou signal glottique par le
conduit vocal.

Lnergie

Le dernier trait acoustique est lnergie correspondant lintensit sonore. Lnergie


de la parole est lie la pression de lair en amant du larynx. Elle est habituellement plus
forte pour les segments voiss de la parole que pour les segments non voiss.

Chaque trait acoustique est intimement li une caractristique perceptuelle

Le timbre

Le timbre est une caractristique permettant didentifier une personne la simple


coute de sa voix. Il provient en particulier de la rsonance dans la poitrine, la gorge, la cavit
buccale et le nez. Le timbre dpend fortement de la corrlation entre la frquence
fondamentale et les harmoniques qui sont les multiples de cette frquence.

Le pitch

Les variations de la frquence fondamentale dfinissent le pitch qui constitue la


perception de la hauteur (o les sons sordonnent de grave aigu). Seuls les sons quasi-
priodiques (voiss) engendrent une sensation de hauteur tonale bien dfinie.

Intensit

Lintensit dun son, appele aussi volume, permet de distinguer un son fort dun
son faible. Elle correspond lamplitude de londe acoustique. Pour le son, onde de
compression, cette grandeur est la pression.

Mthodes avec modlisation

Dans cette catgorie, les mthodes dites de Codage Prdictif Linaire LPC [1] ont t
largement utilises pour lanalyse de la parole. Elles font rfrence un modle du systme de
phonation, que lon reprsente en gnral comme un tuyau sonore section variable.
Lanalyse LPC est utilise essentiellement en codage et en synthse de la parole.

22
Chapitre I Gnralits sur la parole

Mthodes cepstrales

Une mthode danalyse du signal vocal fonde sur une modlisation est actuellement trs
rpandue en reconnaissance automatique de la parole : il sagit de lanalyse cepstrale [5].

La plupart des systmes actuels de reconnaissance de parole, utilisent un ensemble de


paramtres appels MFCC (Mel Frequency Cepstrum Coefficients ) dont le principe
dobtention repose sur lanalyse cepstrale.

Cette mthode, appele aussi analyse homomorphique, a pour but de sparer dans le
signal vocal les contributions respectives de la source du signal savoir la vibration des
cordes vocales et du conduit vocal dont les frquences de rsonance conduisent notamment
aux formants des voyelles.

Fig.1.16-Principe de lanalyse homomorphique.

La figure1.17 montre les phases dobtention de coefficients MFCC partir dun signal.
Ces coefficients sont robustes car, dune part, ils assurent comme il vient dtre dit une
sparation entre la fonction de transfert du conduit vocal et les caractristiques du
fondamental de la voix, et, dautre part, ils sont peu sensibles la puissance acoustique du
signal analys.

Fig.1.17-Principe de calcul des coefficients MFCC

Modles doreille

Une famille de mthodes danalyse de parole sinspire des donnes de la psycho-


acoustique et de la physiologie de laudition humaine telles que courbes disosonie, bandes
critiques de loreille, phnomnes non linaires (saturation, masquage de sons, etc.), contrle
de gain, filtrage cochlaire, etc.

Les modles doreille [5], sont utiliss pour obtenir une reprsentation frquentielle de la
parole. On les trouve dans des systmes de reconnaissance de parole, notamment en prsence
de bruits.

23
Chapitre I Gnralits sur la parole

Analyse perceptive

En prsence de bruit important, les mthodes danalyse traditionnelles ont du mal


extraire les caractristiques reprsentatives de la parole. De nombreuses mthodes ont t
proposes pour amliorer cette situation. Elles se fondent sur diffrentes mthodes,
notamment sur des proprits de la perception auditive [5]. Un bon exemple est lanalyse
RASTA-PLP, utilise avec succs en reconnaissance de parole dans du bruit. Cette mthode
intgre plusieurs oprations inspires de donnes perceptives.

Analyse par ondelettes

Parmi les travaux mens pour amliorer les techniques danalyse de signaux, lanalyse
par ondelettes [2], prsente un intrt certain. Ce type danalyse permet dobtenir une
reprsentation temps-frquence locale dun signal comme alternative au spectre de Fourier.
Lintrt, pour des signaux non stationnaires comme la parole, est de pouvoir mener une
analyse multi-rsolution des phnomnes correspondant des chelles de temps et de
frquence diffrentes.

Lanalyse par ondelettes a t applique de nombreux types de signaux (biomdicaux,


sismiques, etc.). Dans le cas de la parole, les applications actuelles concernent la synthse, le
codage, la suppression de bruit, etc. Peu de travaux ont trait la reconnaissance.

Dans le chapitre suivant nous allons prsenter les mthodes danalyses et dextraction, les
plus utiliss pour le signal de parole dont le but de la reconnaissance automatique de la parole.

24
CHAPITRE II : LES
PARAMTRES PERTINENTS DU
SIGNAL DE PAROLE
Chapitre II Les Paramtres Acoustiques

Introduction

Le signal de parole est trop redondant et variable pour tre utilis directement dans un
systme de reconnaissance automatique de la parole. Il est donc ncessaire den extraire
linformation pertinente afin de caractriser et didentifier le contenu linguistique. Le signal
de parole est reprsent, en gnral, dans le domaine frquentiel montrant lvolution
temporelle de son spectre. Ce domaine est appropri pour la reconnaissance puisque lon peut
raisonnablement considrer que les proprits du spectre restent stationnaires durant des
intervalles de temps denviron une dizaine de ms (valeur adopte de manire classique).

Les systmes de reconnaissance intgrent un module de paramtrisation dont le rle est


de crer des vecteurs de paramtres acoustiques rsultant de lanalyse spectrale du signal de
parole. La plupart des techniques de paramtrisation consistent dcrire lenveloppe du
spectre court terme dans le domaine frquentiel. Dautres techniques peuvent tre utilises
comme lanalyse en ondelette.

Dans ce chapitre, nous allons prsenter les mthodes; les plus utilises, les plus rcentes
et les variantes amliores; dextraction des paramtres acoustiques pertinents de la parole
pour la reconnaissance automatique de la parole, sujet de ce travail de mmoire.

II.1. Coefficients cepstraux de prdiction linaire

La prdiction linaire est une technique issue de lanalyse de la production de la parole


permettant dobtenir des coefficients de prdiction linaire (Linear Prediction Coefficients
LPC). Des paramtres cepstraux LPCC [7]. (Linear Prediction Cepstral Coefficients) sont
ensuite calculs partir de ces coefficients.

Dans ce cadre danalyse, le signal de parole x est considr comme la consquence de


lexcitation du conduit vocal par un signal provenant des cordes vocales. La prdiction
sappuie sur le fait que les chantillons de parole adjacents sont fortement corrls, et que, par
consquent, lchantillon sn peut tre estim en fonction des p chantillons prcdents.

Par prdiction linaire, on obtient donc une estimation du signal :

% ) ' .

O les ' sont des coefficients constants sur une fentre danalyse. La dfinition devient
exacte si on inclut un terme dexcitation :

25
Chapitre II Les Paramtres Acoustiques

) ' . *+

O est le signal dexcitation et + le gain de lexcitation. La transforme en , de cette


galit donne :

/ 0
)
+- . '. 1 .

Do :

. + +
2 . )
4 ' .3
- . 5 .

Cette quation peut tre interprte comme suit : Le signal 6 est le rsultat de lexcitation
+
du filtre tout ple 2 . 5 .
par le signal dexcitation .

Les coefficients ' sont les coefficients qui minimisent lerreur quadratique moyenne :

- 8 +. 78 98/ 78 0
)
' 78 1:

partir de ces chantillons prdis, on peut calculer les paramtres cepstraux. Le cepstre
est le rsultat de la transforme de Fourier inverse applique au logarithme de la transforme
de Fourier du signal de parole. Les paramtres cepstraux sont les coefficients du
dveloppement de Taylor du logarithme du filtre tout ple :

+
; <|5 > 7?
? .
. |

Ce qui donne :

@A +

8 '8 * ' 'B ), ,


)
8 8

Les paramtres cepstraux ont lavantage dtre peu corrls entre eux. Cela permet
dutiliser des matrices de covariances diagonales pour leur moment de second ordre, et ainsi
gagner beaucoup de temps lors du dcodage. Les diffrentes tapes de lanalyse LPCC sont
dtailles dans la figure 2.1

26
Chapitre II Les Paramtres Acoustiques

Comme dit prcdemment, ce modle provient de lanalyse de la production de la parole.


Dautres formes danalyses qui tiennent compte du mode de perception auditive de la parole
plutt que du mode de production sont prsentes dans les sections suivantes.

II.2. Lanalyse en banc de filtre

Lanalyse par banc de filtres [8] est une technique initialement utilise pour le codage
du signal de parole. Elle produit des paramtres cepstraux (Mel-Frequency Cepstral
Coefficients) -MFCC. Le signal de parole est analys laide de filtres passe-bande
permettant destimer lenveloppe spectrale en calculant lnergie dans les bandes de
frquences considres.

Les bandes de frquences des filtres sont espaces logarithmiquement selon une chelle
perceptive afin de simuler le fonctionnement du systme auditif humain. Les chelles
perceptives les plus utilises sont celles de Mel et de Bark [8]. Plus la frquence centrale du
filtre est basse, plus la bande passante du filtre est troite. Augmenter la rsolution pour les
basses frquences permet dextraire plus dinformation dans ces zones o elle est plus dense.

Il est possible dutiliser directement les coefficients obtenus la sortie des filtres pour la
reconnaissance de la parole, cependant, dautres coefficients plus discriminants, plus robustes
au bruit ambiant et surtout dcorrls entre eux sont prfrs : les coefficients cepstraux. Un
ensemble de M coefficients cepstraux, gnralement entre 10 et 15, sont calculs en effectuant
un liftrage (filtrage dans le domaine cepstral) du spectre en puissance dun signal selon la
transforme en cosinus discret ( Discrete Cosinus Transform DCT ) :

"
J
8 E8 . F G8 * H I KLMN ,,J 0

O est le nombre de filtres utilis.

Le coefficient OP correspond lnergie moyenne de la trame. De manire gnrale, on ne


le prend pas en compte afin de rendre les MFCC peu sensibles la puissance acoustique du
signal de parole.

Les diffrentes tapes de lanalyse MFCC sont dtailles dans la figure 2.1.

27
Chapitre II Les Paramtres Acoustiques

II.3. Analyse par prdiction linaire perceptuelle

Lanalyse par Prdiction Linaire Perceptuelle [9] (Perceptual Linear Prediction


PLP ) repose sur un modle de perception de la parole. Les diffrentes tapes de lanalyse
PLP sont dtailles dans la figure 2.1.

Elle est base sur le mme principe que lanalyse prdictive et intgre trois
caractristiques de la perception :

Intgration des bandes critiques : la prdiction linaire produit la mme


estimation de lenveloppe spectrale pour toute la zone de frquences utiles, ce qui
est en contradiction avec le fonctionnement de lappareil perceptif humain. En
effet, loreille humaine a la facult dintgrer certaines zones de frquences en
bande appeles bandes critiques. Les bandes critiques sont rparties selon
lchelle de Bark, dont la relation avec la frquence est dfinie par :

.
Q RSAT
Q

avec U la frquence en Hertz et V la frquence en Bark.

La nouvelle densit spectrale est chantillonne selon cette nouvelle chelle, ce qui
augmente la rsolution pour les basses frquences.

Praccentuation pas courbe disosonie : cette caractristique provient de la


psychoaccoustique qui a montr que lintensit sonore dun son pur perue par
lappareil auditif varie avec la frquence de ce son. Ainsi, dans lanalyse PLP,
afin de prendre en compte la manire dont lappareil auditif peroit les sons, la
densit spectrale doit tre multiplie par une fonction de pondration non linaire.
Cette fonction peut tre estime en utilisant labaque sur laquelle sont reportes
les lignes isosoniques. Ces lignes correspondent la trajectoire dgale intensit
sonore pour diffrentes frquences dun son pur. En pratique, cette
praccentuation est remplace par lapplication du filtre passe-haut dont la
transforme en , est :

0 . WX. .

28
Chapitre II Les Paramtres Acoustiques

Loi de Stevens : lintgration des bandes critiques et la praccentutation ne


suffisent pas faire correspondre lintensit mesure et lintensit subjective
(appele sonie). La loi de Stevens donne la relation entre ces deux mesures :

RLASY SAZYARSZ ,\\

Les PLP sont bass sur le spectre court terme du signal de parole, comme les
coefficients LPC. Cela signifie que le signal est analys sur une fentre glissante de courte
dure. En gnral, on utilise une fentre de longueur 10 30 ms. que lon dcale de 10 ms
pour chaque trame.

Fig. 2.1-Comparaison de trois analyses du signal : LPCC, PLP et MFCC

II.4. Mthodes RASTA- PLP et JRASTA- PLP

Afin daugmenter la robustesse des paramtres PLP, on peut envisager lanalyse


spectrale relative RASTA [10] ( Relative Spectral ), prsente comme une faon de simuler
linsensibilit de lappareil auditif humain aux stimuli variation temporelle lente. Cette
technique traite les composantes de parole non linguistiques, qui varient lentement dans le
temps, dues au bruit convolutif (log-RASTA ) et au bruit additif ( J-RASTA ). En pratique,
RASTA effectue un filtrage passe-bande sur le spectre logarithmique ou sur le spectre

29
Chapitre II Les Paramtres Acoustiques

compress par une fonction non linaire. Lide principale est de supprimer les facteurs
constants dans chaque composante du spectre court-terme avant lestimation du modle
tout-ple. Lanalyse RASTA est souvent utilise en combinaison avec les paramtres PLP.
Les tapes dune analyse RASTA-PLP sont dcrites dans la figure 2.3.

Fig.2.3 Analyse RASTA PLP

Les tapes grises sont celles qui font la spcificit du traitement RASTA. La diffrence
entre RASTA et J-RASTA se situe au niveau du logarithme (4me tape) :

; Pour RASTA et ; *! pour J-RASTA.

II.5. Analyse rsolution multiple

Lanalyse rsolution multiple ( Multi Resolution Analysis MRA ) [11], effectue


une analyse en ondelettes dune fentre de signal audio. Cela consiste faire passer le signal
dans un arbre de filtres passe-bas et passe-haut, la sortie desquels lnergie court terme est
calcule voir figure 2.4 . chaque niveau de larbre, le signal est entirement dcrit, mais
dans une rsolution frquentielle et temporelle diffrente. Comme on peut le constater, la
disposition des filtres nest pas intuitive, car il faut prendre en compte le phnomne de
repliement spectral qui recopie dans les basses frquences le signal haute frquence invers.
Ensuite, il faut regrouper les nergies calcules aux feuilles de larbre pour former les trames
qui seront utilises dans le systme de reconnaissance de la parole.

Considrons une fentre de taille N chantillons, qui se dplacent de M


chantillons.Pour MRA, les valeurs utilises pour N sont 256 (32 ms) ou 384 (48 ms), et M
est fix 80 chantillons (soit 10 ms). noter que ce front-end a t dvelopp pour des
applications tlphoniques. Le nombre dchantillons obtenus dans les nuds de larbre

30
Chapitre II Les Paramtres Acoustiques

diminue quand on descend dans larbre, mais lintervalle temporel associ aux chantillons
filtrs reste inchang.

Fig. 2.4-Principe de lanalyse rsolution multiple.

Selon le principe dindtermination dHeisenberg, il existe une relation entre la rsolution


temporelle et la rsolution frquentielle des chantillons dans les diffrentes sous-bandes. Sur
la base de ce principe, le produit de la rsolution en temps et celle en frquence ne doit pas
tre infrieur un certain seuil. tant donn qu chaque niveau de larbre, la rsolution
frquentielle est divise par deux cf. figure 2.4 , on peut considrer des intervalles
temporels dintgration diffrents pour chaque niveau de larbre. Pour cela, on utilise
lextracteur de paramtres sur le mme nombre dchantillons chaque niveau, ce qui a pour
consquence de diviser lintervalle temporel par deux. Pour les 8 premires bandes (de 0 1
kHz) on utilise les 8 chantillons disponibles. Pour les 8 bandes suivantes (de 1kHz 3 kHz)
on nutilise que les 8 chantillons centraux sur les 16 disponibles. Enfin, pour les deux
dernires bandes (de 3 kHz 4 kHz) on utilise seulement 10 chantillons sur les 32
disponibles. Tout ceci est dtaill dans le tableau 2.1

31
Chapitre II Les Paramtres Acoustiques

.
TAB. 2.1-Correspondance entre rsolution frquentielle et temporelle pour lanalyse MRA

la sortie de ces filtres, on doit appliquer une opration dextraction de paramtres


acoustiques sur les chantillons filtrs obtenus. Notons ci les chantillons dun nud de
larbre, et N leur nombre. Cette opration est appele intgration. Les oprateurs disponibles
pour lintgration sont nombreux, les plus utiliss sont :

Lnergie moyenne par chantillon :

La norme ]:

| |) 'B ) , ,\

Lentropie moyenne :

2 . ;^_

Loprateur teager :

/ 0 . 7 1

La dimension thorique combinaison de lentropie moyenne et lnergie


moyenne :

32
` -. )

Les paramtres MRA ont la particularit de ne pas dcrire lenveloppe spectrale du


signal, mais plutt de reprsenter le signal en termes dnergie prsente dans chaque bande de
frquences et dutiliser la redondance de reprsentation de ce signal de parole chaque niveau
de larbre. Lintrt de considrer de tels paramtres est quon peut supposer que

32
Chapitre II Les Paramtres Acoustiques

linformation quils contiennent sera diffrente de celle fournie par les reprsentations
cepstrales.

II.6. Mthodes Acoustiques hybrides

Ces paramtres sont calculs partir de paramtres discriminants obtenus laide dun
rseau de neurones. Les systmes de reconnaissance automatique de la parole utilisent en
gnral des modles base de GMMs pour estimer les distributions de vecteurs de
paramtres dcorrls qui correspondent des units acoustiques de courte dure syllabes,
phonmes, phonmes en contexte, ... . En comparaison, les systmes hybrides ANN/MMC
[12] utilisent des rseaux de neurones entrans de manire discriminante pour estimer les
distributions de probabilit des units tant donn les observations acoustiques.

Cette approche consiste combiner des paramtres discriminants issus dun rseau de
neurones avec une modlisation des distributions par GMMs. Le rseau de neurones gnre
les probabilits postrieures des units qui sont ensuite transforms pour tre utiliss comme
paramtres dentre pour le modle MMC/GMM qui est alors appris de manire
conventionnelle. Les transformations sur les distributions de probabilit sont de diffrentes
sortes. Les rseaux de neurones produisent directement des probabilits a posteriori
contrairement aux mixtures de gaussiennes. tant donn que les probabilits postrieures ont
une distribution trs biaise, il est avantageux de les transformer en prenant leur logarithme
par exemple. Une alternative cela est domettre la dernire non-linarit la sortie du rseau
de neurones. Cette non linarit, le softmax, correspond normaliser les exponentiels ce qui
est trs proche de prendre le logarithme des probabilits . Les vecteurs de probabilits
postrieures ont tendance possder une valeur leve, correspondant au phonme prononc,
et les autres basses. Les rseaux de neurones nont pas la contrainte dutiliser des paramtres
acoustiques dcorrls comme les MMCs. Cependant, il savre que la transformation de
Karhunen-Loeve, plus connue sous le nom danalyse en composante principale Principal
Component Analysis PCA est utile pour dcorrler les paramtres, vraisemblablement
parce quelle augmente la correspondance entre les paramtres et les modles base de
mixture de gaussiennes. Les principaux rsultats obtenus avec ce genre de technique sont
prsents dans plusieurs travaux.

33
Chapitre II Les Paramtres Acoustiques

II.7. Autres paramtres acoustiques

Dans le but daccroitre la robustesse des systmes de reconnaissance automatique de la


parole, Beaucoup dautres paramtres acoustiques ont t dvelopps afin, le plus souvent, de
complter et combiner les paramtres existants(combinaison de paramtres acoustique).

Conclusion

Dans ce chapitre, nous avons dcris les mthodes, les plus utilises dextraction des
paramtres acoustiques pertinents en termes defficacit et de performances pour les systmes
de Reconnaissance Automatique de la parole de la parole.

Le chapitre suivant sera consacr au sujet de la reconnaissance Automatique de la parole :


la description des principes de base qui constituent les systmes de reconnaissance et la
difficult relative de la mise en uvre de ces systmes.

34
CHAPITRE III : LA
RECONNAISSANCE
AUTOMATIQUE DE LA PAROLE
Chapitre III La Reconnaissance Automatique de la Parole

Introduction

Le problme de la reconnaissance automatique de la parole consiste extraire, l'aide


d'un ordinateur, l'information lexicale contenue dans un signal de parole.

Depuis plus de deux dcennies, des recherches intensives dans ce domaine ont t
accomplies par de nombreux laboratoires internationaux. Des progrs importants ont t
accomplis grce au dveloppement d'algorithmes puissants ainsi qu'aux avances en
traitement du signal. Diffrents systmes de reconnaissance de la parole ont t dvelopps,
couvrant de vastes domaines tel que la reconnaissance de quelques mots cls sur lignes
tlphoniques, les systmes dicter vocaux, les systmes de commande et contrle sur PC, et
allant jusqu'aux systmes de comprhension du langage naturel.

Dans ce chapitre, nous allons dcrire et clairer au mieux la complexit inhrente la


mise en ouvre dun systme de reconnaissance automatique de la parole, objet de notre
travail, puis nous allons dfinir les principes, les approches et les techniques qui sont la
base de la plupart de ces systmes.

III.1. Niveaux de complexit de la RAP

Pour bien apprhender le problme de la reconnaissance automatique de la parole, il est


bon d'en comprendre les diffrents niveaux de complexit.

Le signal de parole est un des signaux les plus complexes : En plus de la complexit
physiologique inhrente au systme phonatoire et des problmes de coarticulation qui en
rsultent, le conduit vocal varie galement trs fort d'une personne l'autre.

La mesure de ce signal de parole est fortement influence par la fonction de transfert


(comprenant les appareils d'acquisition et de transmission, ainsi que l'influence du milieu
ambiant).

Il y a d'abord le problme de la variabilit intra et inter-locuteurs. Le systme peut tre


dpendant du locuteur (optimis pour un locuteur bien particulier ) ou indpendant du
locuteur (pouvant reconnatre n'importe quel utilisateur).

Evidemment, les systmes dpendants du locuteur sont plus faciles dvelopper et sont
caractriss par de meilleurs taux de reconnaissance que les systmes indpendants du
locuteur tant donn que la variabilit du signal de parole est plus limite. Cette dpendance

35
Chapitre III La Reconnaissance Automatique de la Parole

au locuteur est cependant acquise au prix d'un entranement spcifique chaque utilisateur.
Ceci n'est cependant pas toujours possible. Par exemple, dans le cas d'applications
tlphoniques, les systmes doivent pouvoir tre utiliss par n'importe qui et doivent donc tre
indpendants du locuteur.

Bien que la mthodologie de base reste la mme, Cette indpendance au locuteur est
cependant obtenue par l'acquisition de nombreux locuteurs couvrant si possible les
diffrents dialectes qui sont utiliss simultanment pour l'entranement de modles
susceptibles d'en extraire toutes les caractristiques majeures. Une solution intermdiaire
parfois utilise consiste dvelopper des systmes capable de s'adapter rapidement (de faon
supervise ou non supervise) au nouveau locuteur.

Par ailleurs, un systme peut tre destin reconnaitre des mots isols ou de la parole
continue. Il est plus simple de reconnatre des mots isols bien spars par des priodes de
silence que de reconnatre la squence de mots constituant une phrase. En effet, dans ce
dernier cas, non seulement la frontire entre mots n'est plus connue mais, de plus, les mots
deviennent fortement articuls (c'est--dire que la prononciation de chaque mot est affecte
par le mot qui prcde ainsi que par celui qui suit - un exemple simple et bien connu tant les
liaisons du franais).

Dans le cas de la parole continue, le niveau de complexit varie galement selon qu'il
s'agisse de texte lu, de texte parl ou, beaucoup plus difficile, de langage naturel avec ses
hsitations, phrases grammaticalement incorrectes, faux dparts, etc. Un autre problme, qui
commence tre bien matris, concerne la reconnaissance de mots cls en parole libre. Dans
ce dernier cas, le vocabulaire reconnatre est relativement petit et bien dfini mais le
locuteur n'est pas contraint de parler en mots isols.

La taille du vocabulaire et son degr de confusion sont galement des facteurs importants.
Les petits vocabulaires sont videmment plus faciles reconnatre que les grands
vocabulaires, tant donn que dans ce dernier cas, les possibilits de confusion augmentent.

Robustesse dun systme

Un systme est dit robuste sil est capable de fonctionner proprement dans des
conditions difficiles. En effet, de nombreuses variables peuvent affecter significativement les
performances des systmes de reconnaissance:

36
Chapitre III La Reconnaissance Automatique de la Parole

Bruits d'environnement tels que bruits additifs stationnaires ou non stationnaires

(par exemple, dans une voiture ou dans une usine).

Acoustique dforme et bruits additifs corrls avec le signal de parole utile


(par exemple, distorsions non linaires et rverbrations).
Utilisation de diffrents microphones et diffrentes caractristiques (fonctions de
transfert) du systme d'acquisition du signal (filtres), conduisant gnralement
du bruit de convolution.
Bande passante frquentielle limite (par exemple dans le cas des lignes
tlphoniques pour lesquelles les frquences transmises sont naturellement
limites).
Elocution inhabituelle ou altre, comprenant entre autre: l'effet Lombard, (qui
dsigne toutes les modifications, souvent inaudibles, du signal acoustique lors de
l'locution en milieu bruit), le stress physique ou motionnel, une vitesse
d'locution inhabituelle, ainsi que les bruits de lvres ou de respiration.

Certains systmes peuvent tre plus robustes que d'autres l'une ou l'autre de ces
perturbations, mais en rgle gnrale, les reconnaisseurs de parole actuels restent encore trop
sensibles ces paramtres.

III.2. Approche et techniques de reconnaissance automatique de la parole

III.2.1. Approche par la normalisation temporelle

Les premiers succs en reconnaissance vocale ont t obtenus dans les annes 70 laide
dun paradigme de reconnaissance de mots. Lide, trs simple dans son principe, consiste
faire prononcer un ou plusieurs exemples de chacun des mots susceptibles dtre reconnus, et
les enregistrer sous forme de vecteurs acoustiques (typiquement : un vecteur de coefficients
LPC ou assimils toutes les 10 ms). Ltape de reconnaissance proprement dite consiste alors
analyser le signal inconnu sous la forme dune suite de vecteurs acoustiques similaires, et
comparer la suite inconnue chacune des suites des exemples pralablement enregistrs. Le
mot (reconnu) sera alors celui dont la suite de vecteurs acoustique (spectrogramme) ressemble
le mieux celle du mot inconnu. Ce principe de base nest cependant pas implmentable
directement : Un mme mot peut en effet tre prononc dune infinit de faons diffrentes,
en changeant le rythme de llocution. Il en rsulte des spectrogrammes plus ou moins

37
Chapitre III La Reconnaissance Automatique de la Parole

distordus dans le temps. La superposition du spectrogramme inconnu aux spectrogrammes de


base doit ds lors se faire en acceptant une certaine (lasticit) sur les spectrogrammes
candidats.

Une solution ce problme dlasticit ou recalage temporel fait appel aux technique de
la programmation dynamique est formalise mathmatiquement par un algorithme dsormais
bien connu : Lalgorithme DTW (Dynamic Time Warping) [13].

Les dfinitions de distances locales peuvent galement tre adaptes de faon tenir
compte du type de caractristiques acoustiques utilises (distance euclidienne, distance de
Mahalanobis[14], distance dItakura[1] ou de limportance relative des diffrentes
composantes).Cette mthode donne dexcellents rsultats. On dmontre quelle fournit la
solution optimale du problme.

Le principe de comparaison dynamique est illustr sur la figure III.1. Il consiste


rechercher la mise en correspondance optimale entre deux formes. Cette dernire est
matrialise par le chemin de recalage donn sur la figure III.1.

Le recalage temporel peut galement tre effectu laide de modles stochastiques


prsents dans le paragraphe suivant et qui sont maintenant utiliss dans la plupart des
systmes.

Fig. III.1-Principe de la programmation dynamique

38
Chapitre III La Reconnaissance Automatique de la Parole

III.2.2. Approche par modlisation stochastique

Dans le paragraphe prcdent, nous avons montr comment on pouvait effectuer par
programmation dynamique lintgration temporelle de distances locales, permettant en mme
temps de normaliser les variations temporelle des units de parole. Cette approche conduit
galement une segmentation automatique de la phrase en termes de segments de rfrences.

Il y a cependant plusieurs limitation lies lapproche DTW, cette approche requiert


souvent une dtection automatique de dbut et fin, ce qui est dj une source de problmes.
De plus, si on essaie dadapter la dfinition de distance locale, il est souvent difficile, sans
outils mathmatiques puissants, den comprendre les effets au niveau du critre global que
lon sest donn minimiser. Finalement, tant donn que la parole est beaucoup plus que la
simple concatnation dlments linguistiques ( par exemple, des mots ou des phonmes) bien
dfinis, il est ncessaire de pouvoir modliser les variabilits et les dpendances de chaque
unit en fonction de son contexte. Comme nous le verrons par la suite au chapitre 4,
lentrainement de distributions statistiques reprsente la meilleure approche pour modliser la
variabilit observe sur des exemples rels.

Pour toutes ces raisons, les modles statistiques [15] sont maintenant trs utiliss dans les
problmes de reconnaissance de squences complexes telles que le signal de parole. De plus,
lintroduction dun formalisme statistique permet lutilisation de plusieurs outils
mathmatiques trs puissants (lalgorithmeEM (IV.5.2)) pour dterminer les paramtres par
entrainement, et pour effectuer la reconnaissance et la segmentation automatique de mots et
de parole continue. Ces outils mathmatiques sont maintenant largement utiliss et constituent
aujourdhui lapproche dominante en reconnaissance de la parole.
Pour la plupart de ces systmes de reconnaissance, la parole est suppose avoir t
gnre selon un ensemble de distributions statistiques. Par dfinition, une distribution unique
ne peut gnrer quun processus stationnaire. Etant donn que la parole est constitue de
plusieurs sons diffrents, il est ncessaire de considrer plusieurs distributions. Chaque
distribution est modlise par un ensemble de paramtres qui seront dtermins sur base dun
ensemble dentrainement de faon minimiser la probabilit derreur. Pendant la
reconnaissance, nous recherchons alors, travers lespace de toutes les squences de
distributions possibles (dans les limites de contraintes phonologiques et, ventuellement,

39
Chapitre III La Reconnaissance Automatique de la Parole

syntaxiques), la squence de modles (et donc de la phrase (mot) associe) qui maximise la
probabilit a posteriori par exemple.

Modle acoustique MMC

Selon le formalisme des modles de Markov caches (MMC) (chap.IV), le signal de


parole est suppos tre produit par un automate stochastique fini construit partir dun
ensemble dtats stationnaires rgis par des lois statistiques. En dautres mots, le formalisme
des modles MMC suppose que le signal de parole est form dune squence de segments
stationnaires, tous les vecteurs associs un mme segment stationnaire tant supposs avoir
gnrs par le mme tat MMC. Chaque tat de cet automate est caractris par une
distribution de probabilit dcrivant la probabilit dobservation des diffrents vecteurs
acoustiques.
Les transitions entre tats sont instantanes. Elles sont caractrises par une probabilit de
transition. Ainsi chaque tat du modle permet de modliser un segment de parole
stationnaire, la squence dtat permet quant elle de modliser la structure temporelle de la
parole comme une succession dtat stationnaires. cet effet les modles utiliss en
reconnaissance automatique de la parole sont gnralement du type gauche-droite o les
transitions possibles sont soit des boucles sur un mme tat, soit le passage un tat suivant (
droite). Laspect squentiel du signal de parole est ainsi modlis.
Comme unit linguistique (chaque phonme ou chaque mot) est donc modlis par un ou
plusieurs tats stationnaires, les mots sont ensuite construits en termes de squences de
phonmes et les phrases en termes de squences de mots. Chaque tat stationnaire est
reprsent par les paramtres de fonctions statistiques invariables, par exemple la moyenne et
la variance dune distribution gaussienne o des GMM.

Modle de Markov Cach MMC (Hidden Markov Model HMM)

Il est caractris par un double processus stochastique :

un processus interne : non observable


un processus externe : observable

Ces deux chanes se combinent pour former le processus stochastique.

La chane interne : est une chane de Markov que lon suppose chaque instant dans un
tat o la fonction alatoire correspondante engendre un segment lmentaire (de lordre de

40
Chapitre III La Reconnaissance Automatique de la Parole

10 ms ou plus), reprsent par un vecteur de paramtres, de londe acoustique observe. Un


observateur extrieur ne peut voir que les sorties de ces fonctions alatoires, sans avoir accs
aux tats de la chane sous-jacente, do le nom de modle cach.

Un des grands intrts des MMC rside dans lautomatisation de lapprentissage des
diffrents paramtres et distributions de probabilits du modle partir de donnes
acoustiques reprsentatives de lapplication considre, essentiellement les probabilits de
transition dun tat du MMC un autre tat et surtout les lois dmission. Ces lois
dmissions (probabilits) sont en gnral reprsentes sous forme dune somme de fonctions
gaussiennes (parfois plusieurs (GMM), permettant de mieux approcher la loi relle du
phnomne), comme lillustre la figure III.2. Cet apprentissage est assur par des algorithmes
itratifs destimation des paramtres, notamment lalgorithme de Baum-Welch (IV.5.2), cas
particulier de lalgorithme EM (Expectation-Maximisation) fond sur le principe de
maximum de vraisemblance.

Fig. III.2- modle de markov cinq tats

Les MMC peuvent tre utiliss de plusieurs faons en RAP, selon limportance de
lapplication (taille du vocabulaire et type de parole : mots isols ou parole continue).

Pour la reconnaissance de mots isols, il est possible de modliser chaque mot par un
MMC, La reconnaissance revient alors calculer la vraisemblance de la suite dobservations
acoustiques constituant le mot reconnatre par rapport chacun des modles. Le modle
prsentant la plus grande vraisemblance davoir mis cette suite dobservations fournit le mot
reconnu. Lalgorithme permettant doptimiser ce calcul est nouveau fond sur la
programmation dynamique, mais dans un cadre stochastique, lalgorithme de Viterbi (IV.4.4).

41
Chapitre III La Reconnaissance Automatique de la Parole

Pour la reconnaissance de la parole continue, lutilisation de modles globaux pour


chaque mot pose divers problmes : espace mmoire de stockage, volume de donnes
acoustiques ncessaires pour lapprentissage de tous les MMC. La solution adopte est
dutiliser des MMC pour reprsenter les units phontiques.

Ces units peuvent tre de nature varie : phonmes, diphones, syllabe, fenone,
allophones.

Les modles de mots sont construits par concatnation des modles analytiques
lmentaires correspondant aux transcriptions phontiques de ces mots. Pour mettre au point
des MMC aussi indpendants du locuteur que possible, il est ncessaire daugmenter le
nombre de paramtres des MMC.

Les solutions disponibles sont de deux types :

Les multi-modles : le principe est de reprsenter le mme mot par plusieurs


MMC correspondant diffrentes classes de locuteurs.
Les mlanges de densits de probabilit : au lieu de reprsenter la probabilit
dmission dun segment de parole pour une loi de probabilit (une gaussienne),
on utilise un mlange de lois gaussiennes permettant de mieux approcher la loi
relle du phnomne acoustique.

III.2.3. Approche par modles neuromtriques

Lutilisation de modles connexionnistes, ou rseaux neuronaux, fonds sur une


modlisation plus ou moins raliste du cortex humain, sest rcemment rpandue et a permis
dobtenir des rsultats intressants en RAP comme dans dautres domaines de la perception.
Ces modles sont constitus par linterconnexion dun trs grand nombre de processeurs
lmentaires inspirs du fonctionnement du neurone. Plusieurs types ont t utiliss dans
diffrents domaines du traitement de la parole (reconnaissance, dbruitage de parole,
vrification du locuteur, etc.) que nous allons dcrire brivement ci-dessous.

Perceptrons multicouches avec apprentissage par rtropropagation du gradient


derreur.
La prise en compte du temps, problme majeur en parole, est impossible dans le
modle de base. Des variantes ont t proposes pour pallier cet inconvnient :

42
Chapitre III La Reconnaissance Automatique de la Parole

perceptrons contextuels et perceptrons entre rcurrente ; perceptrons retard


temporel TDNN (Time Delay Neural Network).

La figure III.3 illustre le fonctionnement dun perceptron avec une couche cache.

Fig. III.3-Perceptron une couche cache pour la reconnaissance de mots

Les rseaux neuronaux (essentiellement perceptrons multicouches) sont presque


exclusivement utiliss en reconnaissance de la parole comme frontal de MMC ; un rseau
neuronal est alors entran pour fournir un MMC des valeurs de probabilits ncessaires
son fonctionnement. De telles architectures hybrides stochastiques/ neuronales-ANN/HMM
[16] se classent parmi les plus performantes dans les tests de systmes de reconnaissance
trs grands vocabulaires.

Lhybridation dun MMC avec un rseau neuronal est intressante du fait des proprits
discriminantes du rseau neuronal. Lhybridation dun MMC avec dautres classifieurs
discriminants sest rvle intressante en RAP, notamment les SVM.

Pour ajouter des paramtres neuronaux, aux paramtres calculs partir du signal de
parole par une des mthodes exposes au chapitre 2, notamment les paramtres cepstraux. On
utilise dans ce cas la capacit dun rseau neuronal modliser une distribution de

43
Chapitre III La Reconnaissance Automatique de la Parole

probabilits quelconque par apprentissage partir dexemples. De tels paramtres, associs


aux paramtres MFCC, sont actuellement les plus performants en reconnaissance de la parole
continue.

III.2.4. Approche Baysienne

La quasi-totalit des systmes de reconnaissance de parole continue actuels se fondent sur


une approche statistique et plus prcisment sur la thorie de la dcision baysienne [15]. Le
principe, illustr sur la figure III.4, peut tre rsum comme suit.

Le signal de parole est analys par une des mthodes prsentes au chapitre 2. Un mot ou
une phrase en entre du systme est ainsi reprsent comme une suite de vecteurs de
paramtres. La reconnaissance revient trouver la suite de mots a, forme de n mots, n > 1
ntant pas connu a priori, dont la probabilit conditionnelle b a connaissant lentre
est maximale.

Fig. III.4-Principe de la reconnaissance baysienne

b a est la probabilit dobserver la squence de vecteurs ^c lorsque la suite


de mots a est prononce. Cette probabilit est donne par un modle acoustique, le plus
souvent un modle MMC.

b a est la probabilit de la suite de mots a dans le langage utilis. Elle est fournie
par un modle de langage ML.

44
Chapitre III La Reconnaissance Automatique de la Parole

Conclusion

Dans ce chapitre nous avons dcrit le principe de la Reconnaissance Automatique de la


Parole tout en essayant de mettre en vidence les niveaux de complexits majeurs relatifs la
RAP, ainsi que ; sans dtailler, cit Les raisons souvent rencontres qui peuvent affecter les
performances de ces systmes. nous avons dfinis, galement les approches, les principes et
les techniques utilises dans le domaine de la RAP.

Le chapitre suivant sera consacr la dfinition des Models de Markov Cachs , les
algorithmes dentrainements et de reconnaissance qui ont contribuer grandement , la thorie
et la recherches sur les Modles de Markov cachs et qui leurs ont permis de sappliquer et de
simposer dans beaucoup de domaines .

De nos jours, les MMC, sont un outil largement utilis dans beaucoup de domaines,
incontournable en termes defficacits et performances dans le domaine de la reconnaissance
automatique de la parole.

45
CHAPITRE IV : LES MODLES
DE MARKOV CACHS
Chapitre IV Les Modles de Markov Cachs

Introduction

Les modles de Markov cachs sont des outils statistiques permettant de modliser des
phnomnes stochastiques. Ces modles sont utiliss dans de nombreux domaines [17] tels
que la reconnaissance et la synthse de la parole, la biologie, lordonnancement, lindexation
de documents, la reconnaissance dimages, la prdiction de sries temporelles, Pour
pouvoir utiliser ces modles efficacement, il est ncessaire den connaitre les principes.

Ce chapitre a pour objectif dtablir les principes, les notations utiles et les principaux
algorithmes qui constituent la thorie des modles de Markov cachs (MMC).

A cet effet, nous commenons en prsentant un historique des tapes les plus marquantes
dans la construction de cette thorie. Aprs avoir dfini ce que sont les chaines de Markov,
nous verrons que pour mieux modliser les phnomnes tudis, il est ncessaire de
considrer un modle ayant un pouvoir dexpression suprieur. Les modles de Markov
cachs (MMC) en font partie. Nous prsentons alors les MMC. La suite sattache prsenter
les algorithmes classiques des MMC pour le dcodage\seguementation o la reconnaissance:
Forward, Backward et de Viterbi. La dernire section de ce chapitre est consacre aux
diffrents critres utilisables classiquement pour lapprentissage de MMC. Finalement, nous
terminons chapitre par plusieurs remarques sur les critres dapprentissage.

IV.1. Historique

Les modles de Markov cachs ont une longue histoire derrire eux. En 1913, les
premiers travaux sur les chaines de markov pour lanalyse du langage permettent A.A.
Markov de concevoir la thorie des chaines de Markov [18]. De 1948 1951, Shannon
conoit la thorie de linformation en utilisant les chaines de Markov [19].

Ds 1958, les modles probabilistes durnes [20], le calcul direct du maximum de


vraisemblance [21] et lobservation de la suite dtats dans une chaine de Markov [22], sont
raliss. Mais ce nest qua partir de 1966 avec les travaux de L.E. Baum [23], que les
algorithmes basiques pour lestimation des tats et des paramtres des modles, pour les
modles de Markov cachs, sont mis au point. partir de 1980, ces modles sont tendus afin
dintgrer la notion de dure variable [25] et densits de probabilits continues
multivariables. Les travaux de A. J. Viterbi [26] et G. D. Forney [26] ont permis de construire
un algorithme efficace et dont la complexit est linaire, par apport la longueur de la suite

46
Chapitre IV Les Modles de Markov Cachs

dobservations, pour le calcul de la squence dtats cachs. En 1970, les termes modles de
Markov cachs ou chaines de Markov caches ( hidden Markov models) mis au point
par L. P. Neuwirt afin de remplacer lappellation fonction probabiliste dune chaine de
markov utilise jusque l [27].

partir de 1975, les modles de Markov cachs ont commenc tre utiliss dans de
nombreux domaines, parmi lesquelles la reconnaissance automatique de la parole [28]. Les
premiers travaux sur les modles de Markov cachs pour la reconnaissance automatique de la
parole ont t mens en parallle par le groupe IBM compos de L. R. Bahl et F. Jelinek [29]
et par J. K. Baker au CMU [30]. Ces travaux ont permis de dcouvrir les capacits des
modles de Markov cachs pour la reconnaissance de la parole.

Dans les annes 1980, les modles de Markov cachs incorporant des rseaux de
neurones apparaissent [31]. Depuis lors, ces nouveaux modles ont t trs largement utiliss
pour la reconnaissance de mots isols [32],pour la reconnaissance de mots enchains [33],
pour la reconnaissance de la parole continue [34] ou pour la localisation de mots dans une
phrase [35].

partir des annes 1990, sont mises en uvre les premires applications la
reconnaissance dimages [36] et de lcriture apparaissent [37].

Rcemment, les modles de Markov cachs ont mme t utiliss pour lordonnancement
de taches [38] et les technologies [39].

Les modles de markov cachs sont une famille doutils mathmatiques probabilistes
parfaitement adapts la modlisation de squences temporelles. Il existe plusieurs types de
modles de markov cachs afin de mieux rpondre des problmes spcifiques. Dans le cadre
de notre travail et plus particulirement de ce chapitre, nous nous intresserons principalement
aux modles de markov cachs discrets du premier ordre, que nous abrgerons par la suite en
MMC. Pour pouvoir prsenter les MMC, il est ncessaire de commencer par prsenter les
modles de Markov et les proprits qui leurs sont associes.

47
Chapitre IV Les Modles de Markov Cachs

IV.2. Les chaines de Markov discrtes

En calcul des probabilits, on dfinit une variable alatoire v. a. relle comme une
fonction mesurable : e f g. e est appel lunivers. Dans de nombreux cas de figures, e
est lensemble des rels g, lensemble des entiers positifs h ou un de leurs sous-ensembles.

Processus stochastique Un processus stochastique est une famille i j k de v. a.


dfinies sur e

:e f g

Lensemble l reprsente souvent la notion de temps mais il peut galement correspondre


la notion de position spatiale en dimension 2 ou toute autre notion en autant de dimensions
que ncessaire. Dans le cas o l reprsente la notion de temps et si l est discret, on parle de
processus stochastique en temps discret, tandis que le processus est dit en temps continu,
lorsque l est continu. Les tats dun processus stochastique dfini par les v. a. :e f g
pour tout k l sont les valeurs prises par ces v. a. lorsque varie. On note m lensemble des
tats du processus.

A. A. Markov fut le premier tudier et poser les bases mathmatiques permettant


ltude des chaines qui portent son nom. La dfinition de ces chaines est la suivante :

Condition dune chaine de Markov : Un processus iE j kl E : e f m est une


chaine de markov sil vrifie les trois conditions suivantes :

l est dnombrable ou fini. Dans ce cas et pour simplifier les notations ultrieures, il est
toujours possible de prendre l n o i , , j. Cette condition signifie que le processus ne
change de valeur qu des instants dtermins a priori.

Lensemble m des tats du processus est dnombrable. Dans la suite, nous supposerons
galement que m est fini. Nous pouvons alors dfinir m ip , , p j cet ensemble.

Le processus est associ une fonction de probabilit b vrifiant la proprit


markovienne : la probabilit que le processus soit dans un tat particulier un instant q ne
dpend que de ltat dans lequel se trouve le processus au temps 0 . Soit r s kl

une suite dtats du processus s k m . La proprit de Markov vrifie la relation suivante,


pour toute suite dtats r et pour tout instant k l:

48
Chapitre IV Les Modles de Markov Cachs

b E s E s ,,E s b E s E s 12

La probabilit b E s E s correspond la probabilit de transition de ltat


s linstant 0 vers ltat s linstant t.

Homognit dune chaine de Markov : Une chaine de Markov est homogne (dans
le temps) si et seulement si les probabilits de transition ne dpendent pas du temps t
les probabilits de transition sont stationnaires , cest--dire que pour tout , u
k
l , on a :

b/E 7 p! E p1 b E v7 p! E v p

On note ' ,! cette probabilit.

Une chaine de Markov homogne est donc totalement dfinie par la donne des tats, des
probabilits des tats initiaux w et des probabilits des transitions entre tats A avec :

"
w x y z " ,," u
" b E p
"

5 ' ,! { ,!{ ' ,! b E 7 p E p!

Vecteurs et matrices stochastiques :

Un vecteur | B ,,B de dimension } ou, de manire quivalente, son


transpos est stochastique si et seulement si :

Pour tout , ~ B ~ , B .

Une matrice J 8 ,! { ,!{ de dimension o est dite stochastique si et


seulement,

si Pour tout ! , ~ 8 ,! ~ ,

Pour tout , ! 8 ,! .

49
Chapitre IV Les Modles de Markov Cachs

Caractristique dune chaine de Markov :

Une matrice est stochastique si et seulement si les lignes qui la composent sont des
vecteurs stochastiques.

Le systme est forcment dans un et un seul tat particulier au dpart donc est un
vecteur stochastique. 5 est une matrice stochastique car, en partant dans un tat p linstant
, le processus transite forcment vers lun des tats du systme au temps * .

A tout couple form dun vecteur stochastique | de dimension et dune matrice


stochastique J de dimensions o , il est possible dassocier une chaine de Markov
caractrise par le couple |, J .

Reprsentation graphique dune chaine de Markov : Une chaine de Markov peut


tre reprsente graphiquement. Pour cela, on associe la chaine de Markov iE j kl

un graphe + dont lensemble des sommets est en bijection avec lensemble des tats m
et dont lensemble des arcs (orients dans le sens des transitions) est dfini par

p , p! k ' ,! 0

Afin de simplifier les notations, lensemble des sommets du graphe + est reprsent par
lensemble m. La figure IV.5 prsente la reprsentation graphique associe la chaine de
Markov w, 5 .

Fig. IV.5- Reprsentation graphique de la chaine de Markov w, 5

50
Chapitre IV Les Modles de Markov Cachs

IV.2.1 Les modles de Markov cachs discrets (MMC) (HMM)

Les chaines de Markov peuvent servir modliser de nombreux processus


stochastiques.

Cependant, dans certains cas, ces modles ne permettent pas dexprimer le comportement
du systme avec suffisamment de prcision. Pour amliorer cette prcision, les modles de
Markov cachs ont t dvelopps.

Un modle de Markov cach discret correspond la modlisation de deux processus


stochastiques : un processus cach parfaitement modliser par une chaine ce Markov discrte
et un processus observ dpendant des tats du processus cach.

Soit m ip , , p j lensemble des tats cachs du systme. Soit E E ,,E un


-uple de v. a. dfinies sur m. Soit iB , , BJ j lensemble des J symboles missibles
par le systme. Soit | B , , BJ un -uple de v. a. dfinies sur .

Un modle de Markov cach discret du premier ordre est alors dfini par les probabilits
suivantes :

Les probabilits dinitialisation des tats cachs : b E p

Les probabilits de transition entre tats cachs : b E p! E p

Les probabilits dmission des symboles dans chaque tat cach :

b | B! E p .

Si le modle de Markov cach est stationnaire alors les probabilits de transition entre
tats cachs et les probabilits dmission des symboles dans chaque tat cach sont
indpendantes du temps 1.

On peut alors dfinir, pour tout 1 quelconque, 5 ' ,! { ,!{ avec

' ,! b/E p! E p 1, ! { { , {!{J avec ! b | B! E p et


w " ,," u
avec " b E p . Un modle de markov cach stationnaire du
premier ordre est donc totalement dfini par le triplet 5, , w . Par la suite, nous utiliserons
la notation 5, , w et nous emploierons le terme MMC pour des modles de Markov

51
Chapitre IV Les Modles de Markov Cachs

cachs stationnaires du premier ordre. Les relations de dpendance entre les diffrentes
variables alatoires dun MMC sont schmatises par la figure . Dans cette reprsentation, les
flches partent de la v. a. qui conditionne et se terminent au niveau de la variable alatoire
conditionne. Dans la figure IV.7, seules les transitions au temps 0 , et * sont
reprsentes.

Fig. IV.7-Relation de dpendance entre les variables alatoires dun MMC

On note r s ,,s k E une squence dtats cachs et ^ ,,^ k une


squence de symboles observs. La probabilit de ralisation de la squence dtats cachs r
et de la squence dobservation par rapport au MMC est alors

b | , E r5 , , w

Ou plus simplement

b | , E r

En utilisant les dpendances des probabilits conditionnelles, on dduit que :

b | , E r b | E r, b E r

De plus,

b | E r, b | ^ E s ,

b E r b E s b E7 s 7 E s ,

A partir dun MMC , dune squence dtats cachs r et dune squence dobservations
, il est possible de calculer ladquation entre le modle et les deux squences r et .

52
Chapitre IV Les Modles de Markov Cachs

Pour cela, il suffit de calculer la probabilit b | , E r . Cette dernire


correspond la probabilit que la squence dobservations ait effectivement t engendre
par le modle en suivant la squence dtats cachs r.

Lorsque la squence dtats cachs nest pas connue, il est possible dvaluer la
vraisemblance dune squence dobservation par rapport un modle . La vraisemblance
correspond la probabilit b | que la squence dobservations ait t engendre par
le modle pour lensemble des squences dtats cachs possibles. On remarque alors que la
formule suivante est vrifie :

b | rkE b | , E r

Lutilisation des MMC, ncessite la rsolution de plusieurs problmes principaux : le


calcul de la vraisemblance, le dcodage / segmentation de squence dobservations et
lapprentissage.

IV.3. calcul de la vraisemblance

Comme nous lavons vu prcdemment, calculer la vraisemblance dune squence de


observations par apport un MMC consiste valuer la probabilit b | . Ce calcul
peut seffectuer en utilisant differentes mthodes, dans ce qui suit, nous allons expliquer les
principes de chaque mthode et de prsenter lalgoithme de calcul correspendant.

IV.3.1. Lalgorithme Forward

Pour prsenter rapidement cet algorithme, il est ncessaire de dfinir les variables
Forward [28] (pour tout et ):

b | ^ ,E p

b | ^ ,,| ^ ,E p

On remarque alors que la relation de rcurrence suivante est vrifie pour tout
0 et ! .

7 ! ! ^ 7 ' ,!

De plus, on a b | . Lalgorithme Forward est alors donn par


lalgorithme 1.1. La complexit de cet algorithme est en .

53
Chapitre IV Les Modles de Markov Cachs

Pour faire
" ^
Fin pour
Pour 0 Faire
Pour ! Faire
7 ! '! ^7
Fin Pour
Fin pour

b |

Algorithme IV.1 : Algorithme Forward

Cet algorithme permet de calculer la vraisemblance dune squence dobservations.


Cependant, dans la pratique, des problmes de prcision numrique apparaissent
limplmentation rendant lalgorithme Forward inutilisable. Une solution consiste oprer un
r-chelonnement des valeurs [28]. Pour cela, on dfinit deux ensembles de variables u et

( pour tout et ) par :

u


u !
! ' ,! . ! ^

On dfinit (pour tout ) le coefficient de normalisation 1de la somme des

. .
par 4 v

. On pose u avec .

On montre par rcursivit que

Or, par dfinition, on a


do :

b |

Lalgorithme Forward avec r-chelonnement (galement nomm rescaling) [28] est


donn par lalgorithme IV.2. Sa complexit est identique celle de lalgorithme Forward,
cest--dire , cependant lalgorithme ncessite plus doprations. De plus, la valeur
prise par b | est trs petite et est considre la plupart du temps comme tant nulle
dans les reprsentations en nombres rels sur les machines. Par consquent, on considre plus
facilement son logarithme, qui sobtient par :

54
Chapitre IV Les Modles de Markov Cachs

@A b | @A 0 @A

Pour Faire
u " ^
Fin pour
4 v
Pour Faire
u
Fin Pour
Pour 0 Faire
Pour ! Faire
7 !
u
/ ' ! 1! ^ 7
Fin Pour
!4 v !
Pour ! Faire
7 !
7 !
u

Fin Pour
Fin pour
b |

Algorithme IV.2 :Algorithme Forward avec r-chelonnement

IV.3.2. Lalgorithme Backward

Bien que le problme du calcul de la vraisemblance soit rsolu, nous allons galement
prsenter lalgorithme Backward [36] qui permet aussi de calculer la vraisemblance et qui
surtout sera ncessaire dans les sections ultrieurs, notamment pour lapprentissage. Les
variables Backward sont dfinies par

(pour tout et 0 ):



b | 7 ^ 7 ,,| ^ E p

Pour tout et 0 , les relations suivante sont vrifies :

' ,! 7 ^7

b | " ^

Lalgorithme Backward, de mme complexit que lalgorithme Forward, est donn par
lalgorithme IV.3.

55
Chapitre IV Les Modles de Markov Cachs

Pour Faire

Fin Pour
Pour 0 Faire
Pour Faire

! ' ! 7 ! ! ^ 7
Fin Pour
Fin Pour

b | " ^

Algorithme IV.3 :Algorithme Backward

Tout comme lalgorithme Forward, lalgorithme Backward souffre de problme de


prcision numrique. Par consquent, il est ncessaire dutiliser le r-chelonnement des

variables Backward. Pour cela, on dfinit lensemble de variables par ( pour tout
et 0 ):




! ' ,! ! ^ 7

7 !

On pourra remarquer que les coefficients O sont ceux calculs prcdemment pour
lalgorithme Forward avec r-chelonnement.

En dfinissant ` , il est possible de montrer les relations suivantes :

` b |

` 7 b |

Lalgorithme Backward avec r-chelonnement [28] est donn par lalgorithme IV.4. Sa
complexit est identique celle de lalgorithme Backward, cest--dire . On remarque
galement que le calcul de par cet algorithme offre peu dintrt, car il ncessite
de connaitre les coefficients de lalgorithme Forward avec r-chelonnement.

56
Chapitre IV Les Modles de Markov Cachs

Pour Faire

Fin Pour

Pour 0 Faire

Pour Faire


!
' ,! 7 ! ! ^ 7

Algorithme IV.4 :Algorithme Backward avec r-chelonnement

IV.3.3. Probabilits dductibles

A partir des variables Forward et Backward, avec ou sans r-chelonnement, il nous est
dores et dj possible dexprimer deux probabilits utiles.

b | , E p




b |

b/| , E p ,E 7 p! 1 ' ,! ! ^ 7 7 !



' ,! ! ^ 7 7 !
b |

IV.3.4. Dcodage/segmentation de squences dobservations

Le dcodage ou la segmentation de squences dobservations consiste trouver la


squence dtats cachs qui a engendr une squence dobservations. Deux approches sont
possibles. La premire consiste rechercher, chaque instant, ltat qui a le plus
probablement engendr le symbole observ. La deuxime approche consiste trouver la
squence complte dtats cachs qui a le plus probablement engendr la squence
dobservations.

57
Chapitre IV Les Modles de Markov Cachs

IV.3.4.1. Etats cachs les plus probables chaque instant

Dans cette approche, on cherche la squence ro so , , so k m vrifiant, pour tout


, lquation :

so N 8' b | , E p

Il est donc ncessaire, daprs la formule 1.1, de calculer en premier lieu les variables
Forward et Backward. Malgr sa formulation simple, le recherche de ltat cach le plus
probable chaque instant a une complexit en . De plus, la squence ro obtenue peut
tre inconsistante, dans le sens o b | , E ro . En effet, il est possible que la
transition entre deux tats p et p! existe dans la squence ro , alors que la probabilit ' ,! est
nulle.

IV.3.4.2. Algorithme de viterbi

La recherche de la squence dtats cachs ro qui le plus probablement engendr une


squence dobservations consiste rsoudre

ro N 8' rkm b | , E r

Lalgorithme permettant de rsoudre ce problme est lalgorithme de Viterbi [28].

On dfinit

8' /s ,,s 3 km 3 1 ib E s ,,E s ,E p ,| ^ ,,|

La probabilit du meilleur chemin partiel amenant ltat cach p au temps et le


meilleur chemin amenant ltat p au temps partir du temps 0 .

Lalgorithme de Viterbi est alors donn par lalgorithme 5. Sa complexit est .

58
Chapitre IV Les Modles de Markov Cachs

Pour Faire
" ^
Fin Pour
Pour Faire
Pour ! Faire
! '_8' { { ' !

! 8' { { / ! 1' ! .! ! ^
Fin Pour
Fin Pour
so '_ 8' { { i j
b | , E ro 8' { { i j so
Pour 0 Faire
so 7 so7
Algorithme. IV.5 :Algorithme de Viterbi

Tout comme les algorithmes Forward et Backward, cet algorithme souffre de problmes
lis limplmentation. Pour les rsoudre, il est galement ncessaire de mettre en place une
stratgie de r-chelonnement. A cet effet, on dfinit


8' s ,,s 3 km 3 @A b E s ,,E s ,E p ,| ^ ,,|
^

Lalgorithme de Viterbi avec r-chelonnement [28] est alors donn par lalgorithme 6.
Sa complexit est , cependant, le calcul des logarithmes peut davrer plus couteux.



Pour Faire
; " *; ^
Fin Pour
Pour Faire
Pour ! Faire
! '_8' { { * ; ' !
!
8' { { * ; ' ! * ; ! ^

! * ; ' ! .! * ; ! ^

Fin Pour


Fin Pour
so '_8' { {
; b | , E r o
8' { { so

0 Faire
7 so7
Pour
so
Fin Pour

Algorithme IV.6 :Algorithme de Viterbi avec r-chelonnement

59
Chapitre IV Les Modles de Markov Cachs

IV.4. Apprentissage des modles de Markov cachs

Apprendre un MMC cest ajuster les paramtres du modle de manire maximiser un


certain critre. Diffrents critre sont disponibles dans la littrature. Nous nallons pas tous les
recenser, mais nous allons prsenter les plus importants et les plus couramment utiliss.

IV.4.1 Apprentissage tiquet

Pour effectuer un apprentissage tiquet, galement connu dans la littrature comme


lapprentissage de Viterbi, on dispose de deux informations : la squence dobservations et
la squence dtats cachs r qui a engendr la squence prcdente. Le critre que lon
cherche maximiser est b | , E r . Pour le maximiser, il suffit de compter les
diffrentes transitions du systme. Habituellement, avec ce type dapprentissage, on ne
considre pas une seule squence dobservations la fois, mais plusieurs. Notons i , , j
les squences dobservations, ir , , r j les squences dtats associes et i ,, j
les
longueurs des squences. Dans ce cas, on utilise toujours le comptage des diffrentes
transitions du systme, mais en considrant toutes les squences simultanment de manire
indistincte. Lalgorithme dapprentissage tiquet est donn par lalgorithme IV.7.

Sa complexit est * J* en dsignant par , la longueur totale des squences


dobservations considres.
,
,! , ,!
,! J, . ,!
Pour Faire
Incrmenter s
Pour Faire
Incrmenter s , ^
Si Alors
Incrmenter .s , s 7
Fin Si
Fin Pour
Fin Pour
,"

,!
,! , ' ,! 4 ,
. ,!
,! J, !
J
. ,
Algorithme IV.7 : Apprentissage tiquet

60
Chapitre IV Les Modles de Markov Cachs

Lorsque le nombre de squences dobservations ou de squences dtats cachs ou tout


simplement le nombre dapparitions dun ou plusieurs motifs est trop rduit, lapprentissage
est souvent peu efficace, car le modle narrive pas gnraliser ce quil doit reconnaitre. En
effet, de nombreuses probabilits sont trs petites, voire nulles. Un moyen de rsoudre ces
problmes consiste effectuer un lissage lors de lestimation des probabilits. En notant
0 le coefficient de lissage, lalgorithme est donn par lalgorithme IV.8.

Dans cet algorithme, le coefficient de lissage est identique pour toutes les probabilits,
mais rien nempche de le choisir diffrent pour chacune delles, afin dinclure des
connaissances expertes dans lapprentissage.

,
,! , ,!
,! J, . ,!
Pour Faire
Incrmenter s
Pour Faire
Incrmenter s , ^
Si Alors
Incrmenter .s , s 7
Fin Si
Fin Pour

*
Fin Pour
,"
*
* ,!
,! , ' ,!
* ,
* . ,!
,! J, !
J * J . ,
Algorithme IV.8 : Apprentissage tiquet avec lissage

IV.4.2 Maximisation de la vraisemblance

Le critre de maximum de vraisemblance consiste trouver le modle o maximisant la


probabilit b | [36]. En gnral, il nest pas possible de trouver ce modle optimal.
Nanmoins, pour tenter de rsoudre ce problme, il existe principalement deux mthodes :
utiliser lalgorithme Expectation-Maximisation, ou utiliser une descente de gradient.

61
Chapitre IV Les Modles de Markov Cachs

IV.4.2.1. Introduction lalgorithme Expectation-Maximisation

Lalgorithme Expectation-Maximisation (EM) est une mthode gnrale doptimisation


en prsence dinformation incomplte. Lalgorithme permet, partir dun modle initial 8u ,
de trouver un modle 8 qui augmente la vraisemblance. Dans cette section, nous ne
dmontrerons pas lalgorithme EM. Nous nous contenterons juste dexposer les principes et
formules qui nous seront ncessaires par la suite. Le lecteur intress trouvera dans [40] un
expos plus complet de la mthodologie de lalgorithme Expectation-Maximisation.

Particulirement bien adapt des probabilits, lalgorithme EM repose sur deux


hypothses simples :

maximiser b J 8 est quivalent maximiser @A b J 8 ;

lintroduction de variables non observes ou caches dfinies sur dans lexpression


de la vraisemblance permet deffectuer les calculs plus facilement.

Dans le cas de variables alatoires discrtes, on dfinit 8, 8u , [39] par :

8, 8u k b ,J 8u @A b , J 8

-k @A b , J 8 ,J 8u

Avec lesprance mathmatique de sur lensemble .

Lalgorithme EM [40] consiste donc construire, partir dun modle initial 8 , une
suite de modles 8 P vrifiant

8 7 ,8 8 ,8

Une condition suffisante est alors de rechercher le modle -7 qui maximise la fonction
8 7 , 8 . La suite 8 P vrifie, pour tout 1 et 8 7 8 , la relation

b J 8 7 J 8

Lun des plus clbres applications de lalgorithme EM est lalgorithme Baum-Welch


permettant lapprentissage des MMC .

62
Chapitre IV Les Modles de Markov Cachs

IV.4.2.2. Lalgorithme de Baum-Welch

Dans le cas des MMC, on cherche maximiser b | o dsigne une squence


de observations. En appliquant lalgorithme EM la maximisation de cette probabilit. On
est amen maximiser , u , avec 5, , w le nouveau modle et u le modle connu
(ou actuel) :

^ , u rkm b E r| , u @A b | , E r

En effectuant les diffrents calculs, on obtient :

" b E p , u

43 b/E p ,E p! | ,v 1
' ,! 43 b E p | ,v

4 b/E p | ,v 1 ^ !
! 4 b E p | ,v

Les formules de r-estimation obtenues ci-dessus peuvent sinterprter de la faon


suivante

" KNLS@SZ u YZNY AR @u ZZ RS @u SARZAZ Z

ALNY Y ZNARSZSLAR Y @v ZZ RS @v SARZAZ Z


' ,! ALNY Y LSR L @v LA MSZZY @v ZZ RS

ALNY v KKNSZSLA RSM@ZAYR Y @v ZZ R YZ M RL@Y


!
ALNY v KKNSZSLAR Y @v ZZ R

On peut alors remarquer que le principe reste similaire celui de lapprentissage tiquet
du paragraphe IV.4.1, la diffrence que ltiquetage seffectue en probabilit avant r-
estimation.

Lalgorithme de Baum-Welch [23] est donn par lalgorithme 9. Sa complexit est


* J .

Dune manire nave, les probabilits utilises pour la r-estimation des matrices peuvent
tre obtenues par les algorithmes Forward et Backward. Cependant, toujours pour des
problmes dimplmentation numriques, on utilise plutt leurs versions utilisant les
algorithmes avec r-chelonnement.

63
Chapitre IV Les Modles de Markov Cachs

Choisir un model initial

Rpter
*
Calculer les variables Forward et Backward pour
le model
Calculer w
Calculer 5
Calculer
Tant que /b | | 1
8'

Algorithme IV.9 : Algorithme de Baum-Welch

IV.4.2.3. Descente de gradient

La deuxime mthode permettant doptimiser la vraisemblance consiste


utiliser la descente de gradient. Lutilisation de la descente de gradient avec des MMC pose
un problme de taille, les contraintes de stochasticit doivent tre respectes par les
paramtres du modle.

A. Changement de lespace de reprsentation

Une solution simple consiste re-paramtrer les MMC avec des variables prenant leurs
valeurs dans lespace rel laide des quations suivantes :

YK
~ ,! ~ , ' ,!
,!
4 YK ,

YK ,!
~ ~ , ~ ! ~ J, ! J4 YK ,

YK ,
~ ~ , " 4 YK ,

Si lon suppose que les coefficients des matrices stochastiques sont strictement positifs,
alors il existe au moins une solution ces quations. Un MMC est alors parfaitement dfini
par les trois matrices stochastiques 5, , w ou les trois matrices relles , , , .

Dans le cas o tous les coefficients ne sont pas strictement positifs, il est toujours
possible de fixer le coefficient nul une valeur trs petite, mais non nulle, de manire ne pas
trop dformer le modle.

64
Chapitre IV Les Modles de Markov Cachs

Il est intressant de noter que les paramtres ,! , ,! et . ne sont pas uniques. En effet,
lajout dune constante commune chaque bloc de variables stochastique donne des valeurs
vrifiant galement les quations. Pour passer des coefficients ' ,! , ! et " aux coefficients

,! , ,! et . , il suffit alors dutiliser les formules suivantes :

,! @A ' ,!

,! @A !

. @A "

Lutilisation de ce paramtrage pour le calcul des drives partielles pose cependant


problme lorsque lune des probabilits du modle est nulle. Une solution couramment
utilise est dimposer que les coefficients soient non nuls. Une autre solution consiste dfinir
loprateur LN en imposant une valeur 0 proche de zro et une valeur 2| ngative et
grande en valeur absolue, telle que

2| RS ~

@A RSALA

En remplaant loprateur @A dans les quations du paragraphe A, il est possible de ne pas


imposer de contraintes de stricte positivit aux coefficients du modle. Cependant, il faut
avoir lesprit que cette transformation nest pas rversible.

B. Calcul du gradient

Soit @A b | . Maximiser la vraisemblance b | est quivalent


maximiser le logarithme de la vraisemblance . Calculons le gradient de par rapport
aux paramtres de au point c.

b |
c c
b | c

Maximiser ncessite donc de calculer les drives partielles de b | par


rapport aux diffrents paramtres du modle.

b |
' ,! ! ^ ! 0 ' ,!
,!

65
Chapitre IV Les Modles de Markov Cachs

b |
^ ! 0 !
,!

b |
" ^ 0" b |
.

3
b |
! 0 ' ,!
' ,! ! ^
3

b | ,! 3

b |

^ ! !

b | ,!

b |

" ^ 0"
b | .

A partir de ce gradient, il est possible dutiliser nimporte quelle descente de gradient


telles que celles dcrites dans o

Cependant, il faut garder lesprit que ce calcul est couteux en temps machine. Sa
complexit est * J .

On notera que, lalgorithme de Baum-Welch ou la descente de gradient, les deux


mthodes ncessitent un modle initial amliorer. Ces approches simples possdent un gros
inconvnient : elles sont sensibles au point de dpart et elles convergent vers des optima
locaux de la vraisemblance. Il existe de nombreuses variantes de lalgorithme EM construites
pour pallier certains de ces inconvnients.

Stochastic Expectation Maximisation

Lalgorithme SEM (Stochastic Expectation Maximisation) [42] peut galement tre


utilis pour effectuer lapprentissage de MMC. Lalgorithme SEM est une variante
stochastique de lalgorithme EM, beaucoup moins sensible au point de dpart. partir dun
modle initial , il consiste engendrer en probabilit, selon la loi de , une squence
dtats cachs ayant engendr la squence dobservations. partir de cette squence dtats
cachs, un apprentissage tiquet est raliser afin dobtenir un nouveau modle . La
procdure est ritre plusieurs fois.

Cette mthode possde deux avantages importantes par rapport lalgorithme EM : la


convergence est rapide et lalgorithme SEM est peu sensible au modle initial. Cependant, la
mthode possde galement deux gros dsavantages : elle est moins efficace que lalgorithme

66
Chapitre IV Les Modles de Markov Cachs

EM (Baum-Welch) en prsence de squences dobservations trop courtes et la suite des


modles obtenus ne converge pas ponctuellement on na pas b | ~b |
7 mais uniquement globalement .

Le lecteur pourra remarquer que cet algorithme est proche de lalgorithme de segmental
k-means de la section 9: seul le mode de gnration de la squence dtats cachs change.

Estimation Conditionnelle Itrative : ICE

Lalgorithme dEstimation Conditionnelle Itrative (Iterative Conditional Estimation-


ICE) est une mthode doptimisation en prsence de donnes caches propose dans [47]. Le
principe de ICE consiste utiliser un estimateur des paramtres du modle calcul partir
des informations compltes, cest--dire partir de la squence dobservations et dune
squence dtats cachs. Il a t montr que la meilleure approximation du modle au sens de
lerreur quadratique moyenne est lesprance conditionnelle. Ainsi, dans des cas particulier
des MMC, lalgorithme ICE permet daboutir aux mmes formules de r-estimation que
lalgorithme de Baum-Welch

Les autres variantes

Dautres variantes de lalgorithme EM sont disponibles dans la littrature. Il est possible


de citer lalgorithme de SAEM [43], qui est un intermdiaire entre EM et SEM, ou MCEM
[44], qui utilise de manire intense la gnration de squences dtats et les mthodes de
Monte-Carlo.

IV.5. Critre du maximum a posteriori (MAP)

Le critre de maximum a posteriori MAP trouve son intrt dans la thorie de la dcision
baysienne. Jusqu' maintenant, nous avons considr des critres doptimisation des modles
utilisant la rgle de dcision suivante :

Si b | alors a t le plus probablement mise par le modle


.

Bien que la notion de plus probablement mise soit couramment utilise afin de dire
appartient , cest--dire, pour notre exemple, que la squence dobservation appartient
la classe modlise par , rien ne garantit que ce choix soit optimal.

67
Chapitre IV Les Modles de Markov Cachs

Un moyen de garantir un choix optimal, au moins en thorie, est dutiliser la thorie de la


dcision baysienne [45]. Le critre de dcision utilis est alors

b | | , alors appartient la classe

Ce critre pose problme, car nous ne savons pas comment exprimer ces probabilits.
Cependant, en transformant ces probabilits, on obtient :

b | b
b |
b |

O b | est la probabilit a posteriori du modle connaissant la


squence dobservations , b est la probabilit a priori, dapparition du modle et
b | est la probabilit a priori dapparition de la squence dobservations .

Le critre MAP possde un avantage certain sur le critre de maximum de


vraisemblance :

Les probabilits a priori permettent de modliser le dsquilibre ventuel dans


lapparition des squences dobservations.

La premire remarque que lon peut faire est que les probabilits b | peuvent tre
ignores car, dans la rgle de dcision baysienne, elles peuvent tre simplifies.

Lapprentissage des modles avec le critre MAP dpend trs fortement des objectifs
viss.

Lorsque les modles sont appris sparment lobjectif est alors de maximiser la
probabilit b | , cest--dire, aprs simplification, maximiser b | b .
Si la probabilit b sexprime indpendamment des valeurs prises par les matrices
stochastiques qui le dfinissent, alors les deux probabilits peuvent tre apprises sparment.
Pour la probabilit b | , il suffit dutiliser le critre de maximum de vraisemblance et
pour la probabilit b on utilise gnralement une estimation statistique de lapparition de
ce modle.

Dans le cas o lexpression de b dpend des valeurs prises par les paramtres du
modle, il nest pas possible dutiliser le critre de maximum de vraisemblance.

Une solution consiste alors utiliser une descente de gradient afin de maximiser le critre
@A b | * @A b condition que b soit diffrentiable. Lorsque le critre devient

68
Chapitre IV Les Modles de Markov Cachs

plus complexe, ou lorsquil utilise plusieurs modles ou squences dobservations en


simultan, la mme dmarche peut tre utilise : sil est possible doptimiser sparment les
deux types de probabilits, il faut les traiter sparment. Dans le cas o cela nest pas
possible, le moyen le plus courant deffectuer lapprentissage consiste utiliser la descente de
gradient. Pour certains critres, il nest pas possible dliminer les probabilits b | , il
est alors ncessaire de les modliser et de les inclure dans la descente de gradient.

IV.6. Maximisation de linformation mutuelle

Lun des buts principaux de lapprentissage de MMC est deffectuer une classification.
En effet, on cherche souvent, partir dune observation , dcider de manire automatique
quelle autre observation elle ressemble le plus et surtout dcider quelle classe de
squences dobservations elle appartient rellement.

Exemple illustratif On considre un systme didentification biomtrique bas sur la


photographie du visage. Initialement, le systme possde au moins une photographie
de chaque personne reconnaitre. Chaque photographie est modlise par un MMC
aprs quelle ait t transforme par un procd quelconque en squence
dobservations. Si une personne se prsente devant la camra, le systme va prendre
une photographie, la transformer en squence et comparer les diffrentes
vraisemblances avec les MMC appris. Le MMC qui permet dobtenir la meilleure
vraisemblance permet alors de dire que la personne est celle qui correspond la
photographie du MMC. En thorie, cette mthode fonctionne mais, en pratique, ce
nest pas toujours le cas. Si lensemble des photographies concerne des photographies
de visages de personnes de mme couleur de peau et de mme couleur de cheveux,
alors il ya de grande chances pour que les modles reconnaissent bien lensemble des
visages, car la modlisation des visages sera quasi identique. Une solution consiste
effectuer lapprentissage des MMC avec un autre critre que la vraisemblance. Le
critre de prdilection pour cette tache est la maximisation de linformation mutuelle
MIM, Plusieurs variantes de la maximisation de linformation mutuelle existent : elles
sont prsentes ci-dessous.

IV.6.1. Maximisation de linformation mutuelle de la vraisemblance

La premire forme du critre de MIM sattache diffrentier les modles par leurs
vraisemblances. A cet effet, on cherche maximiser la vraisemblance de la squence

69
Chapitre IV Les Modles de Markov Cachs

dobservations apprendre mais galement minimiser la vraisemblance des squences


dobservations ne pas reconnaitre ,,
. Lavantage de ce critre est quil laisse le
MMC modliser ce qui est caractristique, tout en acceptant de moins bien modliser ce qui
ne lest pas.

Ce critre peut prendre plusieurs formes. La forme prsente ci-aprs est celle dcrite
dans [28]. Cette forme est intressante, car elle permet de grer facilement les problmes de
prcision numrique.

b |
88 4 b |

Comme nous pouvons le voir, maximiser cette expression entraine la maximisation de la


vraisemblance b | et la minimisation des vraisemblances b | .

On remarque alors que maximiser 8 8 est quivalent maximiser son logarithme


nprien. On dfinit alors

@A 8 8 @A b | 0 @A b |

Pour optimiser ce critre, il est alors possible dutiliser une descente de gradient, Il est
donc ncessaire de calculer le gradient de . Ce dernier est donn par lquation suivante :

b | b |
0
b | b |

Or ce gradient nest autre quune combinaison linaire des gradients calculs la section

6. Pour cela, on note
, , les variables Forward et Backward avec r-
chelonnement et les coefficients de r-chelonnement calculs pour la squence

dobservation . On note
, , et les variables Forward et Backward avec r-
chelonnement . Alors, en reprenant les quations de la section prcdente, on obtient

3


! 0 ' ,!
' ,! ! ^
3

,! 3

3
0
' ,! ! / ! 0 ' ,!
1
3

3



^ ! !

,!

70
Chapitre IV Les Modles de Markov Cachs



/ !1 !
0

Et



" ^ 0"
.

0 "/
1 0"

Il suffit alors dutiliser la technique de la descente de gradient.

IV.6.2. Maximisation de linformation mutuelle du MAP

Le critre de maximisation de linformation mutuelle pour le critre de dcision MAP


dcrit dans [47] conduit la minimisation du critre , avec lensemble des MMC
i , , j reprsentant les classes et lensemble des squences dobservations
apprendre. On dfinit k . . le numro de la classe associe la squence
dobservations . Le critre est :

, 2 0

Avec

2 0 k b @A b

Et

b | ! ,
k ! k b | ! , @A
b b | !

Si lon considre que les probabilits b | sont constantes et que les probabilits
b | ! sont nulles, sauf quand ! , alors minimiser , est quivalent
maximiser [47] :


b/| ! ! 1b
k ! k
k b/| ! 1b

Avec ! k /! 1 .

La maximisation de peut alors tre ralise grce une descente de gradient ou


grce lalgorithme de Baum-Welch.

71
Chapitre IV Les Modles de Markov Cachs

IV.7. Le critre de segmental k-means

Parmi lensemble des critres utiliss pour lapprentissage de MMC, le critre de


segmental k-means se dtache des autres. En effet, pour ce critre, on cherche optimiser la
probabilit b | , E ro avec ro la squence dtats cachs qui a le plus
probablement engendr la squence telle que calcule par lalgorithme de Viterbi. Une des
grandes difficults de ce critre est quil nest ni drivable, ni mme continu. Par consquent,
les mthodes sappuyant sur lalgorithme EM ou les descentes de gradient ne sont pas
utilisables. Cependant, il existe quand mme un moyen dajuster les paramtres dun modle
de manire maximiser cette probabilit. Cet algorithme appel segmental k-means repose
sur deux algorithmes dcrits prcdemment : lalgorithme de viterbi et lapprentissage
tiquet.

Son principe est simple :

partir dun modle initial et de la squence dobservations , on recherche la squence


dtats cachs qui a le plus probablement t suivie pour gnrer laide de lalgorithme de
Viterbi. Cette recherche permet dtiqueter la squence et par consquent de la segmenter ;

Une fois tiquete, la squence est alors apprise par comptage des transitions effectives
entre les tats et les missions de symboles. Cette tape peut alors tre considre comme un
k-means consistant r-estimer les centres des classes ;

Le nouveau modle est alors utilis comme modle initial et les deux oprations
prcdentes sont rptes tant que ncessaire.

Il a pu tre montr [46] que lalgorithme de segmental k-means algorithme III.10


permettait daugmenter la probabilit b | , E ro de manire itrative et quil
convergeait vers un maximum local du critre considr. Lorsque lon utilise ce critre, il faut
faire attention sa formulation. Laugmentation itrative de la probabilit consiste trouver
un modle 7 partir dun modle tel que

b | , E ro , ro 7 7

Et non pas tel que b | , E ro , ro 7 avec ro la


squence de Viterbi obtenue avec le modle et 7
o
la squence de Viterbi obtenue avec le
modle 7 . En effet, la squence de Viterbi change lorsque le modle est modifi.

72
Chapitre IV Les Modles de Markov Cachs

Choisir un MMC initial

Rpter
*
ro
| ,
Estimer partir de ro
Tant que b | , E ro ,
ro
Algorithme IV.10 : Algorithme de segmental k-means

Lalgorithme de segmental k-means peut galement tre utilis avec plusieurs squences
dobservations. Pour cela, il suffit de considrer le critre dapprentissage

b | r ,E r o

Lalgorithme consiste alors appliquer lalgorithme de Viterbi chacune des squences


dobservations et utiliser lapprentissage tiquet de toutes ces squences simultanment,
comme dcrit prcdemment.

Cet algorithme est parfois utilis en raison de sa rapidit en lieu et place de lalgorithme
de Baum-Welch, en considrant lhypothse suivante : les probabilits compltes b |
, E r sont nulles ou ngligeables pour toutes les squences dtats, lexception de
celle de la squence ro de Viterbi associe. Par consquent, maximiser, b | est
quivalent maximiser b | , E ro . Bien quil soit possible de trouver des modles
pathologiques contredisant cette hypothse, dans la pratique, lhypothse est souvent
confirme.

IV.8. Minimisation du taux derreur de classification

Ce critre a pour objectif de minimiser le taux derreur de classification avec une dcision
soumise au critre MAP. Pour le dcrire brivement, on considre un ensemble
i , j de squences dobservations ainsi que le numro de la classe qui leur sont
associs. Soit i , , j les classes apprendre et i , , j les MMC associs.

IV.8.1. Premire approche

Dans cette premire approche, on a abouti au critre suivant, aprs plusieurs


transformations et approximations :

73
Chapitre IV Les Modles de Markov Cachs

b | 8 b 8
0 8 k, 8 b | b
;4 ; ;

Si lon suppose que les classes apparaissent avec la mme probabilit . . b


pour tout , alors minimiser revient maximiser avec

b | 8
8 k, 8 b |
;4 ;

Il suffit alors dutiliser une descente de gradient sur lensemble des paramtres
i , , j pour maximiser et donc minimiser .

Pour que lapproximation effectue soit valable, il est ncessaire que les modles initiaux
utiliss par la descente de gradient aient t obtenus par la maximisation de k b |
par un des algorithmes de maximisation de la vraisemblance dcrit
prcdemment.

Bien que ce critre semble intressant, il nobtient pas toujours de bons rsultats. En effet,
minimiser ne garantit aucunement que ce taux sera faible sur un ensemble dobservations
autre que celui utilis pour lapprentissage.

IV.8.2. Deuxime approche

Dautres dfinissent le critre de minimisation des erreurs de classification (minimum


classification error MCE) sous la forme

b | !
k 8' ! k ! @A b |
|-| / 1

p .
.
p ^
Avec

Ce critre nest pas drivable, ni mme continu. Pour lapprocher sous forme continue, il
suffit dutiliser une sigmode * .
la place de . et loprateur softmax @A .

la place de 8' . . Le critre peut alors tre approch [47] par :

|-|
k
7YK @A b | / 1 @A ! k b | !

Le critre peut alors etre minimis laide dune descente de gradient.

74
Chapitre IV Les Modles de Markov Cachs

Dans la litratures, On trouve dautre formes de critres de minimisation des erreurs de


classification que Les deux forme de prsentes ci-dessus.

IV.9. Remarques gnrales sur les critres dapprentissage

Comme nous venons de le voir, de nombreux critres peuvent tre considrs pour
lapprentissage de modles de Markov cachs. Les critres que nous avons dcrits dans ce
chapitre ne sont pas les seuls envisageables, mais ce sont les plus couramment utiliss. De
plus, la dmonstration des algorithmes dapprentissage fournit la majorit des outils
ncessaires la conception des algorithmes dapprentissage pour tous les critres
envisageables.

Tous les algorithmes dapprentissage de ce chapitre nont pas la mme complexit. Pour
faciliter le choix la fois du critre et de lalgorithme de rsolution, nous avons construit le
tableau suivant.

TAB. IV.1 complexit associe aux algorithmes en fonction des critres optimiss

i, , , j est lensemble des squences dobservations de longueurs


i , ,, j.

est le nombre dtats cachs du MMC. J est le nombre de symbole du MMC.

75
Chapitre IV Les Modles de Markov Cachs

Il est intressant de remarquer que lalgorithme de segmental k-means peut tre beaucoup
plus rapide que lalgorithme de Baum-Welch. En effet, il est trs courant que le nombre de
symbole J soit beaucoup plus grand que le nombre des tats cachs. Dans ces conditions,
lorsque la longueur de la squence dobservations augmente, le terme dominant dans la
complexit de lalgorithme de Baum-Welch est J tandis que pour lalgorithme de
segmental k-means, ce terme dominant est . Par consquent, pour J }, lalgorithme
de segmental k-means est plus rapide que lalgorithme de Baum-Welch lorsque la longueur de
la squence dobservations augmente.

Lalgorithme de segmental k-means est donc parfois utilis en lieu et place de


lalgorithme de Baum-Welch, car plusieurs auteurs ont remarqu que la probabilit b |
, E ro est leve par rapport aux autres chemins dtats et quune grande majorit des
chemins ont une probabilit trs faible, voire nulle. Par consquent, certains travaux mettent
lhypothse que b | b | , E ro .

Un autre point important est que la complexit du calcul du gradient est du mme ordre
que celle de lalgorithme de Baum-Welch. Cette proprit est intressante car elle signifie, a
priori, quil nest pas forcment beaucoup plus couteux dutiliser des critres tels que la
maximisation de linformation mutuelle ou le critre MAP simple. En effet, on remarque que
la complexit de loptimisation de ces critres est linaire en fonction de la longueur totale des
squences dobservations impliques. Cependant, la descente de gradient peut ncessiter
deffectuer ce calcul plusieurs fois avant damliorer un modle et par consquent lapproche
par descente de gradient est considre comme tant relativement couteuse.

Conclusion

Nous avons prsents dans ce chapitre, les algorithmes pour la reconnaissance et


dapprentissage, et les critres de discrimination permettant, partir dun Modle MC initial,
de trouver un nouveau Modle MC augmentant le critre slectif pour reconnaissance de la
parole.

Dans la plupart des systmes de reconnaissances MMC actuelles, le but de lentrainement


acoustique est de trouver lensemble des paramtres acoustiques du MMC maximisant, sur
lensemble des phrases dentrainements, la vraisemblance des donnes tant donne les
modles corrects associes (supposs connues pendant lentrainement).

76
Chapitre IV Les Modles de Markov Cachs

Le chapitre suivant, sera consacr dcrire notre mise en uvre. La mise en pratique de
notre tude sur la parole. Nous allons procder limplmentation informatique des modles
de markov cachs pour la reconnaissance automatique de la parole (RAP). La premire sous
matlab et la second sous la plate forme HTK, lune des plus utilise actuellement dans le
domaine de la RAP.

77
CHAPITRE V :
IMPLEMENTATION DE LA
RECONNAISSANCE
AUTOMATIQUE PAR MMC
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole

Introduction

Nous allons, dans cette dernire partie, mettre en application le traitement


automatique de la parole pour la reconnaissance base de MMC. Pour cela, nous
commencerons par dcrire la structure gnrale dans un systme de reconnaissance de la
parole et les diffrents blocs intervenant dans cette opration. Par la suite, nous effectuons
deux application, et les rsultats obtenues. Ce qui distingue ces deux application est que la
premire est effectue sous matlab et la seconde sous la plate forme HTK [annaxe A]. Dans le
premier cas lapproche utilise est purement acoustique alors que dans le second (systme
triphone) avec dpendance contextuelle.

V.1. Objectif du travail :

Dans ce travail nous avons dvelopp deux systmes, le premier sous Matlab et le second
sous HTK et o lobjectif est la reconnaissance automatique de la parole qui seffectuera sous
la base de donnes parole TIdigit constitue dun ensemble dapprentissage et dun ensemble
de test. La base TIdigit [49] pour Texas Instruments digits est parmi les premires bases de
donnes de parole destines des applications de traitement de la parole. Conu initialement
des fins dvaluation des algorithmes de reconnaissance de la parole indpendante du
locuteur, elle contient 77 squences de digits connects prononcs par 326 locuteurs dont 114
femmes, 111 hommes, 51 filles et 50 garons.

Lobjectif que nous nous sommes fix consiste reconnaitre les chiffre un onze
prononc par les diffrents locuteurs de la base de donnes. Par ailleurs, nous effectuons une
comparaison des taux de reconnaissance entre le systme conu sous matlab (approche
acoustique) et le systme conu sous HTK avec dpendance contextuelle.

V.2. Structure gnrale dun Reconnaissance Automatique de la parole continue

Un systme de RAP continue est un systme destin reconnaitre des phrase plus au
moins longue avec ses hsitation et ses liaisonsetc. Etant donn la complexit du problme,
le formalisme de reconnaissance de la parole ncessite une dcomposition en plusieurs
oprations lmentaire qui sont les suivantes:

78
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole

Un module de traitement du signal et danalyse acoustique (feature extraction)


transformant le signal de parole en une squence de vecteurs acoustiques (dtaill
au chap. II).
Un gnrateur dhypothses locales qui affectera une tiquette ou des hypothses
locales correspondant chaque segment lmentaire de parole (associ un ou
plusieurs vecteurs acoustique). Ce gnrateur dhypothses locales portera,
gnralement, sur des modles dunits lmentaires de parole (typiquement des
mots ou des phonmes). Cette opration ncessite un entrainement sur une grande
quantit dexemples (enregistrement de nombreuses phrases) contenant plusieurs
fois les diffrentes units de parole dans des contexte varis.
Un module dalignement temporel (pattern matching) transformant les hypothses
locales en un score global sur la phrase prononce. Ceci pourra tre ralis par
lalgorithme de Dformation Temporelle Dynamique(DTW) ,Modles de Markov
Cachs (MMC).
Un module syntaxique interagissant avec le module dalignement temporel et qui
forcera le reconnaisseur intgrer les contraintes syntaxiques et ventuellement
smantiques et pragmatiques.

Le schma synoptique dun tel systme est reprsent ci-dessous.

Modles des Dictionnaire


sous units en termes de
lexicales sous units Smantique
Grammaire

Phrase
Parole reconnue

Analyse Classification Dcodage Analyse Analyse


Acoustique Locale lexical Syntaxique Smantique

Fig. V.1-Schma gnral dun systme de R.A.P.

79
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole

V.3. Structure dun Systme de Reconnaissance Automatique de la parole continue


par MMC

Le schma prcdant est une sructure gnrale qui ne tient pas compte de loutil de
traitement utilis en loccurrence les MMC. Dans le cas dun systme de reconnaissance par
MMC, le schma gnrale se prsente comme suit :

Architecture gnrale

Fig. V.2-Schma Gnrale de la R. A. P. par MMC.

Sous une vue plus dtaill, on retrouve les diffrents blocs qui se prsente dans le schma
suivant.

Parole
Phrase
reconnue
Classification Classification
MFCC Niveau Mots Niveau phrases

Composition modles de mots

Modles sous Grammaire Smantique


unit mots Lexique

Fig. V.3-Schma bloc dtaill de la R. A. P. par MMC .

80
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole

Dans ce schma, les blocs (grammaire, smantique) font partie du modle de language,
par contre le cylindre (Modles sous unit mots) fait rfrence au modle acoustique, quand
aux blocs de classification font partie des algorithme dentrainement et de reconnaissance.

V.4. Premire Application : Dveloppement dun Systme de Reconnaissance de la


parole par MMC sous Matlab.

V.4.1.Organigramme gnrale

Notre application est prvu pour la base TIdigit [49], qui est une base de donnes paroles
constitue des chiffres un onze en anglais et prononce par plusieurs locuteurs, pour cela,
nous avons prvu onze modle , un pour chaque chiffre qui seront entrains avec
les donne dapprentissage dont le but de la reconnaissance.

HMM pour le mot numro 1

Sequences
P(O )
Calcul des
dObservation Probabilits
(O)


u -6 ] \
Extraction HMM pour le mot

1~ ~
des numro 2
paramtres

P(O )
acoustiques
pertinents Calcul des
Probabilits
MFCC

y
Slection du

y
Maximum

y y
y
Signal
de
parole HMM pour le mot
numro 11

Calcul des P(O )


Probabilits

Fig. V.4 Schma bloc dun systme de reconnaissance de parole isols

81
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole

Lentrainement seffectuera avec lalgorithme de Baum welch dtaill en chapitre 4 et


schmatis la figure V.7. La reconnaissance quand elle se fera avec lalgorithme de viterbi
dtaill en chapitre 4.

V.4.2.Extraction des paramtres MFCC

La premire tape de traitement des donnes parole et ltape dextraction des paramtres
acoustique, qui dans notre cas est la Mel frquency cepstral cofficient (dtaille en annexe
B). Le choix sest port sur les 13 premiers coefficients MFCC except le coefficient OP qui
est substitu par le logarithme de lnergie du signal. Pour chaque coefficient, on attribue une
drive premire (13 drives premires au total) ainsi quune drive seconde (13 drives
secondes) pour prendre en compte la dynamique du signal. En somme, on obtient un vecteur
acoustique de 39 coefficients correspondant chaque trame du signal

Organigramme

Premphasis DFT Mel-filter


Bank
Signal de
parole
Window

Log(P)
energy

Drivs
IDFT

Fig. V.5 Schma bloc de la paramtrisation MFCC

V.4.3. Le modle HMM

Chacun des onze modles MMC choisi est un modle gauche droite Cinque tats
parfaitement adapt et le plus utilis du fait quil tient compte du caractre squentiel de la
parole. Chaque tat met des observations modlises avec une simple gaussienne dans notre
application.

82
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole

Fig. V.6 Modle MMC

V.4.4. Lentrainement du modle MMC

Lorganigramme dapprentissage (Baum welch) des modles avec les donnes parole
dentrainement de la base Tidigit peut tre schmatis comme suit. le critre discriminatoire
est le critre du Maximum de vraisemblance (chapitre IV).

Model
Dinitialisation

Non

Segmentation
squence dtats

Convergence

Estimation des paramtres


de via le critre du M V. Oui
Donnes
dapprentissage

Paramtre
Model Du Model
Restimation

Fig. V.7 Schma dapprentissage de Baum-Welch

83
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole

V.4.5 Tests et Rsultats

Dans ce tableau nous prsentons diffrent test qui sont fait en variant le nombre dtats du
modle MMC choisit puis en variant le nombre de donnes parole dapprentissage. Les
rsultats obtenus sont rsums dans le tableau suivant :

Nbre dtats Base dapprentissege Base de test Rsultats


4 2090 mots (100%) 2484(100%) 91,83%
4 (50%) (100%) 88,66%
5 (100%) (100%) 93,04%
5 (50%) (100%) 88,46%
6 (100%) (100%) 93,97%
6 (50%) (100%) 92,36%

A partir de ces rsultats on comprend le rle primordial du processus dapprentissage


dans la reconnaissance automatique de la parole (plus la base est importante plus le taux de
reconnaissance est meilleur) ce qui met en vidence lintrt et limportance de la base des
donnes parole.

V.5 Deuxime Application : Dveloppement dun systme de Reconnaissance de la


Parole sous HTK

Nous avons dvelopp, dans le cadre de ce mmoire, deux systmes, indpendants du


locuteur et fonds sur les modles de Markov cachs partir de la plateforme HTK (Hidden
Markov ToolKit) de lUniversit de Cambridge [50] et sur la base de donnes de parole
TIdigits [49]. La bote outils HTK est efficace, flexible (libert du choix des options et
possibilit dajout dautres modules) et complte dans le sens o elle fournit une
documentation trs dtaille, le livre HTK [48], est une encyclopdie dans le domaine de
reconnaissance de la parole.

Le premier systme est un systme monophone, le deuxime un systme triphone. Le


systme monophone linverse du systme triphone, ces units phontiques (phonme) sont
indpendantes, alors quelles sont dpendante dans le systme triphone. Lintrt est
dtudier limpact de la nature de lunit phontique sur les performances de la
reconnaissance de la parole.

84
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole

Nous utiliserons la mme base de donne TIdigit et essaierons de reconnaitre les chiffres
un onze de cette base, puis nous comparerons les taux de reconnaissance ceux obtenue par
la premire mthode sous matlab.

V.5.1 Systme Monophone

Afin de concevoir notre systme, on se base sur des units acoustiques de type
monophone indpandante. On commence par dfinir les ressources ncessaires dont on a
besoin par la suite. On dfinit, alors, le modle de langage, appel aussi lexique ou grammaire
(TAB.V.2), qui dcrit lenchainement des mots. Ensuite, on construit le rseau de mots
(wdnet) et le dictionnaire (TAB. V.1) respectivement, grce aux outils HTK HParse et
HDMan .

Pour la base de donnes TIdigits, qui est une base de chiffres en anglais, le vocabulaire
est assez limit, do la simplicit de dfinir le dictionnaire et la grammaire (TAB V.1 et TAB
V.2).

f ; k ; n ; r ;s ;t ;v ;w ;z ;sil ;ah ;ao ;ax ;ay ;eh ;ey ;ih ;iy ;ow ;th ;uw

TAB. V.1-Dictionnaire de la base Tidigits

TAB. V.2-Grammaire de la base Tidigits

Soit un total de 21 phonmes, une fois quon a dfini le dictionnaire, la grammaire et la


liste des phonmes, on passe la description des modles de Markov cachs. On construit un
modle MMC pour chaque unit acoustique. La topologie MMC choisie est de type gauche-
droit 5 tats dont les transitions autorises sont dcrites dans la figure (Fig.V.8) et initialises
dans la matrice de transition. La moyenne est initialise 0 et la variance 1 (voir fichier

85
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole

prototype dinitialisation (TAB.V.5)). Ces paramtres du modle MMC seront restimes par la
suite lors de la phase dapprentissage.

Fig.V.8 Modle de Markov Cachs utilis.


s , s\ s p^ 8 cp ';^p sc ;u ' '; s '; sX _ )'p ^p B' ^ p

Le fichier de configuration (TAB. V.3) config permet de dfinir les paramtres


indispensables pour la phase de lanalyse acoustique. Ces coefficients sont extraits des
fichiers wav et sur des fentres de 25ms grce loutil HCopy en se servant du fichier de
configuration comme paramtre dentre .

TAB. V.3-Fichier de configuration pour la phase de lanalyse acoustique

TAB.V.4-Fichier prototype dinitialisation

86
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole

LApprentissage : La phase dapprentissage permet de constituer la base de donnes


des modles de rfrence du systme. La qualit de cette modlisation conditionne en grande
partie les rsultats du systme de reconnaissance de la parole. Lapprentissage est ralis sous
HTK en deux tapes majeures : linitialisation et la r-estimation. Pour cela, On utilise deux
outils: HCompV et HERest. La phase dinitialisation des modles MMC par loutil
HCompV, permet de mettre jour la moyenne et la variance qui valent, avant cette tape,
respectivement, 0 et 1. Cette mise jour est ralise sur lensemble des donnes du corpus
dapprentissage permettant daboutir, la fin, des valeurs globales qui seront clones pour
chaque tat des modles MMC.

Ensuite, on obtient dans le rpertoire hmm0 un nouveau fichier prototype


contenant des valeurs globales de la moyenne et de la variance. On copie le contenu de ce
fichier autant de fois quon a de phonmes et on stocke le rsultat du clonage dans un fichier
macro nomm modles.mmf. Tous les phonmes seront ainsi initialiss aux mmes valeurs
de moyenne et de variance. A noter galement que la mise jour des variances est effectue
par dfaut avec la commande HCompV, tandis que pour r estimer la moyenne, loption -m
devient indispensable.

Le raffinement des modles MMC consiste r estimer leurs paramtres (moyenne et


variance) suivant lalgorithme de Baum Welch (chapitre IV) grce loutil HERest (la r
estimation des modles MMC contenu dans le rpertoire hmmi est sauvegarde dans le
rpertoire hmm i +1 chaque itration i).

Ensuite, on gnr un autre fichier modeles0 dans un autre rpertoire. Les modles
contenus dans ce fichier seront r estims suite deux itrations de lalgorithme de Baum
Welch reprsent par loutil HERest. Les derniers paramtres estims, ce stade, sont
sauvegards dans le rpertoire hmm7.

Deux itrations de lalgorithme de Baum Welch permettent de r estimer les modles.


Ainsi sachve la phase dapprentissage des modles MMC avec une seule gaussienne.

Amlioration des modles(GMM) : Les modles obtenus peuvent tre amliors par
utilisation de densits de probabilits dmission multi-gaussiennes au lieu de se contenter
dune simple loi normale. Cela permet deviter certaines hypothses grossires sur la forme
de la densit si le nombre de gaussiennes est suffisant. En effet, le choix du nombre optimal
de gaussiennes est un problme difficile. Un outil dHTK, HHEd ralise laugmentation du

87
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole

nombre de gaussiennes, o on augmente progressivement le nombre de gaussiennes (1, 2, 4,


8, 12, 16). Chaque augmentation de gaussienne est suivie de deux r estimations des modles
avec HERest, HERest.

Suite cette procdure les modles sont de plus en plus prcis. Le seul inconvnient est la
charge des calculs qui augmente son tour.

V.5.2 Systme triphone

Le premier systme conu est bas sur une modlisation par monophones, les modles
sont ainsi hors contexte. Or, un systme plus robuste de reconnaissance de la parole continue
devrait au moins envisager les effets de la co-articulation et de la vitesse dlocution qui
peuvent limiter son efficacit. souvent on considre que la production de la parole est parfaite
et on oublie que le dbit de la parole peut sacclrer et que les organes phonatoires ne
peuvent pas suivre car ils sont limits dans leur dplacement. Tout ceci provoque une certaine
influence mutuelle suivant ou prcdant les sons produits qui altre leurs formes en fonction
du contexte gauche ou droit. Do lintrt des modles contextuels (diphones, triphones,...).
Ceux-ci prennent en compte la source de variabilit du signal de parole permettant ainsi une
meilleure modlisation, un gain significatif en prcision de la transcription et ainsi de
meilleures performances. Le seul inconvnient de telles approches est laugmentation de la
charge de calcul vu le trs grand nombre de modles contextuels existants. Suite ces
remarques, ltape prochaine consiste laborer un systme de reconnaissance de la parole dit
contextuel car bas sur des triphones (contextes gauche et droit dun phonme).

Conversion de la transcription : On commence par convertir les transcriptions de


phonmes aligns aligned.mlf, du systme monophone (V.5.1), en transcription par triphones
avec loutil HLEd.

Ensuite, on r estime en deux itrations la moyenne et la variance des modles avec


lalgorithme Baum Welch toujours via loutil HERest.

Pareil la reconnaissance par monophones, on va procder laugmentation progressive


des gaussiennes jusqu en atteindre 16. Chaque augmentation sera suivie dune phase de r
estimation des modles par lalgorithme de Baum Welch.

88
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole

La Reconnaissance : Le processus de dcodage consiste comparer limage de


lunit identifier avec celles de la base de rfrence. Le module de dcodage de la parole,
HVite, utilise lalgorithme de Viterbi pour trouver la squence dtats la plus probable
correspondant aux paramtres observs et en dduire les units acoustiques correspondantes.
Le dcodage est ralis par lalgorithme de Viterbi sous la contrainte dun rseau syntaxique
et ventuellement dun modle de langage.

V.5.3 Analyse des rsultats

Monophones Triphones
Base de test (Acc%) 99,51% 99,47%

Base dapprentissage (Acc%) 99,05% 99,23%

TAB.V.5 Performance des systme de reconnaissance base de monophones et triphones sur la base
de test et la base dapprentissage du corpus Tidigits

Daprs ce tableau, nos deux systmes bass sur une paramtrisation de type MFCC,
dtaille en Annexe B, sur une modlisation statistique de type HMM et sur une transcription
avec et sans contexte, donnent de trs bons rsultats.

Les performances du systme base de triphones ne se distinguent pas nettement des


performances du systme base de monophones, ceci peut tre expliqu par le fait que les
prononciations de la base de donnes TIdigits sont presque parfaites et les enregistrements ne
modlisent pas les eets de coarticulation, Lombard, stress, sans pour autant oublier de
signaler que cette base de parole est vocabulaire rduit.

Conclusion

Lapplication sous HTK base de monophone et triphone nous a permis davoir un


meilleur taux de reconnaissance. Cela peut tre expliqu par le fait que lapplication
dveloppe sous matlab est purement acoustique (sans contrainte de langage) et quelle ne
prend pas en compte la dpendance entre vecteurs acoustique (phonme) linverse de
lapplication HTK.

Les MMC nous fournit une solution efficace du problme de la reconnaissance


Automatique de la Parole et bnficie dalgorithmes trs efficaces pour la reconnaissance et

89
Chapitre V Implmentation de la Reconnaissance Automatique de la Parole

pour lapprentissage Automatique. Cependant, Les hypothses qui rendent loptimisation des
Modles de Markov Cachs possible limitent toutefois leurs gnralits et sans lorigine de
certaines de leurs faiblesses qui limitent les performances des systmes de RAP ( les donnes
lentre des MMCs sont supposes tre statiquement indpendantes, la corrlation
temporelle entre vecteurs acoustique est alors nglige. Aussi Lutilisation de MMCs de
premier ordre repose sur lhypothse, que la parole est galement un processus de Markov de
premier ordre, rendant la modlisation et lapprentissage de corrlations long terme
difficile). Beaucoup de variantes des MMCs (classique) prsent dans ce mmoire, existent, et
sont appliques dans les systmes de reconnaissance Automatique de la parole. De nos jours
LApproche MMC est la base de la plupart des systmes de Reconnaissance modernes
[50].

90
CONCLUSION GNRALE
Conclusion gnrale

Dans ce travail, notre objectif consiste dtudier le signal de parole afin de concevoir et
de dvelopper un systme pour son traitement et sa reconnaissance. Pour concevoir notre
systme, nous avons tudi ceux dj existants et avons choisi dutiliser une plateforme qui
nous a paru tre la plus performante, la plus utilise et celle qui a montr le plus ses preuves
actuellement, qui est la plateforme HTK, Hidden Markov Toolkit, base sur les modles de
Markov cachs.

Tout au long de ce travail nous avons abord diffrents aspects tout aussi importants les
uns que les autres. Nous avons commenc par comprendre le processus de gnration de la
parole par ltre humain puis nous nous sommes concentrs sur ltude des diffrents moyens
utiliss pour capter ce signal et le traiter. Par la suite, nous avons dcrit les modles de
Markov cachs qui sont utiliss dans de nombreux domaine dont celui du traitement de la
parole et avons finalement, choisi une plateforme base sur ces modles pour construire deux
systmes de reconnaissance automatique de la parole, le premier sous lenvironnement Matlab
et le second sous la plate forme HTK.

Nous avons, ainsi, raliser notre systme de reconnaissance de la parole sur la base de
donnes parole TIdigit, notre base de travail et avons obtenue des taux de reconnaissance plus
quapprciable, qui atteignant 99% dans le cas de lutilisation de HTK.

Malgr ces avances, les systmes actuels sont encore imparfaits. Les problmes
rsoudre reprsentent un des dfis les plus difficiles poss lintelligence artificielle. Un
important effort de recherche est ncessaire, notamment sur le plan de la robustesse des
mthodes de reconnaissance et de la conception de systmes de dialogue. Les travaux mener
ncessitent un effort pluridisciplinaire de collecte de signal vocal, mais aussi de modlisation
dun ensemble de faits et de connaissances sur la langue naturelle et sur les mcanismes de la
communication parle. Nous avons vu quune modlisation stochastique permet de rsoudre,
en partie, le problme, mais il nest pas exclu que lutilisation de connaissances explicites
revienne lordre du jour lavenir.

Pour clore, nous esprons, par ce travail, avoir dmontr limportance du sujet et la
ncessit de consacrer encore plus defforts et dtudes pouvant nous rapprocher rapidement
dune solution performante que seule notre imagination pourrait limiter.

91
ANNEXES
ANNEXE A : MISE EN UVRE
DELA RECONNAISSANCE
AUTOMATIQUE DE LA PAROLE
SOUS HTK.
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.

Introduction

HTK est une bote outils de modles de Markov cachs MMC, conue pour la
construction et la manipulation de ces modles. Cette bote est constitue dun ensemble de
modules bibliothque et doutils disponibles en codes sources C. Ces outils HTK sont conus
pour fonctionner en ligne de commande, gnralement sous lenvironnement linux avec le
Shell C. Chaque outil a un nombre darguments obligatoires en plus darguments optionnels
prfixs par le signe "". Le chapitre "Rfrence section" de louvrage htkbook [48] dcrit en
dtail tous les outils de la bote HTK ainsi que leurs arguments. Principalement, la bote
outils HTK est utilise pour la construction des systmes RAP bass sur les modles MMC
dans un but de recherche scientifique. Gnralement les deux processus indispensables pour le
fonctionnement dun RAP sont le processus dapprentissage et celui de reconnaissance (ou
dcodage). La figure A.1 illustre lenchanement de ces processus. Premirement, les outils
dapprentissage HTK sont utiliss pour estimer les paramtres de lensemble des modles
MMC en utilisant des signaux de parole ainsi que leurs transcriptions associes. Ensuite, les
signaux de parole inconnue sont transcrits en utilisant les outils de reconnaissance. Le lecteur
peut consulter le livre htkbook pour plus de dtails sur limplmentation des systmes RAP
sous la plateforme HTK.

Fig.A.1-Processus dun systme de RAP

Pratiquement, la construction dun systme RAP se base sur 4 phases principales:


prparation des donnes, apprentissage, test, analyse. La figure A.2 illustre les diffrents outils
HTK de chaque phase dun systme de Reconnaissance de la Parole continue.

94
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.

Fig.A.2 Diffrentes phases du systme RAP sous HTK et outils associs

A.1. Outils de prparation de donnes

La construction dun ensemble de modles MMC exige un ensemble de fichiers de


donnes de parole (signaux), ainsi que leurs transcriptions correspondantes. Souvent les
donnes de parole sont rcupres partir dune base de donnes. Cette base doit tre rpartie
en un corpus dapprentissage et un corpus de test. Chacun de ces corpus contient un ensemble
de fichiers texte contenant la transcription orthographique des phrases et un ensemble de
fichiers de donnes contenant les chantillons des signaux correspondant aux fichiers texte.
Avant dtre utilises dans lapprentissage, ces donnes doivent tre converties en un format
paramtrique appropri et ses transcriptions associes doivent tre converties en format
correct.Si les donnes de parole ne sont pas disponibles, alors loutil HSLab peut tre utilis
pour enregistrer la parole et ltiqueter manuellement par nimporte quelle transcription (par
phonme ou mot). Ainsi pour chaque phrase prononce, on lui correspond un fichier signal
(exemple dextensions :.wav,.sig) et un fichier de transcription (extension.lab).

Cependant, avant deffectuer ces transcriptions, un dictionnaire des mots doit tre dfini
afin dtre utilis dans la phase dapprentissage et celle de test. Dans le cas dun systme bas
sur des modles HMM reprsentant des phonmes, la construction du dictionnaire seffectue
par loutil HDMan. De plus la grammaire de la tche considre doit tre dfinie en utilisant
loutil HParse. Cet outil gnre un rseau de mots dfinissant la grammaire considre dcris
sur la figure A.2.

95
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.

La dernire tape dans la phase de prparation des donnes est la conversion du signal de
chaque phrase en une squence de vecteurs acoustiques tel prsent sur la figure A.3. Cette
conversion est effectue par une analyse acoustique en utilisant loutil HCopie. Diffrents
types de paramtres acoustiques sont supports par cet outil comme : LPC, LPCC, MFCC,
PLP, FBANK (Log Mel-Filter Bank), MELSPEC (Linear Mel-Filter Bank), LPCEPSTRA
(LPC Cepstral Coefficients), LPREFC (Linear Prediction Reflection Coefficients), USER
(type dfini par lutilisateur).

Fig.A.3-Processus de lanalyse acoustique

La ligne de commande pour lexcution de HCopy scrit comme suit :

HCopy -T 1 - C config -S codetr.scp

La figure A.4 montre le principe de fonctionnement de cet outil pour la conversion dun
ensemble de fichiers parole dextension .wav en un ensemble de fichiers dextension .mfc
contenant des vecteurs de paramtres acoustiques MFCC. La liste de lensemble de ces
fichiers est donne dans un fichier appel codetr.dcp dont un extrait est fourni :

root/training/corpus/sig/S0001.wav root/training/corpus/mfcc/S0001.mfc
root/training/corpus/sig/S0002.wav root/training/corpus/mfcc/S0002.mfc
root/training/corpus/sig/S0003.wav root/training/corpus/mfcc/S0003.mfc..etc.

96
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.

Fig.A.4 Principe de fonctionnement de loutil HCopy

Cependant lexcution de loutil HCopy exige un fichier de configuration (config) pour


dfinir les diffrents paramtres de lanalyse acoustique considre. Voici un exemple de ce
type de fichier associ une analyse acoustique MFCC :

A.2. Outils dapprentissage

La deuxime phase consiste construire les modles MMC des mots appartenant au
dictionnaire de la tche considre. Premirement, pour chaque mot, il faut dfinir un modle
prototype contenant la topologie choisie savoir le nombre dtats du modle, la disposition
de transitions entre les tats, le type de la loi de probabilit associe chaque tat. Ltat
initial et final de chaque modle nmettent pas des observations mais servent seulement la
connexion des modles dans la parole continue. Les probabilits dmissions associes aux
tats sont des mlanges de gaussiennes multivaries (GMM) dont les composantes sont les
probabilits a priori dfinies chacune par une matrice de covariance et un vecteur de
moyennes dans lespace des paramtres acoustiques. La matrice de covariance peut tre

97
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.

choisie diagonale si lon suppose l'indpendance entre les composantes des vecteurs
acoustiques.

Ces modles prototypes sont gnrs dans le but de dfinir la topologie globale des
modles HMM. Ainsi, lestimation de lensemble des paramtres de chaque modle MMC est
le rle du processus dapprentissage. Les diffrents outils dapprentissage sont illustrs dans
la figure A.5.

Selon cette figure, deux chaines de traitement peuvent tre envisags pour linitialisation
des modles MMC. La premire chane tient en compte des signaux tiquets en label de mot.

Dans ce cas, l'outil HInit extrait tous les segments correspondant au mot modlis et
initialise les probabilits d'mission des tats du modle au moyen de lalgorithme segmentale
k-means. Ensuite l'estimation des paramtres d'un modle est affine avec HRest, qui
applique l'algorithme optimal de Baum-Welch jusqu' la convergence et r estime les
probabilits d'mission et de transition.

Fig.A.5 Outils dapprentissage HTK

Dans la deuxime chane, les signaux ne sont pas tiquets. Dans ce cas, tous les modles
MMC sont initialiss avec le mme modle dont les moyennes et les variances sont gales
respectivement la moyenne et la variance globales de tous les vecteurs acoustiques du
corpus dapprentissage. Cette opration est effectue par loutil HCompV.

98
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.

Aprs linitialisation des modles, l'outil HERest est appliqu en plusieurs itrations pour
r estimer simultanment l'ensemble des modles sur lensemble de toutes les squences de
vecteurs acoustiques non tiquets. Les modles obtenus peuvent tre amliors, en
augmentant par exemple le nombre de gaussiennes servants estimer la probabilit d'mission
d'une observation dans un tat. Cette augmentation est effectue par loutil HHEd. Les
modles doivent tre ensuite r estims par HRest , HERest.

A.3. Outils de reconnaissance

La bote HTK fournit un outil de reconnaissance appel HVite qui permet la transcription
dune squence de vecteurs acoustiques en une squence de mots. Le processus de
reconnaissance est illustr dans la figure A.6.

Fig.A.6 Processus de reconnaissance sous HTK

HVite utilise l'algorithme de Viterbi pour trouver la squence d'tats la plus probable qui
gnre la squence dobservations (vecteurs acoustiques) selon un modle MMC composite,
ceci afin d'en dduire les mots correspondants. Le modle composite permet la succession des
modles acoustiques en fonction du rseau de mots qui dfinit la grammaire de la tche
considre.

Le rsultat de dcodage par loutil HVite est enregistr dans un fichier dextension (.mlf)
contenant ltiquetage en mots du signal dentre.

99
Annexe A : Mise en uvre de la reconnaissance automatique de la parole sous HTK.

A.4. Outils dvaluation

Gnralement les performances des systmes RAP sont values sur un corpus de test
contenant un ensemble de fichiers dchantillons parole ainsi que leurs fichiers dtiquetage
associs. Les rsultats de reconnaissance des signaux du corpus de test sont compars aux
tiquettes de rfrence par un alignement dynamique ralis par HResults, afin de compter
les tiquettes identifies, omises, substitues par une autre, et insres. Ces statistiques
permettent de calculer le taux ou la prcision de reconnaissance.

100
ANNEXE B :
LA PARAMTRISATION MFCC
Annexe B : La paramtrisation MFCC.

Introduction

Parmi les paramtrisations les plus utiliss dans le domaine de la reconnaissance de la


parole, les coefficients MFCC sont considrs comme tant les meilleurs paramtres qui
peuvent caractriser une voix parmi dautres et cest cette paramtrisation que nous nous
proposons de dcrire dans cette dernire annexe de notre travail.

B.1. La paramtrisation par MFCC

La paramtrisation MFCC (Mel-Frequency Cepstral Coefficients) est la paramtrisation


la plus rpandue dans les systmes de reconnaissance actuels. Nous donnons ci-dessous les
principales tapes de cette para mtrisation :

1. Fentrage du signal : Le signal de parole est spar en trames de chantillons,


chaque trame tant spare de J chantillons. Dans le cas courant o J } on dira quil y
a recouvrement (overlap en anglais) entre les trames. En pratique, la longueur dune trame
est couramment choisie de faon avoir des trames dont la dure est de lordre de 20 ms
associ un recouvrement entre trames de 50% correspondant une valeur de J .
Lopration prcdente consiste ainsi appliquer une fentre rectangulaire de dure finie sur
lensemble du signal. Pour rduire les effets dus aux discontinuits aux bords de la fentre, il
est frquent de pondrer une trame de longueur par une fentre de pondration. Lune des
fentres les plus utilise est la fentre de Hamming. Cette opration donne la trame fentre :

p p

"
O . X 0 . Q ^p G H 'B ~ ~ 0

2. Calcul de la transforme de Fourier rapide (FFT) pour chaque trame du signal


de parole.

3. Filtrage par un banc de filtres MEL : Cette opration permet dobtenir partir du
spectre E de chaque trame, un spectre modifi qui est en fait une suite de coefficients, not
E , reprsentant lnergie dans chaque bande frquentielle (dfinies sur lchelle Mel),
pour , , . En pratique, on utilise des filtres triangulaires de largeur de bande
constante et rgulirement espaces sur lchelle Mel (On peut par exemple choisir un

102
Annexe B : La paramtrisation MFCC.

espacement entre filtres de 150 mels et une largeur des filtres triangulaire prise leur base de
300 mels).

4. Calcul des coefficients MFCC : Les coefficients MFCC sont alors obtenus en
effectuant une transforme en cosinus discrte inverse du logarithme des coefficients E :


"
/@L E 1 LR F 0 I )^c , , , .

O est le nombre de coefficients cepstraux dsirs.

5. Pondration : En raison de la grande sensibilit des premiers coefficients cepstraux


sur la pente spectrale gnrale et de la sensibilit au bruit des coefficients cepstraux dordre
lev, il est courant de pondrer ces coefficients pour minimiser cette sensibilit. Cette
pondration pourra scrire sous la forme :

8 8 8 )^c ~8~r

O r est le nombre de coefficients cepstraux.

La fentre de pondration cepstrale est en fait un filtre passe bande dont un choix
appropri peut tre :

r "8
8 * RSA F I )^c ~8~r
r

Cette fentre tronque le nombre de coefficients et diminue le poids des premiers et


derniers coefficients.

6. Calcul des drives temporelles , : La reprsentation cepstrale donne une


bonne reprsentation des proprits frquentielles locales du signal (i.e. pour une fentre de
signal donne). Une reprsentation amliore peut tre obtenue en incluant de linformation
lie lvolution temporelle des coefficients cepstraux. Celle-ci peut tre obtenue par
exemple laide des drives premires et secondes des coefficients cepstraux. Soit 8 les
coefficients cepstraux obtenus linstant (ou plus prcisment la fentre dindice ). Cette
suite est obtenue des instants discrets et ainsi il est bien connu quun simple moyennage aux
diffrences ne permet pas dobtenir des estimations non bruites. Ainsi, la drive est souvent
obtenue en effectuant une moyenne sur un plus grand horizon temporelle sous la forme :

103
Annexe B : La paramtrisation MFCC.

8 8 *

O est une constante de normalisation et * est le nombre de trames utilises


pour ce calcul.

Une implmentation classique de la paramtrisation MFCC consiste prendre les 13


premiers coefficients cepstraux (en omettant lnergie reprsente par ) et construire des
vecteurs acoustiques de 39 lments incluant les drives premire et seconde de ces
coefficients.

104
BIBLIOGRAPHIE
Bibliographie

Bibliographie

[1] R. Boite & all.,Traitement de la parole, presses polytechniques et universitaires


Romandes, Novembre 1999.
[2] J P. Haton & all., Reconnaissance Automatique de la parole, Dunod
[3] G. Von Bekesy, Experiments in Hearing , McGraw-Hill, New York,1960.
[4] E. Zwicker, R. Feldetkeller, Psyachoacoustique, CENT-ENST, Collection technique
et scientifique des tlcommunications, Masson, Paris, 1981.
[5] JP. Haton, Reconnaissance Automatique de la Parole et dialogue oral homme-
machine,
[7] J. D. Markel et A. H. Gray Jr, Linear Prediction of Speech. Communication and
Cybernetics. Berlin Heidelberg New York : Springer-Verlag, 1976.
[8] L. Rabinier et B H. Huang, Fondamentals of speech Recognition, Englewood Cliffs,
NJ.: Prentice Hall, 1993.
[9] H. Hermansky, Perceptual linear predictive (plp) analysis of speech. The Journal of
the Acoustical Society of America 87, 17381752, 1990.
[10] H. Hermansky et N. Morgan, Rasta processing of speech. IEEE Transactions on
Speech and Audio Processing 2(4), 578 589,1994.
[11] R. Gemello & all., Multiple resolution analysis for robust automatic speech
recognition. Computer Speech and Language 20(1), 221, 2006.
[12] H. Hermansky, D. Ellis, et S. Sharma, Tandem connectionist feature extraction for
conventional hmm systems. Dans les actes de IEEE International Conference on Acoustics,
Speech and Language. Processing, Istanbul, Turkey, 16351638,2000.
[13] T. Vintsyuk, Speech discrimination by dinamique programming, Kibernetika, Vol.
4, pp,81-88, Jan-Fev, 1968.
[14] P.C Mahalanobis, On generalized distance in statistics, Procedings of the national
Inst. Sci. (India), Vol. 12, pp. 49-55, 1936.
[15] R. O. Duda &P. E. Hart, Patern Classification and scene Analysis, Wiley, 1973.
[16]N. Morgan & H. Bourlard, Continuous Speech Recognition: An Introduction to the
Hybrid HMM/Connectionist Approach, IEEE Signal Processing Magazine, Vol. 12, n3, pp.
25-42, Mai 1995.
[17] O. Capp, Ten years of Hmms,
http://www.tsi.enst.fr/cappe/docs/hmmbib.html,2001.
[18] A. A. Markov, An example of statistical investigation in the text of Eugene
oneygin illustrating coupling of test in chains. In Processings of Academic Scientific St.
Petersburg, IV, pages 153 162, 1913.
[19] C. C. Shannon, A mathematical theory of communications. Bell System
Technology Journal, 27:379 423, 623, 656, 1948.

106
Bibliographie

[20] W. Feller, An Introduction to probability theory and its applications, volume 1. John
Willey, New York, 2nd edition, 1958.
[21] H. O. Hartley, Maximum likelihood estimation from Incomplete Data. Biometrics,
14:147 194, 1958.
[17]O.Capp, Ten years of Hmms,http://www.tsi.enst.fr/cappe/docs/hmmbib.html,2001.

[18]A. A.Markov,An example of statistical investigation in the text of Eugene oneygin


illustrating coupling of test in chains. In Processings of Academic Scientific St. Petersburg,
IV, pages 153 162, 1913.

[19]C. C. Shannon, A mathematical theory of communications. Bell System Technology


Journal, 27:379 423, 623, 656, 1948.

[20]W. Feller, An Introduction to probability theory and its applications, volume 1. John
Willey, New York, 2nd edition, 1958.

[21]H. O. Hartley, Maximum likelihood estimation from Incomplete Data. Biometrics,


14:147 194, 1958.

[22]P. Billingsley, Statistical inferance for Markov process, University of Chicago Press,
Chicagoc, 1961.

[23]L. E. Baum, An inequality with applications to statistical estimation for probabilistic


functions of Markov Process. Inequalities, 3 :1 8, 1972.

[24]J. D. Furguson, Variable duration models for speech. In Procedings of the


Symposium on the Application of Hidden Markov Models to text and speech-IDA-CRD,
Pages 8 15, Princeton NJ, 1980.

[25]A. J. Viterbi, Error Bounds for conventionnal codes and asymptotically optinium
decoding algorithm. IEEE transactions on information theory, 13: 260 269, 1967.

[26]Jr. Forney, G. D., The Viterbi Algorithme. In Procedings of IEEE, Vol. 61, pages
268 278, 1973

[27]M. Slimane, Les chaines de Markov cachs : dfinitions, algorithmes, architectures.


Rapport interne n260, Universit Franois-Rabelais de Tours, Laboratoire dInformatique,
Tours, France, 2002.

107
Bibliographie

[28]L. R. Rabinier, A tutorial on hidden Markov models and selected applications in


speech recognition. In Procedings of the IEEE,Vol.77, pages 257 286, 1989.

[29]L. R. Bahl and F. Jelinek, Decoding For channels with insertions, deletions and
substitutions, with applications to speech recognition. IEEE Transactions Theory, 21:404 411,
1975.

[30]J. K. Baker, Stochastic Modeling as a Means of Automatic Speech Recognition.


PhD thesis, Carnegie-Mellon University, 1975.

[31]H. Bourland and C. Wellekens, Links Between Markov Models and multiplayer
perceptrons. IEEE transactions on Pattern Analysis and Machine Inteligence, 12(10):1 4,
1990.

[32]L. R. Rabinier & all., On the Application of vector Quantizisation and Hidden
Markov Models to Speaker-Independant isolated word recognition. The Bell System
Technical Journal, 62:1075 1105, 1983.

[33]L. R. Rabinier and S. E. Levinson, A Speaker independant, syntax directed


connected word recognition system based on Hidden Markov models and level building.
IEEE Transactions on Acoustics, Speech, Signal Precessing, 33(3):561 573, 1985.

[34]L. R. Bahl & All., A Maximum Likelihood approach to continuous speech


recognition. IEEE Transactions on Pattern Analysis and Machine Inteligence (PAMI),5(2):
197 190, 1983.

[35]A. E. Rosemberg and A. M. Colla, A Connected speech recognition system based


on spotting diphone-like segments-preliminary results. In Proccessings of IEEE International
Conference on Acoustics, Speech, Signal Precessing (ICASSP87), Pages 85 87, Dallas, 1987.

[36]F. Siamaria & A. Harter, Parameterisation of Stochastics model for human Face
Identification. In IEEE workshop on Applications of Computer Vision, Florida, 1994.

[37]A. Kundu & P. Bahl, Recognition of Handwritten script : a Hidden Markov model
based approach. In International Conference on Acoustics, Speech, Signal Processing
(ICASSP88), Pages 928 931, 1988.

108
Bibliographie

[38]A. Soukhal & all., Application des Chaines de Markov caches au problme
dordonnancement dans une cellule robotise. In Confrence Internationale sur la Productique
(CIP01), Pages 151 156, Algrie, 2001.

[39]M. R. Amini, Apprentissage automatique et recherche de linformation : Application


lextraction dinformation de surface et au rsum de texte. PhD thesis, Universit Paris 6,
2001.

[40]A. P. Dempster & all., Maximum-Likelihood from incomplete Data via the EM
algorithm. Journal of the Royal Statistical Society B,39(1):1 39, 1977.

[41]A. Ganapathiraju, Discriminative techniques in hidden Markov models. Course


paper, 1999.

[42]G. Celeux & J. Diebolt, Lalgorithme SEM : un algorithme dapprentissage


probabiliste pour la reconnaissance des mlanges de densits. Revue de Statistique Applique,
34(2) :35 52, 1986.

[43] G. Celeux & J. Diebolt, Une version de type recuit simule de lalgorithme EM.

Technical Report RR-1123, INRIA-Rocquencourt, 1989.

[44]O. Capp & all., Simulation-based methods for blind maximum- likelihood filter
identification. Signal Processing, 73: 3 25,1999.

[45]M. Berthold & D. J. Hand, Inteligent data analysis : an introduction. Springer-


Verlag, 1998.

[46]B. H. Juang & L. R. Rabinier, The segmental k-means algorithm for estimating
parameters of hidden Markov models. IEEE transactions on acoustics, speech and signal
processing, 38(9):1639 1641, 1990.

[47]L. Saul & M. Rahim, Maximum likelihood and minimum classification error factor
analysis for automatic speech recognition. IEEE Transactions on Speech and audio
Precessing, 8(2): 115 125, 2000.

[48]S. Young & all., The htk book (For htk version 3.4). Cambridge University
Engenereering Departement, 2006.

109
Bibliographie

[49] R. G. Leonard & G. R. Doddington, A Speaker-Independent Connected Digit


Database :Tidigits. Texas Instruments, USA.

[50]K. F. LEE, Automatic Speech Recognition-The Development of the sphinx System,


Kluwer Academic, Norwell Mass, 1989.

110

S-ar putea să vă placă și