Documente Academic
Documente Profesional
Documente Cultură
Equipe Signal et Image-LAP UMR 5131, ENSERB. B.P 99, F-33 402 Talence Cedex, France
2
LEESA, Facult des Sciences. B.P 1014 - Rabat, Maroc
Tl.: ++33 556 84 61 85 - Fax: ++33 556 84 84 06
e-mail: {zaki,najim}@tsi.u-bordeaux.fr, arajouani@yahoo.fr
ABSTRACT
This paper deals with a neural-network based model of
segmental duration for a TTS Arabic system. Given a set of
factors influencing phoneme duration, a Multi-Layer Perceptron
(MLP) is used to predict phoneme duration. Different linguistic
features are extracted automatically from the text and coded for
networks with binary and analog input nodes. The correlation
coefficient measured of the generalization test database is 0.882.
This coefficient corresponds to 14.3 ms as a mean absolute
prediction error of segmental duration.
1. INTRODUCTION
Le dveloppement de lutilisation de la synthse de la parole
dans des services qui ncessitent une interaction conviviale
PERSONNE-MACHINE requiert plusieurs tapes de traitement.
Lamlioration du naturel de la parole de synthse (fluidit,
prosodie) figure comme un traitement prioritaire qui fait
lunanimit aussi bien des industriels que des utilisateurs. Cest
un traitement primordial situ au niveau du traitement
linguistico-prosodique pour tout systme de synthse partir du
texte. Du point de vue phontique, il sagit du traitement des
paramtres prosodiques dfinis par : la frquence fondamentale
(F0), la dure segmentale et lintensit. La modlisation de ces
paramtres a fait lobjet de plusieurs travaux portant
essentiellement sur la frquence fondamentale et, dans une
moindre mesure, sur la dure. Par contre le paramtre intensit a
t peu tudi pour les recherches en prosodie [Lac99].
Le manque de fluidit et, par consquent, de naturel de la parole
synthtique, est d pour une grande partie un traitement
inadquat du rythme et de la dure segmentale. Le contrle de
lorganisation temporelle de lnonc ncessite la mise en jeu
dun modle prdictif pour diffrents aspects temporels tels que
le dbit, la dure des pauses et la vitesse darticulation. On
sintresse dans cette communication la prdiction de la dure
segmentale. Sa plus grande difficult de mise en uvre, est due,
indpendamment de la langue tudie, linteraction complexe
dune multitude de facteurs. En effet, les variations temporelles
sont rgies par de multiples paramtres qui correspondent des
niveaux danalyse diffrents (paralinguistique, intrinsque et cointrinsque, linguistique) et qui font de la dure un paramtre
trs difficile interprter [Ros81].
Dans le contexte de la synthse de la parole partir du texte et
dans la mesure o les domaines dapplication viss
correspondent essentiellement des situations de dialogue
contrl exemptes de toute improvisation, les corpus utiliss
dans ce cas sont des corpus lus. La construction des corpus
dpend aussi de plusieurs facteurs que lon peut contrler pour
la modlisation de la dure segmentale. Dans la synthse de la
parole, lintrt primordial dun modle de dure rside dans sa
capacit de prdire des dures relativement proches des dures
Phrase
Segmentation phontique
et description linguistique
Extraction des facteurs
Modle de prdiction
de la dure segmentale
Valeurs des dures pour
gnrer le signal
Figure 1 : schma gnral du modle de traitement automatique
de la dure segmentale
Le modle de prdiction de la dure est compos de deux blocs
distincts. Le premier est ddi au traitement linguistique, le
deuxime permet de transformer les informations issues du
traitement linguistique en donnes quantitatives. Le bloc de
89
une voyelle situe avant une pause est plus longue que dans
les autres positions ;
90
3. APPROCHE NEURONALE
Dans cette approche, on utilise un rseau de neurones standard
en loccurrence le Perceptron multicouche (PMC). Cest un
rseau de neurones artificiel couches caches. Le rseau
neuronal ncessite une tape dapprentissage supervis en se
basant sur des donnes segmentes de la parole naturelle.
Chaque vecteur caractrisant la dure du phonme et son
contexte phontique est fourni au rseau. En mme temps, la
dure du phonme cible est prsente la sortie du rseau.
Lalgorithme dapprentissage utilis est celui de retropropagation de lerreur [Hay94].
x, y =
Cov ( x , y )
x y
o :
et
1 xy 1
n
Cov (x , y )= 1 ( xi x )( yi y )
n i =1
1
f(x)=
1+exp(x)
Le moment
91
1
Coefficient de
Correlation
0.8
0.6
0.4
CCBT
Dbut du phnomne
Over learning
0.2
CCBA
0
1
52
103
154
205
Nombre d'iterations
256
Coef_Cor_Test
0.3022
0.3521
0.4574
0.5845
Type de la syllabe
0.6054
0.6104
Type de mot
0.6125
0.6145
0.6158
0.6246
La gmination
0.6451
Niveau daccent
0.7965
La pause
0.8064
La liaison phonologique
0.8101
5. BIBLIOGRAPHIE
[Cam90]
[Hay94]
[Kla79]
[Lac99]
[Raj89]
[Rie95]
[Rie97]
[Ros81]
[Sco89]
[Sej87]
[Zak01]
4. CONCLUSION
Nous avons prsent dans cette communication, les diffrentes
tapes pour la ralisation dun modle prdictif de la dure
segmentale de la langue arabe standard, pour la synthse partir
92
http://www.tsi.u-bordeaux.fr/zaki/arabic-synthesis-demo.htm