Sunteți pe pagina 1din 4

Un Modle Prdictif de la Dure Segmentale

pour la Synthse de la Parole Arabe Partir du Texte


A. Zaki 1,2, A. Rajouani 2, M. Najim 1
1

Equipe Signal et Image-LAP UMR 5131, ENSERB. B.P 99, F-33 402 Talence Cedex, France
2
LEESA, Facult des Sciences. B.P 1014 - Rabat, Maroc
Tl.: ++33 556 84 61 85 - Fax: ++33 556 84 84 06
e-mail: {zaki,najim}@tsi.u-bordeaux.fr, arajouani@yahoo.fr

ABSTRACT
This paper deals with a neural-network based model of
segmental duration for a TTS Arabic system. Given a set of
factors influencing phoneme duration, a Multi-Layer Perceptron
(MLP) is used to predict phoneme duration. Different linguistic
features are extracted automatically from the text and coded for
networks with binary and analog input nodes. The correlation
coefficient measured of the generalization test database is 0.882.
This coefficient corresponds to 14.3 ms as a mean absolute
prediction error of segmental duration.

1. INTRODUCTION
Le dveloppement de lutilisation de la synthse de la parole
dans des services qui ncessitent une interaction conviviale
PERSONNE-MACHINE requiert plusieurs tapes de traitement.
Lamlioration du naturel de la parole de synthse (fluidit,
prosodie) figure comme un traitement prioritaire qui fait
lunanimit aussi bien des industriels que des utilisateurs. Cest
un traitement primordial situ au niveau du traitement
linguistico-prosodique pour tout systme de synthse partir du
texte. Du point de vue phontique, il sagit du traitement des
paramtres prosodiques dfinis par : la frquence fondamentale
(F0), la dure segmentale et lintensit. La modlisation de ces
paramtres a fait lobjet de plusieurs travaux portant
essentiellement sur la frquence fondamentale et, dans une
moindre mesure, sur la dure. Par contre le paramtre intensit a
t peu tudi pour les recherches en prosodie [Lac99].
Le manque de fluidit et, par consquent, de naturel de la parole
synthtique, est d pour une grande partie un traitement
inadquat du rythme et de la dure segmentale. Le contrle de
lorganisation temporelle de lnonc ncessite la mise en jeu
dun modle prdictif pour diffrents aspects temporels tels que
le dbit, la dure des pauses et la vitesse darticulation. On
sintresse dans cette communication la prdiction de la dure
segmentale. Sa plus grande difficult de mise en uvre, est due,
indpendamment de la langue tudie, linteraction complexe
dune multitude de facteurs. En effet, les variations temporelles
sont rgies par de multiples paramtres qui correspondent des
niveaux danalyse diffrents (paralinguistique, intrinsque et cointrinsque, linguistique) et qui font de la dure un paramtre
trs difficile interprter [Ros81].
Dans le contexte de la synthse de la parole partir du texte et
dans la mesure o les domaines dapplication viss
correspondent essentiellement des situations de dialogue
contrl exemptes de toute improvisation, les corpus utiliss
dans ce cas sont des corpus lus. La construction des corpus
dpend aussi de plusieurs facteurs que lon peut contrler pour
la modlisation de la dure segmentale. Dans la synthse de la
parole, lintrt primordial dun modle de dure rside dans sa
capacit de prdire des dures relativement proches des dures

optimales partir de toutes les combinaisons de facteurs


linguistiques possibles.
Diffrentes mthodes ont t appliques pour la modlisation de
la dure segmentale pour la synthse de la parole partir du
texte. On peut distinguer deux tendances de modlisation : les
modles bass sur un systme par rgles [Kla79] et les mthodes
statistiques, telles que celles fondes sur les rseaux de neurones
[Rie95] ou les mthodes de rgression [Rie97].
Lobjectif de cette tude est le dveloppement dun modle de la
dure segmentale bas sur les rseaux de neurones qui peut tre
intgr, avec le modle de gnration des variations de F0
[Zak01], au niveau du bloc de traitement automatique
linguistico-prosodique.
Lapproche neuronale est base sur lapprentissage automatique
qui consiste faire le lien entre les informations linguistiques
refltes par le texte et la dure segmentale.
Les rseaux de neurones ont t utiliss avec succs pour la
modlisation de plusieurs systmes et en particulier ceux ddis
au traitement acoustico-linguistique : prononciation (graphemeto-phoneme) [Sej87], gnration de F0 [Sco89]. Lutilisation des
rseaux de neurones pour la modlisation de la dure syllabique
a t propose par [Cam90].

2. TRAITEMENT DE LA DUREE SEGMENTALE


Le modle prsent dans cette communication consiste prdire
la dure segmentale en utilisant des facteurs qui affectent la
dure. La figure 2 illustre lorganigramme du modle prdictif.

Phrase
Segmentation phontique
et description linguistique
Extraction des facteurs
Modle de prdiction
de la dure segmentale
Valeurs des dures pour
gnrer le signal
Figure 1 : schma gnral du modle de traitement automatique
de la dure segmentale
Le modle de prdiction de la dure est compos de deux blocs
distincts. Le premier est ddi au traitement linguistique, le
deuxime permet de transformer les informations issues du
traitement linguistique en donnes quantitatives. Le bloc de

XXIVmes Journes dtude sur la Parole, Nancy, 24-27 juin 2002

89

traitement linguistique permet une description du texte acquis.


Cette description fournit des informations sur la nature de la
phrase, syllabe, accentuation, type de phonmes, frontire de
mot etc. Ces informations feront lobjet des facteurs qui
influencent la dure segmentale. Les facteurs sont choisis
partir dune analyse de la dure segmentale.

2.1. Analyse de la dure segmentale


Lanalyse de la dure segmentale consiste identifier quelques
effets du contexte immdiat sur la dure des phonmes. Il sagit,
essentiellement de leffet du contexte consonantique sur la dure
vocalique. En effet, les syllabes dans la langue arabe sont bases
sur des lments contrasts situs l'intrieur de la frontire de
la syllabe. Chaque syllabe a une partie principale saillante. Cette
partie est connue par le noyau de la syllabe qui est la voyelle.
Les lments restants sont appels les facteurs marginaux et
sont reprsents par les consonnes. Une syllabe commence
toujours par une seule consonne et se termine soit par une
consonne soit par deux consonnes soit par aucune consonne.
Cette dfinition de la syllabe de larabe met en vidence le rle
principal de la voyelle au sein de cette unit phonologique. Ce
qui explique la priorit de ltude des variations temporelles des
voyelles par rapport aux consonnes.
Une tude statistique a t ralise par [Raj89] sur un corpus
compos de mots prononcs dans une phrase porteuse. Le
corpus a t lu par deux locuteurs. Le premier locuteur ayant un
dbit normal et le deuxime ayant un dbit relativement lent. Ce
choix permet de vrifier linfluence du dbit sur lanalyse de la
dure segmentale. Les conclusions dgages partir des
expriences ralises pour mesurer leffet du contexte
consonantique sur la dure vocalique et leffet des facteurs
morphologiques et phonologiques sont :

une voyelle prcde dune consonne gmine est


relativement plus longue que celle prcde dune consonne
simple ;

une voyelle suivie dune consonne gmine est plus brve


que celle suivie dune consonne simple ;

la pharyngalisation naffecte pas la dure vocalique ;

les voyelles sont plus longues en syllabe ouverte ;

la voyelle est plus longue lorsquelle est prcde dune


consonne sonore ;

la dure de la voyelle brve nest pas affecte par le


voisinage dune voyelle longue que la consonne
intervocalique soit simple ou gmine ;

la dure dune consonne gmine est plus longue lorsquelle


est suivie dune voyelle longue ;

la dure dune consonne gmine est plus brve lorsquelle


est prcde dune voyelle longue ;

linfluence du rythme est plutt quantitative que qualitative ;

laccentuation affecte la dure de la voyelle selon le type de


syllabe ouverte/ferme. La dure de la voyelle dune syllabe
ouverte et accentue est plus longue que la dure dune
syllabe ferme ;

une voyelle situe avant une pause est plus longue que dans
les autres positions ;

le nombre de syllabes dans le mot affecte la dure des


voyelles. La dure dcrot avec une moyenne de 10 ms pour
chaque voyelle du dbut la fin du mot ;

90

la dure des voyelles des mots grammaticaux est infrieure


celle des voyelles des mots lexicaux.

Cette analyse a permis la construction dun ensemble de rgles


pour la modlisation de la dure segmentale. Le modle ralis a
t ddi un systme de synthse par rgles [Raj89]. Dans
cette communication, on propose dexploiter cette analyse pour
choisir lensemble des facteurs qui affectent la dure
segmentale, ainsi que lordre des informations contextuelles
dont il faut tenir compte pour prdire la dure dun phonme
cible.
A partir des conclusions soulignes auparavant, on peut extraire
les facteurs qui influencent la dure segmentale : accent lexical,
gmination, nature phontique des consonnes, type de syllabe,
position par rapport la pause, nombre de syllabes du mot, type
de mot. A cet ensemble de facteurs, on ajoute : la classe de
chaque phonme, leffet de la liaison phonologique, et dautres
facteurs dordre phonotactique. Il est clair que pour prdire la
dure dun phonme au niveau dune phrase, il faut tenir compte
au moins du phonme prcdent et de celui subsquent.

3. APPROCHE NEURONALE
Dans cette approche, on utilise un rseau de neurones standard
en loccurrence le Perceptron multicouche (PMC). Cest un
rseau de neurones artificiel couches caches. Le rseau
neuronal ncessite une tape dapprentissage supervis en se
basant sur des donnes segmentes de la parole naturelle.
Chaque vecteur caractrisant la dure du phonme et son
contexte phontique est fourni au rseau. En mme temps, la
dure du phonme cible est prsente la sortie du rseau.
Lalgorithme dapprentissage utilis est celui de retropropagation de lerreur [Hay94].

3.1. Base de donnes


Le corpus utilis dans cette application est similaire celui que
nous avons utilis prcdemment pour ltude de lintonation de
la langue arabe standard [Zak01]. Il sagit dun corpus compos
de 112 phrases dclaratives de taille variant de 1 10 mots. Le
corpus contient : 395 mots (10% de mots grammaticaux et 90%
lexicaux), 1013 syllabes (524 CV, 129 CVV, 356 CVC, 4
CVVC) et 3575 phonmes.

3.2. Codage des paramtres


Selon la catgorie de chaque facteur caractrisant la dure
segmentale, nous avons utilis diffrentes mthodes de codage
des paramtres prsents au rseau neuronal.
o Codage binaire : cest un codage standard pour les
paramtres vrais/faux ;
o One-of-n : on utilise n neurones et un seul parmi eux sera
activ, celui-l correspond une classe ou une catgorie ;
o Transformation en pourcentage : cette mthode consiste
diviser la valeur en cours par la valeur maximale pour
obtenir un pourcentage. Il sagit des valeurs en virgule
flottante en entre.

3.3. Evaluation du rseau


Pour valuer et comparer lensemble des rseaux considrs
durant les simulations, nous avons utilis le coefficient de
corrlation calcul entre les dures segmentales prdites et
optimales.
Le coefficient de corrlation est dfini par :

x, y =

Cov ( x , y )
x y

x et y sont les carts types.

XXIVmes Journes dtude sur la Parole, Nancy, 24-27 juin 2002

o :
et

1 xy 1
n
Cov (x , y )= 1 ( xi x )( yi y )
n i =1

3.4. Paramtres dentres


Les paramtres dentres sont extraits automatiquement du texte
en se basant sur une hirarchie de modules : syllabation,
classification de types de syllabes, accentuation, classification
phontique, acoustique et articulatoire, ainsi que la
dtermination des paramtres de position.
Nous avons class les paramtres dentre en trois catgories,
correspondant aux types de codage :
La premire catgorie qui est de type binaire comprend les
facteurs suivant :
la gmination (consonne gmine ou simple),
la liaison phonologique (existence dune liaison entre deux
mots juxtaposs ou non, /daxalalwaladu/),
la pause (phonme situ avant une pause ou non),
type de mot (grammatical ou lexical).

3.6. Architecture et mise en uvre


Comme nous lavons soulign auparavant, le rseau utilis est le
PMC. Pour notre application, nous avons dduit de tests de
performances quune seule couche cache est suffisante. Ce
choix est bien comment dans [Zak01]. En tenant compte de
tous les facteurs prsents en 3.4, chaque phonme sera
caractris par 13 paramtres. Linfluence dune voyelle voisine,
quelle que soit la consonne intervocalique, suggre le choix
dune fentre qui inclut les informations contextuelles de trois
phonmes : le phonme cible, le phonme prcdent et celui
subsquent. Par consquent la fentre dentre est compose de
13*3 facteurs qui seront cods sur 32*3 bits. Cela ncessite 96
neurones au niveau de la couche dentre. La couche de sortie
du rseau est compose dun seul neurone qui correspond la
dure du phonme cible de la fentre dentre. Le choix du
nombre de neurones de la couche cache est effectu dune
manire empirique. Nous avons test plusieurs nombres de
neurones variant de 5 50 pour identifier la meilleure
architecture. Le choix du meilleur rseau est fait selon les
coefficients de corrlation mesurs sur les donnes
dapprentissage et celles de test. Le rseau prsente les
meilleures performances pour un choix de 30 neurones dans la
couche cache.

La deuxime catgorie comprend :


la classe des phonmes (Voyelle longue/courte, classe
phontique des consonnes : occlusives, fricatives, nasales,
etc. avec la prcision du voisement ou non). Ce facteur est
cod sur 10 bits,
le type de syllabe (CV, CVV, CVC, CVVC, CVCC). Ce
facteur est cod sur 5 bits,
le niveau daccent (Accent principal, secondaire et tertiaire).
Ce facteur est cod sur 3 bits,
la position du phonme dans la syllabe (de 1 4). Ce facteur
est cod sur 4 bits.
La troisime catgorie comprend les autres paramtres de
position :
la position du phonme dans le mot (dpend du nombre de
phonmes dans chaque mot),
la position du phonme dans la phrase (dpend du nombre
de phonmes total dans la phrase),
la position de la syllabe dans le mot (dpend du nombre de
syllabes dans le mot),
la position de la syllabe dans la phrase (dpend du nombre
total de syllabes dans la phrase),
la position du mot dans la phrase (dpend du nombre de
mots dans la phrase).
Pour cette dernire catgorie, les facteurs sont cods avec des
valeurs analogiques rsultant de la transformation en
pourcentage.

3.5. Paramtres de sortie


Nous avons choisi un codage linaire de la dure observe la
sortie du rseau neuronal. Ce type de codage transforme
linairement les dures segmentales pour quelles soient
comprises dans lintervalle [0,1]. Lutilisation de la fonction
sigmode1 permet cette adaptation dintervalle.

3.7. Expriences et rsultats


Lalgorithme dapprentissage dpend de plusieurs paramtres
qui ont un caractre alatoire, tel que linitialisation des poids de
connexions, le pas de lalgorithme et le moment2. Nous avons
expriment plusieurs paramtres sur un rseau une seule
couche cache compose de 30 neurones, une couche dentre
96 neurones et une couche de sortie un neurone. Durant la
phase dapprentissage effectue sur 75% de la base de donnes
totale, on mesure pour chaque cycle les coefficients de
corrlation sur les donnes dapprentissage et sur les donnes de
test qui reprsentent 25% de la base de donnes totale. Pour
viter le phnomne de sur-apprentissage over learning , on
suit lvolution des deux coefficients de corrlation mesurs.
Lalgorithme doit tre arrt partir de litration o lon
remarque une dgradation du coefficient de corrlation mesur
sur les donnes de test3. La courbe de la figure 2 illustre
lvolution des coefficients de corrlation pour 300 itrations.
On remarque quau bout de la 100me itration, il y a apparition
du phnomne de sur-apprentissage comme on peut le voir sur
la figure 2. Dans cette zone, le rseau atteint ses meilleures
performances avec un coefficient de corrlation dapprentissage
de lordre de 0.889. Celui mesur sur des donnes de test est de
lordre de 0.882. Lerreur de prdiction absolue mesure dans ce
cas est de lordre de 14.3 ms.
Il faut noter que le modle neuronal peut tre utilis aussi bien
pour lanalyse que pour la synthse de la dure segmentale.
Ltape danalyse consiste valuer la contribution de chaque
facteur la prdiction de la dure segmentale. Pour raliser cette
dmarche on utilise la mthode du variant simple propose par
[Cam90]. La mthode consiste dsactiver alternativement les
neurones qui correspondent aux facteurs tester et calculer le
coefficient de corrlation. Les rsultats de ce test sont prsents
dans le tableau 1.

1
f(x)=
1+exp(x)

Le moment

est un coefficient introduit dans lquation dadaptation

des poids pour acclrer lapprentissage du rseau neuronal et pallier le


problme dinstabilit. wij(n)=wij(n1)+ j(n)yi(n) .
3

Il sagit des donnes qui ne figurent pas dans la base dapprentissage.

XXIVmes Journes dtude sur la Parole, Nancy, 24-27 juin 2002

91

1
Coefficient de
Correlation

0.8
0.6
0.4

CCBT

Dbut du phnomne
Over learning

0.2

CCBA

0
1

52

103
154
205
Nombre d'iterations

256

Figure 2 : volution des coefficients de corrlation au cours de


la phase dapprentissage en fonction du nombre ditrations.
CCBA et CCBT reprsentent respectivement les coefficients de
corrlation mesurs sur les donnes dapprentissage et de test.
Table 1 : rsultat du test danalyse des facteurs.
Facteurs dsactivs

Coef_Cor_Test

Classe des phonmes

0.3022

Position du phonme, syllabe et mot


dans la phrase

0.3521

Position du phonme dans la syllabe

0.4574

Position du phonme dans le mot

0.5845

Type de la syllabe

0.6054

Position de la syllabe dans la phrase

0.6104

Type de mot

0.6125

Position de la syllabe dans le mot

0.6145

Position du phonme dans la phrase

0.6158

Position du mot dans la phrase

0.6246

La gmination

0.6451

Niveau daccent

0.7965

La pause

0.8064

La liaison phonologique

0.8101

du texte. Nous nous sommes bass sur une analyse statistique


pour identifier les paramtres qui affectent la dure segmentale.
Nous avons utilis lapproche neuronale pour la synthse de la
dure segmentale partir des facteurs qui affectent la dure des
phonmes. Lanalyse par synthse nous a permis de classer la
contribution des paramtres utiliss. Cette analyse prliminaire
est en accord avec certains rsultats obtenus par analyse
statistique. Les paramtres de position contribuent fortement aux
performances du modle prdictif. Les rsultats sont
encourageants. On estime que le modle actuel peut tre
simplifi davantage si on arrive analyser la contribution de
chaque facteur en tenant compte de toutes les combinaisons
possibles. Pour obtenir un bon modle prdictif on propose
danalyser les performances du modle en tenant compte de
diffrentes mthodes de codages des paramtres dentre et de
sortie. Le modle de prdiction de la dure segmentale propos
est test par un synthtiseur de la parole arabe bas sur la
technique TD-PSOLA. Des exemples qui illustrent des rsultats
du modle sont disponibles sur le site de lEquipe Signal et
Image4

5. BIBLIOGRAPHIE
[Cam90]

[Hay94]
[Kla79]

[Lac99]
[Raj89]

Le tableau 1 reprsente des rsultats prliminaires dune analyse


par synthse de la dure segmentale. La contribution des
facteurs est prsente dans lordre croissant du coefficient de
corrlation du test. On remarque que la classe des phonmes est
un facteur dterminant. Ce rsultat est tout fait vident car le
facteur en question est lidentificateur de chaque segment. Les
facteurs de position dans la phrase figurent en deuxime
position. Nous avons dsactiv en mme temps les trois facteurs
de position concernant le placement du phonme, syllabe et mot
dans la phrase. On remarque que les performances du rseau
dans ce cas se dtriorent compltement. En dsactivant un seul
des trois paramtres lis la position dans la phrase, les
performances du rseau samliore : le coefficient de corrlation
passe de 0.3521 plus de 0.6. La position du phonme dans la
syllabe est un paramtre qui contribue considrablement aux
performances du rseau neuronal. Tel est galement le cas, pour
le type de mot et de syllabe. En ce qui concerne le niveau
daccent on remarque quil ninfluence pas beaucoup le modle.
Cela peut sexpliquer par son effet limit la voyelle
uniquement. Pour ce qui est de la pause et la liaison
phonologique, leur absence ninfluence pas beaucoup les
performances du rseau, mais ces facteurs restent ncessaires
pour assurer de bons rsultats.

[Rie95]

[Rie97]

[Ros81]
[Sco89]

[Sej87]

[Zak01]

4. CONCLUSION
Nous avons prsent dans cette communication, les diffrentes
tapes pour la ralisation dun modle prdictif de la dure
segmentale de la langue arabe standard, pour la synthse partir

92

W. Campbell Analog I/O nets for Syllable


Timing, in speech communication, vol 9, pp 57-61,
North-Holland, 1990.
S. Haykin. Neural Networks. A Comprehensive
Foundation. IEEE Computer Society Press. 1994.
D. Klatt. Synthesis by Rule of Segmental Durations
in English Sentences. In Frontiers of Speech
Communication Research, edited by B. Lindblom
and S. hman (Academic, London), pp. 287-301,
1979.
A. Lacheret-Dujour et F. Beaugendre. La prosodie
du franais. CNRS Editions. Paris 1999.
A. Rajouani. Contribution la synthse de la parole
Arabe par Rgles. Thse de Doctorat dEtat,
Universit Mohamed V, Facult des Sciences Rabat,
Maroc 1989.
M. Riedi A Neural-Network-Based Model of
Segmental Duration for Speech Synthesis.
Proceedings of Eurospeech'95 conference, pp. 599602, Madrid, 1995.
M. Riedi Modelling Duration With Multivariate
adaptive Regression Splines. Proceedings of
Eurospeech'97 Conference. Volume 5, pp.2627
2630. Rhodes 1997.
M. Rossi et Al. Lintonation de lAcoustique la
Smantique. KLINCKSIECK. Paris 1981.
M. S. Scordilis and J. N. Gowdy Neural Network
Based Generation of Fundamental Frequency
Contours. Proc. IEEE-ICASSP, Vol. 1, pp. 219222, Glasgow, 1989.
T. J. Sejnowski and C. R. Rosenberg Parallel
Networks that Learn to Pronounce English Text.
Complex Systems, Vol. 1, pp. 145-168, 1987.
A. Zaki, A. Rajouani, M. Najim, Synthesizing
Intonation of Standard Arabic Language Using
Neural Networks, Proc. of Eurospeech'01
Conference. Volume 1, pp. 541-544, September,
Aalborg, 2001.

http://www.tsi.u-bordeaux.fr/zaki/arabic-synthesis-demo.htm

XXIVmes Journes dtude sur la Parole, Nancy, 24-27 juin 2002

S-ar putea să vă placă și