Sunteți pe pagina 1din 229

UNIVERSIT

TOURS

FRANOIS

RABELAIS

cole Doctorale : Sant, Sciences


et Technologies
Anne Universitaire : 2006-2007

THSE POUR OBTENIR LE GRADE DE


DOCTEUR DE LUNIVERSIT DE TOURS
Discipline : Informatique
prsente et soutenue publiquement
par :
Alain DELAPLACE
le 12 dcembre 2007

Approche volutionnaire de lapprentissage de structure pour


les rseaux baysiens

Directeur de thse : Professeur Hubert C


Co-encadrement : Thierry B

JURY :
T BROUARD
H CARDOT
P LERAY
J LOPEZ KRAHE
M` SEBAG

Examinateur
Directeur de thse
Rapporteur
Examinateur
Rapporteur

Matre de Confrences lUniversit de Tours


Professeur des universits lUniversit de Tours
Professeur des universits lUniversit de Nantes
Professeur des universits lUniversit Paris 8
Directeur de Recherches lUniversit Paris-Sud

UNIVERSIT
TOURS

FRANOIS

RABELAIS

cole Doctorale : Sant, Sciences


et Technologies
Anne Universitaire : 2006-2007

THSE POUR OBTENIR LE GRADE DE


DOCTEUR DE LUNIVERSIT DE TOURS
Discipline : Informatique
prsente et soutenue publiquement
par :
Alain DELAPLACE
le 12 dcembre 2007

Approche volutionnaire de lapprentissage de structure pour


les rseaux baysiens

Directeur de thse : Professeur Hubert C


Co-encadrement : Thierry B

JURY :
T BROUARD
H CARDOT
P LERAY
J LOPEZ KRAHE
M` SEBAG

Examinateur
Directeur de thse
Rapporteur
Examinateur
Rapporteur

Matre de Confrences lUniversit de Tours


Professeur des universits lUniversit de Tours
Professeur des universits lUniversit de Nantes
Professeur des universits lUniversit Paris 8
Directeur de Recherches lUniversit Paris-Sud

"Theres no such thing as a free lunch."


"Specialization is for insects."
Robert A. Heinlein

Remerciements
Je tiens remercier en premier lieu, pour la place quils ont eu dans ces annes de travail,
Hubert Cardot et Thierry Brouard. Je les remercie de la libert de choix et de recherche quils
mont laiss tout en sachant me guider une fois mes choix dcids. Je tiens aussi par ailleurs
mexcuser auprs deux pour les relectures, nombreuses, et certainement pas toujours agrables
tant donn mon amour des grandes phrases.
Je tiens aussi remercier mes rapporteurs. Philippe Leray, pour avoir su, que ce soit directement ou indirectement, me conseiller et mavoir fait dcouvrir le domaine des rseaux
baysiens. Je ne pense pas tre le seul dans ce cas tant donn la popularit grandissante des
rseaux baysiens dans nos provinces. Merci, de mme, Michle Sebag pour ses remarques
concernant les diffrents points de mon travail autour des mthodes volutionnaires et avoir
su partager son exprience. Le travail final en a t grandement amlior.
Mes parents, bien sr. Cest vident, bien sr, mais cest vous que je dois den tre l. Entre
les encouragements, le toit et les repas chauds ainsi que les coups de pieds souvent mrits,
vous avez t l du dbut la fin et il faudrait tre le dernier des ingrats pour ne pas en rendre
compte. Du dbut la fin, chaque galre, chaque moment difficile, vous tiez l. De l
penser que vous me portez la poisse... Ma famille, en gnral, et ma tante Nadia pour mavoir
toujours laiss une gamelle chauffer deux heures du matin, quand les barres du distributeur
ne suffisaient plus.
Maintenant, la partie dsopilante. La section des remerciements aura constitu pour moi
une des parties les plus problmatiques rdiger. Qui doit y figurer ? Dans quel ordre et
surtout, aurais-je oubli quelquun ? Dois-je dcevoir mon public qui sattend une avalanche
de gags et de calembours en une fusion miraculeuse dun almanach Vermot et dune section de
remerciements traditionnelle, du genre tirer des larmes un parpaing ?
Usuellement constitue dun dfil de sobriquets ridicules voquant une vie sociale depuis
longtemps moribonde et de rfrences appuyes dinterminables nuits de travail, illustrant la
pathtique mais virile nostalgie digne dune chambre militaire des heures fiches en lair sur
des sujets striles, la page des remerciements est traditionnellement un manuscrit de thse ce
que les ds en mousse sont une voiture.
Quand des annes censes tre les plus intenses dune existence ne semblent avoir connu
comme sommets que de tristes soires tartiflettes passes devant une empoignade tlvise de
sombres nanderthaliens en short avec des gens dont on ignore pour la plupart les prnoms,
on se fait rapidement une ide de la qualit de vie allant de pair avec les tudes longues.
Mais puisquil faut en passer par l, allons-y.
6

mes amis, Mathieu, Guillaume, Clment, Christophe, Ludo... Merci pour avoir support
mon sale caractre et mon cynisme meurtrier. Mes dpressions nauraient pas t les mmes
sans vous. Plus srieusement, il est du domaine public que jai un caractre de cochon mais je
sais que les amis, ce sont les gens encore l aprs que lon se soit comport comme un crtin.
Les compagnons de galre du labo : Stphane, le trio Julien O., Julien M. et Ludo P.(les
grands musiciens sont ceux aux carrires les plus courtes, je vous souhaite de rester petits),
Sbastien D.(lve le pied et dors un peu, ce point-l a relve du masochisme), Rashid (celuiqui-ne dors-jamais, ou rarement), Lamia (pour les nuits de rdaction et pour tre toi-mme, tout
simplement), Geoffrey, les Mathieus, Cdric, David, Arnaud, et les dizaines dautres doctorants
passs ou prsents. Merci en particulier Sbastien Aupetit pour son aide sur le domaine des
algorithmes volutionnaires. Je naime pas expdier ainsi de ce que je ne saurais considrer
comme une "tche" mais il me faudrait trop de pages pour vous remercier chacun et chacune
la hauteur du/des service(s) rendu(s). Et Raoni me ferait un procs, en plus.
Les doctorants "extrieurs" (bah !) : Olivier Franois pour son travail sur la BNT et les rseaux
baysiens mais aussi les conseils et tout le reste, Sabine Barrat pour mavoir montr que mon
travail pouvait effectivement servir dautres personnes, Nicolas Marti pour... euh, pour les
Martineries, Cheng-Ma pour mavoir aid dcouvrir une culture qui me fascine toujours, et
l aussi beaucoup dautres.
Les personnes travaillant au laboratoire dinformatique de luniversit de Tours, bien sr.
Merci tous ceux qui auront pris le temps, parfois, de passer mon bureau juste pour me
demander comment a allait. Ce nest pas grand-chose mais, au final, a compte. Merci bien
sr aux membres de mon quipe, lquipe RFAI mais aussi tous ceux des autres quipes pour
mavoir donn le coup de main quand jen avait besoin et ce, parfois, avant mme que je ne
commence ma thse. Un norme et franc merci Jean-Charles Billaut, Ameur Soukhal, Vincent
Tkindt, Christophe Lent, Mohand Slimane et en gnral tous ceux qui ont pris le temps.
Et je noublie pas les IATOS sans lesquels on nirait pas bien loin. Un merci spcial Colette,
qui sarrange toujours pour que les trains partent lheure et que tous les papiers soient bien
signs.
Et merci, bien sr, Christian Proust pour avoir permis que tout cela soit possible.
Ah oui, merci aussi Georges, Brad et Angelina pour cette dlicieuse soire au Georges V.
Et un grand, un immense merci tous ceux qui ny ont pas cru (ils se reconnatront). Vous
suprendre aura t une belle motivation pour aller au bout.
Enfin, je concluerai en prcisant que la liste des personnes que je remercie ne saurait tre
exhaustive ; pirouette lgante qui mvitera de me morfondre, une fois que ce travail sera
imprim et dment reli, lorsque je me rendrai compte que jaurai oubli quelquun dimportant.

Table des matires


1

Introduction

15

1.1

Problmatique et objectifs de notre travail . . . . . . . . . . . . . . . . . . . . . . .

17

1.2

Guide de lecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

tat de lart

21

Rseaux baysiens

23

2.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

23

2.2

Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

2.3

Proprits des rseaux baysiens . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

2.3.1

Condition locale de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

2.3.2

d-sparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

2.3.3

Cartes dindpendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

29

2.3.4

Factorisation de la probabilit jointe . . . . . . . . . . . . . . . . . . . . . .

30

2.4

Causalit dans les rseaux baysiens . . . . . . . . . . . . . . . . . . . . . . . . . .

31

2.5

Rseaux baysiens densits de probabilits continues . . . . . . . . . . . . . . .

32

2.6

Infrence probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

32

2.7

Exemples dapplication de rseaux baysiens . . . . . . . . . . . . . . . . . . . . .

33

2.8

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

Apprentissage des paramtres

37

3.1

37

Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

TABLE DES MATIRES

3.2

3.3

Base de donnes complte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

3.2.1

Approche frquentiste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

3.2.2

Approche baysienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

3.2.3

Diffrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

Base de donnes incomplte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

3.3.1

Approche frquentiste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

3.3.2

Approche baysienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43

Apprentissage de structures

45

4.1

Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

4.1.1

Cadre thorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

4.1.2

Cadre pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

Mthodes procdant par tests statistiques . . . . . . . . . . . . . . . . . . . . . . .

48

4.2.1

Algorithmes PC et IC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

4.2.2

Algorithme BNPC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

51

4.2.3

Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

52

4.3

Fonctions dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

53

4.4

Algorithmes employant un score . . . . . . . . . . . . . . . . . . . . . . . . . . . .

59

4.4.1

Recherche de larbre de recouvrement de poids maximal . . . . . . . . . .

59

4.4.2

Algorithme K2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

4.4.3

Algorithme Greedy Search . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

4.4.4

Recherche gloutonne sur lespace des graphes essentiels . . . . . . . . . .

61

4.4.5

Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

4.4.6

Mthodes hybrides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

66

Lapprentissage de la structure par des mthodes stochastiques . . . . . . . . . .

66

4.5.1

Mthodes de Monte Carlo par chanes de Markov . . . . . . . . . . . . . .

67

4.5.2

Mthodes volutionnaires . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

Problmatiques particulires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

70

4.6.1

70

4.2

4.5

4.6

Cas des variables continues . . . . . . . . . . . . . . . . . . . . . . . . . . .

9 / 229

TABLE DES MATIRES

4.6.2

Cas des bases de donnes incompltes : lalgorithme SEM . . . . . . . . .

70

4.6.3

Cas des variables latentes . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72

Algorithmes gntiques

77

5.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

5.2

Les algorithmes gntiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

79

5.2.1

Les composantes dun algorithme gntique . . . . . . . . . . . . . . . . .

80

5.2.2

Oprateurs phnotypiques . . . . . . . . . . . . . . . . . . . . . . . . . . .

81

5.2.3

Oprateurs gnotypiques . . . . . . . . . . . . . . . . . . . . . . . . . . . .

82

5.2.4

Applications des problmes continus . . . . . . . . . . . . . . . . . . . .

84

tude thorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84

5.3.1

Le thorme des schmas . . . . . . . . . . . . . . . . . . . . . . . . . . . .

84

5.3.2

Critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

Dveloppements autour des algorithmes gntiques . . . . . . . . . . . . . . . . .

88

5.4.1

Adaptativit des paramtres . . . . . . . . . . . . . . . . . . . . . . . . . .

88

5.4.2

Algorithmes estimation de densits . . . . . . . . . . . . . . . . . . . . .

91

5.4.3

Techniques de niching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

94

5.4.4

Algorithmes gntiques parallles . . . . . . . . . . . . . . . . . . . . . . .

97

5.5

Applications lapprentissage de structures . . . . . . . . . . . . . . . . . . . . . .

98

5.6

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.3

5.4

II Apprentissage de la structure dun rseau baysien par un algorithme volutionnaire


103
6

Apprentissage avec rpartition dans lespace des solutions


6.1

105

Algorithme gntique simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105


6.1.1

Dfinition dun individu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

6.1.2

Mesure de la qualit dun individu . . . . . . . . . . . . . . . . . . . . . . . 106

6.1.3

Initialisation des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6.1.4

Stratgies et paramtres de slection . . . . . . . . . . . . . . . . . . . . . . 107


10 / 229

TABLE DES MATIRES

6.1.5
6.2

6.3

Oprateurs gntiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Choix dune stratgie adapte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113


6.2.1

Distances entre deux structures de rseaux baysiens . . . . . . . . . . . . 114

6.2.2

Choix dune mthode doptimisation . . . . . . . . . . . . . . . . . . . . . 116

6.2.3

Niching squentiel appliqu lapprentissage de structures . . . . . . . . . 117

6.2.4

Exprimentations et rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . 120

Combinaison avec une approche spatiale . . . . . . . . . . . . . . . . . . . . . . . 120


6.3.1

Rpartition spatiale de la population . . . . . . . . . . . . . . . . . . . . . . 121

6.3.2

Exprimentations et rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . 123

Stratgie dadaptation de la mutation

125

7.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

7.2

Notre mthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

7.3

Exprimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

Exprimentations
8.1

135

Objectifs et mthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135


8.1.1

Mthodes dapprentissage employes . . . . . . . . . . . . . . . . . . . . . 136

8.1.2

Les rseaux appris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

8.1.3

Mesures utilises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

8.1.4

Protocoles exprimentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

8.2

Apprentissage de la structure ASIA . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

8.3

Apprentissage de la structure Insurance . . . . . . . . . . . . . . . . . . . . . . . . 147

8.4

Apprentissage de la structure ALARM . . . . . . . . . . . . . . . . . . . . . . . . . 150

8.5

Rsultats complmentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

8.6

8.5.1

Commentaires gnraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

8.5.2

Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

Comportement des algorithmes volutionnaires . . . . . . . . . . . . . . . . . . . 164


8.6.1

volution des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

8.6.2

Performances temporelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165


11 / 229

TABLE DES MATIRES

8.7

III
9

8.6.3

Nombre ditrations avant la solution . . . . . . . . . . . . . . . . . . . . . 169

8.6.4

Taux dindividus rpars . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172

Rseaux baysiens : une application la reconnaissance de formes


La segmentation de liris dans une image

175

9.1

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

9.2

Rseaux baysiens pour la classification . . . . . . . . . . . . . . . . . . . . . . . . 175


9.2.1

Rseaux baysiens nafs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

9.2.2

Structures arborescentes augmentes . . . . . . . . . . . . . . . . . . . . . 176

9.2.3

Multi-nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

9.3

Problmatique aborde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

9.4

Travaux antrieurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

9.5

9.4.1

Mthode de J. Daugman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

9.4.2

Mthode de Wildes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

Notre mthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179


9.5.1

Caractristiques employes . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

9.5.2

La base Ubiris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

9.6

Les modles employs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

9.7

Implmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
9.7.1

9.8

IV

173

Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

Conclusions et perspectives

187

10 Conclusion

189

11 Perspectives

191

Bibliographie

193
12 / 229

TABLE DES MATIRES

A Probabilits et statistiques

207

A.1 Probabilits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207


A.1.1 Probabilits conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
A.1.2 Indpendances conditionnelles : dfinitions et mesures . . . . . . . . . . . 209
A.2 Formules et notions lis lindpendance conditionnelle . . . . . . . . . . . . . . 210
A.2.1 Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
A.2.2 Rapport de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
A.2.3 Test de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
A.3 Mesures de divergence entre deux distributions de probabilits . . . . . . . . . . 213
A.3.1 Divergence de Kullback-Leibler . . . . . . . . . . . . . . . . . . . . . . . . 213
A.3.2 Divergence de Jensen-Shannon . . . . . . . . . . . . . . . . . . . . . . . . . 214
B Analyse de texture

215

B.1 Fondement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215


B.1.1

Matrices de cooccurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215

B.1.2

Caractristiques dHaralick . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

C Rsultats exprimentaux

219

C.1 Stratgie de pnalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219


C.2 Stratgie dadaptation de la mutation . . . . . . . . . . . . . . . . . . . . . . . . . 220
C.3 Algorithme distribu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221

13 / 229

Chapitre 1

Introduction
La recherche sest depuis longtemps penche sur la restitution ou du moins la simulation
du fonctionnement de lesprit humain. Lune des tentatives les plus reconnues est celle visant
pouvoir simuler le processus dapprentissage de ltre humain de manire automatique
travers un systme thorique. Ce systme devant alors tre apte apprendre par lexprience
et, par voie de consquence, samliorer dans lexcution de la tche qui lui a t confie.
Lobjectif que nous venons dnoncer est le principe gnral de la discipline que lon nomme
machine learning. Sous cette dnomination se retrouve effectivement un ensemble de mthodes
et de modles dont lobjectif est de pouvoir extraire et intgrer une connaissance par la voie de
lapprentissage automatique.
Ltendue du champ dapplication des modles graphiques est aussi vaste que la taxonomie
sy rapportant. Si les modles dirigs sapprtent lassistance au diagnostic et linfrence,
dautres modles (semi-dirigs ou non dirigs) ont t dvelopps mesure du temps et des
besoins afin de pouvoir, par exemple, sappliquer la segmentation dimages, au filtrage de
signal, etc.
Lintrt dun modle et de lapprentissage en gnral est dobtenir un systme certes capable
de se perfectionner travers sa propre exprience mais aussi apte sadapter des situations
diffrentes. Pour prendre un exemple simple, lexprience que lon peut avoir en travaillant dans
linformatique peut servir, loccasion, dpanner un appareil lectronique. Cette adaptation
de nouvelles situations partir de lacquis est aussi une des caractristiques de lhumain.
Les objectifs ont volu. Par-del la simple mulation de la cognition humaine, les modles et
mthodes du machine learning ont aujourdhui russi rassembler en leur sein des systmes
dont les objectifs peuvent tre aussi divers que :
extraire une connaissance trop complexe pour pouvoir tre dcrite par un expert ;
aider lexpert en lui apportant une connaissance simplifie ou non du domaine ;
inversement, pouvoir intgrer une connaissance experte un domaine ;
tre capable, par un apprentissage incrmental, de restituer le mcanisme sous-jacent
lobjet modlis ;
offrir un formalisme universel afin de faciliter la transmission de la connaissance acquise ;
...
Le domaine du machine learning a considrablement volu depuis le milieu du XXe sicle,
aussi bien travers les modles, depuis les champs de Markov cachs jusquaux machines
15

CHAPITRE 1. INTRODUCTION

vecteurs de support, qu travers ses nombreuses applications allant de lapplication industrielle et commerciale jusquaux applications militaires, laide la vie courante sous forme
lectronique ou encore le diagnostic mdical.
Conus pour pouvoir prendre en charge les problmes comportant la notion dincertitude,
les rseaux baysiens apportent la fois une interface intuitive sous la forme dun graphe
orient et un ensemble de mthodes permettant dexploiter au mieux la connaissance extraite
quils modlisent. Par consquents, les rseaux baysiens se sont peu peu imposs parmi
les diffrents modles probabilistes existants. Si les rseaux baysiens ont t connus principalement grce aux travaux de Judea Pearl [Pearl, 1988] et Michael Jordan [Jordan, 1998], les
premires bauches de ces modles remontent au dbut du XXe sicle avec les travaux de S.
Wright [Wright, 1921].
De toutes les problmatiques gravitant autour des rseaux baysiens, la dtermination du
modle mme est la plus cruciale et la plus tudie. Si la dtermination complte dun rseau
baysien ou de tout modle en gnral par un expert parat tre la solution la plus simple, il
en est hlas autrement. Dune part, une telle dtermination est coteuse en temps et en moyens.
Il est rare de pouvoir promptement dterminer un modle fiable dun domaine constitu de
nombreuses variables. Dautre part, le modle obtenu par apprentissage constitue lui-mme,
dans certains cas, la solution recherche. On peut ainsi souhaiter dterminer les interactions
entre diffrents allles dun gne et donc, partir dune base dexemples, chercher le modle
refltant au mieux ces relations. Dans ce cas, la rponse (le modle) est partie intgrante du
problme et un expert ne pourrait rpondre au besoin.
Diverses mthodologies ont t dveloppes dans le but de permettre un apprentissage
automatique des constituants dun rseau baysien : mthodes dterminant des relations probabilistes partir de tests dindpendance statistique, mthodes lisant le meilleur modle
partir dun ensemble de candidats ou encore recherche de la meilleure classe dquivalence.
En loccurrence, un type populaire dheuristique dapprentissage pouvant se prter un tel
exercice est lensemble des mthodes dites volutionnaires et plus particulirement les algorithmes gntiques. Issus, dans leur forme actuelle, des travaux de J. H. Holland [Holland, 1975]
dans les annes soixante-dix, les algorithmes gntiques partagent avec les rseaux baysiens
un facteur dattrait non ngligeable en ce que leur fonctionnement est intuitif et aisment assimilable. Inspirs des thories de Darwin et de lide de slection naturelle, leur principe de
slection bas sur la qualit dun individu en fait un type dheuristique visant une performance
individuelle tout en tant capables, la diffrence dheuristiques exactes, de faire une synthse
des rsultats. Un comportement tout fait comparable aux objectifs du machine learning. Les
algorithmes gntiques font de plus, depuis un certain nombre dannes, lobjet de plusieurs
tudes visant les sortir du carcan formaliste les restreignant jusqualors un simple schma
dexploration stochastique/exploitation. Ces tudes mettent surtout en relief limportance de
la reprsentation des solutions ou la possibilit dautomatiser les paramtres de recherche de
lalgorithme.
Nous proposons ici dtudier le comportement et les performances dun tel algorithme gntique lors de lapprentissage de la structure dun rseau baysien. Nous mettrons en vidence
les qualits et les dfauts respectifs des diffrents outils et mthodes dvelopps et employs.
Comme cela est souvent le cas dans la littrature, nous nous sommes fixs pour objectif de
parvenir retrouver une structure connue partir de bases dexemples pralablement chan16 / 229

CHAPITRE 1. INTRODUCTION

tillonns. Nous avons aussi observ le comportement et les performances de rseaux baysiens
appliqus la classification dans le cadre spcifique de la reconnaissance de formes.

1.1

Problmatique et objectifs de notre travail

la lecture de la littrature, il savre que les travaux effectus sur lemploi de mthodes
volutionnaires pour lapprentissage de la structure des rseaux baysiens se sont, pour la
plupart, limits lapplication dun algorithme gntique sous sa forme canonique sur un espace pralablement restreint ou bien lespace des structures laide doprateurs eux-mmes
restreints. Lobjectif de notre travail est de dterminer, travers plusieurs approches, si les
dveloppements ultrieurs des processus volutionnaires sont mme dapporter un rel bnfice une telle approche du problme. Une premire approche, consistant en une mthode
de niching squentiel adapte, exploite les proprits de lespace des graphes reprsentants
des classes dquivalence des structures [Delaplace et al., 2007a, Delaplace et al., 2007b]. Une
volution de cette mthode, conjuguant laspect temporel des mthodes squentielles une
recherche rpartie dans lespace des solutions, applique le mme principe une population
rpartie en lots. Enfin, une autre mthode, amliorant et prcisant les premiers principes de
mutation dynamique appliqus notre problme et exposs dans [Delaplace et al., 2006], modlise une distribution de probabilits pour les diffrentes oprations de mutation applicables
aux structures volues ; distribution rvalue en fonction des rsultats observs au cours des
phases successives de mutation.

1.2

Guide de lecture

Dans un premier temps, travers ltat de lart, nous aborderons le thme des rseaux
baysiens. Nous prsenterons les caractristiques de cette modlisation avant de voir quelles
sont les principales mthodes dapprentissage des paramtres avant daborder les mthodes
existantes dapprentissage des paramtres dun rseau baysien partir dune base de cas.
Dans une deuxime partie, nous prsenterons les diffrentes stratgies dveloppes dans le
cadre de nos travaux. Nous introduirons une adaptation des techniques de niching squentielles
lapprentissage de structure ainsi quune extension de cette mthode par une distribution des
individus dans lespace. Dans le chapitre suivant, une mthode permettant une adaptation de
loprateur de mutation en fonction des rsultats prcdemment obtenus sera prsente. Les
exprimentations et rsultats obtenus laide de ces mthodes ainsi quun comparatif avec les
principales mthodes de recherche de structure par valuation existantes seront prsentes dans
le chapitre 8. Enfin, nous prsenterons une application des rseaux baysiens la reconnaissance
de formes et plus particulirement la segmentation de liris sur des photographies dil
humain.
Nous terminerons ce document par une discussion autour des rsultats de nos mthodes en
dtaillant les conclusions que nous avons pu tirer de nos recherches et exprimentations.
En fin de document, outre la bibliographie regroupant les diffrentes rfrences, le lecteur
pourra trouver une annexe contenant les principaux rappels quant certaines notions em17 / 229

CHAPITRE 1. INTRODUCTION

ployes dans nos travaux. Parmi celles-ci se trouvent quelques notions de probabilits, une
description de certaines techniques de caractrisation de textures employes dans le chapitre
ddi la classification ainsi que les rsultats de tests que nous avons effectus dans le cadre
du paramtrage de nos algorithmes.

18 / 229

Notations
Notations gnrales
Rseau baysien, B = (G, ).
Indiffremment, variable alatoire ou sommet associ dans un graphe.
Dimension de la variable Xi .
ke instanciation de la variable alatoire Xi , k 1 . . . ri .
Liste des ri instanciations de Xi dans D.
ke lment de Vi .
Ensemble de n variables alatoires {X1 , X2 , . . . Xn }.
Base de cas issus du domaine U, constitue de N cas.
Ensemble des paramtres dun rseau baysien B.
Ensemble des paramtres de la variable Xi .
Paramtres de la variable Xi lorsque i = ij et Xi = xki .
Valeur prise par la variable Xi dans le le cas de la base D.
Ensemble des sommets parents du sommet Xi dans un graphe orient
G.
ij
je instanciation de i .
Q
qi
Nombre dinstanciations distinctes de i , qi = rh , h : Xh i .
Nijk
Nombre de cas, dans la base D, o Xi = xki alors que i = i j .
Gi G j
Relation dquivalence au sens de Markov entre les structures Gi et G j
Notations probabilistes
P
Mesure de probabilits
(. y .)
Relation dindpendance marginale.
(. y .|.)
Relation dindpendance conditionnelle.
Notations graphiques
G
Graphe orient sans circuit constitu de n sommets {X1 , X2 , . . . , Xn }.
V
Ensemble des n sommets {X1 , X2 , . . . , Xn } dun graphe G.
E
Ensemble des arcs dun graphe orient G.
Ad jG (X)
Ensemble des sommets de G directement relis au sommet X.
XY
Les sommets X et Y sont relis par une arte.
XY
Les sommets X et Y sont relis par un arc allant de X vers Y.
(. d .|.)
Relation de d-sparation dans un graphe G.
SepSetG (X, Y) Ensemble de sommets d-sparant les sommets X et Y dans le graphe G
B
Xi
ri
xki
Vi
vik
U
D

i
ijk
(l)
Di
i

19

Abrviations
Les abrviations employes :
Notation
GOSC
GPOSC
GE
PAG
PAG
EDA
EP
ES
GP

Dfinition
Graphe Orient Sans Circuit.
Graphe Partiellement Orient Sans Circuit.
Graphe Essentiel.
Partial Directed Acyclic Graph : graphe sans circuit partiellement orient.
Partial Ancestral Graph : Graphe complet partiellement ancestral.
Estimation of Distribution Algorithm : algorithme estimation de densit.
Evolution Programming : programmation volutionnaire.
Evolution Strategies : stratgies dvolution.
Genetic Programming : programmation gntique.

20

Premire partie

tat de lart

21

Chapitre 2

Rseaux baysiens
travers ce chapitre, nous allons prsenter ce que sont les rseaux baysiens, leur utilit
et quelles sont les proprits fondamentales qui en font une modlisation particulirement
avantageuse. Le sujet tant trs tendu, nous ne saurions le traiter exhaustivement. Nous
pouvons nanmoins recommander plusieurs ouvrages au lecteur souhaitant approfondir le
sujet. Bien entendu, louvrage de rfrence demeure celui de J. Pearl [Pearl, 1988] qui est
lorigine du formalisme tel que nous le connaissons aujourdhui. [Charniak, 1991] ou le livre
de P. Nam et al [Nam et al., 2004] fournissent tous deux une trs bonne introduction au sujet.
Enfin dautres ouvrages reconnus traitent des rseaux baysiens ou des modles graphiques en
gnral : [Lauritzen, 1998, Jordan, 2004, Pearl, 2000].

2.1

Introduction

Dans le cadre de la thorie des probabilits, il est frquent de chercher modliser une distribution de probabilits jointe P sur un domaine de variables alatoires U = {X1 , X2 , . . . Xn }. La
connaissance de cette distribution de probabilits permet de calculer la probabilit de chaque
combinaison dinstances distinctes des variables de U. Ceci permettant, tant donn la connaissance des valeurs de certaines variables, de pouvoir calculer la probabilit de diffrents vnements dont les valeurs sont inconnues.
Les rseaux baysiens font partie dune branche spcifique de la famille des modles graphiques probabilistes et se prsentent sous la forme dun graphe orient sans circuit (ou GOSC)
symbolisant les diffrentes dpendances existant entre les variables reprsentes.
Un rseau baysien est dfini par les lments suivants :
un graphe orient sans circuit dont les sommets reprsentent des variables alatoires dun
domaine ;
les arcs du graphe indiquent des dpendances conditionnelles entre les sommets ;
des probabilits conditionnelles permettent de quantifier les dpendances.

23

CHAPITRE 2. RSEAUX BAYSIENS

Un exemple de rseau baysien est donn dans la figure 2.1. Il sagit dun rseau dcrivant
les relations conditionnelles existant entre :
la survenue ventuelle dun sisme ;
la diffusion dun flash radio annonant un sisme ;
le cambriolage dun difice ;
le dclenchement de lalarme de cet difice, suite un sisme ou un cambriolage ;
le fait que le central de la compagnie de scurit appelle les lieux, ou non suivant ltat de
lalarme.
chaque sommet du graphe est associe une table de probabilits permettant de dterminer
la probabilit avec laquelle la variable associe peut prendre une valeur particulire tant donn
celles prises par ses parents (sils existent).

Figure 2.1 Exemple de rseau baysien.


Nous remarquons immdiatement certaines indpendances conditionnelles : tre cambriol
ou non ne dpend pas de la survenue dun tremblement de terre (cela pourrait tre sujet dbat
mais nous admettons cette indpendance par souci de simplicit).
Un des principaux avantages du formalisme des rseaux baysiens est de permettre une
lecture facilite des indpendances conditionnelles au sein de la distribution de probabilits
modlise. La dtermination de ces indpendances permet par la suite la simplification des calculs, souvent fastidieux, ncessaires au calcul de la probabilit dune instanciation du domaine
(i.e. la probabilit jointe de ce dernier).

24 / 229

CHAPITRE 2. RSEAUX BAYSIENS

2.2

Dfinition

Un modle graphique probabiliste permet de reprsenter un ensemble de relations conditionnelles au sein dun domaine U = {X1 , X2 , . . . Xn } de variables alatoires ayant chacune leur
propre domaine de dfinition.
Une valeur dintrt est la distribution de probabilits jointe spcifiant la probabilit dapparition des diffrentes combinaisons de valeurs de variables du domaine. Cette distribution,
une fois connue, permet destimer la probabilit des valeurs dune ou plusieurs variables en
connaissant les valeurs prises par les autres variables du domaine.
Dfinition 1 Un rseau baysien B est dfini la fois qualitativement et quantitativement par un couple
(G, ) :
G est un GOSC dont les sommets correspondent aux variables (X1 , X2 , . . . Xn ) de lensemble U.
Les arcs orients de G reprsentant des dpendances directes entre ces variables.
est lensemble des paramtres du rseau. contient les paramtres i, j,k = P(Xi = xki |i = i j ),
i 1 . . . n pour chaque valeur xki pouvant tre prise par Xi et chaque configuration i j de i ,
ensemble des sommets parents de Xi dans G.
Il est noter que ladjectif baysien peut savrer trompeur. Dun point de vue baysien,
les probabilits doccurrence dun vnement, conditionnellement ou non un autre, sont
quantifies de manire subjective en dfinissant un a priori sur leur distribution. Une approche
frquentiste, quand elle, repose sur lobservation de sries dexpriences (pour plus de dtails,
se rfrer au chapitre 3). Sil est videmment possible demployer indiffremment les rseaux
baysiens dans lun ou lautre de ces cadres, le terme baysien est employ dans la dnomination du modle afin de souligner la prpondrance des axiomes relatifs aux probabilits
conditionnelles dans la dfinition et lusage de ces modles.

2.3

Proprits des rseaux baysiens

Lemploi des rseaux baysiens permet dassocier la thorie des probabilits la thorie des
graphes. Il convient ds lors de pouvoir lier les proprits graphiques de la structure G dun
rseau baysien B avec les proprits de la distribution de probabilits modlise. Lensemble
des (in)dpendances conditionnelles du domaine peut tre dtermin graphiquement partir
dun ensemble daxiomes [Pearl, 1997] et dhypothses.
La lecture des indpendances conditionnelles sur un graphe est intimement lie la notion
de sparation.
La sparation est un critre permettant de statuer si deux sous ensembles de sommets
disjoints dun graphe sont ou non spars lun de lautre tant donn un troisime sous ensemble
disjoint.
La sparation est dfinie diffremment selon le type de graphe auquel on sintresse (orient
ou non-orient notamment). Ici, nous nous limitons la dfinition de la sparation dans le cadre
des graphes orients.
25 / 229

CHAPITRE 2. RSEAUX BAYSIENS

2.3.1

Condition locale de Markov

Dfinition 2 tant donn un rseau baysien B = {G, }, toute variable Xi de B est indpendante de
lensemble Nd(Xi )/i , form de lensemble de ses non-descendants dans G privs de ses parents, tant
donn ces derniers, i.e. :
Xi G, Xi y {Nd(Xi )/i }|i
Un descendant dune variable Xi dans un graphe G est dfini comme tant un sommet
atteignable depuis Xi par un chemin orient.
Reprenons lexemple de la figure 2.1. La condition locale de Markov applique ici permet,
entre autres, daffirmer que Appel Central est indpendant de Flash Radio (qui nest ni un parent,
ni un descendant) connaissant Sisme (qui est un parent).
La condition locale de Markov permet donc de dtecter un ensemble minimal dindpendances probabilistes entre les sommets et leurs non-descendants, impliquant entre autres que
deux sommets non adjacents Xi et X j de G sont conditionnellement indpendants tant donn
un troisime sous-ensemble, contenu dans U/{Xi , X j }.
Cest lapplication de la condition locale de Markov qui nous permet dcrire la probabilit
jointe des variables du domaine sous une forme factorise :
P(X1 , X2 , . . . Xn ) =

n
Y

P(Xi |i )

(2.1)

i=1

2.3.2

d-sparation

Si, dans un GOSC, les relations entre les paires de variables sont binaires (relies ou non), la
dtermination dune indpendance conditionnelle implique gnralement trois sous ensembles
de variables.
La d-sparation est un critre permettant de dterminer les indpendances conditionnelles
modlises par un GOSC. Simplement, il sagit de dterminer si un sous-ensemble X de variables
du domaine est conditionnellement indpendant dun sous-ensemble Y tant donn un sousensemble Z.
Sil parat vident que nous faisons alors la corrlation entre la connexit et la dpendance
conditionnelle, la direction des arcs impliqus entre aussi en jeu (le d de d-sparation provenant
de directional) car nous dfinissons la notion de chemin connecteur (et inversement, de chemin bloquant). Nous allons introduire progressivement, en les illustrant, les diverses notions
ncessaires la dfinition de la d-sparation.
Nous emploierons par la suite le terme de convergence pour dsigner une configuration
particulire au sein du graphe.
Dfinition 3 (V-structure) Dans un graphe G, on appelle convergence (ou V-structure), tout triplet
{X1 , X2 , X3 } de sommets tel que
26 / 229

CHAPITRE 2. RSEAUX BAYSIENS

Dfinition 4 (Chemin) Dans un graphe G, un chemin entre deux sommets A et B de G dsigne une
srie darcs conscutifs reliant A B, quelle que soit leur orientation.
Dfinition 5 (Chemin bloquant) Dans un graphe G, un chemin entre deux sommets A et B de G est
dit bloquant sil comporte au moins une convergence de la forme X1 X2 X3 telle que X2 ne soit pas
instancie.
La dernire prcision, concernant linstanciation au sein des convergences, sera explique plus
loin dans cette section.
Notre dfinition de la d-sparation repose sur celle de sa contrapose : la d-connexion.

Sparation inconditionnelle
Soient deux variables X1 et X2 . X1 et X2 sont d-connectes sil existe un chemin non-bloquant
entre X1 et X2 .

Figure 2.2 Illustration de la sparation inconditionnelle.


Dans la figure 2.2, les sommets X1 et X3 sont d-connects de mme que les sommets X4
et X6 . En revanche, on distingue une convergence (non instancie) sur le sommet X3 . Celle-ci
implique, entre autres, que les sommets X1 et X6 ne sont pas d-connects (et par consquent,
sont d-spars).

Blocage conditionnel
Considrons un sous ensemble Z de variables alatoires dun domaine U. Si les valeurs
prises par ces variables sont connues, la distribution de probabilits, conditionnellement ce
sous-ensemble, est modifie qualitativement. Il convient alors de dfinir la d-connexion par
rapport un ensemble de conditions pouvant bloquer cette connexion.
Deux sommets X1 et X2 sont d-connects conditionnellement un sous-ensemble Z de
sommets si il existe un chemin sans convergence reliant X1 et X2 et ne passant par aucune des
variables de Z.

Figure 2.3 Illustration dun blocage conditionnel.

27 / 229

CHAPITRE 2. RSEAUX BAYSIENS

En considrant, dans la figure 2.3 que les sommets griss appartiennent au sous-ensemble
Z : X1 et X6 sont toujours d-spars mais, de plus, X1 et X3 sont d-spars par Z (en raison de
X2 ) ainsi que X4 et X6 .
Conditionnement sur les convergences
Si on observe un vnement ayant deux causes distinctes et originellement indpendantes,
ces causes deviennent dpendantes. Un exemple intuitif permettant de comprendre ce principe
est celui du lancer de deux pices. Les variables X1 et X2 reprsentent chacune le rsultat du
lancer dune des deux pices et la variable alatoire X3 vaut 1 si les deux lancers ont eu le mme
rsultat et 0 sinon. Il est alors vident que la connaissance de X3 cre une dpendance entre X1
et X2 .
Ce rsultat, aussi connu sous le nom de paradoxe de Berkson, implique un enrichissement des
deux points prcdents et plus exactement dans le cas des sommets situs sur des convergences
(deux causes communes) et leurs descendants.
Si un sommet convergent se trouvant sur le chemin appartient lensemble conditionnant
Z ou un de ses descendants dans Z, il nest plus un facteur bloquant de d-connexion.

Figure 2.4 Illustration de d-connexions et d-sparations avec conditionnement sur les variables.
Sur la figure 2.4, X1 et X3 sont d-spars par X2 Z de mme que X1 et X7 . Mais X3 et X6
sont d-connects puisque X4 a son unique descendant dans Z.
Dfinition 6 (Chemins bloqus, actifs) Soit G = {V, E}, un graphe orient sans circuit. Soit A, B
et C trois sous ensembles disjoints de V. Soit un chemin reliant un sommet de A un sommet de B.
Le chemin est dit bloqu par lensemble C si une des deux conditions suivantes est remplie :
Le chemin converge en un sommet Xi et ni Xi ni aucun de ses descendants ne sont dans C
Le chemin passe par un sommet Xi C en lequel il ny a pas de convergence
Si aucune de ces conditions nest remplie, on dit alors que le chemin est actif.
Cette dfinition permet alors de dfinir prcisment le critre de d-sparation :
Dfinition 7 (d-sparation) Soit G = {V, E}, un graphe orient sans circuit. Soit A, B et C trois sous
ensembles disjoints de V. A et B sont d-spars par C dans G (not (A G B|C)) si et seulement si tous
les chemins reliant un sommet de A un sommet de B sont bloqus par C.
Par la suite, nous emploierons la notation A G B pour indiquer que A et B sont d-spars
dans G.
28 / 229

CHAPITRE 2. RSEAUX BAYSIENS

2.3.3

Cartes dindpendance

Les rgles de la d-sparation que nous venons de voir nous ont permis de dterminer un
ensemble de relations ternaires non-explicites faisant intervenir des sous ensembles disjoints
de sommets.
Une fois les relations de sparation au sein du graphe G dtectes, nous allons chercher
qualifier G par rapport la distribution de probabilits P du domaine que nous caractrisons
par lensemble des relations dindpendances conditionnelles quelle implique.
Dfinition 8 (Carte dindpendance) Soit P une distribution de probabilits sur un ensemble de variables alatoires U ; G, un GOSC compos sur U et X, Y, Z U, et (. yP .|.) une relation dindpendance
conditionnelle vrifie par P.
G est une carte dindpendance (ou I-map) de P sil vrifie :
X G Y|Z X yP Y|Z
G est une carte de dpendance (ou D-map) de P sil vrifie :
X yP Y|Z X G Y|Z
G est une carte parfaite (ou P-map) de P sil vrifie :
X G Y|Z X yP Y|Z
A noter que dans le cas dune I-map, nous admettons la possibilit quil existe des indpendances conditionnelles de P qui ne sont pas reprsentes dans G. Un graphe entirement
connect est alors une I-map de toutes les lois de probabilits sur U.
Cette notion peut tre illustre trs simplement par lexemple suivant : considrons la distribution de probabilits P dfinie sur deux variables X et Y et dcrite dans la figure 2.5. Les
variables X et Y sont indpendantes selon la distribution P.

Figure 2.5 Distribution de probabilits P dfinie sur deux variables X et Y.


Cependant, les graphes G1 et G2 de la figure 2.6 sont tous les deux des I-maps des distributions de probabilits associes : X et Y sont bien indpendantes selon G1 et lensemble des
indpendances conditionnelles reprsentes par G2 est lensemble vide, ce qui respecte bien la
dfinition dun I-map.
Par dfinition [Verma et Pearl, 1990], un rseau baysien est toujours une I-map de la distribution quil reprsente. Linconvnient de cette dfinition est quun GOSC entirement connect
est lui aussi une I-map de la distribution encode (puisquil nencode aucune indpendance).
29 / 229

CHAPITRE 2. RSEAUX BAYSIENS

Figure 2.6 Exemple de cartes dindpendances.


Dfinition 9 (Carte dindpendances minimale) G est une carte dindpendances minimale de la
distribution de probabilits P si aucun graphe partiel G0 de G nest une carte dindpendances de P.
Concrtement, cette dfinition signifie quaucun arc de G ne peut tre retir sans violer la
proprit des cartes dindpendances.
Thorme 1 Un graphe G est une I-map de la distribution de probabilits P si et seulement si P peut se
factoriser selon G :
n
Y
P(X1 , X2 , . . . Xn ) =
P(Xi |i ), Xi U
i=1

2.3.4

Factorisation de la probabilit jointe

Les diffrentes proprits prcdemment nonces ont pour finalit de permettre lexploitation de linterface graphique du rseau baysien afin de simplifier le calcul de la probabilit
jointe.

Figure 2.7 Exemple de rseau baysien.


Soit le rseau baysien de la figure 2.7. Ce rseau est constitu de 6 variables binaires ; le
calcul de la probabilit jointe de ces 6 variables requerrait 26 1 = 63 paramtres indpendants.
30 / 229

CHAPITRE 2. RSEAUX BAYSIENS

Nous nous sommes restreints ici un exemple simple, il va de soi que dans le cadre dune
modlisation plus raliste, la fois le nombre de variables et les cardinalits de celles-ci seraient
beaucoup plus leves.
Lquation du thorme 1, applique au rseau de la figure 2.7 nous donne alors la dcomposition suivante :
P(X1 , X2 , . . . , X6 ) = P(X1 ) P(X2 |X1 ) P(X3 |X1 ) P(X4 |X2 ) P(X5 |X2 , X3 ) P(X6 |X3 )
Ici, le calcul de la probabilit jointe ne ncessite plus que le calcul de 1 + 2 + 2 + 2 + 4 + 2 = 13
entres indpendantes. Lconomie en calculs devient bien sr dautant plus impressionnante
que le nombre de variables du rseau concern est grand (et le graphe parcimonieux).

2.4

Causalit dans les rseaux baysiens

Jusqu prsent, nous avons dfini et employ les rseaux baysiens conjointement au terme
de causalit en raison de limportance de lorientation de la structure du modle dans son
utilisation pratique. Or, il est important de pouvoir distinguer un modle statistique et un
modle causal.
Les rseaux baysiens peuvent tre de deux types : causaux ou non-causaux. Un rseau
baysien causal modlise expressment un ensemble de relations de type cause effet : chaque
sommet non-racine du graphe est la consquence directe de ses parents dans le graphe. Un
rseau non causal, en revanche, modlise des relations de dpendance probabilistes entre les
variables : un arc allant dun sommet X vers un sommet Y nimplique pas une relation de
causalit.
Jusquici nous avons tabli une dfinition formelle des rseaux baysiens sans nous intresser
explicitement aux mthodes dapprentissage de ces derniers. Or, nous verrons par la suite que les
mthodes dapprentissage usuelles, employant une base dapprentissage constitue dexemples
dinstances du domaine, ne permettent dapprendre la structure dun rseau baysien qu sa
classe dquivalence au sens de Markov prs (cf. section 4.4.4) ; dans le cas o le graphe est
causalement suffisant (cf. section 4.1.1), seuls les arcs orients au sein du graphe partiellement
orient servant de reprsentant la classe dquivalence du graphe reprsentent des causalits
effectivement dtermines par linformation contenue dans la base dapprentissage.
La dtermination des diffrents liens de causalit dans un graphe non-causal peut alors se
faire de deux manires. Soit par lintervention dun expert qui incombe la tche de reprsenter
les diffrents liens (et donc orientation des arcs dans la structure), soit par lobservation des
consquences quont des interventions locales en certaines variables sur le domaine modlis.
Lintrt principal de la causalit entre dans le cadre de linfrence causale qui a pour objectif
de pouvoir mesurer leffet dune intervention sur une ou plusieurs variables sur la probabilit
dun ensemble dautres variables. Linfrence causale et la notion de causalit en gnral sont
toujours sujets discussion aujourdhui, tant sur le plan mathmatique que sur le plan philosophique. Le lecteur pourra nanmoins se reporter la lecture de [Spirtes et al., 1999, Pearl, 2000,
Meganck et al., 2006a, Meganck et al., 2006b, Murphy, 2003] pour plus de dtails sur les rseaux
baysiens causaux ainsi que sur leur apprentissage.
31 / 229

CHAPITRE 2. RSEAUX BAYSIENS

Dans le cadre de nos travaux, nous nous restreignons lapprentissage des structures partir
de bases dapprentissage statiques et donc lapprentissage de rseaux baysiens non causaux.

2.5

Rseaux baysiens densits de probabilits continues

Les rseaux baysiens, tels que prsents dans ce travail de thse, comportent des variables prenant leurs valeurs dans des espaces discrets. Bien quil soit rpandu de travailler
sur de tels modles, essentiellement pour des raisons pratiques, il est tout fait possible
demployer des rseaux baysiens dans le cas o les variables modlises sont continues.
Ainsi, [Lauritzen et Wermuth, 1989] ont propos des rseaux baysiens dont les variables prsentent une densit de probabilits correspondant une distribution gaussienne. Dautres
modlisations permettent de gnraliser la densit modlise en lapproximant par un mlange de gaussiennes [Lerner et al., 2001] ou encore des densits exponentielles tronques
[Cobb et Shenoy, 2006].

2.6

Infrence probabiliste

Les rseaux baysiens permettent la dcomposition de la probabilit jointe des variables


du domaine quils modlisent. Cette dernire proprit permet de pouvoir dduire la valeur
prise par une ou plusieurs variables du domaine partir de lobservation dautres variables
[Heckerman et al., 1995b].
Commenons par dfinir (O, H), une partition de lensemble des variables X. H reprsente
lespace des hypothses. Une hypothse h reprsente une certaine instanciation des variables
de H. O reprsente, comparativement, les instanciations des variables de O, valeurs connues au
moment de linfrence.
Linfrence probabiliste revient couramment calculer lun des deux termes suivants :
Probabilits marginales
P(o) =

P(o, h0 )

h0 H

Probabilits a priori maximales


Pmax (o) = maxh P(o, h)
Il se peut que lon cherche aussi, pour une instance de h, la valeur de sa probabilit conditionnelle selon o :
P(o, h)
P(h|o) = P
0
h0 H P(o, h )
Pour rsumer, linfrence probabiliste revient calculer, tant donn le modle et un ensemble dobservations (on parle, dans la littrature anglo-saxonne, de "preuve" ou evidence), la
probabilit pour une instanciation suppose des variables demeurant ou bien quelle instanciation de celles-ci est la plus probable.
32 / 229

CHAPITRE 2. RSEAUX BAYSIENS

Les mthodes dinfrence peuvent se rpartir en deux groupes : les mthodes exactes et les
mthodes approches.
Parmi les mthodes exactes, lalgorithme du message passing (passage de messages) [Pearl, 1988]
restreint aux graphes formant un arbre ou encore du junction tree (arbre de jonction)
[Jensen et al., 1990] figurent parmi les plus usits. Ces algorithmes sont expliqus en dtail
dans [Pearl, 1997] et [Huang et Darwiche, 1996]. Dautres possibilits sont llimination de variables [Dechter, 1997] ou les mthodes symboliques permettant de limiter les calculs dans les
cas les plus complexes [Li et DAmbrosio, 1994].
Les mthodes exactes cherchent limiter la quantit de calculs ncessaires en traitant les
variables de manire locale ; en les regroupant en cliques, par exemple. Nanmoins, cette simplification rencontre vite ses limites dans le cas de rseaux trop complexes pour tre traits de
la sorte. On peut alors dcider de continuer traiter le problme de manire exacte mais en
ne travaillant que sur une partie du rseau. Parmi les mthodes approches, les plus connues
sont celles bases sur le principe de Monte Carlo Markov Chain ou MCMC [MacKay, 1998]. Les
mthodes dchantillonage de Gibbs ou de Metropolis-Hastings [Lauritzen, 1998] peuvent ainsi
tre appliques aux rseaux baysiens. Lapproximation peut aussi soprer en se limitant un
sous ensemble de variables [Draper et Hanks, 1994] ou bien en valuant les sommations impliques durant une infrence de type exact [DAmbrosio, 1993]. On peut, de mme, limiter
le rseau sur lequel a lieu linfrence en ignorant les dpendances les plus faibles en son sein
[Kjrulff, 1994].
Enfin, les mthodes dites variationnelles cherchent, quant elles, dterminer le maximum de
vraisemblance en approximant la probabilit a posteriori [Jaakkola et Jordan, 1999, Beal, 2003].
Linfrence, exacte ou approche, a t montre comme tant un problme NP-difficile
[Cooper, 1987, Dagum et Luby, 1993] et le sujet est prsent plus en dtail dans le livre de
F. Jensen [Jensen, 1996]. De mme, louvrage de M. Jordan [Jordan, 1998] regroupe une srie
de tutoriaux et darticles sur les rseaux baysiens mais aussi sur les modles graphiques en
gnral.

2.7

Exemples dapplication de rseaux baysiens

Les applications des rseaux baysiens sattachent essentiellement la prdiction, au diagnostic et lassistance la dcision :
Filtrage du pourriel concept initialis par [Sahami et al., 1998]. Lutilisation des rseaux baysiens pour le filtrage du courrier indsirable sest popularise et figure parmi les applications les plus russies et populaires des rseaux baysiens.
Assistance aux handicaps PAM-AID [Lacey et MacNamara, 2000] est un systme dassistance
au dplacement en intrieur destination des personnes mobilit rduite. Concrtement,
le systme consiste en un dambulateur motoris pouvant dtecter les obstacles (murs,
objets,...) lors du dplacement.
Lassistance au pilotage Cest le cas pour la NASA avec le systme VISA servant au diagnostic
des systmes de propulsion.
33 / 229

CHAPITRE 2. RSEAUX BAYSIENS

Dcisions tactiques SAIP (Semi-Automated IMINT Processing) [Fennell et Wishner, 1998] est un
programme du DARPA (Defense Advanced Research Projects Agency) visant fournir au
commandement militaire une information tactique partir dimages haute dfinition.
Des systmes tels que les rseaux baysiens interviennent dans le pr-traitement des
images afin de dterminer les priorits tactiques des lments sur le terrain.
Aide linteraction Plus rcent, le programme Genoa II [Allanach et al., 2004], issu lui aussi de
la recherche au DARPA, a pour objectif lamlioration des interactions homme-machine
dans le cadre de la lutte anti-terroriste et emploie ces fins divers outils bioinformatiques
ainsi que la modlisation baysienne.
valuation du risque EDF emploie les rseaux baysiens afin de prvoir les risques lis la
disponibilit des sources froides (i.e. le dbit fluvial) pour les centrales nuclaires situes
le long de la Loire.
tudes de march Les rseaux baysiens, en conjonction avec des tudes expertes, peuvent
permettre de mieux cerner les besoins et impratifs commerciaux dune entreprise en
prcisant, par exemple, le cur de cible dune agence bancaire [Jaronski et al., 2001].
Les exemples dapplication sont trs nombreux et lon ne saurait en faire une liste exhaustive.
Mais lintrt grandissant, depuis le milieu des annes quatre-vingt dix, dont ont fait preuve les
industriels pour les modles baysiens ne fait que crotre en particulier grce la gnralisation
de processus dinteraction entre lhomme et la machine pour acclrer les prises de dcision.
Parmi les avantages proposs par les rseaux baysiens, nous pouvons aussi mentionner leur
capacit, en conjugaison avec les mthodes statistiques dites baysiennes (cest--dire prenant
en compte un a priori sur la distribution de probabilits modlise) conjuguer la connaissance extraite de la base de connaissance avec une connaissance pralable du domaine. Cette
connaissance, subjective, est frquemment le produit de lavis dun expert humain sur le sujet.
Cette proprit est apprciable lorsque lon sait que dans lapplication pratique, lacquisition
de donnes est non seulement coteuse en moyens et en temps mais, hlas, dbouche souvent
sur une base de connaissance de taille rduite.
Nous verrons de plus, dans les chapitres suivants, que lapprentissage des rseaux baysiens
peut aussi seffectuer partir de bases de donnes incompltes (i.e. bases pour lesquelles les
valeurs prises par certaines variables du domaine sont inconnues pour certaines instances).Cette
possibilit est particulirement intressante quand le processus de fouille de donnes ne peut
systmatiquement retourner lensemble des valeurs prises par les diffrentes composantes du
modle ( cause de capteurs dfectueux, par exemple).

2.8

Conclusion

Nous avons jusquici abord les fondements thoriques ainsi que les applications des rseaux
baysiens. Dans la suite, nous nous intressons lapprentissage. Lapprentissage dun rseau
baysien peut se dcomposer en deux phases. Dans un premier temps, la structure du rseau
est dtermine, soit par un expert, soit de manire automatique partir dune base de cas issus
du domaine modlis (le plus souvent). Enfin, les paramtres du rseau sont leur tour
dtermins, ici aussi par un expert ou bien par le biais dun algorithme.
34 / 229

CHAPITRE 2. RSEAUX BAYSIENS

Nos travaux concernent lapprentissage de la structure, cest cet aspect de lapprentissage


que nous allons le plus dvelopper. Cependant, il nous parat indispensable de prsenter les
bases essentielles de lapprentissage des paramtres sans lesquels le rseau ne saurait tre
entirement dtermin.

35 / 229

Chapitre 3

Apprentissage des paramtres


La dmarche usuelle, lors de llaboration automatique dun rseau baysien, consiste
dabord par infrer la structure du rseau partir dune base de donnes puis lapprentissage des paramtres de ce rseau.
Dans ce chapitre, nous allons nous intresser lapprentissage des paramtres.
Nous dcrivons dans cette partie les mthodes les plus employes pour cette tche.

3.1

Gnralits

Deux principaux cas de figure peuvent se prsenter :


le cas o lensemble des donnes contenues dans D est observ ;
celui o certaines valeurs, pour une instanciation D(l) donne, ne sont pas connues.
Auparavant, plusieurs hypothses doivent tre pralablement faites afin de pouvoir effectuer
les calculs ncessaires [Heckerman et Geiger, 1994].
Indpendance des chantillons : les lments de la base D sont indpendants, identiquement
distribus ;
Indpendance des paramtres : pour toute structure G, dune part les paramtres i associs
au nud Xi sont indpendants des paramtres associs aux autres nuds et dautre part,
les paramtres ij associs Xi suivant une instanciation i j des parents de Xi dans G sont
indpendants des paramtres associs aux autres instanciations de i ;
Modularit paramtrique : si un nud prsente les mmes parents dans deux structures distinctes G1 et G2 , alors la densit de distribution des paramtres de Xi est la mme pour les
deux deux modles dfinis par G1 et G2 ;
Une autre hypothse, courante, est de supposer que les paramtres de chaque nud suivent
des densits de probabilits admettant des paramtres de Dirichlet. Les diffrents paramtres
i admettent alors une densit de probabilit exponentielle de Dirichlet dexposants 1 , . . . , r

37

CHAPITRE 3. APPRENTISSAGE DES PARAMTRES

et leur probabilit est gale :


P

i
r
Y
ri=1
i

i 1
P(i |1 , . . . , n ) = Qri
(
)
i
i=1
i=1

(3.1)

Ici, reprsente la fonction Gamma dEuler : (x + 1) = x(x) et (1) = 1 dans R.


Cette hypothse sur la densit de probabilits des paramtres vise simplifier les calculs des
paramtres. La premire hypothse revient en effet dire que les chantillons de la base D est
un chantillon dune loi multinomiale. Or, la densit de probabilit de Dirichlet est la conjugue
de la loi multinomiale. Ceci permet de conserver la fois les paramtres et leurs densits dans
la mme famille de fonctions.
Nous allons voir que dans les deux cas, en prsence de donnes compltes ou incompltes,
nous avons le choix entre un apprentissage uniquement bas sur les informations extraites de
la base dapprentissage du modle et un apprentissage permettant de mler ces informations
une ventuelle connaissance a priori que nous pourrions avoir sur le domaine.

3.2

Base de donnes complte

Ici, la base dapprentissage D ne contient pas de cas o viendrait manquer une ou plusieurs
observations.
Lapprentissage des paramtres dun rseau baysien peut ici se faire suivant deux approches :
Lapproche statistique (ou frquentiste)
Lapproche baysienne (ou subjective)
Dans les deux cas, lensemble des paramtres est estim partir de la formule de Bayes :
P(|D) =

P(D|) P()
.
P(D)

(3.2)

Cette quation peut aussi scrire sous la forme :


Probabilit a posteriori =

Vraisemblance Probabilit a priori


.
Vraisemblance marginale

La probabilit a posteriori de lensemble des paramtres connaissant la base de cas D est


fonction de la vraisemblance de cet ensemble par rapport D, de la probabilit a priori de (i.e.
la connaissance a priori que nous pouvons avoir sur le domaine) et de la vraisemblance de D.
Pour un ensemble de cas D(l) , l 1, . . . N indpendants et identiquement distribus, la vraisemblance des donnes D tant donn les paramtres estims scrit :
P(D|) =

N
Y

p(D(l) |).

(3.3)

l=1

38 / 229

CHAPITRE 3. APPRENTISSAGE DES PARAMTRES

Enfin, reste la valeur de la probabilit a priori P() dont le calcul constitue la principale
diffrence entre lapproche statistique et lapproche baysienne, comme nous allons le voir
dans la suite.

3.2.1

Approche frquentiste

Les mthodes frquentistes utilisent ds lors diffrents estimateurs dont le but est de parvenir
dterminer la meilleure approximation de la valeur des diffrents paramtres du rseau.
Un de ces estimateurs est celui du maximum de vraisemblance. Pour chaque variable Xi ,
la probabilit dapparition de lvnement xi est directement proportionnelle sa frquence
dapparition dans la base dapprentissage.
Soit Nijk le nombre doccurrences simultanes dans la base de Xi = xk et i = i j o k 1, . . . ri
et j 1, . . . qi .
i = xk |i = i j ) = MV =
La probabilit estime est alors note P(X
i jk

N
P i jk
k Ni jk

La log-vraisemblance (le logarithme de la vraisemblance) est souvent employe pour des


raisons pratiques (manipulation de valeurs numriques trs faibles).
LL(|D) = logP(D|) =

N
X

logP(Dl |)

l=1

Nous cherchons alors, pour un paramtre i jk = P(Xi = xk |i = i j ), la valeur MV


permettant
i jk
de maximiser localement la vraisemblance, cest--dire en chaque Xi :
MV
= argMax i jk LL( i jk |D)
ijk
Avec Nijk , le nombre doccurences simultanes dans D de Xi = xk et i = i j .
Dmonstration 1 ([Nam et al., 2004]) La vraisemblance L(D(l) |) dune instance D(l) issue de la
(l)
(l)
(l)
base dapprentissage D, o D(l) = {X1 , X2 , . . . Xn }, en connaissance des paramtres du rseau, scrit :
(l)

(l)

(l)

L(D(l) , ) = P(X1 , X2 , . . . Xn )
n
Y
(l) (l)
=
P(Xi |i )
=

i=1
Y

(3.4)
(3.5)

(l)

i jk

(3.6)

i
(l)

o ijk indexe implicitement les valeurs spcifiques prises respectivement par Xi et i pour D(l) .
Nous supposons que les exemples de la base sont indpendants et identiquement distribus, ce qui
nous permet dcrire la vraisemblance pour lensemble de la base D :
L(D, ) =

n Y
N
Y
i=1 l=1

(l)
i jk

qi Y
ri
n Y
Y

Ni jk

i jk

(3.7)

i=1 j=1 k=1

39 / 229

CHAPITRE 3. APPRENTISSAGE DES PARAMTRES

la log-vraisemblance scrivant alors :


LL(, D) =

qi X
ri
n X
X

Ni jk log(i jk )

i=1 j=1 k=1

La vraisemblance et la log-vraisemblance atteignent leur maximum au mme point en lequel sannule


donc la drive de LL(, D).
Nous rcrivons la log-vraisemblance :

qi X
n X
X

ri 1 

LL(, D) =
Ni jk log(i jk ) + Ni,j,ri log(i, j,ri )

i=1 j=1

k=1

qi X
ri 1
n X
X
X

ri 1 

1
LL(, D) =
N
log(
)
+
N
log

i,
j,r
i
jk
i
jk
i
jk
i

i=1 j=1

k=1

k=1

Les drives partielles par rapport aux diffrents i jk valent


Ni,j,ri
LL(, D) Ni jk
=

P
i jk 1 ri 1 i jk
ijk
k=1
La drive de la log-vraisemblance sannule donc quand chaque i jk vrifie :
Ni jk
Ni, j,ri
=
P
i 1
i jk
1 rk=1
i jk
soit

Pri
ri
X
N
Ni, j,1
Ni, j,1 Ni, j,1
k=1 i jk
=
= ... =
= Pr
=
Ni jk
i
i,j,1
i,j,1
i,j,1

k=1
k=1 i jk

Au final, nous obtenons bien


Ni jk
ijk = Pri
,
N
k=1 i jk

k {1, . . . , ri }

Si lapproche frquentiste parat naturelle, elle prsente nanmoins un inconvnient majeur


dans le cas dune base dapprentissage de taille limite ; si une instanciation particulire des
variables du domaine peut exister, avec une probabilit faible mais non nulle, mais quelle nest
pas prsente dans la base dapprentissage, alors daprs lapproche frquentiste la probabilit
de cette configuration est nulle.
Or, le fait quune instanciation nait pas t observe ne signifie pas ncessairement quelle
ait une probabilit nulle. Afin dy circonvenir, il serait bon de pouvoir exprimer et quantifier
la possibilit de la survenance dun tel vnement. Cest cet objectif que remplit lapproche
baysienne.
40 / 229

CHAPITRE 3. APPRENTISSAGE DES PARAMTRES

3.2.2

Approche baysienne

Le principe de cette approche revient traiter le paramtre i jk comme une variable alatoire
dote dune densit de probabilit sur lintervalle [0,1].
Si les paramtres i admettent une densit de probabilit exponentielle de Dirichlet (cf.
equation 3.1) et que la distribution de D suit une loi multinomiale, nous pouvons exprimer la
probabilit a posteriori des paramtres :
qi Y
ri
n Y
Y
(i jk )i jk 1
P()

(3.8)

i=1 j=1 k=1

Nous savons dj que :


la vraisemblance L(D|) est gale (quation 3.7) :
qi Y
ri
n Y
Y
(i jk )Ni jk
i=1 j=1 k=1

dautre part :
P(|D) =

P(D|) P()
P(D)

Nous pouvons ds lors crire :


P(|D)

qi Y
ri
n Y
Y

(i jk )Ni jk +i jk 1

(3.9)

i=1 j=1 k=1

De la mme manire que dans le cas du maximum de vraisemblance abord dans lapproche
frquentiste, nous pouvons alors rechercher les paramtres non plus selon le maximum de
vraisemblance mais selon le maximum a posteriori (MAP). En effet, dans le cadre de lapproche
baysienne, le fait demployer des a priori sur les paramtres du modle par lemploi de
coefficients ijk sous entend que les donnes ont dj t observes. La dtermination des
paramtres ne se fait alors plus selon les occurrences des donnes (par vraisemblance) mais
conditionnellement celles-ci (approche a posteriori).
i = xk |i = i j ) = P
MAP
= P(X
ijk

Ni jk + i jk 1
k (Ni jk

+ i jk 1)

(3.10)

Une autre approche consiste non plus rechercher le maximum a posteriori mais son esprance
(EAP) :
Ni jk + i jk

P
EAP
(3.11)
ijk = P(Xi = xk |i = i j ) =
k (Ni jk + i jk )
La diffrence entre ces deux dernires approches consiste essentiellement dfinir si lon
souhaite procder la slection dun modle auquel cas on cherche le modle maximisant
la probabilit a posteriori ou bien estimer un modle le plus informatif possible quant aux
diffrentes hypothses reprsentes au sein dune quantit de donnes limite si on dsire
alors un modle prdictif .
41 / 229

CHAPITRE 3. APPRENTISSAGE DES PARAMTRES

3.2.3

Diffrences

Les partisans de lapproche frquentiste reprochent gnralement la philosophie baysienne dattribuer des estimations P(|D) diffrentes suivant des probabilits a priori P()
diffrentes, introduisant par l une subjectivit forte. Lapproche frquentiste considre que
lensemble des paramtres a une valeur fixe et ne suit pas une distribution de probabilit.
Les mthodes dapprentissage des paramtres que nous venons de dcrire ne sont valables
que si lensemble des valeurs de la base de donnes D est observable. Dans le cas contraire, il
est ncessaire de faire appel des mthodes permettant destimer les valeurs des observations
manquantes. Ce sont ces mthodes que nous allons voquer dans la section suivante.

3.3

Base de donnes incomplte

Il peut arriver quau sein de la base dapprentissage du modle, certaines valeurs soient
manquantes. Cette situation peut arriver dans le cas o, par exemple, un capteur de donnes
est tomb en panne ou encore lorsque le relev de valeurs savre trop coteux pour tre
systmatiquement appliqu.
Les approches vues jusquici ne sont plus, alors, applicables directement ( moins de ne
considrer pour lapprentissage que les instances compltes de la base). Si la solution la plus
simple consiste ignorer les instances incompltes de la base de donnes pour lapprentissage,
il est plus courant demployer une mthode revenant estimer les donnes manquantes
partir des donnes connues. Ce principe est fond sur celui de lalgorithme EM (Expectation
Maximisation ou Esprance Maximisation) propos dans [Dempster et al., 1977] pour tre par la
suite appliqu lapprentissage des paramtres dun rseau baysien dans [Lauritzen, 1995] et
[Heckerman, 1995].
De la mme manire que pour lapprentissage partir de donnes compltes, lalgorithme
EM peut tre appliqu selon une approche frquentiste ou baysienne.

3.3.1

Approche frquentiste

Soit :
(l)
DO = {DO }l=1,...N , lensemble des instances de D pour lesquelles lensemble des valeurs
prises par les variables du domaine sont observes.
(t)
(t) , lensemble des paramtres {i jk } des paramtres du rseau baysien B, litration t.
Lalgorithme EM commence par estimer les valeurs des donnes manquantes (esprance)
avant de les maximiser de la mme manire que dans le cas complet (maximisation).

42 / 229

CHAPITRE 3. APPRENTISSAGE DES PARAMTRES

Algorithme 1 Algorithme EM pour lapprentissage des paramtres dun rseau baysien


1: t 0
(0)

2:

ijk p > 0 (alatoire)

3:

Tant que |ijk

(t+1)

(t)

ijk |  Faire

1e tape : Esprance

4:

E(Nijk ) =

N
X

(l)

(t)

P(Xi = xk |i = i j , DO , i jk )

l=1

2e tape : Maximisation

5:

E(Ni jk )
(t)
i jk = P
k E(Ni jk )
6:

Fin Tant que

3.3.2

Approche baysienne

Dans ce cas, nous employons des a priori de Dirichlet sur les paramtres. La diffrence avec
le traitement frquentiste rside dans la 2e tape de lalgorithme 1 qui devient :
E(Ni jk ) + i jk
(t)
ijk = P
k E(Ni jk ) + i jk

(3.12)

43 / 229

Chapitre 4

Apprentissage de structures
Cette partie constitue une introduction gnrale la problmatique de lapprentissage de
la structure dun rseau baysien. Les algorithmes que nous dcrivons ici ont pour objectif de
trouver le rseau encodant le mieux la distribution de probabilit implicite la base dapprentissage qui leur est fournie en entre. Le plan gnral de ce chapitre est celui employ dans
[Nam et al., 2004, Franois, 2006, Leray, 2006], Cependant, nous nous attardons volontairement
sur certaines descriptions de mthodes ou de modles tout en en ngligeant dautres, selon leur
rapport avec nos travaux ou avec leur comprhension.

4.1

Gnralits

La problmatique de lapprentissage de structure peut tre compare lexploration de


donnes, cest--dire lextraction dune connaissance (dans notre cas, la topologie du rseau)
partir dune base de donnes [Krause, 1999]. Si le deuxime chapitre prsentait quelques usages
des modles baysiens dtermins, nous pouvons nanmoins remarquer que dans certains cas,
la dtermination mme du modle peut constituer la problmatique rsoudre. Ainsi, dans
le cadre de la bio-informatique, les auteurs de [Yu et al., 2002] emploient lapprentissage de
la structure dun rseau baysien pour dtecter les relations les plus videntes entre diffrents
rgulateurs gntiques afin de pouvoir guider des exprimentations ultrieures. Dans ce type de
problmatique, la connaissance a priori du domaine que peut ventuellement avoir lutilisateur
ne permet que la dtection dincongruits flagrantes sur la structure obtenue automatiquement.
La structure nest plus alors seulement une partie de la solution au problme mais bien une
solution part entire.
Ce chapitre prsente les mthodes les plus usites dans le cadre de lapprentissage de la
structure, les hypothses sous-jacentes ainsi que les avantages et inconvnients respectifs des
diffrentes mthodes.

45

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

4.1.1

Cadre thorique

Lacquisition dune structure reprsentative de la distribution de probabilit dun domaine


de variables prsuppose certaines conditions (dont la condition locale de Markov, vue en 2.3.1).
Lapplication de ces conditions et hypothses permet de garantir lexistence dune telle structure
(i.e. que la distribution que nous cherchons modliser peut ltre par un GOSC) mais aussi de
poser les bases sur lesquelles se fondent les diffrentes mthodes.
Hypothse de fidlit
Nous avons dores et dj suppos quun rseau baysien vrifiait la condition locale de
Markov : toute variable est indpendante de ses non-descendants connaissant ses parents (dans
la structure G du rseau). La condition locale de Markov conjugue la d-sparation permet
de dterminer un ensemble minimal dindpendances conditionnelles dans le graphe G. Cet
ensemble est minimal car il peut exister des indpendances conditionnelles qui ne peuvent tre
dtermines par la seule lecture du graphe G.
Prenons lexemple de la figure 4.1 reprsentant un graphe G constitu de trois variables et
deux arcs ainsi que les probabilits conditionnelles associes. On peut sans peine observer que,
du fait du paramtrage particulier du modle, X1 est indpendant de X2 connaissant X3 . Cette
indpendance conditionnelle ne peut tre releve par la seule condition de Markov locale (et
donc la d-sparation).

Figure 4.1 Cas dindpendance conditionnelle indtectable graphiquement.


Les indpendances conditionnelles impliques par une distribution P, comme celle de la
figure 4.1, ne peuvent tre dtermines par lapplication de la condition locale de Markov seule.
Or, il est dans notre intrt est de pouvoir assurer la corrlation entre le graphe recherch
et la distribution sous-jacente aux donnes notre disposition. Pour cela, nous introduisons la
notion de fidlit.
Dfinition 10 (Hypothse de fidlit) Une structure G et une distribution de probabilit P sont
dites fidles si et seulement si lapplication de la condition de Markov permet de dduire lensemble des
indpendances conditionnelles existant dans P et seulement celles-ci, i.e. :
X, Y U

X yP Y X G Y
46 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

En dautres termes, lhypothse de fidlit applique une distribution de probabilit P


dfinie sur un domaine de variables U suppose lexistence dune carte parfaite (ou P-map, cf.
dfinition 8) du modle dindpendance associ P.
Cette hypothse invalide lexistence dun modle tel que celui de la figure 4.1.

Modularit paramtrique
Cette hypothse tait dj mise dans le cadre de lapprentissage de paramtres (section 3.1),
nous pouvons la rappeler ici :
Dfinition 11 (Modularit paramtrique) Soit deux GOSC G1 et G2 , une variable Xi U et i (G),
lensemble des sommets prdcesseurs du sommet Xi dans le GOSC G :
i 1 . . . n, si i (G1 ) = i (G2 ), alors la densit de distribution des paramtres de Xi est la mme pour
G1 et G2 .

Suffisance causale
Aussi appele hypothse de compltude. Nous supposons quil nexiste pas, dans le domaine
modlis, de variable non-observable qui soit parente de deux ou plus variables observes.
Lensemble des sommets suffit donc reprsenter lensemble des relations pouvant tre extraites
des donnes observes. Lhypothse de suffisance causale est cependant la plus mme de se
voir invalider dans le cas de la modlisation de domaines non triviaux o linformaticien ne
peut garantir lobservation de lensemble des variables pertinentes au domaine.

Connaissance a priori
Certaines mthodes permettent de prendre en compte une connaissance a priori du modle
recherch, fournie alors par lutilisateur. Certaines mthodes prsentes ici permettent notamment lapprentissage dune structure partir de la connaissance dun ordre topologiquement
compatible avec le modle recherch.
Dfinition 12 (Ordre topologiquement compatible) Un ordre topologiquement compatible avec
un GOSC G = {V, E} est un ordre partiel sur les sommets de G tel que :
X Y E, X Y
Dans la suite, nous parlerons dordre topologique correct pour dsigner un ordre topologiquement compatible avec le modle sous-jacent aux donnes dapprentissage.

47 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

4.1.2

Cadre pratique

Lapprentissage de structure dun rseau baysien doit ventuellement seffectuer en tenant


compte de la nature des donnes fournies pour lapprentissage (ou simplement de la nature du
domaine modliser) :
variables continues : les variables peuvent prendre leurs valeurs dans un espace continu
(cf. section 2.5),
bases de donnes incompltes : le cas des donnes incompltes a dj t voqu dans le
cadre de lapprentissage des paramtres (section 3.2). Si, dans le cadre de nos travaux,
nous traitons uniquement le cas des bases de donnes compltes, nous documenterons
nanmoins lapprentissage de la structure du modle dans ce cas de figure,
insuffisance causale : il se peut que certaines variables du domaine observ soient conditionnellement dpendantes de variables non observes. Certains algorithmes, nous le
verrons, permettent alors de dtecter de telles variables.
Pour rsumer, nos travaux ainsi que les mthodes prsentes ici, sauf prcision contraire, se
rfrent lapprentissage de structure dans le cas o :
les variables modlises prennent leurs valeurs dans un ensemble discret,
les variables de la base dapprentissage sont entirement observes,
il nexiste pas de variable latente (hypothse de suffisance causale).
Dans la suite de ce chapitre, nous allons nous attacher la prsentation des diffrentes
mthodes employables pour lapprentissage de la structure dun rseau baysien.
Ces mthodes peuvent tre rparties en deux principaux groupes :
Approche par dcouverte de relations dindpendances : ces mthodes consistent en des procdures de tests sur les indpendances conditionnelles permettant, au final, de retrouver
la structure recherche.
Par exploration/valuation : ces mthodes emploient un score afin dvaluer la capacit du
graphe retranscrire les indpendances conditionnelles au sein du modle.
Cest dans lordre de cette description que nous allons dtailler le fonctionnement des principales mthodes.

4.2

Mthodes procdant par tests statistiques

Une manire de rechercher une structure adquate pour un ensemble dapprentissage est la
recherche dindpendances conditionnelles : la structure du rseau est dtermine pas pas en
tablissant les indpendances conditionnelles existant au sein de lensemble des variables.
Si certains des algorithmes de ce type dtectent des variables latentes (caches), en revanche ils
requirent tous une base complte.

4.2.1

Algorithmes PC et IC

Le principe de lalgorithme PC (Peter, Clark, les prnoms des auteurs) est lui-mme une volution de lalgorithme SGS (Spirtes, Glamour, Scheines, tir des noms de ses auteurs) [Spirtes et Scheines, 1991,
Spirtes et al., 1993].
48 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

Le fonctionnement de lalgorithme PC est le suivant : Soit un graphe G(V, E, ), deux


sommets Xi et X j de V et un sous ensemble de sommets SXi ,X j V/{Xi , X j }. Les sommets Xi et
X j sont relis par un arc dans G sil nexiste pas SXi ,X j tel que (Xi y X j |SXi ,X j ).
En pratique, la vrification de lexistence dune telle indpendance revient vrifier les
diffrentes indpendances (Xi yP X j |SXi ,X j ) par ordre croissant (ie. selon une taille croissante
de lensemble SXi ,X j . partir dun graphe non orient entirement connect, la dtection dindpendances permet alors de supprimer les artes correspondantes jusqu lobtention du
squelette du GOSC recherch. Suivent alors deux phases distinctes visant dans un premier
temps dtecter et tablir les V-structures du graphe puis orienter les artes restantes.
Lalgorithme PC tablit les hypothses suivantes :
hypothse de fidlit (cf. section 4.1.1),
la base dapprentissage est complte et suffisamment grande,
les rsultats des tests dindpendance conditionnelle sont fiables.
Il est courant demployer le test du 2 ou bien celui du G2 (cf. Annexes A).
noter que lalgorithme PC, dcrit dans lalgorithme 2, comme tous les algorithmes dapprentissage de structure employant une base dexemples, renvoie un graphe orient appartenant
la classe dquivalence de Markov du modle recherch : les orientations des arcs, hormis
celles des V-structures dtectes, ne correspond pas forcment aux rels liens de causalit de ce
modle.
Les rgles permettant ici dorienter le graphe non-orient obtenu lissue de la phase de
dtection des indpendances conditionnelles peuvent tre remplaces par toute heuristique
permettant lobtention dun GOSC partir dun tel graphe (comme, par exemple, lalgorithme
de Dor et Tarsi [Dor et Tarsi, 1992]). Les deux oprations graphiques correspondant dans cette
phase de lalgorithme PC lajout dun arc orient reviennent simplement orienter le graphe
de manire :
ne pas crer de circuit ;
de ne pas crer de V-structure ;
Lordre dans lequel les variables sont alors considres peut ventuellement dboucher sur
des GOSC diffrents mais nanmoins reprsentant tous les mmes ensembles dindpendances
conditionnelles (et donc quivalents, cf. section 4.4.4).
En revanche, lordre dexcution des tests dindpendance conditionnelle (i.e. lordre suivant lequel les diffrent sommets de lensemble conditionnant sont tests) a une influence
sur le rsultat final (exception faite du cas o la base dapprentissage est de taille infinie)
[Dash et Druzdzel, 1999].
En parallle lalgorithme PC, un autre algorithme, nomm IC (pour Inductive Causation) a
t dvelopp par lquipe de Judea Pearl [Pearl et Verma, 1991]. Cet algorithme est similaire
lalgorithme PC mais part dune structure vide en reliant les couples de variables ds quune
dpendance conditionnelle est dtecte (dans le sens o aucun sous-ensemble conditionnant
SXY tel que (X y Y)|SXY nest identifi) et obtient donc une D-map minimale l o lalgorithme
PC cherche une I-map minimale (voir section 2.3.3).
Linconvnient commun aux deux algorithmes est la multiplicit des tests dindpendance
conditionnelle mener. Lors de la recherche de la structure dun modle complexe (nombreuses

49 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

Algorithme 2 Algorithme PC
Entre: Un graphe connexe non orient G = {V, E}, V = {X1 , X2 . . . , Xn }
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:

1e tape : Dterminer les indpendances conditionnelles


k 0;
G graphe compltement connect;
SepSetG (Xi , X j ) , (i, j) 1, . . . , n;
Tant que Xi , X j V 2 tq |Ad j(Xi )/X j | k Faire
Dtermination des indpendances conditionnelles dordre k
(Xi , X j ) V2 tq Xi X j et |Ad j(Xi )/X j | k
Pour tout ensemble de sommets SXi ,X j Adj(Xi )/X j tel que |SXi ,X j | = k
Si Xi y X j |SXi ,X j Alors
SepSetG (Xi , X j ) SepSetG (Xi , X j ) SXi ,X j et supprimer larte Xi X j dans G
Fin Si
k k + 1;
Fin Tant que

15:
16:
17:
18:
19:
20:
21:

2e tape : Dtection des V-structures


Pour chaque triplet reli de V3 de la forme Xi Z X j Faire
Si Z < SepSetG (Xi , X j ) Alors
Orienter : Xi Z X j dans G
Fin Si
Fin Pour

22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
32:
33:

3e tape : Orientation des artes restantes


Tant que @ darte non oriente dans G Faire
(Xi , X j ) V
Si Xi X j et un chemin orient de Xi vers X j Alors
orienter larte Xi X j en Xi X j
Sinon
Si X j < Ad j(Xi ), Z tel que Xi Z et Z X j Alors
orienter larte Z X j en Z X j
Fin Si
Fin Si
Fin Tant que

50 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

variables), les deux algorithmes procdent des tests exhaustifs sur les diffrents ensembles
conditionnels SXi ,X j possibles, pour chaque couple de sommets (Xi , X j ).

4.2.2

Algorithme BNPC

Lalgorithme BNPC (pour Bayes Net Power Constructor) est dcrit dans [Cheng et al., 2002]
et utilise une analyse quantitative de linformation mutuelle entre les variables du domaine
modlis afin de construire la structure G recherche. Les tests dindpendance conditionnelle
reviennent alors dterminer un seuil pour linformation mutuelle (conditionnelle ou non)
entre les couples de variables concerns.
BNPC se dcompose en trois phases :
1- laboration : Un premier graphe G1 est cr par le mme procd que celui de lalgorithme
MWST (voir section 4.4.1).
2- Enrichissement : Des artes sont ajoutes G1 afin dobtenir un graphe non-orient G2 et
ce, par application dun nombre rduit de tests dindpendance conditionnelle.
3- Affinement : Une nouvelle srie de tests limine les ventuelles artes superflues de G2 pour
obtenir un graphe final, G.
BNPC se dcline sous deux variantes (BNPC-A et BNPC-B) selon que lutilisateur fournisse
ou non un ordre topologiquement compatible avec la structure recherche. BNPC-A prend en
entre un tel ordre peut donc orienter les artes dtectes mesure de la construction.
Dans le cas de BNPC-B, cet ordre est inconnu et lalgorithme ne procde lorientation des
diffrents arcs quau terme de son excution.
La connaissance facultative dun ordre topologique correct a pour consquence une diffrence notable dans la manire dont les deux variantes construisent le graphe G recherch :
BNPC-A peut dtecter directement les diffrentes d-sparations du graphe chaque tape
de sa construction et donc dfinir prcisment quels sont les diffrents ensembles de
sommets conditionnants devant tre pris en compte,
BNPC-B, en labsence dun ordre topologique correct sur le graphe G, se voit confront
au mme problme que les algorithmes PC et IC savoir la ncessit de tester un nombre
exhaustif et donc exponentiel densembles de sommets conditionnants afin de pouvoir
dterminer si deux sommets X et Y doivent tre ou non relis par une arte.
Pour rduire sa complexit, BNPC-B diminue considrablement le nombre des ensembles
de sommets conditionnants par lintermdiaire dune analyse quantitative des dpendances
rgnant au sein du graphe. Pour cela, les auteurs dfinissent lhypothse de la fidlit monotone.
Dfinition 13 (Fidlit monotone) Soit ChemG (X, Y), lensemble des chemins reliant les sommets X
et Y dans un GOSC G = {V, E}. Soit ActG (X, Y|Z), lensemble des chemins de G activs par le sous
ensemble de sommets Z et reliant les sommets X et Y, {X, Y} < Z. Soit I(X, Y|Z) linformation mutuelle
conditionnelle mesure entre les sommets X et Y conditionnellement Z. Alors G et la distribution de
probabilit P sous-jacente aux donnes dapprentissage sont monotonement fidles si et seulement si :
1. G et P sont fidles
51 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

2. X, Y V, si ActG (X, Y|Z0 ) ActG (X, Y|Z), alors I(X, Y|Z0 ) I(X, Y|Z0 )
En rsum, cette hypothse tablit que pour un GOSC G et une distribution de probabilits
P fidles, la quantit dinformation transitant entre deux variables X et Y, conditionnellement
un sous ensemble de variables Z, est une fonction monotone du nombre de chemins reliant
X Y rendus actifs (cf. section 2.3.2) par Z. En prenant lexemple de deux variables X et Y
dont nous souhaitons tester lindpendance, nous testons dabord lensemble maximal CM des
variables pouvant former un ensemble d-sparant X et Y. Puis, en testant successivement et par
cardinalit dcroissante les sous-ensembles de CM , nous pouvons obtenir un sous-ensemble de
variables par lequel ne transite aucune information et d-sparant, donc, X et Y.
Daprs les auteurs, il est alors possible de dterminer la structure G en O(n4 ).
Cependant, [Chickering et Meek, 2003] dmontrent que lhypothse de fidlit monotone est
raisonnablement incompatible avec lhypothse de fidlit (i.e. lexistence dune P-map). Dans
le cas o ces deux hypothses coexistent (ce qui est le cas, ds lors que lon suppose la fidlit
monotone), alors survient une contradiction avec lexistence dune chane au sein du graphe.
Dfinition 14 (Existence dune chane dans un GOSC[Chickering et Meek, 2003]) Un GOSC G
possde une chane sil comporte au moins lune des deux configurations suivantes :
X1 X2 X3
X1 X2 X3
De plus, [Chickering et Meek, 2003], toujours, dmontrent que dans le cas prcis o le GOSC
recherch ne comporte aucune chane, alors la complexit des calculs requis par BNPC-B peut
en fait tre rduite O(n2 ).
Ces dernires assertions mettent malheureusement en question la fiabilit de lalgorithme.

4.2.3

Commentaires

Les diffrents algorithmes procdant par recherche de causalit prsentent des points communs. Dune part ces algorithmes prsentent lattrait de proposer une construction graduelle
de la structure retourne. La prise en compte de proprits graphiques locales aux diffrentes
variables ainsi que lemploi de mthodes statistiques connues rendent ce type dapproche intuitivement sduisante. Cependant, malgr ces traits intressants, certains dfauts demeurent :
la fiabilit des tests dindpendance, en particulier en prsence dun nombre de cas insuffisant ;
le nombre important de tests dindpendance effectuer pour couvrir lensemble des
variables ;
dans le cas de lalgorithme BNPC, le manque de fiabilit de ses fondements thoriques.
Une alternative lapprentissage par le biais de tests statistiques est lemploi dune mesure
dvaluation de la qualit dune structure vis--vis de la base dapprentissage en combinaison
avec une heuristique de parcours dun espace de solutions candidates. La section suivante
dcrit quelques unes de ces mthodes.

52 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

4.3

Fonctions dvaluation

Les mthodes procdant par exploration et valuation des solutions potentielles utilisent
un score permettant dvaluer la concordance de la structure courante avec la distribution de
probabilit ayant gnr les donnes. De nombreuses fonctions dvaluation ont t conues et
ce chapitre prsente quelques-unes de celles-ci parmi les plus connues.
Certaines proprits ont t dtermines comme sinon essentielles du moins dimportance
pour les mtriques employes. Ces proprits sont les suivantes.

Dcomposabilit Lors de lemploi dune heuristique parcourant lespace des structures candidates, une transition depuis une structure G vers une structure G0 se fait gnralement laide
dune opration du type ajout, soustraction ou inversion dun arc. Ds lors quune modification
ne modifie le calcul de la probabilit jointe du domaine que sur le terme P(Xi |i ) o Xi est
le nud du graphe dont lensemble des parents a t modifi, il est intressant de navoir
calculer limpact de cette modification sur le score quen un terme dpendant de Xi et i .
Dfinition 15 (Score dcomposable) Une fonction de score S est dite dcomposable si, tant donn
la structure G dun rseau baysien B, S(B) peut tre exprim sous la forme dun produit (ou dune
somme, dans lespace logarithmique) de scores locaux ne concernant quun sommet et ses parents.
S(B) =

n
X

s(Xi , i ) ou bien S(B) =

i=1

n
Y

s(Xi , i )

i=1

o n reprsente le nombre de sommets du graphe G.


Cette proprit permet de rduire considrablement les cots de calcul dune heuristique de
parcours de lespace des GOSC.

quivalence Deux GOSC diffrents peuvent encoder une mme dcomposition de la loi jointe
sur le domaine modlis. Les deux structures sont alors dites quivalentes au sens de Markov
(cf. section 4.4.4 pour une dfinition complte de la notion dquivalence). Il en rsulte que
plusieurs GOSC peuvent reprsenter le mme ensemble dindpendances conditionnelles et,
par consquent, prsenter la mme pertinence en terme de reprsentation de connaissance
(dans le cas dun graphe non-causal).
Dfinition 16 (Score quivalent) Une fonction de score S est dite quivalente si, tant donn deux
rseaux baysiens B et B0 quivalents au sens de Markov, S associe une mme valeur aux structures de
B et B0 .
Lemploi dun score quivalent permet donc de pouvoir distinguer des structures qui ne
sont pas statistiquement quivalentes (et rciproquement, de regrouper les structures qui le
sont). Dans le meilleur cas, nous devrions pouvoir ainsi dterminer une seule structure G
statistiquement quivalente au graphe G recherch. Il nous reste assurer lexistence de G , ce
qui est le rle de la proprit de consistance.
53 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

Consistance Il est important de pouvoir garantir que la structure obtenant la meilleure valuation soit celle du rseau lorigine de la base de cas. Cette proprit est connue sous le nom
de consistance du score employ.
Dfinition 17 (Score consistant) Une fonction de score S est dite consistante si, lorsque la taille de
la base dapprentissage D tend vers linfini, la structure G* correspondant au modle sous-jacent D
obtient le meilleur score avec une probabilit approchant 1.
Par structure correspondant au modle, nous entendons ici la structure qui est une carte dindpendance minimale du modle sous-jacent D.
La plupart des scores que nous allons dcrire par la suite possdent ces proprits. Les scores
employs pour lvaluation de structures peuvent eux-mmes tre rpartis dans deux groupes :
les scores dits baysiens et les mtriques fondes sur le principe de la longueur de description
minimale.

Score baysien
Si la dnomination de score baysien rfre effectivement une mtrique spcifique que nous
allons prsenter ici, il sagit aussi dun terme plus gnral dnotant les diffrentes mtriques
dveloppes partir du mme principe de base. Nous allons donc commencer par dcrire ce
principe avant de dtailler ce quest le score baysien proprement parler ainsi que diffrentes
variantes qui en ont t drives.
Lors de lapprentissage dun modle, quil sagisse de sa structure ou de ses paramtres,
il existe une incertitude quant lidentit de ces lments. Lapproche baysienne consiste
reprsenter et quantifier cette incertitude sous une forme subjective. Cet encodage revient alors
dterminer une distribution a priori sur la structure et/ou les paramtres recherchs.
Nous cherchons ici la structure G ayant la probabilit la plus leve conditionnellement aux
donnes D. Autrement dit, nous cherchons maximiser la probabilit P(G|D). Cette probabilit
est la probabilit a posteriori. La maximisation de cette probabilit passe en premier lieu par sa
dcomposition ; le thorme de Bayes nous permet la dcomposition suivante :
P(G|D) =

P(D, G) P(D|G) P(G)


=
P(D)
P(D)

(4.1)

Il est important de remarquer que llicitation du meilleur modle se fait partir de la seule
base dapprentissage D et que nous pouvons alors ngliger la probabilit P(D).
Le plus souvent, pour des raisons de commodit de calculs, loptimisation de la probabilit
a posteriori P(D, G) passe par loptimisation de son logarithme :
log P(G|D) = log P(G) + log P(D|G) log P(D) log P(G) + log P(D|G)

(4.2)

Nous voyons que la probabilit P(G|D) se dcompose en deux termes :


54 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

P(G) : Probabilit a priori de la structure G.


P(D|G) : Vraisemblance marginale.
La probabilit a priori de G, reprsente la mesure de la confiance (ou a priori) que nous avons
en la structure G.
La valeur de la vraisemblance marginale P(D|G) a t calcule quant elle, dans le cas de
variables discrtes, par [Cooper et Herskovits, 1992] qui ont propos le rsultat suivant :
Thorme 2 Soit :
U, un ensemble de variables alatoires discrtes, U = {X1 , X2 , . . . Xn } ;
Xi , i 1 . . . n variable de U de cardinalit ri ;
D, base dapprentissage forme de N instances de U indpendantes et identiquements distribues ;
G une structure dun rseau baysien contenant exactement les n variables de U ;
ij , je instanciation de i , j 1 . . . qi ;
k
Nijk le nombre
Pri doccurrences simultanes de Xi = xi et i j ;
soit Nij = k=1 Nijk .
Le score baysien, aussi appel score BD, scrit alors :
ScoreBD (G, D) = P(G, D) = P(G)

qi
n Y
Y
i=1 j=1

i
(ri 1)! Y
Ni jk !
(Ni j + ri 1)!

(4.3)

k=1

Le score baysien de lquation 4.3 sadapte au cas de lutilisation da priori de Dirichlet (cf.
section 3.3.2) en scrivant :

ScoreBD (G, D) = P(G, D) = P(G)

qi
n Y
Y
i=1 j=1

(i j + ri 1)!
(Ni j + i j + ri 1)!

ri
Y
(i jk + Ni jk )!
k=1

i jk !

(4.4)

La distribution a priori sur lespace des structures peut tre dfinie ou calculable grce un
expert ou bien, cas le plus courant car simplifiant le calcul, tre dfinie comme tant uniforme.
Dans ce dernier cas, la maximisation de la probabilit relative a posteriori log P(D, G) se ramne
alors la maximisation de la vraisemblance marginale que lon emploie comme score.

Le score BDe
Le score baysien, prsent prcdemment, prsente un inconvnient majeur : il nest pas
quivalent (cf. dfinition 16). Deux structures prsentant les mmes indpendances conditionnelles obtiennent donc deux valuations diffrentes. Une heuristique parcourant lespace des
structures a tout intrt employer un score prsentant la proprit dquivalence.
cette fin, les auteurs de [Heckerman et al., 1995a] ont dvelopp une variante du score BD.
Cette variante repose sur lhypothse dquivalence de la vraisemblance :
Hypothse 1 (quivalence de vraisemblance) Soit G1 et G2 , deux structures reprsentant les mmes
indpendances conditionnelles, de probabilits a priori non ngatives, alors P(|G1 ) = P(|G2 ).
55 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

Soit GT , le graphe entirement connect sur V et Nest , un nombre arbitraire de pseudoexemples supplmentaires i.e. un dcompte fictif dexemples supplmentaires de la base pour
lesquels Xi = xk , i = ij , la contrainte suivante, impose sur les exposants de Dirichlet i jk
des distributions des paramtres du modle valu, permet de rendre le score BD quivalent :
ijk = Nest P(Xi = xk , i = i j |GT )

(4.5)

Lavantage de fixer un nombre minimal Nest doccurrences pour les diffrentes configurations
possibles est dempcher quune configuration particulire dune variable Xi et de son ensemble
de variables parents i ne soit considre comme impossible par le modle (et se voit donc
attach une probabilit a posteriori nulle).
La variante, nomme score BDe (pour Bayesian Dirichlet Equivalent), est alors gale :
SBDe (G|D) = P(G, D) = P(G)

qi
n Y
Y
i=1 j=1

(i j )
(Ni j + i j )

ri
Y
(i jk + Ni jk )
k=1

(i jk )

(4.6)

La fonction gamma tant employe ici du fait que les i jk ne sont pas ncessairement
entiers.

Le score BDeu
Le score BDeu est en fait un cas particulier du score BDe prsent prcdemment. Ici, les
distributions de probabilits a priori dfinies sur les paramtres du modle valu sont uniformes
(le u de BDeu signifiant uniform), i.e.
P(Xi = xk , i = ij |GT ) =

1
,
ri .qi

i 1 . . . N, k 1 . . . ri , j 1 . . . qi

GT reprsentant ici encore le graphe entirement connect sur V.


[Buntine, 1991] et [Heckerman et al., 1995a] dfinissent alors les exposants de Dirichlet suivants (cf. equation 4.5) :
ijk =

Nest
,
r i qi

i 1 . . . N, k 1 . . . ri , j 1 . . . qi

(4.7)

o Nest dsigne, ici encore, un nombre arbitrairement fix.


Lquation 4.6 dsigne alors le score BDeu, qui demeure un score quivalent.
Si Nest = 1, le score BDeu est alors gal :

SBDeu (G|D) = P(G)

qi
n Y
Y

( q1i )

i=1 j=1

( q1i + Ni j )

ri ( 1 + N )
Y
i jk
qi ri
k=1

( q1i ri )

(4.8)

Le score BDeu est trs souvent employ pour lvaluation de structures. Une de ses caractristiques est dtre apte dtecter les arcs correspondant des dpendances conditionnelles
56 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

de poids faibles. Ce comportement est dailleurs dautant plus prononc que lon emploie une
valeur leve pour le paramtre Nest de lquation 4.7 [Kayaalp et Cooper, 2002].
La vraisemblance du modle valu par rapport la base dapprentissage nest pas la seule
mthode dvaluation dune structure. Une autre faon de faire est demployer des critres
visant non seulement vrifier cette adquation mais aussi, dans le cas des fonctions de scores
que nous allons prsenter, de favoriser les modles les plus simples.

Le critre AIC
Le critre AIC (Akaike Information Criterion) [Akaike, 1970] cherche viter les problmes lis
lapprentissage sur la seule vraisemblance. Dans les valuations prcdentes, la vraisemblance
par rapport la base de donnes est employe la fois pour lapprentissage des paramtres du
modle et pour lvaluation de la structure, ce qui risque dintroduire un biais.
En pnalisant la complexit des structures values, le critre AIC vise liciter le modle le
plus simple et le plus expressif de la connaissance extraite de la base D.
ScoreAIC(B, D) = 2 log L(D|B, MV ) + 2Dim(B)

(4.9)

O MV est lensemble des paramtres obtenus par maximum de vraisemblance pour le


rseau baysien B et Dim(B) est la dimension de B.
Soit ri le nombre de valeurs pouvant tre prises par la variable Xi , le nombre de paramtres
ncessaires pour reprsenter P(Xi |i = i j ) est gal ri 1 et la reprsentation de P(Xi |i )
ncessite Dim(Xi , B) paramtres avec :
Y
Dim(Xi , B) = (ri 1) qi , o qi =
rj
X j i

La dimension du modle B devient alors :


Dim(B) =

n
X

Dim(Xi , B)

i=1

AIC, bien que dcomposable et quivalent, prsente cependant un inconvnient : celui de


ne pas tre consistant avec la dimension. Il faut comprendre par l que le critre AIC ne
permet pas la slection du vritable modle ( supposer quil existe) quand la taille de la base
dapprentissage saccrot. En effet, lorsque la taille de la base crot, le terme de pnalisation tend
devenir ngligeable vis--vis de la vraisemblance logarithmique. Ds lors, le critre AIC va
avoir tendance liciter le modle le plus complexe et aboutir ainsi un surapprentissage.
Pour circonvenir ceci, diverses variantes du critre AIC ont t dveloppes parmi lesquelles le critre CAIC (pour Consistent AIC) [Bozdogan, 1987].


ScoreCAIC (B, D) = 2 log L(D|B, MV ) + Dim(B) log(N) + 1

(4.10)

57 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

loppos, dans le cas o la taille de la base de donnes est trs limite, il est gnralement
prfrable demployer une autre variante du critre AIC : le critre AICC (Akaike Information
Corrected Criterion)[Hurvich et Tsai, 1989]. Cette variante inflige une pnalit dautant moins
leve aux structures complexes que la base est limite, relchant la contrainte de parcimonie.
ScoreAICC (B, D) = AIC +

2Dim(B) (Dim(B) + 1)
N Dim(B) 1

(4.11)

Pour lquation 4.11, nous remarquons que, lorsque la taille de la base de donnes devient
importante, le dernier terme de lquation tend vers 0 et on approche la formule du critre AIC.

Le score MDL
Le critre MDL [Rissanen, 1978, Suzuki, 1996] incorpore un terme pnalisant les structures
trop complexes et ne tient pas seulement compte de la complexit mme du modle mais aussi
de la complexit du codage des donnes suivant ce modle.
Il existe diffrentes variantes du score MDL, dont celle de [Lam et Bacchus, 1994]
ScoreMDL (B, D) = LL(D|MV , B) |EB | logN c.Dim(B)

(4.12)

|EB | reprsentant le nombre darcs prsents dans le modle B et c, le nombre de bits ncessaires pour encoder un des paramtres.

Le score BIC
Le critre BIC (Bayesian Information Criterion), propos dans [Schwartz, 1978], est certainement le critre le plus employ actuellement dans le cadre de la slection de modles.
Semblable au critre AIC, il comporte lui aussi une pnalit envers la complexit structurelle.
1
ScoreBIC(B, D) = log L(D|B, MAP ) Dim(B) log N
2

(4.13)

Le terme 12 Dim(B) log N reprsentant la pnalit envers les structures trop complexes. Si lon
value un ensemble M = {M1 , M2 , . . . , Mm } de modles, le meilleur modle Mi est alors gal :
M = argmaxMi (scoreBic)

(4.14)

Le score BIC prsente les trois proprits prsentes en dbut de section, savoir lquivalence, la dcomposabilit et la consistance ; ceci, combin sa tendance liciter les modles les
plus simples [Bouckaert, 1994] en fait une des mtriques dvaluation les plus employes avec
le score BDeu.

58 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

Commentaires
Nous avons vu, dans cette section, plusieurs fonctions de score. Il savre, dans la pratique,
que la plupart des mthodes actuelles se fondent sur lemploi du score BDeu ou bien du critre
BIC. Certaines mthodes emploient des versions modifies des critres pondrs comme AIC
ou MDL.
Les algorithmes que nous allons prsenter emploient indiffremment nimporte quelle fonction
dvaluation sauf mention contraire (certaines mthodes requirent explicitement une valuation ayant la proprit dquivalence, par exemple).

4.4

Algorithmes employant un score

Cette approche consiste parcourir lensemble des structures envisageables (au sens le plus
large : lespace des GOSC dcrits sur lensemble des variables modlises), valuer celles-ci
puis renvoyer la structure ayant obtenu la meilleure valuation. Une telle stratgie se heurte
cependant au problme de la taille de lespace parcourir. Soit r(n), le nombre de graphes
orients sans circuit ralisables sur un ensemble de n sommets :
n
X
O(n)
r(n) =
(1)i+1 Cni 2i(ni) r(n i) = n2

(4.15)

i=1

Lquation 4.15 a t dmontre dans [Robinson, 1976].


Nous voyons que si pour n = 4, la valeur r(4) = 543 demeure raisonnable, ds que n = 7 le
nombre de graphes parcourir devient impressionnant : r(7) 1, 4 109 , r(12) 5, 2 1026 .
Ds lors, il est ncessaire de mettre au point des heuristiques permettant de parcourir efficacement cet espace.
Ces heuristiques parcourent gnralement lespace des GOSC suivant une heuristique afin de
restreindre lespace de recherche ; il existe cependant, comme nous le verrons, des alternatives
lespace des GOSC, tel que lespace des arbres ou encore, celui de graphes servant reprsenter
les classes dquivalence au sens de Markov des structures.

4.4.1

Recherche de larbre de recouvrement de poids maximal

La recherche de larbre de recouvrement maximal dans un graphe pondr peut tre adapte
lapprentissage de structure. Dans [Chow et Liu, 1968], les auteurs associent chaque couple
(Xi , X j ) de variables un poids - dans ce cas prcis linformation mutuelle entre Xi et X j . Une
autre possibilit de pondration consiste remplacer linformation mutuelle par un score local
en Xi et X j [Heckerman et al., 1995a].
Lapplication la recherche de structure se fait alors de la manire suivante :
1. recherche de larbre (non-orient) de recouvrement maximal ;
2. orientation de larbre obtenu.
59 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

La premire tape est acheve par une heuristique standard telle que lalgorithme de Kruskal
[Cormen et al., 1994]. La deuxime phase est, elle, accomplie en choisissant tout dabord un
nud faisant office de racine puis en orientant les artes restantes partir de celui-ci.
Les avantages de cet algorithme sont nombreux. Aussi simple que rapide, il force de plus
lappartenance de chaque variable du domaine la structure retourne ; augmentant les chances
de dtecter des relations faibles qui sont ignores dans le cas contraire. Les inconvnients sont
que le choix du nud racine est arbitraire en labsence da priori de mme que le fait de
relier obligatoirement lensemble des variables entre elles peut aussi gnrer des relations
inopportunes en reliant des variables normalement conditionnellement indpendantes.
De la mme manire, dans certaines problmatiques, la recherche de la structure baysienne
optimale a pour but de permettre de cartographier les (in)dpendances conditionnelles du
domaine ; MWST empche toute variable dont la reprsentation serait superflue dtre dtecte
comme telle. Il serait alors ncessaire de sortir de lespace des arbres pour passer dans celui des
forts.

4.4.2

Algorithme K2

A lorigine, lalgorithme K2 [Cooper et Herskovits, 1992] value les diffrentes solutions


laide du score baysien, BD (cf. section 4.3).
Lespace des GOSC tant de taille exponentielle par rapport au nombre de variables modlises (voir section 4.4), lalgorithme K2 va rduire lespace de recherche en prenant en entre
un ordre topologique correct sur les variables du domaine.
La rduction qui dcoule de cette connaissance permet de limiter la recherche un espace de
2
2Cn structures.
De mme, lespace explorer est aussi limit en faisant lhypothse quun nud ne peut avoir
plus dun certain nombre de parents.
Un algorithme de recherche glouton sur les ensembles de parents potentiels de chaque nud
est alors employ.
Lheuristique de parcours de K2 peut tre employe, comme cela la t prcdemment
voqu, avec une autre mesure que le score BD, telle que le critre MDL [Bouckaert, 1993].

4.4.3

Algorithme Greedy Search

Lalgorithme Greedy Search [Chickering et al., 1995] (ou algorithme glouton) parcourt lespace des GOSC laide de successions doprations lmentaires. chaque itration, lalgorithme explore le voisinage dune structure candidate une opration ddition prs, o une
opration consiste en un ajout, une soustraction ou une inversion darc. Si une des structures
voisines obtient un meilleur score que la structure candidate, elle remplace cette dernire et lalgorithme ritre lexploration. La terminaison survenant ds lors quaucune structure voisine
nobtient un meilleur score.

60 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

Algorithme 3 K2
Entre: Un ensemble de n noeuds, un ordonnancement sur ces noeuds, une borne suprieure
S sur le nombre de parents dun noeud, une base de donnes D compose de N cas
1: Pour i = 1 . . . n Faire
2:
i ;
3:
Pprec f (Xi , i );
4:
continuer VRAI;
5:
Tant que continuer et |i | < S Faire
6:
soit z le noeud de Pred(Xi ) maximisant ScoreBD (Xi , i {z});
7:
Pnouveau f (i, i {z});
8:
Si Pnouveau > Pprec Alors
9:
Pprec Pnouveau ;
10:
i i {z};
11:
Sinon
12:
continue FAUX;
13:
Fin Si
14:
Fin Tant que
15: Fin Pour

4.4.4

Recherche gloutonne sur lespace des graphes essentiels

Une alternative la recherche de structures sur lespace des GOSC consiste identifier non
plus une structure mais un graphe reprsentant la classe dquivalence au sens de Markov (cf.
section 4.4.4) de celle-ci.
Nous commenons par dcrire un tel graphe ainsi que ses proprits avant de dcrire une
mthode gloutonne sur lespace de ces graphes reprsentants, lalgorithme GES.

quivalents de Markov

Figure 4.2 Exemples simples illustrant la notion dquivalence. Les graphes (a), (b) et (c)
encodent la mme dcomposition de loi jointe.
Plusieurs graphes orients sans circuits peuvent encoder les mmes ensembles dindpendances conditionnelles.
Dfinition 18 Deux rseaux baysiens B1 et B2 sont dits quivalents au sens de Markov si leurs
structures encodent la mme dcomposition de la loi jointe.
61 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

Le critre de d-sparation permet la lecture des indpendances conditionnelles encodes par le


graphe. Par la suite, nous emploierons le terme gnral dquivalence pour dsigner lquivalence au sens de Markov.
La figure 4.2 illustre lexemple de trois graphes diffrents reprsentant nanmoins le mme
ensemble dindpendances conditionnelles. Cette quivalence se dmontre simplement :
Dmonstration 2 Le graphe (a) encode :
P(X1 , X2 , X3 ) = P(X1 ) P(X3 |X1 ) P(X2 |X3 ) = P(X3 , X1 ) P(X2 |X3 )
= P(X1 |X3 ) P(X3 ) P(X2 |X3 )

(4.16)
(4.17)

Donc le graphe (a) et le graphe (b) encodent la mme loi de probabilit jointe. La mme dmarche peut
sappliquer au graphe (c).
Considrons maintenant la figure 4.3.

Figure 4.3 Exemple de V-structure.


La dcomposition de sa loi jointe est la suivante :
P(X1 , X2 , X3 ) = P(X3 |X1 , X2 ) P(X1 ) P(X2 ).
Contrairement aux autres graphes, nous avons ici un terme P(X3 |X1 , X2 ) ne pouvant pas se
simplifier. Le graphe de la figure 4.3 encode simultanment les (in)dpendances conditionnelles
(X1 y X2 ) et (X1 6y X2 |X3 ). Ce graphe possde une forme caractristique que nous avons dj
entraperue dans la dfinition de la d-sparation : il sagit dune V-structure. Nous avons
notre disposition le thorme suivant :
Thorme 3 ([Verma et Pearl, 1990]) Deux rseaux baysiens sont dits quivalents au sens de Markov
si et seulement si leurs structures ont le mme squelette et les mmes V-structures.
o le squelette dun graphe orient G dsigne le graphe non orient obtenu en ignorant les
orientations de ses arcs.
Les structures reprsentant la mme dcomposition de la loi jointe sur un domaine donn
appartiennent une mme classe dquivalence. Il est alors possible de reprsenter cette classe
dquivalence laide dun graphe partiellement orient sans circuit (ou GPOSC) appel graphe
essentiel (ou GE) [Andersson et al., 1995].
62 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

Dfinition 19 Pour un GOSC G, le graphe partiellement orient sans circuit obtenu en ignorant
lorientation des arcs rversibles de G est appel graphe essentiel de G. Ce graphe est le reprsentant de
la classe dquivalence de G.
Dfinition 20 Un arc est dit rversible sil nappartient aucune V-structure et si son inversion ne
cre ou ne dtruit aucune V-structure.
Des algorithmes existent permettant dobtenir le graphe essentiel, ou GE, dune structure
donne [Chickering, 1996] ou bien, linverse, dobtenir une instanciation sous forme dun
GOSC dun graphe partiellement orient (et donc dune instanciation dun GE) [Chickering, 1995,
Dor et Tarsi, 1992].

Figure 4.4 Exemple de graphe orient sans circuit et de son graphe essentiel.
La figure 4.4 montre cte cte le GOSC vu prcdemment dans la figure 2.7 et le GE
correspondant. Nous voyons que seule la V-structure centrale demeure oriente.
Daprs [Perlman et Gillispie, 2001], le ratio entre le nombre de GE pour un nombre donn
de variables modlises et le nombre de GOSC correspondant est asymptotiquement gal 3,7.
Ce rsultat a t observ pour un nombre de variables allant jusqu 10.
Enfin, il est intressant de prciser ici que des graphes quivalents au sens de Markov proposent la mme dcomposition de la loi de probabilit jointe sur le domaine et, par consquent,
lorientation des arcs nappartenant pas des V-structures, bien que sans rapport avec les rels
liens de causalit au sein du domaine, na pas dinfluence sur les processus dinfrence vus en
section 2.6.

Algorithme GES
Conscutivement la dfinition de lespace des reprsentants des classes dquivalence de
Markov, plusieurs travaux se sont employs travailler dans cet espace. Les arguments allant
en faveur dune telle approche tant :
Taille de lespace : plusieurs GOSC reprsentant les mmes indpendances conditionnelles
peuvent tre reprsents par un seul et unique GE ;
63 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

Non-redondance : un GE reprsentant une et une seule classe dquivalence, toute modification


un GE entrane une relle modification de lespace explor.
Les principaux travaux en matire dexploitation de lespace des GE sont dus Chickering
[Chickering, 2002b]. Lalgorithme dvelopp par lauteur est un glouton sur lespace des GE
procdant en deux phases distinctes :
une phase dajouts : en partant dun graphe dorigine quelconque, cette phase ajoute
successivement les arcs manquants et correspondant aux dpendances conditionnelles
dtectes dans la base dapprentissage ;
une phase de retraits darcs : suite la premire phase, cette phase retire successivement
les arcs superflus.
Lalgorithme GES est optimal sous condition que les hypothses suivantes soient vrifies :
les exemples contenus dans la base dapprentissage D employe sont indpendants et
identiquement distribus ;
D est suffisament grande pour que la distribution de probabilits quelle dfinit soit gale
la distribution de probabilit p dfinie sur le domaine de variables U par le modle que
nous recherchons ;
le score utilis est consistant (cf. dfinition 17) ;
enfin, que la distribution reprsente par D soit fidle un GOSC (cf. dfinition 10).
Le principal fondement thorique de loptimalit de cet algorithme est la conjecture de Meek
[Meek, 1997], mise par Christopher Meek. Cette conjecture a t partiellement dmontre dans
[Kocka et al., 2001] avant dtre dmontre dans sa totalit par Chickering [Chickering, 2002a].
Thorme 4 (Conjecture de Meek) Soit G1 et G2 , deux GOSC o G2 est une carte dindpendances
de G1 . Alors il est possible laide dune squence S finie doprations dajout et dinversion des arcs de
G1 telle que :
1. la suite de toute opration lmentaire, G1 est un GOSC et G2 est toujours une carte dindpendances de G1 ,
2. aprs avoir appliqu lensemble des oprations de S, G1 = G2 .
Cette conjecture signifie concrtement que, ds lors que lon suppose que la distribution de
probabilit recherche peut tre reprsente par un GOSC, alors on peut retrouver une carte
dindpendances (un graphe o sont reprsentes toutes les dpendances de la distribution
modlise) partir dune carte de dpendances (un graphe o sont reprsentes toutes les
indpendances de la distribution modlise).
Les auteurs dfinissent deux voisinages successivement explors par GES : linclusion suprieure et linclusion infrieure [Chickering, 2002b].
Dfinition 21 Soit GE , un GE, la limite dinclusion suprieure V + (GE ) est lensemble des GE voisins
de GE tels que :
G+E V + (GE ) ssi G GE /G+ = {G + 1 arc} et G+ G+E
Dfinition 22 Soit GE , un GE, la limite dinclusion infrieure V (GE ) est lensemble des GE voisins
de GE tels que :
GE V (GE ) ssi G GE /G = {G 1 arc} et G GE
64 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

Pour explorer les diffrents voisinages dinclusion (V + (GE ) et V (GE )), GES opre en deux
phases [Chickering, 2002b] :
Sur V + (GE ) : sont considrs, chaque itration de cette phase, tous les graphes du voisinage
du graphe actuel obtenus par ajout ou inversion dun arc. Pour cette dernire opration,
ne sont considres que les inversions impliquant un changement de classe dquivalence.
chaque itration, le nouveau graphe slectionn est celui ayant entran la plus grande
amlioration du score.
Sur V (GE ) : cette phase est similaire la prcdente, la diffrence tant quelle opre par
soustractions et inversions successives jusqu ce que le score ne puisse plus tre amlior.
Le fait que GES explore lespace des GE laide dune fonction de score implique bien entendu
que ce score soit quivalent. Linitialisation de GES peut se faire partir dun graphe quelconque,
mme sil est gnralement convenu de dmarrer avec le graphe vide G. Il est de mme possible,
bien que lalgorithme que nous venons de dcrire corresponde la version originale de GES
telle que dcrite dans [Meek, 1997], demployer conjointement chaque itration le voisinage
suprieur et le voisinage infrieur. Cette variante, prsente dans [Chickering, 2002a] est elle
aussi, asymptotiquement optimale.
noter que lexploitation de lespace des GE prsente cependant certains inconvnients :
La taille de lespace nest pas aussi rduite que lon pourrait lesprer : il a t dmontr,
pour un nombre de variables n<10, que le quotient de la taille de lespace des GOSC avec
celle de lespace des GE tait asymptotiquement gal 3,7 [Perlman et Gillispie, 2001,
Gillispie et Perlman, 2002] ;
Laffranchissement de lespace des GOSC nest pas total, il est ncessaire pour pouvoir
valuer la qualit dune classe dquivalence den instancier le reprsentant sous la forme
dun GOSC.
[Nielsen et al., 2003] introduisent KES qui est une variante de GES pour laquelle la gloutonnerie est relche : plutt que de slectionner chaque tape le meilleur graphe du voisinage,
KES slectionne alatoirement un graphe amliorant la solution en cours.

4.4.5

Commentaires

De la mme manire que nous avons comment les mthodes procdant par dtection des
indpendances conditionnelles, nous pouvons ici faire un constat des forces et faiblesses des
algorithmes vus dans cette section.
les algorithmes de parcours permettent dobtenir des solutions caractrises par la fonction
de score employe (modle plus simple ou au contraire tenant compte des dpendances
les plus faibles,. . . ). Ceci, pour le cas dapprentissages partir de donnes restreintes,
les scores tant pour la plupart asymptotiquement gaux pour une quantit de donnes
dapprentissage suffisante ;
le dveloppement de nouvelles heuristiques se fonde principalement sur le parcours de
lespace de recherche et la discrimination de bonnes solutions ce qui en fait une approche
sduisante ;
la dcouverte de la structure optimale partir dune fonction de score est NP-difficile
[Chickering et al., 1995, Chickering et al., 1994, Chickering et al., 2003] ;
65 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

certaines heuristiques (GES, GS) sont coteuses en temps de calcul.


Malgr les difficults inhrentes lutilisation dune fonction dvaluation pour trouver une
bonne structure, laspect mme de la problmatique suscite encore aujourdhui de nombreux
travaux ayant pour objectif doptimiser le parcours de lespace de recherche.

4.4.6

Mthodes hybrides

Certaines mthodes tentent de combiner les avantages des deux mthodologies que nous
venons de voir. Un certain nombre de ces mthodes sinscrivent dans lapplication dun algorithme volutionnaire nous le verrons plus loin . Le principe de ces mthodes consiste
gnralement limiter lespace de la recherche effectue par un algorithme employant un score.
Cette limitation est dfinie partir de tests dindpendance conditionnelle dordre peu lev
1 ou 0 et permet dviter la perte de temps cause par lvaluation de solutions inintressantes
[van Dijk et al., 2003b].
Linconvnient dune telle approche est que, non contente de combiner les qualits des deux
approches, elle en combine aussi les dfauts. Il est possible dexclure la possibilit de lexistence
dun arc quand, en prsence dune base limite, les tests indiquent comme tant indpendantes
deux variables pourtant corrles dans le graphe dorigine.
Un autre faon dappliquer ce principe est de limiter lespace de recherche non plus partir
dune procdure automatique mais partir dune connaissance a priori, gnralement fournie
par un expert [Acid et de Campos, 1996, de Campos et Castellano, 2007].
Lalgorithme EGS (pour Essential Graph Search) de [Dash et Druzdzel, 1999] sefforce quant
lui de construire le GE correspondant la structure recherche en valuant par lintermdiaire
du score baysien la solution renvoye par des itrations successives de lalgorithme PC en
faisant alatoirement varier certains facteurs tels que le seuil de confiance des tests statistiques
employs et un ordre topologique sur les variables du domaine.

4.5

Lapprentissage de la structure par des mthodes stochastiques

Jusquici, les mthodes que nous avons prsentes taient dterministes, dans le sens o,
partir dune mme initialisation (par exemple, un mme GOSC initial pour lalgorithme glouton)
et dune mme base dapprentissage, la solution retourne par ces algorithmes est la mme.
Il existe une autre forme de recherche faisant appel une part dalatoire : les algorithmes
stochastiques. Ces mthodes font intervenir une part de hasard dans leur phase de recherche,
ceci leur permettant notamment de se retrouver bloqus en certaines zones de lespace des
solutions.
Dans le cadre de lapprentissage de structures de rseaux baysiens, deux familles de mthodes stochastiques ont jusqu prsent t employes : les mthodes dites de Monte-Carlo et
les algorithmes volutionnaires. Ces derniers faisant lobjet du prochain chapitre, nous nous
contenterons de les voquer brivement la fin de cette section (les applications des mthodes
volutionnaires lapprentissage de structures seront traites la fin du chapitre 5).
66 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

4.5.1

Mthodes de Monte Carlo par chanes de Markov

Les mthodes de Monte Carlo forment un sujet trop vaste pour tre trait de manire
complte dans ce travail de thse. Nous ne prsentons ici que les lments ncessaires la
comprhension gnrale de leur principe et de leur application lapprentissage de structures. Une trs bonne introduction aux mthodes de Monte Carlo peut tre trouves dans
[Robert et Casella, 2004] ; les mthodes de Monte Carlo par chane de Markov sont, quant
elles, dcrites et expliques dans [Gilks et al., 1996].
Les mthodes de Monte Carlo permettent lapproximation de distributions de probabilits
partir dun chantillonnage (ou observations rptes des valeurs prises par la distribution de probabilits). Il existe de nombreuses approches suivant la connaissance a priori de
la distribution tudie et de la complexit mme de lchantillonnage. Nous nous intressons
particulirement une catgorie de mthodes : les mthodes de Monte Carlo par chane de
Markov.
Ces mthodes modlisent une marche alatoire dans lespace de dfinition X dune distribution de probabilits (x) et ce par le biais dune chane de Markov. Cette chane sert alors
de source dchantillons de X. Une chane de Markov est dfinie par un ensemble dtats,
un ensemble des probabilits de transition entre ces diffrents tats (aussi appel noyau de la
chane) et par une distribution de probabilits initiales (probabilits de se trouver en un tat
linitialisation).
Dfinition 23 (Chane de Markov) Une chane de Markov dfinie sur un espace dtats X, est un
processus stochastique (x(0) , x(1) , . . . , x(t) ) tel que :
P(x(t) |x(t1) , . . . , x(0) ) = P(x(t) |x(t1) ), t 1 . . . T
Par la suite, nous employons la notation x(t) pour dsigner indiffrement ltat de la chane
de Markov au temps t et le te chantillon prlev. Le noyau de la chane est un ensemble de
probabilits de transition inter-tats K(x(t+1) |x(t) ) caractrisant la chane. Lorsque les probabilits
de K sont constantes dans le temps (i.e. K(x(t+1) = xi |x(t) = x j ) = K(x j |xi ), la chane est dite
homogne). La chane est aussi dfinie par sa distribution de probabilit initiale 0 (x(0) ).

Distribution de probabilit stationnaire


On nomme distribution stationnaire dune chane de Markov, distribution note (x), une
distribution de probabilits dfinie sur lensemble des tats de la chaine et invariable dans le
temps :
X
(x) =
K(x|x0 ) (x0 )
x0

Cette convergence signifie quaprs un certain nombre, gnralement lev, de transitions,


la distribution des observations des tats parcourus par la chane tend vers une distribution
fixe. Cette dure prcdent la convergence est communment appele priode de burn-in.
Sous certaines conditions (se rfrer [Gilks et al., 1996] pour une description complte de ces
67 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

conditions), il est possible de garantir la convergence de la chane de Markov vers une telle
distribution stationnaire (x).
Lobjectif, dans le cadre dune mthode MCMC, est alors que (x) approxime la distribution
(x) tudie. Des algorithmes, tels que lalgorithme de Metropolis-Hastings [Metropolis et al., 1953]
ou lchantillonneur de Gibbs [Geman et Geman, 1984], permettent dy parvenir.
Mthodes MCMC sur lespace des structures
[Madigan et York, 1995] proposent dapproximer la distribution a priori P(G|D) dun GOSC G
en connaissance de la base de donnes D. Pour y parvenir, lchantillonnage direct sur lespace
des GOSC pourrait tre envisag mais, tant donn la taille de cet espace (cf. section 4.4), une
approche par mthode MCMC est prfre.
Une chane de Markov est alors dfinie sur lespace des GOSC. Les transitions inter-tats de la
chane, correspondant aux passages dune structure une autre, sont dfinies par lapplication
locale dun oprateur dajout/soustraction/inversion dun arc. Les probabilits de transition
entre deux structures G et G0 sont dfinies par une distribution de probabilits localement
uniforme :
1
q(G0 |G) =
|GOSC voisins de G|
Cette mthode est btie sur le principe de lalgorithme de Mtropolis-Hastings (dcrit dans
lalgorithme 4) et dfinit donc une probabilit dacceptation dun nouvel tat. Cette probabilit
est calcule partir des probabilits a posteriori des modles, probabilits qui sont, en pratique,
calcules partir dune fonction de score (score baysien, par exemple).
Algorithme 4 Algorithme de Metropolis-Hastings pour lapprentissage de structures
Entre: burn-in B, base dapprentissage constitue de N cas
Sortie: GB+1 , . . . GB+N
t0
G G0 , (alatoire)
Pour t=1,. . . ,B+N Faire

Proposer G0 , voisine de Gt , avec la probabilit q(G0 |Gt )

Calculer R avec
!
P(G0 |D)q(G0 |Gt )
R = min 1,
P(Gt |D)q(Gt |G0 )

chantillonner u, variable uniforme sur (0,1)


Si u<R Alors
Gt+1 G0
Sinon
Gt+1 Gt
Fin Si
tt+1
Fin Pour
P(G0 |D)

Le quotient P(G|D) , aussi appel facteur de Bayes, est calcul partir dun score baysien tel
que le score BD (cf. section 4.3).
68 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

Le burn-in et la qualit de la convergence de la chane ainsi dfinie sont fortement dpendants


de la taille du problme (i.e. le nombre de variables du modle) et il est frquent de converger
en un optimum local. Plusieurs lancements partir de points distincts de lespace chantillonn
peuvent alors tre effectus.

Mthodes MCMC sur lespace des ordres topologiques


Une alternative, issue de [Friedman et Koller, 2000], consiste parcourir lespace des ordres
topologiques (cf. dfinition 12). Ce type dapproche, aussi employ en conjugaison avec des
algorithmes volutionnaires (cf. section 5.5), combine une recherche sur un espace de taille bien
plus restreinte (gale n!) que celui des structures avec lemploi dune mthode renvoyant la
meilleure structure pour un ordre donn (lalgorithme K2 cf section 4.4.2). On peut valuer un
ordre donn en sommant sur lensemble des graphes topologiquement corrects avec celui-ci,
de manire obtenir P( f |D). Cette somme est gnralement approxime en ne considrant
quun nombre restreint de structures (ayant, par exemple, un nombre maximal autoris de
parents par sommet dans le graphe).
Un mouvement au sein de lespace des ordres topologiques correspond une permutation
de deux variables dans lordre topologique courant ou bien une "coupe" de celui-ci (change
de deux parties). Cette approche est coteuse pour chaque mouvement mais a lieu dans un
espace beaucoup plus restreint que celui des structures.
Bien que cette approche savre plus performante quun chantillonnage dans lespace des
structures, [Eaton, 2007] soulve le problme de la dtermination des distributions a priori sur
les structures. Les probabilits a priori P() des ordres topologiques, dune part, et celles des
structures pour un ordre topologique particulier P(G, ), dautre part, sont uniformes. Cette
uniformit rsulte cependant en une distribution a priori P(G) non uniforme : les structures en
accord avec un nombre suprieur dordres (les structures les plus simples, telles que la structure
vide G0 ), reoivent une probabilit a priori P(G) plus importante.
En sus des problmes prcdemment voqus, les approches MCMC appliques lapprentissage de structures prsentent des inconvnients inhrents aux mthodes MCMC en gnral :
le temps ncessaire la convergence de la chane (le burn-in) peut tre trs longue. Un
moyen de le rduire est dinjecter un certain nombre de contraintes. On peut ainsi dfinir
un nombre de parents maximal par variable afin de rduire lespace parcouru,
la dtection mme de la convergence peut aussi poser problme. Aujourdhui, cela reste
un problme ouvert.

4.5.2

Mthodes volutionnaires

Les mthodes volutionnaires regroupent en leur sein de nombreux algorithmes, souvent


distincts dans leurs fonctionnements, mais pouvant tre ramens au principe de loptimisation
de la solution un problme travers la simulation des prceptes de lvolution biologique.
Nos travaux sont bass sur lemploi de ces mmes algorithmes volutionnaires, et plus
particulirement les algorithmes gntiques. Le chapitre suivant introduit donc les diffrentes
69 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

catgories dalgorithmes volutionnaires connus avant de prsenter les applications existantes


de ces mthodes lapprentissage de la structure dun rseau baysien.

4.6

Problmatiques particulires

Les mthodes tudies jusqu prsent sinscrivent dans une problmatique similaire celle
de nos travaux, savoir lapprentissage de structures de rseaux baysiens supposant :
les variables du domaine sont discrtes ;
les bases dapprentissage utilises sont compltes ;
le problme est causalement suffisant.
Afin de proposer un panorama complet des mthodes dapprentissage, cette section semploie dcrire les mthodes employes lorsque ces hypothses ne sont pas vrifies.

4.6.1

Cas des variables continues

Les mthodes dapprentissage de structures peuvent elles aussi tre adaptes au cas continus, soit par discrtisation de la base dapprentissage afin dapprendre un modle discret, soit
bnficient elles aussi dadaptation au domaine continu. [Colot et al., 1994] emploient une version modifie du critre AIC afin de discrtiser lespace des donnes. Cette pr-discrtisation,
applique la base dapprentissage, servant lapprentissage dun modle lui-mme discret.
Les mthodes de discrtisation peuvent elles-mmes faire partie intgrante de lapprentissage ;
[Friedman et Goldszmidt, 1996] fournissent une mthode de discrtisation laide du critre
MDL, le modle appris et les donnes dapprentissage discrtises sont alors alternativement
rvalues afin doptimiser leur adquation mutuelle. Dautres mthodes ne discrtisent pas
la base dapprentissage ; ainsi [Margaritis, 2005] propose une mthode de test dindpendance
conditionnelle entre deux variables continues. Ce test pouvant alors tre employ au sein dun
algorithme tel que lalgorithme PC (cf. section 4.2.1). Une description tendue des techniques
dapprentissage de structures dans le cas continu peut tre trouve dans [Fu, 2005].

4.6.2

Cas des bases de donnes incompltes : lalgorithme SEM

la diffrence des mthodes vues prcdemment, lalgorithme SEM (Structural Expectation


Maximisation) sinscrit dans le cadre de la recherche du meilleur modle dans le cas o la base
dapprentissage est incomplte.
Issu initialement des travaux de [Friedman, 1997], prolongs dans [Friedman, 1998], SEM
conjugue la mthodologie destimation des donnes vue dans la section lapprentissage par
valuation dans lespace des GOSC pour retourner simultanment la meilleure structure et les
paramtres estims associs.
Les mthodes de dtermination de structures vues dans cette section calculent la vraisemblance du modle candidat par rapport aux donnes en lui associant un score. Dans le cas
jusqualors tudi, celui de donnes compltes, le calcul de cette vraisemblance revient la

70 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

dcomposer en un produit de termes lis au choix des parents des diffrentes variables du
modle ainsi quaux statistiques dtermines partir de la base dapprentissage.
SEM calcule la meilleure estimation des donnes non observes (et, par la suite, les paramtres calculs partir de celles-ci) avant deffectuer une recherche classique telle quen
prsence de donnes compltes.
Lalgorithme 5 dcrit le fonctionnement de SEM.
Algorithme 5 Algorithme Structural EM
1: Initialiser la structure et les paramtres associs G0 ,0
2: t 0 (itrations sur les structures)
3: Tant que t tmax Faire
4:
Tant que Score(Gt ) Score(Gt1 ) Faire
5:
Phase desprance : estimation des paramtres t par EM paramtrique
6:
Tant que |t,m t,m1 |  ou m < mmax Faire
PN
(l)
= E(N
(t)
7:
Nijk
ijk =
l=1 P(Xi = xk |i = i j , DO , )

8:
9:

10:
11:
12:

t,m
=
ijk

Nijk
Pri
N
k=1 i jk

mm+1
Fin Tant que
Phase de maximisation : recherche de la structure Gt+1

cration de lensemble GV des GOSC voisins de Gt1 une opration dinversion,


soustraction ou addition dun arc prs,

calcul de Score(Gv ) pour chaque Gv GV ,

tt+1
Fin Tant que
Gt1 Gt
Fin Tant que

A chaque itration sur t, lalgorithme SEM slectionne la structure la mieux value et les
paramtres associs. Lalgorithme sappuie sur le fait quil essaie damliorer le score chacune
de ses itrations. Cest l que se situe le point faible de SEM : pour lalgorithme EM standard, les
points de convergence correspondent aux points o la fonction objectif est stationnaire ; mais
cette notion nest pas applicable dans lespace des structures de modles. Le problme survient
quand lalgorithme converge vers un maximum local : ce cas se produit si un modle gnre une
distribution assez performante pour faire apparatre les autres solutions comme tant moins
performantes, au vu du score espr.
Plus la quantit dinformation manquante est importante, plus cela risque de se produire.
Il existe plusieurs mthodes permettant lapprentissage de structures partir de bases de
donnes incompltes. Nanmoins, cette problmatique ne faisant pas partie de notre champ
dtudes, nous invitons le lecteur qui souhaiterait en apprendre davantage sur le sujet se
reporter [Franois, 2006], qui tablit un panorama tendu et dtaill de ces diffrentes mthodologies ainsi quune description complte de la problmatique.

71 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

4.6.3

Cas des variables latentes

Les algorithmes prsents dans ce travail de thse, y compris nos propres travaux, font
lhypothse de la suffisance causale (cf. section 4.1.1). Or, il se peut que dans le traitement dun
cas rel certaines variables observes aient une cause commune qui, elle, nest pas observe ;
une telle variable est alors appele variable latente.
A priori, ngliger une variable latente ne semble pas avoir de graves consquences. Ceci
est en partie vrai : lapprentissage dune structure ne tenant compte que des variables observes/connues permet thoriquement dobtenir une I-map du modle considr, rassemblant
lensemble des indpendances conditionnelles au sein de celui-ci. Le rel problme, en dehors
de la vracit mme de la modlisation est une complication du modle obtenu.

(a) avec variable latente

(b) sans variable latente

Figure 4.5 Exemple de rseau appris en prenant en compte ou non une variable latente XL .
Soit lexemple de la figure 4.5(a), correspondant au vrai modle que nous cherchons apprendre. La variable VL est une variable que nous considrons, dans la figure 4.5 comme latente.
Le modle obtenu en labsence de cette variable, reprsent sur la figure 4.5(b), prsente un
nombre lev darcs comparativement au modle complet de la figure 4.5(a). Des dpendances
conditionnelles sont cependant bien dtectes entre les variables X1 , . . . , X6 . Le problme dune
telle modlisation est que, pour un nombre lev de dpendances, la paramtrisation du modle
devient non seulement plus complexe (59 paramtres si les variables sont binaires contre 17
paramtres pour le modle de la figure 4.5(a)) mais, conscutivement, la quantit de donnes
ncessaire pour assurer la fiabilit des paramtres devient trs leve.
La problmatique des variables latentes ne fait pas partie de ce travail de thse et ncessite un
ensemble complet de notions, de dfinitions et dhypothses quil serait impossible dnumrer
ici. Par consquent, cette section se limitera donc une prsentation rsume des principales
notions et travaux ncessaires la comprhension du problme.
De la mme manire que pour les mthodes appliques aux problmes causalement suffisants, les mthodes prenant en charge les problmes variables latentes peuvent se rpartir en
mthodes tests statistiques et mthodes employant un score.
Mthodes statistiques
Les auteurs de lalgorithme PC ont dvelopp une variante de celui-ci prenant en compte les
variables latentes : lalgorithme FCI (pour Fast Causal Inference) [Spirtes, 2001, Spirtes et al., 2000].
72 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

En parallle, les auteurs de lalgorithme IC ont, eux aussi, dvelopp une extension de ce dernier,
nomme IC [Pearl, 2000].
Ces algorithmes ne renvoient pas un GOSC, mais un graphe complet partiellement ancestral
(ou PAG, pour Partial Ancestral Graph). Un PAG permet de reprsenter, pour une mme classe
dquivalence au sens de Markov, lensemble des indpendances conditionnelles du modle (ce
quun GOSC nest pas toujours capable de faire). Nous limitons par la suite notre description
des PAG au traitement des modles variables latentes ; pour une description complte, le
lecteur se reportera [Spirtes et al., 2000].
Dans ce qui suit, nous considrons le sous ensemble O de lensemble des variables V
comme reprsentant les variables observes (i.e. connues) et Cond, lensemble des indpendances
conditionnelles existant au sein des variables de O.
Soit Eq(G, O) la classe dquivalence au sens de Markov de lensemble des GOSC G0 tels que
soit dfini sur un super-ensemble de O et tels que la condition de Markov globale affirme les
indpendances conditionnelles de Cond.
G0

Dfinition 24 est un PAG pour le GOSC G dot de lensemble de sommets V et de lensemble de


variables observes O V si et seulement si :
1. est dfini sur O
2. Il existe une arte X > Y dans si et seulement si X cause Y
3. Sil existe une arte X Y dans alors dans tout graphe de Eq(G, O), X et Y sont les consquences
dune troisime variable Z, latente
4. Sil existe une arte X > Y dans alors, dans tout graphe de Eq(G, O), Y nest pas un anctre
de X : soit X Y, soit X Y
5. Une arte X  Y ne permet aucune conclusion quant aux relations de parent entre X et Y dans
Eq(G, O) ou quant lexistence dune variable latente qui serait leur cause commune
La dtermination du PAG, pour lalgorithme IC*, se fait en plusieurs temps. Dans un premier
temps, un graphe non-orient est dtermin par une suite de tests dindpendance conditionnelle. Puis, la dtection de V-structures permet une premire orientation du graphe obtenu
prcdemment. Ensuite, une srie de rgles (non dcrites ici mais dfinies dans [Pearl, 2000])
permet la dtermination des artes du PAG final.
Les rgles de construction du PAG mise en place dans lalgorithme FCI ont cependant t
dmontres comme tant incompltes et lalgorithme sest vu augment et complt par J. Zhang
[Zhang, 2006]. Bien que ces mthodes reposent sur la notion de causalit, les arcs des solutions
renvoyes ne tiennent plus ncessairement compte de cette dernire notion (un modle causal
peut cependant tre obtenu partir dun PAG [Meganck et al., 2007]).
Enfin une approche similaire (base sur une lecture de la structure sur les variables observes) a t propose par [Elidan, 2004] et consiste dtecter des "signatures graphiques" au
sein du graphe form sur les variables observes et dvaluer les structures augmentes par
lintermdiaire dune version adapte de lalgorithme EM.

73 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

Algorithme 6 Algorithme IC*


Notations : Xi X j signifie Xi X j ou Xi X j ou Xi ( X j
1e tape : Construction dun graphe non-orient
Soit G = {V, E}, le graphe ne relient aucun sommet de V
Pour chaque couple de variables (Xi , X j ) V2 Faire
Chercher SepSetG (Xi , X j ) tel que Xi X j |SepSetG (Xi , X j )
Si SepSetG (Xi , X j ) = alors ajouter larte Xi  X j G
Fin Pour
2e tape : dtection des V-structures
Pour Chaque triplet de V3 tel que Xi Z, Z X j E2 , Xi X j < E Faire
Si Z < SepSetG (Xi , X j ) Alors
Orienter : Xi Z X j dans G
Fin Si
Fin Pour
3e tape : orientation des artes restantes
Rpter
(Xi , X j ) V2
Si Xi X j et un chemin orient de Xi vers X j Alors
orienter larte Xi X j en Xi X j
Sinon
Si X j < Ad jG (Xi ), Z tel que Xi Z et Z X j Alors
orienter larte Z X j en Z X j
Fin Si
Fin Si
Tant quil est possible dorienter des artes dans G

74 / 229

CHAPITRE 4. APPRENTISSAGE DE STRUCTURES

Mthodes employant un score


Lalgorithme SEM (cf. section 4.6.2) peut tre adapt pour la dtection de variables latentes
en considrant celles-ci comme des variables dont la totalit des donnes est manquante lors
de ltape E de lalgorithme. Cependant, SEM prend en entre le nombre de variables latentes
ainsi que leurs cardinalits respectives.
[Zhang, 2003] a adapt lalgorithme SEM afin de permettre la dtection de variables latentes
auprs de modles hirarchiques latents une forme particulire de modle limit une
arborescence et dont seules les feuilles sont observes .
Un autre problme, commun lensemble des mthodes, est la dtermination de la cardinalit
dune variable latente : confrer une cardinalit trop faible pour une variable X revient dans
la plupart des cas compliquer la structure du modle en reliant les variables enfants de
X entre elles afin de mieux dcrire le domaine. [Elidan et Friedman, 2001] introduisent ainsi
une mthode revenant effectuer une slection de modles en faisant varier les diffrentes
cardinalits envisageables.

75 / 229

Chapitre 5

Algorithmes gntiques
Le terme de mthodes volutionnaires regroupe, de nos jours, plusieurs mthodologies diffrentes ayant pour point commun de sinspirer, du moins lorigine, des thories darwiniennes
de lvolution. Ces mthodes proposent ainsi damliorer un ensemble de solutions en simulant
une succession de gnrations au cours desquelles ces solutions subissent une pression visant
favoriser la survie des meilleures dentre elles et sont modifies par des oprateurs ddis, un
principe voqu ds le milieu du XXe sicle par Alan Turing [Turing, 1948].
Ce chapitre a pour objectif dintroduire les principales notions lies ce domaine et plus
particulirement aux algorithmes gntiques afin daider la comprhension des mthodes que
nous avons dveloppes.
Lorganisation de ce chapitre est la suivante :
1. nous commencerons par prsenter les principes gnraux des mthodes volutionnaires,
2. nous ferons par la suite une description gnrale dun algorithme gntique,
3. nous aborderons plus en dtail les composantes dun algorithme gntique,
4. laspect historique ainsi que la thorie fondatrice des algorithmes gntiques seront tudis,
5. certains des principaux dveloppements des algorithmes gntiques seront prsents.
Au pralable et dans un souci de clart, nous souhaitons expliciter certains termes emprunts au vocabulaire des biologistes et couramment employs dans le cadre de lalgorithmique
volutionnaire.
individu : une solution candidate au problme considr, souvent plusieurs solutions sont
simultanment volues et constituent une population dindividus,
chromosome : la reprsentation dun individu, plus exactement le codage de celui-ci au sein
de lalgorithme gntique,
gnration : un algorithme volutionnaire itre plusieurs reprises les mmes oprations sur
les individus, gnrant chaque fois un nouveau lot dindividus pour litration suivante.
Symboliquement, on dsigne par gnration chacune de ces itrations,

77

CHAPITRE 5. ALGORITHMES GNTIQUES

parents/enfants : les relations de paternit expriment communment un lien entre deux solutions candidates. Un enfant dsignant une solution gnre partir dune solution
prexistante qui en est alors le parent,
gnotype/phnotype : ces termes, hrits de la gntique, dsignent respectivement lencodage de la solution (le chromosome et les allles de lindividu) et lexpression de celui-ci.
Le phnotype est exprim par une fonction f valuant la qualit de la solution encode
par le gnotype.

5.1

Introduction

Les algorithmes volutionnaires sont une famille de mthodes de rsolution de problmes


doptimisation consistant perfectionner un groupement de solutions candidates la manire
dune population dorganismes vivants voluant dans un cosystme.
Les diffrentes mthodes volutionnaires se distinguent sur des points tels que laspect de
lvolution aborde (intra ou inter-espces, par exemple), le codage des solutions ou, plus
simplement, les problmatiques auxquelles elles sont adaptes.
Stratgies dvolution : ces mthodes (dsignes par ES pour evolutionary strategies) firent leur
apparition en 1965 [Rechenberg, 1970]. Le ES manipulent des vecteurs de nombres rels.
Si les premiers ES faisaient voluer un individu, les ES plus rcents consistent en des
stratgies, notes (, ), o parents gnrent enfants1 . Si les premiers algorithmes de
type ES nemployaient pas doprateurs de recombinaison, des versions plus rcentes font
ventuellement voluer plusieurs parents et procdent des oprations de croisement ;
Programmation volutionnaire : apparues au milieu des annes soixante [Fogel et al., 1966]
et trs proches des stratgies dvolution, les mthodes de programmation volutionnaire
(ou EP pour evolutionary programming) considrent les solutions volues comme autant
despces diffrentes et ne comporte donc pas de croisement une exception qui est
permise dans le cas des ES . La slection des meilleures solutions est stochastique alors
que ce mme processus est dterministe dans les ES,
Algorithmes gntiques : abords en dtail dans ce travail de thse, les algorithmes gntiques sont issus des travaux de Holland [Holland, 1975] et se dmarquent des mthodes
prcdentes sur des points tels que le recours au croisement,
Programmation gntique : la programmation gntique [Koza, 1989, Koza, 1992] est la plus
rcente des mthodes volutionnaires. Elle est essentiellement ddie lvolution de
programmes ou dautres expressions syntaxiques, reprsents sous forme darbres et
volus suivant un principe similaire celui des algorithmes gntiques.
Nos travaux et, par consquent, les thories et rsultats nous intressant, sont exclusivement
consacrs aux algorithmes gntiques. Le lecteur intress par les mthodes volutionnaires
en gnral pourra cependant trouver des tudes compltes sur celles-ci en se rapportant des
ouvrages et tudes traitant le sujet plus exhaustivement : [Eiben et Smith, 2003, De Jong, 2001,
Nous employons exceptionnellement ici la notation par convention vis--vis de la littrature consacre aux
ES ; cependant cette notation , dans nos travaux, dsigne la taille totale de la population.
1

78 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

Kallel et al., 2001]. Une introduction complmentaire aux algorithmes gntiques peut de mme
tre trouve dans [Whitley, 1994].
Nous portons maintenant notre attention sur les algorithmes gntiques travers une prsentation de ces algorithmes, une tude de leur implmentation dorigine ainsi que de leurs
diffrentes composantes, pratiques et thoriques.

5.2

Les algorithmes gntiques

Les algorithmes gntiques ont connu, depuis leur cration, des implmentations diverses ;
nanmoins, la plupart de ces implmentations suivent le schma du premier algorithme gntique propos par Holland en 1975. Ce schma est connu sous le nom dalgorithme gntique
canonique et est dcrit par lalgorithme 7.
Algorithme 7 Algorithme gntique canonique
*/ Initialisation /*
t 0;
Gnrer alatoirement et uniformment une population initiale P0 de individus et valuer
ceux-ci laide dune fonction f ,
*/ Evolution /*
1. slectionner des individus de Pt pour la reproduction ;
2. obtenir de nouveaux individus par application de loprateur de croisement sur les individus pralablement slectionns ;
3. appliquer un oprateur de mutation sur les nouveaux individus : les individus obtenus
constituent la nouvelle population Pt+1 ;
*/ valuation /*
Evaluer les individus de Pt+1
t t + 1;
*/ Arrt /*
Si un critre dfini est rencontr, arrt, sinon, relancer la phase dvolution

Lalgorithme gntique canonique suit lui-mme le schma gnral de fonctionnement dun


algorithme volutionnaire, rsum par la figure 5.1.
Un algorithme gntique consiste en une srie doprations de manipulation et de slection
itres sur une population dindividus. Nous allons, dans la suite, nous employer dcrire
les diffrents aspects, conceptuels et pratiques, ncessaires la construction dun algorithme
gntique.

79 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

Figure 5.1 Schma gnral de fonctionnement dun algorithme gntique.

5.2.1

Les composantes dun algorithme gntique

Reprsentation des individus Comme nous lavons prcis en entre de chapitre, une solution
en tant quindividu se prsente sous deux formes : son phnotype, qui est une mesure qualitative
de la solution, et le gnotype, qui est lencodage de la solution.
La forme de lencodage est primordial car il dtermine entre autres lefficacit avec laquelle
vont pouvoir agir les diffrents oprateurs dexploration et dexploitation de lespace des solutions. Alors que les premiers algorithmes gntiques travaillaient exclusivement sur lespace
des chanes binaires (la justification de cette approche est aborde en section 5.3.1). Le problme
du choix de la reprsentation dpend essentiellement de lexistence doprateurs adquats.
Ainsi, depuis le premier algorithme travaillant sur les chanes binaires, les espaces pouvant
tre utiliss au sein dun algorithme gntique se sont diversifis. Il est, de fait, possible de travailler sur nimporte quel espace de solutions tant que les oprateurs gnotypiques prsentent
certaines proprits [Radcliffe, 1991].
possibilit dexplorer lensemble de lespace des solutions en un nombre fini doprations
(intrt de la mutation) ;
transmission des proprits communes des parents leurs enfants ;
stabilit de la fonction dvaluation au voisinage des individus (principe aussi appel
strong causality principle [Rechenberg, 1970]).
Des oprateurs adquats ont ainsi t dfinis afin de travailler dans lespace des rels, des
permutations dentiers ou encore des arbres.

80 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

valuation Un algorithme gntique est bas sur la performance des individus composant la
population de solutions. Cette performance le phnotype de lindividu concern est value
au travers dune fonction : la fitness.
La performance peut revtir plusieurs formes, il peut sagir dune concordance par rapport
une base de donnes, dune valeur moyenne, etc. La fonction dvaluation va prendre la forme
dune valeur que nous allons chercher maximiser (ou, inversement, minimiser) travers
lvolution de la population.
Le choix de la fonction dvaluation, bien quil soit frquemment impos par le contexte
du problme, requiert une grande attention car le cot du calcul de cette fonction reprsente
souvent la majeure partie du cot de lalgorithme gntique lui-mme.

Initialisation Une fois que lon a choisi la reprsentation et la fonction dvaluation, la premire tape pralable la mise en marche du processus dvolution consiste initialiser une
population de dpart.
Loption la plus simple consiste frquemment en une initialisation alatoire, en plusieurs
points de lespace des solutions. Il est nanmoins souvent possible de tenter de crer une
population dores et dj en possession dun gnome "performant" et ce en faisant appel une
heuristique existante offrant des solutions sinon performantes, du moins de bonne qualit.
Linitialisation par une heuristique doit cependant tre aborde avec prcaution. Il est possible dintroduire un biais dans linitialisation et de risquer une convergence prmature vers
un optimum local.

5.2.2

Oprateurs phnotypiques

En accord avec les principes darwiniens, les algorithmes gntiques entreprennent de favoriser lapparition et la survie des individus les plus aptes. Cette pression sexerce partir la
mesure de qualit ou fitness de ceux-ci.

Stratgies de slection La slection intervient lors de deux phases distinctes : la slection


dindividus pour le croisement et le remplacement des individus dune gnration une autre.
Il est ncessaire, chaque gnration, de slectionner des individus devant participer la
reproduction. Dans un souci de conservation de la diversit du matriel gntique disposition,
les oprateurs de croisement fonctionnent sur la base de probabilits. Ces probabilits favorisent
les individus les plus aptes mais nexcluent pas la slection dindividus moins performants et
ceci afin de pouvoir garantir la diversit du matriel gntique de la population.
Les premires stratgies de slection taient directement proportionnelles la fitness des
individus considrs (on parle alors de slection par roulette). Bien que refltant laspiration
premire du principe de slection, une telle approche risque de grandement favoriser dventuels super-individus (prsentant une fitness bien suprieure la moyenne) et de provoquer
une convergence prmature de la population. Par la suite, dautres stratgies ont t dveloppes telles que la slection par tournoi, opposant des lots dindividus afin den slectionner le
81 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

meilleur avec une certaine probabilit, ou bien encore la slection par rang o la probabilit de
slection est proportionnelle au rang de la fitness de lindividu dans la population.
La principale diffrence entre les phases de slection pour le remplacement et de slection
pour le croisement est quun individu peut tre slectionn, par tirage au sort, plusieurs
reprises pour participer au croisement. Lors de la phase de remplacement, un individu voit son
sort dcid une fois pour toutes (survie ou disparition).
Lalgorithme gntique canonique constitue chaque nouvelle population partir des individus nouvellement crs ; cette approche risque cependant de poser un problme si un chromosome de trs bonne qualit se voit altr la suite dun croisement et/ou dune mutation. La
politique de renouvellement total de lalgorithme gntique canonique risque alors dentraner
une dgradation de la meilleure solution jusqualors rencontre. [Rudolph, 1994] montre que
lalgorithme gntique canonique ne saurait garantir la convergence vers un optimum global
sans conservation dune gnration lautre de la meilleure solution trouve.
On parle de stratgie litiste lorsque le meilleur enfant est moins performant que le meilleur
parent, celui-ci est automatiquement transmis la gnration suivante. Cette conservation
dune gnration lautre est en particulier souhaitable lorsque le cot du calcul de la fitness
dun individu est lev. Le revers tant que lon risque, en particulier avec la conservation dun
trop grand nombre dindividus, une convergence prmature de la population en un optimum
local.

5.2.3

Oprateurs gnotypiques

Ces oprateurs travaillent directement sur la reprsentation (le chromosome) de lindividu


afin de gnrer de nouvelles solutions par recombinaison avec dautres lments de solution
ou bien le modifiant alatoirement.

Oprateur de croisement Loprateur de croisement prend en entre deux (ou plus) parents
et recombine diffrents lments issus de ceux-ci afin de gnrer un ou plusieurs individus.
Lorsque les individus croiss sont gntiquement proches (leurs gnotypes diffrent peu),
le croisement a une vocation dexploitation de lexistant. Ce rle est cependant modifi lorsque
les parents sont trs diffrents, dans ce cas loprateur devient un oprateur dexploration de
lespace.
Alors que lalgorithme gntique canonique effectue le croisement par change simple des
moitis de chromosomes des parents, dautres types doprateurs de croisement sont apparus.
Les possibilits actuelles sont nombreuses et dpendent de la problmatique aborde : oprateurs de croisements en plusieurs points, fusion de solutions, croisement linaire avec des poids
tirs alatoirement, etc.

Oprateur de mutation Par analogie avec les thories darwiniennes selon lesquelles le gnome dune population volue ponctuellement par lintermdiaire de mutations localises,
loprateur de mutation dun algorithme gntique a pour rle lexploration de lespace des
82 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

solutions du problme considr par une srie de perturbations alatoires des chromosomes de
la population.
Sur une reprsentation telle quune chane de bits, cette modification consiste, par exemple,
inverser alatoirement un ou plusieurs bits.
Le fonctionnement de loprateur de mutation est stochastique : une mutation peut survenir
en chaque gne ou ponctuellement en un gne alatoirement choisi dun individu avec une
probabilit Pmute .

Critre darrt On peut dcider de la terminaison des calculs aprs un certain dlai (temps
ou nombre ditrations), aprs que le meilleur individu ait atteint un certain niveau de qualit,
aprs un certain nombre ditrations sans amlioration du meilleur individu ou bien lorsque
lcart type de la fitness de la population passe en de dun certain seuil.

Les paramtres dun algorithme gntique En dehors des diffrents oprateurs et stratgies
entrant en compte dans limplmentation dun algorithme gntique, il existe un certain nombre
de paramtres dfinir :
Taille de la population : Si de manire intuitive, une population de grande taille parat tre
une solution idale et ce afin de mieux explorer lespace de recherche, laugmentation
en terme de cot de calculs supplmentaires nest pas ngliger. En labsence dune
stratgie visant adapter ce paramtre au long du fonctionnement de lalgorithme (voir
[Eiben et al., 2004, Eiben et al., 2006]pour des exemples de stratgies dadaptation de la
taille de la population), le retour dexprience reste le manire la plus rpandue de fixer
ce paramtre ;
Probabilit de croisement : Une fois quun ensemble dindividus a t slectionn pour participer la reproduction, ceux-ci ny participeront rellement quavec une probabilit dite
de croisement, Pcross ;
Probabilit de mutation : Sujet de nombreuses discussions, la probabilit de mutation Pmute
reprsente la probabilit avec laquelle un individu (ou un de ses gnes) subira leffet
de loprateur de mutation. Si une probabilit leve permet une grande couverture de
lespace de recherche, une solution proche de loptimal recherch naura alors que peu
de chances dy parvenir suite une perturbation trop forte. Inversement, une probabilit
trop faible restreint la recherche et diminue dautant les chances dapprocher cet optimal ;
Le paramtrage dun algorithme gntique est dlicat. Souvent, le paramtrage est tabli
soit partir dune connaissance a priori du problme rsoudre, soit, le plus souvent, partir
dun plan dexprience et de nombreux essais. Nous verrons que certaines recherches ont vis
automatiser le paramtrage en laissant ce dernier, au mme titre que la population mme,
la discrtion du processus volutionnaire.
Il faut rappeler quil nexiste pas de paramtrage universellement performant pour un algorithme gntique. Sil existe des valeurs acceptes pour certains paramtres on emploie
souvent une probabilit de croisement proche des 0,80 ainsi quune probabilit de mutation en
O( n1 ) avec n, le nombre de gnes du chromosome il est presque toujours ncessaire de passer
par une phase dtalonnage.
83 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

5.2.4

Applications des problmes continus

Les stratgies dvolution, comme nous lavons mentionn prcdemment, ont t conus
pour la manipulation de vecteurs de nombres rels ; mais les algorithmes gntiques peuvent,
eux aussi, tre employs pour la rsolution de problmes doptimisation continue problmes
pour lesquels la fonction optimiser est dfinie sur lespace des rels .
lorigine, les algorithmes gntiques taient conus pour ne manipuler que des chanes
binaires et les premires approches des problmes continus consistaient en un codage des valeurs relles sous forme de chanes binaires. Cette approche a pour inconvnient, dune part,
un manque de prcision dans le codage des solutions (plus on doit tre prcis, plus une chane
binaire encodant un nombre rel doit tre longue) et, dautre part, pose le problme dincongruit entre une distance dans lespace des gnotypes (binaires), la distance de Hamming, par
exemple, et une distance dans lespace des phnotypes (rels) [Deb et Agrawal, 1995]. Bien que
dautres mesures dans lespace binaire permettent de saffranchir, en partie, du deuxime point
soulev (e.g. lutilisation dun codage de Gray), la dernire dcennie a vu apparatre un nombre
croissant de travaux sappliquant travailler directement avec des reprsentations relles,
laide doprateurs ad hoc [Davis, 1991, Parker, 2002] ou dautres reprsentations intermdiaires
[Surry et Radcliffe, 1997].
Des complments quant loptimisation continue par des mthodes volutionnaires peuvent
tre trouvs dans [Auger, 2004]. Nous verrons, plus loin dans ce chapitre, que dautres types de
mthodes volutionnaires les algorithmes estimation de distribution peuvent, eux aussi,
travailler sur des espaces continus.

Si cette section sest attache prsenter les lments constitutifs couramment implments
dans un algorithme gntique, nous allons aborder dans la suite un rapide descriptif des thories
et concepts sur lesquels se basent les algorithmes gntiques.

5.3

tude thorique

Cette section a pour objectif de prsenter au lecteur les premires thories la base des
algorithmes gntiques ainsi que les dernires opinions et critiques vis--vis de celles-ci.

5.3.1

Le thorme des schmas

Quand Holland conut les algorithmes gntiques, ce fut avant tout dans lesprit dune
modlisation informatique du processus dvolution tel que dcrit par Darwin. Cependant,
le principe mathmatique initial des algorithmes gntiques tait fond sur le thorme des
schmas, une thorie visant expliquer le comportement dun algorithme gntique en tant
quoptimiseur.
Un schma est une chane formes dlments dun alphabet A auxquels sajoute un terme
employ comme "joker". Par exemple, si A = {0, 1}, les chanes {01011001} et {11000010} font
84 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

partie du schma H1 = {100}. Dans la suite de cette section, nous considrons que lalphabet
employ est A = {0, 1}.
Un schma est notamment caractris par son ordre, not ordre(H), cest dire lensemble de
ses lments prenant une valeur fixe ( {0, 1}). Dans lexemple prcdent, H1 , ordre(H1 ) vaut 3.
La longueur de dfinition dun schma est, elle, gale lcart maximal entre deux bits valeurs
fixes dans le schma. Par exemple, d(H1 ) = 4.
Le thorme des schmas vise mesurer lesprance du nombre doccurrences N(H, t + 1)
dun schma H prsent dans la population un temps t + 1 en fonction du nombre de ces
occurrences au temps t prcdent, des caractristiques du schma et de la qualit des individus
contenant ce schma. Les calculs suivants sappliquent dans le cadre du fonctionnement de
lalgorithme gntique canonique, tel que dfini dans la figure 5.1.
Cette esprance dpend de la persistance du schma vis--vis des trois oprateurs de lalgorithme gntique (slection, croisement, mutation) :
slection Soit ft (H), la fitness du schma H. Elle est calcule en moyennant la fitness de lensemble des membres du schma prsents dans la population au temps t. La probabilit
de slection est directement proportionnelle la fitness, donc :
Pselect (une instance de H) =

ft (H)
ft

Ce calcul ignore cependant les effets des oprateurs de croisement et de mutation, lesquels
peuvent eux-mmes affecter le schma H,
croisement le schma H est "coup" par le croisement avec une probabilit gale :
Pcross

d(H)
l1

o l reprsente la longueur du chromosome parent.


La probabilit de destruction du schma est en ralit infrieure au terme prcdent : si
deux individus prsentant le schma H se croisent, H ne sera pas dtruit. Dautre part, ce
calcul ignore le cas o le croisement gnre un individu appartenant H ;
mutation la probabilit de ne pas dtruire le schma est gale la probabilit de ne pas altrer
au moins un de ses points fixes, au nombre de ordre(H), soit gale : 1 (Pmute )ordre(H) .
En connaissance de ces trois facteurs, le thorme des schmas permet alors dcrire lingalit suivante :
!
ft (H)
d(H)
1 Pcross .
(1 Pmute )ordre(H)
(5.1)
E [N(H, t + 1)] N(H, t)
l

1
ft
En parallle au thorme des schmas, deux notions virent le jour :
Building blocks : Une hypothse corrle au thorme des schmas est lhypothse des blocs
de construction ou building blocks dveloppe par Goldberg [Goldberg, 1989]. La reprsentation dun schma H au sein de la population crot rapidement si H est trs court
(et peu susceptible dtre dtruit par croisement ou mutation) et dot dun ratio de fitness
suprieur 1. Lalgorithme favorise alors la dcouverte et la recombinaison de ces blocs
lmentaires de solutions,
85 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

Alphabets employs : les alphabets de faible cardinalit, employs pour le codage du gnotype des individus volus, devraient permettre lchantillonnage, pour un chromosome
assez long, dun nombre maximum de schmas pour un seul individu.
Pendant longtemps, le thorme des schmas, lemploi de lalphabet binaire et la recherche
des meilleurs blocs de construction guidrent la conception des algorithmes gntiques. Comme
nous allons le voir par la suite, ces diffrents points se sont cependant vus remis en question.

5.3.2

Critiques

Ds la fin des annes quatre-vingts, le thorme des schmas fut srieusement remis en question. Des lacunes dans la formulation du thorme ainsi que les observations des performances
de lalgorithme gntique canonique sur diverses classes de problmes mirent en vidence
plusieurs problmes, parmi lesquels :
les alphabets de faible cardinalit ne permettent pas systmatiquement un chantillonnage
optimal de lespace des schmas [Antonisse, 1989]. Une dmonstration du raisonnement
original de Holland ainsi que de celui dAntonisse peut tre trouve dans [Koehler, 1997],
La majorit des problmes doptimisation difficiles sont trompeurs [Whitley, 1991]. Cest-dire que les blocs de construction reprs comme performants par la fonction dvaluation
de lalgorithme ne font pas ncessairement partie de loptimum recherch. Dans ce cas, la
majorit des algorithmes gntiques ne trouvent pas loptimum global recherch,
la prolifration dun schma de bonne qualit, suggre par le thorme des schmas,
ignore compltement les autres schmas prsents dans la population. mesure que celleci converge, le ratio de la fitness du schma sur la fitness moyenne converge vers 1 et le
nombre de reprsentants se verra affect par les oprations de croisement et de mutation,
un autre point crucial ignor dans lnonciation du thorme est le choix de la reprsentation. Un choix a priori arbitraire de cette reprsentation interdit la prvalence de lalgorithme gntique car il est alors impossible de garantir la transmission de linformation
sous forme de schmas [Radcliffe, 1992],
comme nous lavons mentionn, le thorme des schmas ignore les possibilits de gnration de schmas par le biais du croisement.
Pour ces raisons, entre autres, il sest vite avr que le thorme des schmas ne permettait
pas de justifier les performances de lalgorithme gntique et ne pouvait donc servir de base
llaboration dun algorithme performant. Le thorme des schmas na plus aujourdhui
quune valeur historique.
Sil est vrai que la simulation du milieu naturel en tant que solveur de problme pouvait,
dans un premier temps, laisser esprer lobtention dun solveur "universel", cet espoir a depuis
t srieusement remis en question.
Il a dabord t prouv que les algorithmes gntiques, sous leur forme originelle, ntaient
pas des optimiseurs [De Jong, 1992]. Principe confort, par la suite, par le thorme du No free
lunch (en franais : "pas de repas gratuit") [Wolpert et Macready, 1995]. Ce thorme, qui nen
est pas vraiment un, statue que tout algorithme se comporte, en moyenne, de la mme manire
sur lensemble des problmes doptimisation ; si un algorithme est avantageux sur un problme
particulier, il est inversement dsavantag sur les autres problmes. En rsum, il ne peut exister
86 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

un algorithme universel pouvant rsoudre lensemble des problmes doptimisation. Pour une
classe de problmes donne, il est ncessaire de rendre lalgorithme optimal pour la rsolution
de cette classe, prcisment.
Un tournant dans lavancement des algorithmes gntiques furent les travaux de D. Davis
[Davis, 1991].
Celui-ci a abord les algorithmes volutionnaires dun point de vue purement pratique.
Avant mme que napparaisse le thorme du no free lunch, Davis statua le premier sur la ncessit de concevoir un algorithme gntique ddi et conu autour du problme rsoudre. Davis
mit en avant une approche "ingnieur" de lalgorithmique volutionnaire. Les rsultats obtenus
par Davis eurent clairement une influence sur le devenir des algorithmes volutionnaires. Les
tudes circulant autour des algorithmes se sont rapidement divises en deux branches : une
premire se proposait dtudier ces algorithmes dun point de vue pragmatique, en tudiant
principalement les applications diverses qui pouvaient tre faites dans le domaine de loptimisation tandis quune deuxime branche sintressait plus particulirement la modlisation
mathmatique et lapproche biomimtique des algorithmes volutionnaires.
Un des points importants levs par Davis est que les algorithmes gntiques sont des mthodes doptimisation dune grande souplesse et trs robustes, en particulier vis--vis du bruit,
mais ne constituent quasiment jamais la meilleure mthode doptimisation dun problme
donn.

Jusquici, ce chapitre a introduit les algorithmes volutionnaires, en gnral, et les algorithmes gntiques en particulier. Aprs une introduction dabord pratique puis thorique ces
algorithmes, les points suivants devraient tre retenus :
le comportement dun algorithme gntique est essentiellement stochastique. Comme
toute mthode volutionnaire, un algorithme gntique noffre aucune garantie dobtention de loptimum global du problme considr en un temps fini ;
la conception dun algorithme gntique pour un problme donn passe par la mise
au point de nombreux oprateurs et paramtres. Une approche incorporant le plus de
connaissances a priori du problme possible est souhaitable ;
la grande libert offerte travers la conception des diffrents oprateurs accorde une
grande souplesse aux algorithmes gntiques. Ces algorithmes permettent de traiter un
trs grand nombre de problmes diffrents et ce, en accordant leurs diffrentes composantes ces problmes.
Nous nous sommes jusqualors intresss aux fondements des algorithmes gntiques, la
forme canonique de celui-ci, les oprateurs traditionnellement employs ainsi que les grands
traits des thories associes. Mais depuis les deux dernires dcennies, lintrt port aux
mthodes volutionnaires a permis lmergence de plusieurs mthodologies et approches lies
celles-ci. La suite de ce chapitre sattache en dcrire certaines des plus reconnues.

87 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

5.4

Dveloppements autour des algorithmes gntiques

Cette section na pas pour ambition dtudier de manire exhaustive les nombreux concepts
et mthodologies conus autour des algorithmes gntiques. Nous souhaitons, ici, prsenter
certains des dveloppements figurant parmi les plus connus et ayant trait nos travaux.
Diffrentes aspirations furent lorigine de ces dveloppements :
du dsir de saffranchir de la phase, parfois hasardeuse, du paramtrage de lalgorithme ;
dune adaptation de lalgorithme gntique certains types de problmes ;
dune extension du principe de paralllisme implicite de lalgorithme gntique ;
Le lecteur trouvera dans la suite de ce chapitre les diffrents concepts et applications de ces
dveloppements qui ont, pour certains, servis de base notre travail.

5.4.1

Adaptativit des paramtres

Une utilisation efficace des mthodes volutionnaires ncessite la dtermination des paramtres tels que la taille de la population ou les diffrentes probabilits employes pour
lexploration ou lexploitation de lespace des solutions.
Les premiers algorithmes volutionnaires taient paramtrs de faon statique : les diffrents
paramtres influant sur lvolution de la population taient dtermins par lutilisateur, pralablement au lancement de lalgorithme et demeuraient fixes par la suite. Le rglage (comprendre
par l le choix du jeu optimal de paramtres) seffectuait de manire empirique, en choisissant
les paramtres retournant les meilleurs rsultats.
Le problme dun tel rglage est quil revient gnralement affiner les choix des paramtres
successifs en ignorant les interactions existant entre les oprateurs dexploration (mutation) et
de recombinaison (croisement) de lalgorithme. loppos, tester sans stratgie des ensembles
de paramtres revient effectuer un nombre prohibitif dessais.
Une limite vidente de cette technique est quun rglage statique, non content de ncessiter
un nombre important dessais, ne dbouche pas forcment bien au contraire sur un choix
globalement optimal des paramtres.
Enfin, lutilisation de paramtres fixes au sein dun algorithme vocation volutionnaire
donc dynamique est plus que contradictoire, sans compter le fait quun choix de paramtre
optimal lors dune phase de lvolution ne lest plus forcment durant une autre.
Lexemple le plus intuitif illustrant lutilit de paramtres dynamiques est celui de la probabilit de mutation. Au dpart de lexploration, une probabilit importante est souhaitable
afin dtendre celle-ci mais, mesure que la population converge, une probabilit rduite est
prfrable afin daffiner la recherche.
Daprs [Eiben et al., 1999, Richter et Paxton, 2005], nous pouvons regrouper les diffrentes
politiques dadaptativit dun algorithme gntique au sein dune classification.
Contrle dterministe : la valeur du paramtre est influence selon une rgle dtermine. Cela
peut tre une volution en fonction du nombre ditrations dj effectues, par exemple ;
Contrle adaptatif : le paramtre est ajust en fonction de lvolution de la recherche : on utilise
un retour sur la qualit de la population ou sur lexploration en cours ;
88 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

Contrle auto-adaptatif : les paramtres ne sont plus globaux mais locaux chaque individu
i.e. les paramtres font partie du gnotype. La distinction avec le contrle adaptatif rside
dans le fait que les paramtres sont grs comme le reste du gnotype et donc soumis aux
diffrents oprateurs gntiques.
Une des premires approches de ladaptativit applique aux algorithmes volutionnaires
est due Rechenberg avec la rgle des 1/5 [Rechenberg, 1970]. Cette rgle sapplique lorigine
dans le cadre dune stratgie volutionnaire note (1+1) (un seul parent et un seul enfant sont
volus) :
les solutions sont modlises par un vecteur de nombres rels,
chaque gnration comporte un seul parent et un seul enfant,
la mutation consiste en laddition du vecteur solution original avec un vecteur de nombres
alatoires gnrs par une distribution gaussienne de moyenne 0 et dcart type : N(0, ).
La rgle des 1/5 consiste adapter le pas de la mutation, , en fonction des performances
observes de la descendance par rapport celle des parents. Prcisment, on relve priodiquement (en fonction du nombre de paramtres volus) le taux des mutations ayant gnr un
meilleur individu. Sil savre suprieur 1/5, le pas de la mutation est augment ; inversement,
le pas est diminu sinon. Le mcanisme de cette rgle est rsum par lquation 5.2.
> 1/5 = c
= 1/5 =
< 1/5 = d

c > 1, d < 1

(5.2)

Le principe tant que, lorsque le taux est assez grand (> 1/5), cela signifie que lon doit
chercher amplifier une recherche de toute vidence fructueuse. Inversement, si la recherche
dgrade les solutions actuelles, il vaut mieux rduire le pas afin de chercher dans la proche priphrie de ces solutions. Cette stratgie a malheureusement t conue sur la base de problmes
linaires et ce, travers une des premires formes de stratgies volutionnaires consistant ne
faire voluer quun seul parent pour un enfant chaque gnration. Des expriences ultrieures
[Chellapilla et Fogel, 1999] montrrent que la rgle des 1/5 savrait rapidement inefficace et
suscitait une convergence prmature.
Bck et Schultz [Bck et Schtz, 1996] ont propos de contrler la probabilit de mutation
en fonction du nombre ditrations dj effectues. Linconvnient dune telle approche est de
tenir compte uniquement du temps et jamais de lvolution de la population (i.e. o en est cette
dernire dans sa convergence ?).
Un autre exemple dadaptativit de la probabilit de mutation de chacun des n diffrents
bits encodant un individu est donn dans [Droste et al., 2001] :
(

Pmute (t) = 2 Pmute (t 1)


si Pmute (t) > 12 , alors Pmute (t)

)
1
n

La probabilit de mutation dun bit varie de faon cyclique, doublant chaque


de
j itration
k
1 1
lalgorithme tout en restant dans lintervalle [ n , 2 ]. La probabilit prend alors log2 n valeurs
diffrentes.

89 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

5.4.1.1

Contrle par gain constant

Une possibilit propose dans [Thierens, 2002] est le contrle par gain constant. Le principe
repose dans un apprentissage de forme stochastique de la valeur du paramtre.
Soit :
I, un individu de la population, dot dune probabilit de mutation Pmute ,
, nomm facteur dexploration : un paramtre rel fix, suprieur 1,
, le coefficient dapprentissage, un paramtre rel fix, 1 < < .
Lors de sa phase de mutation, lindividu I est mut trois reprises, suivant trois probabilits
diffrentes : Pmute , Pmute / et Pmute . Les trois nouvelles solutions obtenues sont values et
la meilleure dentre elles rejoint la population.
La probabilit de mutation de lindividu ainsi slectionn est fixe en fonction du facteur
dexploration son origine et du coefficient dapprentissage consquent :
Pmute
1. mutation(I, Pmute
) (I1 , )
mutation(I, Pmute ) (I2 , Pmute )
mutation(I, Pmute ) (I3 , Pmute )

2. Choisir le meilleur individu de {(I, Pmute ), (I1 , Pmute


), (I2 , Pmute ), (I3 , Pmute )}
Les valeurs prconises pour les paramtres sont de = 1, 5 et = 1, 1. Linconvnient
majeur de cette mthode est de ncessiter trois mutations et donc trois processus de gnration/
valuation pour les trois diffrentes valeurs du taux .

5.4.1.2

Contrle auto-adaptatif

Comme nous lavons expliqu prcdemment, le principe ici revient encoder directement
les paramtres de contrle des oprateurs gntiques dans le gnotype des individus. Il ny a
pas ici de lien direct entre le choix des paramtres et la qualit des individus retourns. Le lien
se fait indirectement en se basant sur lvolution de la population : les paramtres adquats
renvoient les meilleurs gnotypes qui, leur tour, se propagent dans la population.

Rpartition normale de la probabilit de mutation


Un exemple, tir de [Bck et Schtz, 1996] est :
1 Pmute (t) N(0,1)
e
Pmute (t + 1) = 1 +
Pmute (t)

!1
(5.3)

Tel que Pmute (t + 1) suit une distribution de probabilits de densit :

90 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

fPmute (t+1) (x) =

1
2x(1 x)

ln x
1x
22

)
(5.4)

o = ln 1p et est un coefficient dapprentissage servant contrler la vitesse dadaptation


( = 0.22 dans [Bck et Schtz, 1996]).

Autres approches adaptatives


Il existe de nombreuses mthodes dadaptation ou dauto-adaptation ; le lecteur intress
par ce sujet pourra consulter les articles et ouvrages suivants : [Anastasoff, 1999, Angeline, 1995,
Bck, 1992, Bck et al., 2000, Bck et Schtz, 1996, Gomez, 2004, Saravanan et al., 1995].

5.4.2

Algorithmes estimation de densits

Certaines mthodes volutionnaires se dmarquent des approches vues jusquici en faisant


voluer non plus une population, sous la forme dun ensemble de solutions candidates, mais la
distribution de probabilits des meilleures solutions de lespace de recherche. Ces algorithmes,
regroups sous la dnomination dEDA (pour Estimation of Distribution Algorithms) ont fait leur
apparition dans le courant des annes quatre-vingt dix [Mhlenbein et PaaB, 1996]. Notons cependant que antrieurement ces travaux, des approches similaires avaient fait leur apparition
[Zhigljavsky, 1991, Baluja, 1994].
Depuis, diffrentes stratgies ont t dveloppes dans le domaine de lestimation de distributions de probabilits, sadaptant des espaces continus ou employant des modles graphiques probabilistes pour la modlisation des distributions.
Deux ouvrages [Larraaga et Lozano, 2001, Lozano et al., 2006] offrent un panorama tendu
des mthodes estimation de distribution. Nous limitons ici notre tude lintroduction des
deux approches EDA les plus connues : UMDA pour Univariate Marginal Distribution Algorithm)
et PBIL (Population-Based Incremental Learning), avant de prciser certaines contributions au
domaine pour enfin aborder les applications de ces concepts lapprentissage de la structure
dun rseau baysien.

Principe gnral
Une difficult inhrente aux algorithmes gntiques est la dtermination de nombreux paramtres, dtermination revenant un problme doptimisation des dits paramtres.
Le principe dun EDA est de faire voluer non plus une population de solutions mais un
vecteur de probabilits formulant la probabilit jointe des meilleures solutions.
Pour cela, les oprateurs de croisement et de mutation usuellement employs dans les algorithmes gntiques sont ici remplacs par une estimation de la distribution jointe des solutions
prometteuses. Cette estimation est itrativement employe afin de gnrer de nouvelles solutions qui, elles-mmes, servent restimer la distribution de probabilits.
91 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

Nbp individus, gnrs alatoirement, constituent une population de dpart Pop0 . Dans un
premier temps, NbSE individus sont slectionns parmi P0 avec NbSE Nbp afin de constituer
un chantillon PopSE
. Ces derniers individus, refltant les meilleures solutions gnres, vont
l1
servir la mise jour de la distribution de probabilits volue au sein de lalgorithme dans
la phase suivante. Enfin, un nouvel chantillon P1 est gnr partir de la distribution mise
jour. Lalgorithme boucle ensuite entre mise jour de la distribution et phase dchantillonnage/slection sur cette distribution jusqu un certain critre darrt.
Les EDA peuvent tre schmatiss par le pseudo-code de lalgorithme 8.
Algorithme 8 Algorithme EDA gnral
Pop0 Nbp individus gnrs alatoirement
l1
Rpter
PopSE
NbSE Nbp individus slectionns depuis Popl1
l1
pl (x) = p(x|PopSE
) Estimation de la distribution de probabilit des individus
l1
Popl chantillonner Nbp nouveaux individus (la nouvelle population) depuis pl (x)
ll+1
Tant que la condition darrt nest pas satisfaite
Cette description, volontairement gnrale, occulte plusieurs facteurs, tels que la mthode
de gnration de lchantillon initial P0 et la mthode de slection des NbSE individus au sein
de cet chantillon. La problmatique majeure dans llaboration dune telle mthode demeure
cependant la procdure destimation de la distribution de probabilits des meilleures solutions.
Nous prsentons par la suite deux mthodes base dEDA parmi les plus connues : les
approches UMDA (pour Univariate Marginal Distribution Algorithm) et PBIL (pour PopulationBased Incremental Learning). Remarquons que ces mthodes assument le fait que la distribution
de probabilits jointe volue peut se factoriser simplement, ce qui nest pas toujours le cas.

Algorithme UMDA
Cet algorithme, issu de [Mhlenbein, 1998] et dcrit par lalgorithme 9, modlise la distribution de probabilits
jointe en la rduisant au produit des distributions marginales indpenQn
dantes : pl (x) = i=1 pl (xi ) sur les diffrents xi , i 1 . . . n composant la solution x.
Chaque distribution marginale est elle-mme estime partir des frquences marginales
tires de lchantillon PopSE
: la notation j (Xi = xi |PopSE
) employe dans lalgorithme 9 a pour
l
l1
e
valeur 1 lorsque la i composante du je lment de PopSE
vaut xi et 0, sinon.
l1
Algorithme PBIL
Issu des travaux de [Baluja, 1994], la population dindividus est ici reprsente par un vecteur de probabilits. Les individus slectionns dans lchantillon sont employs afin de mettre
jour la distribution de probabilits dont ils sont issus. Lalgorithme PBIL, dans sa forme originelle, cherche optimiser un vecteur binaire n dimensions. La population est par consquent
92 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

Algorithme 9 Algorithme UMDA gnral


l1
Pop0 Nbp individus gnrs alatoirement
Rpter
PopSE
NbSE Nbp individus slectionns depuis Popl1
l1
pl (x) =

p(x|PopSE
)
l1

n
Y

pl (xi )

i=1

n
Y

PNbp
j=1

j (Xi = xi |PopSE
)
l1
NbSE

i=1

Popl chantillonner Nbp individus depuis pl (x)


ll+1
Tant que la condition darrt nest pas satisfaite
reprsente par un vecteur de probabilits : pl (x) = (pl (x1 ), pl (x2 ), . . . , pl (xn )) o pl (x) est la distribution de probabilits jointe sur lespace des solutions, la le gnration et pl (xi ), i 1, . . . , n est
la probabilit dobtenir un 1 en la ie composante dune solution.
Le fonctionnement de PBIL, dcrit par lalgorithme 10, est similaire celui de lalgorithme
UMDA except pour la phase dvaluation de la distribution volue. La rgle dvolution
seffectue selon un paramtre aussi appel taux de relaxation :
! NSE
1 X l
pl+1 (x) = (1 )pl (x) +
xk:NSE
NSE

, [0, 1]

k=1

On voit que la valeur de dtermine limportance donne dans le cadre de la restimation de la


distribution lchantillon considr. Il convient de remarquer que lapproche PBIL, reprsente
dans lalgorithme 10, concide avec UMDA lorsque le paramtre est gal 1.
Algorithme 10 Algorithme PBIL gnral
Entre: Un paramtre : le degr de lapprentissage
Initialiser un vecteur de probabilits p0 (x)
l1
Rpter
chantillonner xl1 , xl2 , . . . xlNb partir de pl1 (x)
p

valuer et classer xl1 , xl2 , . . . xlNb

slectionner les NbSE (NbSE Nbp ) meilleurs individus xl1:Nb , xl2:Nb , . . . xlNb :Nb
p
p
p
SE
Mettre jour les coefficients de pl (x) :
NbSE
1 X l
xk:Nbp
pl+1 (xi ) = (1 )pl (xi ) +
NbSE
k=1

ll+1
Tant que la condition darrt nest pas satisfaite

93 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

Autres modlisations de la distribution


Dans le cas des algorithmes UMDA et PBIL, la distribution jointe recherche est dfinie
sur un ensemble de variables indpendantes. Lorsquil existe des dpendances entre ces diffrentes variables, il est alors ncessaire de faire appel une modlisation plus riche. Le cas de
dpendances bivariables est ainsi trait par lalgorithme MIMIC (pour Mutual Information Maximization for Input Clustering) [Bonet et al., 1996], lequel modlise la distribution jointe laide
dune chane reliant les diffrentes variables. Cette chane est volue, chaque gnration, en
optant pour la permutation sur lordre dfini par la chane permettant de minimiser la divergence de Kullback-Leibler entre la distribution dfinie par la chane permute et la distribution
reprsente par les individus slectionns dans lchantillon en cours.
Cependant, lorsque les dpendances entre les variables modlises relvent dun ordre
suprieur deux, une chane, telle que celle dfinie par MIMIC, ne suffit plus. La modlisation
peut alors seffectuer par lintermdiaire dun rseau baysien.
Ainsi, lalgorithme EBNA (pour Estimation of Bayesian Network Algorithm [Larraaga et al., 2000]
reprsente la distribution jointe pl (x) travers un rseau baysien appris (structure et paramtres) partir dune base de donnes (constitue des individus slectionns au sein de la
population chantillonne). Lapprentissage de la structure du rseau baysien modlisant la
distribution jointe donne alors lieu autant de variantes quil existe dapproches pour lapprentissage (par algorithme PC, ou par lalgorithme K2, par exemple). Dans la mme optique, [Pelikan et al., 1999] proposent lalgorithme BOA (Bayesian Optimization Algorithm) qui
recherche une bonne structure laide dun algorithme glouton employant le score BDE et ce,
en restreignant la recherche aux structures prsentant un nombre limit de parents par variable.

Les mthodes EDA ont connu de nombreuses volutions et adaptations des cas prcis. Par
exemple les algorithmes UMDA et PBIL se sont ainsi vu adapter des espaces de recherche continus (respectivement UMDAc [Larraaga et al., 2001] et PBILc [Sebag et Ducoulombier, 1998]).
Nous invitons le lecteur se reporter [Larraaga et Lozano, 2001] pour un panorama des
adaptations dalgorithmes EDA aux cas continus et/ou prsentant des dpendances complexes
entre les composantes des solutions.

5.4.3

Techniques de niching

Un des principaux aspects des algorithmes volutionnaires est de favoriser lmergence et


la survie du meilleur individu. Or, il est difficile de maintenir un quilibre entre le maintien
dune diversit gntique au sein de la population et ce favoritisme envers les individus les
plus performants.
Un autre aspect des algorithmes gntiques est de permettre une prise en charge des problmes dits multimodaux. Un problme multimodal est caractris par une fonction dvaluation
de ses solutions prsentant plusieurs optima locaux et un ou plusieurs optima globaux.
94 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

Les mthodes dites de niching sont une approche particulire, ddie la rsolution des
deux aspects prcdemment voqus. Ces mthodes sont bases sur un principe initial visant
recrer le phnomne de niches biologiques.
Ce type de mthodes est particulirement apprci dans le cadre de loptimisation multimodale 2 , bien quelles ne soient pas rserves cet usage exclusif et peuvent tout aussi bien tre
employes pour la rsolution de problmes unimodaux mais reconnus comme difficiles.
Un panorama complet de ces mthodes, de leurs caractristiques et de leurs performances sur
certains problmes peut tre trouv dans [Mahfoud, 1995], par consquent nous ne prsenterons
ici que certaines des stratgies les plus connues dans le domaine.
La dtermination de niches requiert la dfinition dun voisinage et, par consquent, dune
distance sur un espace. Selon lalgorithme, cet espace peut tre lespace gnotypique ou lespace
phnotypique. Dans le cas de lespace gnotypique, si le codage des individus a lieu sur lespace
binaire une distance employable est la distance de Hamming entre les deux reprsentations. Si
lespace employ est lespace phnotypique, on dfinit alors une distance ad hoc, en fonction du
problme considr.
Les techniques de niching peuvent tre divises en deux grandes catgories : les techniques
dites spatiales et les techniques temporelles.

Les techniques spatiales


Ici, la subdivision de la population seffectue au sein de lespace des solutions. Un optimum
de la fonction dvaluation dfinit une niche. Selon les approches (point abord plus loin),
le partage et loccupation dune telle niche seffectue de plusieurs manires, lessentiel tant
dviter que lensemble des individus grs par lalgorithme ne se retrouve concentr dans le
proche voisinage dun unique optimum de la fonction dvaluation.
Les mthodes procdant une rpartition spatiale des individus se retrouvent aussi frquemment sous la dnomination de mthodes de mthodes de niching parallle
Ces techniques sont elles-mmes divises en deux grandes familles :
crowding : [De Jong, 1975] est le premier prsenter un algorithme recourant ce principe ; les individus nouvellement gnrs remplacent ceux, parmi un chantillon de la
population, leur tant les plus proches. Cette similarit est value ici au niveau du
gnotype (il est cependant possible, dans dautres mthodes, de dfinir la similarit
sur le plan phnotypique). Une autre mthode de crowding est le deterministic crowding
[Mahfoud, 1992, Mahfoud, 1994]. Ici, le remplacement est effectu par des tournois binaires opposant les parents leurs enfants suivant leur ressemblance sur le plan phnotypique ; le vainqueur du tournoi passant la gnration suivante.
sharing : le principe de niches est essentiellement celui du partage de ressources limites par
un groupement dindividus. Dans le cadre des algorithmes gntiques, la ressource dune
niche est, de manire intuitive, la fitness.
2
loptimisation multimodale rfre des problmes doptimisation o la fonction dvaluation des solutions
prsente plusieurs optima locaux et un ou plusieurs optima globaux.

95 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

Ceci jette les bases des mthodes dites de sharing. Une des mthodes les plus reprsentatives de ce principe a t propose par [Goldberg et Richardson, 1987] et revient
considrer la fitness dun individu donn comme tant directement proportionnelle au
nombre dautres individus situs dans cette niche (et donc en de dune distance dtermine dans lespace considr). La fitness modifie, f 0 (x) dun individu x est alors calcule
en fonction de sa fitness de base f (x) et dune somme de termes sharex (i) dpendant des n
individus partageant la niche avec x :
f 0 (x) = Pn

f (x)

i=1 sharex (i)

La fonction sharex prend ses valeurs dans lintervalle [0, 1], en fonction de la distance entre
les individus i et x.

Techniques temporelles
La justification dune approche diffrente des approches dites spatiales provient du fait
que ces dernires ncessitent implicitement un nombre important dindividus afin de pouvoir
dtecter et maintenir un nombre consquent de niches.
La complexit dcoulant dun tel nombre, couple au fait que le maintien des niches ncessite
de nombreux calculs de distances entre les diffrents lments de la population totale ont incit
les auteurs de [Beasley et al., 1993] dvelopper une approche diffrente, le niching squentiel.
En prsence dun problme doptimisation multimodale, lobjectif de cette technique est de
dterminer squentiellement les multiples optima de la fonction dvaluation utilise. Pour cela,
lalgorithme gntique est itr plusieurs reprises en modifiant chaque itration la fonction
dvaluation ; cette modification revient dprcier les zones de lespace des solutions correspondant aux optima prcdemment localiss. Au terme de chaque itration de lalgorithme
gntique, le meilleur individu jusqualors trouv est considr comme un optimum et dfinit
une niche dans son voisinage. En ce point de lespace des solutions, la fitness est dgrade de
faon dcourager toute future exploitation du mme gnotype qui est, lui stock. Aprs ceci,
lalgorithme est de nouveau itr en employant la fitness modifie.
Aprs un nombre dfini ditrations (ou doptima recenss), les solutions identifies comme
des optima la fonction dvaluation sont retournes.

5.4.3.1

Discussion

Cette introduction aux mthodes de niching a permis de dgager deux approches principales,
les approches spatiales et les approches temporelles. Si, daprs [Mahfoud, 1995], le niching spatial est plus efficace que le niching temporel, les mthodes spatiales impliquent un certain
nombre de contraintes. La maintenance de plusieurs niches, suffisamment distinctes pour justifier une telle approche, ncessite un nombre important dindividus [Hu et Goodman, 2004].
Dautre part, lappel au calcul de distances est aussi rcurrent. Par consquent, recourir une
approche spatiale de type crowding ou sharing implique davoir traiter dun problme avec une
96 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

fitness et une fonction de distance inter-individus pouvant tre rapidement calcules. Le principal reproche adress lgard des mthodes squentielles est le fait de modifier les paysage de
la fitness et donc de poser dventuels barrages des volutions ultrieures en interdisant ou
du moins en contraignant fortement le remploi de briques lmentaires correspondant ces
zones dprcies.
Il faut aussi rappeller que la modification de la valeur de la fonction fitness pour un individu
fait aussi partie du fonctionnement des algorithmes de sharing.

5.4.4

Algorithmes gntiques parallles

Les algorithmes gntiques se sont naturellement prts, de par la nature de leur fonctionnement aussi bien que par les volutions technologiques, leur paralllisation. La paralllisation
dun algorithme gntique revt gnralement deux formes :
Paralllisation des calculs : pour certains problmes, le cot des calculs lis lvaluation
des individus est assez consquent pour que lon envisage de rpartir ces calculs sur
diffrentes machines,
Paralllisation de populations : dans ce cas prcis, les individus sont rpartis en des souspopulations voluant en parallle. Des changes dindividus ou dinformations peuvent
avoir lieu entre les sous-populations ainsi constitues.

5.4.4.1

Rpartition des calculs lis lvaluation

Dans ce schma, on dispose dune machine matre sur laquelle est gre lvolution de la
population de la mme manire quavec un algorithme gntique simple. On dispose de mme
dune srie de machines relies la premire et qualifies desclaves qui, elles, prennent en
charge le calcul des fitness des individus voluant sur la machine matre.
La machine matre rpartit alors les calculs des diffrentes valuations ncessaires chaque
gnration en transmettant les caractristiques des individus aux machines esclaves. Lvolution
de la population sur la machine matre reprend ds rception de la totalit des valuations
depuis les machines esclaves. La premire implmentation dune telle paralllisation applique
une mthode volutionnaire est due [Grefenstette, 1981].
Un problme vident de ce type de schma est le temps pris par les diffrentes communications entre matre et esclaves, problme dautant plus important que le nombre de machines
sur lesquelles sont rpartis les calculs est grand. Cependant, le schma demeure avantageux
ds lors que le temps du calcul de la fitness des individus est important par rapport au temps
mis pour la communication des donnes.

5.4.4.2

Rpartition des individus en sous-populations

Dans ce type de stratgie parallle, les calculs sont eux aussi traditionnellement rpartis
mais le principe fondamental est de permettre une rpartition de lensemble des individus
97 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

volus en sous-populations, elles mmes volues sur des machines spares. Outre lavantage
reprsent, en temps de calculs, par une rpartition des individus sur plusieurs processeurs,
une telle mthode permet dvoluer des populations plus ou moins indpendantes et donc
desprer une meilleure couverture de lespace de recherche.
Plusieurs types de rpartitions peuvent avoir lieu et on distingue gnralement les mthodes rpartissant des groupes de populations, que lon dsigne par le terme de mthodes de
paralllisme grains grossiers (coarse-grained) et les mthodes associant, idalement, un seul
individu par processeur que lon dsigne par le terme de mthodes de paralllisme grain fin
(fine-grained).
Les premires mthodes regroupent diverses stratgies visant rpartir les individus en souspopulations isoles. Les individus dune sous-population voluent de la mme manire que
pour un algorithme gntique classique et des stratgies de migration sont mises en place afin
de permettre le transfert dindividus dune population une autre. Ces mthodes ncessitent
alors la dfinition de paramtres tels que la frquence ou la probabilit de migration ou la
mise en place dune stratgie de slection de candidats la migration dans une population
donne. Un exemple connu est le modle en lots propos par [Cohoon et al., 1987]. Ce modle,
expliqu plus en dtail dans une section ultrieure, rpartit les individus sur plusieurs lots,
ponctuellement relis entre eux par une stratgie de migration. Le lecteur intress pourra
trouver une bonne introduction diffrentes stratgies dans [Cantu-Paz, 1997].
Un modle similaire est celui du stepping stone (que lon pourrait traduire, grossirement,
par tremplin) prsent par [Mhlenbein, 1991]. Ici, les processus migratoires sont limits aux
localisations immdiatement voisines. De plus, un processus damlioration locale par lintermdiaire dune descente de gradient intervient sur les individus dune population ds lors que
la qualit de celle-ci stagne pendant un certain nombre ditrations.
Les modles grain fin diffrent des mthodes prcdentes, comme nous lavons voqu, de
par le fait que les individus dune population sont rpartis en groupes de trs petite taille (parfois, un seul individu) eux-mmes rpartis sur les diffrents processeurs. Ce type de mthode
procde, la manire des modles en lots, par des communications et interactions entre non
plus des populations mais des individus ou petits groupes dindividus voisins. Ces modles
se retrouvent aussi sous la dnomination de modles cellulaires. Un exemple de paralllisme
grain fin peut tre trouv dans [Spiessens et Manderick, 1991] o les auteurs mettent en place
un systme cellulaire o chaque cellule/individu est associe un processeur.
Les mthodes de paralllisation, et plus particulirement le modle de populations rparties
en lots, seront abordes plus en dtail dans la suite de ce travail.

5.5

Applications lapprentissage de structures

Cest avec les travaux de Larranaga [Larranaga et al., 1996, Etxeberria et al., 1997] quapparaissent les premires tentatives dapprentissage de structure par un algorithme gntique.
Lauteur tente alors deffectuer lapprentissage avec ou sans connaissance dun ordre topologiquement correct sur les variables du rseau laide dun algorithme gntique.

98 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

Ce premier article prsentait surtout lintrt douvrir la voie pour des tudes ultrieures ;
en effet, le choix des paramtres et des oprateurs tait limit : taille de population limite,
oprateur de croisement en un point. De plus les possibilits et contraintes inhrentes lespace
des quivalents de Markov taient alors peu employes.
Dans [Larraaga et al., 1996], les auteurs emploient un algorithme volutionnaire de manire
indirecte. En effet, celui-ci effectue sa recherche sur lensemble des ordres topologiques. Une
fois le meilleur ordre dtermin, celui-ci sert de base un apprentissage par lalgorithme K2 (cf.
section 4.4.2). Les auteurs emploient des oprateurs couramment employs pour la rsolution
du problme du voyageur de commerce (PVC), en effectuant toutefois quelques modifications.
En effet, si un chemin peut tre symtrique, cela nest pas le cas avec un ordre topologique (i.e.
les chemins A B C et C A B sont une mme solution pour le PVC tandis que les
ordres topologiques (1, 2, 3) et (3, 1, 2) sont deux solutions au problme de lapprentissage de
structures).
Cotta et Muruzbal [Cotta et Muruzbal, 2002] soulignent lintrt de lemploi doprateurs
phnotypiques plutt que gnotypiques i.e. prenant en compte lexpression mme, dans lindividu de lallle pris en compte plutt que par une slection purement alatoire (approche
gnotypique).
Dans [Wong et al., 1999], le critre MDL est employ pour lapprentissage des structures.
Leur algorithme, nomm MDLEP (pour dnoter la combinaison du critre MDL la programmation volutionnaire) ne comporte pas doprateur de croisement mais utilise en revanche
une srie doprateurs de mutation afin de faire voluer la population courante. A noter que
lun des oprateurs est "guid" dans le choix des gnes muter par lapport de ceux-ci en terme
de critre MDL, celui-ci tant calcul au dpart pour chaque arc possible.
Par la suite, les auteurs dvelopprent une version avance de MDLEP, nomm HEP (Hybrid
Evolutionary Programming) pour laquelle une hybridation est mise en place [Wong et al., 2002].
Celle-ci consiste dterminer pralablement un squelette en effectuant une srie de tests dindpendance dordre faible (0 et 1) permettant de limiter lespace de recherche : si une variable
X est indpendante dune variable Y suite aux tests, les arcs X Y et X Y ne pourront tre
ajouts par loprateur de mutation. cela, les auteurs ajoutent, dans un souci de rapidit de
calcul, la fermeture des oprateurs en interdisant la cration, conscutivement une mutation,
dun circuit au sein dun individu. Les rsultats se montrent ds lors substantiellement meilleurs
quen labsence dhybridation, mme si les comparaisons se limitent une confrontation entre
les deux versions de leur algorithme.
Une autre approche, similaire la prcdente, est celle adopte dans [van Dijk et al., 2003a,
van Dijk et al., 2003b, van Dijk et Thierens, 2004]. Les auteurs proposent une mthode base elle
aussi sur la construction pralable dun squelette partir de tests dindpendance statistiques
dordre 0 et 1. Les gnes sont alors les arcs non orients du squelette et les allles pour chaque
gne sont au nombre de 3 : "absent", "X Y" et "X Y". Cette mthode est trs semblable
celle de [Wong et al., 2002] except que lvolution des individus ne se fait ici que par le
biais des recombinaisons et de lintervention de deux oprateurs de rparation. Les rsultats de
[van Dijk et Thierens, 2004] se montrent sensiblement meilleurs que ceux obtenus par lalgorithme HEP mais la qualification des rsultats en termes de qualit structurelle (i.e. la structure
obtenue est-elle proche de celle recherche ?) nest pas mentionne.
Les auteurs de [Muruzbal et Cotta, 2004, Muruzbal et Cotta, 2007] ont tent deffectuer la
99 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

recherche directement sur lespace des quivalents. La recherche seffectue la fois sur lespace
des graphes reprsentants et au sein de chacun de ces graphes par des orientations diffrentes
dans lespace des structures des arcs non-orients des reprsentants. Le consensus lissue de
cette recherche tant quune telle recherche duale ne savre efficace que lorsque le changement
despace intervient au moment opportun.
Une autre approche de lexploitation de lespace des graphes essentiels est celle prsente
dans [Acid et de Campos, 2003] o lalgorithme parcourt lespace des graphes partiellement
orients sans circuit (GPOSC) restreints. Ces graphes sont une forme particulire de GPOSC dont
plusieurs membres distincts peuvent correspondre la mme classe dquivalence, occupant
ainsi une position intermdiaire entre lespace des GOSC et celui des GE.
Certains travaux appliquent les approches de type EDA, prsentes prcdemment, la
recherche de structures de rseaux baysiens. Dans [Blanco et al., 2003], les auteurs se sont
attachs appliquer deux approches, de type UMDA et PBIL, la recherche dans lespace des
GOSC. Ces algorithmes ont t appliqus la distribution des arcs dans la matrice dadjacence
de la structure recherche. Les rsultats semblent en faveur de lapproche PBIL mais on peut
cependant remarquer que certains rsultats (comme par exemple le fait que les rseaux appris
sans connaissance de lordre topologique soient parfois meilleurs que lorsque celui-ci est connu)
auraient mrit une tude plus pousse ou du moins quelques commentaires.
Dans [Romero et al., 2004], deux approches, UMDA et MIMIC ont t appliques la recherche sur lespace des ordres topologiques possibles pour la structure recherche, les individus (cest--dire les ordres topologiques candidats) tant eux-mmes valus par le biais du
score baysien. Enfin, un mot sur la recherche de structures en prsence de donnes incom-

pltes. Le principal obstacle dans le cadre de cette problmatique est que, comme dans le cas de
lalgorithme Structural EM, lvaluation dune structure ncessite lvaluation des paramtres
associs celle-ci. Si cette valuation se fait par le biais de lalgorithme EM, le cot en calculs
de lvaluation est trop lev pour pouvoir tirer profit dun algorithme volutionnaire. En revanche, une autre approche a t formule par [Myers et al., 1999] proposant de ne faire non pas
seulement voluer les structures candidates mais aussi les donnes manquantes. Lvaluation
des structures se faisant alors sur la base complte.

5.6

Conclusion

Depuis leur apparition, les mthodes volutionnaires ont connu de nombreux dveloppements, tant thoriques que pratiques. De mme, ces mthodes, souvent performantes pour des
problmes doptimisation reconnus comme difficiles, se sont vues appliques au problme de
lapprentissage de structures de rseaux baysiens.
Lapprentissage de la structure dun rseau baysien laide dune fonction de score et en
labsence da priori tel que lordre topologique de la structure recherche, il courant davoir
recours un algorithme de type glouton sur lespace des structures ou bien sur celui des classes
dquivalences.

100 / 229

CHAPITRE 5. ALGORITHMES GNTIQUES

Le principal inconvnient de ces mthodes gloutonnes est de se retrouver frquemment


bloques en une solution correspondant un optimum local de la fonction dvaluation. Ceci
en raison de la prsence de nombreux optima locaux dans lespace des solutions. Optima
dautant plus nombreux que la base de cas servant lapprentissage est limite en taille les
structures vraisemblables vis--vis de cette base tant alors nombreuses .
La principale raison de cette convergence prmature est quun algorithme glouton ne
considre tout moment quun unique point de lespace des solutions. En labsence, dans le
voisinage de ce point, dune solution mieux value, la recherche sarrte. La manire la plus
rpandue de contrevenir cette situation est alors de recourir plusieurs initialisations de
lalgorithme glouton, partir de structures initiales diffrentes les unes des autres, et de retenir
la meilleure solution obtenue. Cette technique prsentant linconvnient de dcupler, bien sr,
les temps de calculs mais aussi de noffrir aucune garantie quant lobtention de x solutions
distinctes pour x initialisations diffrentes de lalgorithme glouton.
Les algorithmes volutionnaires prsentent deux avantages majeurs lors du traitement dun
problme prsentant de nombreux optima locaux. Dune part, ils permettent de maintenir une
population de solutions, i.e. plusieurs points de lespace des solutions, idalement diverses. Le
maintien et lvolution de diffrentes solutions et donc dautant de points au voisinage desquels
explorer lespace des solutions, permet alors de rduire les chances de se retrouver bloqu en un
unique point localement optimal. Dautre part, le comportement stochastique de ces mthodes,
par le biais de loprateur de mutation, permet damplifier cette robustesse vis--vis de la
prsence doptima locaux (sous condition de lemploi de paramtres et doprateurs adapts)
en autorisant une exploration de lespace des solutions qui nest plus limite au voisinage
immdiat des individus de la population.
Nous avons choisi dorienter notre travail vers le dveloppement dune mthode volutionnaire adquate afin de bnficier non seulement des proprits exploratoires dune telle
approche mais aussi de leur souplesse reconnue en adaptant les diffrents oprateurs notre
problme.
Le chapitre suivant dcrit un algorithme gntique permettant de trouver une structure
de bonne qualit partir dune base dapprentissage de taille limite. Certains problmes
inhrents lutilisation dun algorithme volutionnaire, tel que le nombre de calculs requis
par lvaluation des solutions, seront traits en exploitant les proprits de dcomposition
de la fonction dvaluation employe. Par la suite, nous avons enrichi cet algorithme en lui
adjoignant diffrentes stratgies permettant une meilleure exploration de lespace des solutions,
par modification du paysage de la fitness employe, par une rpartition spatiale des individus
ou encore par un systme dadaptativit de loprateur de mutation.

101 / 229

Deuxime partie

Apprentissage de la structure dun


rseau baysien par un algorithme
volutionnaire

103

Chapitre 6

Apprentissage avec rpartition dans


lespace des solutions
Les algorithmes gntiques, appliqus la recherche de structure de rseaux baysiens,
posent deux problmes :
la contrainte sur labsence de circuits dans les structures cre un lien fort entre les diffrents
gnes - et allles - dun individu, quelle que soit la reprsentation choisie. Les oprateurs,
dans lidal, devraient tenir compte de ce fait ;
il nest pas rare quune heuristique de parcours de lespace des solutions (algorithme
gntique, mthode gloutonne, etc.) se retrouve bloque sur un optimum local. Il est alors
difficile de trouver un quilibre entre un parcours disparate pouvant saffranchir de ce
problme, au risque de ngliger de nombreuses solutions de qualit, et un parcours plus
minutieux ayant de grandes chances de ne retourner quune solution localement optimale.
Si le premier point implique essentiellement la conception dune mthode volutionnaire
rflchie et adapte au problme, le deuxime point caractrise un problme relevant de loptimisation multimodale. Pour ce type de problmatique, nous avons vu quil existe une mthodologie particulire : le niching (cf. section 5.4.3). Avant dtudier la mise en place dune telle
stratgie, nous allons procder une description pralable dun algorithme gntique adapt
la recherche dune bonne structure pour un rseau baysien. Puis, nous nous attacherons
tudier et dfinir une stratgie de niching adquate pour notre problme. Enfin, nous dvelopperons une mthode aspirant combiner les qualits des approches squentielles celles des
approches spatiales.

6.1

Algorithme gntique simple

Les oprateurs, stratgies et paramtres prsents dans cette section sont les implmentations
des lments classiquement dfinis au sein dun algorithme gntique. Avant de prciser le cur
de notre mthode de niching, nous dtaillons ici la structure gnrale du moteur volutionnaire.
Par la suite, nous comparerons les rsultats obtenus par cet algorithme avec ou sans application
dune stratgie de niching.

105

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

6.1.1

Dfinition dun individu

Lalgorithme gntique effectue une recherche dans lespace des graphes orients sans circuits. Chaque solution envisageable est reprsente, dans la population, par sa matrice dadjacence C = (cij ), (i, j) [1 . . . N]2 :
(
cij =

1 si X j parent de Xi
0 sinon

La figure 6.1 montre un exemple de correspondance entre une structure et sa matrice dadjacence.

Figure 6.1 Exemple de rseau baysien et de la matrice dadjacence correspondante.

6.1.2

Mesure de la qualit dun individu

La qualit dun individu est gale au score quil obtient vis--vis de la base de cas considre.
Nous avons vu, dans la partie consacre lvaluation des mthodes prsentes, que plusieurs
critres taient susceptibles dtre employs pour valuer la qualit dune structure. Dans la
littrature, la grande majorit des mthodes emploient, dans leurs rsultats, le score BDeu ou
le critre BIC, mais ces deux mesures sont asymptotiquement gales. Nous avons finalement
choisi demployer le critre BIC et ce pour deux raisons :
le critre BIC choisit le modle le plus simple parmi ceux dcrivant la distribution de
probabilit recherche. Si dans le cas des bases dapprentissage deffectifs faibles ceci peut
entraner la non-dtection de certains liens, il nous semble plus logique dadmettre un
ensemble domissions sur les dpendances du domaine que den ajouter de superflues ;
la plupart des mthodes de la littrature emploient ce critre. Si les mesures ne sont pas
comparables numriquement du fait que les diffrents travaux emploient gnralement
des bases dapprentissage non publiques, les rsultats qualitatifs sont en revanche plus
facilement comparables.
De plus, il faut remarquer que le critre BIC ainsi que le score BDeu approximent la vraisemblance marginale de la structure et donc, mesure que la taille de la base dapprentissage
augmente, ces deux scores convergent vers une mme valeur.

106 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

6.1.3

Initialisation des individus

En nous basant sur les rsultats de [Franois et Leray, 2004] et daprs nos propres exprimentations, nous avons opt pour une initialisation de la population de structures par les
diffrents arbres (selon le sommet racine choisi) retourns par lalgorithme MWST (cf. section
4.4.1). Bien que ces n arbres soient Markov-quivalents, cette initialisation permet de gnrer, au
point de vue de la population volue par lalgorithme gntique, des individus prsentant des
caractristiques pertinentes (sous la forme dun sommet prdcesseur pour chaque variable,
except la racine de larbre). De plus, ds les premires gnrations, laction conjugue des oprateurs de croisement et de mutation, dcrits plus loin, permet dobtenir des individus varis
et de bonne qualit et enfin dobtenir un gain intressant en terme de temps de convergence.
Nous utilisons larbre non-orient retourn par lalgorithme : chaque individu de la population est initialis par un arbre orient partir dune racine choisie alatoirement. Ce mcanisme
permettant dintroduire une certaine diversit dans la population.

6.1.4

Stratgies et paramtres de slection

Nos premiers essais ont montr que lemploi dune slection par roulette o la probabilit
qua un individu dtre slectionn pour la reproduction est directement proportionnelle sa
qualit dbouchait sur une convergence prmature de lalgorithme. Cette observation est
assez commune. La slection par roulette est effectivement le premier oprateur de slection
avoir t propos en algorithmique volutionnaire et son principal dfaut est dtre rapidement
biais en accordant une trop grande importance aux individus les plus performants de la
population.
Une autre possibilit est la slection par tournoi. Cet oprateur maintient une pression
constante, uniquement base sur les rangs respectifs des individus considrs. Nanmoins, la
pression reste forte, mme dans le cas dun tournoi binaire (le plus simple juste derrire la
slection alatoire).
Une alternative permettant dattnuer ce phnomne de prdominance de certains individus est le fitness scaling. Ces mthodes ainsi que leur principe gnral sont prsentes dans
[Forrest, 1985, Kreinovich et al., 1993] et ont pour objectif de permettre dans un premier temps
dempcher le phnomne de prdominance des "super individus" lors des premires gnrations tout en assurant, lorsque la population converge, que les individus de qualit moyenne
alors en grand nombre nentrave pas la reproduction des meilleurs. Le principe gnral du
fitness scaling revient employer non plus la fitness des individus mais une fonction de celle-ci
(fonction linaire, en exposant ou exponentielle, pour citer les fonctions les plus rpandues).
Linconvnient des mthodes de fitness scaling est dtre dfinies et employes de manire ad
hoc, i.e. choisies et employes de manire empirique, sans pour autant sappuyer sur une relle
tude ou justification thorique de leur efficacit.
Nous avons opt pour une slection par rang, o chacun des individus de la population a
une probabilit de se reproduire gale :
Pselect = 2

+ 1 rang(individu)
( + 1)

(6.1)
107 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

Cette stratgie permet de favoriser les individus les mieux adapts tout en laissant aux
individus les plus "faibles" lopportunit de participer au processus dvolution.
Si linconvnient majeur de cette mthode est de ncessiter un classement systmatique des
individus au pralable, ce cot reste ngligeable.
Par la suite, les individus slectionns ont une probabilit Pcross de se reproduire. Au cours
de nos tests, nous avons utilis une valeur de Pcross gale 0,8.
Enfin, loprateur de mutation est, quant lui, appliqu aux individus issus de la phase de
croisement ainsi quaux individus nayant pas t slectionns.
Lors du passage dune population Pt de taille la population Pt+1 suivante, nous employons
une stratgie de remplacement qualifie dlitiste ; une telle approche revient conserver le
meilleur individu de la population linstant t lors du passage linstant t+1, ds lors quaucun
des individus nouvellement gnrs (par croisement et mutation) linstant t ne sest avr
meilleur que celui-ci le reste de la population au temps t + 1 tant alors constitu des 1
meilleurs nouveaux individus .

6.1.5

Oprateurs gntiques

Plusieurs oprateurs interviennent dans laction de lalgorithme gntique, dont les oprateurs de croisement et de mutation. Nous avons aussi d dvelopper un oprateur de rparation
afin de pouvoir liminer les circuits ventuellement crs lors de lvolution de la population.

Oprateur de croisement
Les possibilits sont, ici aussi, nombreuses. Dans un premier temps, nous avions opt pour
un oprateur de croisement simple, en un point [Delaplace et al., 2007a] :
Soient P1 et P2, deux individus choisis pour tre mutuellement croiss ;
j k
loprateur coupe les matrices dadjacence de P1 et P2 sur les colonnes, au point n2 ;
j k
j k
le premier enfant issu du croisement portera les colonnes (1 : n2 ) de P1 et ( n2 + 1 : n) de
P2, comme indiqu sur la figure 6.2.
Par la suite, un autre oprateur a t dvelopp, sur le modle de [Vekaria et Clack, 1998]. Cet
oprateur permet de gnrer lui aussi deux individus mais, la diffrence du prcdent, le choix
des points de croisement est une fonction de la qualit de lindividu [Delaplace et al., 2007b].
La forme prise par le critre BIC (et, en gnral, par toute fonction de score dcomposable)
permet en effet dattribuer un score local chaque ensemble {Xi , i } du domaine U. Nous
pouvons donc choisir, partir de ces diffrents scores locaux, de gnrer un individu ayant reu
les meilleurs lments de ses anctres ainsi que, respectivement, un individu constitu des
lments les moins performants .
Le schma de fonctionnement de cet oprateur, prsent dans la figure 6.3 est semblable
celui de loprateur simple ceci prs que les deux enfants gnrs reoivent de chacun
des graphes parents les ensembles sommets/variables parents ayant les meilleures valuations
locales respectivement les plus mauvaises pour le deuxime graphe enfant .

108 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

Figure 6.2 Exemple de croisement en un point.

Dans lexemple de la figure 6.3, nous admettons les ingalits suivantes :


SAd j1 (X1 )
SAd j1 (X2 )
SAd j1 (X3 )
SAd j1 (X4 )

SAd j2 (X1 )
SAd j2 (X2 )
SAd j2 (X3 )
SAd j2 (X4 )

o SAdjk (Xi ) reprsente le score obtenu localement en Xi sur le graphe Gk . Nous obtenons alors
deux individus : un compos des ensembles de variables parents les mieux valus et lautre
compos des ensembles restants.
109 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

La composition du meilleur individu tant la suivante :


1. le "meilleur" descendant correspond en premier lieu une copie du meilleur parent ;
2. dans lordre et depuis la premire variable, chaque ensemble de sommets prdcesseurs
de la variable Xi considre est remplace par lensemble correspondant, issu du plus
mauvais parent, condition que :
le score local obtenu en Xi pour le plus mauvais parent est strictement meilleur quau
sein du meilleur parent ;
le remplacement ne gnre pas de circuit au sein du descendant.
La procdure tant exactement loppose, en considration des scores locaux devant alors
tre qualitativement infrieurs pour la gnration du plus mauvais descendant.
Nous constatons quune des conditions lchange des ensembles de sommets prdcesseurs
i est la non-gnration de circuits au sein des descendants, suscitant ainsi une fermeture de
loprateur.
Un exemple dun cas de cration dun circuit est dcrit par la figure 6.4 dans laquelle deux
GOSC quivalents (et donc de mme score) prsentent comme seule diffrence un arc, symbolis
par une arte dans le graphe quivalent Geq de ces deux GOSC. Loprateur de croisement va
alors gnrer deux GOSC descendants : un ne prsentant aucun arc et un deuxime prsentant
un circuit localis entre les deux variables. On peut souligner le fait que cette situation peut
aussi se prsenter dans le cas de deux graphes parents non quivalents mais prsentant une
configuration similaire celui de lexemple sur deux ensembles de variables parents.
La fermeture de loprateur permet ainsi de gagner en rapidit ainsi que dviter, comme
dans lexemple de la figure 6.4, de perdre une information (larte est prsente chez les deux
parents mais seulement chez un enfant).

Oprateur de mutation
Chaque colonne j [1 . . . n] dun individu a une probabilit Pmute dtre modifie. Si une
colonne mute, une modification parmi celles possibles est effectue en un de ses coefficients ci j :
Si cij = 0, gain dun parent : cij 1 ;
Si cij = 1, deux possibilits, quiprobables :
perte dun parent, cij 0 ;
ou inversion de la parent (cij 0, c ji 1).
Par modifications possibles, nous entendons bien sr lajout darcs alors inexistants et, inversement, la soustraction ou linversion darcs existants ; mais aussi le fait que lon ne peut
ajouter un arc arrivant sur une variable depuis une variable enfant de celle-ci. Cela crerait un
circuit de longueur 2 et, aprs appel loprateur de rparation, reviendrait une inversion
tout en ayant ncessit plus de calculs.

Phase dvaluation des individus


Lalgorithme gntique tire parti de la dcomposition de la fonction dvaluation et value
les nouveaux individus ds leur cration, par croisement, mutation ou rparation. Limpact de
110 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

Figure 6.3 Exemple de croisement slectif en plusieurs points. Ici, les scores locaux du graphe
parent Ad j1 sont suprieurs ceux au sein du graphe parent Adj2 , except pour la variable X4 .

toute modification locale sur le gnome dun individu est immdiatement rpercute sur le
phnotype de celui-ci par le biais du calcul du score local. La consquence direct de ceci est que
la phase dvaluation de la population gnre, prsente dans lalgorithme gntique canonique
vu dans la section 5.2, a en fait lieu pour chaque individu, en fonction des modifications opres,
la suite des mutations subies par celui-ci.

111 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

Figure 6.4 Exemple de cration de circuits par loprateur de croisement slectif.

Oprateur de rparation
Si, la suite du croisement ou de la mutation, un graphe orient prsente un circuit, cet
individu nest pas viable. Dans ce type de situation, deux choix sont couramment offerts :
liminer lindividu concern ou bien tenter de le rparer. Dans notre algorithme, un dtecteur
de circuits est appliqu aux individus muts. Si un circuit est dtect, loprateur de rparation
supprime un des arcs appartenant au circuit.
Nous avons choisi dindiquer loprateur quels taient les arcs dont la suppression tait la
112 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

plus judicieuse.
Ds linitialisation, lalgorithme calcule linformation mutuelle, telle quelle est dfinie dans
[Chow et Liu, 1968], entre chaque paire de variable (X1 , X2 ), du domaine :
X Nx ,x
Nx ,x M
1 2
W(X1 , X2 ) =
log 1 2
(6.2)
M
Nx1 Nx2
x ,x
1

o lon note :
Nx1 ,x2 , le nombre doccurences simultanes dans la base de X1 = x1 et X2 = x2 ;
Nx1 , le nombre doccurences dans D de X1 = x1 ;
Nx2 , le nombre doccurences dans D de X2 = x2 .
Linformation mutuelle nous fournit une indication quant au degr de dpendance des deux
variables XA et XB . Notamment, cette information est nulle si et seulement si les deux variables
sont indpendantes.
A chaque appel, loprateur de rparation rcupre la valeur de linformation mutuelle des
couples de variables du circuit dtect ; larc effectivement supprim tant alors celui reliant le
couple de variables dtenant linformation mutuelle la plus faible.
Il peut arriver quun individu prsente plusieurs circuits, ceci la suite dune mutation ayant
gnr et/ou invers plusieurs arcs. Dans ce cas, la rparation est effectue de manire itrative,
en commenant par supprimer le circuit le plus court jusqu ce que lensemble des circuits ait
t supprim.
Nous nous sommes jusquici attachs dcrire les spcificits dun algorithme gntique
que lon pourrait qualifier de simple. Hormis les oprateurs et certaines caractristiques, cet
algorithme napplique aucune stratgie de parcours de lespace de recherche ou de rpartition
de la population volue. La section suivante nous amne rflchir aux caractristiques dune
stratgie de type niching qui serait adapte au problme dapprentissage de structures.

6.2

Choix dune stratgie adapte

Nous avons vu, dans la section 5.4.3, que les mthodes de niching taient particulirement
adaptes aux problmes doptimisation multimodale en permettant une exploration plus efficace de lespace des solutions dans le cas de problme doptimisation multimodale.
La dfinition des mthodes de scores (cf. section 4.3) nous a permis de dfinir des fonctions
dvaluation permettant la slection de modles dans lespace des structures. Il savre que
le problme de la slection de la meilleure structure (ou, tout du moins, dune structure de
bonne qualit) savre difficile. Les fonctions dvaluation, quelles tiennent compte ou non
de la complexit du modle valu comme le score BIC , prsentent de nombreux optima
locaux.
Les mthodes de niching paraissent donc tre un choix adquat pour le traitement de lapprentissage de structures.
Cependant, les mthodes de niching se divisent en deux catgories : les mthodes dites
spatiales et les mthodes dites temporelles. Ces deux familles de mthodes ont pour point
113 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

commun la dfinition dune notion de distance permettant de dfinir et maintenir les diffrentes
niches dans lesquelles seront rparties, idalement, les diffrents individus. Avant de dfinir
quelle stratgie de niching nous allons adopter, nous commencerons par essayer de dfinir une
distance employable dans lespace des solutions notre problme.

6.2.1

Distances entre deux structures de rseaux baysiens

Les premires mthodes de niching, appliques des solutions encodes dans lespace binaire, dfinissaient une distance sur lespace gnotypique par le biais dune distance de Hamming. Cette notion a-t-elle un sens dans le cadre de lapprentissage de structures ?
Si lon se rfre la notion de graphes quivalents au sens de Markov, celle-ci implique
que deux structures diffrentes peuvent proposer la mme dcomposition de la loi jointe sur
la domaine et donc obtenir le mme score, si ce dernier est quivalent (cf. section 4.3) .
Cela signifie quune mthode de niching employant une distance base sur une distance de
Hamming dans lespace des structures considrera, par exemple, les deux structures GE1 et
GE2 de la figure 6.5-a (ou deux structures prsentant un nombre consquent de diffrences
similaires) comme dissocies alors quelles appartiennent toutes deux la classe dquivalence
reprsente par le graphe essentiel GE1 de la figure 6.5-c.
Inversement, les GOSC G et G3 , figure 6.5-b, dont les classes dquivalences sont respectivement reprsentes par les GE GE1 et GE2 de la figure 6.5-c seront tiquets comme tant
plus proches.

(a) Structures quivalentes prsentant une distance de Hamming de 3.

(b) Structures non-quivalentes prsentant une


distance de Hamming de 1.

(c) Graphes essentiels GE1 et GE2 .

Figure 6.5 Exemples de lapplication de la distance de Hamming dans lespace des structures.

114 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

Une distance de Hamming dfinie sur lespace des structures ne parait donc pas adquate
car elle ne tient pas compte de proprits essentielles des structures considres.
[Mahfoud, 1995] recommande lemploi de distances dfinies sur lespace phnotypique.
Une telle distance, dans le cas des structures de rseaux baysiens, pourrait tre la divergence
de Kullback-Leibler (cf. annexe A) ou une autre mesure de divergence base sur lentropie
[Lin, 1991]. La divergence de Kullback-Leibler, sous une forme adapte, permet de dfinir
une distance entre deux rseaux baysiens (plus exactement, entre les deux distributions de
probabilits de la loi jointe reprsentes par ces rseaux baysiens). Cependant, la divergence
de Kullback-Leibler prsente un inconvnient majeur : la quantit de calculs requise. Il en
effet ncessaire, pour calculer cette distance, de calculer un logarithme sur lensemble des
instanciations du domaine prsentes dans la base dapprentissage. Pour un rseau tel que le
rseau INSURANCE prsent dans le chapitre 8, pralablement aux rsultats exprimentaux,
il est alors ncessaire de procder lvaluation de nombreuses probabilits jointes. Sachant
que les distances, dans une mthode de niching doivent tre calcules rapidement pour les
diffrents individus, la quantit de calculs requise par la divergence de Kullback-Leibler rend
lemploi de cette dernire rdhibitoire. De plus, mme en ignorant la complexit de calcul de
la divergence, deux critres viennent dfinitivement interdire lemploi de celle-ci dans une
mthode de niching : la divergence de Kullback-Leibler nest pas symtrique et ne respecte pas
lingalit triangulaire, interdisant ainsi son emploi en tant que distance (nous verrons quune
divergence de Jensen-Shannon symtrique, borne et respectant lingalit triangulaire
ncessite encore plus de calculs).
Concrtement, le problme de la dtermination dune distance entre deux structures candidates pour un mme domaine de variables demeure un problme ouvert. La littrature
consacre lapprentissage de structures de rseaux baysiens emploie, dans lvaluation de la
qualit des rsultats dune mthode, diverses mesures (cart de score, distance de Hamming,
etc.) en conjugaison, aucun mesure ne pouvant elle seule permettre la dtermination dune
relle diffrence entre deux structures.
Malgr cela, nous avons mentionn une proprit importante des structures de rseaux
baysiens, proprit permettant de regrouper les structures proposant des modlisations similaires : la notion de graphes quivalents. Deux graphes structurellement diffrents (par certaines
orientations) peuvent encoder une mme dcomposition de la loi jointe sur le domaine modlis. Lemploi des classes dquivalence en tant que niche, au sein dune stratgie de niching
applique lapprentissage de structures parat donc tre une possibilit.
Un autre point motivant lemploi des classes dquivalence est que la dtermination dune
mthode de niching adapte passe par la dtermination dun paramtre supplmentaire : le
rayon dun niche :
un rayon trop grand risque daffecter dventuels optima proches dans lespace employ
(gnotypique ou phnotypique) ;
si le rayon est trop faible, lalgorithme perd vraisemblablement en efficacit.
En gnral, le rayon employ est dtermin soit par une connaissance a priori du problme
ou par dtermination empirique, ce qui rend la dtermination dun rayon adquat difficile, en
pratique. Le choix des classes dquivalence en tant que niches permet de saffranchir de ces
problmes en ngligeant la notion de distance.
La dtermination de lappartenance ou non une mme classe dquivalence et donc lappartenance de deux individus une mme niche peut se faire simplement, par le biais de la
115 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

distance de Hamming calcule entre les graphes essentiels reprsentant les classes dquivalences respectives des deux structures, plus prcisment partir des matrices dadjacence des
graphes essentiels correspondants lappartenance la mme classe dquivalence impliquant
alors que la distance de Hamming entre les GE est nulle . Lobtention du graphe essentiel dune
structure et donc la caractrisation dune niche peut se faire alors rapidement en employant,
par exemple, les algorithmes de calcul des GE utiliss par [Chickering, 2002b].
Le nombre de GOSC diffrents appartenant une mme classe dquivalence est limit
3,7 daprs [Perlman et Gillispie, 2001] . Par consquent, on peut lgitimement remettre en
question la pertinence dun tel choix. Il faut cependant se replacer dans le cadre de notre
problmatique. Il existe en effet de nombreux optima locaux en lespace des GOSC lorsque nous
employons un mthode de score classique telle que les scores BDeu ou BIC ; en revanche, nous
pouvons lgitimement penser que les structures obtenant un score lev et correspondant des
optima locaux pour la fonction dvaluation employe sont structurellement assez proches de
loptimum global recherch.
Par la suite, nous dfinissons donc une niche comme lensemble des GOSC appartenant
un mme classe dquivalence au sens de Markov. La dfinition dune niche tant effectue, il
nous reste liciter le type de mthode de niching au sein de laquelle lemployer.

6.2.2

Choix dune mthode doptimisation

Le choix dune mthode de niching implique en premier lieu de choisir entre une approche
temporelle (niching squentiel) ou spatiale (mthodes de sharing ou de crowding).
Le consensus gnral, exprim dans [Mahfoud, 1995], est que les mthodes relevant du
niching spatial renvoient de meilleurs rsultats que le niching squentiel. Mahfoud explique ces
diffrences de performances par les observations suivantes :
1. le niching squentiel, travers son systme de dgradation squentielle de la valeur
de la fitness aux points optimaux, modifie le paysage de la fonction dvaluation et,
conscutivement :
de faux optima risquent dapparatre la limite des zones dgrades,
lexploration de lespace de recherche se voit entrave par la cration de zones de
faible fitness ; lexploration et donc lapparition de matriel gntique correspondant
aux individus de ces zones est dcourage,
dventuels optima, situs proximit doptima dtects en de du rayon de la niche
correspondante sont ignors car leur fitness est arbitrairement dgrade. Ceci tant
essentiellement d une mauvaise dfinition de la taille des niches cres,
2. on peut observer un phnomne de convergence rpte vers les zones prcdemment
dprcies.
Nous pouvons nanmoins remarquer que si les principaux reproches mis lgard du
niching squentiel concernent la modification de la fitness, ce comportement est partag par les
mthodes spatiales de type sharing. De plus, un des reproches voqus, savoir la destruction
ventuelle doptima locaux au voisinage des optima dtects, ne saurait tre pris en compte
dans notre cas. En effet, si nous dfinissons une niche comme consistant en lensemble des
116 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

structures appartenant une mme classe dquivalence au sens de Markov, la pnalisation


de la fitness de ces structures ne saurait modifier lvaluation de celles appartenant dautres
classes dquivalence, voisines dans lespace des solutions.
Le niching squentiel prsente cependant lavantage de sa simplicit dimplmentation ; celleci est plus aise et sensiblement plus intuitive que celle dune mthode spatiale puisquelle
consiste seulement en lajout dune mthode de pnalisation/mmorisation une mthode
volutionnaire prdfinie.
Si lavantage thorique semble bien revenir aux mthodes spatiales, nous avons entrepris
dans un premier temps dimplmenter une mthode de niching squentiel la recherche de
structures. Ce choix sexplique en premier lieu par le souhait dprouver une mthode relativement simple mettre en place. De plus, nous le verrons par la suite, au regard de certains
dveloppements rcents dans le domaine des mta-heuristiques, une approche intressante
consiste non plus choisir entre les approches spatiales et temporelles mais conjuguer leurs
proprits travers une hybridation. Nous tudierons cette dernire approche dans la suite de
ce chapitre.

6.2.3

Niching squentiel appliqu lapprentissage de structures

Lalgorithme procde une volution comparable celle dun algorithme gntique classique
(cycles itrs dvaluation, slection, reproduction et remplacement des individus) ceci prs
quune liste doptima est tenue jour. Les individus correspondant ces optima voient leur
fitness dgrade afin de dcourager toute visite et maintenance de ces individus.

6.2.3.1

Optima locaux

Comme nous lavons prcis dans la section, les optima locaux, dans le cadre de notre
mthode, correspondent des classes dquivalence au sens de Markov. Quand au moins
une classe dquivalence a t tiquete comme correspondant un optimum de la fitness,
les diffrents individus de la population appartenant un optimum de cette liste voient la
valeur de leur fitness dgrade afin de dcourager toute exploitation ultrieure de ces parties de
lespace des solutions. La dtermination de lappartenance ou non dun individu une classe
dquivalence de la liste intervient lors de la phase dvaluation, aprs gnration par croisement
et mutation de la nouvelle population. Le GE de chaque nouvel individu est alors calcul et
compar ceux contenus dans la liste des optima. Si une correspondance est dtermine, alors
lindividu concern voit sa fitness pnalise et fixe une valeur arbitraire (trs faible, infrieure
au score de la structure vide).
Les classes dquivalence rpertories par la liste sont dtermines au cours du droulement
de lalgorithme : si, au terme dun nombre prdtermin Iteopt ditrations, il ny a pas damlioration de la fitness du meilleur individu, lalgorithme rcupre le GE de la classe dquivalence
de celui-ci et lajoute la liste.
Il est important de remarquer ici que les optima locaux ne sont pas interdits de manire
formelle dans la population. Les optima enregistrs peuvent trs bien rapparatre dans notre
117 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

population suite un croisement. Lvaluation des classes dquivalences prsentes ne commence en effet qu lissue de la phase de mutation ; un optimum pralablement mmoris peut
fort bien rapparatre lissue de lopration de croisement et lindividu concern subir une
mutation permettant dexplorer le voisinage de cet optimum.

6.2.3.2

Comportement de lalgorithme

Les auteurs de [Beasley et al., 1993] procdent une rinitialisation du processus volutif
aprs chaque dtermination dun optimum. Notre algorithme poursuit lvolution en considrant la liste, mise jour, de ces optima. Nanmoins, en permettant la population de poursuivre
son volution au voisinage des optima dtects, nous cherchons prserver les diffrentes
briques lmentaires jusqualors trouves ainsi qu rduire le nombre dvaluations que requerraient plusieurs lancements de lalgorithme.

6.2.3.3

Arrt de lalgorithme

la rencontre dun critre darrt, lalgorithme gntique termine donc son excution en
renvoyant la liste des optima dtermins jusqualors. Le critre darrt de lalgorithme peut
aussi tre envisag de manires diffrentes, par exemple :
soit aprs un nombre fix doptima locaux dtects ;
soit aprs un nombre fix ditrations (gnrations) en tout.
Nous optons pour la deuxime possibilit. Choisir un nombre fixe doptima locaux peut,
en effet, savrer tre un choix nettement plus arbitraire que celui du nombre ditrations. En
fonction du problme considr et/ou des donnes dapprentissage, le nombre doptima locaux
en lesquels le processus volutif ou une autre heuristique de parcours peut stagner peut
varier.
terme, lalgorithme renvoie un GOSC correspondant linstanciation du GE rattach au
meilleur score au sein de la liste des optima.
Le fonctionnement de lalgorithme est donn, en dtail, dans le pseudo-code de lalgorithme
11.
Un paramtre important de lalgorithme est, premire vue, le seuil au del duquel un
individu est identifi en tant quoptimum de la fonction dvaluation.
Il est ncessaire de dfinir une valeur de ce paramtre, que nous nommons Iteopt , qui soit :
ni trop petite : considrer trop htivement une classe dquivalence comme tant un
optimum local entraverait lexploration de lespace de recherche de lalgorithme gntique
et lon cumulerait de plus un trop grand nombre doptima ;
ni trop grande : perte du bnfice de la mthode en restant trop longtemps en un mme
point de lespace de recherche : les optima locaux freinent alors effectivement la progression
de la recherche.
Lexprience nous a montr quune valeur de Iteopt situe entre 15 et 25 itrations permet
dobtenir de bons rsultats. La mthode semble en effet assez stable au niveau de la valeur du
paramtre Iteopt tant que, comme nous lavons voque, cette valeur permet la fois de rester
118 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

Algorithme 11 Algorithme gntique avec mmorisation des optima rencontrs.


Entre: Taille de la population , nombre ditrations avant mmorisation Iteopt , score pnalis
Penal, probabilit de mutation Pmute et probabilit de croisement Pcross .
Sortie: Liste optima des optima dtects sous forme des GE reprsentant les meilleures classes
dquivalence au sens de Markov trouves et Gkeq , meilleure classe dquivalence au sens
du score de optima.
1: /***Cration de la population initiale Pop0 par MWST***/
2: compteur 0
3: optima {}
4: Pour Ite itrations Faire
5:
/***Phase de slection***/
6:
/***Phase de croisement***/
7:
/***Phase de mutation***/
8:
rcupration de la population Pop0t gnre par les oprateurs gnotypiques
9:
Si optima , {} Alors
10:
Pour i = 1 : Faire
11:
Pour j = 1 : |optima| Faire
12:
Si le GE de Pop0t (i) = optima(j) Alors
13:
Score(Pop0t (i)) Penal
14:
Fin Si
15:
Fin Pour
16:
Fin Pour
17:
Fin Si
18:
Si compteur = Iteopt Alors
19:
optima le GE de (Pop0t (1))
20:
Identifier tous les individus Pop0t (i) = {Gi , Score(Gi )}, i {2, . . . }, Gi G1
21:
Score(Pop0t (i)) Penal
22:
compteur 0
23:
Sinon
24:
compteur compteur + 1
25:
Fin Si
26:
/***Gnration de Popt+1 ***/
27: Fin Pour
(k)
(k)
(k)
28: Retourner Geq avec k = argmax(Score( linstanciation en GOSC de (Geq )), Geq optima

119 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

peu de temps autour dun mme optimum tout en permettant la population de converger
autour de celui-ci.
La valeur de la pnalit inflige aux classes dquivalences est, nous lavons dit, arbitraire.
La seule contrainte est que la valeur laquelle est abaisse lvaluation de loptimum dtect
soit infrieure celle de la plus mauvaise structure possible, par exemple : 1015 .

6.2.4

Exprimentations et rsultats

Nous avons prouv, dans un souci de comparaison de performances, plusieurs mthodes


dont :
lalgorithme gntique simple, dfini en dbut de ce chapitre ;
lalgorithme gntique appliquant la stratgie de niching squentiel ;
certaines des principales mthodes de la littrature prsentes dans le chapitre 4 ;
Les rsultats de ces exprimentations ont t regroups dans le chapitre 8. Comme nous
lavons fait remarquer, bien quune mthode de niching squentiel paraisse a priori plus adapte
notre problmatique quune mthode spatiale tel que le sharing ou le crowding, [Mahfoud, 1995]
souligne les avantages et performances des mthodes spatiales. Des travaux rcents [Zaharie, 2004,
Zhang et al., 2006] montrent quil est cependant possible de combiner une approche temporelle
et une approche spatiale. Ce type dhybridation prsente plusieurs avantages et nous avons
dcid den implmenter une version, prsente dans la suite de ce chapitre, employant le
mcanisme squentiel prsent dans cette section.

6.3

Combinaison avec une approche spatiale

Bien que nous ayons choisi demployer une mthode de niching squentiel, nous pouvons
lgitimement nous interroger sur les avantages que pourrait avoir, pour la rsolution de notre
problme, lapplication dune stratgie de rpartition spatiale. Nous avons en effet vu quune
approche prnant une rpartition spatiale des individus prsentait, elle aussi, des avantages,
notamment dans la dcouverte et la perptuation dun matriel gntique diversifi.
Un comparatif entre une mthode spatiale telle que le sharing ou le crowding (cf. section
5.4.3) avec une mthode squentielle nest cependant pas lobjet de ce travail de thse ; par
consquent, nous avons dcid de mettre au point et dimplmenter une mthode permettant
de combiner les deux aspects (temporel et spatial) des mthodes de niching.
Pour cela, nous avons combin les notions vues dans la section prcdente une technique de
rpartition de la population telle quapplique dans le cadre des algorithmes gntiques parallles (cf. section 5.4.4). Nous dcrivons dans la suite comment sopre cette hybridation, quelle
est la stratgie de rpartition des individus ainsi que limplmentation finale de lalgorithme
combinant les deux notions.

120 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

6.3.1

Rpartition spatiale de la population

Il existe plusieurs variantes pour limplmentation dalgorithmes distribus. Parmi celles-ci,


nous avons prcdemment abord le principe du modle en lots (ou island model). Les thories
communment associes aux modles distribus et plus particulirement aux modles en lots
sont essentiellement issues de travaux concernant la gntique des populations et visent
expliquer les phnomnes de diversification et de transmission de gnes au sein de populations
distribues.

6.3.1.1

Gntique des populations

La thorie des algorithmes gntiques distribus est frquemment relie aux thories de la
gntique des populations. Nous nentrerons cependant pas dans le dtail des considrations de
cette branche de recherche et nous nous contenterons de citer les principaux points en relation
avec lalgorithmique volutionnaire.
Un des modles de systme parallle les plus implments est le modle en lots (ou Island
model). Ce terme est en fait rapprocher de son vis--vis dans le domaine de ltude gntique :
le modle de populations en les de Wright [Wright, 1964] (le mme S. Wright auquel est
communment attribue la paternit des rseaux baysiens [Wright, 1921]).

Figure 6.6 Modle de populations en lots. Ici, les populations sont compltement interconnectes.
Ce modle consiste en un ensemble de d populations localises chacune sur des les indpendantes (voir figure 6.6). Les lots (on utilise, en gntique, le terme dmes) peuvent changer des
membres de leur population avec dautres dmes. Notons que ce modle est essentiellement
thorique et ne sert, en biologie, quafin de pouvoir modliser aisment les phnomnes de
migration et dchanges de gnes entre populations.
Il existe, localement chaque population, un phnomne de drive gntique, amenant
les diffrents gnomes vers un stade dhomognit des gnomes. Ces diffrents phnomnes
de drive sont supposment inter-indpendants. Du fait de lintroduction du phnomne de

121 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

migration, ces drives perdent leur indpendance dans chaque population, amenant lintroduction de nouveaux allles dans des dmes o un autre allle stait fix. Sans aller plus loin
dans le domaine biologique, nous pouvons dores et dj tablir la consquence du phnomne
migratoire dans cette modlisation : le taux dindividu partageant le mme matriel gntique
au sein dune sous population ne va plus tendre vers 1 comme cela est le cas avec un algorithme
panmictique.
Cette homognit diminue dautant plus avec la croissance du nombre ponctuel de migrants
arrivant chaque gnration. La conclusion, en termes dalgorithmique volutionnaire, est que
la diversit gntique est plus grande au sein dune population subdivise quau sein dune
population panmictique.
Dautres modles de populations distribus existent, mais leur diffrence rside dans des
modes de transitions et de dfinitions diffrentes de voisinage et, surtout, les implmentations
de ces modles pour lalgorithmique volutionnaire se sont avres infructueuses.
Une autre thorie, issue elle aussi de la biologie et frquemment accepte comme une explication aux performance des algorithmes distribus, est celle de lquilibre intermittent (ou punctuated equilibrium). Daprs cette thorie [Eldredge et Gould, 1972, Martin et al., 1997], lvolution
des espces est caractrise par de longues priodes de stabilit entrecoupes de courtes mais
remarquables phases de changements. Dans un algorithme gntique, les priodes de stabilit
correspondent une convergence prmature. Lorsque plusieurs sous populations voluent en
parallle, les migrations ponctuelles dune sous population une autre permettent linjection
de nouveau matriel gntique et par consquent un redmarrage de ltape dexploration de
lespace des solutions.

6.3.1.2

Notre implmentation

Bien que les modles en lots, tels quils sont introduits dans la section 5.4.4, sinscrivent dans
le cadre dimplmentations rparties sur plusieurs processeurs. Nous avons choisi ici dimplmenter notre mthode sur un unique processeur. Limplmentation sur plusieurs machines en
parallle est bien entendu tout fait envisageable, nanmoins nous nous contenterons dans le
cadre de nos travaux dvaluer notre implmentation en termes de performances des individus
valus, critre indpendant de la nature de limplmentation.
Typiquement, pour un modle de populations rparties en lots, des paramtres additionnels
entrent en ligne de compte, en plus des paramtres dun algorithme panmictique [Tanese, 1989] :
lintervalle migratoire : not Imig , il sagit du nombre ditrations au sein dune ou de lensemble des sous-populations considres sparant deux phases migratoires ;
le taux de migration : not Tmig , indique le taux dindividu, au sein dune sous-population,
slectionns pour la migration ;
nombre de sous populations : le nombre dlots entre lesquels sopreront les diffrentes migrations ;
la taille des sous populations : communment, des populations de tailles identiques voluent
sur les diffrents lots. La taille de chaque population est gale une fraction du nombre
total dindividus. Cependant, rien nempche de gnraliser en proposant des tailles
distinctes pour chaque population.
122 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

Si lon envisage de combiner la rpartition spatiale avec la mthode de niching squentiel


prsente dans le chapitre prcdent, lalgorithme sapprte tout naturellement lajout dune
mmorisation des optima locaux rencontrs par les diffrentes populations.
Le fonctionnement de lalgorithme est alors le suivant :
chaque sous-population volue pendant Imig itrations avant de transfrer Tmig individus o indique la taille commune de chaque sous-population ;
chaque sous-population dtecte, localement, dventuels optima selon le principe nonc
dans le chapitre 6 ;
une liste des optima mmoriss, commune lensemble des sous-populations est tenue
jour.
Lintrt dun modle en lots est la mise en place du systme de migration ponctuelle
prcdemment voqu et permettant un change de briques lmentaires entre les diffrentes
sous-populations. En labsence de cette interactivit, nous ne procderions qu Npop instances
dun mme algorithme gntique, o Npop est le nombre de sous-populations volues. cette
interactivit vient donc sajouter lemploi dune liste commune doptima locaux, lesquels voient
la valeur de leur fitness dprcie.
Lobjectif final dune telle implmentation tant alors de parvenir une rpartition maximale
dans lespace des solutions des diffrentes sous-populations volues.
Une description plus dtaille de notre implmentation est fournie par lalgorithme 12.

6.3.2

Exprimentations et rsultats

Les rsultats des tests effectus partir des deux mthodes prsentes dans ce chapitre ont
t regroups dans le chapitre 8.
Les tests prliminaires effectus avec notre mthode hybride prsents en annexe C ont
montr une stabilit du comportement de lalgorithme vis--vis des paramtres de migration.
Nous avons nanmoins opt pour un rglage de ces paramtres 20 itrations pour lintervalle
migratoire et 10% de la population pour le taux de migration. Le nombre de sous populations
ainsi que la taille en nombre dindividus de ces dernires ont t tout deux fixs 30.

123 / 229

CHAPITRE 6. APPRENTISSAGE AVEC RPARTITION DANS LESPACE DES SOLUTIONS

Algorithme 12 Algorithme gntique distribu avec mmoire


Entre: Taille des populations , nombre de populations Npop , nombre ditrations avant mmorisation Iteopt , pnalit Penal, probabilit de mutation Pmute et probabilit de croisement
Pcross , taux de migration Tmig , intervalle migratoire Imig , nombre total ditrations Nite .
Sortie: Liste Optima des optima dtects, graphe partiellement orient Geq reprsentant la
meilleure classe dquivalence au sens de Markov trouve.
1: /***Cration des populations initiales Pop0 , k {1, . . . Npop }***/
k
2: compteurk 0, k {1, . . . Npop }
3: Optima {}
4: optimak {}, k {1, . . . Npop }
5: Pour Nite itrations Faire
6:
Pour chacune des Npop populations, note Popk , k 1, . . . Npop Faire
7:
Pour Imig itrations Faire
8:
optimak Optima
9:
/***Phase de slection***/
10:
/***Phase de croisement***/
11:
/***Phase de mutation***/
12:
rcupration de la population Pop0t
gnre par les oprateurs gnotypiques
k
13:
Si optimak , {} Alors
14:
Pour i = 1 : Faire
15:
Pour j = 1 : |optimak | Faire
16:
Si le GE de (Pop0t
(i)) = optimak ( j) Alors
k
0t
17:
Score(Popk (i)) Penal
18:
Fin Si
19:
Fin Pour
20:
Fin Pour
21:
Fin Si
22:
Si compteurk = Iteopt Alors
23:
optimak le GE de (Pop0t
(1))
k
24:
Identifier tous les individus Pop0t
(i) = {Gi , Score(Gi )}, i {2, . . . }, Gi G1
k
0t
25:
Score(Popk (i)) Penal
26:
compteurk 0
27:
Sinon
28:
compteurk compteurk + 1
29:
Fin Si
30:
/***Gnration de Popt+1
***/
k
31:
Optima optimak
32:
Fin Pour
33:
Fin Pour
34:
/***Phase migratoire***/
35:
Pour k = 1, . . . , Npop Faire
j
k
36:
Les Tmig meilleurs individus de Popk migrent vers une population Pop j , j , k,
choisie alatoirement
37:
Fin Pour
38: Fin Pour
(i)
(i)
(i)
39: Retourner Geq avec i = argmax(Score(linstanciation en GOSC de(Geq )), Geq Optima
124 / 229

Chapitre 7

Stratgie dadaptation de la mutation


Le milieu naturel, en tant que processus volutif, a pour particularit dapprendre de ses
actions passes ; lorsquun individu ou un comportement disparait conscutivement de mauvaises performances, il est rare que celui-ci rapparaisse ultrieurement. Alors que les algorithmes volutionnaires tendent effectivement promouvoir lmergence et la survie des
meilleurs individus, leur nature stochastique mme a pour inconvnient de gnrer nombre
de calculs inutiles en gnrant plusieurs fois des solutions de mauvaise qualit ayant dj t
explores.
Nous introduisons dans ce chapitre une mthode ayant pour objectif de permettre une
adaptation de lexploration de lespace des structures en fonction des solutions prcdemment
visites et values. Cette adaptation ayant pour but dune part dinciter lapparition dlments
performants et, dautre part, de dcourager la gnration dun matriel gntique de mauvaise
qualit.
Dans une premire partie, nous aborderons le principe gnral de notre mthode ainsi ses
motivations. La deuxime partie de ce chapitre sattachera une description prcise de notre
implmentation.

7.1

Introduction

Lobjectif dun algorithme gntique est de permettre, idalement (oprateurs adquats et


utilisation de bons paramtres), de couvrir efficacement lespace des solutions et de dgager la
ou les partie(s) de cet espace contenant de "bonnes" solutions.
Dans la ralit, ces mthodes sont employes pour la rsolution de problmes comportant
un espace de solutions de taille consquente et difficile explorer. Dans ce cas, lapproche
generate and test des mthodes volutionnaires a alors pour consquence une convergence lente
de lalgorithme vers une bonne solution et celui-ci effectue inutilement de nombreux calculs lis
lvaluation dindividus non-optimaux, eux-mmes souvent explors plusieurs reprises.
Une approche consiste ds lors orienter lvolution de la population en tenant compte
des rsultats des individus prcdemment valus afin, dune part, dencourager lexploration
125

CHAPITRE 7. STRATGIE DADAPTATION DE LA MUTATION

et lexploitation de secteurs intressants de lespace de recherche et, dautre part, dviter


les valuations redondantes de gnotypes de mauvaise qualit. Ce type de comportement
(adaptivit en fonction dun retour sur la qualit des individus) est ouvertement abord par
deux types de mthodologies volutionnaires : les approches adaptatives (cf section 5.4.1) et les
approches de type EDA (cf section 5.4.2).
Les mthodes adaptatives visent optimiser les oprateurs gntiques et/ou les paramtres
associs ces derniers soit par un retour direct sur la qualit des individus volus, soit en
laissant au processus volutif le soin de favoriser la survie, conjointement aux individus associs,
des paramtres adapts. Les mthodes destimation de distribution, telles que lalgorithme PBIL
(Population Based Incremental Learning) [Baluja, 1994], permettent de faire voluer une densit
de distribution value en fonction des meilleurs individus rencontrs jusqualors.
Dautres mthodes implmentent cette ide de mmorisation au sein des oprateurs gnotypiques dun algorithme volutionnaire, favorisant la gnration dindividus de meilleure
qualit [Sebag et al., 1998] o laction de loprateur de mutation est influence par une stratgie
prtablie ainsi que des caractristiques des meilleurs et pires individus rencontrs.
Une premire version [Delaplace et al., 2006], auto-adaptative, de lapproche dcrite dans
ce chapitre visait dterminer les probabilits de mutation appliques localement aux ensembles de sommets parents des diffrentes variables dune structure. Le principe gnral de
cette approche tait alors de promouvoir les mutations dindividus dgrads afin de favoriser
lexploration de lespace des solutions tout en rduisant les mutations dindividus de meilleure
qualit, proches dun optimum. Cette approche a cependant linconvnient de ne considrer,
pour un ensemble de sommets parents et pour chaque occurrence dune opration de mutation
sur cet ensemble, dinfluer sur la probabilit de lensemble des oprations de mutation. Le
problme tant que, parmi les mutations affectes, certaines peuvent avoir des consquences
diffrentes sur la qualit de la solution.
Conscutivement ces observations, une meilleure approche permettrait :
de pouvoir valuer les rsultats des diffrentes oprations de mutation en fonction de leur
influence individuelle sur le score global de la structure,
dinfluer conscutivement sur la probabilit de survenance de ces mouvements dans lensemble de la population.
Cest dans cette optique que nous avons dvelopp une mthode adaptative permettant
dorienter lexploration de lespace des solutions en fonction dun retour sur la qualit des
explorations passes. La section suivante dcrit les lments thoriques de cette mthode.

7.2

Notre mthode

Dans un premier temps, nous rappelons le fonctionnement de loprateur de mutation dans


lalgorithme gntique simple, dfini au chapitre prcdent.
Loprateur de mutation employ dans notre moteur volutionnaire dfinit une mutation
comme une opration parmi :
ajout dun arc ;
126 / 229

CHAPITRE 7. STRATGIE DADAPTATION DE LA MUTATION

inversion dun arc ;


soustraction dun arc.
Cette opration est applique, avec une probabilit Pmute , un arc ai j et modifie ainsi lensemble j des sommets parents du sommet X j . La nature de lopration ainsi que celle de
larc aij sont effectus squentiellement et de manire uniformment alatoire en fonction de la
possibilit, ou non, dappliquer les diffrentes oprations un ensemble de sommets j = ne
peut se voir appliquer quun ajout darc, aucun arc ne pouvant tre soustrait ou invers .
Nous souhaitons dfinir une distribution de probabilits permettant dinfluer sur le choix
des oprations de mutation effectues sur les individus de la population. Cette distribution
devant reflter les rsultats des mutations passes en fonction de limpact de celles-ci sur la
qualit des individus modifis.
Notons que bien que nous employons une distribution de probabilits voluant dans le
temps, notre mthode se distingue dune mthode de type EDA en ce que nous ne faisons pas
voluer une distribution de probabilits rgissant les individus mmes mais lorientation de
lexploration. proprement parler, nous faisons bel et bien voluer une population dindividus.
La distribution de probabilits dfinie sur les oprations de mutation est, quand elle, modifie
par rapport ceux-ci.
Considrons la probabilit, lors dune phase de mutation, que le coefficient ai j {0, 1}, 1
i, j n, reprsentant lexistence (ou labsence) de larc Xi X j , subisse une opration Opmute
parmi {a jout, inversion, soustraction}. Nous crivons cette probabilit P(i, j, Opmute ).
Influencer les probabilits dapplication des diffrentes oprations de mutation revient alors
mettre au point un mcanisme de contrle de P(i, j, Opmute ). Il nous reste dfinir ce mcanisme.
Commenons par considrer que nous manipulons directement la distribution P(i, j, Opmute ),
pour tout couple 1 (i, j) n, i , j et pour toute opration Opmute . Nous devrions alors dfinir et
maintenir 3 n (n 1) 1 paramtres indpendants. Il apparat rapidement que, ds lors que le
rseau dont nous cherchons la structure contient un nombre lev de variables, les probabilits
ainsi dfinies seront vraisemblablement faibles et leur variation peu influente.
Lopration de mutation se dcompose suivant le choix de i,j et Opmute . Nous pouvons
simplifier la densit de probabilits en conditionnant un sous ensemble de {i, j, x} par son
complmentaire, lequel sera slectionn par le biais dune distribution de probabilits statique.
Nous allons tudier les sous-ensembles possibles et choisir en consquence.
Les distributions de probabilits que nous pouvons dfinir et contrler peuvent tre :
P(Opmute , i| j) : nous dterminons lopration effectue et le sommet darrive de larc concern
en fonction du sommet parent. Linconvnient est que le choix de Opmute , tant donn j,
est fortement dtermin par celui de i (le seul choix survient entre inversion et soustraction,
lorsque larc aij existe. Lintrt du contrle de cette distribution est trop limit pour nous
intresser ;
P(i, j|Opmute ) : larc sur lequel sapplique lopration dpend de la nature de celle-ci. Ce choix
implique de devoir choisir entre
laisser loprateur de mutation intervenir plus dune fois sur un mme ensemble de
parents et, donc, devoir restimer la distribution P(i, j|Opmute ) entre chaque opration ;
127 / 229

CHAPITRE 7. STRATGIE DADAPTATION DE LA MUTATION

interdire loprateur de mutation dintervenir plus dune fois sur un mme ensemble
k et devoir restimer la distribution P(i, j|Opmute ), j , k entre chaque opration de
mutation ;
P(Opmute |i, j) : ici, lopration effectue est dtermine par le choix pralable de larc. Ce choix
na pas dintrt car la dtermination de larc ai j sur lequel oprer implique, au plus, de
choisir entre une opration de soustraction ou dinversion si aij = 1. Dans le cas contraire,
seule lopration dajout est possible. ;
P(i|Opmute , j) : revient dterminer le sommet de dpart de larc en fonction de lopration
licite. Le sommet darrive tant dtermin, nous pouvons alors dfinir n distributions
P(i|Opmute , j), i , j, 1 i, j n comptant chacune n 2 paramtres indpendants. Chaque
ensemble de sommets parents des variables du domaine peut alors muter une seule fois
avec la probabilit Pmute et il est inutile de procder des calculs intermdiaires entre
chaque opration ;
P(j|Opmute , i) : cette distribution revient, en termes de calculs, lemploi de P(i|Opmute , j). Mais
en dfinissant une probabilit sur les sommets darrive des arcs tant donn un sommet
parent, nous irions lencontre du principe de notre modlisation qui utilise les calculs des
scores locaux sur les sommets darrive. La mme remarque, portant sur la modlisation
employe, est valable pour la distribution P(Opmute , j|i).
Compte tenu des remarques prcdentes, nous avons dcid dimplmenter un mcanisme
de contrle sur la distribution de probabilits P(i|Opmute , j) et donc influer sur le choix dun
sommet de dpart tant donn le sommet darrive, pour une opration donne.
Nous pouvons dores et dj dterminer le code de lalgorithme 13, lequel dcrit le droulement dune phase de mutation pour une structure donne.
Algorithme 13 Droulement de la phase de mutation dun individu
1: Pour j = 1 . . . n Faire
2:
Si j mute avec une probabilit Pmute Alors
3:
liciter une opration de mutation Opmute parmi les oprations ralisables sur j
4:
appliquer Opmute(i, j) avec la probabilit P(i|Opmute , j)
5:
Fin Si
6: Fin Pour

Dtermination de la distribution P(i|Opmute , j)


Les probabilits de slection de lensemble j sont uniformes et valent Pmute fixe. Le choix de
lopration entreprise est effectu de manire uniforme sur lensemble des oprations ralisables
sur j .
La seule probabilit ncessitant un calcul et que nous tenons jour est P(i|Opmute , j).
La distribution tant tablie, pour un ensemble j et une opration Opmute donns, sur
lensemble des sommets de dpart des arcs pour lesquels lopration Opmute est ralisable, elle
doit respecter :
X
(i, j)
Op P(i|Opmute , j) = 1
mute

Opmute

128 / 229

CHAPITRE 7. STRATGIE DADAPTATION DE LA MUTATION

avec
(i, j)
Op
mute

(
=

1 si lopration Opmute (i, j) est ralisable,


0 sinon.

Il est impossible de dfinir une distribution de probabilit P(i|Opmute , j) fixe, employable


chaque instant par lensemble des individus de la population. La diversit des individus impose le calcul de P(i|Opmute , j) pour chaque opration de mutation, pour chaque individu, en fonction des oprations ralisables sur lensemble de sommets considr. Nous
proposons de manipuler/dfinir les diffrentes probabilits P(i|Opmute , j) partir de coefficients
(i, j, Opmute (i, j)), 1 i, j n, i , j sur lesquels portera le mcanisme de contrle. La distribution
de probabilits se calcule selon lquation 7.1 :
P(i|Opmute , j) = P

(i, j, Opmute (i, j))


(i, j)
Op (i,
mute

j, Opmute (i, j))

(i,j)

Op

mute

=1

(7.1)

Avant de dterminer le processus de calcul des coefficients , et afin quaucune opration


de mutation ne devienne impossible (probabilit nulle) o ne prdomine lensemble des oprations sur un ensemble j (probabilit gale 1), nous imposons la contrainte suivante sur les
coefficients :
0, 01 (i, j, Opmute (i, j)) 0, 9, 1 i, j n, Opmute (i, j)
linitialisation, en labsence de connaissances a priori, les (i, j, Opmute (i, j)) sont dfinis de
manire uniforme :
(i, j, Opmute (i, j)) =

1
n1

1 i, j n, Opmute (i, j)

Mcanisme de contrle des coefficients


Maintenant que nous avons tabli par quels moyens nous pouvons influencer lorientation
de lexploration de lespace, nous devons dterminer comment quantifier cette influence.
Pour cela, il est ncessaire de permettre aux coefficients de prendre en compte aussi bien
la qualit des mutations que la frquence de celles-ci. Au terme de chaque gnration, les
coefficients sont rvalus :
seuls les coefficients associs des oprations de mutation ayant t appliques au moins
une fois sont rvalus ;
pour un coefficient en cours de rvaluation, la modification de sa valeur est une fonction
de la soustraction du nombre dapplications infructueuses du nombre dapplications
fructueuses de cette opration sur larc associ ayant eu lieu au cours de cette gnration.
La rvaluation des coefficients est fonction dun paramtre , reprsentant lamplitude de
la variation du coefficient , et est dfinie par lquation 7.2 :

129 / 229

CHAPITRE 7. STRATGIE DADAPTATION DE LA MUTATION

Soit =nombre dapplications fructueuses de Opmute -nombre dapplications dommageables de


Opmute (durant la gnration en cours).

min((i, j, Opmute (i, j)) (1 + ) , 0, 9) si > 0,

(i, j, Opmute (i, j))


(7.2)

max (i, j, Opmute (i, j)) (1 ) , 0, 01 sinon.


Notons que fixer = 0 revient employer lalgorithme gntique simple, tant donn que la
valeur des coefficients nest plus modifie.
Une valeur leve pour un coefficient et donc une probabilit P(i|Opmute , j) elle-mme
leve a pour consquence la propagation du caractre associ chez les individus pour lesquels lopration est ralisable. Pour un individu sur lequel lopration considre ne peut tre
applique si elle a dj t applique lindividu au cours dune gnration antrieure, par
exemple la valeur de (i, j, Opmute (i, j) na pas de consquence sur les probabilits dapplication
des autres oprations ralisables (puisque lvaluation de la distribution de probabilits ne tient
compte que de ces dernires).
Alors que la population converge vers un optimum (local ou global), la mise jour rgulire
des coefficients va tendre graduellement favoriser ou du moins uniformiser les probabilits
P(i|Opmute , j) des diffrentes oprations possibles et viter ainsi une convergence prmature de
lalgorithme comme cela peut tre observ pour des mthodes o la probabilit de mutation est
strictement dcroissante [Glickman et Sycara, 2000].
Le comportement attendu de lalgorithme, aprs mise en place de notre mthode dorientation des oprations de mutation, est une acclration de la convergence ainsi quune tendance
moindre une convergence prmature, du fait dun suivi des rsultats des diffrentes mutations au cours de lvolution.
La section suivante consiste en un rappel des diffrents points voqus, travers une description dtaille de limplmentation de notre mthode.

Comparaison avec un algorithme EDA


tant donn que nous dfinissons une distribution de probabilits que nous modifions au
long du fonctionnement dun algorithme volutionnaire, il est naturel de se demander quelles
sont les diffrences entre notre approche et une mthode de type EDA telles que celles dcrites
dans la section 5.4.2.
La distribution P(i, j, Opmute ) que nous dfinissons nest rvalue que partiellement chaque
gnration (les seules probabilits rvalues sont celles des oprations ayant t effectues),
tandis quun algorithme estimation de densit rvalue lensemble des probabilits dapparition des diffrents caractres.
De plus, notre mthode dfinit une distribution de probabilits sur les diffrentes oprations
de mutation et non sur lapparition de telle ou telle caractristique dun individu. Cette diffrence, bien que conceptuelle, fait que notre algorithme influe sur lorientation de lvolution
et non sur la population mme. Remarquons au passage que la population, dans notre cas, est

130 / 229

CHAPITRE 7. STRATGIE DADAPTATION DE LA MUTATION

maintenue et volue dune gnration lautre, contrairement un algorithme EDA o seule


la distribution de probabilits est volue.
Enfin, la distribution P(i, j, Opmute ) ne dfinit pas, proprement parler, la probabilit dexistence de larc a(i, j) = Xi X j .
La probabilit dexistence de larc a(i, j) ne tient en effet pas compte des lments suivants :
larc a(i, j) peut dj exister dans la population, puisque celle-ci est maintenue et volue
par lalgorithme ;
un arc non-existant dans la population peut apparatre suite une opration dajout de
a(i, j) mais aussi suite linversion de larc a(i, j), si ce dernier existe ;
labsence de a(i, j) devrait tenir compte non seulement de ses probabilits dajout, de
soustraction et dinversion mais aussi de loprateur de rparation qui peut leffacer sil
savre que a(i, j) est larc portant le moins dinformation mutuelle au sein dun circuit
quelconque.
En rsum, notre mthode consiste avant tout en une stratgie de guidage de lvolution
via une influence exerce sur loprateur de mutation et non, comme dans une stratgie de
type EDA, en lvolution de la distribution de probabilits sur les caractristiques des meilleurs
individus jusqualors gnrs.

Implmentation
linitialisation de lalgorithme, une probabilit de mutation Pmute commune lensemble
des individus, pour chacun des ensembles i , i 1, . . . n, est fixe.
Nous dfinissons trois matrices, ZA , ZS et ZR .Chacune de ces matrices est affilie un parmi
trois ensembles de coefficients selon lopration de mutation considre :
ZA : matrice des coefficients affilis lopration dajout dun arc ;
ZS : matrice des coefficients affilis lopration de soustraction dun arc ;
ZR : matrice des coefficients affilis lopration dinversion dun arc ;
Ces trois matrices tiennent pour lensemble de la population et dfinissent une pondration
pour lopration de mutation affilie ainsi que pour les diffrents arcs sur lesquels cette dernire
peut tre applique.
Le fonctionnement de lalgorithme est le suivant :
lors de chaque phase de mutation, pour un individu donn, chaque ensemble des diffrents
ensembles de nuds parents de chaque ensemble de nuds prdcesseurs (ou parents)
j , j 1 . . . n de celui-ci subit une opration de mutation avec la probabilit Pmute ;
quand un ensemble j doit muter, un type dopration Opmute est choisi alatoirement
parmi les types dopration possibles sur j ;
une fois lopration dtermine, larc X j Xi sur lequel va porter celle-ci est choisi
alatoirement, en fonction des coefficients normaliss correspondant Opmute et au couple
(Xi , X j ) ;
aprs chaque opration de mutation, nous dterminons si oui ou non cette modification
a t fructueuse (i.e. a-t-elle permis une amlioration du score global de lindividu ?).
Op
Un compteur ij mute li au couple de sommets (i,j) et lopration de mutation Opmute
concerne est incrment (opration bnfique) ou dcrment (dgradation du score) ;
131 / 229

CHAPITRE 7. STRATGIE DADAPTATION DE LA MUTATION

lorsque tous les individus ont mut, les diffrents compteurs rendent compte du nombre
de fois o les diffrentes oprations se sont rvles bnfiques (ou dommageables) : ces
dcomptes servent mettre jour les coefficients des trois matrices ZA ,ZS et ZR .
Une description plus formelle de cette mthode est donne par les algorithmes 14 et 15.
Lalgorithme 14 dcrit le droulement de notre mthode durant la phase de mutation, au cours
de laquelle sont observes les consquences des diffrentes oprations de mutation.
Lalgorithme 15 dcrit la procdure de mise jour des coefficients .
Algorithme 14 Phase de mutation
Entre: Un individu I, trois matrices de coefficients ZA , ZS et ZR , trois matrices de dcompte
A , S et R correspondant aux oprations d(A)jout, de (S)oustraction ou dinversion
((R)eversal) dun arc.
Sortie: Individu mut I0 = {GI , Score(GI )}, matrices des coefficients et de dcompte mises
jour.
1: Opmute (i, j) 0, (i, j) {1, . . . , n}, Opmute {A, S, R}
2: Pour j = 1 . . . n Faire
3:
Si j mute Alors
4:
Choisir une opration de mutation Opmute , Opmute {A, S, R} parmi celles possibles
5:
Effectuer lopration Opmute (i, j) sur larc (Xi , X j ) avec la probabilit :
p= P
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:

7.3

(i, j, Opmute (i, j))


(i, j)
Op (i,
mute

j, Opmute (i, j))

I I0 , individu modifi par Opmute


Si Score(GI0 ) > Score(GI ) et GI0 sans circuit Alors
Op
Op
ij mute (i, j) ij mute + 1
Sinon
Si Score(I0 ) < Score(I) Alors
Op
Op
ij mute ij mute 1
Fin Si
Fin Si
Fin Si
Fin Pour

Exprimentation

Des tests prliminaires, prsents en annexes C, ont pench en faveur dune valeur de 0,5
pour . Cette valeur a t employe pour les tests et comparatifs prsents dans le chapitre 8.

132 / 229

CHAPITRE 7. STRATGIE DADAPTATION DE LA MUTATION

Algorithme 15 Mise jour des matrices de coefficients


Entre: Matrices des coefficients : ZA , ZS et ZR , matrices de dcomptage {A , S , R } issues
des mutations, paramtre .
Sortie: Matrices de coefficients ZA ,ZS et ZR , mises jour.
1: Pour i = 1 : n Faire
2:
Pour j = 1 : n Faire
3:
Pour Opmute {A, S, R} Faire
Op
4:
Si i j mute (i, j) > 0 Alors
5:
6:
7:
8:
9:
10:
11:
12:
13:

Opmute
(i,j)

i j

(i, j, Opmute (i, j)) min((i, j, Opmute (i, j)) (1 + )


Sinon
Op
Si ij mute (i, j) < 0 Alors

(i, j, Opmute (i, j)) max((i, j, Opmute (i, j)) (1 )


Fin Si
Fin Si
Fin Pour
Fin Pour
Fin Pour

, 0.9)

Opmute
(i, j)

i j

, 0.1)

133 / 229

Chapitre 8

Exprimentations
Lensemble des mthodes dcrites dans nos travaux ont t implmentes et testes partir de
deux toolbox Matlab spcialement ddies aux rseaux baysiens. La premire est la Bayesian
Net Toolbox de K. P. Murphy [Murphy, 2001]. La deuxime est la Structure Learning Package
(SLP) de P. Leray et O. Franois [Francois et Leray, 2004], conue en complment de la BNT et
implmentant les principaux algorithmes dapprentissage de structure.
Ce chapitre est consacr la prsentation des rsultats de nos diffrentes mthodes ainsi
quaux rsultats renvoys par certains des principaux algorithmes dapprentissage de structure.

8.1

Objectifs et mthodes

Bien que nous ayons dj document la problmatique de lapprentissage de structures de


rseaux baysiens dans les premiers chapitres de ce travail de thse, nous en rappelons le
droulement habituel.
Lapprentissage de la structure dun rseau baysien, tel quabord dans ce chapitre, revient
:

prendre en entre une base dapprentissage constitue dexemples dinstanciation jointe


des variables du domaine modlis
dterminer les relations conditionnelles entre les variables du modle considr,
soit partir de tests statistiques effectues sur plusieurs sous-ensembles des variables ;
soit partir de mesures dadquation entre une structure candidate et la base dapprentissage.
les diffrentes mthodes, dans nos valuations, utilisent des paramtres et/ou des mthodes dinitialisation particulires, ces lments seront prcises au moment opportun ;
au final, les structures apprises seront compares afin de dterminer les qualits respectives des diffrents algorithmes employs, ces comparaisons seront effectues partir
dlments de mesure prciss et justifis dans ce chapitre ;

Nous prcisons la notion de lapprentissage de structure dans le cadre de nos exprimentations car celle-ci ignore certains lments documents ou, du moins, voqus dans les chapitres
de ltat de lart tels que :
135

CHAPITRE 8. EXPRIMENTATIONS

prise en compte dun a priori sur la structure recherche, fourni par un expert ;
emploi, pour lapprentissage de bases de donnes incompltes ;
dtection dventuelles variables latentes.
Maintenant que nous avons tabli la dmarche suivie lors de lapprentissage, nous prsentons
dans la section suivante les mthodes employes ainsi que les protocoles associs.

8.1.1

Mthodes dapprentissage employes

Dans un souci de comparaison avec les mthodes existantes, nous avons employ, conjointement aux diffrentes mthodes volutionnaires que nous avons mises au point, quelques unes
des mthodes dapprentissage de structures, parmi les plus usites :

lalgorithme K2 ;
lalgorithme glouton sur lespace des structures, not GS ;
lalgorithme glouton sur lespace des graphes quivalents, not GES ;
lalgorithme MWST ;
lalgorithme PC.

On peut remarquer que les mthodes avec lesquelles nous nous comparons sont, exception
faite de lalgorithme PC, des mthodes de la famille search and score parcourant lespace des
structures candidates laide dune mesure dvaluation.
Les mthodes bases sur lemploi dun score prsentes dans ce chapitre sont toutes utilises
en association avec le critre BIC, dont les caractristiques sont rappeles plus loin dans ce
chapitre. Il est bien entendu possible dutiliser la plupart de ces mthodes avec dautres scores
ou critres, mais nous souhaitons ici avant tout comparer le comportement des algorithmes lors
du parcours de lespace de recherche et nous utilisons donc le mme critre pour chacun deux.
Une remarque doit cependant tre mise lgard de lalgorithme PC. Cet algorithme (cf.
section 4.2.1) mesure lindpendance de deux variables conditionnellement aux diffrents sousensembles de variables du domaine. Mme en limitant le nombre de nuds prdcesseurs
potentiels pour la structure recherche, la recherche de structures de grandes tailles (telles que
les structures INSURANCE et ALARM) seffectuait dans des dlais rendant lvaluation de
lalgorithme inintressante, comparativement aux autres mthodes (nous avons prfr arrter
les tests avant leur compltion, celle-ci tant suprieure 24h l o certaines mthodes telles
que MWST ne ncessitaient que quelques secondes). Nous navons employ cette mthode que
lors de lapprentissage de la structure du rseau ASIA.
Les mthodes que nous venons dnumrer sont, de mme, compares nos quatres algorithmes volutionnaires dapprentissage :
lalgorithme gntique simple, que nous dsignerons par la suite par AG ;
lalgorithme gntique panmictique combin une stratgie de niching squentiel, not
AGpenal ;
lalgorithme gntique avec adaptativit de la mutation, not AGmemo ;
lalgorithme gntique combinant le mcanisme de niching squentiel avec un schma de
distribution de la population en lots que nous notons AGdist .
136 / 229

CHAPITRE 8. EXPRIMENTATIONS

Lensemble de ces mthodes sont compares sur le plan de la qualit des structures apprises,
structures correspondant aux modles dcrits ci-aprs.

8.1.2

Les rseaux appris

Nous appliquons les diffrents algorithmes la recherche de structures de complexits


croissantes. Ces structures sont celles des rseaux suivants :
ASIA : [Lauritzen et Speigelhalter, 1988] compos de 8 variables et de 8 arcs, voir figure 8.1 ;
Insurance : [Binder et al., 1997] compos de 27 variables et de 52 arcs, voir figure 8.2 ;
ALARM : [Beinlich et al., 1989] compos de 37 variables et de 46 arcs, voir figure 8.3.

Figure 8.1 Structure du rseau ASIA.


Le rseau ASIA est un exemple simple de structure couramment employ dans la littrature.
Il est caractris par une liaison conditionnelle que lon peut qualifier de trs faible entre les
variables Visit to Asia et Tuberculosis (les probabilits dtre atteint de tuberculose selon que
lon ai t ou non en Asie sont, respectivement, de 5% et de 1%) et de deux V-structures
entre les variables Tuberculosis, Tuberculosis or Cancer et Cancer, dune part, et entre les variables
Tuberculosis or Cancer, Dyspnea et Bronchitis, dautre part.
Le rseau INSURANCE constitue un cas dtude intressant ; les liaisons au sein du modle
sont nombreuses, comparativement au nombre de variables et sont difficiles dtecter du
fait de la probabilit faible de survenance de certaines instanciations (la survenance dun vol,
reprsent par la variable Theft, est trs faible, en gnral).
Le rseau ALARM, enfin, constitue un compromis entre les deux rseaux prcdents : il sagit
dun rseau de grande taille (aux relations conditionnelles toutefois plus facilement dcelables
que pour le rseau INSURANCE) et, tout comme ASIA, amplement utilis dans la littrature.
Outre leurs caractristiques propres, ces modles ont servi de nombreuses reprises pour
lvaluation de mthodes dapprentissage de structures. Bien quune comparaison directe ne
soit pas applicable, du fait de lemploi de bases dapprentissage particulires selon les travaux,
137 / 229

CHAPITRE 8. EXPRIMENTATIONS

Figure 8.2 Structure du rseau Insurance.

Figure 8.3 Structure du rseau ALARM.

138 / 229

CHAPITRE 8. EXPRIMENTATIONS

lutilisation de ces modles permet de se figurer la qualit de nos mthodes par rapport aux
mthodes passes (et venir, sans doute).
Nous utilisons chacun de ces rseaux afin de synthtiser :
quatre ensembles de bases dapprentissage pour chaque rseau. Chaque ensemble contenant un certain nombre de bases, contenant le mme nombre de cas (250, 500, 1000 ou 2000
cas) ;
une base unique, de grande taille (20 000 ou 30 000 cas) pour chaque rseau. Cette base a
pour objectif, de par sa taille, dtre suffisamment reprsentative des dpendances conditionnelles du rseau dont elle est originaire.
Lensemble de ces bases est obtenu par chantillonnage probabiliste logique (ou probabilistic
logic sampling) [Henrion, 1988] : la valeur des sommets nayant pas de prdcesseurs est fixe
alatoirement, en accord avec les tables de probabilits du rseau dorigine, puis les variables
restantes sont chantillonnes suivant le mme principe, en tenant compte des valeurs des
sommets prdcesseurs.
Nous utilisons plusieurs bases dapprentissage pour un rseau et un nombre de cas par base
donns, afin de rduire tout biais conscutif une erreur dchantillonnage. En effet, dans le cas
de bases de taille limite, il se peut (et il est mme frquent) que les statistiques pouvant tre
extraites de ces bases ne reprsente pas exactement les dpendances conditionnelles prsentes
dans le rseau dorigine. Par exemple, si lon considre le rseau ASIA, une base ne contenant
que 100 cas chantillonns depuis le rseau dorigine, peut ne comporter aucune instanciation
du domaine pour laquelle la variable "TUBERCULOSE" est vraie.
Aprs apprentissage auprs des bases de taille limite, les scores BIC des structures retournes par les diffrentes mthodes sont obtenus partir de la base de grande taille voque
prcdemment, afin destimer des mesures qualitatives vis--vis de la distribution de probabilits quelle reprsente (proche, du fait du nombre lev de cas, de celle du modle dorigine).

8.1.3

Mesures utilises

Afin de mesurer les performances des algorithmes volutionnaires, nous utilisons diffrentes
valeurs (nombre ditrations loptimal, convergence du score BIC en fonction des itrations)
ne pouvant sappliquer aux autres mthodes, non stochastiques. Nanmoins, afin de pouvoir
comparer notre travail ces algorithmes, nous disposons dautres critres.
Les problmes inhrent une mesure de distance entre deux structures ont t abords
dans le chapitre 6. La consquence, dans la littrature consacre lapprentissage de structures,
notamment, est que plusieurs mesures doivent frquemment tre employes afin de permettre
au lecteur den faire une synthse et dinterprter la qualit des rsultats.

Score BIC
Prsent dans la section 4.3, le critre BIC est un critre dinformation permettant de mesurer,
ici, ladquation entre un rseau baysien et une base de cas. Ce critre applique le principe de
139 / 229

CHAPITRE 8. EXPRIMENTATIONS

parcimonie en incluant dans son calcul une pnalit, fonction de la complexit structurelle du
modle.
Le critre BIC se prsente numriquement sous la forme dun score ngatif, que nous cherchons maximiser.
Le critre BIC prsente lavantage dtre dcomposable, quivalent et consistant (cf. section
4.3). La proprit de consistance revenant, pour un score, dlivrer le score maximal au modle
effectivement sous-jacent la base dinformation notre disposition. Cette affirmation devant
tre nanmoins tempre dans le cas de bases de donnes de taille limite. Dans ce cas, il se
peut fort bien quune structure diffrente de la structure dorigine parvienne mieux modliser
les indpendances prsentes et, donc, obtenir un meilleur score que cette dernire. Pour cette
raison, les valeurs des scores BIC donnes dans ce chapitre le sont par rapport des bases de
donnes de grande taille, indpendamment des bases ayant servi lapprentissage (except,
nous le verrons, pour les mesures de divergence entre les distributions reprsentes o la base
ayant servi apprendre la structure est aussi employe pour apprendre les paramtres du
rseau construit). Ceci permet de se reprsenter une notion effective de la similarit entre le
modle appris et le modle rel, lequel a de trs fortes chances dobtenir le meilleur score dans
ces conditions.

Distance graphique la structure dorigine


Du fait de lemploi de bases de taille limite lors de lapprentissage, nous pouvons fort
bien obtenir des modles proches graphiquement de la structure dorigine mais obtenant nanmoins des scores BIC infrieurs en raison du jeu complexe des indpendances conditionnelles
reprsentes.
Pour complter notre ensemble de mesures nous avons calcul la distance ddition entre
deux GOSC G1 et G2 en fonction de quatres termes D, , Inv et , o :
D : Nombre total darcs diffrents entre G1 et G2 ;
: nombre darcs prsents dans G1 et absents dans G2 ;
Inv : nombre darcs inverss dans G1 par rapport G2 ;
: nombre darcs absents de G1 et prsents dans G2 .
Les distances affiches dans les diffrentes tables sont gales, pour notre algorithme, la
moyenne de ces distances sur les diffrentes instances effectues pour une taille de base dapprentissage et pour un rseau donn.
Ces distances, conjugues aux informations apportes par le score BIC, permettent de mieux
se reprsenter la qualit des structures renvoyes par les diffrentes mthodes.
noter, cependant, que le dtail des diffrences en fonction de leur qualit (ajout, inversion
ou absence darc) nest pas superflu ; nous avons prcis, dans la section 4.4.4, la notion de
rseaux quivalents. Dans une mme classe dquivalence ensemble de GOSC reprsentant le
mme jeu dindpendances conditionnelles, deux graphes peuvent prsenter des arcs inverss
les uns par rapport aux autres tout en confrant la mme reprsentation des indpendances
conditionnelles au sein du domaine. Sur le graphe partiellement orient reprsentant la classe
dquivalence des deux graphes, ceci se traduit par un arc non orient. La consquence est que
140 / 229

CHAPITRE 8. EXPRIMENTATIONS

les deux graphes obtiennent le mme score BIC (score quivalent) mais prsentent une distance
graphique non nulle compte tenu des inversions darcs entre les deux GOSC (linversion).
En utilisant le critre de distance structurelle, il est donc important de conserver lesprit que
les inversions peuvent aussi bien tre sans consquences (linversion correspond un arc non
orient dans le graphe quivalent) que plus grave (linversion cre ou dtruit une V-structure).

Divergence de Jensen-Shannon
La divergence de Jensen-Shannon, apparente la divergence de Kullback-Leibler toutes
deux prsentes en annexe A , permet de mesurer la dissimilarit entre deux distributions de
probabilits. Adapte pour deux rseaux baysiens B1 et B2 , elle scrit :

q1i
1
ri
n X
X
2

i jk
1

JS(B1 ||B2 ) =
i jk log

1 (X ) = j1 , G , ) + 1
2
P(X
=
k|
2
2
i
i
i=1 j1 =1 k=1
i jk

q2i
ri
n X
X
2 2i jk
X

2i jk log
+

2 (X ) = j2 , G , ) + 2

P(X
=
k|
1
1
i
i
i jk
i=1 j2 =1 k=1
o k (Xi ) dsigne lensemble des parents du nud Xi dans la structure Gk du rseau Bk .
Cette divergence permet de mesurer la reprsentativit de la loi encode par un rseau
baysien appris avec celle du rseau original. En partant dune structure apprise et dune base
reprsentative de la distribution de probabilits dorigine, nous crons un rseau baysien B2
dont nous calculons la divergence avec le rseau dorigine.
Le calcul de la divergence de Jensen-Shannon est cependant trs long. Il est en effet ncessaire
de calculer les probabilits de survenance de lensemble des instances du domaine rpertorie
dans la base de donnes, pour chaque modle.
Nous navons employ la divergence de Jensen-Shannon que pour comparer les rsultats
obtenus sur lapprentissage du rseau ASIA, les calculs requis pour le calcul de cette divergence
dans le cas de structures plus complexe stant avrs trop longs pour tre efficacement effectus
sur lensemble des tests raliss.
Conjointement la distance ddition graphique, la divergence de Jensen-Shannon permet
de dcomposer le rsultat du score BIC lequel tient compte la fois de la reprsentativit du
modle et de sa complexit graphique.

Mesures statistiques
Nous verrons dans la section consacre lanalyse des rsultats que les diffrences de
reprsentativits des bases dapprentissage que nous employons a pour consquence une dispersion assez importante des scores des solutions dune mthode donne lorsque celles-ci ont
t apprises partir dune base de taille limite. Afin de pouvoir faire ressortir les diffrences
dcelables entre les diffrents rsultats, nous emploierons, au sein des tables de rsultats, un
141 / 229

CHAPITRE 8. EXPRIMENTATIONS

test statistique non paramtr permettant de pouvoir affirmer lexistence dune diffrence significative entre deux groupes de scores obtenus. Ce test, le test de Mann-Whitney (cf. annexe
A), est ici employ sous lhypothse bilatrale de lexistence dune diffrence significative entre
les deux sries de scores compars, avec un seuil de confiance de 5%.

8.1.4

Protocoles exprimentaux

Le paramtrage des algorithmes, sauf prcision contraire, a t le suivant lors des tests :

8.1.4.1

Protocole - mthodes usuelles

K2 : Cet algorithme ncessite lentre dun ordre topologique sur les sommets du graphe
recherch. Nous avons utilis dans ce but deux types dinitialisation :
lordre topologique dun arbre retourn par la mthode MWST (mthode K2-T) ;
un ordre topologique alatoire (mthode K2-R).
Pour chaque instance de K2-R i.e. pour chaque base dapprentissage considre , nous
procdons 5 n initialisations alatoires pour ne retenir que celle renvoyant le meilleur
score BIC ;
GS : lalgorithme glouton, not GS, est initialis avec un arbre retourn par la mthode MWST,
dont la racine est alatoirement fixe ;
GES : lalgorithme glouton sur lespace des graphes quivalents, GES, est initialis avec la
structure vide ;
MWST : lalgorithme MWST est initialis avec un nuds racine slectionn alatoirement
(ceci na pas dinfluence sur le score de la structure obtenue) ;
PC : les indpendances conditionnelles sont dtermines par lintermdiaire du test du Chi2
de Pearson (cf. annexes A.2.0.1). Le seuil de confiance associ est fix 0,05. Le nombre
maximal de sommets prdcesseurs, pour une variable de la structure recherche est,
quant lui, fix 3.

8.1.4.2

Protocoles - mthodes volutionnaires

taille de la population : 150 individus pour les algorithmes ne faisant voluer quune
seule population. Lalgorithme population distribue AGdist fait voluer, quant lui, 30
sous-populations rparties de 30 individus chacune ;
probabilit de mutation : n1 ;
probabilit de croisement : 0,80 ;
politique litiste : le meilleur individu de la population en cours est conserv la gnration
suivante ;
critre darrt : le nombre ditrations, fix 1000. Except pour lalgorithme distribu
pour lequel cette limite a t fixe 300 ;
initialisation : les populations des diffrentes mthodes volutionnaires sont initialises
de la mme manire : par larbre non-orient renvoy par lalgorithme MWST, orient
partir dun sommet racine choisi alatoirement. Nous nous assurons nanmoins que
chaque sommet soit choisi au moins une fois en tant que racine.

142 / 229

CHAPITRE 8. EXPRIMENTATIONS

Le choix des valeurs de paramtres tels que la probabilit de croisement ou celle de mutation
proviennent dune part de certaines conventions dans le domaine des algorithmes volutionnaires [Bck, 1993] mais aussi et surtout dobservations empiriques faites au long de nos travaux.
Si les rsultats de ces (nombreuses) expriences ne sont pas dtaills ici, les rsultats de certaines
expriences menes afin de fixer une valeur adquate certains paramtres spcifiques nos
mthodes tels que le nombre et la taille des sous populations au sein de lalgorithme AGdist
figurent dans lannexe C.
Le nombre ditrations fix en tant que critre darrt des diffrents algorithmes a t licit
suivant deux critres :
une fois une taille de population assurant une bonne convergence de celle-ci, il convient de
fixer un nombre maximal ditrations afin de limiter le nombre total dvaluations. Lintrt
dune stratgie volutionnaire ntant pas tant de converger mais aussi de pouvoir le faire
dans une limite de temps/ditrations raisonnable ;
il est cependant intressant dassurer un temps assez long lvolution afin de pouvoir
observer, au final, le vritable temps mis par la population trouver la meilleure solution.
Le choix du nombre ditrations se veut donc la fois suffisant pour pouvoir observer et
interprter les performances de la mthode considre tout en vitant un nombre dvaluations
faussant la comparaison de rsultats avec des mthodes gloutonnes.
Outre les paramtres communs aux diffrentes mthodes volutionnaires lists prcdemment, les algorithmes AGpenal , AGmemo et AGdist ncessitent eux-mmes la dfinition de certains
paramtres particuliers. Ces paramtres ont fait lobjet de tests particuliers, eux aussi prsents
dans lannexe C
pour AGpenal , le paramtre Iteopt est fix 20 ;
pour AGmemo , le paramtre est fix 0,5. De plus, nous employons avec cet algorithme une
probabilit de mutation de n1 afin de tirer profit du mcanisme dadaptivit de loprateur
de mutation ;
pour AGdist lintervalle migratoire Imig est rgl 20 itrations tandis que le taux de migration Tmig est de 10%.
Pour chaque rseau appris et pour une taille de base dapprentissage donn, chaque mthode
est excute une fois, les rsultats sont ensuite moyenns sur lensemble des bases employes.

8.2

Apprentissage de la structure ASIA

La structure ASIA tant simple, comparativement aux autres algorithmes figurant dans nos
exprimentations, nous avons choisi de ne pas employer les mmes paramtrages gnraux
quavec les structures complexes comme Insurance. Les paramtres particuliers employs pour
ASIA sont les suivants :
nombre ditrations : 100 itrations pour AG et AGpenal , 50 pour AGmemo et 40 pour lalgorithme distribu AGdist ;
paramtre de mmorisation Iteopt pour lalgorithme AGpenal fix 10 ;
143 / 229

CHAPITRE 8. EXPRIMENTATIONS

nombre de populations en parallle fix 10 pour AGdist .


Nous disposons, pour lapprentissage, de 30 bases de cas chantillonnes depuis le rseau
dorigine et ce, pour chacune des quatre tailles de base considres.

Rsultats et commentaires
ASIA
250

500

1000

2000

AG

68912 910

68345 212

68273 68

68244 11

AGpenal

68959 919

-68338 213

68272 69

-68241 1

AGmemo

68908 840

68401 349

-68274 69

68243 4

AGdist

-68857 826

68340 213

68273 69

68242 1

GS

69197 916

68514 512

68307 95

68262 56

GES

68907 768

68422 266

68291 93

68251 0

K2-T

69093 925

68447 419

68276 68

68255 24

K2-R

69358 875

68617 448

68327 129

68266 55

MWST

70178 546

69959 226

69931 168

69857 60

PC

73916 2371

72039 1523

72592 1643

73106 1492

Original

68241

G0

88564

Tableau 8.1 Moyennes et cart-types arrondis des scores BIC obtenus par les diffrentes
mthodes, pour lapprentissage de la structure du rseau ASIA partir de 30 bases de cas
distinctes. Les valeurs moyennes minimales, pour chaque taille de base dapprentissage, sont
grises. titre indicatif, les scores des structures dorigine et de la structure vie, G0 , sont
indiqus en bas de table. Le signe dans une case signifie que les rsultats de la mthode
correspondantes sont significativement diffrents de ceux de la mthode prsentant la meilleure
moyenne (vrification par un test de Mann-Whitney).
La premire table de rsultats notre disposition, la table 8.1, recense les scores des structures
obtenues par les diffrentes mthodes, moyenns (correspondant aux 30 structures obtenues
sur chaque base des diffrents ensembles, pour une taille donne).
Pour des bases de donnes de taille faible et peu reprsentatives, les mthodes volutionnaires, ainsi que les mthodes gloutonnes GS et GES obtiennent des rsultats semblables. Il est
noter que les mthodes GS et GES, nous le verrons dans la section 8.6.2, obtiennent ici leurs
rsultats en des temps brefs. La structure du rseau ASIA est en effet trs simple.
Les mthodes de type K2 (R ou T) sont trs rapides, mme en tenant compte, pour lalgorithme K2-T de lexcution pralable de lalgorithme MWST afin dobtenir un ordre topologique
en entre.
Cependant, lorsque la taille des bases dapprentissage augmente (et donc, que ces bases
deviennent plus reprsentatives de la distribution de probabilits du modle recherch), les
performances de lalgorithme GS se dgradent comparativement celles des algorithmes vo144 / 229

CHAPITRE 8. EXPRIMENTATIONS

ASIA
250
D

500

Inv

Inv

AG

0, 7

1, 3

3, 1

0, 5

1, 2

1, 3

AGpenal

0, 7

1, 3

2, 8

0, 3

1, 2

1, 3

AGmemo

0, 7

1, 3

3, 5

0, 6

1, 5

1, 3

AGdist

3,8

0, 7

1, 2

1, 9

2,7

0, 3

1, 1

1, 3

GS

5, 1

2, 1

1, 2

2, 2

1, 6

GES

3, 8

0, 6

1, 3

1, 9

0, 3

1, 3

1, 3

K2-T

6, 7

1, 3

3, 3

7, 2

1, 7

1, 5

K2-R

4, 2

0, 8

1, 4

0, 8

1, 8

1, 4

MWST

6, 1

2, 1

6, 7

3, 8

1, 9

PC

7, 5

0, 1

4, 4

7, 7

3, 8

3, 8

1000
AG

2000

Inv

Inv

2,4

0, 2

1, 2

2, 2

0, 2

1, 1

0, 9

AGpenal

2,4

0, 2

1, 2

1, 1

0, 9

AGmemo

2, 9

0, 4

1, 3

1, 2

2, 6

0, 3

1, 3

AGdist

2, 5

0, 2

1, 1

1, 2

2, 2

0, 1

1, 1

0, 9

GS

2, 8

1, 2

5, 5

1, 2

3, 3

GES

2, 4

0, 2

1, 2

1, 1

0, 9

K2-T

1, 8

7, 5

1, 9

4, 6

K2-R

3, 2

0, 7

1, 4

1, 1

3, 4

0, 7

1, 7

MWST

6, 1

0, 7

3, 7

1, 7

6, 4

0, 6

4, 2

1, 6

PC

6, 6

0, 1

2, 9

3, 6

5, 4

2, 4

Tableau 8.2 Diffrences structurelles moyennes entre les rponses des diffrents algorithmes
et la structure du rseau ASIA partir de 30 bases de cas distinctes. Les valeurs moyennes
minimales sont grises.
ASIA
250

500

1000

2000

AG

124 50

46 17

23 9

10 3

AGpenal

124 49

46 17

23 9

93

AGmemo

123 49

48 19

23 9

93

AGdist

123 49

46 17

22 8

93

GS

139 49

54 25

27 11

12 7

GES

126 51

53 24

2513

10 6

K2-T

149 46

53 22

24 9

10 4

K2-R

134 55

64 21

29 12

13 6

MWST

214 37

174 24

152 14

141 68

PC

392 140

279 82

292 100

332 105

Tableau 8.3 Moyennes et cart-types arrondis des divergences de Jensen-Shannon des solutions
obtenues par les diffrentes mthodes, pour lapprentissage de la structure du rseau ASIA
partir de 30 bases de cas distinctes. Pour faciliter leur lecture, les valeurs sont ici arrondies et
multiplies par 104 . Les moyennes minimales, pour chaque taille de base dapprentissage, sont
grises.
145 / 229

CHAPITRE 8. EXPRIMENTATIONS

lutionnaires et de lalgorithme GES ; les tests de Mann-Whitney dmontrent quil existe une
diffrence significative entre les rsultats de GS et ceux des autres mthodes.
Les performances de lalgorithme PC sont dcevantes sur le plan des scores BIC des structures
obtenues. Ce comportement tait cependant prvisible, cet algorithme tant le seul ne pas
employer le score BIC en tant que critre de slection pour les solutions quil renvoie.
Les valeurs des carts types sont relativement leves, pour lensemble des mthodes, lorsque
les bases sont de tailles faibles. La reprsentativit des bases est en effet, dans ce cas, trs variable.
De manire intuitive, on peut fort bien se reprsenter le fait quune mme base de trs petite
taille a des chances de pouvoir tre issue de lchantillonnage de modles diffrents. Ainsi, pour
une base dapprentissage donne, le modle correspondant la meilleure valuation (modle
reprsentant le plus simplement et au mieux la probabilit sous-jacente) peut tre trs diffrent
du modle lorigine de la base. Ce comportement se vrifie entre autres par le fait que lcart
type des scores des solutions retournes par une mthode donne diminue mesure que la
base dapprentissage employe devient plus grande. Cependant, on peut remarquer que les
rsultats des mthodes K2-R et K2-T voient aussi leurs cart-types se rduire alors que leur
sensibilit lordre topologique qui leur est fourni en entre devrait, a priori, les amener la
ralisation de structures trs diffrentes. En fait, dans le cas dtude qui nous intresse, nous
procdons 5*n lancements partir dordres topologiques alatoires ; dans le cas dun rseau
de petite taille tel quASIA, cela suffit obtenir, en moyenne, de bons rsultats. Nous verrons
dans les expriences suivantes que dans le cas de rseaux plus compliqus, ceci peut cependant
savrer trs dommageable pour la qualit des solutions.
Les solutions retournes par les mthodes volutionnaires dans leur ensemble, pour des
bases dapprentissage de 2000 cas, obtiennent des scores trs proches de celui du rseau original,
score prsent en bas de la table 8.1, et ce malgr une distance ddition graphique non nulle.
Ceci est expliqu par, en gnral, lobtention dune structure o le lien entre les variables Visit to
Asia et Tuberculosis est absent (de poids faible en terme de probabilit, son ajout dgrade le score
BIC en de dune certaine taille pour la base dapprentissage, en compliquant la structure. Les
inversions darcs, sont alors mettre au compte darc nappartenant pas une V-structure.
La table 8.2, rpertoriant les valeurs moyennes des distances ddition entre les graphes
retourns et la solution recherche, refltent les rsultats qualitatifs de la prcdente table en
donnant lavantage aux mmes mthodes. On peut cependant remarquer que dans le cas de
bases de petites tailles (250 ou 500 cas), alors que les scores BIC des structures retournes par
lalgorithme glouton ne prsentaient pas de diffrence significative avec ceux des mthodes
volutionnaires ou GES, les structures correspondantes prsentent une distance ddition suprieure, en particulier un nombre darcs superflus lgrement suprieur.
Les distances ddition les plus dfavorables sont attribues aux solutions des algorithmes
MWST consquence naturelle de la limitation de cet algorithme lespace des arbres et
lalgorithme K2 initialis par lordre topologique induit par lalgorithme MWST. Dans ce
dernier cas, la majorit des diffrences rside dans linversion darcs
Les mthodes volutionnaires permettent, au final, dobtenir des structures, pour le rseau
ASIA, de bonne qualit et peu diffrentes, graphiquement, de la structure dorigine.
La dernire table de rsultats, la table 8.2, renvoie les valeurs moyennes des divergences de
Jensen Shannon entre les modles construits partir des structures renvoyes et des bases dap146 / 229

CHAPITRE 8. EXPRIMENTATIONS

prentissage correspondantes (servant alors apprendre les paramtres des modles) et celle
du rseau ASIA. Dans lensemble, les modles les plus proches sont, ici aussi, renvoys par les
mthodes volutionnaires et lalgorithme GES. On peut remarquer, de mme, que les cart types
des divergences des solutions renvoyes par les mthodes volutionnaires sont aussi rduits,
comparativement ceux correspondant aux autres mthodes, y compris GES. Lalgorithme GS,
ainsi que les mthodes de type K2 renvoient, elles aussi, des rsultats de bonne qualit. Les solutions les plus loignes de la distribution dorigine sont celles renvoyes par lalgorithme PC.
En regard de la table 8.2, les rsultats de cet algorithme ont pour particularit, comparativement
aux solutions dautres mthodes de prsenter un nombre suprieur darcs manquants. Cette
mthode semble devoir ncessiter un nombre consquent dexemples afin de pouvoir assurer la
fiabilit des tests dindpendance conditionnelle la base de son fonctionnement, un reproche
frquemment adress lgard des mthodes statistiques dapprentissage des structures.
Ltude des apprentissages effectus autour de la structure du rseau ASIA permet de se
figurer une premire ide des qualits intrinsques aux diffrents algorithmes que nous employons. Les rsultats prsents ici ne permettent pas de distinguer un meilleur comportement
de la part dune mthode parmi les mthodes volutionnaires et les algorithmes gloutons mais
nous pouvons dores et dj remarquer que les mthodes les plus rapides (nous renvoyons le
lecteur la section 8.5 pour une description plus complte des temps de calculs des mthodes
rpertories) ont un revers en ce quelles confrent une reprsentation limite (lalgorithme
MWST est limit lespace des arbres) ou bien font preuve dune grande sensibilit lgard
de leurs donnes dentre.
Dans la suite, nous allons tenter de dgager plus prcisment les qualits des algorithmes
en les confrontant lapprentissage de structures plus complexes, telles que celle du rseau
Insurance.

8.3

Apprentissage de la structure Insurance

Le rseau Insurance, reprsent sur la figure 8.2, est bien plus complexe que le rseau ASIA.
Notamment, dtail non prsent sur la figure, de nombreuses probabilits conditionnelles au
sein de ce rseau ont une valeur trs faible et sont donc difficiles tablir partir dune base de
cas restreinte.
Lapprentissage est effectu, pour chaque taille donne, sur un ensemble de 10 bases de cas
chantillonnes depuis le rseau Insurance. Chaque base dapprentissage fait ici lobjet dun
seul apprentissage, pour chaque mthode.

Rsultats et commentaires
Du fait de la multiplicit des variables, les scores sont plus levs et nous avons choisi de
prsenter leurs valeurs moyennes et cart-types diviss par dix, afin de simplifier la lecture de
la table 8.4. La mme dmarche a t suivie pour llaboration de la table 8.6, dans la section
suivante.

147 / 229

CHAPITRE 8. EXPRIMENTATIONS

Insurance
250

500

1000

2000

AG

32135 290

31200 333

29584 359

28841 89

AGpenal

31917 286

31099 282

29766 492

-28681156

AGmemo

-31826270

31076 151

29635 261

28688 165

AGdist

31958 246

-31075255

-29428290

28715 164

GS

32227 397

31217 314

29789 225

28865 151

GES

33572 247

31952 273

30448 836

29255 634

K2-T

32334 489

31772 339

30322 337

29248 163

K2-R

33002 489

31858 395

29866 281

29320 245

MWST

34045 141

33791 519

33744 296

33717 254

Original

28353

G0

45614

Tableau 8.4 Moyennes et cart-types, diviss par 10 et arrondis, des scores BIC des solutions
obtenues par les diffrentes mthodes pour lapprentissage de la structure du rseau Insurance
partir de 10 bases de cas distinctes. Les valeurs moyennes minimales, pour chaque taille
de base dapprentissage, sont grises. titre indicatif, les scores des structures dorigine et
de la structure vie, G0 , sont indiqus en bas de table. Le signe dans une case signifie que les
rsultats de la mthode correspondantes sont significativement diffrents de ceux de la mthode
prsentant la meilleure moyenne (vrification par un test de Mann-Whitney).
La lecture de la table 8.4, rpertoriant les scores moyens obtenus par les solutions des diffrents algorithmes, donne un avantage aux mthodes volutionnaires. Sil est, comme pour
lapprentissage de la structure du rseau ASIA, impossible de dpartager clairement les performances des diffrentes mthodes volutionnaires, on peut cependant remarquer que ces
derniers surclassent en gnral les algorithmes GES et GS, qui, prcdemment, taient leurs
principaux concurrents. Seul lalgorithme glouton sur lespace des GOSC russit obtenir
daussi bons rsultats, sur les ensembles de bases de taille limite (250 et 500).
La lecture de la table 8.5 montrent que, de manire plus ou moins sensible, les algorithmes
volutionnaires employant la mthodes de niching squentiel (nommment AGpenal et AGdist
retournant des structures prsentant le moins de diffrences structurelles vis--vis du rseau
dorigine. Le rseau Insurance prsente de nombreuses dpendances faibles et, en gnral,
les mthodes employant une fonction dvaluation et en particulier le score BIC retournent des
structures trs diffrentes de la structure dorigine (on pourra prfrer, dans ce cas, employer un
score pnalisant moins les structures complexes tel que le score BDeu [Delaplace et al., 2007a]).
Alors que le rseau Insurance comporte 52 arcs, les diffrences structurelles les plus importantes
se situent aux alentours de 40 arcs diffrents, essentiellement des arcs manquants.
Il est surprenant de constater que lalgorithme GES, dans le cas de lapprentissage partir
de bases de 1000 cas, renvoie des solutions moins performantes en terme de scores ainsi quun
cart-type important. La mthode de construction graduelle de lalgorithme peut trs bien avoir
amen ce dernier tre bloqu en certains optima locaux, lors de sa recherche.
La table 8.5, rpertoriant les diffrences structurelles entre les solutions retournes et la structure du rseau Insurance, amne aussi une explication quant aux difficults rencontres par les
diffrentes mthodes : alors que le score moyen des mthodes renvoyes par lalgorithme AGpenal
148 / 229

CHAPITRE 8. EXPRIMENTATIONS

Insurance
250
AG

500

Inv

Inv

39, 6

4, 4

7, 2

28

34

3, 1

7, 6

23, 3

AGpenal

37

3, 5

7, 1

26, 4

35, 1

3, 7

7, 4

24

AGmemo

37, 5

4, 3

6, 6

26, 6

33,9

3, 2

7, 7

23

AGdist

38, 1

3, 5

7, 5

27, 1

33,3

7, 3

23

GS

42, 1

4, 6

9, 4

28, 1

37, 7

4, 5

9, 4

23, 8

GES

39, 5

3, 7

7, 1

28, 7

35, 1

7, 1

25

K2-T

42, 7

5, 1

8, 4

29, 2

40, 8

5, 4

8, 8

26, 6

K2-R

42, 4

4, 8

7, 2

30, 4

41, 8

6, 5

8, 8

26, 6

MWST

41, 7

7, 7

30

41, 3

3, 5

8, 3

29, 5

Inv

1000

2000
Inv

AG

39, 6

4, 4

7, 2

28

27, 8

4, 7

15, 1

AGpenal

30, 8

3, 8

7, 4

19, 6

24,4

3, 4

6, 7

14, 3

AGmemo

31, 4

19, 4

27

4, 3

8, 4

14, 3

AGdist

29,3

3, 6

6, 5

19, 2

26, 6

3, 6

8, 6

14, 4

GS

35, 9

5, 1

10

20, 8

31, 9

5, 2

11, 4

15, 3

GES

32, 4

4, 1

8, 1

20, 2

27, 5

8, 4

15, 1

K2-T

38, 7

5, 9

11

21, 8

34, 6

7, 3

10, 9

16, 4

K2-R

39, 6

8, 3

8, 3

23

36, 1

8, 5

8, 5

9, 1

MWST

37, 7

1, 7

8, 3

27, 7

36, 3

1, 2

7, 9

27, 2

Tableau 8.5 Diffrences structurelles moyennes entre les structures tablies par les diffrents
algorithmes partir de 10 bases de cas distinctes et la structure du rseau Insurance. Les valeurs
moyennes minimales sont grises.

149 / 229

CHAPITRE 8. EXPRIMENTATIONS

sont proches du score de la structure originelle du rseau Insurance, les diffrences structurelles
entre ces solutions et la structure dInsurance demeurent proportionnellement importants avec
une moyenne de plus de 24 arcs diffrents (dont plus de la moiti sont manquants). Une grande
partie des liens prsents dans la structure dorigine ne sauraient donc, a priori tre trouvs par
lintermdiaire dune fonction dvaluation (cela dpend aussi, comme cela a t mentionn
prcdemment, de la fonction employe) : les ajouts darcs savrant plus pnalisants que le
montant de la vraisemblance quils apportent au score de la structure.
Les rsultats de lalgorithme MWST, bien que mdiocres comparativement ceux des autres
mthodes, demeurent stables ds que le nombre de cas dans la base dapprentissage dpasse
500 cas. Cette observation est valable aussi bien pour le score moyen de ses solutions que pour
les diffrences structurelles entre celles-ci et le rseau Insurance.
Au final, lapprentissage effectu sur une structure complexe fait ressortir une tendance, pour
les algorithmes gloutons (GS et GES) se retrouver bloqus en un optimum local. Lobservation
des diffrences structurelles moyennes entre les solutions renvoyes par GS et celles renvoyes
par lalgorithme AGmemo pour les cas de bases dapprentissage de 250 individus, principalement
des inversions, alors que les scores obtenus par les deux mthodes ne sont pas significativement
diffrents laisse penser quune mthode stochastique telle quun de nos algorithmes est plus
apte, dans un cas complexe, dterminer correctement les arcs dune structure sur le score.

8.4

Apprentissage de la structure ALARM

Si le rseau ALARM comporte plus de variables que le rseau Insurance (37 contre 27), il
comporte moins darcs (46 contre 52) et, notamment, moins de relations de probabilit faible
que ce dernier.
Chaque ensemble de bases dapprentissage contient 30 bases chantillonnes depuis le rseau
ALARM. Chacune des bases dun ensemble servant un seul apprentissage pour chaque
algorithme valu.

Rsultats et commentaires
Les valeurs indiques par la table 8.6 permettent de voir que, en ce qui concerne les scores des
solutions renvoyes, les mthodes employant la technique de niching squentiel, combin ou
non une rpartition de la population, obtiennent de trs bons rsultats. La mthode adaptative
AGmemo obtient bien, en moyenne, les meilleurs rsultats par rapport des bases dapprentissage
de 500 cas malheureusement, la qualit des rsultats de cette solution est irrgulire sur les autres
tailles de base possibles ; au point que la mme mthode renvoie les plus mauvais rsultats, au
sein des mthodes volutionnaires, pour des bases de 1000 cas.
Lalgorithme glouton GS renvoie des solutions obtenant de bons scores mais demeurent en
retrait face aux mthodes GES et AGdist .
Lalgorithme GES renvoie quant lui des solutions dont les scores sont certes, en moyenne,
infrieurs ceux des solutions renvoyes par AGdist mais le niveau de performances de cet
algorithme reste rgulier, quelle que soit la taille de base dapprentissage considre.
150 / 229

CHAPITRE 8. EXPRIMENTATIONS

ALARM
250

500

1000

2000

36239 335

34815 317

33839 159

33722 204

AGpenal

-36094297

34863 346

33865 203

33640 196

AGmemo

36104 316

-34791340

33942 198

33722 204

AG

AGdist

36144 326

34864 337

-33723251

-33496170

GS

36301 309

35049 380

33839 109

33638 964

GES

36124 315

34834 288

33801 562

33593 692

K2-T

36615 308

35637 328

34427 200

34045 818

K2-R

37173 435

35756 264

34579 305

34128 173

MWST

37531 185

37294 737

37218 425

37207 366

Original

33097

G0

63113

Tableau 8.6 Moyennes et cart-types, diviss par 10 et arrondis, des scores BIC des solutions
obtenues par les diffrentes mthodes, pour lapprentissage de la structure du rseau ALARM
partir de 30 bases de cas distinctes. Les valeurs moyennes minimales, pour chaque taille
de base dapprentissage, sont grises. titre indicatif, les scores des structures dorigine et
de la structure vie, G0 , sont indiqus en bas de table. Le signe dans une case signifie que les
rsultats de la mthode correspondantes sont significativement diffrents de ceux de la mthode
prsentant la meilleure moyenne (vrification par un test de Mann-Whitney).
Le principal inconvnient de lalgorithme AGmemo semble rsider dans le nombre dinversions
darcs au sein des solutions quil propose. Alors quelle a t conue pour permettre une
exploration efficace de lespace des solutions, il semble que la stratgie applique par cet
algorithme, en particulier dans le cas de problmes de dimension croissante, na tout simplement
pas le temps dtre applique. En effet, pour tre rellement efficace, cette stratgie se propose
dexploiter lensemble des oprations de mutations possibles et intressantes pour les individus
de la population. Or, si le nombre de ces oprations devient trop important, lnumration
et lvaluation de ces diffrents mouvements possibles deviennent laborieuses. Quand la
restimation doprations prcdemment dcrtes comme tant dommageables, elle na tout
simplement pas loccasion de prendre place.
Enfin, les mthodes "rapides" (nous verrons cependant que les conditions dinitialisation de
ces mthodes vient temprer lemploi de cet adjectif) telles que MWST et les mthodes de type
K2 se comportent dune manire similaire ce qui avait t prcdemment observ, savoir des
solutions de facture moyenne, qualitativement infrieures celles des mthodes prcdemment
cites.
La table 8.7, combine la lecture de la table 8.6, permet des observations intressantes. En
effet, nous avons observ que les scores des solutions obtenues par lalgorithme GES taient
en moyenne infrieurs ceux des solutions obtenues par voies volutionnaires. Nous pouvons
cependant remarquer quen termes de distance ddition, ces mmes solutions proposes par
lalgorithme GES sont les plus proches du graphe dorigine. Cette observation peut nous amener penser que la philosophie de lalgorithme GES, consistant construire graduellement la
solution recherche en respectant certaines rgles de construction essentiellement locales (cf.
section 4.4.4 mais aussi [Chickering, 2002b]) permet ce dernier dobtenir une solution non
seulement vraisemblable par rapport aux donnes mais aussi graphiquement proche de lopti151 / 229

CHAPITRE 8. EXPRIMENTATIONS

ALARM
250

500

Inv

Inv

AG

34, 2

4, 8

13, 9

15, 5

25, 7

4, 5

10, 2

11

AGpenal

33, 1

4, 6

13, 5

15

25, 6

4, 2

10, 6

10, 8

AGmemo

33

4, 6

13, 4

15

26, 2

11, 5

10, 7

AGdist

33, 6

4, 6

13, 8

15, 2

25, 1

3, 7

10, 7

10, 7

GS

33, 7

12, 6

16, 1

30, 2

13, 5

11, 7

GES

32,5

4, 5

12, 7

15, 3

23,3

3, 8

11, 5

K2-T

34, 5

5, 1

13, 1

16, 3

35, 1

7, 2

15, 2

12, 7

K2-R

36, 5

6, 6

10, 2

19, 6

35

8, 7

11, 3

11, 5

MWST

38, 5

6, 9

14, 7

16, 9

36, 5

4, 7

17, 1

14, 7

1000

2000

Inv

Inv

AG

19, 7

3, 7

6, 9

23

5, 3

11, 8

5, 9

AGpenal

22

4, 5

10, 4

7, 1

20, 1

4, 1

10, 2

5, 8

AGmemo

27

6, 4

13, 1

7, 4

29

7, 4

16

6, 3

AGdist

18,3

3, 3

10, 1

4, 9

18, 9

3, 6

6, 3

GS

27, 8

6, 2

14, 5

7, 1

25, 4

6, 2

13, 6

5, 6

GES

20, 2

4, 3

8, 5

7, 3

17,3

3, 5

8, 2

5, 6

K2-T

35, 4

10, 4

15, 7

9, 3

36, 9

12, 3

17, 4

7, 2

K2-R

37, 1

11, 4

15, 1

10, 6

40, 2

14, 6

16, 1

9, 5

MWST

35, 1

4, 4

16, 3

14, 4

34, 1

14

16, 1

14

Tableau 8.7 Diffrences structurelles moyennes entre les rponses des diffrents algorithmes
et la structure du rseau ALARM partir de 30 bases de cas distinctes. Les valeurs moyennes
minimales sont grises.

152 / 229

CHAPITRE 8. EXPRIMENTATIONS

mum global ou lun deux sil en existe plusieurs . Les mthodes volutionnaires, quant elles
(et en particulier les mthodes telles que AGpenal et AGdist ), explorent une plus grande partie
de lespace des solutions. Alors que leur avantage premier est de permettre la dcouverte de
plusieurs optima dont, idalement, loptimum global, il semble que ce comportement viennent
parfois entraner la dcouverte doptima locaux trs bien valus et pourtant distants, dans
lespace des solutions, de loptimum recherch.

8.5

Rsultats complmentaires

Aprs avoir observ les rsultats des diffrentes mthodes sur les trois rseaux ASIA, Insurance et ALARM, nous analysons plus en dtail le fonctionnement et le comportement des
algorithmes gntiques.

8.5.1

Commentaires gnraux

Les rsultats en terme de scores et de critres graphiques des diffrentes mthodes nous
permettent dores et dj de faire quelques remarques :
Sur les problmatiques simples telles que lapprentissage de la structure ASIA, les heuristiques de type glouton comme GS ou GES permettent dobtenir des rsultats de trs bonne
qualit. Si, dun point de vue qualitatif, les algorithmes volutionnaires rivalisent avec, voire
dpassent en certaines occasions, les performances de ces mthodes gloutonnes, leurs temps
dexcution sont plus levs (cf. section 8.6.2).
Avec un nombre de variables restreint, le voisinage de chaque structure dans lespace des
GOSC est de petite taille, comparativement celui dun rseau tel quALARM. Lemploi de la
formule de Robinson (cf. section 4.4) nous permet dailleurs de calculer, pour ces deux rseaux,
les tailles des espaces de recherche : respectivement prs de 8.1011 pour ASIA et prs de 3.10237
pour ALARM.
Par consquent, lemploi des algorithmes volutionnaires devrait se restreindre lapprentissage de rseaux complexes et cela quand bien mme leur efficacit est vrifie, qualitativement,
sur la recherche de structures simples.
Les mthodes de type K2 et la mthode MWST, malgr plusieurs lancements alatoires, ne
parviennent pas obtenir de rsultats performants sur les rseaux complexes tels quInsurance
ou ALARM. Si la limitation lespace des arbres de lalgorithme MWST explique grandement
ses mauvaises performances sur de telles instances, le problme des mthodes de type K2
provient essentiellement de leur dpendance envers lordre topologique qui leur est fourni en
entre. Malgr, a priori, des initialisations inadquates et des solutions prsentant des distances
graphiques loriginal suprieures celles des solutions renvoyes par les algorithmes volutionnaires et gloutons, les mthodes K2/MWST obtiennent des scores BIC de bonne qualit bien
quencore infrieures celles des heuristiques concurrentes.

153 / 229

CHAPITRE 8. EXPRIMENTATIONS

8.5.2

Performances

Afin de clarifier les niveaux de performances des algorithmes volutionnaires non seulement
les uns par rapport aux autres mais aussi vis--vis de la meilleure heuristique concurrente
GES , nous avons procd ltablissement de confrontations un contre un de ces mthodes,
sur les deux rseaux complexes Insurance et ALARM.
Ces confrontations ont lieu sur les critres rsums prcdemment dans les tables 8.4, 8.5,
8.6 et 8.7 cependant, le dtail des performances respectives est ici plus visible.
Les scores BIC mesurs sur les figures 8.4, 8.5, 8.8 et 8.9 correspondent aux scores obtenus
sur les bases de vrification des deux rseaux.

154 / 229

CHAPITRE 8. EXPRIMENTATIONS

(a) Duel AGdist /GES

(b) Duel AGdist /AGmemo

(c) Duel AGdist /AG

(d) Duel AGdist /AGpenal

(e) GES/AG

(f) Duel GES/AGmemo

Figure 8.4 Duels inter-mthodes sur lapprentissage du rseau Insurance. En abscisses et en


ordonnes, les opposs des scores BIC des solutions retournes par les mthodes figurant sur
les axes correspondants. Lobjectif tant de minimiser loppos du score, la mthode dont la
zone est la moins occupe remporte le duel.

155 / 229

CHAPITRE 8. EXPRIMENTATIONS

(a) Duel GES/AGpenal

(b) Duel AG/AGpenal

(c) Duel AG/AGmemo

(d) Duel AGpenal /AGmemo

Figure 8.5 Duels inter-mthodes sur lapprentissage du rseau Insurance. En abscisses et en


ordonnes, les opposs des scores BIC des solutions retournes par les mthodes figurant sur
les axes correspondants. Lobjectif tant de minimiser loppos du score, la mthode dont la
zone est la moins occupe remporte le duel.

156 / 229

CHAPITRE 8. EXPRIMENTATIONS

Commentaires
Les rsultats des diffrents duels sur le rseau Insurance permettent de dgager quelques lments. Il savre que lalgorithme distribu AGdist lemporte clairement au niveau des confrontations sur le score, except contre les algorithmes AGpenal et AGmemo avec lesquels il fait quasiment
jeu gal (nombreux points sur ou proches de la bissectrice). Lautre lment remarquable est
que lalgorithme GES perd systmatiquement ses duels contre les mthodes volutionnaires, y
compris contre lalgorithme simple AG.
Ce phnomne est confirm par les duels sur la distance ddition o lalgorithme AGpenal
trouve certaines structures trs proches, tant donn la taille de la base dapprentissage, du
rseau dorigine ; ceci provoquant dailleurs sur le graphe un dcalage de la bissectrice. Les
distances ddition sont cependant moins lisibles que les performances des scores obtenues et
ce en raison dune plus grande dispersion des nuages de points.
Les mthodes volutionnaires sont, ici aussi, performantes pour la recherche de cette structure, comparativement aux algorithmes GES et GS. On peut tout de fois remarquer que les
confrontations bases sur les diffrences graphiques ne permettent pas rellement de distinguer les performances entre les algorithme AG et AGmemo dun ct et GES de lautre. Cependant,
ces diffrences consistent essentiellement en des inversions darcs (dont limpact rel sur la qualit des solutions est difficile estimer), phnomne gnralement vit par GES du fait de sa
procdure de construction graduelle de sa solution.
Entre elles, les mthodes volutionnaires font jeu gal hormis lalgorithme AG dont les
performances demeurent infrieures aux autres.

157 / 229

CHAPITRE 8. EXPRIMENTATIONS

(a) Duel AGdist /GES

(b) Duel AGdist /AGmemo

(c) Duel AGdist /AG

(d) Duel AGdist /AGpenal

(e) GES/AG

(f) Duel GES/AGmemo

Figure 8.6 Duels inter-mthodes sur lapprentissage du rseau Insurance. En abscisses et en


ordonnes, les mesures des distances graphiques des solutions retournes par les mthodes
figurant sur les axes correspondants par rapport au graphe dorigine. Lobjectif tant de minimiser la distance ddition, la mthode dont la zone est la moins occupe remporte le duel.

158 / 229

CHAPITRE 8. EXPRIMENTATIONS

(a) Duel GES/AGpenal

(b) Duel AG/AGpenal

(c) Duel AG/AGmemo

(d) Duel AGpenal /AGmemo

Figure 8.7 Duels inter-mthodes sur lapprentissage du rseau Insurance. En abscisses et en


ordonnes, les mesures des distances graphiques des solutions retournes par les mthodes
figurant sur les axes correspondants par rapport au graphe dorigine. Lobjectif tant de minimiser la distance ddition, la mthode dont la zone est la moins occupe remporte le duel.

159 / 229

CHAPITRE 8. EXPRIMENTATIONS

(a) Duel AGdist /GES

(b) Duel AGdist /AGmemo

(c) Duel AGdist /AG

(d) Duel AGdist /AGpenal

(e) GES/AG

(f) Duel GES/AGmemo

Figure 8.8 Duels inter-mthodes sur lapprentissage du rseau ALARM. En abscisses et en


ordonnes, les opposs des scores BIC des solutions retournes par les mthodes figurant sur
les axes correspondants. Lobjectif tant de minimiser loppos du score, la mthode dont la
zone est la moins occupe remporte le duel.

160 / 229

CHAPITRE 8. EXPRIMENTATIONS

(a) Duel GES/AGpenal

(b) Duel AG/AGpenal

(c) Duel AG/AGmemo

(d) Duel AGpenal /AGmemo

Figure 8.9 Duels inter-mthodes sur lapprentissage du rseau ALARM. En abscisses et en


ordonnes, les opposs des scores BIC des solutions retournes par les mthodes figurant sur
les axes correspondants. Lobjectif tant de minimiser loppos du score, la mthode dont la
zone est la moins occupe remporte le duel.

161 / 229

CHAPITRE 8. EXPRIMENTATIONS

(a) Duel AGdist /GES

(b) Duel AGdist /AGmemo

(c) Duel AGdist /AG

(d) Duel AGdist /AGpenal

(e) GES/AG

(f) Duel GES/AGmemo

Figure 8.10 Duels inter-mthodes sur lapprentissage du rseau ALARM. En abscisses et en


ordonnes, les mesures des distances graphiques des solutions retournes par les mthodes
figurant sur les axes correspondants par rapport au graphe dorigine. Lobjectif tant de minimiser la distance ddition, la mthode dont la zone est la moins occupe remporte le duel.

162 / 229

CHAPITRE 8. EXPRIMENTATIONS

(a) Duel GES/AGpenal

(b) Duel AG/AGpenal

(c) Duel AG/AGmemo

(d) Duel AGpenal /AGmemo

Figure 8.11 Duels inter-mthodes sur lapprentissage du rseau ALARM. En abscisses et en


ordonnes, les mesures des distances graphiques des solutions retournes par les mthodes
figurant sur les axes correspondants par rapport au graphe dorigine. Lobjectif tant de minimiser la distance ddition, la mthode dont la zone est la moins occupe remporte le duel.

163 / 229

CHAPITRE 8. EXPRIMENTATIONS

Commentaires
Les confrontations bases sur le score BIC, avec le rseau ALARM, permettent de dgager
deux algorithmes : lalgorithme GES mais aussi lalgorithme distribu AGdist . En concordance
avec Les tables 8.7 et 8.6, il savre que, pour lapprentissage de la structure du rseau ALARM,
lalgorithme populations distribues est le seul pouvant rivaliser, en termes de performances,
avec lalgorithme GES. On peut nanmoins remarquer que, ici aussi, bien que lalgorithme
AGdist trouve des solutions obtenant un meilleur score, lalgorithme GES trouve en moyenne
des solutions graphiquement plus proches du rseau dorigine do un ventuel phnomne
de surapprentissage dans le cas de AGdist .
Les autres mthodes volutionnaires sont difficilement dpartageables, tant au niveau du
score que de la distance ddition except pour lalgorithme adaptatif AGmemo . Ce dernier, pour
des raisons envisages dans la section 8.4, renvoie des solutions infrieures celles des autres
mthodes volutionnaires (ainsi qu celles de lalgorithme GES).

8.6

Comportement des algorithmes volutionnaires

Nous commentons ici diverses mesures propres aux algorithmes volutionnaires afin, notamment, de pouvoir tirer quelques avis et conclusions quant aux mrites des diverses implmentations.

8.6.1

volution des individus

Avant de nous intresser aux figures, il est important de prciser que les courbes des algorithmes AGpenal et AGdist ont t "lisses" dans le sens o elles illustrent la valeur du meilleur
individu rencontr jusquau point considr. La nature mme de la politique de pnalisation
de ces mthodes a pour rsultat une courbe "en montagnes russes" difficilement lisible.
Les courbes correspondent aux performances des diffrents algorithmes volutionnaires sur
lapprentissage des structures les plus complexes, celles des rseaux Insurance et ALARM, et
ce, pour des bases dapprentissage de 250 et 2000 cas, respectivement. Nous nous limitons
lillustration de ces quatre sries dapprentissage pour les raisons suivantes :
les apprentissages effectus sur la structure ASIA nont pas permis de dgager un comportement caractristique de la part dune de nos mthodes par rapport aux autres. Cet
exemple est en fait trop limit et ne prsente pas de rel intrt ;
les sries choisies ici sont duales et permettent de reprsenter le comportement des mthodes dans le cadre de lapprentissage de modles complexes, suivant que la quantit
dinformation notre disposition soit trs limite (250 cas par base) ou plus consquente
(2000 cas par base).
Si nous considrons les volutions sur les bases de tailles les plus restreintes, nous remarquons tout dabord la performance de lalgorithme distribu AGdist . Celui-ci converge certes
plus lentement, lors des premires valuations, que ses vis--vis mais permet dobtenir, au final
et dans la plupart des cas, la meilleure solution au terme dun mme nombre dvaluations.
164 / 229

CHAPITRE 8. EXPRIMENTATIONS

(a) Valeurs des fitness pour Insurance, 250 cas.

(b) Valeurs des fitness pour Insurance, 2000 cas.

Figure 8.12 Valeurs moyennes des fitness en fonction du nombre de structures values pour
le rseau Insurance, pour des bases de 250 et 2000 cas, respectivement.

165 / 229

CHAPITRE 8. EXPRIMENTATIONS

(a) Valeurs des fitness pour ALARM, 250 cas.

(b) Valeurs des fitness pour ALARM, 2000 cas.

Figure 8.13 Valeurs moyennes des fitness en fonction du nombre de structures values pour
le rseau ALARM, pour des bases de 250 et 2000 cas, respectivement.

166 / 229

CHAPITRE 8. EXPRIMENTATIONS

Les algorithmes disposant dune stratgie de parcours ou dadaptation renvoient de meilleures


performances que lalgorithme simple AG sauf dans le cas de lapprentissage de la structure
du rseau ALARM avec 2000 cas, o cet algorithme, sans toutefois galer AGdist , volue progressivement vers une solution plus performante que les autres algorithmes. Ce constat mrite
cependant notre attention.
Un retour vers les tables 8.7 et 8.6 montre, par exemple, que les rsultats retourns par AG
ont sensiblement les mmes performances sur le score BIC que lalgorithme AGpenal . Cependant,
la distance ddition des solutions de AGpenal demeure infrieure celle des solutions de AG.
Quen conclure ?
Pour rappel, les figures 8.12 et 8.13 consistent en une moyenne des fitness obtenues avec les
bases dapprentissage. Si lalgorithme AG est capable dobtenir des solutions localement trs
performantes comportant cependant des arcs supplmentaires, on peut sans doute en conclure
un phnomne de surapprentissage dbouchant sur un optimum local. Les algorithmes
"amliors", quant eux, semblent moins sensibles ce problme en particulier lalgorithme
distribu, capable de trouver des solutions performantes la fois localement, sur les bases
dapprentissage, et globalement, sur la base reprsentative de 30000 cas.
Une autre observation est que si les algorithmes AGpenal , AGmemo et AGdist semblent capables,
en prsence dun nombre restreint de donnes, deffectuer un parcours efficace de lespace
de recherche vers une solution de qualit, les diffrences entre les diverses variantes ainsi
que lalgorithme AG semblent seffacer mesure que la quantit dinformation disposition
augmente.
Lorsque la base de donnes est limite, le paysage de la fitness contient de nombreux optima
locaux, chacun reprsentant une structure vraisemblable par rapport aux donnes. Lorsque la
taille des bases dapprentissage augmente, les diffrentes opportunits, autres que le rseau
dorigine, seffacent. Il parat donc normal, voire rassurant, de constater quen prsence dun
choix de plus en plus limit parmi les bonnes solutions prsentes dans lespace de recherche,
nos diffrentes heuristiques sont capables de saccorder sur la direction prendre.
Si lon peut saccorder sur le fait que les diffrentes mthodes tendent en gnral, en fonction
de linformation disponible, vers des solutions de qualit, un autre facteur dintrt dans notre
valuation est de pouvoir valuer la vitesse laquelle cette convergence seffectue.

8.6.2

Performances temporelles

Les temps indiqus dans cette partie sont donns titre indicatif ; sous rserve doptimisation
du code dune part et/ou de modification de la plate-forme de dveloppement (Matlab).
La vitesse dexcution est en gnral reconnue comme tant un des points faibles des mthodes volutionnaires. Au regard des donnes des tables 8.8, 8.9 et 8.10, faisant tat des temps
moyens dexcution pour lapprentissage des trois rseaux ASIA, Insurance et ALARM, ceci est
vrifi pour nos quatre mthodes avec des temps dexcution frquemment suprieurs ceux,
par exemple, des mthodes gloutonnes.
Ces tables recensent les temps dexcution moyens observs durant nos tests. Rappelons que
ces temps correspondent, pour les algorithmes, aux conditions dcrites en section 8.1.4 (donc,
167 / 229

CHAPITRE 8. EXPRIMENTATIONS

par exemple, pour 5 n instanciations avec ordre topologique alatoire pour lalgorithme K2R). Les algorithmes, en particulier pour lapprentissage de la structure du rseau ASIA, ont t
employs dans des conditions diffrentes ; par consquent, les temps affichs ne le sont qu titre
indicatif vis-vis des performances pralablement observes et non comme un rel comparatif
de performances entre les mthodes, suivant les cas dapplication.
Rseau ASIA
250

500

1000

2000

AG

224 5

236 3

252 2

261 4

AGpenal

224 3

239 4

246 2

261 4

AGmemo

147 3

152 5

158 2

169 4

AGdist

248 4

256 5

266 2

284 3

GS

29 2

35 3

38 6

45 8

GES

4 0, 3

4 0, 2

5 0, 2

6 0, 2

K2-T

4 0, 2

4 0, 3

6 0, 4

6 0, 1

K2-R

27 1.2

29 1

30 0, 4

35 0, 5

MWST

<1

<1

<1

<1

Tableau 8.8 Moyennes et cart-types arrondis des temps dexcution totaux, en secondes,
requis pour les diffrentes mthodes pour lapprentissage de la structure du rseau ASIA, selon
la taille de la base dapprentissage employe.
Rseau Insurance
AG

250

500

1000

2000

2637 38

2741 46

3010 103

3393 121

AGpenal

3366 42

3471 31

3712 93

3950 82

AGmemo

2842 51

3000 43

3484 32

4012 126

AGdist

7148 122

7345 92

7553 205

7977 220

GS

1281 152

1395 172

1809 230

3327 530

GES

642 69

757 74

1203 51

2007 228

K2-T

252 4

299 7

324 2

411 8

K2-R

1325 23

1496 16

1789 23

2188 20

MWST

<5

<5

<5

<5

Tableau 8.9 Moyennes et cart-types arrondis des temps dexcution, en secondes, requis pour
les diffrentes mthodes pour lapprentissage de la structure du rseau Insurance, selon la taille
de la base dapprentissage employe.
Les temps de calcul des algorithmes MWST et K2-T sont trs courts, sur les rseaux Insurance
et ALARM, comparativement aux mthodes de type AG ou gloutonnes. MWST limite cependant
sa recherche que sur lespace des arbres tandis que la mthode K2-T accepte en entre un ordre
topologique (fourni par MWST) au regard duquel la qualit des rsultats fournis est trs sensible.
La variante K2-R prend, quant elle, un temps dautant plus grand que la taille du problme
implique un grand nombre dinstances de lalgorithme K2, chacune dentre elles alatoirement
initialise. Cette approche semble dautant plus vaine que les performances de lalgorithme
K2-T sont tout fait comparables pour un temps dexcution drisoire.
On peut cependant remarquer que les temps dexcution des mthodes volutionnaires,
168 / 229

CHAPITRE 8. EXPRIMENTATIONS

Rseau ALARM
250

500

1000

2000

AG

3593 47

3659 41

3871 53

4088 180

AGpenal

3843 58

3877 44

4051 59

4332 78

AGmemo

3875 32

4005 43

4481 46

4834 52

AGdist

9118 269

9179 285

9026 236

9214 244

GS

9040 1866

9503 1555

12283 1403

16216 2192

GES

3112 321

2762 166

4055 3, 4

5759 420

K2-T

733 9

855 25

1011 14

1184 8

K2-R

3734 61

4368 152

5019 67

5982 43

MWST

10 1

10 2

11 1

12 1

Tableau 8.10 Moyennes et cart-types arrondis des temps dexcution totaux, en secondes,
requis pour les diffrentes mthodes pour lapprentissage de la structure du rseau ALARM,
selon la taille de la base dapprentissage employe.
bien quimportants, demeurent relativement stables avec laugmentation de la complexit du
problme traiter. Ceci est particulirement remarquable avec les apprentissages effectus sur le
rseau ALARM. Dans ce dernier cas, le nombre de variables pour chaque graphe exploit dfinit
un voisinage particulirement large. Alors que lalgorithme gntique procde par une approche
generate and test guide par la performance des lments de la population, les algorithmes
gloutons effectuent un parcours exhaustif de ce voisinage et voient donc leurs temps dexcution
augmenter radicalement.
noter que la version de lalgorithme GS qui a t teste emploie un cache afin dviter le
recalcul de certains scores. Mais en prsence dun voisinage important, le parcours mme dun
cache de taille (trop) importante prend lui aussi, au final, un temps consquent.
Ds lors que la recherche de la structure atteint une certaine complexit (ALARM avec une
base dapprentissage de 2000 cas), les algorithmes volutionnaires deviennent plus rapides que
les mthodes gloutonnes.

8.6.3

Nombre ditrations avant la solution

Un facteur important est le nombre ditrations requises par les diffrents algorithmes gntiques pour trouver leur solution. Ces rsultats figurent dans la table 8.11.
Il est important de parler ici de nombre ditrations avant de trouver le meilleur individu et
non pas de nombre ditrations avant convergence, comme cela est le cas dans la littrature. En
effet, la stratgie de niching squentiel mise en place au sein des algorithmes AGpenal et AGdist
introduit, ponctuellement et rgulirement, des perturbations conscutives la modification de
la fitness, interdisant la population de converger.
La lecture du nombre moyen ditrations avant obtention du meilleur individu meilleur
individu sur le nombre total ditrations prdfini par lutilisateur est une valeur dont il est
malheureusement assez difficile de retranscrire la signification. Bien quil soit naturel de penser
quun algorithme retournant sa meilleure solution en un temps trs bref soit prfrable, nous
169 / 229

CHAPITRE 8. EXPRIMENTATIONS

ne devons pas ngliger le fait que, pour un algorithme volutionnaire, une telle rapidit peut
aussi tre synonyme dune convergence prmature vers un optimum local. Linverse est aussi
vrai si lalgorithme prend trop de temps pour trouver sa meilleure solution.
Rseau ASIA
AG

250

500

1000

2000

14 14

31 23

23 15

30 23

AGpenal

16 16

33 29

26 24

38 29

AGmemo

13 12

15 8

17 11

21 4

AGdist

15 12

15 8

17 11

22 19

Rseau Insurance
250

500

1000

2000

AG

364 319

454 295

425 249

555 278

AGpenal

704 295

605 321

694 258

723 234

AGmemo

398 326

414 277

526 320

501 281

AGdist

82 59

106 77

166 84

116 27

Rseau ALARM
250

500

1000

2000

AG

265 257

417 271

552 244

529 245

AGpenal

380 291

535 225

640 262

624 253

AGmemo

341 269

474 332

592 291

592 249

AGdist

87 76

141 90

212 66

186 72

Tableau 8.11 Moyennes et cart-types arrondis des nombres ditrations ncessaires chaque
mthode pour obtenir sa meilleure proposition de solution.
Si lon croise les donnes de la table 8.11 avec celles de la table 8.10, on peut se rendre compte
que le ratio des temps dexcution des algorithmes et en particulier ceux dAGdist et du nombre
ditrations moyen mis par ces algorithmes pour trouver leurs meilleures solutions, la vitesse
de nos diffrentes mthodes devient comptitive avec celle dalgorithmes tels que GS et GES.

8.6.4

Taux dindividus rpars

Comme nous lavons prcis dans la section 6.1.5, lensemble de nos mthodes volutionnaires emploient un oprateur de rparations, bas sur lemploi de linformation mutuelle entre
chaque paire de variables, afin de supprimer les circuits pouvant ventuellement apparatre
dans un individu au cours de lvolution.
Ces circuits ne peuvent en ralit apparatre qu lissue de la phase de mutation, soit par
ajout soit par inversion dun arc. En effet, loprateur de croisement, dfini dans la section 6.1.5,
prsente la particularit dtre ferm par rapport lespace des GOSC (i.e. tout transfert dun
ensemble de parents crant un circuit chez le descendant sera ignor).
Nous avons mesur le taux moyen dindividus rpars (par rapport au nombre dindividus
gnrs chaque itration de lalgorithme) au cours dinstances de nos diffrentes mthodes.
Les paramtres des algorithmes sont les mmes que ceux employs au cours de nos tests et les
rsultats prsents dans la table 8.6.4 correspondent une moyenne sur dix instances de chaque
algorithme, pour un rseau et une taille donne de base dapprentissage.
170 / 229

CHAPITRE 8. EXPRIMENTATIONS

Taux de rparations - Insurance

Taux de rparations - ASIA


250

500

1000

2000

AG

13%

15, 2%

15, 3%

16, 5%

250

500

1000

2000

AG

11%

13, 2%

13, 9%

15, 1%

AGpenal

13, 6%

15, 3%

15, 9%

16, 5%

AGpenal

13, 4%

14, 7%

15, 9%

15, 3%

AGmemo

12, 4%

15, 7%

15, 8%

16, 1%

AGmemo

12, 3%

13, 9%

13, 6%

14, 9%

AGdist

13, 7%

15, 3%

14, 5%

15, 6%

AGdist

9, 4%

10, 3%

12, 6%

14, 4%

Taux de rparations - ALARM


AG

250

500

1000

2000

6, 1%

5, 2%

6, 4%

7%

AGpenal

4, 6%

5, 3%

5, 6%

6, 5%

AGmemo

5, 7%

6, 2%

6, 3%

8, 4%

AGdist

5, 5%

5, 1%

6, 8%

7, 1%

Tableau 8.12 Taux dindividus ayant recouru loprateur de rparation, pour les diffrentes
mthodes volutionnaires selon le rseau appris et la taille de la base dapprentissage.
On peut remarquer, au vu de la table 8.6.4, que le taux moyen dindividus rpars ne semble
pas dpendre de la mthode adopte mais bien :
1. du rseau appris et de sa complexit ;
2. de la quantit dinformation disponible lapprentissage.
Ainsi, le rseau ASIA, prsentant pourtant la structure la plus simple parmi celles sur
lesquelles nous avons effectu nos tests, prsente le taux le plus important dindividus rpars
( peu prs 15%). Ces rsultats ne dpendent pas seulement dune convergence rapide de la
population au voisinage dun point, puisque le rseau Insurance, plus complexe et ncessitant
plus de recherche, implique un taux de rparations moyen peine infrieur celui constat avec
le rseau ASIA. En revanche, les apprentissages effectus sur le rseau ALARM nimpliquent
que des taux avoisinants les 5%. Les caractristiques des rseaux sont directement en cause.
En ce qui concerne limpact de ces rparations sur les calculs effectus : une rparation
nimplique de calculs de score, localement en une variable, que dans la mesure o la suppression
darc visant liminer le circuit cr efface un arc diffrent de celui venant dtre cr, par ajout
ou par inversion. Dans le cas contraire, lindividu et sa fitness (y compris les scores locaux) sont
remis leur tat dorigine.
Considrant ceci, un taux moyen de rparations de lordre de 5 10% (chiffres figurant une
borne suprieure pour les calculs lis la fitness, toute rparation nimpliquant pas forcment
de r-valuation) parat raisonnable.

8.7

Conclusion

Les diffrents rsultats et analyses effectus au cours de ce chapitre nous ont permis de
dgager plusieurs points concernant non seulement les performances de nos mthodes mais
171 / 229

CHAPITRE 8. EXPRIMENTATIONS

aussi leur utilit.


Les diffrentes mthodes volutionnaires amliores (AGpenal , AGmemo et AGdist ) permettent
dobtenir de trs bons rsultats, frquemment meilleurs que ceux renvoys par lalgorithme
GES, en particulier en prsence de structures prsentant de nombreuses dpendances difficilement dtectables (rseau Insurance). La reprsentativit des bases dapprentissage employes
joue, dans le cadre de cette comptition entre les mthodes volutionnaires et lalgorithme GES,
dans le cas de lapprentissage de la structure du rseau ALARM o les algorithmes gntiques
sont aptes profiter dune quantit dinformation plus consquente (bases de 1000 et 2000 cas)
tout en proposant des rsultats quivalents ceux de GES pour des bases de taille plus limite.
Les diffrentes stratgies dveloppes ont permis damliorer le parcours de lespace de
recherche, ces algorithmes dpassant frquemment en performances les mthodes couramment
employes pour lapprentissage de structures.
Les mthodes volutionnaires sont-elles prfrables aux mthodes usuelles ? Les algorithmes
volutionnaires, dans le cas gnral, sont relativement "lourds" mettre en place. Les temps de
calcul sont, par exemple, important pour les mthodes volutionnaires et ce, ds lapprentissage
de structures simples telles quASIA. Sil est vrai que lon peut esprer des temps de convergence
somme toute raisonnables vers la meilleure solution, la nature stochastique des algorithmes
gntiques ne peut fournir quune estimation du nombre ditrations effectuer.
En ce qui concerne lapport des diffrentes mthodes que nous avons proposes, seules
les mthodes exploitant le concept de niching squentiel permettent une relle amlioration
des performances de lalgorithme gntique. En particulier, la stratgie revenant combiner
rpartition spatiale et niching squentiel a permis dobtenir des rsultats quivalents, sinon
meilleurs que ceux de lalgorithme GES, dans le cadre de nos tests.
Sil est vrai que notre stratgie dadaptativit de loprateur de mutation a permis dobtenir,
dans certains cas, de trs bons rsultats, cette mthode na pas prsent des rsultats de qualit
constante travers les diffrents apprentissages auxquels nous avons procd.
Si le principe dadaptativit que nous avons prsent nous semble tre une bonne ide, son
application ncessiterait de modifier notre manire daborder le problme. De prime abord, un
apport essentiel lapproche par un algorithme gntique de lapprentissage de structures serait
dopter pour une reprsentation adapte. Notre reprsentation, semblable celle utilise par
[Larranaga et al., 1996] a pour dfaut de confrer une reprsentation mal adapte, prsentant un
trop grand nombre de degrs de libert pour le processus volutionnaire. Une possibilit pourrait tre la reprsentation propose par [van Dijk et Thierens, 2004] o lalgorithme prsent
procde une rduction de lespace de recherche en procdant une srie de tests statistiques
dordre faible avant de faire voluer une population sur la partie de lespace des structures
dfinie par le squelette restant.

172 / 229

Troisime partie

Rseaux baysiens : une application la


reconnaissance de formes

173

Chapitre 9

La segmentation de liris dans une


image
9.1

Introduction

Il est un domaine o lemploi des rseaux baysiens est reconnu : la classification. Si lon
considre une classe comme tant la cause (ou la consquence) de ses caractristiques, un
modle prenant en compte ces interactions parat alors parfaitement mme de permettre la
dtermination dune classe partir dune base de caractristiques.
Nous introduisons dans ce chapitre une application des modles baysiens en tant que
classifieurs la segmentation de pixels dans un ensemble dimages.

9.2

Rseaux baysiens pour la classification

La classification est une problmatique frquente dans des domaines tels que le traitement
de donnes ou la reconnaissance de formes. Elle conduit la construction dun modle ou dun
algorithme officiant en tant que classificateur et devant indiquer la classe dappartenance dun
objet partir des valeurs prises par un ensemble de ses caractristiques.
Les rseaux baysiens, par le biais de linfrence, notamment, se prtent particulirement
cet exercice [Cheeseman et al., 1988]. De nombreux chercheurs ont dvelopp des modles
particuliers de rseaux baysiens ddis la classification. Cette section va prsenter trois des
modles les plus rpandus : le rseau baysien naf, les rseaux augments et lapproche par
multi-nets. Nous cherchons ici dterminer la classe Xc dun objet partir des valeurs de ses n
caractristiques {X1 , X2 , . . . , Xn }.

9.2.1

Rseaux baysiens nafs

Les rseaux baysiens nafs, dcrits dans [Langley et al., 1992], font lhypothse de lindpendance des caractristiques entre elles et se prsentent sous la forme de lexemple de la figure
175

CHAPITRE 9. LA SEGMENTATION DE LIRIS DANS UNE IMAGE

9.1.
Il a t frquemment observ que, mme dans les cas o lindpendance entre les caractristiques nest pas vrifie, le classificateur naf conserve des performances proches de loptimal [Domingos et Pazzani, 1996]. Ce modle, la fois un des premiers et le plus simple
[Ling et Zhang, 2002], renvoie des rsultats de bonne qualit et savre trs robuste. Il a t ainsi
employ dans de nombreuses applications pratiques telles que le tri de pourriel [Sahami et al., 1998]
ou la classification de texte de manire plus gnrale [McCallum et Nigam, 1998].

Figure 9.1 Exemple de rseau baysien naf.

9.2.2

Structures arborescentes augmentes

La modlisation nave prsente prcdemment pose linconvnient majeur de faire lhypothse, rarement vrifie, dindpendance entre les diffrentes caractristiques. Malgr les performances dmontres dans des cas o cette hypothse est invalide [Domingos et Pazzani, 1996],
il est certains cas o il peut tre prfrable de reprsenter les dpendances rgnant entre les
caractristiques [Rish, 2001].
Il est alors possible de conserver une partie de la structure nave en reliant la variable classe
chacune des caractristiques tout en permettant lajout de liens entre celles-ci.
La structure reliant les caractristiques peut tre quelconque (obtenue par un algorithme
dapprentissage classique) dans ce cas on parle de BAN (Bayesian Network Augmented Naive
Bayes ou bien sous forme darborescence auquel cas on obtient un modle de type TANB (Tree
Augmented Naive Bayes) [Friedman et al., 1997].

Figure 9.2 Exemple de rseau baysien naf augment par un arbre.

176 / 229

CHAPITRE 9. LA SEGMENTATION DE LIRIS DANS UNE IMAGE

9.2.3

Multi-nets

Lapproche par multi-nets est un hritage direct de lapproche par rseaux augments suivant
le principe que les liens existants entre les caractristiques peuvent varier dune instance de
classe une autre.
Ici, les diffrentes classes sont chacune reprsentes par un rseau ddi constitu des diffrentes caractristiques du problme mais dnu de la variable reprsentant la classe dappartenance. Pour un problme de classification nc classes, nous construisons donc nc rseaux,
chacun comportant uniquement les n variables reprsentant les caractristiques. La classification est opre en licitant, pour une instance classifier, la classe lie au rseau ayant la plus
grande probabilit jointe P(X1 , X2 , . . . , Xn ).

Figure 9.3 Exemple dapproche par multi-nets pour un problme trois classes.

9.3

Problmatique aborde

Hors de tout propos visant lidentification biomtrique, nous nous intressons dans ce
chapitre aux performances des rseaux baysiens appliqus au problme de la segmentation
de liris. Ce dernier problme vise, partir dune image de lil dun individu, distinguer la
partie de cette image correspondant liris.
La partie visible de lil est compose de plusieurs lments :
Sclre : membrane blanche et opaque formant le blanc de lil ;
Iris : membrane circulaire bordant la pupille. Liris ne participe la vision quen tant que
rgulateur de lillumination de la rtine : ses contractions permettent en effet de contrler
la quantit de lumire pntrant la pupille ;
Pupille : orifice situ au milieu de liris. Noire dapparence car la lumire y pntre. Sa taille
peut varier en fonction des contractions de liris.
Gnralement, la pupille se distingue donc comme tant un disque noir central, entour par
liris, lui mme entour par la sclre, plus claire. La problme est cependant plus complexe dans
le cadre du traitement de limage car il est ncessaire de prendre en compte plusieurs facteurs
gnrateurs de bruit :
Focus : perte du focus, limage apparat floue ;
177 / 229

CHAPITRE 9. LA SEGMENTATION DE LIRIS DANS UNE IMAGE

Rflection : rflection de lclairage ambiant, visible en particulier la surface de la pupille ;


Obstruction : il arrive frquemment que liris soit partiellement masqu par des artefacts tels
que les cils ou les paupires.
Un autre problme est la difficult distinguer, dans le cas de photographies prises en
conditions naturelles, la pupille, noire, dun iris fonc.
Le problme de la segmentation de liris et de llimination du bruit a t trait dans de nombreux ouvrages et publications [Daugman, 2007, Monro et al., 2007, Proenca et Alexandre, 2007,
He et Shi, 2007] nanmoins nous ne prsenterons ici que deux des mthodes les plus rpandues.

9.4
9.4.1

Travaux antrieurs
Mthode de J. Daugman

Cette mthode est la plus connue pour plusieurs raisons. Tout dabord, il sagit de la mthode
pionnire dans le domaine. De plus, cette mthode est la plus robuste ce jour, ce qui lui a valu
dtre la mthode principalement implmente de par le monde dans les dispositifs commerciaux servant lidentification par liris. John Daugman a de plus dvelopp conjointement une
mthode didentification par dtection des indpendances conditionnelles entre les diffrentes
traductions de liris en messages binaires.
La mthode de segmentation de liris, telle que prsente dans [Daugman, 1993], repose sur
lemploi de loprateur intgro-diffrentiel suivant :


I
I(x, y)

maxr,x0 ,y0 G (r)


(9.1)
ds

r r,x0 ,y0 2r
Cet oprateur recherche, sur une image pralablement traite par un flou gaussien de paramtre
, les paramtres (r, x0 , y0 ) maximisant lintgrale de lintensit I(x, y) sur un contour circulaire
de centre de coordonnes (x0 , y0 ) et de rayon r. Plus simplement, nous recherchons le cercle de
centre de coordonnes (x0 , y0 ) et de rayon r ayant la drive partielle la plus leve par rapport
au rayon r0 voisin.
Lefficacit de cette mthode repose intrinsquement sur la distinction entre liris et la pupille
dune part et liris et la sclre dautre part.

9.4.2

Mthode de Wildes

Lauteur de cette mthode, dcrite dans [Wildes, 1997], propose de dtecter liris en utilisant
conjointement lalgorithme Canny Edge [Canny, 1986], et les transformes de Hough circulaires.
Le dtecteur de contours est, dans un premier temps, appliqu limage puis, la transforme
de Hough circulaire permet de dterminer tout dabord le cercle correspondant la frontire
entre la sclre et liris puis, dans les limites de ce cercle, le cercle form entre la pupille et liris.
Une mthode similaire est propose par Libor Masek [Masek, 2003] ; celle-ci prsente lavantage de disposer dune implmentation librement distribue [Masek et Kovesi., 2003].
178 / 229

CHAPITRE 9. LA SEGMENTATION DE LIRIS DANS UNE IMAGE

9.5

Notre mthode

Nous proposons une mthode consistant employer un rseau baysien afin de pouvoir
dfinir si oui ou non un pixel donn de limage appartient un iris. Ce travail se place dans le
cadre de lvaluation des rseaux baysiens en tant que classificateurs et nous ne visons donc
pas ici surpasser les mthodes prcites, en particulier sur le point des temps de calcul. Les
mthodes de segmentation de liris existantes cherchent en effet toutes atteindre des temps
dexcution trs brefs. Or, nous verrons que les procds que nous employons sont coteux en
temps de calcul et donc non comptitifs en la matire.
Notre centre dintrt est de pouvoir valuer qualitativement les performances des modles
baysiens appliqus la segmentation dans une image.

9.5.1

Caractristiques employes

Nous avons vu que les modles baysiens employs dans la classification reposent sur
linfrence de la variable classe partir des valeurs prises par les caractristiques. Pour ces
dernires, nous avons choisi demployer des caractristiques de la texture dans limage : les
caractristiques dHaralick. Celles-ci sont prsentes dans lannexe B de mme que la notion de
matrice de cooccurrence.

9.5.2

La base Ubiris

Cette base dimages [Proena et Alexandre, 2005] consiste en des images prises en conditions
relles. Contrairement aux images couramment employes de bases telles que la base CASIA
[Sun, 2006], o les prises de vues sont effectues par lintermdiaire dune camra infrarouge,
les images issues dUbiris prsentent la plupart des bruits que nous avons cits en section 9.3.
Notons cependant quune nouvelle base CASIA (nomme CASIA V.3) a vu rcemment le jour
et comporte, toujours en prises de vues infrarouges, divers bruits parmi lesquels des reflets ou
encore des problmes de positionnement.
Les figures 9.4(a),(b) et (c) prsentent des exemples dimages issues de ces bases.

(a) Image de la base Ubiris.

(b) Image de la base CASIA V.1. (c) Image de la base CASIA V.3.

Figure 9.4 Images diris issues de bases diffrentes.

179 / 229

CHAPITRE 9. LA SEGMENTATION DE LIRIS DANS UNE IMAGE

9.6

Les modles employs

Le modle baysien naf (cf section 9.2.1), reconnu pour sa robustesse et ses performances
gnrales, nous a paru tre un modle de choix pour cette application.
Nous avons cependant employ deux modles nafs distincts. Le premier modle, dnomm
simplement NB, est un modle naf constitu de la variable classe pouvant prendre les valeurs
Iris ou Iris et des caractristiques de texture dHaralick.
Un deuxime modle, dnot Bs , revient une architecture similaire celle de NB mais avec
un nombre rduit de caractristiques.
Il est effectivement courant, lors de lemploi des caractristiques dHaralick, de nutiliser
quun sous ensemble de celles-ci. Pour ce faire, nous avons tabli les corrlations existant entre
les caractristiques extraites des images dUbiris en effectuant une analyse par composantes
principales. Les rsultats de cette analyse sont rsums dans la figure 9.5, montrant le cercle des
corrlations entre les 11 premires caractristiques.

Figure 9.5 Cercle des corrlations entre les caractristiques dHaralick.


Le cercle se lit de la manire suivante :
deux variables proches sur le cercle sont corrles entre elles ;
deux variables situes de part et dautre du cercle sont corrles ngativement ;
deux variables situes 90 lune de lautre sont indpendantes.
Le cercle nous permet de dgager les groupements de caractristiques suivants : {3}, {8,9,11}
(attendu tant donn les formulations de ces caractristiques) {2,11}, {4,6,7} et {1,5}. Le singleton
{3} napporte que peu dinformations et est donc cart. Les groupes {2,10} et {8,9,11} sont
eux-mmes trs corrls.
180 / 229

CHAPITRE 9. LA SEGMENTATION DE LIRIS DANS UNE IMAGE

Nous avons choisi demployer les caractristiques suivantes :


le moment des diffrences inverses f5 ;
le moyenne des sommes f6 ;
lentropie des diffrences f11 .
Le rseau NBs rsultant sera donc constitu de 4 variables : 3 caractristiques et la classe des
pixels.

9.7

Implmentation

La classification est effectue sur une base dimages constitues de 50 images issues de la
base Ubiris. Chaque image est issue dun sujet diffrent afin dviter toute corrlation fortuite
entre images dun mme individu.
La base dapprentissage est, elle, constitue de 15 images issues elles aussi de sujets diffrents
entre eux ainsi que de ceux constituant la base de test. Si le nombre dimages parat limit, il faut
souligner que lapprentissage seffectue au niveau des pixels. Les images tant de dimensions
200 150 pixels, nous avons notre disposition une base de 430 000 points (les bords de limage
ne sont pas traits du fait du traitement par les matrices de cooccurrence).
Lapprentissage est effectu de manire supervise, partir dune segmentation manuelle de
la base dapprentissage constituant alors la vrit terrain.
Nous effectuons nos calculs sur les onze premires caractristiques de texture (les formules
de ces caractristiques sont prcises en annexe B). Les autres caractristiques nayant montr
quun intrt faible par rapport aux calculs supplmentaires quelles requraient. De plus, nous
rduisons le nombre de niveaux de gris de limage traiter 16. Cette rduction permet de
diminuer considrablement le nombre de calculs ncessaires sans pour autant causer une perte
dinformation notable concernant les textures prsentes.
En tout, le modle baysien NBs est par consquent constitu de 11 variables caractristiques
et de la variable binaire correspondant la classe. Afin de pouvoir traiter les valeurs continues
des caractristiques dHaralick, nous avons employ une mthode de discrtisation fonde sur
lemploi du critre AIC, tire de [Colot et al., 1994] et disponible via la toolbox Structure Learning
Package.
Pour la classification (pas dans le cas de lapprentissage), une pr-segmentation est opre
afin dacclrer les traitements. Cette pr-segmentation est fonde sur le mme principe que
les mthodes exposes en section 9.4.2 : une transforme de Hough circulaire est applique
limage aprs dtection des contours. Ce systme ne rencontre de problmes, dans le cas
dimages prises en conditions relles, que lors de la segmentation entre pupille et iris. Nous
lemployons ici afin de dlimiter une zone carre, de dimension gale au rayon extrieur de
liris dtect.
La classification se droule comme suit :
1. la pr-segmentation est effectue et permet de rduire la zone de limage traiter ;
2. une fentre glissante, de dimension f f pixels est applique chaque pixel, successivement dans limage ;
181 / 229

CHAPITRE 9. LA SEGMENTATION DE LIRIS DANS UNE IMAGE

3. pour chaque pixel, les caractristiques dHaralick sont extraites et constituent une base
de cas ;
4. la base prcdemment extraite est fournie en entre au modle appris partir de la base
de 15 images ;
5. la classe dappartenance de chaque pixel est infre partir des caractristiques extraites ;
6. limage ainsi obtenue est soumise des oprateurs de morphologie mathmatique afin
dliminer les ventuels artefacts prsents.
Les oprateurs morphologiques sont appliqus limage segmente laide dun lment
structurant SE, de forme circulaire et de rayon 2.
Les oprateurs employs sont lrosion (EroSE (I)) et la dilatation (DilSE (I)) :
EroSE (I) = {(x, y)|SE(x,y) I}

(9.2)

DilSE (I) = {(x, y)|SE(x,y) I , }

(9.3)

o (x, y) dsigne les coordonnes du point de limage I o est appliqu loprateur. Plus exactement, nous appliquons une ouverture suivie dune fermeture (i.e. la suite doprations rosion,
dilatation, dilatation, rosion,).
Pralablement aux exprimentations, il nous a fallu fixer la valeur de deux paramtres :
la taille f de la fentre glissante ;
la distance d employe dans le calcul des caractristiques partir de la matrice de cooccurrence des niveaux de gris (cf section B.1.1).
Une premire srie dessais a t effectue partir du modle baysien NB afin de choisir ces
paramtres. Par la suite, nous avons utilis une dimension f , pour la fentre glissante, gale
7 pixels ainsi quune distance du vecteur de dplacement gale 2 pixels.
Enfin, la matrice doccurrence, base du calcul des caractristiques de texture, a t calcule
sur quatre directions (0 , 45 , 90 et 135 ), symtrise puis moyenne afin de rendre lensemble
invariant la rotation.

9.7.1

Rsultats

Nous avons valu quantitativement les rsultats des segmentations effectues partir des
deux modles NB et NBs . Ces rsultats sont regroups sous la forme des matrices de confusion
de la figure 9.6.
Afin de clarifier les rsultats, nous les reprsentons sous formes de taux, dans la figure 9.7
Les rsultats montrent que les modles sont capables, le plus souvent, de reconnatre les
parties de limage nappartenant pas liris, avec un taux de faux ngatif bas (0,65% et 3,2%).
Ce rsultat extrmement bas, pour le modle simplifi, est malheureusement contrebalanc par
une faible capacit reconnatre les parties de limage appartenant effectivement liris.
En regardant le dtail des rsultats pour chaque image, nous nous sommes aperus que les
modles ont eu plus particulirement du mal identifier les iris clairs et/ou fortement texturs.
Un exemple diris posant problme ainsi que le rsultat de sa segmentation laide du rseau
baysien naf dot de onze caractristiques sont donns dans la figure 9.8. On voit ici que seuls
182 / 229

CHAPITRE 9. LA SEGMENTATION DE LIRIS DANS UNE IMAGE

Iris

Iris

Iris

194577

29997

Iris

26281

814945

Segmentation

Image

Image

Segmentation

Iris

Iris

Iris

146703

77871

Iris

5466

835760

(a) NB

(b) NB-s

Figure 9.6 valuations quantitatives de la segmentation travers les matrices de confusion


calcules sur lensemble des images de tests, suivant le modle baysien employ.

Iris

Iris

Iris

86,6%

13,4%

Iris

3,2%

96,8%

(a) NB

Segmentation

Image

Image

Segmentation

Iris

Iris

Iris

65,3%

34,7%

Iris

0,6%

99,4%

(b) NB-s

Figure 9.7 valuations quantitatives de la segmentation travers les matrices de confusion


calcules sur lensemble des images de tests, suivant le modle baysien employ. Les valeurs
reprsentes ici sont les diffrents taux.
quelques pixels (68, pour tre exact) ont t identifis comme appartenant liris. loppos,
partir du mme modle que pour limage prcdente, les figures 9.9(a) et (b) montrent cte
cte limage dun autre iris segment et la segmentation obtenue partir de cette image. Ici,
une grande majorit des pixels de liris ont pu tre identifis.

(a) Image de la base Ubiris.

(b) Segmentation par un modle naf.

Figure 9.8 Image dun iris et rsultat de sa segmentation par le biais dun rseau baysien naf
onze caractristiques. Seuls quelques pixels ont pu tre identifis comme appartenant liris.
Dans un premier temps, nous avons souponn une incompltude ou un manque de diversit
dans la base dapprentissage dtre la cause dun tel phnomne. Mais lajout dimages diris
prsentant des textures similaires neut, dans des essais ultrieurs, aucun effet.
La rduction du nombre de caractristiques modlises au sein du modle naf a eu pour effet
183 / 229

CHAPITRE 9. LA SEGMENTATION DE LIRIS DANS UNE IMAGE

(a) Image de la base Ubiris.

(b) Segmentation par un modle naf.

Figure 9.9 Image dun iris et rsultat de sa segmentation par le biais dun rseau baysien naf
onze caractristiques. De nombreux pixels appartenant liris ont pu tre identifis.
une dgradation des performances du modle. Mme si les variables font parties de groupes
fortement corrls, linformation apporte par une seule caractristique de chaque groupe est
clairement insuffisante pour permettre une segmentation efficace des pixels de liris.
Les temps de calcul demeurent de plus assez lourds du fait de lemploi dune classification
par pixel. Il est ncessaire de parcourir lensemble de limage afin dextraire les diffrentes
caractristiques et le temps mis est de prs de 110 secondes dans le cas du modle rduit NBs
et de 200 pour le modle NB, mme laide de la pr-segmentation du cercle extrieur de liris.

9.8

Conclusion

Les rsultats montrent que le modle baysien est capable deffectuer une tche de segmentation efficace.
Certaines images, cependant, semblent demeurer rfractaires la segmentation par un modle baysien.
Une explication ce phnomne est trs certainement lerreur humaine. Il nexiste pas en
effet de vrit terrain "officielle" pour la base Ubiris ; la consquence tant que nous avons nousmmes produit notre propre vrit terrain. Or, il est certainement de nombreux dfauts dans
limage (perte de focus, reflet insensible sur liris) perturbant les valeurs des caractristiques
que nous navons pas, nous-mmes, pu tablir lors de la cration de nos bases dapprentissage.
Si le travail ralis ici avait avant tout pour volont de dmontrer les capacits des rseaux
baysiens en tant que classificateurs sur un terrain inhabituel et non de rsoudre la problmatique de la segmentation de liris, ce dernier enjeu pourrait certainement tre entrepris. Certains
apports cette mthode pouvant, entre autres, tre lexploitation de techniques pouvant permettre lacclration du traitement et lamlioration de la segmentation.
Dautre part, nous navons prsent dans ce chapitre que les rsultats lis un seul type
de classificateur baysien : le modle naf. Nous avons essay, lors du dveloppement du
projet, demployer des modles plus fortement connects tels que les rseaux baysiens nafs
augments, les rseaux baysiens ou encore les arbres retourns par la mthode MWST. Les
184 / 229

CHAPITRE 9. LA SEGMENTATION DE LIRIS DANS UNE IMAGE

rsultats, surprenants, nous paraissent aujourdhui encore difficilement explicables. Lajout de


connexions au classificateur eut en effet pour rsultat des modles classifiant systmatiquement
la quasi totalit des points de limage dans la classe Iris. Lanalyse des structures (rpartition
des caractristiques au sein des diffrents modles par rapport leur corrlation, dfinie par
lACP) ne nous a pas permis dobtenir une relle explication ce phnomne.

185 / 229

Quatrime partie

Conclusions et perspectives

187

Chapitre 10

Conclusion
Ce travail de thse nous a permis dtablir quelques uns des principaux tenants et aboutissants de lapproche volutionnaire de lapprentissage de la structure dun rseau baysien.
Dans un premier temps, nous avons pu tudier la problmatique de lapprentissage de
structures travers les principales notions et dfinitions ainsi qu travers un panorama des
mthodes existantes.
Les mthodes volutionnaires ont ensuite t dfinies puis tudies afin de pouvoir les employer de manire adapte pour lapprentissage de structures. Nous avons par la suite propos
un algorithme gntique permettant un tel apprentissage, suivant une procdure de recherche
et dvaluation dans lespace des structures avant daugmenter cet algorithme par diverses
approches issues des travaux combins des domaines de lalgorithmique volutionnaire et des
modles baysiens.
Lexploitation des proprits de lespace des quivalents de Markov a t une premire
tape. En combinant la non-redondance propose par les graphes reprsentant des classes
dquivalence une mthode de niching squentiel, nous avons pu, de manire simple, amliorer
les performances de lalgorithme gntique. Cette mthode revenant pnaliser lvaluation
de certaines solutions par le biais de leurs classes dquivalences.
Dans la ligne de certains travaux rcents visant hybrider certaines techniques dexploration de lespace des solutions, nous avons procd une combinaison de la mthode prcdente avec un schma de rpartition des individus de la population dans lespace. Cette
dernire mthode sest montre gnralement plus performante, parvenant au moins galer
les performances de lalgorithme glouton sur lespace des quivalents, GES.
Nous avons aussi exploit la piste de ladaptativit des oprateurs, thmatique trs documente, en proposant une mthode dadaptativit de loprateur de mutation. la manire
dun processus de mmorisation des russites et erreurs passes venant renforcer le processus
volutionnaire, les conclusions quant cette dernire stratgie savrent mitigs. La complexit
mme du problme de lapprentissage de structures ainsi quune reprsentation a priori inadapte des solutions dans notre mthode figurent parmi les raisons derrire les performances
moindres de cette stratgie adaptative.

189

CHAPITRE 10. CONCLUSION

Le premier rsultat de notre travail est que les mthodes volutionnaires peuvent tre une
approche judicieuse dans les cas vraisemblables o lon cherche tablir la structure dun rseau
baysien partir dune base de cas de taille limite. En effet, dans ce cas prcis, la multiplicit
des optima locaux ainsi que labsence da priori sur la modlisation viennent frquemment
entraver le fonctionnement dalgorithmes tels que les algorithmes gloutons.
De plus, nos propositions de mthodes de niching, hybrides ou non, se sont avres efficaces en permettant de recouvrer des structures non seulement plus vraisemblables que celles
retournes par les mthodes existantes, mais aussi proches du modle sous-jacent aux donnes
considres.
Une autre partie de nos travaux a consist valuer le potentiel des rseaux baysiens en
tant que classifieurs apppliqus limage et ce, dans le cadre dune problmatique prcise :
la segmentation de la zone de liris dans limage dun il humain. Le modle naf utilis a
permis dobtenir des taux de segmentation trs performants, de lordre de 90%, en moyenne.
Si le systme dvelopp reste avant tout une tude thorique, les rsultats nous permettent
denvisager lexploitation future des modles baysiens dans le domaine de la reconnaissance
de formes bien quil nous semble impratif de combiner, du fait de la complexit de la tche, les
modles probabilistes aux connaissances et outils dores et dj employs pour le traitement de
limage : croissance de rgion, pr-segmentation, approche multi-rsolution, etc.

190 / 229

Chapitre 11

Perspectives
Le travail men dans cette thse a permis de pouvoir confronter les caractristiques dune
problmatique dintrt lapprentissage de la structure dun rseau baysien celles dun
ensemble de mthodes tout aussi populaire les mthodes volutionnaires . Sil est naturel
de penser que ces deux domaines devaient un jour faire lobjet dune tude commune, ce qui a
dores et dj t le cas (cf section 5.5), on peut tre surpris du fait que la plupart de ces mthodes
ont principalement voulu adapter le problme au solveur et non linverse. Or les limitations en
performances de ces approches sont, notre avis, pour la plupart inhrentes lapproche du
problme et non ncessairement celui-ci mme.
Si lon sintresse en particulier au cas des algorithmes employant une stratgie de niching, combine ou non un schma de rpartition de la population, ces stratgies pourraient
tre amliores par lemploi dune distance dfinie directement sur lespace des graphes essentiels, servant eux-mmes dans nos travaux la dfinition de niches. Des travaux rcents
[Tsamardinos et al., 2006] ont ainsi dtermin une distance ddition au sein de lespace de
graphes essentielles : la distance de Hamming structurelle. Les rsultats de lemploi de cette
distance en conjugaison avec une approche de niching spatial classique dont lemploi tait
dans notre cas contraint par la dfinition dune distance ad hoc dans lespace de recherche
serait un sujet dintrt, dans la continuit de nos travaux.
Lun des principaux dsavantages des mthodes volutionnaires appliques lapprentissage de structure, outre le temps de calcul, est doptimiser la population en cours en fonction
de la seule fitness alors couramment gale une fonction dvaluation de structures telle que le
critre BIC. Bien que justifie, cette approche entrane, dans le cas de lapprentissage de structures, un certain nombre de problmes intimement lis aux dfauts des mthodes dvaluation
issue du domaine des rseaux baysiens. Il nexiste en effet pas, lheure actuelle, de mthode
dvaluation parfaitement fiable pour une structure, preuve sil en est, le nombre important de
mesures employes : AIC, BIC, MDL, BDeu. La fiabilit des tests dindpendance statistique est
aussi un problme, si lon souhaite aborder le problme par cette voie.
Les scores aussi bien que les mthodes bases sur la dtection dindpendances probabilistes
rencontrent toutes des problmes dans le cas de bases dapprentissage de tailles restreintes. Une
possibilit, ds lors, serait de pouvoir combiner diffrentes mesures afin de russir atteindre
un compromis entre vraisemblance structurelle, du point vue de la mesure mathmatique, et de
191

CHAPITRE 11. PERSPECTIVES

la vraisemblance dfinie par un expert. Or, loptimisation de problmes contraintes multiples


est justement une des pistes tudies par lalgorithmique volutionnaire [Deb, 2001]. On peut
penser quil serait possible, par le biais dun algorithme volutionnaire ad hoc de parvenir lobtention dune solution "raisonnable" vis--vis de divers critres (rgles graphiques, contraintes
de succession ou dascendance locales certaines variables, etc).
Si la distributivit des calculs nous laisse esprer une amlioration sensible des temps de
calculs lis lapprentissage de modles complexes, la considration simultane de plusieurs
critres, aussi bien thoriques que pratiques, pourrait amener la solution volutionnaire
pouvoir produire rapidement une "bonne" solution partir de donnes peu nombreuses.
Les domaines des modles baysiens et des mthodes volutionnaires sont riches, respectivement, en problmatiques et en solutions. Certains pans de la problmatique de lapprentissage
de la structure dun rseau baysien nont pas t traits dans ce travail de thse. Ainsi la problmatique des donnes manquantes est une question faisant lobjet de nombreux travaux (cf
section 4.1.2). Mme si, nous lavions voqu, les mthodes volutionnaires ont dj fait lobjet
dune application dans ce domaine [Myers et al., 1999], celle-ci a ignor les nombreux cas de
figure pouvant se produire dans cette seule problmatique [Franois, 2006].
Enfin, dans le domaine plus gnral de lapprentissage de structures par un algorithme
volutionnaire, plusieurs avances ont t faites en parallle ce travail de thse ; ces avances ont consist en une simplification des reprsentations usuellement employes en limitant
la recherche un squelette tabli par une srie de tests statistiques tandis que des travaux
prometteurs se sont employs dterminer une structure adquate partir dune recherche
sur lensemble des ordres topologiques envisageables. Une piste intressante pourrait alors
consister combiner ces deux approches en permettant une recherche sur lespace des ordres
topologiques (dores et dj limit par rapport celui des structures) en tenant compte du
squelette prtabli.

192 / 229

Bibliographie
[Acid et de Campos, 1996] Acid, S. et de Campos, L. (1996). A hybrid methodology for learning
belief networks : Benedict. International Journal of Approximate Reasoning, 27 :235262.
[Acid et de Campos, 2003] Acid, S. et de Campos, L. M. (2003). Searching for bayesian network
structures in the space of restricted acyclic partially directed graphs. Journal of Artificial
Intelligence Research, 18 :445490.
[Akaike, 1970] Akaike, H. (1970). Statistical predictor identification. Annals of the Institute of
Statistical Mathematics, 22 :203217.
[Allanach et al., 2004] Allanach, J., Tu, H., Singh, S., Pattipati, K., et Willett, P. (2004). Detecting,
tracking and counteracting terrorist networks via hidden markov models. In IEEE Aerospace
Conference.
[Anastasoff, 1999] Anastasoff, S. J. (1999). Evolving mutation rates for the self-optimisation of
genetic algorithms. In Advances in Artificial Life, ECAL99 : 5th European Conference on Artificial
Life, pages 133139, Lausanne, Switzerland. Springer.
[Andersson et al., 1995] Andersson, S., Madigan, D., et Perlman, M. (1995). A characterization
of markov equivalence classes for acyclic digraphs. Technical Report 287, Department of
Statistics, University of Washington.
[Angeline, 1995] Angeline, P. J. (1995). Adaptive and self-adaptive evolutionary computations.
In Palaniswami, M. et Attikiouzel, Y., editors, Computational Intelligence : A Dynamic Systems
Perspective, pages 152163. IEEE Press.
[Antonisse, 1989] Antonisse, J. (1989). A new interpretation of schema notation that overturns
the binary encoding constraint. In Schaffer, J. D., editor, Proceedings of the Third International
Conference on Genetic Algorithms, pages 8697, San Francisco. Morgan Kaufmann.
[Auger, 2004] Auger, A. (2004). Contributions thoriques et numriques loptimisation continue
par Algorithmes Evolutionnaires. PhD thesis, Universit Paris 6.
[Baluja, 1994] Baluja, S. (1994). Population-based incremental learning : A method for integrating genetic search based function optimization and competitive learning. Technical Report
CMU-CS-94-163, Computer Science Department, Carnegie Mellon University, Pittsburgh,
PA.
[Bck, 1992] Bck, T. (1992). Self-adaptation in genetic algorithms. In Varela, F. J. et Bourgine, P.,
editors, Proceedings of the First European Conference on Artificial Life, pages 227235, Cambridge,
MA. MIT Press.
[Bck, 1993] Bck, T. (1993). Optimal mutation rates in genetic search. In Proceedings of the 5th
International Conference on Genetic Algorithms, pages 28.
193

BIBLIOGRAPHIE

[Bck et al., 2000] Bck, T., Eiben, A. E., et van der Vaart, N. A. L. (2000). An empirical study on
gas without parameters. In PPSN VI : Proceedings of the 6th International Conference on Parallel
Problem Solving from Nature, Paris, France, September 18-20, pages 315324.
[Bck et Schtz, 1996] Bck, T. et Schtz, M. (1996). Intelligent mutation rate control in canonical
genetic algorithms. In Proceedings of the International Symposium on Methodologies for Intelligent
Systems., pages 158167.
[Beal, 2003] Beal, M. (2003). Variational Algorithms for Approximate Bayesian Inference. PhD thesis,
Gatsby Computational Neuroscience Unit, University College, London.
[Beasley et al., 1993] Beasley, D., Bull, D. R., et Martin, R. R. (1993). A sequential niche technique
for multimodal function optimization. Evolutionary Computation, 1(2) :101125.
[Beinlich et al., 1989] Beinlich, I. A., Suermondt, H. J., Chavez, R. M., et Cooper, G. F. (1989).
The alarm monitoring system : A case study with two probabilistic inference techniques for
belief networks. In Proceedings of the Second European Conference on Artificial Intelligence in
Medicine, pages 247256, London, England.
[Binder et al., 1997] Binder, J., Koller, D., Russell, S. J., et Kanazawa, K. (1997). Adaptive probabilistic networks with hidden variables. Machine Learning, 29(2-3) :213244.
[Blanco et al., 2003] Blanco, R., Inza, I., et Larraaga, P. (2003). Learning bayesian networks
in the space of structures by estimation of distribution algorithms. International Journal of
Intelligent Systems, 18(2) :205220.
[Bonet et al., 1996] Bonet, J. S. D., Isbell, C. L., et Viola, P. (1996). Mimic : Finding optima by
estimating probability densities. In Proceedings of Neural Information Processing Systems, pages
424430.
[Bouckaert, 1994] Bouckaert, R. (1994). Properties of bayesian belief network learning algorithms. In Proceedings of the 10th Annual Conference on Uncertainty in Artificial Intelligence
(UAI-94), pages 10210, San Francisco, CA. Morgan Kaufmann.
[Bouckaert, 1993] Bouckaert, R. R. (1993). Probabilistic network construction using the minimum description length principle. Lecture Notes in Computer Science, 747 :4148.
[Bozdogan, 1987] Bozdogan, H. (1987). Model selection and akaikes information criteria (AIC) :
The general theory and its analytical extentions. Psychometrika, 52 :354370.
[Buntine, 1991] Buntine, W. (1991). Theory refinement of bayesian networks. In In Proceedings of the Seventh Conference on Uncertainty in Artificial Intelligence, pages 5260. American
Mathematical Society.
[Canny, 1986] Canny, F. J. (1986). A computational approach to edge detection. Transactions on
Pattern Analysis and Machine Intelligence, 8(6) :679698.
[Cantu-Paz, 1997] Cantu-Paz, E. (1997). A survey of parallel genetic algorithms. Technical Report 97003, Illinois Genetic Algorithms Laboratory, University of Illinois at UrbanaChampaign.
[Charniak, 1991] Charniak, E. (1991). Bayesian networks without tears. AI Magazine, 12(4) :50
63.
[Cheeseman et al., 1988] Cheeseman, P., Self, M., Kelly, J., Taylor, W., Freeman, D., et Stutz, J.
(1988). Bayesian classification. In Proceedings of the Seventh National Conference on Artificial
Intelligence (AAAI-88), pages 607617, St. Paul, MN.

194 / 229

BIBLIOGRAPHIE

[Chellapilla et Fogel, 1999] Chellapilla, K. et Fogel, D. (1999). Fitness distributions in evolutionary computation : motivation and examples in the continuous domain. BioSystems, 54
(1-2) :1529.
[Cheng et al., 2002] Cheng, J., Bell, D. A., et Liu, W. (2002). Learning belief networks from data :
An information theory based approach. Artificial Intelligence, 1-2 :4390.
[Chickering, 1995] Chickering, D. (1995). A transformational characterization of bayesian network structures. In Hanks, S. et Besnard, P., editors, Proceedings of the 11th Conference on
Uncertainty in Artificial Intelligence, pages 8798.
[Chickering, 2002a] Chickering, D. (2002a). Optimal structure identification with greedy search.
Journal of Machine Learning Research, 3 :507554.
[Chickering et al., 1995] Chickering, D., Geiger, D., et Heckerman, D. (1995). Learning bayesian
networks : Search methods and experimental results. In Proceedings of the fifth Conference on
Artificial Intelligence and Statistics, pages 112128.
[Chickering, 1996] Chickering, D. M. (1996). Learning equivalence classes of bayesian network
structures. In Horvitz, E. et Jensen, F. V., editors, Proceedings of the 12th Annual Conference on
Uncertainty in Artificial Intelligence, pages 150157. Morgan Kaufmann.
[Chickering, 2002b] Chickering, D. M. (2002b). Learning equivalence classes of bayesiannetwork structures. Journal of Machine Learning Research, 2 :445498.
[Chickering et al., 1994] Chickering, D. M., Geiger, D., et Heckerman, D. (1994). Learning bayesian networks is NP-hard. Technical report, Microsoft Research.
[Chickering et Meek, 2003] Chickering, D. M. et Meek, C. (2003). Monotone DAG faithfulness :
A bad assumption. Technical Report MSR-TR-2003-16, Microsoft Research.
[Chickering et al., 2003] Chickering, D. M., Meek, C., et Heckerman, D. (2003). Large-sample
learning of bayesian networks is hard. In Proceedings of the Nineteenth Conference on Uncertainty
in Artificial Intelligence, Acapulco, Mexico, pages 162169. Morgan Kaufmann.
[Chow et Liu, 1968] Chow et Liu (1968). Approximating discrete probability distributions with
dependence trees. IEEE Transactions on Information Theory, 14(3) :462467.
[Cobb et Shenoy, 2006] Cobb, B. R. et Shenoy, P. P. (2006). Inference in hybrid bayesian networks with mixtures of truncated exponentials. International Jounal of Approximate Reasoning,
41(3) :257286.
[Cohoon et al., 1987] Cohoon, J. P., Hedge, S. U., Martin, W. N., et Richards., D. (1987). Punctuated equilibria : A parallel genetic algorithm. In Grefenstette, J. J., editor, Genetic algorithms
and their applications : Proceedings of the second International Conference on Genetic Algorithms,
pages 148154. Lawrence Erlbaum Associates.
[Colot et al., 1994] Colot, O., Olivier, C., Courtellemont, P., et El Matouat, A. (1994). Information criteria and abrupt changes in probability laws. In Signal Processing VII : Theories and
Applications, pages 18551858.
[Cooper et Herskovits, 1992] Cooper, G. et Herskovits, E. (1992). A bayesian method for the
induction of probabilistic networks from data. Machine Learning, 9 :309347.
[Cooper, 1987] Cooper, G. F. (1987). Probabilistic inference using belief networks is NP-hard.
Technical Report KSL-87-27, Medical Computer Science Group, Stanford University, Stanford, CA.
[Cormen et al., 1994] Cormen, T., Leiserson, C., et Rivest, R. (1994). Introduction lalgorithmique.
Dunod.
195 / 229

BIBLIOGRAPHIE

[Cotta et Muruzbal, 2002] Cotta, C. et Muruzbal, J. (2002). Towards a more efficient evolutionary induction of bayesian networks. In PPSN VII : Parallel Problem Solving from Nature,
7th International Conference, Granada, Spain, September 7-11, pages 730739.
[Dagum et Luby, 1993] Dagum, P. et Luby, M. (1993). Approximate probabilistic reasoning in
bayesian belief networks is NP-hard. Artificial Intelligence, 60 :141153.
[DAmbrosio, 1993] DAmbrosio, B. (1993). Incremental probabilistic inference. In UAI 93 :
Proceedings of the Ninth Annual Conference on Uncertainty in Artificial Intelligence, pages 301308,
Providence, Washington, DC, USA. The Catholic University of America.
[Dash et Druzdzel, 1999] Dash, D. et Druzdzel, M. J. (1999). A hybrid anytime algorithm for
the construction of causal models from sparse data. In Proceedings of the 15th Conference on
Uncertainty in Artificial Intelligence, pages 142149.
[Daugman, 1993] Daugman, J. (1993). High confidence visual recognition of persons by a test
of statistical independence. Image Pattern Analysis and Machine Intelligence, 15(11) :11481161.
[Daugman, 2007] Daugman, J. G. (2007). New methods in iris recognition. IEEE Transactions
on Systems, Man, and Cybernetics, 37(5) :11671175.
[Davis, 1991] Davis, L. (1991). Handbook of Genetic Algorithms. van Nostrand Reinhold, New
York.
[de Campos et Castellano, 2007] de Campos, L. M. et Castellano, J. G. (2007). Bayesian network learning algorithms using structural restrictions. International Journal of Approximate
Reasoning, 45(2) :233254.
[De Jong, 1992] De Jong, K. (1992). Are genetic algorithms function optimizers ? In Parallel
Problem Solving from Nature 2, PPSN-II, Brussels, pages 314.
[De Jong, 2001] De Jong, K. (2001). Evolutionary Computation : A Unified Approach. MIT Press.
[De Jong, 1975] De Jong, K. A. (1975). An analysis of the behavior of a class of genetic adaptive
systems. PhD thesis, University of Michigan.
[Deb, 2001] Deb, K. (2001). Multi-objective optimization using genetic algorithms. Wiley.
[Deb et Agrawal, 1995] Deb, K. et Agrawal, R. B. (1995). Simulated binary crossover for continuous search space. Complex Systems, 9 :115148.
[Dechter, 1997] Dechter, R. (1997). Mini-buckets : a general scheme for approximation in automated reasoning. In Proceedings of the fifteenth International Joint Conference on Artifical
Intelligence (IJCAI), pages 12971302.
[Delaplace et al., 2006] Delaplace, A., Brouard, T., et Cardot, H. (2006). Two evolutionary methods for learning bayesian network structures. In Proceedings of the 2006 International Conference on Computational Intelligence and Security (CIS 2006), volume 4456 of Lecture Notes in
Artificial Intelligence, pages 7380, Guangzhou, China. Springer.
[Delaplace et al., 2007a] Delaplace, A., Brouard, T., et Cardot, H. (2007a). Apprentissage de la
structure dun rseau baysien par un algorithme gntique. Revue dIntelligence Artificielle,
21(3) :333352.
[Delaplace et al., 2007b] Delaplace, A., Brouard, T., et Cardot, H. (2007b). Dtermination volutionnaire de classes dquivalences de structures de rseaux baysiens. In Congrs de la
Socit Franaise de Recherche Oprationnelle et dAide la Dcision FRANCORO V / ROADEF
2007, Grenoble, France. Presses Universitaires de Grenoble.
[Dempster et al., 1977] Dempster, A., Laird, N., et Rubin, D. (1977). Maximum likelihood for
incomplete data via the EM algorithm. Journal of the Royal Statistical Society, B 39 :138.
196 / 229

BIBLIOGRAPHIE

[Domingos et Pazzani, 1996] Domingos, P. et Pazzani, M. J. (1996). Beyond independence :


Conditions for the optimality of the simple bayesian classifier. In Machine Learning, Proceedings of the Thirteenth International Conference (ICML 96), pages 105112, Bari, Italy. Morgan
Kaufmann.
[Dor et Tarsi, 1992] Dor, D. et Tarsi, M. (1992). A simple algorithm to construct a consistent
extension of a partially oriented graph. Technical Report Technical Report R-185, Cognitive
Systems Laboratory, UCLA Computer Science Department.
[Draper et Hanks, 1994] Draper, D. et Hanks, S. (1994). Localized partial evaluation of belief
networks. In Proceedings of the 10th Annual Conference on Uncertainty in Artificial Intelligence
(UAI-94), pages 17017, San Francisco, CA. Morgan Kaufmann.
[Droste et al., 2001] Droste, S., Jansen, T., et Wegener, I. (2001). Dynamic parameter control in
simple evolutionary algorithms. In Martin, W. N. et Speards, W. M., editors, Proceedings of
the Sixth Workshop on the Foundations of Genetic Algorithms, pages 275294, San Francisco CA.
[Eaton, 2007] Eaton, D. (2007). Bayesian network structure learning for the uncertain experimentalist. Masters thesis, University of British Columbia.
[Eiben et al., 1999] Eiben, A. E., Hinterding, R., et Michalewicz, Z. (1999). Parameter control in
evolutionary algorithms. IEEE Transactions on Evolutionary Computation, 3(2) :124141.
[Eiben et al., 2004] Eiben, A. E., Marchiori, E., et Valk, V. A. (2004). Evolutionary algorithms
with on-the-fly population size adjustment. In PPSN VIII : Proceedings of the 8th International
Conference on Parallel Problem Solving from Nature, pages 4150.
[Eiben et al., 2006] Eiben, A. E., Schut, M. C., et de Wilde, A. R. (2006). Is self-adaptation of
selection pressure and population size possible ? - a case study. In PPSN IX : Proceedings of
the 9th International Conference on Parallel Problem Solving from Nature, pages 900909.
[Eiben et Smith, 2003] Eiben, A. E. et Smith, J. E. (2003). Introduction to Evolutionary Computing.
Springer.
[El-Yaniv et al., 1997] El-Yaniv, R., Fine, S., et Tishby, N. (1997). Agnostic classification of markovian sequences. In Advances in Neural Information Processing Systems 10, NIPS Conference,
Denver, Colorado, USA.
[Eldredge et Gould, 1972] Eldredge, N. et Gould, S. (1972). Punctuated equilibria : an alternative to phyletic gradualism. In Models of Paleobiology, pages 82115. Freeman Cooper and co,
San Francisco CA.
[Elidan, 2004] Elidan, G. (2004). Learning Hidden Variables in Probabilistic Graphical Models. PhD
thesis, Hebrew University.
[Elidan et Friedman, 2001] Elidan, G. et Friedman, N. (2001). Learning the dimensionality of
hidden variables. In UAI 01 : Proceedings of the 17th Conference in Uncertainty in Artificial
Intelligence, University of Washington, Seattle, Washington, USA, August 2-5, 2001, pages 144
151.
[Etxeberria et al., 1997] Etxeberria, R., Larraaga, P., et Picaza, J. M. (1997). Analysis of the
behaviour of genetic algorithms when learning bayesian network structure from data. Pattern
Recognition Letters, 18(11-13) :12691273.
[Fennell et Wishner, 1998] Fennell, M. T. et Wishner, R. P. (1998). Battlefield awareness via synergistic SAR and MTI exploitation. IEEE Aerospace and Electronic Systems Magazine, 13(2) :3943.
[Fogel et al., 1966] Fogel, L. J., Owens, A. J., et Walsh, M. J. (1966). Artificial Intelligence through
Simulated Evolution. John Wiley & Sons, New York.
197 / 229

BIBLIOGRAPHIE

[Forrest, 1985] Forrest, S. (1985). Documentation for prisoners dilemma and norms programs
that use the genetic algorithm. University of Michigan, Ann Arbor, MI.
[Francois et Leray, 2004] Francois, O. et Leray, P. (2004). BNT structure learning package :
Documentation and experiments. Technical report, Laboratoire PSI.
[Franois, 2006] Franois, O. (2006). De lidentification de structure de rseaux baysiens la reconnaissance de formes partir dinformations compltes ou incompltes. PhD thesis, Institut national
des sciences appliques de Rouen.
[Franois et Leray, 2004] Franois, O. et Leray, P. (2004). tude comparative dalgorithmes dapprentissage de structure dans les rseaux baysiens. Journal Electronique dIntelligence Artificielle, 5(39) :119.
[Friedman, 1997] Friedman, N. (1997). Learning bayesian networks in the presence of missing
values and hidden variables. In Proceedings of the 14th International Conference on Machine
Learning, pages 125133. Morgan Kaufmann.
[Friedman, 1998] Friedman, N. (1998). The bayesian structural EM algorithm. In Fourteenth
Conf. on Uncertainty in Artificial Intelligence (UAI), pages 129138.
[Friedman et al., 1997] Friedman, N., Geiger, D., et Goldszmidt, M. (1997). Bayesian network
classifiers. Machine Learning, 29 :131163.
[Friedman et Goldszmidt, 1996] Friedman, N. et Goldszmidt, M. (1996). Discretizing continuous attributes while learning bayesian networks. In ICML, pages 157165.
[Friedman et Koller, 2000] Friedman, N. et Koller, D. (2000). Being bayesian about network
structure. In Proceedings of the 16th Annual Conference on Uncertainty in Artificial Intelligence,
pages 2012, San Francisco, CA. Morgan Kaufmann.
[Fu, 2005] Fu, L. D. (2005). A comparison of state-of-the-art algorithms for learning bayesian
network structure from continuous data. Masters thesis, Faculty of the Graduate School of
Vanderbilt University.
[Geman et Geman, 1984] Geman, S. et Geman, D. (1984). Stochastic relaxation, gibbs distributions, and the bayesian restoration of images. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 6 :721741.
[Gilks et al., 1996] Gilks, W., Richardson, S., et Spiegelhalter, D. (1996). Markov Chain Monte
carlo in Practice. Chapman & Hall.
[Gillispie et Perlman, 2002] Gillispie, S. B. et Perlman, M. D. (2002). The size distribution
for markov equivalence classes of acyclic digraph models. Artificial Intelligence archive,
141(1/2) :137155.
[Glickman et Sycara, 2000] Glickman, M. et Sycara, K. (2000). Reasons for premature convergence of self-adapting mutation rates. In Proceedings of the 2000 Congress on Evolutionary
Computation, volume 1, pages 62 69.
[Goldberg, 1989] Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization, and Machine
Learning. Addison-Wesley Professional.
[Goldberg et Richardson, 1987] Goldberg, D. E. et Richardson, J. (1987). Genetic algorithms
with sharing for multimodal function optimization. In Proceedings of the Second International Conference on Genetic Algorithms on Genetic algorithms and their application, pages 4149,
Mahwah, NJ, USA. Lawrence Erlbaum Associates, Inc.

198 / 229

BIBLIOGRAPHIE

[Gomez, 2004] Gomez, J. (2004). Self adaptation of operator rates in evolutionary algorithms.
In Proceedings of the Genetic and Evolutionary Computation Conference (GECCO 2004), pages
11621173.
[Grefenstette, 1981] Grefenstette, J. (1981). Parallel adaptive algorithms for function optimization. Technical Report CS-81-19, Computer Science Department, Carnegie Mellon University,
Vanderbilt University, Nashville, TN.
[Haralick et al., 1973] Haralick, R., Shanmugan, K., et Distein, I. (1973). Textural features for
image classification. IEEE Transactions on Systems, Man, and Cybernetics, 3 :610621.
[He et Shi, 2007] He, X. et Shi, P. (2007). A new segmentation approach for iris recognition
based on hand-held capture device. Pattern Recognition, 40(4) :13261333.
[Heckerman, 1995] Heckerman, D. (1995). A tutorial on learning bayesian networks. Technical
Report MSR-TR-95-06, Microsoft Research, Redmond, WA.
[Heckerman et Geiger, 1994] Heckerman, D. et Geiger, D. (1994). A characterization of the dirichlet distribution through global and local independence. The Annals of Statistics, 25(3) :1344
1369.
[Heckerman et al., 1995a] Heckerman, D., Geiger, D., et M.Chickering, D. (1995a). Learning
bayesian networks : The combination of knowledge and statistical data. Machine Learning,
20 :197243.
[Heckerman et al., 1995b] Heckerman, D., Mamdani, A., et Wellman, M. P. (1995b). Real world
applications of bayesian networks. Communications of the ACM, 38(3) :2430.
[Henrion, 1988] Henrion, M. (1988). Propagation of uncertainty by probabilistic logic sampling
in bayes networks. Uncertainty in Artificial Intelligence, 2 :149164.
[Holland, 1975] Holland, J. H. (1975). Adaptation in natural and artificial systems. The University
of Michigan Press, Ann Arbor.
[Hu et Goodman, 2004] Hu, J. et Goodman, E. D. (2004). Robust and efficient genetic algorithms
with hierarchical niching and a sustainable evolutionary computation model. In Genetic and
Evolutionary Computation - GECCO 2004, Genetic and Evolutionary Computation Conference,
Seattle, WA, USA, June 26-30, 2004, Proceedings, Part I, pages 12201232.
[Huang et Darwiche, 1996] Huang, C. et Darwiche, A. (1996). Inference in belief networks : A
procedural guide. International Journal of Approximate Reasoning, 15 (3) :225263.
[Hurvich et Tsai, 1989] Hurvich, C. M. et Tsai, C.-L. (1989). Regression and time series model
selection in small samples. Biometrika, 76(2) :297307.
[Jaakkola et Jordan, 1999] Jaakkola, T. et Jordan, M. I. (1999). Variational probabilistic inference
and the qmr-dt network. Journal of Artificial Intelligence Research, 10 :291322.
[Jaronski et al., 2001] Jaronski, W., Bloemer, J., Vanhoof, K., et Wets, G. (2001). Use of bayesian belief networks to help understand online audience. In Proceedings of the Data Mining
Marketing Applications Workshop ECML/PKDD, Freiburg, Germany.
[Jensen, 1996] Jensen, F. (1996). An Introduction to Bayesian Networks. Springer Verlag, New
York.
[Jensen et al., 1990] Jensen, F., Lauritzen, S., et Olesen, K. (1990). Bayesian updating in causal
probabilistic networks by local computations. Computational Statistics Quaterly, 4 :269282.
[Jordan, 1998] Jordan, M. (1998). Learning in Graphical Models. Dordecht, The Netherlands :
Kluwer Academic Publishers.
199 / 229

BIBLIOGRAPHIE

[Jordan, 2004] Jordan, M. I. (2004). Graphical models. Statistical Science (Special Issue on Bayesian
Statistics), 19(1) :140155.
[Kallel et al., 2001] Kallel, L., Naudts, B., et Rogers, A., editors (2001). Theoretical Aspects of
Evolutionary Computing. Springer, Berlin.
[Kayaalp et Cooper, 2002] Kayaalp, M. et Cooper, G. F. (2002). A bayesian network scoring
metric that is based on globally uniform parameter priors. In Proceedings of the Eighteenth
Annual Conference on Uncertainty in Artificial Intelligence (UAI-2002), pages 251258.
[Kjrulff, 1994] Kjrulff, U. (1994). Reduction of computational complexity in bayesian networks through removal of weak dependences. In UAI 94 : Proceedings of the Tenth Annual
Conference on Uncertainty in Artificial Intelligence, pages 374382.
[Kocka et al., 2001] Kocka, T., Bouckaert, R. R., et Studen, M. (2001). On characterizing inclusion of bayesian networks. In UAI 01 : Proceedings of the 17th Conference in Uncertainty
in Artificial Intelligence, University of Washington, Seattle, Washington, USA, August 2-5, 2001,
pages 261268.
[Koehler, 1997] Koehler, G. J. (1997). New directions in genetic algorithm theory. Annals of
Operations Research, 75 :4968.
[Koza, 1989] Koza, J. R. (1989). Hierarchical genetic algorithms operating on populations of
computer programs. In Sridharan, N. S., editor, Proceedings of the Eleventh International Joint
Conference on Artificial Intelligence IJCAI-89, volume 1, pages 768774. Morgan Kaufmann.
[Koza, 1992] Koza, J. R. (1992). Genetic Programming : On the programming of Computers by Means
of Natural Selection. MIT Press, Cambridge, Massachusetts.
[Krause, 1999] Krause, P. J. (1999). Learning probabilistic networks. The Knowledge Engineering
Review archive, 13(4) :321351.
[Kreinovich et al., 1993] Kreinovich, V., Quintana, C., et Fuentes, O. (1993). Genetic algorithms :
What fitness scaling is optimal ? Cybernetics and Systems, 24(1) :926.
[Lacey et MacNamara, 2000] Lacey, G. et MacNamara, S. (2000). Context-aware shared control
of a robot mobility aid for the elderly blind. I. J. Robotic Res., 19(11) :10541065.
[Lam et Bacchus, 1994] Lam, W. et Bacchus, F. (1994). Learning bayesian belief networks : An
approach based on the MDL principle. Computational Intelligence, 10 :269294.
[Langley et al., 1992] Langley, P., Iba, W., et Thompson, K. (1992). An analysis of bayesian
classifiers. In (Ed.), W. R. S., editor, Proceedings of the 10th National Conference on Artificial
Intelligence., pages 223228, San Jose, CA,. The AAAI Press.
[Larraaga et al., 2000] Larraaga, P., Etxeberria, R., Lozano, J., et Pea, J. (2000). Combinatorial
optimization by learning and simulation of bayesian networks. In Proceedings of the Conference
in Uncertainty in Artificial Intelligence, UAI 2000, pages 343352.
[Larraaga et al., 1996] Larraaga, P., Kuijpers, C., Murga, R., et Yurramendi, Y. (1996). Learning
bayesian network structures by searching for the best ordering with genetic algorithms. IEEE
Transactions on Systems, Man, and Cybernetics, 26(4) :487493.
[Larraaga et Lozano, 2001] Larraaga, P. et Lozano, J. A. (2001). Estimation of Distribution
Algorithms : A New Tool for Evolutionary Computation (Genetic Algorithms and Evolutionary
Computation). Kluwer Academic Press.
[Larraaga et al., 2001] Larraaga, P., Lozano, J. A., et Bengoetxea, E. (2001). Estimation of distribution algorithms based on multivariate normal and gaussian networks. Technical Report
KZZA-1K-1-01, Department of Computer Science and Artificial Intelligence, University of
the Basque Country, Donostia, Spain.
200 / 229

BIBLIOGRAPHIE

[Larranaga et al., 1996] Larranaga, P., Poza, M., Yurramendi, Y., Murga, R., et Kuijpers, C. (1996).
Structure learning of bayesian networks by genetic algorithms : A performance analysis of
control parameters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 18(9) :912
926.
[Lauritzen et Speigelhalter, 1988] Lauritzen, S. et Speigelhalter, D. (1988). Local computations
with probabilities on graphical structures and their application to expert systems. Royal
statistical Society series B (Methodological), 50(2) :157224.
[Lauritzen, 1995] Lauritzen, S. L. (1995). The EM algorithm for graphical association models
with missing data. Computational Statistics & Data Analysis, 19(2) :191201.
[Lauritzen, 1998] Lauritzen, S. L. (1998). Graphical Models, volume 17 of Oxford Statistical Science
Series. Oxford Science Publications.
[Lauritzen et Wermuth, 1989] Lauritzen, S. L. et Wermuth, N. (1989). Graphical models for
associations between variables, some of which are qualitative and some quantitative. Annals

of Statistics, 17 :31U57.
[Leray, 2006] Leray, P. (2006). Rseaux Baysiens - Apprentissage et Modlisation de Systmes Complexes. Habilitation diriger des recherches, Institut National des Sciences Appliques de
Rouen.
[Lerner et al., 2001] Lerner, U., Segal, E., et Koller, D. (2001). Exact inference in networks with
discrete children of continuous parents. In Proceedings of the 17th Annual Conference on Uncertainty in Artificial Intelligence (UAI-01), pages 31932, San Francisco, CA. Morgan Kaufmann.
[Li et DAmbrosio, 1994] Li, Z. et DAmbrosio, B. (1994). Efficient inference in bayes nets as a
combinatorial optimization problem. International Journal of Approximate Reasoning, 11(1) :55
81.
[Lin, 1991] Lin, J. (1991). Divergence measures based on the shannon entropy. IEEE Transactions
on Information Theory, 37(1) :145151.
[Ling et Zhang, 2002] Ling, C. X. et Zhang, H. (2002). The representational power of discrete
bayesian networks. Journal of Machine Learning Research, 3 :709721.
[Lozano et al., 2006] Lozano, J. A., Larranaga, P., et Inza, I. (2006). Towards a New Evolutionary
Computation : Advances on Estimation of Distribution Algorithms (Studies in Fuzziness and Soft
Computing). Springer.
[MacKay, 1998] MacKay, D. J. C. (1998). Introduction to Monte Carlo methods. In Jordan, M. I.,
editor, Learning in Graphical Models, NATO Science Series, pages 175204. Kluwer.
[Madigan et York, 1995] Madigan, D. et York, J. (1995). Bayesian graphical models for discrete
data. Int. Stat. Rev., 63 :215232.
[Mahfoud, 1992] Mahfoud, S. W. (1992). Crowding and preselection revisited. In Parallel Problem
Solving from Nature 2, PPSN-II, Brussels, Belgium, pages 2736.
[Mahfoud, 1994] Mahfoud, S. W. (1994). Crossover interactions among niches. In Proceedings of
the First IEEE Conference on Evolutionary Computation, volume 1, pages 188193, Piscataway,
NJ. IEEE Service Center.
[Mahfoud, 1995] Mahfoud, S. W. (1995). Niching methods for genetic algorithms. PhD thesis,
University of Illinois at Urbana-Champaign, Urbana, IL, USA. IlliGAL Report 95001.
[Margaritis, 2005] Margaritis, D. (2005). Distribution-free learning of bayesian network structure in continuous domains. In AAAI, pages 825830.
201 / 229

BIBLIOGRAPHIE

[Martin et al., 1997] Martin, W. N., Lienig, J., et Cohoon, J. P. (1997). Island (migration) models : Evolutionary algorithms based on punctuated equilibria. In Handbook of Evolutionary
Computation., pages C6.3 :1C6.3 :16. Oxford University Press.
[Masek, 2003] Masek, L. (2003). Recognition of human iris patterns for biometric identification.
[Masek et Kovesi., 2003] Masek, L. et Kovesi., P. (2003). Matlab source code for a biometric
identification system based on iris patterns. Technical report, The School of Computer
Science and Software Engineering, The University of Western Australia.
[McCallum et Nigam, 1998] McCallum, A. et Nigam, K. (1998). A comparison of event models
for naive bayes text classification. In Proceedings of the AAAI/ICML-98 Workshop on Learning
for Text Categorization, pages 4148. AAAI Press.
[Meek, 1997] Meek, C. (1997). Graphical Models : Selecting causal and statistical models. PhD thesis,
Carnegie Mellon University.
[Meganck et al., 2006a] Meganck, S., Leray, P., Maes, S., et Manderick, B. (2006a). Apprentissage
des rseaux baysiens causaux partir de donnes dobservation et dexprimentation. In
Proceedings of 15me Congrs Francophone Reconnaissance des Formes et Intelligence Artificielle,
RFIA 2006, page 131, Tours, France.
[Meganck et al., 2006b] Meganck, S., Leray, P., et Manderick, B. (2006b). Learning causal bayesian networks from observations and experiments : A decision theoritic approach. In Proceedings of the Third International Conference, MDAI 2006, volume 3885 of Lecture Notes in Artificial
Intelligence, pages 5869, Tarragona, Spain. Springer.
[Meganck et al., 2007] Meganck, S., Leray, P., et Manderick, B. (2007). Causal graphical models
with latent variables : Learning and inference. In Ninth European Conference on Symbolic and
Quantitative Approaches to Reasoning with Uncertainty ECSQARU 2007, pages 516.
[Metropolis et al., 1953] Metropolis, N., Rosenbluth, A., Rosenbluth, M., Teller, A., et Teller, E.
(1953). Equation of state calculations by fast computing machines. Journal of Chemical Physics,
21 :10871092.
[Monro et al., 2007] Monro, D. M., Rakshit, S., et Zhang, D. (2007). DCT-based iris recognition.
IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(4) :586595.
[Mhlenbein, 1991] Mhlenbein, H. (1991). Evolution in time and space - the parallel genetic

algorithm. In Rawlins, G. J., editor, Foundations of genetic algorithms, page 316U337.


Morgan
Kaufmann, San Mateo, CA.
[Mhlenbein, 1998] Mhlenbein, H. (1998). The equation for response to selection and its use
for prediction. Evolutionary Computation, 5(3) :303346.
[Mhlenbein et PaaB, 1996] Mhlenbein, H. et PaaB, G. (1996). From recombination of genes to
the estimation of distributions. Lecture Notes in Computer Science : Parallel Solving from Nature
IV, 1411 :178187.
[Murphy, 2001] Murphy, K. (2001). The bayes net toolbox for matlab. Computing Science and
Statistics, 33 :331350.
[Murphy, 2003] Murphy, K. (2003). Active learning of causal bayes net structure. In Proceedings
of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,
pages 426435.
[Muruzbal et Cotta, 2004] Muruzbal, J. et Cotta, C. (2004). A primer on the evolution of
equivalence classes of bayesian-network structures. In PPSN VIII : Parallel Problem Solving
from Nature, 8th International Conference, Birmingham, UK, September 18-22,, pages 612621.
202 / 229

BIBLIOGRAPHIE

[Muruzbal et Cotta, 2007] Muruzbal, J. et Cotta, C. (2007). A study on the evolution of


bayesian network graph structures. Studies in Fuzziness and Soft Computing, 213 :193214,.
[Myers et al., 1999] Myers, J. W., Laskey, K. B., et De Jong, K. A. (1999). Learning bayesian
networks from incomplete data using evolutionary algorithms. In Banzhaf, W., Daida, J.,
Eiben, A. E., Garzon, M. H., Honavar, V., Jakiela, M., et Smith, R. E., editors, Proceedings of
the Genetic and Evolutionary Computation Conference (GECCO1999), volume 1, pages 458465,
Orlando, Florida, USA. Morgan Kaufmann.
[Nam et al., 2004] Nam, P., Wuillemin, P.-H., Leray, P., Pourret, O., et Becker, A. (2004). Rseaux
baysiens. Eyrolles, Paris.
[Nielsen et al., 2003] Nielsen, J. D., Kocka, T., et Pea, J. M. (2003). On local optima in learning
bayesian networks. In UAI 03, Proceedings of the 19th Conference in Uncertainty in Artificial
Intelligence, August 7-10 2003, Acapulco, Mexico, pages 435442.
[Parker, 2002] Parker, J. R. (2002). Genetic algorithms for continuous problems. In Advances
in Artificial Intelligence, 15th Conference of the Canadian Society for Computational Studies of
Intelligence, AI 2002, Calgary, Canada, pages 176184.
[Pearl, 1988] Pearl, J. (1988). Probabilistic Reasoning in Intelligent Systems : Networks of Plausible
Inference. Morgan Kaufmann, 1st edition.
[Pearl, 1997] Pearl, J. (1997). Probabilistic Reasoning in Intelligent Systems : Networks of Plausible
Inference. Morgan Kaufmann, 2nd edition.
[Pearl, 2000] Pearl, J. (2000). Causality : Models, Reasoning and Inference. Cambridge. University
Press, Cambridge, UK.
[Pearl et Verma, 1991] Pearl, J. et Verma, T. S. (1991). A theory of inferred causation. In Allen,
J. F., Fikes, R., et Sandewall, E., editors, KR91 : Principles of Knowledge Representation and
Reasoning, pages 441452, San Mateo, California. Morgan Kaufmann.
[Pelikan et al., 1999] Pelikan, M., Goldberg, D., et Cant-Paz, E. (1999). BOA :the Bayesian
Optimization Algorithm. In Banzhaf, W., Daida, J., Eiben, A., Garzon, M., Hovanar, J.,
Jakiela, M., et Smith, R., editors, Proceedings of the genetic and evolutionary computation conference
GECCO-99, volume 1, pages 525532, San Francisco, CA. Morgan Kaufmann.
[Perlman et Gillispie, 2001] Perlman et Gillispie (2001). Enumerating markov equivalence
classes of acyclic digraphs models. In Proceedings of the Seventeenth Conference on Uncertainty
in Artificial Intelligence, pages 171177.
[Proenca et Alexandre, 2007] Proenca, H. et Alexandre, L. (2007). Toward noncooperative iris
recognition : A classification approach using multiple signatures. IEEE Transactions on Pattern
Analysis and Machine Intelligence, 29(4) :607612.
[Proena et Alexandre, 2005] Proena, H. et Alexandre, L. A. (2005). Ubiris : A noisy iris image
database. In Proceedings of Image Analysis and Processing - ICIAP 2005, 13th International
Conference, Cagliari, Italy, September 6-8, 2005, pages 970977.
[Radcliffe, 1991] Radcliffe, N. J. (1991). Equivalence class analysis of genetic algorithms. Complex
Systems, 5(2) :183205.
[Radcliffe, 1992] Radcliffe, N. J. (1992). Non-linear genetic representations. In Parallel Problem
Solving from Nature 2, PPSN-II, Brussels, pages 261270.
[Rechenberg, 1970] Rechenberg, I. (1970). Optimierung technischer Systeme nach Prinzipien der
biologischen Evolution. PhD thesis, Technical University of Berlin, Berlin, Germany. (En
allemand).
203 / 229

BIBLIOGRAPHIE

[Richter et Paxton, 2005] Richter, J. N. et Paxton, J. (2005). Adaptive evolutionary algorithms


on unitation, royal road and longpath functions. In Computational Intelligence, pages 381386.
[Rish, 2001] Rish, I. (2001). An empirical study of the naive bayes classifier. In Proceedings of the
IJCAI-01 Workshop on Empirical Methods in Artificial Intelligence.
[Rissanen, 1978] Rissanen, J. (1978). Modelling by shortest data description. Automatica, 14 :465
471.
[Robert et Casella, 2004] Robert, C. P. et Casella, G. (2004). Monte Carlo statistical methods. Springer Texts in Statistics. Springer-Verlag, New York, second edition.
[Robinson, 1976] Robinson, R. (1976). Counting unlabeled acyclic digraphs. In Combinatorial
Mathematics V : Proceedings of the Fifth Australian Conference, held at the Royal Melbourne Institute
of Technology, 1976, pages 2843. American Mathematical Society.
[Romero et al., 2004] Romero, T., Larraaga, P., et Sierra, B. (2004). Learning bayesian networks
in the space of orderings with estimation of distribution algorithms. International Journal of
Pattern Recognition and Artificial Intelligence (IJPRAI), 18(4) :607625.
[Rudolph, 1994] Rudolph, G. (1994). Convergence analysis of canonical genetic algorithms.
IEEE Transactions on Neural Networks, 5(1) :96101.
[Sahami et al., 1998] Sahami, M., Dumais, S., Heckerman, D., et Horvitz, E. (1998). A bayesian
approach to filtering junk e-mail. In Papers from the AAAI-98 Workshop on Text Categorization,
pages 5562, Madison, WI.
[Saravanan et al., 1995] Saravanan, N., Fogel, D. B., et Nelson, K. M. (1995). A comparison of
methods for self-adaptation in evolutionary algorithms. BioSystems, 36 :157166.
[Schwartz, 1978] Schwartz, G. (1978). Estimating the dimensions of a model. The Annals of
Statistics, 6(2) :461464.
[Sebag et Ducoulombier, 1998] Sebag, M. et Ducoulombier, A. (1998). Extending populationbased incremental learning to continuous search spaces. In Parallel Problem Solving from

Nature- PPSN V, page 418U427,


Berlin. Springer-Verlag.
[Sebag et al., 1998] Sebag, M., Schoenauer, M., et Peyral, M. (1998). Revisiting the memory of
evolution. Fundamenta Informaticae, 35 :125162.
[Spiessens et Manderick, 1991] Spiessens, P. et Manderick, B. (1991). A massively parallel genetic algorithm : Implementation and first analysis. In Belew, R. et Booker, L., editors,
Proceedings of the Fourth International Conference on Genetic Algorithms, San Mateo, CA, page

279U286.
Morgan Kaufman.
[Spirtes et al., 1993] Spirtes, Glymour, et Scheines (1993).
Springer-Verlag.

Causation, Prediction and Search.

[Spirtes et al., 2000] Spirtes, Glymour, et Scheines (2000). Causation, Prediction and Search. (2d
ed.). The MIT Press, 2nd edition.
[Spirtes et Scheines, 1991] Spirtes, P. Glymour, C. et Scheines, R. (1991). An algorithm for fast
recovery of sparse causal graphs. Social Science Computer Review, 9(9) :6272.
[Spirtes et al., 1999] Spirtes, P., Meek, C., et Richardson, T. (1999). An algorithm for causal
inference in the presence of latent variables and selection bias. In Computation, Causation, and
Discovery, pages 211252. AAAI Press, Menlo Park, CA.
[Spirtes, 2001] Spirtes, R. (2001). An anytime algorithm for causal inference. In Proceedings of
the Conference on Artificial Intelligence and Statistics.
204 / 229

BIBLIOGRAPHIE

[Sun, 2006] Sun, Z. (2006). Casia-irisv3.


[Surry et Radcliffe, 1997] Surry, P. D. et Radcliffe, N. J. (1997). Real representations. In Belew,
R. K. et Vose, M. D., editors, Foundations of Genetic Algorithms 4, pages 343363. Morgan
Kaufmann, San Francisco, CA.
[Suzuki, 1996] Suzuki, J. (1996). Learning bayesian belief networks based on the minimum
description length principle : An efficient algorithm using the b & b technique. In International
Conference on Machine Learning, pages 462470.
[Tanese, 1989] Tanese, R. (1989). Distributed genetic algorithms. In Proceedings of the 3rd International Conference on Genetic Algorithms, George Mason University, Fairfax, Virginia, USA, June
1989, pages 434439.
[Thierens, 2002] Thierens, D. (2002). Adaptive mutation rate control schemes in genetic algorithms. Technical Report UU-CS-2002-056, Institute of Information and Computing Sciences,
Utrecht University.
[Tsamardinos et al., 2006] Tsamardinos, I., Brown, L. E., et Aliferis, C. F. (2006). The max-min
hill-climbing bayesian network structure learning algorithm. Machine Learning, 65(1) :3178.
[Turing, 1948] Turing, A. (1948). Intelligent machinery. In Meltzer, B. et Michie, D., editors,
Machine Intelligence, volume 5. Edinburgh University Press, Edinburgh.
[van Dijk et Thierens, 2004] van Dijk, S. et Thierens, D. (2004). On the use of a non-redundant
encoding for learning bayesian networks from data with a ga. In PPSN VIII : Proceedings of the
8th International Conference on Parallel Problem Solving from Nature, Birmingham, UK, September
18-22, pages 141150.
[van Dijk et al., 2003a] van Dijk, S., Thierens, D., et van der Gaag, L. (2003a). Building a ga from
design principles for learning bayesian networks. In Proceedings of the Genetic and Evolutionary
Computation Conference (GECCO 2003), pages 886897.
[van Dijk et al., 2003b] van Dijk, S., van der Gaag, L. C., et Thierens, D. (2003b). A skeletonbased approach to learning bayesian networks from data. In 7th European Conference on
Principles and Practice of Knowledge Discovery in Databases, Cavtat-Dubrovnik, Croatia, September
22-26, 2003, pages 132143.
[Vekaria et Clack, 1998] Vekaria, K. et Clack, C. (1998). Selective crossover in genetic algorithms : An empirical study. In PPSN V : Proceedings of the 5th International Conference on
Parallel Problem Solving from Nature, Amsterdam, The Netherlands, September 27-30, 1998, pages
438447.
[Verma et Pearl, 1990] Verma, T. et Pearl, J. (1990). Equivalence and synthesis of causal models.
In Proceedings of the Sixth Conference on Uncertainty and Artificial Intelligence, pages 220227.
M. Kaufmann.
[Whitley, 1991] Whitley, L. D. (1991). Fundamental principles of deception in genetic search.
In Proceedings of the First Workshop on Foundations of Genetic Algorithms. Bloomington Campus,
Indiana, USA, July 15-18 1990., pages 221241.
[Whitley, 1994] Whitley, L. D. (1994). A genetic algorithm tutorial. Statistics and Computing,
4 :6585.
[Wildes, 1997] Wildes, R. P. (1997). Iris recognition : an emerging biometric technology. Proceedings of the IEEE, 85(9) :12481363.
[Wolpert et Macready, 1995] Wolpert, D. H. et Macready, W. G. (1995). No free lunch theorems
for search. Technical Report SFI-TR-95-02-010, Santa Fe Institute, Santa Fe, NM.
205 / 229

BIBLIOGRAPHIE

[Wong et al., 1999] Wong, M., Lam, W., et Leung, K. S. (1999). Using evolutionary programming
and minimum description length principle for data mining of bayesian networks. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 21(2) :174178.
[Wong et al., 2002] Wong, M., Lee, S. Y., et Leung, K. S. (2002). A hybrid data mining approach
to discover bayesian networks using evolutionary programming. In Proceedings of the Genetic
and Evolutionary Computation Conference (GECCO 2002), pages 214222.
[Wright, 1921] Wright, S. (1921). Correlation and causation. Journal of Agricultural Research,
20 :557585.
[Wright, 1964] Wright, S. (1964). Stochastic processes in evolution. In Gurland, J., editor, Stochastic models in medecine and biology, pages 199241. University of Wisconsin Press, Madison,
WI.
[Yu et al., 2002] Yu, J., Smith, V. A., Wang, P. P., Hartemink, A. J., et Jarvis., E. D. (2002). Using
bayesian network inference algorithms to recover molecular genetic regulatory networks. In
International Conference on Systems Biology (ICSB02).
[Zaharie, 2004] Zaharie, D. (2004). A multipopulation differential evolution algorithm for multimodal optimization. In Matousek, R. et Osmera, P., editors, Proceedings of Mendel, 10th
International Conference on Soft Computing, Brno, june 2004, pages 1722.
[Zhang, 2006] Zhang, J. (2006). Causal Inference and Reasoning in Causally Insufficient Systems.
PhD thesis, Carnegie Mellon University.
[Zhang et al., 2006] Zhang, J., Huang, D.-S., Lok, T.-M., et Lyu, M. R. (2006). A novel adaptive
sequential niche technique for multimodal function optimization. Neurocomputing, 69(1618) :23962401.
[Zhang, 2003] Zhang, N. (2003). Structural EM for hierarchical latent class models. Technical
Report HKUST-CS03-06, Hong Kong University of Science & Technology.
[Zhigljavsky, 1991] Zhigljavsky, A. A. (1991). Theory of global random search. Kluwer Academic.

206 / 229

Annexe A

Probabilits et statistiques
A.1

Probabilits

Cette partie a pour objectif dintroduire les notions et proprits de la thorie des probabilits
employes dans nos travaux. Cette tude nest pas exhaustive et nous limitons volontairement
notre champ aux lments ncessaires la comprhension et la manipulation des modles
tudis. Cest pour cela que seules seront abordes les probabilits dfinies sur un espace discret
et fini. Soit , lespace des observables (appel aussi univers ou espace des vnements dans la
littrature), un ensemble fini non vide.
Dfinition 25 (tribu des vnements)
Soit A, un sous ensemble des parties de , A a une structure de tribu sil satisfait :
si A A alors son complmentaire Ac = \A est aussi dans A.
S
Soit une suite A1 , A2 , . . . , An finie et dnombrable dlments de A, leur runion n1 An est aussi
dans A.
Lensemble vide est dans A.
On appelle vnements les lments de A.
Dfinition 26 (probabilit) Soit un espace dobservables et une tribu dvnements A forme de
sous-ensembles de , on appelle probabilit une fonction P de A dans [0, 1] telle que :
Lvnement certain est de probabilit 1 : P() = 1.
Toute suite A1 , A2 , . . . , An dvnements de A, deux deux disjoints alors la srie

P(Ai )

i=1

converge et a pour somme P(

i1 Ai ).

On appelle alors espace de probabilits ou espace probabilis le triplet (, A, P).

207

ANNEXE A. PROBABILITS ET STATISTIQUES

Dfinition 27 (Variable alatoire) Soit {, A, P}, un espace probabilis et B la tribu des borliens de
R.
Une application :
(
{, A} {R, B(R)}
X:

X()
est appele variable alatoire (ou v.a.) sur {, A} si :
B B(R), (X B) implique X1 (B) A
Dans le cadre de notre tude, lespace de dfinition des variables est dnombrable et fini ; par
consquent, nous travaillerons par la suite avec des variables alatoires discrtes.
Dfinition 28 (loi dune variable alatoire discrte X)
p(x) = P( |X() = x)
Proprit 1
0 p(x) 1 x 0

x p(x)

P(X(A)) =

=1
P

xA p(x)

Dfinition 29 (probabilit jointe)


Soient X et Y deux variables alatoires dfinies sur le mme espace dvnements . On dfinit la
probabilit jointe PAB de ces deux v.a. par :

(, A) (, B) [0, 1]
PAB :
(a, b) 7 PAB (a, b) = P({ |A() = a B() = b})
Ce qui peut se gnraliser un ensemble X = {X1 , X2 , . . . , Xn } de n v.a. :

(, AXi ) [0, 1]
V
PX :
x = (x1 , x2 , . . . , xn ) 7 PX (x) = P({ | i1,...,n Xi () = xi })

A.1.1

Probabilits conditionnelles

Dfinition 30 (Probabilit conditionnelle)


Soit un espace probabilis {, A, P}, la probabilit conditionnelle P(A|B) dun vnement A conditionnellement un vnement B tel que P(B) > 0 est dfinie par :
P(A|B) =

P(A B)
P(B)

Si P(B) = 0 alors P(A|B) nest pas dfinie.


208 / 229

ANNEXE A. PROBABILITS ET STATISTIQUES

Proposition 1 (Rgle dinversion de Bayes)


Soit un espace probabilis {, A, P}, et A et B deux vnements de A tels que P(A) > 0 et P(B) > 0
alors :
P(B|A) P(A)
P(A|B) =
P(B)
Cette proprit est la base du procd dinfrence. En effet, si nous cherchons mesurer notre
incertitude quant une hypothse H en connaissant partir dune observation (ou ensemble
de donnes) o, nous pouvons crire :
P(H|o) =

P(o|H)P(H)
P(o)

P(H|o) est la probabilit a posteriori ;


P(H) est la probabilit a priori ;
P(o|H) est la vraisemblance de lobservation
;
P
P
P(o) est une constante telle que : h P(H = h|o) = 1 soit P(o) = h P(o|h)P(o).

Prenons lexemple suivant : soit une maladie M provoquant lapparition dun symptme A
chez 85% des personnes atteintes. Nous savons quune personne a une chance sur un million
dtre atteinte par M. Le symptme A, quant lui, est prsent chez 5% des patients visitant
le service mdical. La question est : quelle est la probabilit quune personne atteinte dune
symptme A souffre de la maladie en question ?
Soit M lvnement tre atteint de la maladie M et A lvnement prsenter le symptme A.
P(M|A) =

A.1.2

P(A|M)P(M) 0, 85 106
=
= 1, 7 105
P(A)
0, 05

Indpendances conditionnelles : dfinitions et mesures

Le calcul dune probabilit jointe sur un ensemble consquent de variables alatoires, mme
binaires, requiert un nombre exponentiel de calculs. Il convient alors de simplifier la dmarche
et pour cela, exploiter les indpendances conditionnelles sous-jacentes au domaine.
Dfinition 31 (Indpendance conditionnelle)
Soit un univers et un ensemble X de variables alatoires. Soient les sous ensembles X, Y et Z X. X
est indpendant de Y conditionnellement Z (ou (X y Y|Z)) si et seulement si X, Y et Z vrifient :
(
(X y Y|Z)

P(X|Y, Z) = P(X|Z)
et P(Y|X, Z) = P(Y|Z)

Dfinition 32 (Indpendance marginale)


Soit un univers et un ensemble X de variables alatoires. Soient les sous ensembles X et Y X tels
que (X y Y|Z)) :
(
x (, Ax ) avec P(x) 0, P(Y|X = x) = P(Y)
(X y Y|Z)
et y (, A y ) avec P(y) 0, P(X|Y = y) = P(X)
209 / 229

ANNEXE A. PROBABILITS ET STATISTIQUES

Cette dfinition signifie que la connaissance de la valeur prise par X, connaissant Z, napporte
aucune information quant celle prise par Y et inversement pour Y et X connaissant Z. Ceci
nous permet de retrouver les rsultats vus en 2.3.4. Lindpendance conditionnelle permet alors
la simplification de lcriture et du calcul de la loi jointe. Reprenons lexemple du diagnostic vu
prcdemment et adjoignons nos observations celle dun symptme B inputable lui aussi la
maladie M. On sait que, chez un patient atteint de la maladie M, le fait de souffrir du symptme
A ninflue en rien sur la survenue du symptme B. Donc P(B|M, A) = P(B|M) et ceci est aussi
vrai dans le cas o le patient ne souffre pas de la maladie M : P(B|M, A) = P(B|M). La probabilit
jointe P(M, A, B) peut alors scrire :
P(M, A, B) = P(B|A, M) P(A|M) P(M) = P(B|M) P(A|M) P(M)
Alors quavant la simplification lcriture de la probabilit jointe P(M, A, B) exigeait 23 1 entres,
la deuxime criture prenant en compte lindpendance conditionnelle (B y A|M) ne ncessite
plus que 2 + 2 + 1 entres.

A.2
A.2.0.1

Formules et notions lis lindpendance conditionnelle


Test du 2

Le test du 2 a plusieurs emplois possibles :


Test dadquation ;
Test dhomognit ;
Test dindpendance.
Nous nous intressons son emploi afin de dterminer si deux variables alatoires sont
indpendantes.
Soient deux variables alatoires discrtes XA et XB . Soient rA et rB , leurs cardinalits respectives. Soient Nab le nombre doccurrences observes dans la base dexemples D, constitue de
N cas, de {XA = a XB = b}. Na et Nb le nombre doccurrences observes de {XA = a} et {XB = b},
respectivement. Eab reprsente leffectif thorique des occurrences de {XA = a XB = b}.
Deux hypothses :
H0 : les deux variables XA et XB sont indpendantes et P(XA XB ) = P(XA ) P(XB ).
H1 : XA et XB ne sont pas indpendantes.
Le test quantifie la distance entre la frquence observable des vnements considrs et la
frquence hypothtique. Un seuil limite fait office de critre de validation de lhypothse H0
(en loccurrence les variables sont indpendantes).

2 =

X (N E )2
ab
ab
Eab

(A.1)

a,b

La statistique suit asymptotiquement N une loi du 2 (rA 1) (rB 1) degrs de libert :


lhypothse H0 est vrifie avec un seuil de confiance si et seulement si 2 < 2 (d f, 1 ).
210 / 229

ANNEXE A. PROBABILITS ET STATISTIQUES

Dans le cadre de ltablissement non plus dune indpendance entre deux variables mais
dune indpendance conditionnelle faisant intervenir une troisime variable alatoire XC , les
hypothses vrifier deviennent :
H0 : les deux variables XA et XB sont indpendantes conditionnellement XC .
H1 : XA et XB ne sont pas indpendantes conditionnellement XC .
Et la formule A.1 se rcrit :
2 =

X (N

Eabc )2
Eabc

abc

a,b,c

(A.2)

Avec Nabc le nombre doccurrences observes de {XA = a XB = b XC = c}. Nac et Nbc le


nombre doccurrences observes de {XA = a XC = c} et {XB = b XC = c}, respectivement.
N
N N
Eabc = NNac Nbc N1 = acN bc .

A.2.1

Entropie

Pour une variable alatoire XA dote dune distribution de probabilit P(XA ), lentropie de
XA sexprime par :
X
P(XA ) log(P(XA )) = E( log(P(XA )))
H(XA ) =
xa

Lentropie conditionnelle dune variable alatoire XA tant donn la valeur prise par une variable alatoire XB exprime la quantit dinformation ncessaire pour infrer XA partir dXB .

Entropie Croise
alatoires

Soit EC , lentropie croise de XA et XB tant donn XA ,XB et XC trois variables

EC (XA , XB |XC ) =

(P(XC )

X
xa ,xb

xc

P(XA , XB |XC )
P(XA , XB |XC ) log
P(XA |XC ) P(XB |XC )

Lentropie est bien entendu nulle quand il ny a pas dincertitude.


Ceci vrifie EC (XA , XB |XC ) = H(XA |XC ) H(XA |XB , XC ) et est aussi connu sous le nom dInformation Mutuelle : Im (XA , XB ).
Dmonstration 3 Dans le cas de trois variables alatoires, XA , XB et XC , nous avons :
XXX
H(XA |XC ) =
P(XA , XB , XC ) log(P(XA |XC ))
xa

H(XA |XB , XC ) =

xb

xc

XXX
xa

xb

P(XA , XB , XC ) log(P(XA |XB , XC ))

xc

211 / 229

ANNEXE A. PROBABILITS ET STATISTIQUES

donc linformation mutuelle I(XA , XB |XC ) vaut :


Im (XA , XB |XC ) =

XXX
xa

or,
P(XA |XB , XC ) =

xb

P(XA , XB , XC ) log(

xc

P(XA |XB , XC )
)
P(XA |XC )

P(xi , yj, zk ) P(xi , yj|zk )P(zk ) P(xi , yj|zk )


=
=
P(yj, zk )
P(yj|zk )P(zk )
P(yj|zk )

do

Im (X, Y|Z) =

n X
m X
l
X

P(xi , y j , zk ) log(

i=1 j=1 k=1

P(XC )

xa

P(XA , XB |XC )
)
P(XA |XC )P(XB |XC )

xb P(XA , XB |XC ) log(

xc

P(XA , XB |XC )
)
P(XA |XC )P(XB |XC )

Pour deux variables alatoires XA et XB , linformation mutuelle dpend la fois de XA et


de XB . Nous quantifions (conceptuellement) la quantit dinformation sur XB contenue dans
XA (et inversement, linformation tant symtrique, la quantit dinformation sur XA contenue
dans XB ).
Cette mesure permet de dfinir une sorte de distance entre la probabilit jointe P(XA , XB ) et le
produit de probabilits marginales P(XA ) P(XB ).
Si XA et XB sont indpendantes, alors P(XA , XB ) = P(XA ) P(XB ) et linformation mutuelle est
nulle.
Dans notre cas, nous nous intressons I(XA , XB |XC ). Cette expression nest nulle que si XA
et XB sont conditionnellement indpendantes, connaissant XC .

A.2.2

Rapport de vraisemblance

En lieu et place du test du 2 , on peut souhaiter employer le test du rapport de vraisemblance


aussi connu sous le nom de test du G2 .

G (XA , XB ) =
2

X
a,b

!
(Nab N
Nab log
.
Na Nb

(A.3)

Nous voyons ici que la valeur de G2 est proportionnelle celle de lentropie croise :
G2 (XA , XB ) = 2 EC (XA , XB ).
G2 suit alors une loi de distribution du 2 (ra 1)(rb 1)

(A.4)
cC rc

degrs de liberts.

212 / 229

ANNEXE A. PROBABILITS ET STATISTIQUES

A.2.3

Test de Mann-Whitney

Il sagit, la base, dun test statistique non-paramtr permettant de dterminer, avec un


certain degr confiance, sil existe une diffrence significative entre deux chantillons supposment indpendants (on dit aussi que ce test est un test didentit permettant de dterminer
si les deux chantillons sont issus dune mme distribution). Typiquement, on va chercher
dterminer si les valeurs dun chantillon sont significativement plus petites que celle dun
deuxime chantillon.
Le test de Mann-Whitney repose sur la mesure dun paramtre U, calcul en fonction des
rangs des diffrentes valeurs des deux ensembles, les unes par rapport aux autres. La distribution de U sous lhypothse H0 est connue (H0 : les deux chantillons ne sont pas homognes).
Il existe plusieurs manires de calculer U mais nous nen dtaillerons quune seule, simple.
Nous nous limitons au cas dchantillons de taille modeste, bien que des techniques dapproximation permettent de traiter le cas dchantillons de trs grande taille.
Le calcul de U seffectue comme suit :
Soit E1c le premier chantillon, de taille n1 dont on cherche dterminer si ses valeurs sont
significativement plus petites que celles contenues dans le deuxime chantillon, E2c , de taille
n2 :
Commencer par regrouper les valeurs issues des deux chantillons dans un seul ensemble,
Ec . Ordonner les valeurs de Ec (sans perdre leur origine) puis calculer R, la somme des rangs
occups par les valeurs issues de E1c dans Ec .
U vaut alors
U = n1 n2 +

n1 (n1 + 1)
R
2

(A.5)

La lecture de tables appropries permet alors, partir de la valeur de U de dterminer la


validit ou non de lhypothse nulle H0 .

A.3

Mesures de divergence entre deux distributions de probabilits

Il peut tre utile de pouvoir dfinir une notion de distance entre deux distributions de
probabilits dfinies sur un mme domaine. Cest ce que permettent les mesures introduites
dans cette section : les divergences de Kullback-Leibler et celle de Jensen-Shannon.

A.3.1

Divergence de Kullback-Leibler

Soit Xi une variable alatoire.


P et Q deux distributions de probabilits.

213 / 229

ANNEXE A. PROBABILITS ET STATISTIQUES

La divergence de Kullback-Leibler entre deux lois de distributions respectives P et Q est


dfinie par :
!
X
P(Xi )
KL(P||Q) =
P(Xi ) log
(A.6)
Q(Xi )
x
i

Les proprits de cette divergence sont les suivantes :


Non symtrique
gale zro si et seulement si P = Q
Si xi tel que P(xi ) > 0 et Q(xi ) = 0, alors la divergence est infinie
Lentropie de P vaut log(r) D(P||U) avec m, le nombre de cas contenus dans D et U, la
distribution uniforme.
la non-symtrie de la divergence de Kullback-Leibler ainsi que sa convergence vers +
si il existe xi tel que p(xi ) , 0 et q(xi ) = 0 rendent son emploi en tant que mesure de dissimilarit problmatique. On prfre souvent employer une extension de la -divergence
[El-Yaniv et al., 1997] :
D (P||Q) = KL(Pk|P + (1 )Q) + (1 )KL(Qk|P + (1 )Q)
Une extension particulire est dfinie pour =

A.3.2

1
2

(A.7)

: la divergence de Jensen-Shannon.

Divergence de Jensen-Shannon

Soit Xi une variable alatoire.


P et Q deux distributions de probabilits.
La divergence de Jensen-Shannon entre deux lois de distributions respectives P et Q est
dfinie par :

! X
!

2P(Xi )
2Q(Xi )
1 X

JS(P||Q) =
P(Xi ) log
+
Q(Xi ) log

2
P(Xi ) + Q(Xi )
P(Xi ) + Q(Xi )
xi

xi

Les proprits de cette divergence, comparativement celles de la divergence de KullbackLeibler sont les suivantes [Lin, 1991] :
symtrique ;
gale zro si et seulement si P = Q ;
borne par 1 ;
respecte lingalit triangulaire.

214 / 229

Annexe B

Analyse de texture
Lanalyse texturale sintresse la distribution spatiale des intensits dans limage.
Nous nous intressons particulirement ltude de la distribution des statistiques lordre
deux, telle quelle fut propose dans [Haralick et al., 1973].

B.1

Fondement

Linformation de texture, selon les travaux dHaralick, est contenue dans les relations spatiales entre les niveaux de gris. La reprsentation de ces diffrentes relations est tablie laide
dune matrice de cooccurrence. Lemploi de telles mthodes est rarement conseill dans le cadre
de la segmentation dimage et est plutt recommand pour lanalyse et la reconnaissance de
textures.
Nanmoins, lapproche par matrice de cooccurrence demeure populaire principalement du
fait que la reprsentation offerte par ces matrices est aisment apprhendable par lutilisateur
car elle reflte bien lapproche humaine didentification des textures.

B.1.1

Matrices de cooccurrence

Les matrices de cooccurrence servent reprsenter des relations spatiales dans un espace
dlimit suivant un angle et une distance donns.
Soit I, une image de dimensions (Nx , N y ) et dote de N g niveaux de gris.
Une matrice de cooccurrence sur une telle image et pour une relation spatiale r dfinie par
une direction et une distance d correspond une matrice de dimension N g N g dans laquelle
chaque coefficient Mi, j , i, j [0, . . . , N g 1[2 se calcule comme suit :

(x0 = x + dx ) (y0 = y + d y )

0
0
et
Mi,j = #{(x, y), (x , y )} tels que :

I(x, y) = i I(x0 , y0 ) = j I(x, y) = j I(x0 , y0 ) = i


215

ANNEXE B. ANALYSE DE TEXTURE

Avec :
I(x, y) le niveau de gris du pixel de I de coordonnes (x, y) ;
#{E}, notation dsignant le nombre doccurrences de lvnement E.
La matrice Mi,j retranscrit ds lors le nombre de fois o lon peut trouver, au sein de limage,
les transitions (I(x, y) = i ou j) et (I(x0 , y0 ) = i ou j) suivant r(, d).
La figure B.1 montre un exemple de matrice doccurrence partir dune image dote de
quatre niveaux de gris numrots de 1 4 et de dimensions 55.

Figure B.1 Exemple de matrice de cooccurrence suivant une direction de 0 et une distance de
1 pixel.

B.1.2

Caractristiques dHaralick

Haralick et al ont dfini 13 caractristiques calcules partir des matrices de cooccurrence.


Les quations permettant le calcul de ces caractristiques sont fournies dans le tableau B.2. Au
pralable, il convient de calculer un ensemble de statistiques, prsentes dans le tableau B.1.
Soit :
N g , le nombre de niveaux de gris de limage ;
x et y, les coordonnes du point considr ;
P(i, j), lentre de la matrice de cooccurrence correspondants aux niveaux de gris i et j.

216 / 229

ANNEXE B. ANALYSE DE TEXTURE

R =

Ng Ng
X
X

(ij) P(i, j)

(B.1)

i=1 j=1

P(i, j)
R
Ng
X
px (i) =
p(i, j)

p(i, j) =

(B.2)
(B.3)

j=1

p y (i) =

Ng
X

p(i, j)

(B.4)

i=1
Ng Ng

px+y (k) =

XX

p(i, j), (i + j = k),

k = 2, 3, . . . 2N g

(B.5)

p(i, j), |i j = k|,

k = 0, 1, . . . N g 1

(B.6)

i=1 j=1

pxy (k) =

Ng Ng
X
X
i=1 j=1

HXY =

Ng Ng
X
X


p(i, j)log p(i, j)

(B.7)



p(i, j)log px (i)p y (j)

(B.8)



px (i)p y ( j)log px (i)p y ( j)

(B.9)

i=1 j=1

HXY1 =

Ng Ng
X
X
i=1 j=1

HXY2 =

Ng Ng
X
X
i=1 j=1

HX =

Ng
X


px (i)log px (i)

(B.10)



p y (j)log p y ( j)

(B.11)

i=1
Ng

HY =

X
j=1

Tableau B.1 Statistiques employes dans le calcul des caractristiques dHaralick

217 / 229

ANNEXE B. ANALYSE DE TEXTURE

Second Moment Angulaire

f1 =

Ng Ng
X
X

p(i, j)2

(B.12)

k2 pxy (k)

(B.13)

i=1 j=1
N g 1

Contraste

Corrlation
Variance

f2 =

f3 =
f4 =

k=0
PN g PN g
(ij) p(i,
i=1
j=1

j) x y

x y
Ng Ng
X
X
(i )2 p(i, j)

(B.14)
(B.15)

i=1 j=1

Moment de diffrence inverse

f5 =

Ng Ng
X
X
i=1 j=1

Moyenne des sommes

f6 =

2N g
X

p(i, j)
1 + (i j)2

(B.16)

ipx+y (i)

(B.17)

(i f8 )2 px+y (i)

(B.18)

i=2
2N g

Variance des sommes

f7 =

i=2
2N g

Entropie des sommes

f8 =

px+y (i) log(px+y (i))


i=2
Ng Ng

(B.19)

Entropie

f9 =

XX

(B.20)

p(i, j) log(p(i, j))

i=1 j=1

Variance des diffrences

f10 = Var(pxy )

(B.21)

N g 1

Entropie des diffrences

f11 =

pxy (i) log(pxy (i))

(B.22)

i=0

Info. sur les mesures de corrlation

f12 =

Coefficient de corrlation maximale

f13 =

f9 HXY1
max(HX, HY)
q
1 exp2(HXY2 f9 )

(B.23)
(B.24)

Tableau B.2 quations correspondant aux 13 caractristiques dHaralick

218 / 229

Annexe C

Rsultats exprimentaux
Cette partie regroupe les rsultats obtenus lissue de tests visant dterminer les meilleurs
paramtrages pour les diffrentes mthodes dveloppes dans ce travail de thse. Lensemble
des tests, notamment les rglages de paramtres relativement triviaux tels que les probabilits
de croisement, de mutation ou encore la taille de la population pour lalgorithme panmictique
ne sauraient tre regroups ici mais nous avons cependant pens que le lecteur pourrait tre
intress par les rsultats obtenus selon les valeurs prises par certains paramtres.
Les paramtres concerns sont :
Algorithme stratgie de pnalisation : le nombre ditrations Iteopt effectues avant mmorisation puis pnalisation dune classe dquivalence ;
Algorithme stratgie de mmorisation : le coefficient par lequel sont multiplies les probabilits de mutation locales ;
Algorithme distribu : le nombre et la taille des populations considres.
Les diffrents rsultats ont t obtenus aprs 10 apprentissages sur des bases distinctes et
mesurs auprs dune unique base de 20000 cas.

C.1

Stratgie de pnalisation

Aprs quelques essais prliminaires, non reports ici, nous avons dcid de tester plusieurs
valeurs de Iteopt et ce dans le cadre de lapprentissage de la structure du rseau Insurance. Les
rsultats sont retranscrits dans le tableau, pour des valeurs de Iteopt allant de 10 30. Au del
de cet intervalle, les performances de lalgorithme savrent dgrades, y compris par rapport
la version simple, sans stratgie de pnalisation.
Les tests effectus ici lont t avec une population de 150 individus.
La qualit des solutions en termes de distance la structure dorigine et de scores permet
de dgager deux valeurs : 10 et 20. Sur la base de 250 cas, en particulier, une valeur de 10 pour
219

ANNEXE C. RSULTATS EXPRIMENTAUX

INSURANCE
250

500

1000

2000

Iteopt = 10

3189; 38, 6

-3089 ; 33,1

-2937; 30, 5

2862; 25, 1

Iteopt = 15

3194; 37, 7

3106; 33, 3

2951; 31, 2

2861; 27, 2

Iteopt = 20

-3176 ;37,0

3106; 34, 0

2969; 30, 8

-2856 ;24,4

Iteopt = 25

3193; 38, 3

3108;33,1

2947;30,0

2860; 27, 1

Iteopt = 30

3190; 38, 4

3098; 33, 8

2956; 31, 2

2860; 24, 6

Tableau C.1 Scores BIC moyens, diviss par 100 et arrondis, des structures obtenues pour le
rseau Insurance et nombre darcs diffrents de la structure recherche pour diffrentes valeurs
du paramtre Iteopt . Les scores affichs sont obtenus avec une base de 20000 cas dexemples de
test. Les meilleurs rsultats apparaissent en gras.
le paramtre Iteopt permet de recouvrir des rseaux trs performants en matire de score mais,
paradoxalement, les plus distants graphiquement du graphe dorigine.
Ceci signifierait, dans une moindre mesure, quune valeur de Iteopt trop petite entranerait
lapprentissage de rseaux trop spcialiss (situation de surapprentissage) en plus dun surcot
de calcul chaque itration due au parcours de la liste des optima connus. La valeur choisie
pour la suite de nos expriences a dont t de Iteopt = 20.

C.2

Stratgie dadaptation de la mutation

Nous testons ici trois valeurs possibles pour le coefficient employ dans lalgorithme 7.2 :
0,25
0,50
0,75
Les tests effectus ici lont t, comme prcdemment, sur lapprentissage de la structure du
rseau Insurance mais avec, ici, une population de 100 individus.
INSURANCE
= 0, 25

250

500

1000

2000

3207; 40, 5

3098;33,5

-2944 ;30,2

2894; 30, 2

= 0, 50

-3204; 40, 8

-3109; 34, 5

2966; 32, 3

2873;27,1

= 0, 75

3208;39,7

-3107; 33, 9

2950; 33, 3

2881; 29, 7

Tableau C.2 Valeurs moyennes, divises par 100 et arrondies des scores BIC des structures
obtenues pour le rseau Insurance pour diffrentes valeurs du paramtre et nombre darcs
diffrents de la structure recherch, pour des bases de tailles diffrentes (colonnes). Les scores
affichs sont obtenus avec une base de 20000 cas dexemples de test. Les meilleurs rsultats
apparaissent en gras.
Le tableau C.2 ne permet pas de distinguer clairement une valeur optimale pour le paramtre
. Aprs observation des diffrentes matrices de coefficients employes par cette mthode, il
savre que, du fait dune probabilit de mutation leve en conjugaison avec une population
220 / 229

ANNEXE C. RSULTATS EXPRIMENTAUX

assez nombreuse (150 individus), une valeur modeste de permet elle seule une chute rapide
des coefficients correspondant aux mutations dommageables. Inversement, le paramtre devant
tre assez lev non seulement pour pouvoir promouvoir une mutation intressante mais aussi
pour pouvoir inverser une tendance (une mutation dommageable par le pass mais bnfique
linstant t en cours) nous avons opt pour une solution intermdiaire avec la valeur = 0, 5.

C.3

Algorithme distribu

Lors de limplmentation de la version distribue de lalgorithme stratgie de pnalisation,


quatres paramtres supplmentaires restaient dterminer (cf section 6.3) :
lintervalle migratoire ;
le taux de migration ;
le nombre de populations ;
la taille des populations.
Nous avons test lapprentissage de la structure du rseau Insurance (cf chapitre 8) sur 10
bases dapprentissage diffrentes avant de moyenner les rsultats. Nous avons effectu les tests
avec les valeurs suivantes pour nos paramtres :
intervalle migratoire : gal 20 ou 40 itrations ;
taux de migration : gal 10% ou 30% ;
nombre de populations : de 10 30 populations avec un incrment de 10 ;
taille des populations : de 10 40 individus avec un incrment de 10.
Les rsultats suivants indiquent les scores obtenus, en moyenne, sur une unique base de
test de 20000 cas ainsi que la distance graphique (nombre darcs diffrents) moyenne entre les
rseaux obtenus et la structure dorigine.
Alors que les performances de lalgorithme sont croissantes avec le nombre et la taille des
sous-populations, en toute logique, les valeurs de lintervalle migratoire et du taux de migration
ne paraissent pas avoir un rle dcisif dans les performances de lheuristique. Afin de rduire
les calculs, nous avons choisi dtablir les paramtres 30 populations de 30 individus pour un
intervalle migratoire de 20 itrations et un taux de migration de 10%. Le choix de valeurs basses
pour ces deux derniers paramtres stant fait dune part sur la volont de pouvoir mettre en
place un certains nombre de mouvements dindividus au court dune instance et, dautre part,
sur le souhait de vouloir limiter limpact dune migration trop importante sur les populations
daccueil.

221 / 229

ANNEXE C. RSULTATS EXPRIMENTAUX

INSURANCE
250

500

1000

2000

Nb(pop) ;taille(pop)
10 ;10

3217; 41, 6

-3108; 35, 7

2978; 32, 7

2904; 30, 0

10 ;20

3226; 40, 7

3128; 36, 2

2972; 31, 3

2883; 28, 1

10 ;30

3219; 40, 6

3114; 35, 6

2972; 31, 6

2892; 28, 8

10 ;40

3218; 40, 0

3116; 34, 7

2971; 31, 1

2885; 27, 4

20 ;10

3213; 40, 6

3122; 35, 7

2993; 31, 0

2901; 28, 2

20 ;20

-3202; 38, 8

3114; 34, 4

2955; 32, 2

2865; 28, 2

20 ;30

3203;38,6

3124; 36, 0

2942; 31, 4

2857; 27, 4

20 ;40

3206; 39, 4

3110;33,4

2948; 31, 0

2859; 23, 9

30 ;10

3215; 40, 3

3123; 35, 8

2968;30,8

2872; 26, 6

30 ;20

3209; 40, 1

-3108 ;35, 4

2968; 32, 3

2859; 25, 8

30 ;30

-3202; 39, 4

3114; 34, 5

2936; 31, 1

2854; 25, 6

30 ;40

3208; 39, 3

3112; 34, 9

-2935; 32, 4

-2848 ;22,9

Tableau C.3 Scores BIC obtenus par lalgorithme distribu pour diffrentes tailles de bases
dapprentissage pour le rseau Insurance. Les scores des rseaux obtenus ont t calculs et
moyenns partir dune unique base de 20000 cas gnre par chantillonnage du rseau
dorigine. Les scores de ce tableau ont t obtenus pour une priode migratoire de 40 itrations
et un taux de migration de 10%. Les meilleurs rsultats apparaissent en gras.

INSURANCE
250

500

1000

2000

10 ;10

3228; 41, 1

3138; 37, 4

3014; 35, 0

2921; 30, 6

10 ;20

3220; 40, 0

3114; 36.5

2978; 33, 1

2905; 30, 9

10 ;30

3210; 39, 9

3128; 36, 0

2989; 32, 9

2875; 30, 3

10 ;40

3212; 40, 9

3120; 35, 1

2944; 32, 2

2890; 29, 2

20 ;10

3204; 39, 3

3136; 36, 8

2984; 32, 7

2914; 31, 5

20 ;20

3217; 40, 3

3126; 35, 5

2968; 31, 7

2865;25,2

20 ;30

3212; 40, 0

3117; 35, 1

2947; 31, 8

2865; 27, 6

20 ;40

3213; 40, 3

3116; 34, 0

2950; 31, 0

2861; 26, 9

30 ;10

3211; 40, 7

3120; 36, 1

2964; 31, 1

2884; 28, 8

30 ;20

3212; 40, 2

-3106; 34, 0

2970;30,8

2867; 25, 9

30 ;30

-3201; 38, 8

3111;33,9

-2933; 31, 8

2864; 26, 3

30 ;40

3206; 40, 1

3120; 36, 2

2936; 32, 1

-2859; 28, 3

Nb(pop) ;taille(pop)

Tableau C.4 Scores BIC obtenus par lalgorithme distribu pour diffrentes tailles de bases
dapprentissage pour le rseau Insurance. Les scores des rseaux obtenus ont t calculs et
moyenns partir dune unique base de 20000 cas gnre par chantillonnage du rseau
dorigine. Les scores de ce tableau ont t obtenus pour une priode migratoire de 40 itrations
et un taux de migration de 30%. Les meilleurs rsultats apparaissent en gras.

222 / 229

ANNEXE C. RSULTATS EXPRIMENTAUX

INSURANCE
250

500

1000

2000

10 ;10

3217; 40, 4

3134; 38, 0

2967; 32, 6

2895; 26, 9

10 ;20

3208; 39, 3

3131; 35, 2

2976; 33, 5

2884; 31, 0

10 ;30

3203; 39, 5

3115; 35, 1

2970; 31, 5

2869; 27, 3

10 ;40

3194; 37, 7

3117; 35, 6

2942; 32, 4

2863; 25, 8

20 ;10

3203; 39, 8

3120; 35, 2

2977; 32, 5

2884; 27, 8

20 ;20

3208; 39, 3

3112; 34, 8

2955; 31, 0

2868; 27, 5

20 ;30

3194;37,4

3097; 34, 5

2932; 29, 5

-2853; 25, 0

20 ;40

3207; 39, 1

3109; 34, 2

2934; 30, 1

2855; 25, 6

30 ;10

3202; 38, 6

3118; 34, 8

2938; 30, 2

2860; 25, 4

30 ;20

3197; 38, 3

3106; 34, 0

-2928; 29, 7

2857;24,8

30 ;30

-3193; 38, 1

-3104 ;33,3

2934;29,3

2860; 26, 6

30 ;40

3197; 38, 8

3107; 33, 7

-2928; 30, 9

2857; 26, 2

Nb(pop) ;taille(pop)

Tableau C.5 Scores BIC obtenus par lalgorithme distribu pour diffrentes tailles de bases
dapprentissage pour le rseau Insurance. Les scores des rseaux obtenus ont t calculs et
moyenns partir dune unique base de 20000 cas gnre par chantillonnage du rseau
dorigine. Les scores de ce tableau ont t obtenus pour une priode migratoire de 20 itrations
et un taux de migration de 10%. Les meilleurs rsultats apparaissent en gras.

INSURANCE
250

500

1000

2000

10 ;10

3226; 42, 0

3136; 37, 8

3003; 34, 4

2906; 30, 6

10 ;20

3217; 39, 3

3125; 37, 2

2966; 32, 5

2883; 28, 8

10 ;30

3208; 39, 8

3125; 35, 2

2966; 32, 2

2870; 27, 7

10 ;40

3201; 37, 8

3111; 34, 4

2956; 29, 9

2860; 26, 5

20 ;10

3216; 39, 5

3120; 37, 0

2999; 32, 6

2886; 28, 0

20 ;20

3208; 39, 6

3113; 34, 8

2965; 30, 9

2861; 26, 3

20 ;30

-3191; 37, 8

3110; 35, 6

2959; 30, 9

2875; 25, 9

20 ;40

3213; 39, 8

3117; 34, 7

2946; 32, 4

2858; 24, 8

30 ;10

3205; 38, 7

3117; 35, 0

2948; 31, 8

2880; 30, 3

30 ;20

3207; 38, 6

3104; 34, 4

2946; 30, 1

2862; 27, 8

30 ;30

3210; 39, 1

-3097 ;33,2

-2942 ;29,7

-2854 ;23,6

30 ;40

3208; 40, 0

3101; 33, 4

2936; 30, 9

2858; 24, 2

Nb(pop) ;taille(pop)

Tableau C.6 Scores BIC obtenus par lalgorithme distribu pour diffrentes tailles de bases
dapprentissage pour le rseau Insurance. Les scores des rseaux obtenus ont t calculs et
moyenns partir dune unique base de 20000 cas gnre par chantillonnage du rseau
dorigine. Les scores de ce tableau ont t obtenus pour une priode migratoire de 20 itrations
et un taux de migration de 30%. Les meilleurs rsultats apparaissent en gras.

223 / 229

Table des figures


2.1

Exemple de rseau baysien. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

2.2

Sparation inconditionnelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

2.3

Blocage conditionnel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

2.4

Conditionnement sur les convergences. . . . . . . . . . . . . . . . . . . . . . . . .

28

2.5

Distribution de probabilits P dfinie sur deux variables X et Y. . . . . . . . . . .

29

2.6

Carte dindpendances pour la distribution P. . . . . . . . . . . . . . . . . . . . .

30

2.7

Exemple de rseau baysien. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

4.1

Cas dindpendance conditionnelle indtectable graphiquement. . . . . . . . . .

46

4.2

Exemples dquivalence de Markov . . . . . . . . . . . . . . . . . . . . . . . . . .

61

4.3

V-structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

4.4

Structure et graphe essentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

4.5

Rseaux avec ou sans variable latente . . . . . . . . . . . . . . . . . . . . . . . . .

72

5.1

Schma gnral de fonctionnement dun algorithme gntique. . . . . . . . . . .

80

6.1

Exemple de rseau baysien et de la matrice dadjacence correspondante. . . . . 106

6.2

Exemple de croisement en un point. . . . . . . . . . . . . . . . . . . . . . . . . . . 109

6.3

Exemple de croisement slectif en plusieurs points. . . . . . . . . . . . . . . . . . 111

6.4

Exemple de cration de circuits par loprateur de croisement slectif. . . . . . . . 112

6.5

Exemples de lapplication de la distance de Hamming dans lespace des structures.114

6.6

Modle de populations en lots. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

8.1

Structure du rseau ASIA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137


224

TABLE DES FIGURES

8.2

Structure du rseau Insurance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

8.3

Structure du rseau ALARM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

8.4

Duels sur les scores BIC pour le rseau Insurance - 1. . . . . . . . . . . . . . . . . 155

8.5

Duels sur les scores BIC pour le rseau Insurance - 2. . . . . . . . . . . . . . . . . 156

8.6

Duels sur les distances ddition pour le rseau Insurance - 1. . . . . . . . . . . . 158

8.7

Duels sur les distances ddition pour le rseau Insurance - 2. . . . . . . . . . . . 159

8.8

Duels sur les scores BIC pour le rseau ALARM - 1. . . . . . . . . . . . . . . . . . 160

8.9

Duels sur les scores BIC pour le rseau ALARM - 2. . . . . . . . . . . . . . . . . . 161

8.10 Duels sur les distances ddition pour le rseau ALARM - 1. . . . . . . . . . . . . 162
8.11 Duels sur les distances ddition pour le rseau ALARM - 2. . . . . . . . . . . . . 163
8.12 Valeurs des fitness : Insurance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
8.13 Valeurs des fitness : ALARM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
9.1

Exemple de rseau baysien naf. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

9.2

Exemple de rseau baysien naf augment par un arbre. . . . . . . . . . . . . . . 176

9.3

Exemple dapproche par multi-nets pour un problme trois classes. . . . . . . . 177

9.4

Images diris issues de bases diffrentes. . . . . . . . . . . . . . . . . . . . . . . . . 179

9.5

Cercle des corrlations entre les caractristiques dHaralick. . . . . . . . . . . . . 180

9.6

Matrices de confusion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

9.7

Matrices de confusion (taux). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

9.8

Image dun iris pour lequel la segmentation a chou. . . . . . . . . . . . . . . . . 183

9.9

Image dun iris pour lequel la segmentation a russi. . . . . . . . . . . . . . . . . 184

B.1 Exemple de matrice de cooccurrence. . . . . . . . . . . . . . . . . . . . . . . . . . . 216

225 / 229

Liste des tableaux


8.1

Scores BIC pour lapprentissage du rseau ASIA. . . . . . . . . . . . . . . . . . . . 144

8.2

Diffrences structurelles pour lapprentissage du rseau ASIA. . . . . . . . . . . . 145

8.3

Divergences de Jensen-Shannon pour lapprentissage du rseau ASIA . . . . . . 145

8.4

Scores BIC pour lapprentissage du rseau Insurance. . . . . . . . . . . . . . . . . 148

8.5

Diffrences structurelles pour lapprentissage du rseau Insurance. . . . . . . . . 149

8.6

Scores BIC pour lapprentissage du rseau ALARM. . . . . . . . . . . . . . . . . . 151

8.7

Diffrences structurelles pour lapprentissage du rseau ALARM. . . . . . . . . . 152

8.8

Temps dexcution pour ASIA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

8.9

Temps dexcution pour Insurance. . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

8.10 Temps dexcution pour ALARM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 169


8.11 Nombre moyen ditrations avant obtention du meilleur individu. . . . . . . . . 170
8.12 Taux de rparations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
B.1 Statistiques employes dans le calcul des caractristiques dHaralick . . . . . . . 217
B.2 quations correspondant aux 13 caractristiques dHaralick . . . . . . . . . . . . 218
C.1 Scores BIC pour diffrentes valeurs de Iteopt . . . . . . . . . . . . . . . . . . . . . . . 220
C.2 Scores BIC pour diffrentes valeurs de . . . . . . . . . . . . . . . . . . . . . . . . . 220
C.3 Scores BIC pour un taux migratoire de 10% et une priode migratoire de 40
itrations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
C.4 Scores BIC pour un taux migratoire de 30% et une priode migratoire de 40
itrations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
C.5 Scores BIC pour un taux migratoire de 10% et une priode migratoire de 20
itrations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

LISTE DES TABLEAUX

C.6 Scores BIC pour un taux migratoire de 30% et une priode migratoire de 20
itrations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

227 / 229

Rsum :
Dans ce travail de thse, nous proposons dtudier le problme de lapprentissage de la structure dun rseau baysien par un ensemble de mthodes volutionnaires. Aprs avoir conu
un algorithme gntique parcourant lespace des structures, nous avons labor diffrentes
techniques visant amliorer les performances de cet algorithme. Nous avons ainsi dvelopp
une stratgie de parcours visant exploiter les proprits de lespace des graphes essentiels
travers un mcanisme de niching squentiel, mcanisme que nous tendons par une hybridation
avec une modlisation en lots. Une autre mthode dfinit une distribution de probabilits sur
les oprations de mutation appliques la population, dtermine par la qualit des individus
modifis.

Mots cls :
rseaux baysiens, algorithme gntique, apprentissage de structure, dtection de liris,
caractristiques de texture dHaralick.

Abstract :
In this thesis, we propose a study of the problem of learning the structure of a bayesian network through the use of evolutionary methods. We first designed a genetic algorithm to search
the space of structures before establishing various strategies aiming at improving the performances of this algorithm. We consequently developed a search strategy aiming at exploiting
the properties of the space of completed partially oriented graphs using a sequential niching
principle which we later hybridized with an island model scheme. Another method defines a
distribution probability over the mutation operations which are applied to the individuals and
that is a function of the qualitative results of previously applied operations.

Keywords :
bayesian networks, genetic algorithms, structure learning, iris detection, Haralick texture
features.

Universit Franois-Rabelais de Tours, Laboratoire dInformatique, EA 2101, quipe Reconnaissance des Formes et Analyse de lImage (http://www.li.univ-tours.fr). PolytechTours,
Dpartement Informatique, 64 Avenue Jean Portalis, 37200 Tours (http://www.polytech.
univ-tours.fr).

S-ar putea să vă placă și