Documente Academic
Documente Profesional
Documente Cultură
TOURS
FRANOIS
RABELAIS
JURY :
T BROUARD
H CARDOT
P LERAY
J LOPEZ KRAHE
M` SEBAG
Examinateur
Directeur de thse
Rapporteur
Examinateur
Rapporteur
UNIVERSIT
TOURS
FRANOIS
RABELAIS
JURY :
T BROUARD
H CARDOT
P LERAY
J LOPEZ KRAHE
M` SEBAG
Examinateur
Directeur de thse
Rapporteur
Examinateur
Rapporteur
Remerciements
Je tiens remercier en premier lieu, pour la place quils ont eu dans ces annes de travail,
Hubert Cardot et Thierry Brouard. Je les remercie de la libert de choix et de recherche quils
mont laiss tout en sachant me guider une fois mes choix dcids. Je tiens aussi par ailleurs
mexcuser auprs deux pour les relectures, nombreuses, et certainement pas toujours agrables
tant donn mon amour des grandes phrases.
Je tiens aussi remercier mes rapporteurs. Philippe Leray, pour avoir su, que ce soit directement ou indirectement, me conseiller et mavoir fait dcouvrir le domaine des rseaux
baysiens. Je ne pense pas tre le seul dans ce cas tant donn la popularit grandissante des
rseaux baysiens dans nos provinces. Merci, de mme, Michle Sebag pour ses remarques
concernant les diffrents points de mon travail autour des mthodes volutionnaires et avoir
su partager son exprience. Le travail final en a t grandement amlior.
Mes parents, bien sr. Cest vident, bien sr, mais cest vous que je dois den tre l. Entre
les encouragements, le toit et les repas chauds ainsi que les coups de pieds souvent mrits,
vous avez t l du dbut la fin et il faudrait tre le dernier des ingrats pour ne pas en rendre
compte. Du dbut la fin, chaque galre, chaque moment difficile, vous tiez l. De l
penser que vous me portez la poisse... Ma famille, en gnral, et ma tante Nadia pour mavoir
toujours laiss une gamelle chauffer deux heures du matin, quand les barres du distributeur
ne suffisaient plus.
Maintenant, la partie dsopilante. La section des remerciements aura constitu pour moi
une des parties les plus problmatiques rdiger. Qui doit y figurer ? Dans quel ordre et
surtout, aurais-je oubli quelquun ? Dois-je dcevoir mon public qui sattend une avalanche
de gags et de calembours en une fusion miraculeuse dun almanach Vermot et dune section de
remerciements traditionnelle, du genre tirer des larmes un parpaing ?
Usuellement constitue dun dfil de sobriquets ridicules voquant une vie sociale depuis
longtemps moribonde et de rfrences appuyes dinterminables nuits de travail, illustrant la
pathtique mais virile nostalgie digne dune chambre militaire des heures fiches en lair sur
des sujets striles, la page des remerciements est traditionnellement un manuscrit de thse ce
que les ds en mousse sont une voiture.
Quand des annes censes tre les plus intenses dune existence ne semblent avoir connu
comme sommets que de tristes soires tartiflettes passes devant une empoignade tlvise de
sombres nanderthaliens en short avec des gens dont on ignore pour la plupart les prnoms,
on se fait rapidement une ide de la qualit de vie allant de pair avec les tudes longues.
Mais puisquil faut en passer par l, allons-y.
6
mes amis, Mathieu, Guillaume, Clment, Christophe, Ludo... Merci pour avoir support
mon sale caractre et mon cynisme meurtrier. Mes dpressions nauraient pas t les mmes
sans vous. Plus srieusement, il est du domaine public que jai un caractre de cochon mais je
sais que les amis, ce sont les gens encore l aprs que lon se soit comport comme un crtin.
Les compagnons de galre du labo : Stphane, le trio Julien O., Julien M. et Ludo P.(les
grands musiciens sont ceux aux carrires les plus courtes, je vous souhaite de rester petits),
Sbastien D.(lve le pied et dors un peu, ce point-l a relve du masochisme), Rashid (celuiqui-ne dors-jamais, ou rarement), Lamia (pour les nuits de rdaction et pour tre toi-mme, tout
simplement), Geoffrey, les Mathieus, Cdric, David, Arnaud, et les dizaines dautres doctorants
passs ou prsents. Merci en particulier Sbastien Aupetit pour son aide sur le domaine des
algorithmes volutionnaires. Je naime pas expdier ainsi de ce que je ne saurais considrer
comme une "tche" mais il me faudrait trop de pages pour vous remercier chacun et chacune
la hauteur du/des service(s) rendu(s). Et Raoni me ferait un procs, en plus.
Les doctorants "extrieurs" (bah !) : Olivier Franois pour son travail sur la BNT et les rseaux
baysiens mais aussi les conseils et tout le reste, Sabine Barrat pour mavoir montr que mon
travail pouvait effectivement servir dautres personnes, Nicolas Marti pour... euh, pour les
Martineries, Cheng-Ma pour mavoir aid dcouvrir une culture qui me fascine toujours, et
l aussi beaucoup dautres.
Les personnes travaillant au laboratoire dinformatique de luniversit de Tours, bien sr.
Merci tous ceux qui auront pris le temps, parfois, de passer mon bureau juste pour me
demander comment a allait. Ce nest pas grand-chose mais, au final, a compte. Merci bien
sr aux membres de mon quipe, lquipe RFAI mais aussi tous ceux des autres quipes pour
mavoir donn le coup de main quand jen avait besoin et ce, parfois, avant mme que je ne
commence ma thse. Un norme et franc merci Jean-Charles Billaut, Ameur Soukhal, Vincent
Tkindt, Christophe Lent, Mohand Slimane et en gnral tous ceux qui ont pris le temps.
Et je noublie pas les IATOS sans lesquels on nirait pas bien loin. Un merci spcial Colette,
qui sarrange toujours pour que les trains partent lheure et que tous les papiers soient bien
signs.
Et merci, bien sr, Christian Proust pour avoir permis que tout cela soit possible.
Ah oui, merci aussi Georges, Brad et Angelina pour cette dlicieuse soire au Georges V.
Et un grand, un immense merci tous ceux qui ny ont pas cru (ils se reconnatront). Vous
suprendre aura t une belle motivation pour aller au bout.
Enfin, je concluerai en prcisant que la liste des personnes que je remercie ne saurait tre
exhaustive ; pirouette lgante qui mvitera de me morfondre, une fois que ce travail sera
imprim et dment reli, lorsque je me rendrai compte que jaurai oubli quelquun dimportant.
Introduction
15
1.1
17
1.2
Guide de lecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
tat de lart
21
Rseaux baysiens
23
2.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
2.2
Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.3
25
2.3.1
26
2.3.2
d-sparation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.3.3
Cartes dindpendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
2.3.4
30
2.4
31
2.5
32
2.6
Infrence probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
2.7
33
2.8
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
37
3.1
37
Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2
3.3
38
3.2.1
Approche frquentiste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
3.2.2
Approche baysienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
3.2.3
Diffrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
42
3.3.1
Approche frquentiste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
3.3.2
Approche baysienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
Apprentissage de structures
45
4.1
Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
4.1.1
Cadre thorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
4.1.2
Cadre pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
48
4.2.1
Algorithmes PC et IC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
4.2.2
Algorithme BNPC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
4.2.3
Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
4.3
Fonctions dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
4.4
59
4.4.1
59
4.4.2
Algorithme K2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.4.3
60
4.4.4
61
4.4.5
Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
4.4.6
Mthodes hybrides . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
66
4.5.1
67
4.5.2
Mthodes volutionnaires . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
Problmatiques particulires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
4.6.1
70
4.2
4.5
4.6
9 / 229
4.6.2
70
4.6.3
72
Algorithmes gntiques
77
5.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
5.2
79
5.2.1
80
5.2.2
Oprateurs phnotypiques . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
5.2.3
Oprateurs gnotypiques . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
5.2.4
84
tude thorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
84
5.3.1
84
5.3.2
Critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
88
5.4.1
88
5.4.2
91
5.4.3
Techniques de niching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
5.4.4
97
5.5
98
5.6
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.3
5.4
105
6.1.2
6.1.3
6.1.4
6.1.5
6.2
6.3
6.2.2
6.2.3
6.2.4
6.3.2
125
7.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
7.2
7.3
Exprimentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Exprimentations
8.1
135
8.1.2
8.1.3
8.1.4
8.2
8.3
8.4
8.5
8.6
8.5.1
8.5.2
Performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
8.6.2
8.7
III
9
8.6.3
8.6.4
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
175
9.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9.2
9.2.2
9.2.3
Multi-nets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
9.3
9.4
9.5
9.4.1
9.4.2
9.5.2
9.6
9.7
Implmentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
9.7.1
9.8
IV
173
Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
Conclusions et perspectives
187
10 Conclusion
189
11 Perspectives
191
Bibliographie
193
12 / 229
A Probabilits et statistiques
207
215
B.1.2
C Rsultats exprimentaux
219
13 / 229
Chapitre 1
Introduction
La recherche sest depuis longtemps penche sur la restitution ou du moins la simulation
du fonctionnement de lesprit humain. Lune des tentatives les plus reconnues est celle visant
pouvoir simuler le processus dapprentissage de ltre humain de manire automatique
travers un systme thorique. Ce systme devant alors tre apte apprendre par lexprience
et, par voie de consquence, samliorer dans lexcution de la tche qui lui a t confie.
Lobjectif que nous venons dnoncer est le principe gnral de la discipline que lon nomme
machine learning. Sous cette dnomination se retrouve effectivement un ensemble de mthodes
et de modles dont lobjectif est de pouvoir extraire et intgrer une connaissance par la voie de
lapprentissage automatique.
Ltendue du champ dapplication des modles graphiques est aussi vaste que la taxonomie
sy rapportant. Si les modles dirigs sapprtent lassistance au diagnostic et linfrence,
dautres modles (semi-dirigs ou non dirigs) ont t dvelopps mesure du temps et des
besoins afin de pouvoir, par exemple, sappliquer la segmentation dimages, au filtrage de
signal, etc.
Lintrt dun modle et de lapprentissage en gnral est dobtenir un systme certes capable
de se perfectionner travers sa propre exprience mais aussi apte sadapter des situations
diffrentes. Pour prendre un exemple simple, lexprience que lon peut avoir en travaillant dans
linformatique peut servir, loccasion, dpanner un appareil lectronique. Cette adaptation
de nouvelles situations partir de lacquis est aussi une des caractristiques de lhumain.
Les objectifs ont volu. Par-del la simple mulation de la cognition humaine, les modles et
mthodes du machine learning ont aujourdhui russi rassembler en leur sein des systmes
dont les objectifs peuvent tre aussi divers que :
extraire une connaissance trop complexe pour pouvoir tre dcrite par un expert ;
aider lexpert en lui apportant une connaissance simplifie ou non du domaine ;
inversement, pouvoir intgrer une connaissance experte un domaine ;
tre capable, par un apprentissage incrmental, de restituer le mcanisme sous-jacent
lobjet modlis ;
offrir un formalisme universel afin de faciliter la transmission de la connaissance acquise ;
...
Le domaine du machine learning a considrablement volu depuis le milieu du XXe sicle,
aussi bien travers les modles, depuis les champs de Markov cachs jusquaux machines
15
CHAPITRE 1. INTRODUCTION
vecteurs de support, qu travers ses nombreuses applications allant de lapplication industrielle et commerciale jusquaux applications militaires, laide la vie courante sous forme
lectronique ou encore le diagnostic mdical.
Conus pour pouvoir prendre en charge les problmes comportant la notion dincertitude,
les rseaux baysiens apportent la fois une interface intuitive sous la forme dun graphe
orient et un ensemble de mthodes permettant dexploiter au mieux la connaissance extraite
quils modlisent. Par consquents, les rseaux baysiens se sont peu peu imposs parmi
les diffrents modles probabilistes existants. Si les rseaux baysiens ont t connus principalement grce aux travaux de Judea Pearl [Pearl, 1988] et Michael Jordan [Jordan, 1998], les
premires bauches de ces modles remontent au dbut du XXe sicle avec les travaux de S.
Wright [Wright, 1921].
De toutes les problmatiques gravitant autour des rseaux baysiens, la dtermination du
modle mme est la plus cruciale et la plus tudie. Si la dtermination complte dun rseau
baysien ou de tout modle en gnral par un expert parat tre la solution la plus simple, il
en est hlas autrement. Dune part, une telle dtermination est coteuse en temps et en moyens.
Il est rare de pouvoir promptement dterminer un modle fiable dun domaine constitu de
nombreuses variables. Dautre part, le modle obtenu par apprentissage constitue lui-mme,
dans certains cas, la solution recherche. On peut ainsi souhaiter dterminer les interactions
entre diffrents allles dun gne et donc, partir dune base dexemples, chercher le modle
refltant au mieux ces relations. Dans ce cas, la rponse (le modle) est partie intgrante du
problme et un expert ne pourrait rpondre au besoin.
Diverses mthodologies ont t dveloppes dans le but de permettre un apprentissage
automatique des constituants dun rseau baysien : mthodes dterminant des relations probabilistes partir de tests dindpendance statistique, mthodes lisant le meilleur modle
partir dun ensemble de candidats ou encore recherche de la meilleure classe dquivalence.
En loccurrence, un type populaire dheuristique dapprentissage pouvant se prter un tel
exercice est lensemble des mthodes dites volutionnaires et plus particulirement les algorithmes gntiques. Issus, dans leur forme actuelle, des travaux de J. H. Holland [Holland, 1975]
dans les annes soixante-dix, les algorithmes gntiques partagent avec les rseaux baysiens
un facteur dattrait non ngligeable en ce que leur fonctionnement est intuitif et aisment assimilable. Inspirs des thories de Darwin et de lide de slection naturelle, leur principe de
slection bas sur la qualit dun individu en fait un type dheuristique visant une performance
individuelle tout en tant capables, la diffrence dheuristiques exactes, de faire une synthse
des rsultats. Un comportement tout fait comparable aux objectifs du machine learning. Les
algorithmes gntiques font de plus, depuis un certain nombre dannes, lobjet de plusieurs
tudes visant les sortir du carcan formaliste les restreignant jusqualors un simple schma
dexploration stochastique/exploitation. Ces tudes mettent surtout en relief limportance de
la reprsentation des solutions ou la possibilit dautomatiser les paramtres de recherche de
lalgorithme.
Nous proposons ici dtudier le comportement et les performances dun tel algorithme gntique lors de lapprentissage de la structure dun rseau baysien. Nous mettrons en vidence
les qualits et les dfauts respectifs des diffrents outils et mthodes dvelopps et employs.
Comme cela est souvent le cas dans la littrature, nous nous sommes fixs pour objectif de
parvenir retrouver une structure connue partir de bases dexemples pralablement chan16 / 229
CHAPITRE 1. INTRODUCTION
tillonns. Nous avons aussi observ le comportement et les performances de rseaux baysiens
appliqus la classification dans le cadre spcifique de la reconnaissance de formes.
1.1
la lecture de la littrature, il savre que les travaux effectus sur lemploi de mthodes
volutionnaires pour lapprentissage de la structure des rseaux baysiens se sont, pour la
plupart, limits lapplication dun algorithme gntique sous sa forme canonique sur un espace pralablement restreint ou bien lespace des structures laide doprateurs eux-mmes
restreints. Lobjectif de notre travail est de dterminer, travers plusieurs approches, si les
dveloppements ultrieurs des processus volutionnaires sont mme dapporter un rel bnfice une telle approche du problme. Une premire approche, consistant en une mthode
de niching squentiel adapte, exploite les proprits de lespace des graphes reprsentants
des classes dquivalence des structures [Delaplace et al., 2007a, Delaplace et al., 2007b]. Une
volution de cette mthode, conjuguant laspect temporel des mthodes squentielles une
recherche rpartie dans lespace des solutions, applique le mme principe une population
rpartie en lots. Enfin, une autre mthode, amliorant et prcisant les premiers principes de
mutation dynamique appliqus notre problme et exposs dans [Delaplace et al., 2006], modlise une distribution de probabilits pour les diffrentes oprations de mutation applicables
aux structures volues ; distribution rvalue en fonction des rsultats observs au cours des
phases successives de mutation.
1.2
Guide de lecture
Dans un premier temps, travers ltat de lart, nous aborderons le thme des rseaux
baysiens. Nous prsenterons les caractristiques de cette modlisation avant de voir quelles
sont les principales mthodes dapprentissage des paramtres avant daborder les mthodes
existantes dapprentissage des paramtres dun rseau baysien partir dune base de cas.
Dans une deuxime partie, nous prsenterons les diffrentes stratgies dveloppes dans le
cadre de nos travaux. Nous introduirons une adaptation des techniques de niching squentielles
lapprentissage de structure ainsi quune extension de cette mthode par une distribution des
individus dans lespace. Dans le chapitre suivant, une mthode permettant une adaptation de
loprateur de mutation en fonction des rsultats prcdemment obtenus sera prsente. Les
exprimentations et rsultats obtenus laide de ces mthodes ainsi quun comparatif avec les
principales mthodes de recherche de structure par valuation existantes seront prsentes dans
le chapitre 8. Enfin, nous prsenterons une application des rseaux baysiens la reconnaissance
de formes et plus particulirement la segmentation de liris sur des photographies dil
humain.
Nous terminerons ce document par une discussion autour des rsultats de nos mthodes en
dtaillant les conclusions que nous avons pu tirer de nos recherches et exprimentations.
En fin de document, outre la bibliographie regroupant les diffrentes rfrences, le lecteur
pourra trouver une annexe contenant les principaux rappels quant certaines notions em17 / 229
CHAPITRE 1. INTRODUCTION
ployes dans nos travaux. Parmi celles-ci se trouvent quelques notions de probabilits, une
description de certaines techniques de caractrisation de textures employes dans le chapitre
ddi la classification ainsi que les rsultats de tests que nous avons effectus dans le cadre
du paramtrage de nos algorithmes.
18 / 229
Notations
Notations gnrales
Rseau baysien, B = (G, ).
Indiffremment, variable alatoire ou sommet associ dans un graphe.
Dimension de la variable Xi .
ke instanciation de la variable alatoire Xi , k 1 . . . ri .
Liste des ri instanciations de Xi dans D.
ke lment de Vi .
Ensemble de n variables alatoires {X1 , X2 , . . . Xn }.
Base de cas issus du domaine U, constitue de N cas.
Ensemble des paramtres dun rseau baysien B.
Ensemble des paramtres de la variable Xi .
Paramtres de la variable Xi lorsque i = ij et Xi = xki .
Valeur prise par la variable Xi dans le le cas de la base D.
Ensemble des sommets parents du sommet Xi dans un graphe orient
G.
ij
je instanciation de i .
Q
qi
Nombre dinstanciations distinctes de i , qi = rh , h : Xh i .
Nijk
Nombre de cas, dans la base D, o Xi = xki alors que i = i j .
Gi G j
Relation dquivalence au sens de Markov entre les structures Gi et G j
Notations probabilistes
P
Mesure de probabilits
(. y .)
Relation dindpendance marginale.
(. y .|.)
Relation dindpendance conditionnelle.
Notations graphiques
G
Graphe orient sans circuit constitu de n sommets {X1 , X2 , . . . , Xn }.
V
Ensemble des n sommets {X1 , X2 , . . . , Xn } dun graphe G.
E
Ensemble des arcs dun graphe orient G.
Ad jG (X)
Ensemble des sommets de G directement relis au sommet X.
XY
Les sommets X et Y sont relis par une arte.
XY
Les sommets X et Y sont relis par un arc allant de X vers Y.
(. d .|.)
Relation de d-sparation dans un graphe G.
SepSetG (X, Y) Ensemble de sommets d-sparant les sommets X et Y dans le graphe G
B
Xi
ri
xki
Vi
vik
U
D
i
ijk
(l)
Di
i
19
Abrviations
Les abrviations employes :
Notation
GOSC
GPOSC
GE
PAG
PAG
EDA
EP
ES
GP
Dfinition
Graphe Orient Sans Circuit.
Graphe Partiellement Orient Sans Circuit.
Graphe Essentiel.
Partial Directed Acyclic Graph : graphe sans circuit partiellement orient.
Partial Ancestral Graph : Graphe complet partiellement ancestral.
Estimation of Distribution Algorithm : algorithme estimation de densit.
Evolution Programming : programmation volutionnaire.
Evolution Strategies : stratgies dvolution.
Genetic Programming : programmation gntique.
20
Premire partie
tat de lart
21
Chapitre 2
Rseaux baysiens
travers ce chapitre, nous allons prsenter ce que sont les rseaux baysiens, leur utilit
et quelles sont les proprits fondamentales qui en font une modlisation particulirement
avantageuse. Le sujet tant trs tendu, nous ne saurions le traiter exhaustivement. Nous
pouvons nanmoins recommander plusieurs ouvrages au lecteur souhaitant approfondir le
sujet. Bien entendu, louvrage de rfrence demeure celui de J. Pearl [Pearl, 1988] qui est
lorigine du formalisme tel que nous le connaissons aujourdhui. [Charniak, 1991] ou le livre
de P. Nam et al [Nam et al., 2004] fournissent tous deux une trs bonne introduction au sujet.
Enfin dautres ouvrages reconnus traitent des rseaux baysiens ou des modles graphiques en
gnral : [Lauritzen, 1998, Jordan, 2004, Pearl, 2000].
2.1
Introduction
Dans le cadre de la thorie des probabilits, il est frquent de chercher modliser une distribution de probabilits jointe P sur un domaine de variables alatoires U = {X1 , X2 , . . . Xn }. La
connaissance de cette distribution de probabilits permet de calculer la probabilit de chaque
combinaison dinstances distinctes des variables de U. Ceci permettant, tant donn la connaissance des valeurs de certaines variables, de pouvoir calculer la probabilit de diffrents vnements dont les valeurs sont inconnues.
Les rseaux baysiens font partie dune branche spcifique de la famille des modles graphiques probabilistes et se prsentent sous la forme dun graphe orient sans circuit (ou GOSC)
symbolisant les diffrentes dpendances existant entre les variables reprsentes.
Un rseau baysien est dfini par les lments suivants :
un graphe orient sans circuit dont les sommets reprsentent des variables alatoires dun
domaine ;
les arcs du graphe indiquent des dpendances conditionnelles entre les sommets ;
des probabilits conditionnelles permettent de quantifier les dpendances.
23
Un exemple de rseau baysien est donn dans la figure 2.1. Il sagit dun rseau dcrivant
les relations conditionnelles existant entre :
la survenue ventuelle dun sisme ;
la diffusion dun flash radio annonant un sisme ;
le cambriolage dun difice ;
le dclenchement de lalarme de cet difice, suite un sisme ou un cambriolage ;
le fait que le central de la compagnie de scurit appelle les lieux, ou non suivant ltat de
lalarme.
chaque sommet du graphe est associe une table de probabilits permettant de dterminer
la probabilit avec laquelle la variable associe peut prendre une valeur particulire tant donn
celles prises par ses parents (sils existent).
24 / 229
2.2
Dfinition
Un modle graphique probabiliste permet de reprsenter un ensemble de relations conditionnelles au sein dun domaine U = {X1 , X2 , . . . Xn } de variables alatoires ayant chacune leur
propre domaine de dfinition.
Une valeur dintrt est la distribution de probabilits jointe spcifiant la probabilit dapparition des diffrentes combinaisons de valeurs de variables du domaine. Cette distribution,
une fois connue, permet destimer la probabilit des valeurs dune ou plusieurs variables en
connaissant les valeurs prises par les autres variables du domaine.
Dfinition 1 Un rseau baysien B est dfini la fois qualitativement et quantitativement par un couple
(G, ) :
G est un GOSC dont les sommets correspondent aux variables (X1 , X2 , . . . Xn ) de lensemble U.
Les arcs orients de G reprsentant des dpendances directes entre ces variables.
est lensemble des paramtres du rseau. contient les paramtres i, j,k = P(Xi = xki |i = i j ),
i 1 . . . n pour chaque valeur xki pouvant tre prise par Xi et chaque configuration i j de i ,
ensemble des sommets parents de Xi dans G.
Il est noter que ladjectif baysien peut savrer trompeur. Dun point de vue baysien,
les probabilits doccurrence dun vnement, conditionnellement ou non un autre, sont
quantifies de manire subjective en dfinissant un a priori sur leur distribution. Une approche
frquentiste, quand elle, repose sur lobservation de sries dexpriences (pour plus de dtails,
se rfrer au chapitre 3). Sil est videmment possible demployer indiffremment les rseaux
baysiens dans lun ou lautre de ces cadres, le terme baysien est employ dans la dnomination du modle afin de souligner la prpondrance des axiomes relatifs aux probabilits
conditionnelles dans la dfinition et lusage de ces modles.
2.3
Lemploi des rseaux baysiens permet dassocier la thorie des probabilits la thorie des
graphes. Il convient ds lors de pouvoir lier les proprits graphiques de la structure G dun
rseau baysien B avec les proprits de la distribution de probabilits modlise. Lensemble
des (in)dpendances conditionnelles du domaine peut tre dtermin graphiquement partir
dun ensemble daxiomes [Pearl, 1997] et dhypothses.
La lecture des indpendances conditionnelles sur un graphe est intimement lie la notion
de sparation.
La sparation est un critre permettant de statuer si deux sous ensembles de sommets
disjoints dun graphe sont ou non spars lun de lautre tant donn un troisime sous ensemble
disjoint.
La sparation est dfinie diffremment selon le type de graphe auquel on sintresse (orient
ou non-orient notamment). Ici, nous nous limitons la dfinition de la sparation dans le cadre
des graphes orients.
25 / 229
2.3.1
Dfinition 2 tant donn un rseau baysien B = {G, }, toute variable Xi de B est indpendante de
lensemble Nd(Xi )/i , form de lensemble de ses non-descendants dans G privs de ses parents, tant
donn ces derniers, i.e. :
Xi G, Xi y {Nd(Xi )/i }|i
Un descendant dune variable Xi dans un graphe G est dfini comme tant un sommet
atteignable depuis Xi par un chemin orient.
Reprenons lexemple de la figure 2.1. La condition locale de Markov applique ici permet,
entre autres, daffirmer que Appel Central est indpendant de Flash Radio (qui nest ni un parent,
ni un descendant) connaissant Sisme (qui est un parent).
La condition locale de Markov permet donc de dtecter un ensemble minimal dindpendances probabilistes entre les sommets et leurs non-descendants, impliquant entre autres que
deux sommets non adjacents Xi et X j de G sont conditionnellement indpendants tant donn
un troisime sous-ensemble, contenu dans U/{Xi , X j }.
Cest lapplication de la condition locale de Markov qui nous permet dcrire la probabilit
jointe des variables du domaine sous une forme factorise :
P(X1 , X2 , . . . Xn ) =
n
Y
P(Xi |i )
(2.1)
i=1
2.3.2
d-sparation
Si, dans un GOSC, les relations entre les paires de variables sont binaires (relies ou non), la
dtermination dune indpendance conditionnelle implique gnralement trois sous ensembles
de variables.
La d-sparation est un critre permettant de dterminer les indpendances conditionnelles
modlises par un GOSC. Simplement, il sagit de dterminer si un sous-ensemble X de variables
du domaine est conditionnellement indpendant dun sous-ensemble Y tant donn un sousensemble Z.
Sil parat vident que nous faisons alors la corrlation entre la connexit et la dpendance
conditionnelle, la direction des arcs impliqus entre aussi en jeu (le d de d-sparation provenant
de directional) car nous dfinissons la notion de chemin connecteur (et inversement, de chemin bloquant). Nous allons introduire progressivement, en les illustrant, les diverses notions
ncessaires la dfinition de la d-sparation.
Nous emploierons par la suite le terme de convergence pour dsigner une configuration
particulire au sein du graphe.
Dfinition 3 (V-structure) Dans un graphe G, on appelle convergence (ou V-structure), tout triplet
{X1 , X2 , X3 } de sommets tel que
26 / 229
Dfinition 4 (Chemin) Dans un graphe G, un chemin entre deux sommets A et B de G dsigne une
srie darcs conscutifs reliant A B, quelle que soit leur orientation.
Dfinition 5 (Chemin bloquant) Dans un graphe G, un chemin entre deux sommets A et B de G est
dit bloquant sil comporte au moins une convergence de la forme X1 X2 X3 telle que X2 ne soit pas
instancie.
La dernire prcision, concernant linstanciation au sein des convergences, sera explique plus
loin dans cette section.
Notre dfinition de la d-sparation repose sur celle de sa contrapose : la d-connexion.
Sparation inconditionnelle
Soient deux variables X1 et X2 . X1 et X2 sont d-connectes sil existe un chemin non-bloquant
entre X1 et X2 .
Blocage conditionnel
Considrons un sous ensemble Z de variables alatoires dun domaine U. Si les valeurs
prises par ces variables sont connues, la distribution de probabilits, conditionnellement ce
sous-ensemble, est modifie qualitativement. Il convient alors de dfinir la d-connexion par
rapport un ensemble de conditions pouvant bloquer cette connexion.
Deux sommets X1 et X2 sont d-connects conditionnellement un sous-ensemble Z de
sommets si il existe un chemin sans convergence reliant X1 et X2 et ne passant par aucune des
variables de Z.
27 / 229
En considrant, dans la figure 2.3 que les sommets griss appartiennent au sous-ensemble
Z : X1 et X6 sont toujours d-spars mais, de plus, X1 et X3 sont d-spars par Z (en raison de
X2 ) ainsi que X4 et X6 .
Conditionnement sur les convergences
Si on observe un vnement ayant deux causes distinctes et originellement indpendantes,
ces causes deviennent dpendantes. Un exemple intuitif permettant de comprendre ce principe
est celui du lancer de deux pices. Les variables X1 et X2 reprsentent chacune le rsultat du
lancer dune des deux pices et la variable alatoire X3 vaut 1 si les deux lancers ont eu le mme
rsultat et 0 sinon. Il est alors vident que la connaissance de X3 cre une dpendance entre X1
et X2 .
Ce rsultat, aussi connu sous le nom de paradoxe de Berkson, implique un enrichissement des
deux points prcdents et plus exactement dans le cas des sommets situs sur des convergences
(deux causes communes) et leurs descendants.
Si un sommet convergent se trouvant sur le chemin appartient lensemble conditionnant
Z ou un de ses descendants dans Z, il nest plus un facteur bloquant de d-connexion.
Figure 2.4 Illustration de d-connexions et d-sparations avec conditionnement sur les variables.
Sur la figure 2.4, X1 et X3 sont d-spars par X2 Z de mme que X1 et X7 . Mais X3 et X6
sont d-connects puisque X4 a son unique descendant dans Z.
Dfinition 6 (Chemins bloqus, actifs) Soit G = {V, E}, un graphe orient sans circuit. Soit A, B
et C trois sous ensembles disjoints de V. Soit un chemin reliant un sommet de A un sommet de B.
Le chemin est dit bloqu par lensemble C si une des deux conditions suivantes est remplie :
Le chemin converge en un sommet Xi et ni Xi ni aucun de ses descendants ne sont dans C
Le chemin passe par un sommet Xi C en lequel il ny a pas de convergence
Si aucune de ces conditions nest remplie, on dit alors que le chemin est actif.
Cette dfinition permet alors de dfinir prcisment le critre de d-sparation :
Dfinition 7 (d-sparation) Soit G = {V, E}, un graphe orient sans circuit. Soit A, B et C trois sous
ensembles disjoints de V. A et B sont d-spars par C dans G (not (A G B|C)) si et seulement si tous
les chemins reliant un sommet de A un sommet de B sont bloqus par C.
Par la suite, nous emploierons la notation A G B pour indiquer que A et B sont d-spars
dans G.
28 / 229
2.3.3
Cartes dindpendance
Les rgles de la d-sparation que nous venons de voir nous ont permis de dterminer un
ensemble de relations ternaires non-explicites faisant intervenir des sous ensembles disjoints
de sommets.
Une fois les relations de sparation au sein du graphe G dtectes, nous allons chercher
qualifier G par rapport la distribution de probabilits P du domaine que nous caractrisons
par lensemble des relations dindpendances conditionnelles quelle implique.
Dfinition 8 (Carte dindpendance) Soit P une distribution de probabilits sur un ensemble de variables alatoires U ; G, un GOSC compos sur U et X, Y, Z U, et (. yP .|.) une relation dindpendance
conditionnelle vrifie par P.
G est une carte dindpendance (ou I-map) de P sil vrifie :
X G Y|Z X yP Y|Z
G est une carte de dpendance (ou D-map) de P sil vrifie :
X yP Y|Z X G Y|Z
G est une carte parfaite (ou P-map) de P sil vrifie :
X G Y|Z X yP Y|Z
A noter que dans le cas dune I-map, nous admettons la possibilit quil existe des indpendances conditionnelles de P qui ne sont pas reprsentes dans G. Un graphe entirement
connect est alors une I-map de toutes les lois de probabilits sur U.
Cette notion peut tre illustre trs simplement par lexemple suivant : considrons la distribution de probabilits P dfinie sur deux variables X et Y et dcrite dans la figure 2.5. Les
variables X et Y sont indpendantes selon la distribution P.
2.3.4
Les diffrentes proprits prcdemment nonces ont pour finalit de permettre lexploitation de linterface graphique du rseau baysien afin de simplifier le calcul de la probabilit
jointe.
Nous nous sommes restreints ici un exemple simple, il va de soi que dans le cadre dune
modlisation plus raliste, la fois le nombre de variables et les cardinalits de celles-ci seraient
beaucoup plus leves.
Lquation du thorme 1, applique au rseau de la figure 2.7 nous donne alors la dcomposition suivante :
P(X1 , X2 , . . . , X6 ) = P(X1 ) P(X2 |X1 ) P(X3 |X1 ) P(X4 |X2 ) P(X5 |X2 , X3 ) P(X6 |X3 )
Ici, le calcul de la probabilit jointe ne ncessite plus que le calcul de 1 + 2 + 2 + 2 + 4 + 2 = 13
entres indpendantes. Lconomie en calculs devient bien sr dautant plus impressionnante
que le nombre de variables du rseau concern est grand (et le graphe parcimonieux).
2.4
Jusqu prsent, nous avons dfini et employ les rseaux baysiens conjointement au terme
de causalit en raison de limportance de lorientation de la structure du modle dans son
utilisation pratique. Or, il est important de pouvoir distinguer un modle statistique et un
modle causal.
Les rseaux baysiens peuvent tre de deux types : causaux ou non-causaux. Un rseau
baysien causal modlise expressment un ensemble de relations de type cause effet : chaque
sommet non-racine du graphe est la consquence directe de ses parents dans le graphe. Un
rseau non causal, en revanche, modlise des relations de dpendance probabilistes entre les
variables : un arc allant dun sommet X vers un sommet Y nimplique pas une relation de
causalit.
Jusquici nous avons tabli une dfinition formelle des rseaux baysiens sans nous intresser
explicitement aux mthodes dapprentissage de ces derniers. Or, nous verrons par la suite que les
mthodes dapprentissage usuelles, employant une base dapprentissage constitue dexemples
dinstances du domaine, ne permettent dapprendre la structure dun rseau baysien qu sa
classe dquivalence au sens de Markov prs (cf. section 4.4.4) ; dans le cas o le graphe est
causalement suffisant (cf. section 4.1.1), seuls les arcs orients au sein du graphe partiellement
orient servant de reprsentant la classe dquivalence du graphe reprsentent des causalits
effectivement dtermines par linformation contenue dans la base dapprentissage.
La dtermination des diffrents liens de causalit dans un graphe non-causal peut alors se
faire de deux manires. Soit par lintervention dun expert qui incombe la tche de reprsenter
les diffrents liens (et donc orientation des arcs dans la structure), soit par lobservation des
consquences quont des interventions locales en certaines variables sur le domaine modlis.
Lintrt principal de la causalit entre dans le cadre de linfrence causale qui a pour objectif
de pouvoir mesurer leffet dune intervention sur une ou plusieurs variables sur la probabilit
dun ensemble dautres variables. Linfrence causale et la notion de causalit en gnral sont
toujours sujets discussion aujourdhui, tant sur le plan mathmatique que sur le plan philosophique. Le lecteur pourra nanmoins se reporter la lecture de [Spirtes et al., 1999, Pearl, 2000,
Meganck et al., 2006a, Meganck et al., 2006b, Murphy, 2003] pour plus de dtails sur les rseaux
baysiens causaux ainsi que sur leur apprentissage.
31 / 229
Dans le cadre de nos travaux, nous nous restreignons lapprentissage des structures partir
de bases dapprentissage statiques et donc lapprentissage de rseaux baysiens non causaux.
2.5
Les rseaux baysiens, tels que prsents dans ce travail de thse, comportent des variables prenant leurs valeurs dans des espaces discrets. Bien quil soit rpandu de travailler
sur de tels modles, essentiellement pour des raisons pratiques, il est tout fait possible
demployer des rseaux baysiens dans le cas o les variables modlises sont continues.
Ainsi, [Lauritzen et Wermuth, 1989] ont propos des rseaux baysiens dont les variables prsentent une densit de probabilits correspondant une distribution gaussienne. Dautres
modlisations permettent de gnraliser la densit modlise en lapproximant par un mlange de gaussiennes [Lerner et al., 2001] ou encore des densits exponentielles tronques
[Cobb et Shenoy, 2006].
2.6
Infrence probabiliste
P(o, h0 )
h0 H
Les mthodes dinfrence peuvent se rpartir en deux groupes : les mthodes exactes et les
mthodes approches.
Parmi les mthodes exactes, lalgorithme du message passing (passage de messages) [Pearl, 1988]
restreint aux graphes formant un arbre ou encore du junction tree (arbre de jonction)
[Jensen et al., 1990] figurent parmi les plus usits. Ces algorithmes sont expliqus en dtail
dans [Pearl, 1997] et [Huang et Darwiche, 1996]. Dautres possibilits sont llimination de variables [Dechter, 1997] ou les mthodes symboliques permettant de limiter les calculs dans les
cas les plus complexes [Li et DAmbrosio, 1994].
Les mthodes exactes cherchent limiter la quantit de calculs ncessaires en traitant les
variables de manire locale ; en les regroupant en cliques, par exemple. Nanmoins, cette simplification rencontre vite ses limites dans le cas de rseaux trop complexes pour tre traits de
la sorte. On peut alors dcider de continuer traiter le problme de manire exacte mais en
ne travaillant que sur une partie du rseau. Parmi les mthodes approches, les plus connues
sont celles bases sur le principe de Monte Carlo Markov Chain ou MCMC [MacKay, 1998]. Les
mthodes dchantillonage de Gibbs ou de Metropolis-Hastings [Lauritzen, 1998] peuvent ainsi
tre appliques aux rseaux baysiens. Lapproximation peut aussi soprer en se limitant un
sous ensemble de variables [Draper et Hanks, 1994] ou bien en valuant les sommations impliques durant une infrence de type exact [DAmbrosio, 1993]. On peut, de mme, limiter
le rseau sur lequel a lieu linfrence en ignorant les dpendances les plus faibles en son sein
[Kjrulff, 1994].
Enfin, les mthodes dites variationnelles cherchent, quant elles, dterminer le maximum de
vraisemblance en approximant la probabilit a posteriori [Jaakkola et Jordan, 1999, Beal, 2003].
Linfrence, exacte ou approche, a t montre comme tant un problme NP-difficile
[Cooper, 1987, Dagum et Luby, 1993] et le sujet est prsent plus en dtail dans le livre de
F. Jensen [Jensen, 1996]. De mme, louvrage de M. Jordan [Jordan, 1998] regroupe une srie
de tutoriaux et darticles sur les rseaux baysiens mais aussi sur les modles graphiques en
gnral.
2.7
Les applications des rseaux baysiens sattachent essentiellement la prdiction, au diagnostic et lassistance la dcision :
Filtrage du pourriel concept initialis par [Sahami et al., 1998]. Lutilisation des rseaux baysiens pour le filtrage du courrier indsirable sest popularise et figure parmi les applications les plus russies et populaires des rseaux baysiens.
Assistance aux handicaps PAM-AID [Lacey et MacNamara, 2000] est un systme dassistance
au dplacement en intrieur destination des personnes mobilit rduite. Concrtement,
le systme consiste en un dambulateur motoris pouvant dtecter les obstacles (murs,
objets,...) lors du dplacement.
Lassistance au pilotage Cest le cas pour la NASA avec le systme VISA servant au diagnostic
des systmes de propulsion.
33 / 229
Dcisions tactiques SAIP (Semi-Automated IMINT Processing) [Fennell et Wishner, 1998] est un
programme du DARPA (Defense Advanced Research Projects Agency) visant fournir au
commandement militaire une information tactique partir dimages haute dfinition.
Des systmes tels que les rseaux baysiens interviennent dans le pr-traitement des
images afin de dterminer les priorits tactiques des lments sur le terrain.
Aide linteraction Plus rcent, le programme Genoa II [Allanach et al., 2004], issu lui aussi de
la recherche au DARPA, a pour objectif lamlioration des interactions homme-machine
dans le cadre de la lutte anti-terroriste et emploie ces fins divers outils bioinformatiques
ainsi que la modlisation baysienne.
valuation du risque EDF emploie les rseaux baysiens afin de prvoir les risques lis la
disponibilit des sources froides (i.e. le dbit fluvial) pour les centrales nuclaires situes
le long de la Loire.
tudes de march Les rseaux baysiens, en conjonction avec des tudes expertes, peuvent
permettre de mieux cerner les besoins et impratifs commerciaux dune entreprise en
prcisant, par exemple, le cur de cible dune agence bancaire [Jaronski et al., 2001].
Les exemples dapplication sont trs nombreux et lon ne saurait en faire une liste exhaustive.
Mais lintrt grandissant, depuis le milieu des annes quatre-vingt dix, dont ont fait preuve les
industriels pour les modles baysiens ne fait que crotre en particulier grce la gnralisation
de processus dinteraction entre lhomme et la machine pour acclrer les prises de dcision.
Parmi les avantages proposs par les rseaux baysiens, nous pouvons aussi mentionner leur
capacit, en conjugaison avec les mthodes statistiques dites baysiennes (cest--dire prenant
en compte un a priori sur la distribution de probabilits modlise) conjuguer la connaissance extraite de la base de connaissance avec une connaissance pralable du domaine. Cette
connaissance, subjective, est frquemment le produit de lavis dun expert humain sur le sujet.
Cette proprit est apprciable lorsque lon sait que dans lapplication pratique, lacquisition
de donnes est non seulement coteuse en moyens et en temps mais, hlas, dbouche souvent
sur une base de connaissance de taille rduite.
Nous verrons de plus, dans les chapitres suivants, que lapprentissage des rseaux baysiens
peut aussi seffectuer partir de bases de donnes incompltes (i.e. bases pour lesquelles les
valeurs prises par certaines variables du domaine sont inconnues pour certaines instances).Cette
possibilit est particulirement intressante quand le processus de fouille de donnes ne peut
systmatiquement retourner lensemble des valeurs prises par les diffrentes composantes du
modle ( cause de capteurs dfectueux, par exemple).
2.8
Conclusion
Nous avons jusquici abord les fondements thoriques ainsi que les applications des rseaux
baysiens. Dans la suite, nous nous intressons lapprentissage. Lapprentissage dun rseau
baysien peut se dcomposer en deux phases. Dans un premier temps, la structure du rseau
est dtermine, soit par un expert, soit de manire automatique partir dune base de cas issus
du domaine modlis (le plus souvent). Enfin, les paramtres du rseau sont leur tour
dtermins, ici aussi par un expert ou bien par le biais dun algorithme.
34 / 229
35 / 229
Chapitre 3
3.1
Gnralits
37
i 1
P(i |1 , . . . , n ) = Qri
(
)
i
i=1
i=1
(3.1)
3.2
Ici, la base dapprentissage D ne contient pas de cas o viendrait manquer une ou plusieurs
observations.
Lapprentissage des paramtres dun rseau baysien peut ici se faire suivant deux approches :
Lapproche statistique (ou frquentiste)
Lapproche baysienne (ou subjective)
Dans les deux cas, lensemble des paramtres est estim partir de la formule de Bayes :
P(|D) =
P(D|) P()
.
P(D)
(3.2)
N
Y
p(D(l) |).
(3.3)
l=1
38 / 229
Enfin, reste la valeur de la probabilit a priori P() dont le calcul constitue la principale
diffrence entre lapproche statistique et lapproche baysienne, comme nous allons le voir
dans la suite.
3.2.1
Approche frquentiste
Les mthodes frquentistes utilisent ds lors diffrents estimateurs dont le but est de parvenir
dterminer la meilleure approximation de la valeur des diffrents paramtres du rseau.
Un de ces estimateurs est celui du maximum de vraisemblance. Pour chaque variable Xi ,
la probabilit dapparition de lvnement xi est directement proportionnelle sa frquence
dapparition dans la base dapprentissage.
Soit Nijk le nombre doccurrences simultanes dans la base de Xi = xk et i = i j o k 1, . . . ri
et j 1, . . . qi .
i = xk |i = i j ) = MV =
La probabilit estime est alors note P(X
i jk
N
P i jk
k Ni jk
N
X
logP(Dl |)
l=1
(l)
(l)
L(D(l) , ) = P(X1 , X2 , . . . Xn )
n
Y
(l) (l)
=
P(Xi |i )
=
i=1
Y
(3.4)
(3.5)
(l)
i jk
(3.6)
i
(l)
o ijk indexe implicitement les valeurs spcifiques prises respectivement par Xi et i pour D(l) .
Nous supposons que les exemples de la base sont indpendants et identiquement distribus, ce qui
nous permet dcrire la vraisemblance pour lensemble de la base D :
L(D, ) =
n Y
N
Y
i=1 l=1
(l)
i jk
qi Y
ri
n Y
Y
Ni jk
i jk
(3.7)
39 / 229
qi X
ri
n X
X
Ni jk log(i jk )
qi X
n X
X
ri 1
LL(, D) =
Ni jk log(i jk ) + Ni,j,ri log(i, j,ri )
i=1 j=1
k=1
qi X
ri 1
n X
X
X
ri 1
1
LL(, D) =
N
log(
)
+
N
log
i,
j,r
i
jk
i
jk
i
jk
i
i=1 j=1
k=1
k=1
P
i jk 1 ri 1 i jk
ijk
k=1
La drive de la log-vraisemblance sannule donc quand chaque i jk vrifie :
Ni jk
Ni, j,ri
=
P
i 1
i jk
1 rk=1
i jk
soit
Pri
ri
X
N
Ni, j,1
Ni, j,1 Ni, j,1
k=1 i jk
=
= ... =
= Pr
=
Ni jk
i
i,j,1
i,j,1
i,j,1
k=1
k=1 i jk
k {1, . . . , ri }
3.2.2
Approche baysienne
Le principe de cette approche revient traiter le paramtre i jk comme une variable alatoire
dote dune densit de probabilit sur lintervalle [0,1].
Si les paramtres i admettent une densit de probabilit exponentielle de Dirichlet (cf.
equation 3.1) et que la distribution de D suit une loi multinomiale, nous pouvons exprimer la
probabilit a posteriori des paramtres :
qi Y
ri
n Y
Y
(i jk )i jk 1
P()
(3.8)
dautre part :
P(|D) =
P(D|) P()
P(D)
qi Y
ri
n Y
Y
(i jk )Ni jk +i jk 1
(3.9)
De la mme manire que dans le cas du maximum de vraisemblance abord dans lapproche
frquentiste, nous pouvons alors rechercher les paramtres non plus selon le maximum de
vraisemblance mais selon le maximum a posteriori (MAP). En effet, dans le cadre de lapproche
baysienne, le fait demployer des a priori sur les paramtres du modle par lemploi de
coefficients ijk sous entend que les donnes ont dj t observes. La dtermination des
paramtres ne se fait alors plus selon les occurrences des donnes (par vraisemblance) mais
conditionnellement celles-ci (approche a posteriori).
i = xk |i = i j ) = P
MAP
= P(X
ijk
Ni jk + i jk 1
k (Ni jk
+ i jk 1)
(3.10)
Une autre approche consiste non plus rechercher le maximum a posteriori mais son esprance
(EAP) :
Ni jk + i jk
P
EAP
(3.11)
ijk = P(Xi = xk |i = i j ) =
k (Ni jk + i jk )
La diffrence entre ces deux dernires approches consiste essentiellement dfinir si lon
souhaite procder la slection dun modle auquel cas on cherche le modle maximisant
la probabilit a posteriori ou bien estimer un modle le plus informatif possible quant aux
diffrentes hypothses reprsentes au sein dune quantit de donnes limite si on dsire
alors un modle prdictif .
41 / 229
3.2.3
Diffrences
Les partisans de lapproche frquentiste reprochent gnralement la philosophie baysienne dattribuer des estimations P(|D) diffrentes suivant des probabilits a priori P()
diffrentes, introduisant par l une subjectivit forte. Lapproche frquentiste considre que
lensemble des paramtres a une valeur fixe et ne suit pas une distribution de probabilit.
Les mthodes dapprentissage des paramtres que nous venons de dcrire ne sont valables
que si lensemble des valeurs de la base de donnes D est observable. Dans le cas contraire, il
est ncessaire de faire appel des mthodes permettant destimer les valeurs des observations
manquantes. Ce sont ces mthodes que nous allons voquer dans la section suivante.
3.3
Il peut arriver quau sein de la base dapprentissage du modle, certaines valeurs soient
manquantes. Cette situation peut arriver dans le cas o, par exemple, un capteur de donnes
est tomb en panne ou encore lorsque le relev de valeurs savre trop coteux pour tre
systmatiquement appliqu.
Les approches vues jusquici ne sont plus, alors, applicables directement ( moins de ne
considrer pour lapprentissage que les instances compltes de la base). Si la solution la plus
simple consiste ignorer les instances incompltes de la base de donnes pour lapprentissage,
il est plus courant demployer une mthode revenant estimer les donnes manquantes
partir des donnes connues. Ce principe est fond sur celui de lalgorithme EM (Expectation
Maximisation ou Esprance Maximisation) propos dans [Dempster et al., 1977] pour tre par la
suite appliqu lapprentissage des paramtres dun rseau baysien dans [Lauritzen, 1995] et
[Heckerman, 1995].
De la mme manire que pour lapprentissage partir de donnes compltes, lalgorithme
EM peut tre appliqu selon une approche frquentiste ou baysienne.
3.3.1
Approche frquentiste
Soit :
(l)
DO = {DO }l=1,...N , lensemble des instances de D pour lesquelles lensemble des valeurs
prises par les variables du domaine sont observes.
(t)
(t) , lensemble des paramtres {i jk } des paramtres du rseau baysien B, litration t.
Lalgorithme EM commence par estimer les valeurs des donnes manquantes (esprance)
avant de les maximiser de la mme manire que dans le cas complet (maximisation).
42 / 229
2:
3:
(t+1)
(t)
ijk | Faire
1e tape : Esprance
4:
E(Nijk ) =
N
X
(l)
(t)
P(Xi = xk |i = i j , DO , i jk )
l=1
2e tape : Maximisation
5:
E(Ni jk )
(t)
i jk = P
k E(Ni jk )
6:
3.3.2
Approche baysienne
Dans ce cas, nous employons des a priori de Dirichlet sur les paramtres. La diffrence avec
le traitement frquentiste rside dans la 2e tape de lalgorithme 1 qui devient :
E(Ni jk ) + i jk
(t)
ijk = P
k E(Ni jk ) + i jk
(3.12)
43 / 229
Chapitre 4
Apprentissage de structures
Cette partie constitue une introduction gnrale la problmatique de lapprentissage de
la structure dun rseau baysien. Les algorithmes que nous dcrivons ici ont pour objectif de
trouver le rseau encodant le mieux la distribution de probabilit implicite la base dapprentissage qui leur est fournie en entre. Le plan gnral de ce chapitre est celui employ dans
[Nam et al., 2004, Franois, 2006, Leray, 2006], Cependant, nous nous attardons volontairement
sur certaines descriptions de mthodes ou de modles tout en en ngligeant dautres, selon leur
rapport avec nos travaux ou avec leur comprhension.
4.1
Gnralits
45
4.1.1
Cadre thorique
X yP Y X G Y
46 / 229
Modularit paramtrique
Cette hypothse tait dj mise dans le cadre de lapprentissage de paramtres (section 3.1),
nous pouvons la rappeler ici :
Dfinition 11 (Modularit paramtrique) Soit deux GOSC G1 et G2 , une variable Xi U et i (G),
lensemble des sommets prdcesseurs du sommet Xi dans le GOSC G :
i 1 . . . n, si i (G1 ) = i (G2 ), alors la densit de distribution des paramtres de Xi est la mme pour
G1 et G2 .
Suffisance causale
Aussi appele hypothse de compltude. Nous supposons quil nexiste pas, dans le domaine
modlis, de variable non-observable qui soit parente de deux ou plus variables observes.
Lensemble des sommets suffit donc reprsenter lensemble des relations pouvant tre extraites
des donnes observes. Lhypothse de suffisance causale est cependant la plus mme de se
voir invalider dans le cas de la modlisation de domaines non triviaux o linformaticien ne
peut garantir lobservation de lensemble des variables pertinentes au domaine.
Connaissance a priori
Certaines mthodes permettent de prendre en compte une connaissance a priori du modle
recherch, fournie alors par lutilisateur. Certaines mthodes prsentes ici permettent notamment lapprentissage dune structure partir de la connaissance dun ordre topologiquement
compatible avec le modle recherch.
Dfinition 12 (Ordre topologiquement compatible) Un ordre topologiquement compatible avec
un GOSC G = {V, E} est un ordre partiel sur les sommets de G tel que :
X Y E, X Y
Dans la suite, nous parlerons dordre topologique correct pour dsigner un ordre topologiquement compatible avec le modle sous-jacent aux donnes dapprentissage.
47 / 229
4.1.2
Cadre pratique
4.2
Une manire de rechercher une structure adquate pour un ensemble dapprentissage est la
recherche dindpendances conditionnelles : la structure du rseau est dtermine pas pas en
tablissant les indpendances conditionnelles existant au sein de lensemble des variables.
Si certains des algorithmes de ce type dtectent des variables latentes (caches), en revanche ils
requirent tous une base complte.
4.2.1
Algorithmes PC et IC
Le principe de lalgorithme PC (Peter, Clark, les prnoms des auteurs) est lui-mme une volution de lalgorithme SGS (Spirtes, Glamour, Scheines, tir des noms de ses auteurs) [Spirtes et Scheines, 1991,
Spirtes et al., 1993].
48 / 229
49 / 229
Algorithme 2 Algorithme PC
Entre: Un graphe connexe non orient G = {V, E}, V = {X1 , X2 . . . , Xn }
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
32:
33:
50 / 229
variables), les deux algorithmes procdent des tests exhaustifs sur les diffrents ensembles
conditionnels SXi ,X j possibles, pour chaque couple de sommets (Xi , X j ).
4.2.2
Algorithme BNPC
Lalgorithme BNPC (pour Bayes Net Power Constructor) est dcrit dans [Cheng et al., 2002]
et utilise une analyse quantitative de linformation mutuelle entre les variables du domaine
modlis afin de construire la structure G recherche. Les tests dindpendance conditionnelle
reviennent alors dterminer un seuil pour linformation mutuelle (conditionnelle ou non)
entre les couples de variables concerns.
BNPC se dcompose en trois phases :
1- laboration : Un premier graphe G1 est cr par le mme procd que celui de lalgorithme
MWST (voir section 4.4.1).
2- Enrichissement : Des artes sont ajoutes G1 afin dobtenir un graphe non-orient G2 et
ce, par application dun nombre rduit de tests dindpendance conditionnelle.
3- Affinement : Une nouvelle srie de tests limine les ventuelles artes superflues de G2 pour
obtenir un graphe final, G.
BNPC se dcline sous deux variantes (BNPC-A et BNPC-B) selon que lutilisateur fournisse
ou non un ordre topologiquement compatible avec la structure recherche. BNPC-A prend en
entre un tel ordre peut donc orienter les artes dtectes mesure de la construction.
Dans le cas de BNPC-B, cet ordre est inconnu et lalgorithme ne procde lorientation des
diffrents arcs quau terme de son excution.
La connaissance facultative dun ordre topologique correct a pour consquence une diffrence notable dans la manire dont les deux variantes construisent le graphe G recherch :
BNPC-A peut dtecter directement les diffrentes d-sparations du graphe chaque tape
de sa construction et donc dfinir prcisment quels sont les diffrents ensembles de
sommets conditionnants devant tre pris en compte,
BNPC-B, en labsence dun ordre topologique correct sur le graphe G, se voit confront
au mme problme que les algorithmes PC et IC savoir la ncessit de tester un nombre
exhaustif et donc exponentiel densembles de sommets conditionnants afin de pouvoir
dterminer si deux sommets X et Y doivent tre ou non relis par une arte.
Pour rduire sa complexit, BNPC-B diminue considrablement le nombre des ensembles
de sommets conditionnants par lintermdiaire dune analyse quantitative des dpendances
rgnant au sein du graphe. Pour cela, les auteurs dfinissent lhypothse de la fidlit monotone.
Dfinition 13 (Fidlit monotone) Soit ChemG (X, Y), lensemble des chemins reliant les sommets X
et Y dans un GOSC G = {V, E}. Soit ActG (X, Y|Z), lensemble des chemins de G activs par le sous
ensemble de sommets Z et reliant les sommets X et Y, {X, Y} < Z. Soit I(X, Y|Z) linformation mutuelle
conditionnelle mesure entre les sommets X et Y conditionnellement Z. Alors G et la distribution de
probabilit P sous-jacente aux donnes dapprentissage sont monotonement fidles si et seulement si :
1. G et P sont fidles
51 / 229
2. X, Y V, si ActG (X, Y|Z0 ) ActG (X, Y|Z), alors I(X, Y|Z0 ) I(X, Y|Z0 )
En rsum, cette hypothse tablit que pour un GOSC G et une distribution de probabilits
P fidles, la quantit dinformation transitant entre deux variables X et Y, conditionnellement
un sous ensemble de variables Z, est une fonction monotone du nombre de chemins reliant
X Y rendus actifs (cf. section 2.3.2) par Z. En prenant lexemple de deux variables X et Y
dont nous souhaitons tester lindpendance, nous testons dabord lensemble maximal CM des
variables pouvant former un ensemble d-sparant X et Y. Puis, en testant successivement et par
cardinalit dcroissante les sous-ensembles de CM , nous pouvons obtenir un sous-ensemble de
variables par lequel ne transite aucune information et d-sparant, donc, X et Y.
Daprs les auteurs, il est alors possible de dterminer la structure G en O(n4 ).
Cependant, [Chickering et Meek, 2003] dmontrent que lhypothse de fidlit monotone est
raisonnablement incompatible avec lhypothse de fidlit (i.e. lexistence dune P-map). Dans
le cas o ces deux hypothses coexistent (ce qui est le cas, ds lors que lon suppose la fidlit
monotone), alors survient une contradiction avec lexistence dune chane au sein du graphe.
Dfinition 14 (Existence dune chane dans un GOSC[Chickering et Meek, 2003]) Un GOSC G
possde une chane sil comporte au moins lune des deux configurations suivantes :
X1 X2 X3
X1 X2 X3
De plus, [Chickering et Meek, 2003], toujours, dmontrent que dans le cas prcis o le GOSC
recherch ne comporte aucune chane, alors la complexit des calculs requis par BNPC-B peut
en fait tre rduite O(n2 ).
Ces dernires assertions mettent malheureusement en question la fiabilit de lalgorithme.
4.2.3
Commentaires
Les diffrents algorithmes procdant par recherche de causalit prsentent des points communs. Dune part ces algorithmes prsentent lattrait de proposer une construction graduelle
de la structure retourne. La prise en compte de proprits graphiques locales aux diffrentes
variables ainsi que lemploi de mthodes statistiques connues rendent ce type dapproche intuitivement sduisante. Cependant, malgr ces traits intressants, certains dfauts demeurent :
la fiabilit des tests dindpendance, en particulier en prsence dun nombre de cas insuffisant ;
le nombre important de tests dindpendance effectuer pour couvrir lensemble des
variables ;
dans le cas de lalgorithme BNPC, le manque de fiabilit de ses fondements thoriques.
Une alternative lapprentissage par le biais de tests statistiques est lemploi dune mesure
dvaluation de la qualit dune structure vis--vis de la base dapprentissage en combinaison
avec une heuristique de parcours dun espace de solutions candidates. La section suivante
dcrit quelques unes de ces mthodes.
52 / 229
4.3
Fonctions dvaluation
Les mthodes procdant par exploration et valuation des solutions potentielles utilisent
un score permettant dvaluer la concordance de la structure courante avec la distribution de
probabilit ayant gnr les donnes. De nombreuses fonctions dvaluation ont t conues et
ce chapitre prsente quelques-unes de celles-ci parmi les plus connues.
Certaines proprits ont t dtermines comme sinon essentielles du moins dimportance
pour les mtriques employes. Ces proprits sont les suivantes.
Dcomposabilit Lors de lemploi dune heuristique parcourant lespace des structures candidates, une transition depuis une structure G vers une structure G0 se fait gnralement laide
dune opration du type ajout, soustraction ou inversion dun arc. Ds lors quune modification
ne modifie le calcul de la probabilit jointe du domaine que sur le terme P(Xi |i ) o Xi est
le nud du graphe dont lensemble des parents a t modifi, il est intressant de navoir
calculer limpact de cette modification sur le score quen un terme dpendant de Xi et i .
Dfinition 15 (Score dcomposable) Une fonction de score S est dite dcomposable si, tant donn
la structure G dun rseau baysien B, S(B) peut tre exprim sous la forme dun produit (ou dune
somme, dans lespace logarithmique) de scores locaux ne concernant quun sommet et ses parents.
S(B) =
n
X
i=1
n
Y
s(Xi , i )
i=1
quivalence Deux GOSC diffrents peuvent encoder une mme dcomposition de la loi jointe
sur le domaine modlis. Les deux structures sont alors dites quivalentes au sens de Markov
(cf. section 4.4.4 pour une dfinition complte de la notion dquivalence). Il en rsulte que
plusieurs GOSC peuvent reprsenter le mme ensemble dindpendances conditionnelles et,
par consquent, prsenter la mme pertinence en terme de reprsentation de connaissance
(dans le cas dun graphe non-causal).
Dfinition 16 (Score quivalent) Une fonction de score S est dite quivalente si, tant donn deux
rseaux baysiens B et B0 quivalents au sens de Markov, S associe une mme valeur aux structures de
B et B0 .
Lemploi dun score quivalent permet donc de pouvoir distinguer des structures qui ne
sont pas statistiquement quivalentes (et rciproquement, de regrouper les structures qui le
sont). Dans le meilleur cas, nous devrions pouvoir ainsi dterminer une seule structure G
statistiquement quivalente au graphe G recherch. Il nous reste assurer lexistence de G , ce
qui est le rle de la proprit de consistance.
53 / 229
Consistance Il est important de pouvoir garantir que la structure obtenant la meilleure valuation soit celle du rseau lorigine de la base de cas. Cette proprit est connue sous le nom
de consistance du score employ.
Dfinition 17 (Score consistant) Une fonction de score S est dite consistante si, lorsque la taille de
la base dapprentissage D tend vers linfini, la structure G* correspondant au modle sous-jacent D
obtient le meilleur score avec une probabilit approchant 1.
Par structure correspondant au modle, nous entendons ici la structure qui est une carte dindpendance minimale du modle sous-jacent D.
La plupart des scores que nous allons dcrire par la suite possdent ces proprits. Les scores
employs pour lvaluation de structures peuvent eux-mmes tre rpartis dans deux groupes :
les scores dits baysiens et les mtriques fondes sur le principe de la longueur de description
minimale.
Score baysien
Si la dnomination de score baysien rfre effectivement une mtrique spcifique que nous
allons prsenter ici, il sagit aussi dun terme plus gnral dnotant les diffrentes mtriques
dveloppes partir du mme principe de base. Nous allons donc commencer par dcrire ce
principe avant de dtailler ce quest le score baysien proprement parler ainsi que diffrentes
variantes qui en ont t drives.
Lors de lapprentissage dun modle, quil sagisse de sa structure ou de ses paramtres,
il existe une incertitude quant lidentit de ces lments. Lapproche baysienne consiste
reprsenter et quantifier cette incertitude sous une forme subjective. Cet encodage revient alors
dterminer une distribution a priori sur la structure et/ou les paramtres recherchs.
Nous cherchons ici la structure G ayant la probabilit la plus leve conditionnellement aux
donnes D. Autrement dit, nous cherchons maximiser la probabilit P(G|D). Cette probabilit
est la probabilit a posteriori. La maximisation de cette probabilit passe en premier lieu par sa
dcomposition ; le thorme de Bayes nous permet la dcomposition suivante :
P(G|D) =
(4.1)
Il est important de remarquer que llicitation du meilleur modle se fait partir de la seule
base dapprentissage D et que nous pouvons alors ngliger la probabilit P(D).
Le plus souvent, pour des raisons de commodit de calculs, loptimisation de la probabilit
a posteriori P(D, G) passe par loptimisation de son logarithme :
log P(G|D) = log P(G) + log P(D|G) log P(D) log P(G) + log P(D|G)
(4.2)
qi
n Y
Y
i=1 j=1
i
(ri 1)! Y
Ni jk !
(Ni j + ri 1)!
(4.3)
k=1
Le score baysien de lquation 4.3 sadapte au cas de lutilisation da priori de Dirichlet (cf.
section 3.3.2) en scrivant :
qi
n Y
Y
i=1 j=1
(i j + ri 1)!
(Ni j + i j + ri 1)!
ri
Y
(i jk + Ni jk )!
k=1
i jk !
(4.4)
La distribution a priori sur lespace des structures peut tre dfinie ou calculable grce un
expert ou bien, cas le plus courant car simplifiant le calcul, tre dfinie comme tant uniforme.
Dans ce dernier cas, la maximisation de la probabilit relative a posteriori log P(D, G) se ramne
alors la maximisation de la vraisemblance marginale que lon emploie comme score.
Le score BDe
Le score baysien, prsent prcdemment, prsente un inconvnient majeur : il nest pas
quivalent (cf. dfinition 16). Deux structures prsentant les mmes indpendances conditionnelles obtiennent donc deux valuations diffrentes. Une heuristique parcourant lespace des
structures a tout intrt employer un score prsentant la proprit dquivalence.
cette fin, les auteurs de [Heckerman et al., 1995a] ont dvelopp une variante du score BD.
Cette variante repose sur lhypothse dquivalence de la vraisemblance :
Hypothse 1 (quivalence de vraisemblance) Soit G1 et G2 , deux structures reprsentant les mmes
indpendances conditionnelles, de probabilits a priori non ngatives, alors P(|G1 ) = P(|G2 ).
55 / 229
Soit GT , le graphe entirement connect sur V et Nest , un nombre arbitraire de pseudoexemples supplmentaires i.e. un dcompte fictif dexemples supplmentaires de la base pour
lesquels Xi = xk , i = ij , la contrainte suivante, impose sur les exposants de Dirichlet i jk
des distributions des paramtres du modle valu, permet de rendre le score BD quivalent :
ijk = Nest P(Xi = xk , i = i j |GT )
(4.5)
Lavantage de fixer un nombre minimal Nest doccurrences pour les diffrentes configurations
possibles est dempcher quune configuration particulire dune variable Xi et de son ensemble
de variables parents i ne soit considre comme impossible par le modle (et se voit donc
attach une probabilit a posteriori nulle).
La variante, nomme score BDe (pour Bayesian Dirichlet Equivalent), est alors gale :
SBDe (G|D) = P(G, D) = P(G)
qi
n Y
Y
i=1 j=1
(i j )
(Ni j + i j )
ri
Y
(i jk + Ni jk )
k=1
(i jk )
(4.6)
La fonction gamma tant employe ici du fait que les i jk ne sont pas ncessairement
entiers.
Le score BDeu
Le score BDeu est en fait un cas particulier du score BDe prsent prcdemment. Ici, les
distributions de probabilits a priori dfinies sur les paramtres du modle valu sont uniformes
(le u de BDeu signifiant uniform), i.e.
P(Xi = xk , i = ij |GT ) =
1
,
ri .qi
i 1 . . . N, k 1 . . . ri , j 1 . . . qi
Nest
,
r i qi
i 1 . . . N, k 1 . . . ri , j 1 . . . qi
(4.7)
qi
n Y
Y
( q1i )
i=1 j=1
( q1i + Ni j )
ri ( 1 + N )
Y
i jk
qi ri
k=1
( q1i ri )
(4.8)
Le score BDeu est trs souvent employ pour lvaluation de structures. Une de ses caractristiques est dtre apte dtecter les arcs correspondant des dpendances conditionnelles
56 / 229
de poids faibles. Ce comportement est dailleurs dautant plus prononc que lon emploie une
valeur leve pour le paramtre Nest de lquation 4.7 [Kayaalp et Cooper, 2002].
La vraisemblance du modle valu par rapport la base dapprentissage nest pas la seule
mthode dvaluation dune structure. Une autre faon de faire est demployer des critres
visant non seulement vrifier cette adquation mais aussi, dans le cas des fonctions de scores
que nous allons prsenter, de favoriser les modles les plus simples.
Le critre AIC
Le critre AIC (Akaike Information Criterion) [Akaike, 1970] cherche viter les problmes lis
lapprentissage sur la seule vraisemblance. Dans les valuations prcdentes, la vraisemblance
par rapport la base de donnes est employe la fois pour lapprentissage des paramtres du
modle et pour lvaluation de la structure, ce qui risque dintroduire un biais.
En pnalisant la complexit des structures values, le critre AIC vise liciter le modle le
plus simple et le plus expressif de la connaissance extraite de la base D.
ScoreAIC(B, D) = 2 log L(D|B, MV ) + 2Dim(B)
(4.9)
n
X
Dim(Xi , B)
i=1
(4.10)
57 / 229
loppos, dans le cas o la taille de la base de donnes est trs limite, il est gnralement
prfrable demployer une autre variante du critre AIC : le critre AICC (Akaike Information
Corrected Criterion)[Hurvich et Tsai, 1989]. Cette variante inflige une pnalit dautant moins
leve aux structures complexes que la base est limite, relchant la contrainte de parcimonie.
ScoreAICC (B, D) = AIC +
2Dim(B) (Dim(B) + 1)
N Dim(B) 1
(4.11)
Pour lquation 4.11, nous remarquons que, lorsque la taille de la base de donnes devient
importante, le dernier terme de lquation tend vers 0 et on approche la formule du critre AIC.
Le score MDL
Le critre MDL [Rissanen, 1978, Suzuki, 1996] incorpore un terme pnalisant les structures
trop complexes et ne tient pas seulement compte de la complexit mme du modle mais aussi
de la complexit du codage des donnes suivant ce modle.
Il existe diffrentes variantes du score MDL, dont celle de [Lam et Bacchus, 1994]
ScoreMDL (B, D) = LL(D|MV , B) |EB | logN c.Dim(B)
(4.12)
|EB | reprsentant le nombre darcs prsents dans le modle B et c, le nombre de bits ncessaires pour encoder un des paramtres.
Le score BIC
Le critre BIC (Bayesian Information Criterion), propos dans [Schwartz, 1978], est certainement le critre le plus employ actuellement dans le cadre de la slection de modles.
Semblable au critre AIC, il comporte lui aussi une pnalit envers la complexit structurelle.
1
ScoreBIC(B, D) = log L(D|B, MAP ) Dim(B) log N
2
(4.13)
Le terme 12 Dim(B) log N reprsentant la pnalit envers les structures trop complexes. Si lon
value un ensemble M = {M1 , M2 , . . . , Mm } de modles, le meilleur modle Mi est alors gal :
M = argmaxMi (scoreBic)
(4.14)
Le score BIC prsente les trois proprits prsentes en dbut de section, savoir lquivalence, la dcomposabilit et la consistance ; ceci, combin sa tendance liciter les modles les
plus simples [Bouckaert, 1994] en fait une des mtriques dvaluation les plus employes avec
le score BDeu.
58 / 229
Commentaires
Nous avons vu, dans cette section, plusieurs fonctions de score. Il savre, dans la pratique,
que la plupart des mthodes actuelles se fondent sur lemploi du score BDeu ou bien du critre
BIC. Certaines mthodes emploient des versions modifies des critres pondrs comme AIC
ou MDL.
Les algorithmes que nous allons prsenter emploient indiffremment nimporte quelle fonction
dvaluation sauf mention contraire (certaines mthodes requirent explicitement une valuation ayant la proprit dquivalence, par exemple).
4.4
Cette approche consiste parcourir lensemble des structures envisageables (au sens le plus
large : lespace des GOSC dcrits sur lensemble des variables modlises), valuer celles-ci
puis renvoyer la structure ayant obtenu la meilleure valuation. Une telle stratgie se heurte
cependant au problme de la taille de lespace parcourir. Soit r(n), le nombre de graphes
orients sans circuit ralisables sur un ensemble de n sommets :
n
X
O(n)
r(n) =
(1)i+1 Cni 2i(ni) r(n i) = n2
(4.15)
i=1
4.4.1
La recherche de larbre de recouvrement maximal dans un graphe pondr peut tre adapte
lapprentissage de structure. Dans [Chow et Liu, 1968], les auteurs associent chaque couple
(Xi , X j ) de variables un poids - dans ce cas prcis linformation mutuelle entre Xi et X j . Une
autre possibilit de pondration consiste remplacer linformation mutuelle par un score local
en Xi et X j [Heckerman et al., 1995a].
Lapplication la recherche de structure se fait alors de la manire suivante :
1. recherche de larbre (non-orient) de recouvrement maximal ;
2. orientation de larbre obtenu.
59 / 229
La premire tape est acheve par une heuristique standard telle que lalgorithme de Kruskal
[Cormen et al., 1994]. La deuxime phase est, elle, accomplie en choisissant tout dabord un
nud faisant office de racine puis en orientant les artes restantes partir de celui-ci.
Les avantages de cet algorithme sont nombreux. Aussi simple que rapide, il force de plus
lappartenance de chaque variable du domaine la structure retourne ; augmentant les chances
de dtecter des relations faibles qui sont ignores dans le cas contraire. Les inconvnients sont
que le choix du nud racine est arbitraire en labsence da priori de mme que le fait de
relier obligatoirement lensemble des variables entre elles peut aussi gnrer des relations
inopportunes en reliant des variables normalement conditionnellement indpendantes.
De la mme manire, dans certaines problmatiques, la recherche de la structure baysienne
optimale a pour but de permettre de cartographier les (in)dpendances conditionnelles du
domaine ; MWST empche toute variable dont la reprsentation serait superflue dtre dtecte
comme telle. Il serait alors ncessaire de sortir de lespace des arbres pour passer dans celui des
forts.
4.4.2
Algorithme K2
4.4.3
Lalgorithme Greedy Search [Chickering et al., 1995] (ou algorithme glouton) parcourt lespace des GOSC laide de successions doprations lmentaires. chaque itration, lalgorithme explore le voisinage dune structure candidate une opration ddition prs, o une
opration consiste en un ajout, une soustraction ou une inversion darc. Si une des structures
voisines obtient un meilleur score que la structure candidate, elle remplace cette dernire et lalgorithme ritre lexploration. La terminaison survenant ds lors quaucune structure voisine
nobtient un meilleur score.
60 / 229
Algorithme 3 K2
Entre: Un ensemble de n noeuds, un ordonnancement sur ces noeuds, une borne suprieure
S sur le nombre de parents dun noeud, une base de donnes D compose de N cas
1: Pour i = 1 . . . n Faire
2:
i ;
3:
Pprec f (Xi , i );
4:
continuer VRAI;
5:
Tant que continuer et |i | < S Faire
6:
soit z le noeud de Pred(Xi ) maximisant ScoreBD (Xi , i {z});
7:
Pnouveau f (i, i {z});
8:
Si Pnouveau > Pprec Alors
9:
Pprec Pnouveau ;
10:
i i {z};
11:
Sinon
12:
continue FAUX;
13:
Fin Si
14:
Fin Tant que
15: Fin Pour
4.4.4
Une alternative la recherche de structures sur lespace des GOSC consiste identifier non
plus une structure mais un graphe reprsentant la classe dquivalence au sens de Markov (cf.
section 4.4.4) de celle-ci.
Nous commenons par dcrire un tel graphe ainsi que ses proprits avant de dcrire une
mthode gloutonne sur lespace de ces graphes reprsentants, lalgorithme GES.
quivalents de Markov
Figure 4.2 Exemples simples illustrant la notion dquivalence. Les graphes (a), (b) et (c)
encodent la mme dcomposition de loi jointe.
Plusieurs graphes orients sans circuits peuvent encoder les mmes ensembles dindpendances conditionnelles.
Dfinition 18 Deux rseaux baysiens B1 et B2 sont dits quivalents au sens de Markov si leurs
structures encodent la mme dcomposition de la loi jointe.
61 / 229
(4.16)
(4.17)
Donc le graphe (a) et le graphe (b) encodent la mme loi de probabilit jointe. La mme dmarche peut
sappliquer au graphe (c).
Considrons maintenant la figure 4.3.
Dfinition 19 Pour un GOSC G, le graphe partiellement orient sans circuit obtenu en ignorant
lorientation des arcs rversibles de G est appel graphe essentiel de G. Ce graphe est le reprsentant de
la classe dquivalence de G.
Dfinition 20 Un arc est dit rversible sil nappartient aucune V-structure et si son inversion ne
cre ou ne dtruit aucune V-structure.
Des algorithmes existent permettant dobtenir le graphe essentiel, ou GE, dune structure
donne [Chickering, 1996] ou bien, linverse, dobtenir une instanciation sous forme dun
GOSC dun graphe partiellement orient (et donc dune instanciation dun GE) [Chickering, 1995,
Dor et Tarsi, 1992].
Figure 4.4 Exemple de graphe orient sans circuit et de son graphe essentiel.
La figure 4.4 montre cte cte le GOSC vu prcdemment dans la figure 2.7 et le GE
correspondant. Nous voyons que seule la V-structure centrale demeure oriente.
Daprs [Perlman et Gillispie, 2001], le ratio entre le nombre de GE pour un nombre donn
de variables modlises et le nombre de GOSC correspondant est asymptotiquement gal 3,7.
Ce rsultat a t observ pour un nombre de variables allant jusqu 10.
Enfin, il est intressant de prciser ici que des graphes quivalents au sens de Markov proposent la mme dcomposition de la loi de probabilit jointe sur le domaine et, par consquent,
lorientation des arcs nappartenant pas des V-structures, bien que sans rapport avec les rels
liens de causalit au sein du domaine, na pas dinfluence sur les processus dinfrence vus en
section 2.6.
Algorithme GES
Conscutivement la dfinition de lespace des reprsentants des classes dquivalence de
Markov, plusieurs travaux se sont employs travailler dans cet espace. Les arguments allant
en faveur dune telle approche tant :
Taille de lespace : plusieurs GOSC reprsentant les mmes indpendances conditionnelles
peuvent tre reprsents par un seul et unique GE ;
63 / 229
Pour explorer les diffrents voisinages dinclusion (V + (GE ) et V (GE )), GES opre en deux
phases [Chickering, 2002b] :
Sur V + (GE ) : sont considrs, chaque itration de cette phase, tous les graphes du voisinage
du graphe actuel obtenus par ajout ou inversion dun arc. Pour cette dernire opration,
ne sont considres que les inversions impliquant un changement de classe dquivalence.
chaque itration, le nouveau graphe slectionn est celui ayant entran la plus grande
amlioration du score.
Sur V (GE ) : cette phase est similaire la prcdente, la diffrence tant quelle opre par
soustractions et inversions successives jusqu ce que le score ne puisse plus tre amlior.
Le fait que GES explore lespace des GE laide dune fonction de score implique bien entendu
que ce score soit quivalent. Linitialisation de GES peut se faire partir dun graphe quelconque,
mme sil est gnralement convenu de dmarrer avec le graphe vide G. Il est de mme possible,
bien que lalgorithme que nous venons de dcrire corresponde la version originale de GES
telle que dcrite dans [Meek, 1997], demployer conjointement chaque itration le voisinage
suprieur et le voisinage infrieur. Cette variante, prsente dans [Chickering, 2002a] est elle
aussi, asymptotiquement optimale.
noter que lexploitation de lespace des GE prsente cependant certains inconvnients :
La taille de lespace nest pas aussi rduite que lon pourrait lesprer : il a t dmontr,
pour un nombre de variables n<10, que le quotient de la taille de lespace des GOSC avec
celle de lespace des GE tait asymptotiquement gal 3,7 [Perlman et Gillispie, 2001,
Gillispie et Perlman, 2002] ;
Laffranchissement de lespace des GOSC nest pas total, il est ncessaire pour pouvoir
valuer la qualit dune classe dquivalence den instancier le reprsentant sous la forme
dun GOSC.
[Nielsen et al., 2003] introduisent KES qui est une variante de GES pour laquelle la gloutonnerie est relche : plutt que de slectionner chaque tape le meilleur graphe du voisinage,
KES slectionne alatoirement un graphe amliorant la solution en cours.
4.4.5
Commentaires
De la mme manire que nous avons comment les mthodes procdant par dtection des
indpendances conditionnelles, nous pouvons ici faire un constat des forces et faiblesses des
algorithmes vus dans cette section.
les algorithmes de parcours permettent dobtenir des solutions caractrises par la fonction
de score employe (modle plus simple ou au contraire tenant compte des dpendances
les plus faibles,. . . ). Ceci, pour le cas dapprentissages partir de donnes restreintes,
les scores tant pour la plupart asymptotiquement gaux pour une quantit de donnes
dapprentissage suffisante ;
le dveloppement de nouvelles heuristiques se fonde principalement sur le parcours de
lespace de recherche et la discrimination de bonnes solutions ce qui en fait une approche
sduisante ;
la dcouverte de la structure optimale partir dune fonction de score est NP-difficile
[Chickering et al., 1995, Chickering et al., 1994, Chickering et al., 2003] ;
65 / 229
4.4.6
Mthodes hybrides
Certaines mthodes tentent de combiner les avantages des deux mthodologies que nous
venons de voir. Un certain nombre de ces mthodes sinscrivent dans lapplication dun algorithme volutionnaire nous le verrons plus loin . Le principe de ces mthodes consiste
gnralement limiter lespace de la recherche effectue par un algorithme employant un score.
Cette limitation est dfinie partir de tests dindpendance conditionnelle dordre peu lev
1 ou 0 et permet dviter la perte de temps cause par lvaluation de solutions inintressantes
[van Dijk et al., 2003b].
Linconvnient dune telle approche est que, non contente de combiner les qualits des deux
approches, elle en combine aussi les dfauts. Il est possible dexclure la possibilit de lexistence
dun arc quand, en prsence dune base limite, les tests indiquent comme tant indpendantes
deux variables pourtant corrles dans le graphe dorigine.
Un autre faon dappliquer ce principe est de limiter lespace de recherche non plus partir
dune procdure automatique mais partir dune connaissance a priori, gnralement fournie
par un expert [Acid et de Campos, 1996, de Campos et Castellano, 2007].
Lalgorithme EGS (pour Essential Graph Search) de [Dash et Druzdzel, 1999] sefforce quant
lui de construire le GE correspondant la structure recherche en valuant par lintermdiaire
du score baysien la solution renvoye par des itrations successives de lalgorithme PC en
faisant alatoirement varier certains facteurs tels que le seuil de confiance des tests statistiques
employs et un ordre topologique sur les variables du domaine.
4.5
Jusquici, les mthodes que nous avons prsentes taient dterministes, dans le sens o,
partir dune mme initialisation (par exemple, un mme GOSC initial pour lalgorithme glouton)
et dune mme base dapprentissage, la solution retourne par ces algorithmes est la mme.
Il existe une autre forme de recherche faisant appel une part dalatoire : les algorithmes
stochastiques. Ces mthodes font intervenir une part de hasard dans leur phase de recherche,
ceci leur permettant notamment de se retrouver bloqus en certaines zones de lespace des
solutions.
Dans le cadre de lapprentissage de structures de rseaux baysiens, deux familles de mthodes stochastiques ont jusqu prsent t employes : les mthodes dites de Monte-Carlo et
les algorithmes volutionnaires. Ces derniers faisant lobjet du prochain chapitre, nous nous
contenterons de les voquer brivement la fin de cette section (les applications des mthodes
volutionnaires lapprentissage de structures seront traites la fin du chapitre 5).
66 / 229
4.5.1
Les mthodes de Monte Carlo forment un sujet trop vaste pour tre trait de manire
complte dans ce travail de thse. Nous ne prsentons ici que les lments ncessaires la
comprhension gnrale de leur principe et de leur application lapprentissage de structures. Une trs bonne introduction aux mthodes de Monte Carlo peut tre trouves dans
[Robert et Casella, 2004] ; les mthodes de Monte Carlo par chane de Markov sont, quant
elles, dcrites et expliques dans [Gilks et al., 1996].
Les mthodes de Monte Carlo permettent lapproximation de distributions de probabilits
partir dun chantillonnage (ou observations rptes des valeurs prises par la distribution de probabilits). Il existe de nombreuses approches suivant la connaissance a priori de
la distribution tudie et de la complexit mme de lchantillonnage. Nous nous intressons
particulirement une catgorie de mthodes : les mthodes de Monte Carlo par chane de
Markov.
Ces mthodes modlisent une marche alatoire dans lespace de dfinition X dune distribution de probabilits (x) et ce par le biais dune chane de Markov. Cette chane sert alors
de source dchantillons de X. Une chane de Markov est dfinie par un ensemble dtats,
un ensemble des probabilits de transition entre ces diffrents tats (aussi appel noyau de la
chane) et par une distribution de probabilits initiales (probabilits de se trouver en un tat
linitialisation).
Dfinition 23 (Chane de Markov) Une chane de Markov dfinie sur un espace dtats X, est un
processus stochastique (x(0) , x(1) , . . . , x(t) ) tel que :
P(x(t) |x(t1) , . . . , x(0) ) = P(x(t) |x(t1) ), t 1 . . . T
Par la suite, nous employons la notation x(t) pour dsigner indiffrement ltat de la chane
de Markov au temps t et le te chantillon prlev. Le noyau de la chane est un ensemble de
probabilits de transition inter-tats K(x(t+1) |x(t) ) caractrisant la chane. Lorsque les probabilits
de K sont constantes dans le temps (i.e. K(x(t+1) = xi |x(t) = x j ) = K(x j |xi ), la chane est dite
homogne). La chane est aussi dfinie par sa distribution de probabilit initiale 0 (x(0) ).
conditions), il est possible de garantir la convergence de la chane de Markov vers une telle
distribution stationnaire (x).
Lobjectif, dans le cadre dune mthode MCMC, est alors que (x) approxime la distribution
(x) tudie. Des algorithmes, tels que lalgorithme de Metropolis-Hastings [Metropolis et al., 1953]
ou lchantillonneur de Gibbs [Geman et Geman, 1984], permettent dy parvenir.
Mthodes MCMC sur lespace des structures
[Madigan et York, 1995] proposent dapproximer la distribution a priori P(G|D) dun GOSC G
en connaissance de la base de donnes D. Pour y parvenir, lchantillonnage direct sur lespace
des GOSC pourrait tre envisag mais, tant donn la taille de cet espace (cf. section 4.4), une
approche par mthode MCMC est prfre.
Une chane de Markov est alors dfinie sur lespace des GOSC. Les transitions inter-tats de la
chane, correspondant aux passages dune structure une autre, sont dfinies par lapplication
locale dun oprateur dajout/soustraction/inversion dun arc. Les probabilits de transition
entre deux structures G et G0 sont dfinies par une distribution de probabilits localement
uniforme :
1
q(G0 |G) =
|GOSC voisins de G|
Cette mthode est btie sur le principe de lalgorithme de Mtropolis-Hastings (dcrit dans
lalgorithme 4) et dfinit donc une probabilit dacceptation dun nouvel tat. Cette probabilit
est calcule partir des probabilits a posteriori des modles, probabilits qui sont, en pratique,
calcules partir dune fonction de score (score baysien, par exemple).
Algorithme 4 Algorithme de Metropolis-Hastings pour lapprentissage de structures
Entre: burn-in B, base dapprentissage constitue de N cas
Sortie: GB+1 , . . . GB+N
t0
G G0 , (alatoire)
Pour t=1,. . . ,B+N Faire
Calculer R avec
!
P(G0 |D)q(G0 |Gt )
R = min 1,
P(Gt |D)q(Gt |G0 )
Le quotient P(G|D) , aussi appel facteur de Bayes, est calcul partir dun score baysien tel
que le score BD (cf. section 4.3).
68 / 229
4.5.2
Mthodes volutionnaires
4.6
Problmatiques particulires
Les mthodes tudies jusqu prsent sinscrivent dans une problmatique similaire celle
de nos travaux, savoir lapprentissage de structures de rseaux baysiens supposant :
les variables du domaine sont discrtes ;
les bases dapprentissage utilises sont compltes ;
le problme est causalement suffisant.
Afin de proposer un panorama complet des mthodes dapprentissage, cette section semploie dcrire les mthodes employes lorsque ces hypothses ne sont pas vrifies.
4.6.1
Les mthodes dapprentissage de structures peuvent elles aussi tre adaptes au cas continus, soit par discrtisation de la base dapprentissage afin dapprendre un modle discret, soit
bnficient elles aussi dadaptation au domaine continu. [Colot et al., 1994] emploient une version modifie du critre AIC afin de discrtiser lespace des donnes. Cette pr-discrtisation,
applique la base dapprentissage, servant lapprentissage dun modle lui-mme discret.
Les mthodes de discrtisation peuvent elles-mmes faire partie intgrante de lapprentissage ;
[Friedman et Goldszmidt, 1996] fournissent une mthode de discrtisation laide du critre
MDL, le modle appris et les donnes dapprentissage discrtises sont alors alternativement
rvalues afin doptimiser leur adquation mutuelle. Dautres mthodes ne discrtisent pas
la base dapprentissage ; ainsi [Margaritis, 2005] propose une mthode de test dindpendance
conditionnelle entre deux variables continues. Ce test pouvant alors tre employ au sein dun
algorithme tel que lalgorithme PC (cf. section 4.2.1). Une description tendue des techniques
dapprentissage de structures dans le cas continu peut tre trouve dans [Fu, 2005].
4.6.2
70 / 229
dcomposer en un produit de termes lis au choix des parents des diffrentes variables du
modle ainsi quaux statistiques dtermines partir de la base dapprentissage.
SEM calcule la meilleure estimation des donnes non observes (et, par la suite, les paramtres calculs partir de celles-ci) avant deffectuer une recherche classique telle quen
prsence de donnes compltes.
Lalgorithme 5 dcrit le fonctionnement de SEM.
Algorithme 5 Algorithme Structural EM
1: Initialiser la structure et les paramtres associs G0 ,0
2: t 0 (itrations sur les structures)
3: Tant que t tmax Faire
4:
Tant que Score(Gt ) Score(Gt1 ) Faire
5:
Phase desprance : estimation des paramtres t par EM paramtrique
6:
Tant que |t,m t,m1 | ou m < mmax Faire
PN
(l)
= E(N
(t)
7:
Nijk
ijk =
l=1 P(Xi = xk |i = i j , DO , )
8:
9:
10:
11:
12:
t,m
=
ijk
Nijk
Pri
N
k=1 i jk
mm+1
Fin Tant que
Phase de maximisation : recherche de la structure Gt+1
tt+1
Fin Tant que
Gt1 Gt
Fin Tant que
A chaque itration sur t, lalgorithme SEM slectionne la structure la mieux value et les
paramtres associs. Lalgorithme sappuie sur le fait quil essaie damliorer le score chacune
de ses itrations. Cest l que se situe le point faible de SEM : pour lalgorithme EM standard, les
points de convergence correspondent aux points o la fonction objectif est stationnaire ; mais
cette notion nest pas applicable dans lespace des structures de modles. Le problme survient
quand lalgorithme converge vers un maximum local : ce cas se produit si un modle gnre une
distribution assez performante pour faire apparatre les autres solutions comme tant moins
performantes, au vu du score espr.
Plus la quantit dinformation manquante est importante, plus cela risque de se produire.
Il existe plusieurs mthodes permettant lapprentissage de structures partir de bases de
donnes incompltes. Nanmoins, cette problmatique ne faisant pas partie de notre champ
dtudes, nous invitons le lecteur qui souhaiterait en apprendre davantage sur le sujet se
reporter [Franois, 2006], qui tablit un panorama tendu et dtaill de ces diffrentes mthodologies ainsi quune description complte de la problmatique.
71 / 229
4.6.3
Les algorithmes prsents dans ce travail de thse, y compris nos propres travaux, font
lhypothse de la suffisance causale (cf. section 4.1.1). Or, il se peut que dans le traitement dun
cas rel certaines variables observes aient une cause commune qui, elle, nest pas observe ;
une telle variable est alors appele variable latente.
A priori, ngliger une variable latente ne semble pas avoir de graves consquences. Ceci
est en partie vrai : lapprentissage dune structure ne tenant compte que des variables observes/connues permet thoriquement dobtenir une I-map du modle considr, rassemblant
lensemble des indpendances conditionnelles au sein de celui-ci. Le rel problme, en dehors
de la vracit mme de la modlisation est une complication du modle obtenu.
Figure 4.5 Exemple de rseau appris en prenant en compte ou non une variable latente XL .
Soit lexemple de la figure 4.5(a), correspondant au vrai modle que nous cherchons apprendre. La variable VL est une variable que nous considrons, dans la figure 4.5 comme latente.
Le modle obtenu en labsence de cette variable, reprsent sur la figure 4.5(b), prsente un
nombre lev darcs comparativement au modle complet de la figure 4.5(a). Des dpendances
conditionnelles sont cependant bien dtectes entre les variables X1 , . . . , X6 . Le problme dune
telle modlisation est que, pour un nombre lev de dpendances, la paramtrisation du modle
devient non seulement plus complexe (59 paramtres si les variables sont binaires contre 17
paramtres pour le modle de la figure 4.5(a)) mais, conscutivement, la quantit de donnes
ncessaire pour assurer la fiabilit des paramtres devient trs leve.
La problmatique des variables latentes ne fait pas partie de ce travail de thse et ncessite un
ensemble complet de notions, de dfinitions et dhypothses quil serait impossible dnumrer
ici. Par consquent, cette section se limitera donc une prsentation rsume des principales
notions et travaux ncessaires la comprhension du problme.
De la mme manire que pour les mthodes appliques aux problmes causalement suffisants, les mthodes prenant en charge les problmes variables latentes peuvent se rpartir en
mthodes tests statistiques et mthodes employant un score.
Mthodes statistiques
Les auteurs de lalgorithme PC ont dvelopp une variante de celui-ci prenant en compte les
variables latentes : lalgorithme FCI (pour Fast Causal Inference) [Spirtes, 2001, Spirtes et al., 2000].
72 / 229
En parallle, les auteurs de lalgorithme IC ont, eux aussi, dvelopp une extension de ce dernier,
nomme IC [Pearl, 2000].
Ces algorithmes ne renvoient pas un GOSC, mais un graphe complet partiellement ancestral
(ou PAG, pour Partial Ancestral Graph). Un PAG permet de reprsenter, pour une mme classe
dquivalence au sens de Markov, lensemble des indpendances conditionnelles du modle (ce
quun GOSC nest pas toujours capable de faire). Nous limitons par la suite notre description
des PAG au traitement des modles variables latentes ; pour une description complte, le
lecteur se reportera [Spirtes et al., 2000].
Dans ce qui suit, nous considrons le sous ensemble O de lensemble des variables V
comme reprsentant les variables observes (i.e. connues) et Cond, lensemble des indpendances
conditionnelles existant au sein des variables de O.
Soit Eq(G, O) la classe dquivalence au sens de Markov de lensemble des GOSC G0 tels que
soit dfini sur un super-ensemble de O et tels que la condition de Markov globale affirme les
indpendances conditionnelles de Cond.
G0
73 / 229
74 / 229
75 / 229
Chapitre 5
Algorithmes gntiques
Le terme de mthodes volutionnaires regroupe, de nos jours, plusieurs mthodologies diffrentes ayant pour point commun de sinspirer, du moins lorigine, des thories darwiniennes
de lvolution. Ces mthodes proposent ainsi damliorer un ensemble de solutions en simulant
une succession de gnrations au cours desquelles ces solutions subissent une pression visant
favoriser la survie des meilleures dentre elles et sont modifies par des oprateurs ddis, un
principe voqu ds le milieu du XXe sicle par Alan Turing [Turing, 1948].
Ce chapitre a pour objectif dintroduire les principales notions lies ce domaine et plus
particulirement aux algorithmes gntiques afin daider la comprhension des mthodes que
nous avons dveloppes.
Lorganisation de ce chapitre est la suivante :
1. nous commencerons par prsenter les principes gnraux des mthodes volutionnaires,
2. nous ferons par la suite une description gnrale dun algorithme gntique,
3. nous aborderons plus en dtail les composantes dun algorithme gntique,
4. laspect historique ainsi que la thorie fondatrice des algorithmes gntiques seront tudis,
5. certains des principaux dveloppements des algorithmes gntiques seront prsents.
Au pralable et dans un souci de clart, nous souhaitons expliciter certains termes emprunts au vocabulaire des biologistes et couramment employs dans le cadre de lalgorithmique
volutionnaire.
individu : une solution candidate au problme considr, souvent plusieurs solutions sont
simultanment volues et constituent une population dindividus,
chromosome : la reprsentation dun individu, plus exactement le codage de celui-ci au sein
de lalgorithme gntique,
gnration : un algorithme volutionnaire itre plusieurs reprises les mmes oprations sur
les individus, gnrant chaque fois un nouveau lot dindividus pour litration suivante.
Symboliquement, on dsigne par gnration chacune de ces itrations,
77
parents/enfants : les relations de paternit expriment communment un lien entre deux solutions candidates. Un enfant dsignant une solution gnre partir dune solution
prexistante qui en est alors le parent,
gnotype/phnotype : ces termes, hrits de la gntique, dsignent respectivement lencodage de la solution (le chromosome et les allles de lindividu) et lexpression de celui-ci.
Le phnotype est exprim par une fonction f valuant la qualit de la solution encode
par le gnotype.
5.1
Introduction
78 / 229
Kallel et al., 2001]. Une introduction complmentaire aux algorithmes gntiques peut de mme
tre trouve dans [Whitley, 1994].
Nous portons maintenant notre attention sur les algorithmes gntiques travers une prsentation de ces algorithmes, une tude de leur implmentation dorigine ainsi que de leurs
diffrentes composantes, pratiques et thoriques.
5.2
Les algorithmes gntiques ont connu, depuis leur cration, des implmentations diverses ;
nanmoins, la plupart de ces implmentations suivent le schma du premier algorithme gntique propos par Holland en 1975. Ce schma est connu sous le nom dalgorithme gntique
canonique et est dcrit par lalgorithme 7.
Algorithme 7 Algorithme gntique canonique
*/ Initialisation /*
t 0;
Gnrer alatoirement et uniformment une population initiale P0 de individus et valuer
ceux-ci laide dune fonction f ,
*/ Evolution /*
1. slectionner des individus de Pt pour la reproduction ;
2. obtenir de nouveaux individus par application de loprateur de croisement sur les individus pralablement slectionns ;
3. appliquer un oprateur de mutation sur les nouveaux individus : les individus obtenus
constituent la nouvelle population Pt+1 ;
*/ valuation /*
Evaluer les individus de Pt+1
t t + 1;
*/ Arrt /*
Si un critre dfini est rencontr, arrt, sinon, relancer la phase dvolution
79 / 229
5.2.1
Reprsentation des individus Comme nous lavons prcis en entre de chapitre, une solution
en tant quindividu se prsente sous deux formes : son phnotype, qui est une mesure qualitative
de la solution, et le gnotype, qui est lencodage de la solution.
La forme de lencodage est primordial car il dtermine entre autres lefficacit avec laquelle
vont pouvoir agir les diffrents oprateurs dexploration et dexploitation de lespace des solutions. Alors que les premiers algorithmes gntiques travaillaient exclusivement sur lespace
des chanes binaires (la justification de cette approche est aborde en section 5.3.1). Le problme
du choix de la reprsentation dpend essentiellement de lexistence doprateurs adquats.
Ainsi, depuis le premier algorithme travaillant sur les chanes binaires, les espaces pouvant
tre utiliss au sein dun algorithme gntique se sont diversifis. Il est, de fait, possible de travailler sur nimporte quel espace de solutions tant que les oprateurs gnotypiques prsentent
certaines proprits [Radcliffe, 1991].
possibilit dexplorer lensemble de lespace des solutions en un nombre fini doprations
(intrt de la mutation) ;
transmission des proprits communes des parents leurs enfants ;
stabilit de la fonction dvaluation au voisinage des individus (principe aussi appel
strong causality principle [Rechenberg, 1970]).
Des oprateurs adquats ont ainsi t dfinis afin de travailler dans lespace des rels, des
permutations dentiers ou encore des arbres.
80 / 229
valuation Un algorithme gntique est bas sur la performance des individus composant la
population de solutions. Cette performance le phnotype de lindividu concern est value
au travers dune fonction : la fitness.
La performance peut revtir plusieurs formes, il peut sagir dune concordance par rapport
une base de donnes, dune valeur moyenne, etc. La fonction dvaluation va prendre la forme
dune valeur que nous allons chercher maximiser (ou, inversement, minimiser) travers
lvolution de la population.
Le choix de la fonction dvaluation, bien quil soit frquemment impos par le contexte
du problme, requiert une grande attention car le cot du calcul de cette fonction reprsente
souvent la majeure partie du cot de lalgorithme gntique lui-mme.
Initialisation Une fois que lon a choisi la reprsentation et la fonction dvaluation, la premire tape pralable la mise en marche du processus dvolution consiste initialiser une
population de dpart.
Loption la plus simple consiste frquemment en une initialisation alatoire, en plusieurs
points de lespace des solutions. Il est nanmoins souvent possible de tenter de crer une
population dores et dj en possession dun gnome "performant" et ce en faisant appel une
heuristique existante offrant des solutions sinon performantes, du moins de bonne qualit.
Linitialisation par une heuristique doit cependant tre aborde avec prcaution. Il est possible dintroduire un biais dans linitialisation et de risquer une convergence prmature vers
un optimum local.
5.2.2
Oprateurs phnotypiques
En accord avec les principes darwiniens, les algorithmes gntiques entreprennent de favoriser lapparition et la survie des individus les plus aptes. Cette pression sexerce partir la
mesure de qualit ou fitness de ceux-ci.
meilleur avec une certaine probabilit, ou bien encore la slection par rang o la probabilit de
slection est proportionnelle au rang de la fitness de lindividu dans la population.
La principale diffrence entre les phases de slection pour le remplacement et de slection
pour le croisement est quun individu peut tre slectionn, par tirage au sort, plusieurs
reprises pour participer au croisement. Lors de la phase de remplacement, un individu voit son
sort dcid une fois pour toutes (survie ou disparition).
Lalgorithme gntique canonique constitue chaque nouvelle population partir des individus nouvellement crs ; cette approche risque cependant de poser un problme si un chromosome de trs bonne qualit se voit altr la suite dun croisement et/ou dune mutation. La
politique de renouvellement total de lalgorithme gntique canonique risque alors dentraner
une dgradation de la meilleure solution jusqualors rencontre. [Rudolph, 1994] montre que
lalgorithme gntique canonique ne saurait garantir la convergence vers un optimum global
sans conservation dune gnration lautre de la meilleure solution trouve.
On parle de stratgie litiste lorsque le meilleur enfant est moins performant que le meilleur
parent, celui-ci est automatiquement transmis la gnration suivante. Cette conservation
dune gnration lautre est en particulier souhaitable lorsque le cot du calcul de la fitness
dun individu est lev. Le revers tant que lon risque, en particulier avec la conservation dun
trop grand nombre dindividus, une convergence prmature de la population en un optimum
local.
5.2.3
Oprateurs gnotypiques
Oprateur de croisement Loprateur de croisement prend en entre deux (ou plus) parents
et recombine diffrents lments issus de ceux-ci afin de gnrer un ou plusieurs individus.
Lorsque les individus croiss sont gntiquement proches (leurs gnotypes diffrent peu),
le croisement a une vocation dexploitation de lexistant. Ce rle est cependant modifi lorsque
les parents sont trs diffrents, dans ce cas loprateur devient un oprateur dexploration de
lespace.
Alors que lalgorithme gntique canonique effectue le croisement par change simple des
moitis de chromosomes des parents, dautres types doprateurs de croisement sont apparus.
Les possibilits actuelles sont nombreuses et dpendent de la problmatique aborde : oprateurs de croisements en plusieurs points, fusion de solutions, croisement linaire avec des poids
tirs alatoirement, etc.
Oprateur de mutation Par analogie avec les thories darwiniennes selon lesquelles le gnome dune population volue ponctuellement par lintermdiaire de mutations localises,
loprateur de mutation dun algorithme gntique a pour rle lexploration de lespace des
82 / 229
solutions du problme considr par une srie de perturbations alatoires des chromosomes de
la population.
Sur une reprsentation telle quune chane de bits, cette modification consiste, par exemple,
inverser alatoirement un ou plusieurs bits.
Le fonctionnement de loprateur de mutation est stochastique : une mutation peut survenir
en chaque gne ou ponctuellement en un gne alatoirement choisi dun individu avec une
probabilit Pmute .
Critre darrt On peut dcider de la terminaison des calculs aprs un certain dlai (temps
ou nombre ditrations), aprs que le meilleur individu ait atteint un certain niveau de qualit,
aprs un certain nombre ditrations sans amlioration du meilleur individu ou bien lorsque
lcart type de la fitness de la population passe en de dun certain seuil.
Les paramtres dun algorithme gntique En dehors des diffrents oprateurs et stratgies
entrant en compte dans limplmentation dun algorithme gntique, il existe un certain nombre
de paramtres dfinir :
Taille de la population : Si de manire intuitive, une population de grande taille parat tre
une solution idale et ce afin de mieux explorer lespace de recherche, laugmentation
en terme de cot de calculs supplmentaires nest pas ngliger. En labsence dune
stratgie visant adapter ce paramtre au long du fonctionnement de lalgorithme (voir
[Eiben et al., 2004, Eiben et al., 2006]pour des exemples de stratgies dadaptation de la
taille de la population), le retour dexprience reste le manire la plus rpandue de fixer
ce paramtre ;
Probabilit de croisement : Une fois quun ensemble dindividus a t slectionn pour participer la reproduction, ceux-ci ny participeront rellement quavec une probabilit dite
de croisement, Pcross ;
Probabilit de mutation : Sujet de nombreuses discussions, la probabilit de mutation Pmute
reprsente la probabilit avec laquelle un individu (ou un de ses gnes) subira leffet
de loprateur de mutation. Si une probabilit leve permet une grande couverture de
lespace de recherche, une solution proche de loptimal recherch naura alors que peu
de chances dy parvenir suite une perturbation trop forte. Inversement, une probabilit
trop faible restreint la recherche et diminue dautant les chances dapprocher cet optimal ;
Le paramtrage dun algorithme gntique est dlicat. Souvent, le paramtrage est tabli
soit partir dune connaissance a priori du problme rsoudre, soit, le plus souvent, partir
dun plan dexprience et de nombreux essais. Nous verrons que certaines recherches ont vis
automatiser le paramtrage en laissant ce dernier, au mme titre que la population mme,
la discrtion du processus volutionnaire.
Il faut rappeler quil nexiste pas de paramtrage universellement performant pour un algorithme gntique. Sil existe des valeurs acceptes pour certains paramtres on emploie
souvent une probabilit de croisement proche des 0,80 ainsi quune probabilit de mutation en
O( n1 ) avec n, le nombre de gnes du chromosome il est presque toujours ncessaire de passer
par une phase dtalonnage.
83 / 229
5.2.4
Les stratgies dvolution, comme nous lavons mentionn prcdemment, ont t conus
pour la manipulation de vecteurs de nombres rels ; mais les algorithmes gntiques peuvent,
eux aussi, tre employs pour la rsolution de problmes doptimisation continue problmes
pour lesquels la fonction optimiser est dfinie sur lespace des rels .
lorigine, les algorithmes gntiques taient conus pour ne manipuler que des chanes
binaires et les premires approches des problmes continus consistaient en un codage des valeurs relles sous forme de chanes binaires. Cette approche a pour inconvnient, dune part,
un manque de prcision dans le codage des solutions (plus on doit tre prcis, plus une chane
binaire encodant un nombre rel doit tre longue) et, dautre part, pose le problme dincongruit entre une distance dans lespace des gnotypes (binaires), la distance de Hamming, par
exemple, et une distance dans lespace des phnotypes (rels) [Deb et Agrawal, 1995]. Bien que
dautres mesures dans lespace binaire permettent de saffranchir, en partie, du deuxime point
soulev (e.g. lutilisation dun codage de Gray), la dernire dcennie a vu apparatre un nombre
croissant de travaux sappliquant travailler directement avec des reprsentations relles,
laide doprateurs ad hoc [Davis, 1991, Parker, 2002] ou dautres reprsentations intermdiaires
[Surry et Radcliffe, 1997].
Des complments quant loptimisation continue par des mthodes volutionnaires peuvent
tre trouvs dans [Auger, 2004]. Nous verrons, plus loin dans ce chapitre, que dautres types de
mthodes volutionnaires les algorithmes estimation de distribution peuvent, eux aussi,
travailler sur des espaces continus.
Si cette section sest attache prsenter les lments constitutifs couramment implments
dans un algorithme gntique, nous allons aborder dans la suite un rapide descriptif des thories
et concepts sur lesquels se basent les algorithmes gntiques.
5.3
tude thorique
Cette section a pour objectif de prsenter au lecteur les premires thories la base des
algorithmes gntiques ainsi que les dernires opinions et critiques vis--vis de celles-ci.
5.3.1
Quand Holland conut les algorithmes gntiques, ce fut avant tout dans lesprit dune
modlisation informatique du processus dvolution tel que dcrit par Darwin. Cependant,
le principe mathmatique initial des algorithmes gntiques tait fond sur le thorme des
schmas, une thorie visant expliquer le comportement dun algorithme gntique en tant
quoptimiseur.
Un schma est une chane formes dlments dun alphabet A auxquels sajoute un terme
employ comme "joker". Par exemple, si A = {0, 1}, les chanes {01011001} et {11000010} font
84 / 229
partie du schma H1 = {100}. Dans la suite de cette section, nous considrons que lalphabet
employ est A = {0, 1}.
Un schma est notamment caractris par son ordre, not ordre(H), cest dire lensemble de
ses lments prenant une valeur fixe ( {0, 1}). Dans lexemple prcdent, H1 , ordre(H1 ) vaut 3.
La longueur de dfinition dun schma est, elle, gale lcart maximal entre deux bits valeurs
fixes dans le schma. Par exemple, d(H1 ) = 4.
Le thorme des schmas vise mesurer lesprance du nombre doccurrences N(H, t + 1)
dun schma H prsent dans la population un temps t + 1 en fonction du nombre de ces
occurrences au temps t prcdent, des caractristiques du schma et de la qualit des individus
contenant ce schma. Les calculs suivants sappliquent dans le cadre du fonctionnement de
lalgorithme gntique canonique, tel que dfini dans la figure 5.1.
Cette esprance dpend de la persistance du schma vis--vis des trois oprateurs de lalgorithme gntique (slection, croisement, mutation) :
slection Soit ft (H), la fitness du schma H. Elle est calcule en moyennant la fitness de lensemble des membres du schma prsents dans la population au temps t. La probabilit
de slection est directement proportionnelle la fitness, donc :
Pselect (une instance de H) =
ft (H)
ft
Ce calcul ignore cependant les effets des oprateurs de croisement et de mutation, lesquels
peuvent eux-mmes affecter le schma H,
croisement le schma H est "coup" par le croisement avec une probabilit gale :
Pcross
d(H)
l1
1
ft
En parallle au thorme des schmas, deux notions virent le jour :
Building blocks : Une hypothse corrle au thorme des schmas est lhypothse des blocs
de construction ou building blocks dveloppe par Goldberg [Goldberg, 1989]. La reprsentation dun schma H au sein de la population crot rapidement si H est trs court
(et peu susceptible dtre dtruit par croisement ou mutation) et dot dun ratio de fitness
suprieur 1. Lalgorithme favorise alors la dcouverte et la recombinaison de ces blocs
lmentaires de solutions,
85 / 229
Alphabets employs : les alphabets de faible cardinalit, employs pour le codage du gnotype des individus volus, devraient permettre lchantillonnage, pour un chromosome
assez long, dun nombre maximum de schmas pour un seul individu.
Pendant longtemps, le thorme des schmas, lemploi de lalphabet binaire et la recherche
des meilleurs blocs de construction guidrent la conception des algorithmes gntiques. Comme
nous allons le voir par la suite, ces diffrents points se sont cependant vus remis en question.
5.3.2
Critiques
Ds la fin des annes quatre-vingts, le thorme des schmas fut srieusement remis en question. Des lacunes dans la formulation du thorme ainsi que les observations des performances
de lalgorithme gntique canonique sur diverses classes de problmes mirent en vidence
plusieurs problmes, parmi lesquels :
les alphabets de faible cardinalit ne permettent pas systmatiquement un chantillonnage
optimal de lespace des schmas [Antonisse, 1989]. Une dmonstration du raisonnement
original de Holland ainsi que de celui dAntonisse peut tre trouve dans [Koehler, 1997],
La majorit des problmes doptimisation difficiles sont trompeurs [Whitley, 1991]. Cest-dire que les blocs de construction reprs comme performants par la fonction dvaluation
de lalgorithme ne font pas ncessairement partie de loptimum recherch. Dans ce cas, la
majorit des algorithmes gntiques ne trouvent pas loptimum global recherch,
la prolifration dun schma de bonne qualit, suggre par le thorme des schmas,
ignore compltement les autres schmas prsents dans la population. mesure que celleci converge, le ratio de la fitness du schma sur la fitness moyenne converge vers 1 et le
nombre de reprsentants se verra affect par les oprations de croisement et de mutation,
un autre point crucial ignor dans lnonciation du thorme est le choix de la reprsentation. Un choix a priori arbitraire de cette reprsentation interdit la prvalence de lalgorithme gntique car il est alors impossible de garantir la transmission de linformation
sous forme de schmas [Radcliffe, 1992],
comme nous lavons mentionn, le thorme des schmas ignore les possibilits de gnration de schmas par le biais du croisement.
Pour ces raisons, entre autres, il sest vite avr que le thorme des schmas ne permettait
pas de justifier les performances de lalgorithme gntique et ne pouvait donc servir de base
llaboration dun algorithme performant. Le thorme des schmas na plus aujourdhui
quune valeur historique.
Sil est vrai que la simulation du milieu naturel en tant que solveur de problme pouvait,
dans un premier temps, laisser esprer lobtention dun solveur "universel", cet espoir a depuis
t srieusement remis en question.
Il a dabord t prouv que les algorithmes gntiques, sous leur forme originelle, ntaient
pas des optimiseurs [De Jong, 1992]. Principe confort, par la suite, par le thorme du No free
lunch (en franais : "pas de repas gratuit") [Wolpert et Macready, 1995]. Ce thorme, qui nen
est pas vraiment un, statue que tout algorithme se comporte, en moyenne, de la mme manire
sur lensemble des problmes doptimisation ; si un algorithme est avantageux sur un problme
particulier, il est inversement dsavantag sur les autres problmes. En rsum, il ne peut exister
86 / 229
un algorithme universel pouvant rsoudre lensemble des problmes doptimisation. Pour une
classe de problmes donne, il est ncessaire de rendre lalgorithme optimal pour la rsolution
de cette classe, prcisment.
Un tournant dans lavancement des algorithmes gntiques furent les travaux de D. Davis
[Davis, 1991].
Celui-ci a abord les algorithmes volutionnaires dun point de vue purement pratique.
Avant mme que napparaisse le thorme du no free lunch, Davis statua le premier sur la ncessit de concevoir un algorithme gntique ddi et conu autour du problme rsoudre. Davis
mit en avant une approche "ingnieur" de lalgorithmique volutionnaire. Les rsultats obtenus
par Davis eurent clairement une influence sur le devenir des algorithmes volutionnaires. Les
tudes circulant autour des algorithmes se sont rapidement divises en deux branches : une
premire se proposait dtudier ces algorithmes dun point de vue pragmatique, en tudiant
principalement les applications diverses qui pouvaient tre faites dans le domaine de loptimisation tandis quune deuxime branche sintressait plus particulirement la modlisation
mathmatique et lapproche biomimtique des algorithmes volutionnaires.
Un des points importants levs par Davis est que les algorithmes gntiques sont des mthodes doptimisation dune grande souplesse et trs robustes, en particulier vis--vis du bruit,
mais ne constituent quasiment jamais la meilleure mthode doptimisation dun problme
donn.
Jusquici, ce chapitre a introduit les algorithmes volutionnaires, en gnral, et les algorithmes gntiques en particulier. Aprs une introduction dabord pratique puis thorique ces
algorithmes, les points suivants devraient tre retenus :
le comportement dun algorithme gntique est essentiellement stochastique. Comme
toute mthode volutionnaire, un algorithme gntique noffre aucune garantie dobtention de loptimum global du problme considr en un temps fini ;
la conception dun algorithme gntique pour un problme donn passe par la mise
au point de nombreux oprateurs et paramtres. Une approche incorporant le plus de
connaissances a priori du problme possible est souhaitable ;
la grande libert offerte travers la conception des diffrents oprateurs accorde une
grande souplesse aux algorithmes gntiques. Ces algorithmes permettent de traiter un
trs grand nombre de problmes diffrents et ce, en accordant leurs diffrentes composantes ces problmes.
Nous nous sommes jusqualors intresss aux fondements des algorithmes gntiques, la
forme canonique de celui-ci, les oprateurs traditionnellement employs ainsi que les grands
traits des thories associes. Mais depuis les deux dernires dcennies, lintrt port aux
mthodes volutionnaires a permis lmergence de plusieurs mthodologies et approches lies
celles-ci. La suite de ce chapitre sattache en dcrire certaines des plus reconnues.
87 / 229
5.4
Cette section na pas pour ambition dtudier de manire exhaustive les nombreux concepts
et mthodologies conus autour des algorithmes gntiques. Nous souhaitons, ici, prsenter
certains des dveloppements figurant parmi les plus connus et ayant trait nos travaux.
Diffrentes aspirations furent lorigine de ces dveloppements :
du dsir de saffranchir de la phase, parfois hasardeuse, du paramtrage de lalgorithme ;
dune adaptation de lalgorithme gntique certains types de problmes ;
dune extension du principe de paralllisme implicite de lalgorithme gntique ;
Le lecteur trouvera dans la suite de ce chapitre les diffrents concepts et applications de ces
dveloppements qui ont, pour certains, servis de base notre travail.
5.4.1
Une utilisation efficace des mthodes volutionnaires ncessite la dtermination des paramtres tels que la taille de la population ou les diffrentes probabilits employes pour
lexploration ou lexploitation de lespace des solutions.
Les premiers algorithmes volutionnaires taient paramtrs de faon statique : les diffrents
paramtres influant sur lvolution de la population taient dtermins par lutilisateur, pralablement au lancement de lalgorithme et demeuraient fixes par la suite. Le rglage (comprendre
par l le choix du jeu optimal de paramtres) seffectuait de manire empirique, en choisissant
les paramtres retournant les meilleurs rsultats.
Le problme dun tel rglage est quil revient gnralement affiner les choix des paramtres
successifs en ignorant les interactions existant entre les oprateurs dexploration (mutation) et
de recombinaison (croisement) de lalgorithme. loppos, tester sans stratgie des ensembles
de paramtres revient effectuer un nombre prohibitif dessais.
Une limite vidente de cette technique est quun rglage statique, non content de ncessiter
un nombre important dessais, ne dbouche pas forcment bien au contraire sur un choix
globalement optimal des paramtres.
Enfin, lutilisation de paramtres fixes au sein dun algorithme vocation volutionnaire
donc dynamique est plus que contradictoire, sans compter le fait quun choix de paramtre
optimal lors dune phase de lvolution ne lest plus forcment durant une autre.
Lexemple le plus intuitif illustrant lutilit de paramtres dynamiques est celui de la probabilit de mutation. Au dpart de lexploration, une probabilit importante est souhaitable
afin dtendre celle-ci mais, mesure que la population converge, une probabilit rduite est
prfrable afin daffiner la recherche.
Daprs [Eiben et al., 1999, Richter et Paxton, 2005], nous pouvons regrouper les diffrentes
politiques dadaptativit dun algorithme gntique au sein dune classification.
Contrle dterministe : la valeur du paramtre est influence selon une rgle dtermine. Cela
peut tre une volution en fonction du nombre ditrations dj effectues, par exemple ;
Contrle adaptatif : le paramtre est ajust en fonction de lvolution de la recherche : on utilise
un retour sur la qualit de la population ou sur lexploration en cours ;
88 / 229
Contrle auto-adaptatif : les paramtres ne sont plus globaux mais locaux chaque individu
i.e. les paramtres font partie du gnotype. La distinction avec le contrle adaptatif rside
dans le fait que les paramtres sont grs comme le reste du gnotype et donc soumis aux
diffrents oprateurs gntiques.
Une des premires approches de ladaptativit applique aux algorithmes volutionnaires
est due Rechenberg avec la rgle des 1/5 [Rechenberg, 1970]. Cette rgle sapplique lorigine
dans le cadre dune stratgie volutionnaire note (1+1) (un seul parent et un seul enfant sont
volus) :
les solutions sont modlises par un vecteur de nombres rels,
chaque gnration comporte un seul parent et un seul enfant,
la mutation consiste en laddition du vecteur solution original avec un vecteur de nombres
alatoires gnrs par une distribution gaussienne de moyenne 0 et dcart type : N(0, ).
La rgle des 1/5 consiste adapter le pas de la mutation, , en fonction des performances
observes de la descendance par rapport celle des parents. Prcisment, on relve priodiquement (en fonction du nombre de paramtres volus) le taux des mutations ayant gnr un
meilleur individu. Sil savre suprieur 1/5, le pas de la mutation est augment ; inversement,
le pas est diminu sinon. Le mcanisme de cette rgle est rsum par lquation 5.2.
> 1/5 = c
= 1/5 =
< 1/5 = d
c > 1, d < 1
(5.2)
Le principe tant que, lorsque le taux est assez grand (> 1/5), cela signifie que lon doit
chercher amplifier une recherche de toute vidence fructueuse. Inversement, si la recherche
dgrade les solutions actuelles, il vaut mieux rduire le pas afin de chercher dans la proche priphrie de ces solutions. Cette stratgie a malheureusement t conue sur la base de problmes
linaires et ce, travers une des premires formes de stratgies volutionnaires consistant ne
faire voluer quun seul parent pour un enfant chaque gnration. Des expriences ultrieures
[Chellapilla et Fogel, 1999] montrrent que la rgle des 1/5 savrait rapidement inefficace et
suscitait une convergence prmature.
Bck et Schultz [Bck et Schtz, 1996] ont propos de contrler la probabilit de mutation
en fonction du nombre ditrations dj effectues. Linconvnient dune telle approche est de
tenir compte uniquement du temps et jamais de lvolution de la population (i.e. o en est cette
dernire dans sa convergence ?).
Un autre exemple dadaptativit de la probabilit de mutation de chacun des n diffrents
bits encodant un individu est donn dans [Droste et al., 2001] :
(
)
1
n
89 / 229
5.4.1.1
Une possibilit propose dans [Thierens, 2002] est le contrle par gain constant. Le principe
repose dans un apprentissage de forme stochastique de la valeur du paramtre.
Soit :
I, un individu de la population, dot dune probabilit de mutation Pmute ,
, nomm facteur dexploration : un paramtre rel fix, suprieur 1,
, le coefficient dapprentissage, un paramtre rel fix, 1 < < .
Lors de sa phase de mutation, lindividu I est mut trois reprises, suivant trois probabilits
diffrentes : Pmute , Pmute / et Pmute . Les trois nouvelles solutions obtenues sont values et
la meilleure dentre elles rejoint la population.
La probabilit de mutation de lindividu ainsi slectionn est fixe en fonction du facteur
dexploration son origine et du coefficient dapprentissage consquent :
Pmute
1. mutation(I, Pmute
) (I1 , )
mutation(I, Pmute ) (I2 , Pmute )
mutation(I, Pmute ) (I3 , Pmute )
5.4.1.2
Contrle auto-adaptatif
Comme nous lavons expliqu prcdemment, le principe ici revient encoder directement
les paramtres de contrle des oprateurs gntiques dans le gnotype des individus. Il ny a
pas ici de lien direct entre le choix des paramtres et la qualit des individus retourns. Le lien
se fait indirectement en se basant sur lvolution de la population : les paramtres adquats
renvoient les meilleurs gnotypes qui, leur tour, se propagent dans la population.
!1
(5.3)
90 / 229
1
2x(1 x)
ln x
1x
22
)
(5.4)
5.4.2
Principe gnral
Une difficult inhrente aux algorithmes gntiques est la dtermination de nombreux paramtres, dtermination revenant un problme doptimisation des dits paramtres.
Le principe dun EDA est de faire voluer non plus une population de solutions mais un
vecteur de probabilits formulant la probabilit jointe des meilleures solutions.
Pour cela, les oprateurs de croisement et de mutation usuellement employs dans les algorithmes gntiques sont ici remplacs par une estimation de la distribution jointe des solutions
prometteuses. Cette estimation est itrativement employe afin de gnrer de nouvelles solutions qui, elles-mmes, servent restimer la distribution de probabilits.
91 / 229
Nbp individus, gnrs alatoirement, constituent une population de dpart Pop0 . Dans un
premier temps, NbSE individus sont slectionns parmi P0 avec NbSE Nbp afin de constituer
un chantillon PopSE
. Ces derniers individus, refltant les meilleures solutions gnres, vont
l1
servir la mise jour de la distribution de probabilits volue au sein de lalgorithme dans
la phase suivante. Enfin, un nouvel chantillon P1 est gnr partir de la distribution mise
jour. Lalgorithme boucle ensuite entre mise jour de la distribution et phase dchantillonnage/slection sur cette distribution jusqu un certain critre darrt.
Les EDA peuvent tre schmatiss par le pseudo-code de lalgorithme 8.
Algorithme 8 Algorithme EDA gnral
Pop0 Nbp individus gnrs alatoirement
l1
Rpter
PopSE
NbSE Nbp individus slectionns depuis Popl1
l1
pl (x) = p(x|PopSE
) Estimation de la distribution de probabilit des individus
l1
Popl chantillonner Nbp nouveaux individus (la nouvelle population) depuis pl (x)
ll+1
Tant que la condition darrt nest pas satisfaite
Cette description, volontairement gnrale, occulte plusieurs facteurs, tels que la mthode
de gnration de lchantillon initial P0 et la mthode de slection des NbSE individus au sein
de cet chantillon. La problmatique majeure dans llaboration dune telle mthode demeure
cependant la procdure destimation de la distribution de probabilits des meilleures solutions.
Nous prsentons par la suite deux mthodes base dEDA parmi les plus connues : les
approches UMDA (pour Univariate Marginal Distribution Algorithm) et PBIL (pour PopulationBased Incremental Learning). Remarquons que ces mthodes assument le fait que la distribution
de probabilits jointe volue peut se factoriser simplement, ce qui nest pas toujours le cas.
Algorithme UMDA
Cet algorithme, issu de [Mhlenbein, 1998] et dcrit par lalgorithme 9, modlise la distribution de probabilits
jointe en la rduisant au produit des distributions marginales indpenQn
dantes : pl (x) = i=1 pl (xi ) sur les diffrents xi , i 1 . . . n composant la solution x.
Chaque distribution marginale est elle-mme estime partir des frquences marginales
tires de lchantillon PopSE
: la notation j (Xi = xi |PopSE
) employe dans lalgorithme 9 a pour
l
l1
e
valeur 1 lorsque la i composante du je lment de PopSE
vaut xi et 0, sinon.
l1
Algorithme PBIL
Issu des travaux de [Baluja, 1994], la population dindividus est ici reprsente par un vecteur de probabilits. Les individus slectionns dans lchantillon sont employs afin de mettre
jour la distribution de probabilits dont ils sont issus. Lalgorithme PBIL, dans sa forme originelle, cherche optimiser un vecteur binaire n dimensions. La population est par consquent
92 / 229
p(x|PopSE
)
l1
n
Y
pl (xi )
i=1
n
Y
PNbp
j=1
j (Xi = xi |PopSE
)
l1
NbSE
i=1
, [0, 1]
k=1
slectionner les NbSE (NbSE Nbp ) meilleurs individus xl1:Nb , xl2:Nb , . . . xlNb :Nb
p
p
p
SE
Mettre jour les coefficients de pl (x) :
NbSE
1 X l
xk:Nbp
pl+1 (xi ) = (1 )pl (xi ) +
NbSE
k=1
ll+1
Tant que la condition darrt nest pas satisfaite
93 / 229
Les mthodes EDA ont connu de nombreuses volutions et adaptations des cas prcis. Par
exemple les algorithmes UMDA et PBIL se sont ainsi vu adapter des espaces de recherche continus (respectivement UMDAc [Larraaga et al., 2001] et PBILc [Sebag et Ducoulombier, 1998]).
Nous invitons le lecteur se reporter [Larraaga et Lozano, 2001] pour un panorama des
adaptations dalgorithmes EDA aux cas continus et/ou prsentant des dpendances complexes
entre les composantes des solutions.
5.4.3
Techniques de niching
Les mthodes dites de niching sont une approche particulire, ddie la rsolution des
deux aspects prcdemment voqus. Ces mthodes sont bases sur un principe initial visant
recrer le phnomne de niches biologiques.
Ce type de mthodes est particulirement apprci dans le cadre de loptimisation multimodale 2 , bien quelles ne soient pas rserves cet usage exclusif et peuvent tout aussi bien tre
employes pour la rsolution de problmes unimodaux mais reconnus comme difficiles.
Un panorama complet de ces mthodes, de leurs caractristiques et de leurs performances sur
certains problmes peut tre trouv dans [Mahfoud, 1995], par consquent nous ne prsenterons
ici que certaines des stratgies les plus connues dans le domaine.
La dtermination de niches requiert la dfinition dun voisinage et, par consquent, dune
distance sur un espace. Selon lalgorithme, cet espace peut tre lespace gnotypique ou lespace
phnotypique. Dans le cas de lespace gnotypique, si le codage des individus a lieu sur lespace
binaire une distance employable est la distance de Hamming entre les deux reprsentations. Si
lespace employ est lespace phnotypique, on dfinit alors une distance ad hoc, en fonction du
problme considr.
Les techniques de niching peuvent tre divises en deux grandes catgories : les techniques
dites spatiales et les techniques temporelles.
95 / 229
Ceci jette les bases des mthodes dites de sharing. Une des mthodes les plus reprsentatives de ce principe a t propose par [Goldberg et Richardson, 1987] et revient
considrer la fitness dun individu donn comme tant directement proportionnelle au
nombre dautres individus situs dans cette niche (et donc en de dune distance dtermine dans lespace considr). La fitness modifie, f 0 (x) dun individu x est alors calcule
en fonction de sa fitness de base f (x) et dune somme de termes sharex (i) dpendant des n
individus partageant la niche avec x :
f 0 (x) = Pn
f (x)
La fonction sharex prend ses valeurs dans lintervalle [0, 1], en fonction de la distance entre
les individus i et x.
Techniques temporelles
La justification dune approche diffrente des approches dites spatiales provient du fait
que ces dernires ncessitent implicitement un nombre important dindividus afin de pouvoir
dtecter et maintenir un nombre consquent de niches.
La complexit dcoulant dun tel nombre, couple au fait que le maintien des niches ncessite
de nombreux calculs de distances entre les diffrents lments de la population totale ont incit
les auteurs de [Beasley et al., 1993] dvelopper une approche diffrente, le niching squentiel.
En prsence dun problme doptimisation multimodale, lobjectif de cette technique est de
dterminer squentiellement les multiples optima de la fonction dvaluation utilise. Pour cela,
lalgorithme gntique est itr plusieurs reprises en modifiant chaque itration la fonction
dvaluation ; cette modification revient dprcier les zones de lespace des solutions correspondant aux optima prcdemment localiss. Au terme de chaque itration de lalgorithme
gntique, le meilleur individu jusqualors trouv est considr comme un optimum et dfinit
une niche dans son voisinage. En ce point de lespace des solutions, la fitness est dgrade de
faon dcourager toute future exploitation du mme gnotype qui est, lui stock. Aprs ceci,
lalgorithme est de nouveau itr en employant la fitness modifie.
Aprs un nombre dfini ditrations (ou doptima recenss), les solutions identifies comme
des optima la fonction dvaluation sont retournes.
5.4.3.1
Discussion
Cette introduction aux mthodes de niching a permis de dgager deux approches principales,
les approches spatiales et les approches temporelles. Si, daprs [Mahfoud, 1995], le niching spatial est plus efficace que le niching temporel, les mthodes spatiales impliquent un certain
nombre de contraintes. La maintenance de plusieurs niches, suffisamment distinctes pour justifier une telle approche, ncessite un nombre important dindividus [Hu et Goodman, 2004].
Dautre part, lappel au calcul de distances est aussi rcurrent. Par consquent, recourir une
approche spatiale de type crowding ou sharing implique davoir traiter dun problme avec une
96 / 229
fitness et une fonction de distance inter-individus pouvant tre rapidement calcules. Le principal reproche adress lgard des mthodes squentielles est le fait de modifier les paysage de
la fitness et donc de poser dventuels barrages des volutions ultrieures en interdisant ou
du moins en contraignant fortement le remploi de briques lmentaires correspondant ces
zones dprcies.
Il faut aussi rappeller que la modification de la valeur de la fonction fitness pour un individu
fait aussi partie du fonctionnement des algorithmes de sharing.
5.4.4
Les algorithmes gntiques se sont naturellement prts, de par la nature de leur fonctionnement aussi bien que par les volutions technologiques, leur paralllisation. La paralllisation
dun algorithme gntique revt gnralement deux formes :
Paralllisation des calculs : pour certains problmes, le cot des calculs lis lvaluation
des individus est assez consquent pour que lon envisage de rpartir ces calculs sur
diffrentes machines,
Paralllisation de populations : dans ce cas prcis, les individus sont rpartis en des souspopulations voluant en parallle. Des changes dindividus ou dinformations peuvent
avoir lieu entre les sous-populations ainsi constitues.
5.4.4.1
Dans ce schma, on dispose dune machine matre sur laquelle est gre lvolution de la
population de la mme manire quavec un algorithme gntique simple. On dispose de mme
dune srie de machines relies la premire et qualifies desclaves qui, elles, prennent en
charge le calcul des fitness des individus voluant sur la machine matre.
La machine matre rpartit alors les calculs des diffrentes valuations ncessaires chaque
gnration en transmettant les caractristiques des individus aux machines esclaves. Lvolution
de la population sur la machine matre reprend ds rception de la totalit des valuations
depuis les machines esclaves. La premire implmentation dune telle paralllisation applique
une mthode volutionnaire est due [Grefenstette, 1981].
Un problme vident de ce type de schma est le temps pris par les diffrentes communications entre matre et esclaves, problme dautant plus important que le nombre de machines
sur lesquelles sont rpartis les calculs est grand. Cependant, le schma demeure avantageux
ds lors que le temps du calcul de la fitness des individus est important par rapport au temps
mis pour la communication des donnes.
5.4.4.2
Dans ce type de stratgie parallle, les calculs sont eux aussi traditionnellement rpartis
mais le principe fondamental est de permettre une rpartition de lensemble des individus
97 / 229
volus en sous-populations, elles mmes volues sur des machines spares. Outre lavantage
reprsent, en temps de calculs, par une rpartition des individus sur plusieurs processeurs,
une telle mthode permet dvoluer des populations plus ou moins indpendantes et donc
desprer une meilleure couverture de lespace de recherche.
Plusieurs types de rpartitions peuvent avoir lieu et on distingue gnralement les mthodes rpartissant des groupes de populations, que lon dsigne par le terme de mthodes de
paralllisme grains grossiers (coarse-grained) et les mthodes associant, idalement, un seul
individu par processeur que lon dsigne par le terme de mthodes de paralllisme grain fin
(fine-grained).
Les premires mthodes regroupent diverses stratgies visant rpartir les individus en souspopulations isoles. Les individus dune sous-population voluent de la mme manire que
pour un algorithme gntique classique et des stratgies de migration sont mises en place afin
de permettre le transfert dindividus dune population une autre. Ces mthodes ncessitent
alors la dfinition de paramtres tels que la frquence ou la probabilit de migration ou la
mise en place dune stratgie de slection de candidats la migration dans une population
donne. Un exemple connu est le modle en lots propos par [Cohoon et al., 1987]. Ce modle,
expliqu plus en dtail dans une section ultrieure, rpartit les individus sur plusieurs lots,
ponctuellement relis entre eux par une stratgie de migration. Le lecteur intress pourra
trouver une bonne introduction diffrentes stratgies dans [Cantu-Paz, 1997].
Un modle similaire est celui du stepping stone (que lon pourrait traduire, grossirement,
par tremplin) prsent par [Mhlenbein, 1991]. Ici, les processus migratoires sont limits aux
localisations immdiatement voisines. De plus, un processus damlioration locale par lintermdiaire dune descente de gradient intervient sur les individus dune population ds lors que
la qualit de celle-ci stagne pendant un certain nombre ditrations.
Les modles grain fin diffrent des mthodes prcdentes, comme nous lavons voqu, de
par le fait que les individus dune population sont rpartis en groupes de trs petite taille (parfois, un seul individu) eux-mmes rpartis sur les diffrents processeurs. Ce type de mthode
procde, la manire des modles en lots, par des communications et interactions entre non
plus des populations mais des individus ou petits groupes dindividus voisins. Ces modles
se retrouvent aussi sous la dnomination de modles cellulaires. Un exemple de paralllisme
grain fin peut tre trouv dans [Spiessens et Manderick, 1991] o les auteurs mettent en place
un systme cellulaire o chaque cellule/individu est associe un processeur.
Les mthodes de paralllisation, et plus particulirement le modle de populations rparties
en lots, seront abordes plus en dtail dans la suite de ce travail.
5.5
Cest avec les travaux de Larranaga [Larranaga et al., 1996, Etxeberria et al., 1997] quapparaissent les premires tentatives dapprentissage de structure par un algorithme gntique.
Lauteur tente alors deffectuer lapprentissage avec ou sans connaissance dun ordre topologiquement correct sur les variables du rseau laide dun algorithme gntique.
98 / 229
Ce premier article prsentait surtout lintrt douvrir la voie pour des tudes ultrieures ;
en effet, le choix des paramtres et des oprateurs tait limit : taille de population limite,
oprateur de croisement en un point. De plus les possibilits et contraintes inhrentes lespace
des quivalents de Markov taient alors peu employes.
Dans [Larraaga et al., 1996], les auteurs emploient un algorithme volutionnaire de manire
indirecte. En effet, celui-ci effectue sa recherche sur lensemble des ordres topologiques. Une
fois le meilleur ordre dtermin, celui-ci sert de base un apprentissage par lalgorithme K2 (cf.
section 4.4.2). Les auteurs emploient des oprateurs couramment employs pour la rsolution
du problme du voyageur de commerce (PVC), en effectuant toutefois quelques modifications.
En effet, si un chemin peut tre symtrique, cela nest pas le cas avec un ordre topologique (i.e.
les chemins A B C et C A B sont une mme solution pour le PVC tandis que les
ordres topologiques (1, 2, 3) et (3, 1, 2) sont deux solutions au problme de lapprentissage de
structures).
Cotta et Muruzbal [Cotta et Muruzbal, 2002] soulignent lintrt de lemploi doprateurs
phnotypiques plutt que gnotypiques i.e. prenant en compte lexpression mme, dans lindividu de lallle pris en compte plutt que par une slection purement alatoire (approche
gnotypique).
Dans [Wong et al., 1999], le critre MDL est employ pour lapprentissage des structures.
Leur algorithme, nomm MDLEP (pour dnoter la combinaison du critre MDL la programmation volutionnaire) ne comporte pas doprateur de croisement mais utilise en revanche
une srie doprateurs de mutation afin de faire voluer la population courante. A noter que
lun des oprateurs est "guid" dans le choix des gnes muter par lapport de ceux-ci en terme
de critre MDL, celui-ci tant calcul au dpart pour chaque arc possible.
Par la suite, les auteurs dvelopprent une version avance de MDLEP, nomm HEP (Hybrid
Evolutionary Programming) pour laquelle une hybridation est mise en place [Wong et al., 2002].
Celle-ci consiste dterminer pralablement un squelette en effectuant une srie de tests dindpendance dordre faible (0 et 1) permettant de limiter lespace de recherche : si une variable
X est indpendante dune variable Y suite aux tests, les arcs X Y et X Y ne pourront tre
ajouts par loprateur de mutation. cela, les auteurs ajoutent, dans un souci de rapidit de
calcul, la fermeture des oprateurs en interdisant la cration, conscutivement une mutation,
dun circuit au sein dun individu. Les rsultats se montrent ds lors substantiellement meilleurs
quen labsence dhybridation, mme si les comparaisons se limitent une confrontation entre
les deux versions de leur algorithme.
Une autre approche, similaire la prcdente, est celle adopte dans [van Dijk et al., 2003a,
van Dijk et al., 2003b, van Dijk et Thierens, 2004]. Les auteurs proposent une mthode base elle
aussi sur la construction pralable dun squelette partir de tests dindpendance statistiques
dordre 0 et 1. Les gnes sont alors les arcs non orients du squelette et les allles pour chaque
gne sont au nombre de 3 : "absent", "X Y" et "X Y". Cette mthode est trs semblable
celle de [Wong et al., 2002] except que lvolution des individus ne se fait ici que par le
biais des recombinaisons et de lintervention de deux oprateurs de rparation. Les rsultats de
[van Dijk et Thierens, 2004] se montrent sensiblement meilleurs que ceux obtenus par lalgorithme HEP mais la qualification des rsultats en termes de qualit structurelle (i.e. la structure
obtenue est-elle proche de celle recherche ?) nest pas mentionne.
Les auteurs de [Muruzbal et Cotta, 2004, Muruzbal et Cotta, 2007] ont tent deffectuer la
99 / 229
recherche directement sur lespace des quivalents. La recherche seffectue la fois sur lespace
des graphes reprsentants et au sein de chacun de ces graphes par des orientations diffrentes
dans lespace des structures des arcs non-orients des reprsentants. Le consensus lissue de
cette recherche tant quune telle recherche duale ne savre efficace que lorsque le changement
despace intervient au moment opportun.
Une autre approche de lexploitation de lespace des graphes essentiels est celle prsente
dans [Acid et de Campos, 2003] o lalgorithme parcourt lespace des graphes partiellement
orients sans circuit (GPOSC) restreints. Ces graphes sont une forme particulire de GPOSC dont
plusieurs membres distincts peuvent correspondre la mme classe dquivalence, occupant
ainsi une position intermdiaire entre lespace des GOSC et celui des GE.
Certains travaux appliquent les approches de type EDA, prsentes prcdemment, la
recherche de structures de rseaux baysiens. Dans [Blanco et al., 2003], les auteurs se sont
attachs appliquer deux approches, de type UMDA et PBIL, la recherche dans lespace des
GOSC. Ces algorithmes ont t appliqus la distribution des arcs dans la matrice dadjacence
de la structure recherche. Les rsultats semblent en faveur de lapproche PBIL mais on peut
cependant remarquer que certains rsultats (comme par exemple le fait que les rseaux appris
sans connaissance de lordre topologique soient parfois meilleurs que lorsque celui-ci est connu)
auraient mrit une tude plus pousse ou du moins quelques commentaires.
Dans [Romero et al., 2004], deux approches, UMDA et MIMIC ont t appliques la recherche sur lespace des ordres topologiques possibles pour la structure recherche, les individus (cest--dire les ordres topologiques candidats) tant eux-mmes valus par le biais du
score baysien. Enfin, un mot sur la recherche de structures en prsence de donnes incom-
pltes. Le principal obstacle dans le cadre de cette problmatique est que, comme dans le cas de
lalgorithme Structural EM, lvaluation dune structure ncessite lvaluation des paramtres
associs celle-ci. Si cette valuation se fait par le biais de lalgorithme EM, le cot en calculs
de lvaluation est trop lev pour pouvoir tirer profit dun algorithme volutionnaire. En revanche, une autre approche a t formule par [Myers et al., 1999] proposant de ne faire non pas
seulement voluer les structures candidates mais aussi les donnes manquantes. Lvaluation
des structures se faisant alors sur la base complte.
5.6
Conclusion
Depuis leur apparition, les mthodes volutionnaires ont connu de nombreux dveloppements, tant thoriques que pratiques. De mme, ces mthodes, souvent performantes pour des
problmes doptimisation reconnus comme difficiles, se sont vues appliques au problme de
lapprentissage de structures de rseaux baysiens.
Lapprentissage de la structure dun rseau baysien laide dune fonction de score et en
labsence da priori tel que lordre topologique de la structure recherche, il courant davoir
recours un algorithme de type glouton sur lespace des structures ou bien sur celui des classes
dquivalences.
100 / 229
101 / 229
Deuxime partie
103
Chapitre 6
6.1
Les oprateurs, stratgies et paramtres prsents dans cette section sont les implmentations
des lments classiquement dfinis au sein dun algorithme gntique. Avant de prciser le cur
de notre mthode de niching, nous dtaillons ici la structure gnrale du moteur volutionnaire.
Par la suite, nous comparerons les rsultats obtenus par cet algorithme avec ou sans application
dune stratgie de niching.
105
6.1.1
Lalgorithme gntique effectue une recherche dans lespace des graphes orients sans circuits. Chaque solution envisageable est reprsente, dans la population, par sa matrice dadjacence C = (cij ), (i, j) [1 . . . N]2 :
(
cij =
1 si X j parent de Xi
0 sinon
La figure 6.1 montre un exemple de correspondance entre une structure et sa matrice dadjacence.
6.1.2
La qualit dun individu est gale au score quil obtient vis--vis de la base de cas considre.
Nous avons vu, dans la partie consacre lvaluation des mthodes prsentes, que plusieurs
critres taient susceptibles dtre employs pour valuer la qualit dune structure. Dans la
littrature, la grande majorit des mthodes emploient, dans leurs rsultats, le score BDeu ou
le critre BIC, mais ces deux mesures sont asymptotiquement gales. Nous avons finalement
choisi demployer le critre BIC et ce pour deux raisons :
le critre BIC choisit le modle le plus simple parmi ceux dcrivant la distribution de
probabilit recherche. Si dans le cas des bases dapprentissage deffectifs faibles ceci peut
entraner la non-dtection de certains liens, il nous semble plus logique dadmettre un
ensemble domissions sur les dpendances du domaine que den ajouter de superflues ;
la plupart des mthodes de la littrature emploient ce critre. Si les mesures ne sont pas
comparables numriquement du fait que les diffrents travaux emploient gnralement
des bases dapprentissage non publiques, les rsultats qualitatifs sont en revanche plus
facilement comparables.
De plus, il faut remarquer que le critre BIC ainsi que le score BDeu approximent la vraisemblance marginale de la structure et donc, mesure que la taille de la base dapprentissage
augmente, ces deux scores convergent vers une mme valeur.
106 / 229
6.1.3
En nous basant sur les rsultats de [Franois et Leray, 2004] et daprs nos propres exprimentations, nous avons opt pour une initialisation de la population de structures par les
diffrents arbres (selon le sommet racine choisi) retourns par lalgorithme MWST (cf. section
4.4.1). Bien que ces n arbres soient Markov-quivalents, cette initialisation permet de gnrer, au
point de vue de la population volue par lalgorithme gntique, des individus prsentant des
caractristiques pertinentes (sous la forme dun sommet prdcesseur pour chaque variable,
except la racine de larbre). De plus, ds les premires gnrations, laction conjugue des oprateurs de croisement et de mutation, dcrits plus loin, permet dobtenir des individus varis
et de bonne qualit et enfin dobtenir un gain intressant en terme de temps de convergence.
Nous utilisons larbre non-orient retourn par lalgorithme : chaque individu de la population est initialis par un arbre orient partir dune racine choisie alatoirement. Ce mcanisme
permettant dintroduire une certaine diversit dans la population.
6.1.4
Nos premiers essais ont montr que lemploi dune slection par roulette o la probabilit
qua un individu dtre slectionn pour la reproduction est directement proportionnelle sa
qualit dbouchait sur une convergence prmature de lalgorithme. Cette observation est
assez commune. La slection par roulette est effectivement le premier oprateur de slection
avoir t propos en algorithmique volutionnaire et son principal dfaut est dtre rapidement
biais en accordant une trop grande importance aux individus les plus performants de la
population.
Une autre possibilit est la slection par tournoi. Cet oprateur maintient une pression
constante, uniquement base sur les rangs respectifs des individus considrs. Nanmoins, la
pression reste forte, mme dans le cas dun tournoi binaire (le plus simple juste derrire la
slection alatoire).
Une alternative permettant dattnuer ce phnomne de prdominance de certains individus est le fitness scaling. Ces mthodes ainsi que leur principe gnral sont prsentes dans
[Forrest, 1985, Kreinovich et al., 1993] et ont pour objectif de permettre dans un premier temps
dempcher le phnomne de prdominance des "super individus" lors des premires gnrations tout en assurant, lorsque la population converge, que les individus de qualit moyenne
alors en grand nombre nentrave pas la reproduction des meilleurs. Le principe gnral du
fitness scaling revient employer non plus la fitness des individus mais une fonction de celle-ci
(fonction linaire, en exposant ou exponentielle, pour citer les fonctions les plus rpandues).
Linconvnient des mthodes de fitness scaling est dtre dfinies et employes de manire ad
hoc, i.e. choisies et employes de manire empirique, sans pour autant sappuyer sur une relle
tude ou justification thorique de leur efficacit.
Nous avons opt pour une slection par rang, o chacun des individus de la population a
une probabilit de se reproduire gale :
Pselect = 2
+ 1 rang(individu)
( + 1)
(6.1)
107 / 229
Cette stratgie permet de favoriser les individus les mieux adapts tout en laissant aux
individus les plus "faibles" lopportunit de participer au processus dvolution.
Si linconvnient majeur de cette mthode est de ncessiter un classement systmatique des
individus au pralable, ce cot reste ngligeable.
Par la suite, les individus slectionns ont une probabilit Pcross de se reproduire. Au cours
de nos tests, nous avons utilis une valeur de Pcross gale 0,8.
Enfin, loprateur de mutation est, quant lui, appliqu aux individus issus de la phase de
croisement ainsi quaux individus nayant pas t slectionns.
Lors du passage dune population Pt de taille la population Pt+1 suivante, nous employons
une stratgie de remplacement qualifie dlitiste ; une telle approche revient conserver le
meilleur individu de la population linstant t lors du passage linstant t+1, ds lors quaucun
des individus nouvellement gnrs (par croisement et mutation) linstant t ne sest avr
meilleur que celui-ci le reste de la population au temps t + 1 tant alors constitu des 1
meilleurs nouveaux individus .
6.1.5
Oprateurs gntiques
Plusieurs oprateurs interviennent dans laction de lalgorithme gntique, dont les oprateurs de croisement et de mutation. Nous avons aussi d dvelopper un oprateur de rparation
afin de pouvoir liminer les circuits ventuellement crs lors de lvolution de la population.
Oprateur de croisement
Les possibilits sont, ici aussi, nombreuses. Dans un premier temps, nous avions opt pour
un oprateur de croisement simple, en un point [Delaplace et al., 2007a] :
Soient P1 et P2, deux individus choisis pour tre mutuellement croiss ;
j k
loprateur coupe les matrices dadjacence de P1 et P2 sur les colonnes, au point n2 ;
j k
j k
le premier enfant issu du croisement portera les colonnes (1 : n2 ) de P1 et ( n2 + 1 : n) de
P2, comme indiqu sur la figure 6.2.
Par la suite, un autre oprateur a t dvelopp, sur le modle de [Vekaria et Clack, 1998]. Cet
oprateur permet de gnrer lui aussi deux individus mais, la diffrence du prcdent, le choix
des points de croisement est une fonction de la qualit de lindividu [Delaplace et al., 2007b].
La forme prise par le critre BIC (et, en gnral, par toute fonction de score dcomposable)
permet en effet dattribuer un score local chaque ensemble {Xi , i } du domaine U. Nous
pouvons donc choisir, partir de ces diffrents scores locaux, de gnrer un individu ayant reu
les meilleurs lments de ses anctres ainsi que, respectivement, un individu constitu des
lments les moins performants .
Le schma de fonctionnement de cet oprateur, prsent dans la figure 6.3 est semblable
celui de loprateur simple ceci prs que les deux enfants gnrs reoivent de chacun
des graphes parents les ensembles sommets/variables parents ayant les meilleures valuations
locales respectivement les plus mauvaises pour le deuxime graphe enfant .
108 / 229
SAd j2 (X1 )
SAd j2 (X2 )
SAd j2 (X3 )
SAd j2 (X4 )
o SAdjk (Xi ) reprsente le score obtenu localement en Xi sur le graphe Gk . Nous obtenons alors
deux individus : un compos des ensembles de variables parents les mieux valus et lautre
compos des ensembles restants.
109 / 229
Oprateur de mutation
Chaque colonne j [1 . . . n] dun individu a une probabilit Pmute dtre modifie. Si une
colonne mute, une modification parmi celles possibles est effectue en un de ses coefficients ci j :
Si cij = 0, gain dun parent : cij 1 ;
Si cij = 1, deux possibilits, quiprobables :
perte dun parent, cij 0 ;
ou inversion de la parent (cij 0, c ji 1).
Par modifications possibles, nous entendons bien sr lajout darcs alors inexistants et, inversement, la soustraction ou linversion darcs existants ; mais aussi le fait que lon ne peut
ajouter un arc arrivant sur une variable depuis une variable enfant de celle-ci. Cela crerait un
circuit de longueur 2 et, aprs appel loprateur de rparation, reviendrait une inversion
tout en ayant ncessit plus de calculs.
Figure 6.3 Exemple de croisement slectif en plusieurs points. Ici, les scores locaux du graphe
parent Ad j1 sont suprieurs ceux au sein du graphe parent Adj2 , except pour la variable X4 .
toute modification locale sur le gnome dun individu est immdiatement rpercute sur le
phnotype de celui-ci par le biais du calcul du score local. La consquence direct de ceci est que
la phase dvaluation de la population gnre, prsente dans lalgorithme gntique canonique
vu dans la section 5.2, a en fait lieu pour chaque individu, en fonction des modifications opres,
la suite des mutations subies par celui-ci.
111 / 229
Oprateur de rparation
Si, la suite du croisement ou de la mutation, un graphe orient prsente un circuit, cet
individu nest pas viable. Dans ce type de situation, deux choix sont couramment offerts :
liminer lindividu concern ou bien tenter de le rparer. Dans notre algorithme, un dtecteur
de circuits est appliqu aux individus muts. Si un circuit est dtect, loprateur de rparation
supprime un des arcs appartenant au circuit.
Nous avons choisi dindiquer loprateur quels taient les arcs dont la suppression tait la
112 / 229
plus judicieuse.
Ds linitialisation, lalgorithme calcule linformation mutuelle, telle quelle est dfinie dans
[Chow et Liu, 1968], entre chaque paire de variable (X1 , X2 ), du domaine :
X Nx ,x
Nx ,x M
1 2
W(X1 , X2 ) =
log 1 2
(6.2)
M
Nx1 Nx2
x ,x
1
o lon note :
Nx1 ,x2 , le nombre doccurences simultanes dans la base de X1 = x1 et X2 = x2 ;
Nx1 , le nombre doccurences dans D de X1 = x1 ;
Nx2 , le nombre doccurences dans D de X2 = x2 .
Linformation mutuelle nous fournit une indication quant au degr de dpendance des deux
variables XA et XB . Notamment, cette information est nulle si et seulement si les deux variables
sont indpendantes.
A chaque appel, loprateur de rparation rcupre la valeur de linformation mutuelle des
couples de variables du circuit dtect ; larc effectivement supprim tant alors celui reliant le
couple de variables dtenant linformation mutuelle la plus faible.
Il peut arriver quun individu prsente plusieurs circuits, ceci la suite dune mutation ayant
gnr et/ou invers plusieurs arcs. Dans ce cas, la rparation est effectue de manire itrative,
en commenant par supprimer le circuit le plus court jusqu ce que lensemble des circuits ait
t supprim.
Nous nous sommes jusquici attachs dcrire les spcificits dun algorithme gntique
que lon pourrait qualifier de simple. Hormis les oprateurs et certaines caractristiques, cet
algorithme napplique aucune stratgie de parcours de lespace de recherche ou de rpartition
de la population volue. La section suivante nous amne rflchir aux caractristiques dune
stratgie de type niching qui serait adapte au problme dapprentissage de structures.
6.2
Nous avons vu, dans la section 5.4.3, que les mthodes de niching taient particulirement
adaptes aux problmes doptimisation multimodale en permettant une exploration plus efficace de lespace des solutions dans le cas de problme doptimisation multimodale.
La dfinition des mthodes de scores (cf. section 4.3) nous a permis de dfinir des fonctions
dvaluation permettant la slection de modles dans lespace des structures. Il savre que
le problme de la slection de la meilleure structure (ou, tout du moins, dune structure de
bonne qualit) savre difficile. Les fonctions dvaluation, quelles tiennent compte ou non
de la complexit du modle valu comme le score BIC , prsentent de nombreux optima
locaux.
Les mthodes de niching paraissent donc tre un choix adquat pour le traitement de lapprentissage de structures.
Cependant, les mthodes de niching se divisent en deux catgories : les mthodes dites
spatiales et les mthodes dites temporelles. Ces deux familles de mthodes ont pour point
113 / 229
commun la dfinition dune notion de distance permettant de dfinir et maintenir les diffrentes
niches dans lesquelles seront rparties, idalement, les diffrents individus. Avant de dfinir
quelle stratgie de niching nous allons adopter, nous commencerons par essayer de dfinir une
distance employable dans lespace des solutions notre problme.
6.2.1
Les premires mthodes de niching, appliques des solutions encodes dans lespace binaire, dfinissaient une distance sur lespace gnotypique par le biais dune distance de Hamming. Cette notion a-t-elle un sens dans le cadre de lapprentissage de structures ?
Si lon se rfre la notion de graphes quivalents au sens de Markov, celle-ci implique
que deux structures diffrentes peuvent proposer la mme dcomposition de la loi jointe sur
la domaine et donc obtenir le mme score, si ce dernier est quivalent (cf. section 4.3) .
Cela signifie quune mthode de niching employant une distance base sur une distance de
Hamming dans lespace des structures considrera, par exemple, les deux structures GE1 et
GE2 de la figure 6.5-a (ou deux structures prsentant un nombre consquent de diffrences
similaires) comme dissocies alors quelles appartiennent toutes deux la classe dquivalence
reprsente par le graphe essentiel GE1 de la figure 6.5-c.
Inversement, les GOSC G et G3 , figure 6.5-b, dont les classes dquivalences sont respectivement reprsentes par les GE GE1 et GE2 de la figure 6.5-c seront tiquets comme tant
plus proches.
Figure 6.5 Exemples de lapplication de la distance de Hamming dans lespace des structures.
114 / 229
Une distance de Hamming dfinie sur lespace des structures ne parait donc pas adquate
car elle ne tient pas compte de proprits essentielles des structures considres.
[Mahfoud, 1995] recommande lemploi de distances dfinies sur lespace phnotypique.
Une telle distance, dans le cas des structures de rseaux baysiens, pourrait tre la divergence
de Kullback-Leibler (cf. annexe A) ou une autre mesure de divergence base sur lentropie
[Lin, 1991]. La divergence de Kullback-Leibler, sous une forme adapte, permet de dfinir
une distance entre deux rseaux baysiens (plus exactement, entre les deux distributions de
probabilits de la loi jointe reprsentes par ces rseaux baysiens). Cependant, la divergence
de Kullback-Leibler prsente un inconvnient majeur : la quantit de calculs requise. Il en
effet ncessaire, pour calculer cette distance, de calculer un logarithme sur lensemble des
instanciations du domaine prsentes dans la base dapprentissage. Pour un rseau tel que le
rseau INSURANCE prsent dans le chapitre 8, pralablement aux rsultats exprimentaux,
il est alors ncessaire de procder lvaluation de nombreuses probabilits jointes. Sachant
que les distances, dans une mthode de niching doivent tre calcules rapidement pour les
diffrents individus, la quantit de calculs requise par la divergence de Kullback-Leibler rend
lemploi de cette dernire rdhibitoire. De plus, mme en ignorant la complexit de calcul de
la divergence, deux critres viennent dfinitivement interdire lemploi de celle-ci dans une
mthode de niching : la divergence de Kullback-Leibler nest pas symtrique et ne respecte pas
lingalit triangulaire, interdisant ainsi son emploi en tant que distance (nous verrons quune
divergence de Jensen-Shannon symtrique, borne et respectant lingalit triangulaire
ncessite encore plus de calculs).
Concrtement, le problme de la dtermination dune distance entre deux structures candidates pour un mme domaine de variables demeure un problme ouvert. La littrature
consacre lapprentissage de structures de rseaux baysiens emploie, dans lvaluation de la
qualit des rsultats dune mthode, diverses mesures (cart de score, distance de Hamming,
etc.) en conjugaison, aucun mesure ne pouvant elle seule permettre la dtermination dune
relle diffrence entre deux structures.
Malgr cela, nous avons mentionn une proprit importante des structures de rseaux
baysiens, proprit permettant de regrouper les structures proposant des modlisations similaires : la notion de graphes quivalents. Deux graphes structurellement diffrents (par certaines
orientations) peuvent encoder une mme dcomposition de la loi jointe sur le domaine modlis. Lemploi des classes dquivalence en tant que niche, au sein dune stratgie de niching
applique lapprentissage de structures parat donc tre une possibilit.
Un autre point motivant lemploi des classes dquivalence est que la dtermination dune
mthode de niching adapte passe par la dtermination dun paramtre supplmentaire : le
rayon dun niche :
un rayon trop grand risque daffecter dventuels optima proches dans lespace employ
(gnotypique ou phnotypique) ;
si le rayon est trop faible, lalgorithme perd vraisemblablement en efficacit.
En gnral, le rayon employ est dtermin soit par une connaissance a priori du problme
ou par dtermination empirique, ce qui rend la dtermination dun rayon adquat difficile, en
pratique. Le choix des classes dquivalence en tant que niches permet de saffranchir de ces
problmes en ngligeant la notion de distance.
La dtermination de lappartenance ou non une mme classe dquivalence et donc lappartenance de deux individus une mme niche peut se faire simplement, par le biais de la
115 / 229
distance de Hamming calcule entre les graphes essentiels reprsentant les classes dquivalences respectives des deux structures, plus prcisment partir des matrices dadjacence des
graphes essentiels correspondants lappartenance la mme classe dquivalence impliquant
alors que la distance de Hamming entre les GE est nulle . Lobtention du graphe essentiel dune
structure et donc la caractrisation dune niche peut se faire alors rapidement en employant,
par exemple, les algorithmes de calcul des GE utiliss par [Chickering, 2002b].
Le nombre de GOSC diffrents appartenant une mme classe dquivalence est limit
3,7 daprs [Perlman et Gillispie, 2001] . Par consquent, on peut lgitimement remettre en
question la pertinence dun tel choix. Il faut cependant se replacer dans le cadre de notre
problmatique. Il existe en effet de nombreux optima locaux en lespace des GOSC lorsque nous
employons un mthode de score classique telle que les scores BDeu ou BIC ; en revanche, nous
pouvons lgitimement penser que les structures obtenant un score lev et correspondant des
optima locaux pour la fonction dvaluation employe sont structurellement assez proches de
loptimum global recherch.
Par la suite, nous dfinissons donc une niche comme lensemble des GOSC appartenant
un mme classe dquivalence au sens de Markov. La dfinition dune niche tant effectue, il
nous reste liciter le type de mthode de niching au sein de laquelle lemployer.
6.2.2
Le choix dune mthode de niching implique en premier lieu de choisir entre une approche
temporelle (niching squentiel) ou spatiale (mthodes de sharing ou de crowding).
Le consensus gnral, exprim dans [Mahfoud, 1995], est que les mthodes relevant du
niching spatial renvoient de meilleurs rsultats que le niching squentiel. Mahfoud explique ces
diffrences de performances par les observations suivantes :
1. le niching squentiel, travers son systme de dgradation squentielle de la valeur
de la fitness aux points optimaux, modifie le paysage de la fonction dvaluation et,
conscutivement :
de faux optima risquent dapparatre la limite des zones dgrades,
lexploration de lespace de recherche se voit entrave par la cration de zones de
faible fitness ; lexploration et donc lapparition de matriel gntique correspondant
aux individus de ces zones est dcourage,
dventuels optima, situs proximit doptima dtects en de du rayon de la niche
correspondante sont ignors car leur fitness est arbitrairement dgrade. Ceci tant
essentiellement d une mauvaise dfinition de la taille des niches cres,
2. on peut observer un phnomne de convergence rpte vers les zones prcdemment
dprcies.
Nous pouvons nanmoins remarquer que si les principaux reproches mis lgard du
niching squentiel concernent la modification de la fitness, ce comportement est partag par les
mthodes spatiales de type sharing. De plus, un des reproches voqus, savoir la destruction
ventuelle doptima locaux au voisinage des optima dtects, ne saurait tre pris en compte
dans notre cas. En effet, si nous dfinissons une niche comme consistant en lensemble des
116 / 229
6.2.3
Lalgorithme procde une volution comparable celle dun algorithme gntique classique
(cycles itrs dvaluation, slection, reproduction et remplacement des individus) ceci prs
quune liste doptima est tenue jour. Les individus correspondant ces optima voient leur
fitness dgrade afin de dcourager toute visite et maintenance de ces individus.
6.2.3.1
Optima locaux
Comme nous lavons prcis dans la section, les optima locaux, dans le cadre de notre
mthode, correspondent des classes dquivalence au sens de Markov. Quand au moins
une classe dquivalence a t tiquete comme correspondant un optimum de la fitness,
les diffrents individus de la population appartenant un optimum de cette liste voient la
valeur de leur fitness dgrade afin de dcourager toute exploitation ultrieure de ces parties de
lespace des solutions. La dtermination de lappartenance ou non dun individu une classe
dquivalence de la liste intervient lors de la phase dvaluation, aprs gnration par croisement
et mutation de la nouvelle population. Le GE de chaque nouvel individu est alors calcul et
compar ceux contenus dans la liste des optima. Si une correspondance est dtermine, alors
lindividu concern voit sa fitness pnalise et fixe une valeur arbitraire (trs faible, infrieure
au score de la structure vide).
Les classes dquivalence rpertories par la liste sont dtermines au cours du droulement
de lalgorithme : si, au terme dun nombre prdtermin Iteopt ditrations, il ny a pas damlioration de la fitness du meilleur individu, lalgorithme rcupre le GE de la classe dquivalence
de celui-ci et lajoute la liste.
Il est important de remarquer ici que les optima locaux ne sont pas interdits de manire
formelle dans la population. Les optima enregistrs peuvent trs bien rapparatre dans notre
117 / 229
population suite un croisement. Lvaluation des classes dquivalences prsentes ne commence en effet qu lissue de la phase de mutation ; un optimum pralablement mmoris peut
fort bien rapparatre lissue de lopration de croisement et lindividu concern subir une
mutation permettant dexplorer le voisinage de cet optimum.
6.2.3.2
Comportement de lalgorithme
Les auteurs de [Beasley et al., 1993] procdent une rinitialisation du processus volutif
aprs chaque dtermination dun optimum. Notre algorithme poursuit lvolution en considrant la liste, mise jour, de ces optima. Nanmoins, en permettant la population de poursuivre
son volution au voisinage des optima dtects, nous cherchons prserver les diffrentes
briques lmentaires jusqualors trouves ainsi qu rduire le nombre dvaluations que requerraient plusieurs lancements de lalgorithme.
6.2.3.3
Arrt de lalgorithme
la rencontre dun critre darrt, lalgorithme gntique termine donc son excution en
renvoyant la liste des optima dtermins jusqualors. Le critre darrt de lalgorithme peut
aussi tre envisag de manires diffrentes, par exemple :
soit aprs un nombre fix doptima locaux dtects ;
soit aprs un nombre fix ditrations (gnrations) en tout.
Nous optons pour la deuxime possibilit. Choisir un nombre fixe doptima locaux peut,
en effet, savrer tre un choix nettement plus arbitraire que celui du nombre ditrations. En
fonction du problme considr et/ou des donnes dapprentissage, le nombre doptima locaux
en lesquels le processus volutif ou une autre heuristique de parcours peut stagner peut
varier.
terme, lalgorithme renvoie un GOSC correspondant linstanciation du GE rattach au
meilleur score au sein de la liste des optima.
Le fonctionnement de lalgorithme est donn, en dtail, dans le pseudo-code de lalgorithme
11.
Un paramtre important de lalgorithme est, premire vue, le seuil au del duquel un
individu est identifi en tant quoptimum de la fonction dvaluation.
Il est ncessaire de dfinir une valeur de ce paramtre, que nous nommons Iteopt , qui soit :
ni trop petite : considrer trop htivement une classe dquivalence comme tant un
optimum local entraverait lexploration de lespace de recherche de lalgorithme gntique
et lon cumulerait de plus un trop grand nombre doptima ;
ni trop grande : perte du bnfice de la mthode en restant trop longtemps en un mme
point de lespace de recherche : les optima locaux freinent alors effectivement la progression
de la recherche.
Lexprience nous a montr quune valeur de Iteopt situe entre 15 et 25 itrations permet
dobtenir de bons rsultats. La mthode semble en effet assez stable au niveau de la valeur du
paramtre Iteopt tant que, comme nous lavons voque, cette valeur permet la fois de rester
118 / 229
119 / 229
peu de temps autour dun mme optimum tout en permettant la population de converger
autour de celui-ci.
La valeur de la pnalit inflige aux classes dquivalences est, nous lavons dit, arbitraire.
La seule contrainte est que la valeur laquelle est abaisse lvaluation de loptimum dtect
soit infrieure celle de la plus mauvaise structure possible, par exemple : 1015 .
6.2.4
Exprimentations et rsultats
6.3
Bien que nous ayons choisi demployer une mthode de niching squentiel, nous pouvons
lgitimement nous interroger sur les avantages que pourrait avoir, pour la rsolution de notre
problme, lapplication dune stratgie de rpartition spatiale. Nous avons en effet vu quune
approche prnant une rpartition spatiale des individus prsentait, elle aussi, des avantages,
notamment dans la dcouverte et la perptuation dun matriel gntique diversifi.
Un comparatif entre une mthode spatiale telle que le sharing ou le crowding (cf. section
5.4.3) avec une mthode squentielle nest cependant pas lobjet de ce travail de thse ; par
consquent, nous avons dcid de mettre au point et dimplmenter une mthode permettant
de combiner les deux aspects (temporel et spatial) des mthodes de niching.
Pour cela, nous avons combin les notions vues dans la section prcdente une technique de
rpartition de la population telle quapplique dans le cadre des algorithmes gntiques parallles (cf. section 5.4.4). Nous dcrivons dans la suite comment sopre cette hybridation, quelle
est la stratgie de rpartition des individus ainsi que limplmentation finale de lalgorithme
combinant les deux notions.
120 / 229
6.3.1
6.3.1.1
La thorie des algorithmes gntiques distribus est frquemment relie aux thories de la
gntique des populations. Nous nentrerons cependant pas dans le dtail des considrations de
cette branche de recherche et nous nous contenterons de citer les principaux points en relation
avec lalgorithmique volutionnaire.
Un des modles de systme parallle les plus implments est le modle en lots (ou Island
model). Ce terme est en fait rapprocher de son vis--vis dans le domaine de ltude gntique :
le modle de populations en les de Wright [Wright, 1964] (le mme S. Wright auquel est
communment attribue la paternit des rseaux baysiens [Wright, 1921]).
Figure 6.6 Modle de populations en lots. Ici, les populations sont compltement interconnectes.
Ce modle consiste en un ensemble de d populations localises chacune sur des les indpendantes (voir figure 6.6). Les lots (on utilise, en gntique, le terme dmes) peuvent changer des
membres de leur population avec dautres dmes. Notons que ce modle est essentiellement
thorique et ne sert, en biologie, quafin de pouvoir modliser aisment les phnomnes de
migration et dchanges de gnes entre populations.
Il existe, localement chaque population, un phnomne de drive gntique, amenant
les diffrents gnomes vers un stade dhomognit des gnomes. Ces diffrents phnomnes
de drive sont supposment inter-indpendants. Du fait de lintroduction du phnomne de
121 / 229
migration, ces drives perdent leur indpendance dans chaque population, amenant lintroduction de nouveaux allles dans des dmes o un autre allle stait fix. Sans aller plus loin
dans le domaine biologique, nous pouvons dores et dj tablir la consquence du phnomne
migratoire dans cette modlisation : le taux dindividu partageant le mme matriel gntique
au sein dune sous population ne va plus tendre vers 1 comme cela est le cas avec un algorithme
panmictique.
Cette homognit diminue dautant plus avec la croissance du nombre ponctuel de migrants
arrivant chaque gnration. La conclusion, en termes dalgorithmique volutionnaire, est que
la diversit gntique est plus grande au sein dune population subdivise quau sein dune
population panmictique.
Dautres modles de populations distribus existent, mais leur diffrence rside dans des
modes de transitions et de dfinitions diffrentes de voisinage et, surtout, les implmentations
de ces modles pour lalgorithmique volutionnaire se sont avres infructueuses.
Une autre thorie, issue elle aussi de la biologie et frquemment accepte comme une explication aux performance des algorithmes distribus, est celle de lquilibre intermittent (ou punctuated equilibrium). Daprs cette thorie [Eldredge et Gould, 1972, Martin et al., 1997], lvolution
des espces est caractrise par de longues priodes de stabilit entrecoupes de courtes mais
remarquables phases de changements. Dans un algorithme gntique, les priodes de stabilit
correspondent une convergence prmature. Lorsque plusieurs sous populations voluent en
parallle, les migrations ponctuelles dune sous population une autre permettent linjection
de nouveau matriel gntique et par consquent un redmarrage de ltape dexploration de
lespace des solutions.
6.3.1.2
Notre implmentation
Bien que les modles en lots, tels quils sont introduits dans la section 5.4.4, sinscrivent dans
le cadre dimplmentations rparties sur plusieurs processeurs. Nous avons choisi ici dimplmenter notre mthode sur un unique processeur. Limplmentation sur plusieurs machines en
parallle est bien entendu tout fait envisageable, nanmoins nous nous contenterons dans le
cadre de nos travaux dvaluer notre implmentation en termes de performances des individus
valus, critre indpendant de la nature de limplmentation.
Typiquement, pour un modle de populations rparties en lots, des paramtres additionnels
entrent en ligne de compte, en plus des paramtres dun algorithme panmictique [Tanese, 1989] :
lintervalle migratoire : not Imig , il sagit du nombre ditrations au sein dune ou de lensemble des sous-populations considres sparant deux phases migratoires ;
le taux de migration : not Tmig , indique le taux dindividu, au sein dune sous-population,
slectionns pour la migration ;
nombre de sous populations : le nombre dlots entre lesquels sopreront les diffrentes migrations ;
la taille des sous populations : communment, des populations de tailles identiques voluent
sur les diffrents lots. La taille de chaque population est gale une fraction du nombre
total dindividus. Cependant, rien nempche de gnraliser en proposant des tailles
distinctes pour chaque population.
122 / 229
6.3.2
Exprimentations et rsultats
Les rsultats des tests effectus partir des deux mthodes prsentes dans ce chapitre ont
t regroups dans le chapitre 8.
Les tests prliminaires effectus avec notre mthode hybride prsents en annexe C ont
montr une stabilit du comportement de lalgorithme vis--vis des paramtres de migration.
Nous avons nanmoins opt pour un rglage de ces paramtres 20 itrations pour lintervalle
migratoire et 10% de la population pour le taux de migration. Le nombre de sous populations
ainsi que la taille en nombre dindividus de ces dernires ont t tout deux fixs 30.
123 / 229
Chapitre 7
7.1
Introduction
7.2
Notre mthode
interdire loprateur de mutation dintervenir plus dune fois sur un mme ensemble
k et devoir restimer la distribution P(i, j|Opmute ), j , k entre chaque opration de
mutation ;
P(Opmute |i, j) : ici, lopration effectue est dtermine par le choix pralable de larc. Ce choix
na pas dintrt car la dtermination de larc ai j sur lequel oprer implique, au plus, de
choisir entre une opration de soustraction ou dinversion si aij = 1. Dans le cas contraire,
seule lopration dajout est possible. ;
P(i|Opmute , j) : revient dterminer le sommet de dpart de larc en fonction de lopration
licite. Le sommet darrive tant dtermin, nous pouvons alors dfinir n distributions
P(i|Opmute , j), i , j, 1 i, j n comptant chacune n 2 paramtres indpendants. Chaque
ensemble de sommets parents des variables du domaine peut alors muter une seule fois
avec la probabilit Pmute et il est inutile de procder des calculs intermdiaires entre
chaque opration ;
P(j|Opmute , i) : cette distribution revient, en termes de calculs, lemploi de P(i|Opmute , j). Mais
en dfinissant une probabilit sur les sommets darrive des arcs tant donn un sommet
parent, nous irions lencontre du principe de notre modlisation qui utilise les calculs des
scores locaux sur les sommets darrive. La mme remarque, portant sur la modlisation
employe, est valable pour la distribution P(Opmute , j|i).
Compte tenu des remarques prcdentes, nous avons dcid dimplmenter un mcanisme
de contrle sur la distribution de probabilits P(i|Opmute , j) et donc influer sur le choix dun
sommet de dpart tant donn le sommet darrive, pour une opration donne.
Nous pouvons dores et dj dterminer le code de lalgorithme 13, lequel dcrit le droulement dune phase de mutation pour une structure donne.
Algorithme 13 Droulement de la phase de mutation dun individu
1: Pour j = 1 . . . n Faire
2:
Si j mute avec une probabilit Pmute Alors
3:
liciter une opration de mutation Opmute parmi les oprations ralisables sur j
4:
appliquer Opmute(i, j) avec la probabilit P(i|Opmute , j)
5:
Fin Si
6: Fin Pour
Opmute
128 / 229
avec
(i, j)
Op
mute
(
=
(i,j)
Op
mute
=1
(7.1)
1
n1
1 i, j n, Opmute (i, j)
129 / 229
130 / 229
Implmentation
linitialisation de lalgorithme, une probabilit de mutation Pmute commune lensemble
des individus, pour chacun des ensembles i , i 1, . . . n, est fixe.
Nous dfinissons trois matrices, ZA , ZS et ZR .Chacune de ces matrices est affilie un parmi
trois ensembles de coefficients selon lopration de mutation considre :
ZA : matrice des coefficients affilis lopration dajout dun arc ;
ZS : matrice des coefficients affilis lopration de soustraction dun arc ;
ZR : matrice des coefficients affilis lopration dinversion dun arc ;
Ces trois matrices tiennent pour lensemble de la population et dfinissent une pondration
pour lopration de mutation affilie ainsi que pour les diffrents arcs sur lesquels cette dernire
peut tre applique.
Le fonctionnement de lalgorithme est le suivant :
lors de chaque phase de mutation, pour un individu donn, chaque ensemble des diffrents
ensembles de nuds parents de chaque ensemble de nuds prdcesseurs (ou parents)
j , j 1 . . . n de celui-ci subit une opration de mutation avec la probabilit Pmute ;
quand un ensemble j doit muter, un type dopration Opmute est choisi alatoirement
parmi les types dopration possibles sur j ;
une fois lopration dtermine, larc X j Xi sur lequel va porter celle-ci est choisi
alatoirement, en fonction des coefficients normaliss correspondant Opmute et au couple
(Xi , X j ) ;
aprs chaque opration de mutation, nous dterminons si oui ou non cette modification
a t fructueuse (i.e. a-t-elle permis une amlioration du score global de lindividu ?).
Op
Un compteur ij mute li au couple de sommets (i,j) et lopration de mutation Opmute
concerne est incrment (opration bnfique) ou dcrment (dgradation du score) ;
131 / 229
lorsque tous les individus ont mut, les diffrents compteurs rendent compte du nombre
de fois o les diffrentes oprations se sont rvles bnfiques (ou dommageables) : ces
dcomptes servent mettre jour les coefficients des trois matrices ZA ,ZS et ZR .
Une description plus formelle de cette mthode est donne par les algorithmes 14 et 15.
Lalgorithme 14 dcrit le droulement de notre mthode durant la phase de mutation, au cours
de laquelle sont observes les consquences des diffrentes oprations de mutation.
Lalgorithme 15 dcrit la procdure de mise jour des coefficients .
Algorithme 14 Phase de mutation
Entre: Un individu I, trois matrices de coefficients ZA , ZS et ZR , trois matrices de dcompte
A , S et R correspondant aux oprations d(A)jout, de (S)oustraction ou dinversion
((R)eversal) dun arc.
Sortie: Individu mut I0 = {GI , Score(GI )}, matrices des coefficients et de dcompte mises
jour.
1: Opmute (i, j) 0, (i, j) {1, . . . , n}, Opmute {A, S, R}
2: Pour j = 1 . . . n Faire
3:
Si j mute Alors
4:
Choisir une opration de mutation Opmute , Opmute {A, S, R} parmi celles possibles
5:
Effectuer lopration Opmute (i, j) sur larc (Xi , X j ) avec la probabilit :
p= P
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
7.3
Exprimentation
Des tests prliminaires, prsents en annexes C, ont pench en faveur dune valeur de 0,5
pour . Cette valeur a t employe pour les tests et comparatifs prsents dans le chapitre 8.
132 / 229
Opmute
(i,j)
i j
, 0.9)
Opmute
(i, j)
i j
, 0.1)
133 / 229
Chapitre 8
Exprimentations
Lensemble des mthodes dcrites dans nos travaux ont t implmentes et testes partir de
deux toolbox Matlab spcialement ddies aux rseaux baysiens. La premire est la Bayesian
Net Toolbox de K. P. Murphy [Murphy, 2001]. La deuxime est la Structure Learning Package
(SLP) de P. Leray et O. Franois [Francois et Leray, 2004], conue en complment de la BNT et
implmentant les principaux algorithmes dapprentissage de structure.
Ce chapitre est consacr la prsentation des rsultats de nos diffrentes mthodes ainsi
quaux rsultats renvoys par certains des principaux algorithmes dapprentissage de structure.
8.1
Objectifs et mthodes
Nous prcisons la notion de lapprentissage de structure dans le cadre de nos exprimentations car celle-ci ignore certains lments documents ou, du moins, voqus dans les chapitres
de ltat de lart tels que :
135
CHAPITRE 8. EXPRIMENTATIONS
prise en compte dun a priori sur la structure recherche, fourni par un expert ;
emploi, pour lapprentissage de bases de donnes incompltes ;
dtection dventuelles variables latentes.
Maintenant que nous avons tabli la dmarche suivie lors de lapprentissage, nous prsentons
dans la section suivante les mthodes employes ainsi que les protocoles associs.
8.1.1
Dans un souci de comparaison avec les mthodes existantes, nous avons employ, conjointement aux diffrentes mthodes volutionnaires que nous avons mises au point, quelques unes
des mthodes dapprentissage de structures, parmi les plus usites :
lalgorithme K2 ;
lalgorithme glouton sur lespace des structures, not GS ;
lalgorithme glouton sur lespace des graphes quivalents, not GES ;
lalgorithme MWST ;
lalgorithme PC.
On peut remarquer que les mthodes avec lesquelles nous nous comparons sont, exception
faite de lalgorithme PC, des mthodes de la famille search and score parcourant lespace des
structures candidates laide dune mesure dvaluation.
Les mthodes bases sur lemploi dun score prsentes dans ce chapitre sont toutes utilises
en association avec le critre BIC, dont les caractristiques sont rappeles plus loin dans ce
chapitre. Il est bien entendu possible dutiliser la plupart de ces mthodes avec dautres scores
ou critres, mais nous souhaitons ici avant tout comparer le comportement des algorithmes lors
du parcours de lespace de recherche et nous utilisons donc le mme critre pour chacun deux.
Une remarque doit cependant tre mise lgard de lalgorithme PC. Cet algorithme (cf.
section 4.2.1) mesure lindpendance de deux variables conditionnellement aux diffrents sousensembles de variables du domaine. Mme en limitant le nombre de nuds prdcesseurs
potentiels pour la structure recherche, la recherche de structures de grandes tailles (telles que
les structures INSURANCE et ALARM) seffectuait dans des dlais rendant lvaluation de
lalgorithme inintressante, comparativement aux autres mthodes (nous avons prfr arrter
les tests avant leur compltion, celle-ci tant suprieure 24h l o certaines mthodes telles
que MWST ne ncessitaient que quelques secondes). Nous navons employ cette mthode que
lors de lapprentissage de la structure du rseau ASIA.
Les mthodes que nous venons dnumrer sont, de mme, compares nos quatres algorithmes volutionnaires dapprentissage :
lalgorithme gntique simple, que nous dsignerons par la suite par AG ;
lalgorithme gntique panmictique combin une stratgie de niching squentiel, not
AGpenal ;
lalgorithme gntique avec adaptativit de la mutation, not AGmemo ;
lalgorithme gntique combinant le mcanisme de niching squentiel avec un schma de
distribution de la population en lots que nous notons AGdist .
136 / 229
CHAPITRE 8. EXPRIMENTATIONS
Lensemble de ces mthodes sont compares sur le plan de la qualit des structures apprises,
structures correspondant aux modles dcrits ci-aprs.
8.1.2
CHAPITRE 8. EXPRIMENTATIONS
138 / 229
CHAPITRE 8. EXPRIMENTATIONS
lutilisation de ces modles permet de se figurer la qualit de nos mthodes par rapport aux
mthodes passes (et venir, sans doute).
Nous utilisons chacun de ces rseaux afin de synthtiser :
quatre ensembles de bases dapprentissage pour chaque rseau. Chaque ensemble contenant un certain nombre de bases, contenant le mme nombre de cas (250, 500, 1000 ou 2000
cas) ;
une base unique, de grande taille (20 000 ou 30 000 cas) pour chaque rseau. Cette base a
pour objectif, de par sa taille, dtre suffisamment reprsentative des dpendances conditionnelles du rseau dont elle est originaire.
Lensemble de ces bases est obtenu par chantillonnage probabiliste logique (ou probabilistic
logic sampling) [Henrion, 1988] : la valeur des sommets nayant pas de prdcesseurs est fixe
alatoirement, en accord avec les tables de probabilits du rseau dorigine, puis les variables
restantes sont chantillonnes suivant le mme principe, en tenant compte des valeurs des
sommets prdcesseurs.
Nous utilisons plusieurs bases dapprentissage pour un rseau et un nombre de cas par base
donns, afin de rduire tout biais conscutif une erreur dchantillonnage. En effet, dans le cas
de bases de taille limite, il se peut (et il est mme frquent) que les statistiques pouvant tre
extraites de ces bases ne reprsente pas exactement les dpendances conditionnelles prsentes
dans le rseau dorigine. Par exemple, si lon considre le rseau ASIA, une base ne contenant
que 100 cas chantillonns depuis le rseau dorigine, peut ne comporter aucune instanciation
du domaine pour laquelle la variable "TUBERCULOSE" est vraie.
Aprs apprentissage auprs des bases de taille limite, les scores BIC des structures retournes par les diffrentes mthodes sont obtenus partir de la base de grande taille voque
prcdemment, afin destimer des mesures qualitatives vis--vis de la distribution de probabilits quelle reprsente (proche, du fait du nombre lev de cas, de celle du modle dorigine).
8.1.3
Mesures utilises
Afin de mesurer les performances des algorithmes volutionnaires, nous utilisons diffrentes
valeurs (nombre ditrations loptimal, convergence du score BIC en fonction des itrations)
ne pouvant sappliquer aux autres mthodes, non stochastiques. Nanmoins, afin de pouvoir
comparer notre travail ces algorithmes, nous disposons dautres critres.
Les problmes inhrent une mesure de distance entre deux structures ont t abords
dans le chapitre 6. La consquence, dans la littrature consacre lapprentissage de structures,
notamment, est que plusieurs mesures doivent frquemment tre employes afin de permettre
au lecteur den faire une synthse et dinterprter la qualit des rsultats.
Score BIC
Prsent dans la section 4.3, le critre BIC est un critre dinformation permettant de mesurer,
ici, ladquation entre un rseau baysien et une base de cas. Ce critre applique le principe de
139 / 229
CHAPITRE 8. EXPRIMENTATIONS
parcimonie en incluant dans son calcul une pnalit, fonction de la complexit structurelle du
modle.
Le critre BIC se prsente numriquement sous la forme dun score ngatif, que nous cherchons maximiser.
Le critre BIC prsente lavantage dtre dcomposable, quivalent et consistant (cf. section
4.3). La proprit de consistance revenant, pour un score, dlivrer le score maximal au modle
effectivement sous-jacent la base dinformation notre disposition. Cette affirmation devant
tre nanmoins tempre dans le cas de bases de donnes de taille limite. Dans ce cas, il se
peut fort bien quune structure diffrente de la structure dorigine parvienne mieux modliser
les indpendances prsentes et, donc, obtenir un meilleur score que cette dernire. Pour cette
raison, les valeurs des scores BIC donnes dans ce chapitre le sont par rapport des bases de
donnes de grande taille, indpendamment des bases ayant servi lapprentissage (except,
nous le verrons, pour les mesures de divergence entre les distributions reprsentes o la base
ayant servi apprendre la structure est aussi employe pour apprendre les paramtres du
rseau construit). Ceci permet de se reprsenter une notion effective de la similarit entre le
modle appris et le modle rel, lequel a de trs fortes chances dobtenir le meilleur score dans
ces conditions.
CHAPITRE 8. EXPRIMENTATIONS
les deux graphes obtiennent le mme score BIC (score quivalent) mais prsentent une distance
graphique non nulle compte tenu des inversions darcs entre les deux GOSC (linversion).
En utilisant le critre de distance structurelle, il est donc important de conserver lesprit que
les inversions peuvent aussi bien tre sans consquences (linversion correspond un arc non
orient dans le graphe quivalent) que plus grave (linversion cre ou dtruit une V-structure).
Divergence de Jensen-Shannon
La divergence de Jensen-Shannon, apparente la divergence de Kullback-Leibler toutes
deux prsentes en annexe A , permet de mesurer la dissimilarit entre deux distributions de
probabilits. Adapte pour deux rseaux baysiens B1 et B2 , elle scrit :
q1i
1
ri
n X
X
2
i jk
1
JS(B1 ||B2 ) =
i jk log
1 (X ) = j1 , G , ) + 1
2
P(X
=
k|
2
2
i
i
i=1 j1 =1 k=1
i jk
q2i
ri
n X
X
2 2i jk
X
2i jk log
+
2 (X ) = j2 , G , ) + 2
P(X
=
k|
1
1
i
i
i jk
i=1 j2 =1 k=1
o k (Xi ) dsigne lensemble des parents du nud Xi dans la structure Gk du rseau Bk .
Cette divergence permet de mesurer la reprsentativit de la loi encode par un rseau
baysien appris avec celle du rseau original. En partant dune structure apprise et dune base
reprsentative de la distribution de probabilits dorigine, nous crons un rseau baysien B2
dont nous calculons la divergence avec le rseau dorigine.
Le calcul de la divergence de Jensen-Shannon est cependant trs long. Il est en effet ncessaire
de calculer les probabilits de survenance de lensemble des instances du domaine rpertorie
dans la base de donnes, pour chaque modle.
Nous navons employ la divergence de Jensen-Shannon que pour comparer les rsultats
obtenus sur lapprentissage du rseau ASIA, les calculs requis pour le calcul de cette divergence
dans le cas de structures plus complexe stant avrs trop longs pour tre efficacement effectus
sur lensemble des tests raliss.
Conjointement la distance ddition graphique, la divergence de Jensen-Shannon permet
de dcomposer le rsultat du score BIC lequel tient compte la fois de la reprsentativit du
modle et de sa complexit graphique.
Mesures statistiques
Nous verrons dans la section consacre lanalyse des rsultats que les diffrences de
reprsentativits des bases dapprentissage que nous employons a pour consquence une dispersion assez importante des scores des solutions dune mthode donne lorsque celles-ci ont
t apprises partir dune base de taille limite. Afin de pouvoir faire ressortir les diffrences
dcelables entre les diffrents rsultats, nous emploierons, au sein des tables de rsultats, un
141 / 229
CHAPITRE 8. EXPRIMENTATIONS
test statistique non paramtr permettant de pouvoir affirmer lexistence dune diffrence significative entre deux groupes de scores obtenus. Ce test, le test de Mann-Whitney (cf. annexe
A), est ici employ sous lhypothse bilatrale de lexistence dune diffrence significative entre
les deux sries de scores compars, avec un seuil de confiance de 5%.
8.1.4
Protocoles exprimentaux
Le paramtrage des algorithmes, sauf prcision contraire, a t le suivant lors des tests :
8.1.4.1
K2 : Cet algorithme ncessite lentre dun ordre topologique sur les sommets du graphe
recherch. Nous avons utilis dans ce but deux types dinitialisation :
lordre topologique dun arbre retourn par la mthode MWST (mthode K2-T) ;
un ordre topologique alatoire (mthode K2-R).
Pour chaque instance de K2-R i.e. pour chaque base dapprentissage considre , nous
procdons 5 n initialisations alatoires pour ne retenir que celle renvoyant le meilleur
score BIC ;
GS : lalgorithme glouton, not GS, est initialis avec un arbre retourn par la mthode MWST,
dont la racine est alatoirement fixe ;
GES : lalgorithme glouton sur lespace des graphes quivalents, GES, est initialis avec la
structure vide ;
MWST : lalgorithme MWST est initialis avec un nuds racine slectionn alatoirement
(ceci na pas dinfluence sur le score de la structure obtenue) ;
PC : les indpendances conditionnelles sont dtermines par lintermdiaire du test du Chi2
de Pearson (cf. annexes A.2.0.1). Le seuil de confiance associ est fix 0,05. Le nombre
maximal de sommets prdcesseurs, pour une variable de la structure recherche est,
quant lui, fix 3.
8.1.4.2
taille de la population : 150 individus pour les algorithmes ne faisant voluer quune
seule population. Lalgorithme population distribue AGdist fait voluer, quant lui, 30
sous-populations rparties de 30 individus chacune ;
probabilit de mutation : n1 ;
probabilit de croisement : 0,80 ;
politique litiste : le meilleur individu de la population en cours est conserv la gnration
suivante ;
critre darrt : le nombre ditrations, fix 1000. Except pour lalgorithme distribu
pour lequel cette limite a t fixe 300 ;
initialisation : les populations des diffrentes mthodes volutionnaires sont initialises
de la mme manire : par larbre non-orient renvoy par lalgorithme MWST, orient
partir dun sommet racine choisi alatoirement. Nous nous assurons nanmoins que
chaque sommet soit choisi au moins une fois en tant que racine.
142 / 229
CHAPITRE 8. EXPRIMENTATIONS
Le choix des valeurs de paramtres tels que la probabilit de croisement ou celle de mutation
proviennent dune part de certaines conventions dans le domaine des algorithmes volutionnaires [Bck, 1993] mais aussi et surtout dobservations empiriques faites au long de nos travaux.
Si les rsultats de ces (nombreuses) expriences ne sont pas dtaills ici, les rsultats de certaines
expriences menes afin de fixer une valeur adquate certains paramtres spcifiques nos
mthodes tels que le nombre et la taille des sous populations au sein de lalgorithme AGdist
figurent dans lannexe C.
Le nombre ditrations fix en tant que critre darrt des diffrents algorithmes a t licit
suivant deux critres :
une fois une taille de population assurant une bonne convergence de celle-ci, il convient de
fixer un nombre maximal ditrations afin de limiter le nombre total dvaluations. Lintrt
dune stratgie volutionnaire ntant pas tant de converger mais aussi de pouvoir le faire
dans une limite de temps/ditrations raisonnable ;
il est cependant intressant dassurer un temps assez long lvolution afin de pouvoir
observer, au final, le vritable temps mis par la population trouver la meilleure solution.
Le choix du nombre ditrations se veut donc la fois suffisant pour pouvoir observer et
interprter les performances de la mthode considre tout en vitant un nombre dvaluations
faussant la comparaison de rsultats avec des mthodes gloutonnes.
Outre les paramtres communs aux diffrentes mthodes volutionnaires lists prcdemment, les algorithmes AGpenal , AGmemo et AGdist ncessitent eux-mmes la dfinition de certains
paramtres particuliers. Ces paramtres ont fait lobjet de tests particuliers, eux aussi prsents
dans lannexe C
pour AGpenal , le paramtre Iteopt est fix 20 ;
pour AGmemo , le paramtre est fix 0,5. De plus, nous employons avec cet algorithme une
probabilit de mutation de n1 afin de tirer profit du mcanisme dadaptivit de loprateur
de mutation ;
pour AGdist lintervalle migratoire Imig est rgl 20 itrations tandis que le taux de migration Tmig est de 10%.
Pour chaque rseau appris et pour une taille de base dapprentissage donn, chaque mthode
est excute une fois, les rsultats sont ensuite moyenns sur lensemble des bases employes.
8.2
La structure ASIA tant simple, comparativement aux autres algorithmes figurant dans nos
exprimentations, nous avons choisi de ne pas employer les mmes paramtrages gnraux
quavec les structures complexes comme Insurance. Les paramtres particuliers employs pour
ASIA sont les suivants :
nombre ditrations : 100 itrations pour AG et AGpenal , 50 pour AGmemo et 40 pour lalgorithme distribu AGdist ;
paramtre de mmorisation Iteopt pour lalgorithme AGpenal fix 10 ;
143 / 229
CHAPITRE 8. EXPRIMENTATIONS
Rsultats et commentaires
ASIA
250
500
1000
2000
AG
68912 910
68345 212
68273 68
68244 11
AGpenal
68959 919
-68338 213
68272 69
-68241 1
AGmemo
68908 840
68401 349
-68274 69
68243 4
AGdist
-68857 826
68340 213
68273 69
68242 1
GS
69197 916
68514 512
68307 95
68262 56
GES
68907 768
68422 266
68291 93
68251 0
K2-T
69093 925
68447 419
68276 68
68255 24
K2-R
69358 875
68617 448
68327 129
68266 55
MWST
70178 546
69959 226
69931 168
69857 60
PC
73916 2371
72039 1523
72592 1643
73106 1492
Original
68241
G0
88564
Tableau 8.1 Moyennes et cart-types arrondis des scores BIC obtenus par les diffrentes
mthodes, pour lapprentissage de la structure du rseau ASIA partir de 30 bases de cas
distinctes. Les valeurs moyennes minimales, pour chaque taille de base dapprentissage, sont
grises. titre indicatif, les scores des structures dorigine et de la structure vie, G0 , sont
indiqus en bas de table. Le signe dans une case signifie que les rsultats de la mthode
correspondantes sont significativement diffrents de ceux de la mthode prsentant la meilleure
moyenne (vrification par un test de Mann-Whitney).
La premire table de rsultats notre disposition, la table 8.1, recense les scores des structures
obtenues par les diffrentes mthodes, moyenns (correspondant aux 30 structures obtenues
sur chaque base des diffrents ensembles, pour une taille donne).
Pour des bases de donnes de taille faible et peu reprsentatives, les mthodes volutionnaires, ainsi que les mthodes gloutonnes GS et GES obtiennent des rsultats semblables. Il est
noter que les mthodes GS et GES, nous le verrons dans la section 8.6.2, obtiennent ici leurs
rsultats en des temps brefs. La structure du rseau ASIA est en effet trs simple.
Les mthodes de type K2 (R ou T) sont trs rapides, mme en tenant compte, pour lalgorithme K2-T de lexcution pralable de lalgorithme MWST afin dobtenir un ordre topologique
en entre.
Cependant, lorsque la taille des bases dapprentissage augmente (et donc, que ces bases
deviennent plus reprsentatives de la distribution de probabilits du modle recherch), les
performances de lalgorithme GS se dgradent comparativement celles des algorithmes vo144 / 229
CHAPITRE 8. EXPRIMENTATIONS
ASIA
250
D
500
Inv
Inv
AG
0, 7
1, 3
3, 1
0, 5
1, 2
1, 3
AGpenal
0, 7
1, 3
2, 8
0, 3
1, 2
1, 3
AGmemo
0, 7
1, 3
3, 5
0, 6
1, 5
1, 3
AGdist
3,8
0, 7
1, 2
1, 9
2,7
0, 3
1, 1
1, 3
GS
5, 1
2, 1
1, 2
2, 2
1, 6
GES
3, 8
0, 6
1, 3
1, 9
0, 3
1, 3
1, 3
K2-T
6, 7
1, 3
3, 3
7, 2
1, 7
1, 5
K2-R
4, 2
0, 8
1, 4
0, 8
1, 8
1, 4
MWST
6, 1
2, 1
6, 7
3, 8
1, 9
PC
7, 5
0, 1
4, 4
7, 7
3, 8
3, 8
1000
AG
2000
Inv
Inv
2,4
0, 2
1, 2
2, 2
0, 2
1, 1
0, 9
AGpenal
2,4
0, 2
1, 2
1, 1
0, 9
AGmemo
2, 9
0, 4
1, 3
1, 2
2, 6
0, 3
1, 3
AGdist
2, 5
0, 2
1, 1
1, 2
2, 2
0, 1
1, 1
0, 9
GS
2, 8
1, 2
5, 5
1, 2
3, 3
GES
2, 4
0, 2
1, 2
1, 1
0, 9
K2-T
1, 8
7, 5
1, 9
4, 6
K2-R
3, 2
0, 7
1, 4
1, 1
3, 4
0, 7
1, 7
MWST
6, 1
0, 7
3, 7
1, 7
6, 4
0, 6
4, 2
1, 6
PC
6, 6
0, 1
2, 9
3, 6
5, 4
2, 4
Tableau 8.2 Diffrences structurelles moyennes entre les rponses des diffrents algorithmes
et la structure du rseau ASIA partir de 30 bases de cas distinctes. Les valeurs moyennes
minimales sont grises.
ASIA
250
500
1000
2000
AG
124 50
46 17
23 9
10 3
AGpenal
124 49
46 17
23 9
93
AGmemo
123 49
48 19
23 9
93
AGdist
123 49
46 17
22 8
93
GS
139 49
54 25
27 11
12 7
GES
126 51
53 24
2513
10 6
K2-T
149 46
53 22
24 9
10 4
K2-R
134 55
64 21
29 12
13 6
MWST
214 37
174 24
152 14
141 68
PC
392 140
279 82
292 100
332 105
Tableau 8.3 Moyennes et cart-types arrondis des divergences de Jensen-Shannon des solutions
obtenues par les diffrentes mthodes, pour lapprentissage de la structure du rseau ASIA
partir de 30 bases de cas distinctes. Pour faciliter leur lecture, les valeurs sont ici arrondies et
multiplies par 104 . Les moyennes minimales, pour chaque taille de base dapprentissage, sont
grises.
145 / 229
CHAPITRE 8. EXPRIMENTATIONS
lutionnaires et de lalgorithme GES ; les tests de Mann-Whitney dmontrent quil existe une
diffrence significative entre les rsultats de GS et ceux des autres mthodes.
Les performances de lalgorithme PC sont dcevantes sur le plan des scores BIC des structures
obtenues. Ce comportement tait cependant prvisible, cet algorithme tant le seul ne pas
employer le score BIC en tant que critre de slection pour les solutions quil renvoie.
Les valeurs des carts types sont relativement leves, pour lensemble des mthodes, lorsque
les bases sont de tailles faibles. La reprsentativit des bases est en effet, dans ce cas, trs variable.
De manire intuitive, on peut fort bien se reprsenter le fait quune mme base de trs petite
taille a des chances de pouvoir tre issue de lchantillonnage de modles diffrents. Ainsi, pour
une base dapprentissage donne, le modle correspondant la meilleure valuation (modle
reprsentant le plus simplement et au mieux la probabilit sous-jacente) peut tre trs diffrent
du modle lorigine de la base. Ce comportement se vrifie entre autres par le fait que lcart
type des scores des solutions retournes par une mthode donne diminue mesure que la
base dapprentissage employe devient plus grande. Cependant, on peut remarquer que les
rsultats des mthodes K2-R et K2-T voient aussi leurs cart-types se rduire alors que leur
sensibilit lordre topologique qui leur est fourni en entre devrait, a priori, les amener la
ralisation de structures trs diffrentes. En fait, dans le cas dtude qui nous intresse, nous
procdons 5*n lancements partir dordres topologiques alatoires ; dans le cas dun rseau
de petite taille tel quASIA, cela suffit obtenir, en moyenne, de bons rsultats. Nous verrons
dans les expriences suivantes que dans le cas de rseaux plus compliqus, ceci peut cependant
savrer trs dommageable pour la qualit des solutions.
Les solutions retournes par les mthodes volutionnaires dans leur ensemble, pour des
bases dapprentissage de 2000 cas, obtiennent des scores trs proches de celui du rseau original,
score prsent en bas de la table 8.1, et ce malgr une distance ddition graphique non nulle.
Ceci est expliqu par, en gnral, lobtention dune structure o le lien entre les variables Visit to
Asia et Tuberculosis est absent (de poids faible en terme de probabilit, son ajout dgrade le score
BIC en de dune certaine taille pour la base dapprentissage, en compliquant la structure. Les
inversions darcs, sont alors mettre au compte darc nappartenant pas une V-structure.
La table 8.2, rpertoriant les valeurs moyennes des distances ddition entre les graphes
retourns et la solution recherche, refltent les rsultats qualitatifs de la prcdente table en
donnant lavantage aux mmes mthodes. On peut cependant remarquer que dans le cas de
bases de petites tailles (250 ou 500 cas), alors que les scores BIC des structures retournes par
lalgorithme glouton ne prsentaient pas de diffrence significative avec ceux des mthodes
volutionnaires ou GES, les structures correspondantes prsentent une distance ddition suprieure, en particulier un nombre darcs superflus lgrement suprieur.
Les distances ddition les plus dfavorables sont attribues aux solutions des algorithmes
MWST consquence naturelle de la limitation de cet algorithme lespace des arbres et
lalgorithme K2 initialis par lordre topologique induit par lalgorithme MWST. Dans ce
dernier cas, la majorit des diffrences rside dans linversion darcs
Les mthodes volutionnaires permettent, au final, dobtenir des structures, pour le rseau
ASIA, de bonne qualit et peu diffrentes, graphiquement, de la structure dorigine.
La dernire table de rsultats, la table 8.2, renvoie les valeurs moyennes des divergences de
Jensen Shannon entre les modles construits partir des structures renvoyes et des bases dap146 / 229
CHAPITRE 8. EXPRIMENTATIONS
prentissage correspondantes (servant alors apprendre les paramtres des modles) et celle
du rseau ASIA. Dans lensemble, les modles les plus proches sont, ici aussi, renvoys par les
mthodes volutionnaires et lalgorithme GES. On peut remarquer, de mme, que les cart types
des divergences des solutions renvoyes par les mthodes volutionnaires sont aussi rduits,
comparativement ceux correspondant aux autres mthodes, y compris GES. Lalgorithme GS,
ainsi que les mthodes de type K2 renvoient, elles aussi, des rsultats de bonne qualit. Les solutions les plus loignes de la distribution dorigine sont celles renvoyes par lalgorithme PC.
En regard de la table 8.2, les rsultats de cet algorithme ont pour particularit, comparativement
aux solutions dautres mthodes de prsenter un nombre suprieur darcs manquants. Cette
mthode semble devoir ncessiter un nombre consquent dexemples afin de pouvoir assurer la
fiabilit des tests dindpendance conditionnelle la base de son fonctionnement, un reproche
frquemment adress lgard des mthodes statistiques dapprentissage des structures.
Ltude des apprentissages effectus autour de la structure du rseau ASIA permet de se
figurer une premire ide des qualits intrinsques aux diffrents algorithmes que nous employons. Les rsultats prsents ici ne permettent pas de distinguer un meilleur comportement
de la part dune mthode parmi les mthodes volutionnaires et les algorithmes gloutons mais
nous pouvons dores et dj remarquer que les mthodes les plus rapides (nous renvoyons le
lecteur la section 8.5 pour une description plus complte des temps de calculs des mthodes
rpertories) ont un revers en ce quelles confrent une reprsentation limite (lalgorithme
MWST est limit lespace des arbres) ou bien font preuve dune grande sensibilit lgard
de leurs donnes dentre.
Dans la suite, nous allons tenter de dgager plus prcisment les qualits des algorithmes
en les confrontant lapprentissage de structures plus complexes, telles que celle du rseau
Insurance.
8.3
Le rseau Insurance, reprsent sur la figure 8.2, est bien plus complexe que le rseau ASIA.
Notamment, dtail non prsent sur la figure, de nombreuses probabilits conditionnelles au
sein de ce rseau ont une valeur trs faible et sont donc difficiles tablir partir dune base de
cas restreinte.
Lapprentissage est effectu, pour chaque taille donne, sur un ensemble de 10 bases de cas
chantillonnes depuis le rseau Insurance. Chaque base dapprentissage fait ici lobjet dun
seul apprentissage, pour chaque mthode.
Rsultats et commentaires
Du fait de la multiplicit des variables, les scores sont plus levs et nous avons choisi de
prsenter leurs valeurs moyennes et cart-types diviss par dix, afin de simplifier la lecture de
la table 8.4. La mme dmarche a t suivie pour llaboration de la table 8.6, dans la section
suivante.
147 / 229
CHAPITRE 8. EXPRIMENTATIONS
Insurance
250
500
1000
2000
AG
32135 290
31200 333
29584 359
28841 89
AGpenal
31917 286
31099 282
29766 492
-28681156
AGmemo
-31826270
31076 151
29635 261
28688 165
AGdist
31958 246
-31075255
-29428290
28715 164
GS
32227 397
31217 314
29789 225
28865 151
GES
33572 247
31952 273
30448 836
29255 634
K2-T
32334 489
31772 339
30322 337
29248 163
K2-R
33002 489
31858 395
29866 281
29320 245
MWST
34045 141
33791 519
33744 296
33717 254
Original
28353
G0
45614
Tableau 8.4 Moyennes et cart-types, diviss par 10 et arrondis, des scores BIC des solutions
obtenues par les diffrentes mthodes pour lapprentissage de la structure du rseau Insurance
partir de 10 bases de cas distinctes. Les valeurs moyennes minimales, pour chaque taille
de base dapprentissage, sont grises. titre indicatif, les scores des structures dorigine et
de la structure vie, G0 , sont indiqus en bas de table. Le signe dans une case signifie que les
rsultats de la mthode correspondantes sont significativement diffrents de ceux de la mthode
prsentant la meilleure moyenne (vrification par un test de Mann-Whitney).
La lecture de la table 8.4, rpertoriant les scores moyens obtenus par les solutions des diffrents algorithmes, donne un avantage aux mthodes volutionnaires. Sil est, comme pour
lapprentissage de la structure du rseau ASIA, impossible de dpartager clairement les performances des diffrentes mthodes volutionnaires, on peut cependant remarquer que ces
derniers surclassent en gnral les algorithmes GES et GS, qui, prcdemment, taient leurs
principaux concurrents. Seul lalgorithme glouton sur lespace des GOSC russit obtenir
daussi bons rsultats, sur les ensembles de bases de taille limite (250 et 500).
La lecture de la table 8.5 montrent que, de manire plus ou moins sensible, les algorithmes
volutionnaires employant la mthodes de niching squentiel (nommment AGpenal et AGdist
retournant des structures prsentant le moins de diffrences structurelles vis--vis du rseau
dorigine. Le rseau Insurance prsente de nombreuses dpendances faibles et, en gnral,
les mthodes employant une fonction dvaluation et en particulier le score BIC retournent des
structures trs diffrentes de la structure dorigine (on pourra prfrer, dans ce cas, employer un
score pnalisant moins les structures complexes tel que le score BDeu [Delaplace et al., 2007a]).
Alors que le rseau Insurance comporte 52 arcs, les diffrences structurelles les plus importantes
se situent aux alentours de 40 arcs diffrents, essentiellement des arcs manquants.
Il est surprenant de constater que lalgorithme GES, dans le cas de lapprentissage partir
de bases de 1000 cas, renvoie des solutions moins performantes en terme de scores ainsi quun
cart-type important. La mthode de construction graduelle de lalgorithme peut trs bien avoir
amen ce dernier tre bloqu en certains optima locaux, lors de sa recherche.
La table 8.5, rpertoriant les diffrences structurelles entre les solutions retournes et la structure du rseau Insurance, amne aussi une explication quant aux difficults rencontres par les
diffrentes mthodes : alors que le score moyen des mthodes renvoyes par lalgorithme AGpenal
148 / 229
CHAPITRE 8. EXPRIMENTATIONS
Insurance
250
AG
500
Inv
Inv
39, 6
4, 4
7, 2
28
34
3, 1
7, 6
23, 3
AGpenal
37
3, 5
7, 1
26, 4
35, 1
3, 7
7, 4
24
AGmemo
37, 5
4, 3
6, 6
26, 6
33,9
3, 2
7, 7
23
AGdist
38, 1
3, 5
7, 5
27, 1
33,3
7, 3
23
GS
42, 1
4, 6
9, 4
28, 1
37, 7
4, 5
9, 4
23, 8
GES
39, 5
3, 7
7, 1
28, 7
35, 1
7, 1
25
K2-T
42, 7
5, 1
8, 4
29, 2
40, 8
5, 4
8, 8
26, 6
K2-R
42, 4
4, 8
7, 2
30, 4
41, 8
6, 5
8, 8
26, 6
MWST
41, 7
7, 7
30
41, 3
3, 5
8, 3
29, 5
Inv
1000
2000
Inv
AG
39, 6
4, 4
7, 2
28
27, 8
4, 7
15, 1
AGpenal
30, 8
3, 8
7, 4
19, 6
24,4
3, 4
6, 7
14, 3
AGmemo
31, 4
19, 4
27
4, 3
8, 4
14, 3
AGdist
29,3
3, 6
6, 5
19, 2
26, 6
3, 6
8, 6
14, 4
GS
35, 9
5, 1
10
20, 8
31, 9
5, 2
11, 4
15, 3
GES
32, 4
4, 1
8, 1
20, 2
27, 5
8, 4
15, 1
K2-T
38, 7
5, 9
11
21, 8
34, 6
7, 3
10, 9
16, 4
K2-R
39, 6
8, 3
8, 3
23
36, 1
8, 5
8, 5
9, 1
MWST
37, 7
1, 7
8, 3
27, 7
36, 3
1, 2
7, 9
27, 2
Tableau 8.5 Diffrences structurelles moyennes entre les structures tablies par les diffrents
algorithmes partir de 10 bases de cas distinctes et la structure du rseau Insurance. Les valeurs
moyennes minimales sont grises.
149 / 229
CHAPITRE 8. EXPRIMENTATIONS
sont proches du score de la structure originelle du rseau Insurance, les diffrences structurelles
entre ces solutions et la structure dInsurance demeurent proportionnellement importants avec
une moyenne de plus de 24 arcs diffrents (dont plus de la moiti sont manquants). Une grande
partie des liens prsents dans la structure dorigine ne sauraient donc, a priori tre trouvs par
lintermdiaire dune fonction dvaluation (cela dpend aussi, comme cela a t mentionn
prcdemment, de la fonction employe) : les ajouts darcs savrant plus pnalisants que le
montant de la vraisemblance quils apportent au score de la structure.
Les rsultats de lalgorithme MWST, bien que mdiocres comparativement ceux des autres
mthodes, demeurent stables ds que le nombre de cas dans la base dapprentissage dpasse
500 cas. Cette observation est valable aussi bien pour le score moyen de ses solutions que pour
les diffrences structurelles entre celles-ci et le rseau Insurance.
Au final, lapprentissage effectu sur une structure complexe fait ressortir une tendance, pour
les algorithmes gloutons (GS et GES) se retrouver bloqus en un optimum local. Lobservation
des diffrences structurelles moyennes entre les solutions renvoyes par GS et celles renvoyes
par lalgorithme AGmemo pour les cas de bases dapprentissage de 250 individus, principalement
des inversions, alors que les scores obtenus par les deux mthodes ne sont pas significativement
diffrents laisse penser quune mthode stochastique telle quun de nos algorithmes est plus
apte, dans un cas complexe, dterminer correctement les arcs dune structure sur le score.
8.4
Si le rseau ALARM comporte plus de variables que le rseau Insurance (37 contre 27), il
comporte moins darcs (46 contre 52) et, notamment, moins de relations de probabilit faible
que ce dernier.
Chaque ensemble de bases dapprentissage contient 30 bases chantillonnes depuis le rseau
ALARM. Chacune des bases dun ensemble servant un seul apprentissage pour chaque
algorithme valu.
Rsultats et commentaires
Les valeurs indiques par la table 8.6 permettent de voir que, en ce qui concerne les scores des
solutions renvoyes, les mthodes employant la technique de niching squentiel, combin ou
non une rpartition de la population, obtiennent de trs bons rsultats. La mthode adaptative
AGmemo obtient bien, en moyenne, les meilleurs rsultats par rapport des bases dapprentissage
de 500 cas malheureusement, la qualit des rsultats de cette solution est irrgulire sur les autres
tailles de base possibles ; au point que la mme mthode renvoie les plus mauvais rsultats, au
sein des mthodes volutionnaires, pour des bases de 1000 cas.
Lalgorithme glouton GS renvoie des solutions obtenant de bons scores mais demeurent en
retrait face aux mthodes GES et AGdist .
Lalgorithme GES renvoie quant lui des solutions dont les scores sont certes, en moyenne,
infrieurs ceux des solutions renvoyes par AGdist mais le niveau de performances de cet
algorithme reste rgulier, quelle que soit la taille de base dapprentissage considre.
150 / 229
CHAPITRE 8. EXPRIMENTATIONS
ALARM
250
500
1000
2000
36239 335
34815 317
33839 159
33722 204
AGpenal
-36094297
34863 346
33865 203
33640 196
AGmemo
36104 316
-34791340
33942 198
33722 204
AG
AGdist
36144 326
34864 337
-33723251
-33496170
GS
36301 309
35049 380
33839 109
33638 964
GES
36124 315
34834 288
33801 562
33593 692
K2-T
36615 308
35637 328
34427 200
34045 818
K2-R
37173 435
35756 264
34579 305
34128 173
MWST
37531 185
37294 737
37218 425
37207 366
Original
33097
G0
63113
Tableau 8.6 Moyennes et cart-types, diviss par 10 et arrondis, des scores BIC des solutions
obtenues par les diffrentes mthodes, pour lapprentissage de la structure du rseau ALARM
partir de 30 bases de cas distinctes. Les valeurs moyennes minimales, pour chaque taille
de base dapprentissage, sont grises. titre indicatif, les scores des structures dorigine et
de la structure vie, G0 , sont indiqus en bas de table. Le signe dans une case signifie que les
rsultats de la mthode correspondantes sont significativement diffrents de ceux de la mthode
prsentant la meilleure moyenne (vrification par un test de Mann-Whitney).
Le principal inconvnient de lalgorithme AGmemo semble rsider dans le nombre dinversions
darcs au sein des solutions quil propose. Alors quelle a t conue pour permettre une
exploration efficace de lespace des solutions, il semble que la stratgie applique par cet
algorithme, en particulier dans le cas de problmes de dimension croissante, na tout simplement
pas le temps dtre applique. En effet, pour tre rellement efficace, cette stratgie se propose
dexploiter lensemble des oprations de mutations possibles et intressantes pour les individus
de la population. Or, si le nombre de ces oprations devient trop important, lnumration
et lvaluation de ces diffrents mouvements possibles deviennent laborieuses. Quand la
restimation doprations prcdemment dcrtes comme tant dommageables, elle na tout
simplement pas loccasion de prendre place.
Enfin, les mthodes "rapides" (nous verrons cependant que les conditions dinitialisation de
ces mthodes vient temprer lemploi de cet adjectif) telles que MWST et les mthodes de type
K2 se comportent dune manire similaire ce qui avait t prcdemment observ, savoir des
solutions de facture moyenne, qualitativement infrieures celles des mthodes prcdemment
cites.
La table 8.7, combine la lecture de la table 8.6, permet des observations intressantes. En
effet, nous avons observ que les scores des solutions obtenues par lalgorithme GES taient
en moyenne infrieurs ceux des solutions obtenues par voies volutionnaires. Nous pouvons
cependant remarquer quen termes de distance ddition, ces mmes solutions proposes par
lalgorithme GES sont les plus proches du graphe dorigine. Cette observation peut nous amener penser que la philosophie de lalgorithme GES, consistant construire graduellement la
solution recherche en respectant certaines rgles de construction essentiellement locales (cf.
section 4.4.4 mais aussi [Chickering, 2002b]) permet ce dernier dobtenir une solution non
seulement vraisemblable par rapport aux donnes mais aussi graphiquement proche de lopti151 / 229
CHAPITRE 8. EXPRIMENTATIONS
ALARM
250
500
Inv
Inv
AG
34, 2
4, 8
13, 9
15, 5
25, 7
4, 5
10, 2
11
AGpenal
33, 1
4, 6
13, 5
15
25, 6
4, 2
10, 6
10, 8
AGmemo
33
4, 6
13, 4
15
26, 2
11, 5
10, 7
AGdist
33, 6
4, 6
13, 8
15, 2
25, 1
3, 7
10, 7
10, 7
GS
33, 7
12, 6
16, 1
30, 2
13, 5
11, 7
GES
32,5
4, 5
12, 7
15, 3
23,3
3, 8
11, 5
K2-T
34, 5
5, 1
13, 1
16, 3
35, 1
7, 2
15, 2
12, 7
K2-R
36, 5
6, 6
10, 2
19, 6
35
8, 7
11, 3
11, 5
MWST
38, 5
6, 9
14, 7
16, 9
36, 5
4, 7
17, 1
14, 7
1000
2000
Inv
Inv
AG
19, 7
3, 7
6, 9
23
5, 3
11, 8
5, 9
AGpenal
22
4, 5
10, 4
7, 1
20, 1
4, 1
10, 2
5, 8
AGmemo
27
6, 4
13, 1
7, 4
29
7, 4
16
6, 3
AGdist
18,3
3, 3
10, 1
4, 9
18, 9
3, 6
6, 3
GS
27, 8
6, 2
14, 5
7, 1
25, 4
6, 2
13, 6
5, 6
GES
20, 2
4, 3
8, 5
7, 3
17,3
3, 5
8, 2
5, 6
K2-T
35, 4
10, 4
15, 7
9, 3
36, 9
12, 3
17, 4
7, 2
K2-R
37, 1
11, 4
15, 1
10, 6
40, 2
14, 6
16, 1
9, 5
MWST
35, 1
4, 4
16, 3
14, 4
34, 1
14
16, 1
14
Tableau 8.7 Diffrences structurelles moyennes entre les rponses des diffrents algorithmes
et la structure du rseau ALARM partir de 30 bases de cas distinctes. Les valeurs moyennes
minimales sont grises.
152 / 229
CHAPITRE 8. EXPRIMENTATIONS
mum global ou lun deux sil en existe plusieurs . Les mthodes volutionnaires, quant elles
(et en particulier les mthodes telles que AGpenal et AGdist ), explorent une plus grande partie
de lespace des solutions. Alors que leur avantage premier est de permettre la dcouverte de
plusieurs optima dont, idalement, loptimum global, il semble que ce comportement viennent
parfois entraner la dcouverte doptima locaux trs bien valus et pourtant distants, dans
lespace des solutions, de loptimum recherch.
8.5
Rsultats complmentaires
Aprs avoir observ les rsultats des diffrentes mthodes sur les trois rseaux ASIA, Insurance et ALARM, nous analysons plus en dtail le fonctionnement et le comportement des
algorithmes gntiques.
8.5.1
Commentaires gnraux
Les rsultats en terme de scores et de critres graphiques des diffrentes mthodes nous
permettent dores et dj de faire quelques remarques :
Sur les problmatiques simples telles que lapprentissage de la structure ASIA, les heuristiques de type glouton comme GS ou GES permettent dobtenir des rsultats de trs bonne
qualit. Si, dun point de vue qualitatif, les algorithmes volutionnaires rivalisent avec, voire
dpassent en certaines occasions, les performances de ces mthodes gloutonnes, leurs temps
dexcution sont plus levs (cf. section 8.6.2).
Avec un nombre de variables restreint, le voisinage de chaque structure dans lespace des
GOSC est de petite taille, comparativement celui dun rseau tel quALARM. Lemploi de la
formule de Robinson (cf. section 4.4) nous permet dailleurs de calculer, pour ces deux rseaux,
les tailles des espaces de recherche : respectivement prs de 8.1011 pour ASIA et prs de 3.10237
pour ALARM.
Par consquent, lemploi des algorithmes volutionnaires devrait se restreindre lapprentissage de rseaux complexes et cela quand bien mme leur efficacit est vrifie, qualitativement,
sur la recherche de structures simples.
Les mthodes de type K2 et la mthode MWST, malgr plusieurs lancements alatoires, ne
parviennent pas obtenir de rsultats performants sur les rseaux complexes tels quInsurance
ou ALARM. Si la limitation lespace des arbres de lalgorithme MWST explique grandement
ses mauvaises performances sur de telles instances, le problme des mthodes de type K2
provient essentiellement de leur dpendance envers lordre topologique qui leur est fourni en
entre. Malgr, a priori, des initialisations inadquates et des solutions prsentant des distances
graphiques loriginal suprieures celles des solutions renvoyes par les algorithmes volutionnaires et gloutons, les mthodes K2/MWST obtiennent des scores BIC de bonne qualit bien
quencore infrieures celles des heuristiques concurrentes.
153 / 229
CHAPITRE 8. EXPRIMENTATIONS
8.5.2
Performances
Afin de clarifier les niveaux de performances des algorithmes volutionnaires non seulement
les uns par rapport aux autres mais aussi vis--vis de la meilleure heuristique concurrente
GES , nous avons procd ltablissement de confrontations un contre un de ces mthodes,
sur les deux rseaux complexes Insurance et ALARM.
Ces confrontations ont lieu sur les critres rsums prcdemment dans les tables 8.4, 8.5,
8.6 et 8.7 cependant, le dtail des performances respectives est ici plus visible.
Les scores BIC mesurs sur les figures 8.4, 8.5, 8.8 et 8.9 correspondent aux scores obtenus
sur les bases de vrification des deux rseaux.
154 / 229
CHAPITRE 8. EXPRIMENTATIONS
(e) GES/AG
155 / 229
CHAPITRE 8. EXPRIMENTATIONS
156 / 229
CHAPITRE 8. EXPRIMENTATIONS
Commentaires
Les rsultats des diffrents duels sur le rseau Insurance permettent de dgager quelques lments. Il savre que lalgorithme distribu AGdist lemporte clairement au niveau des confrontations sur le score, except contre les algorithmes AGpenal et AGmemo avec lesquels il fait quasiment
jeu gal (nombreux points sur ou proches de la bissectrice). Lautre lment remarquable est
que lalgorithme GES perd systmatiquement ses duels contre les mthodes volutionnaires, y
compris contre lalgorithme simple AG.
Ce phnomne est confirm par les duels sur la distance ddition o lalgorithme AGpenal
trouve certaines structures trs proches, tant donn la taille de la base dapprentissage, du
rseau dorigine ; ceci provoquant dailleurs sur le graphe un dcalage de la bissectrice. Les
distances ddition sont cependant moins lisibles que les performances des scores obtenues et
ce en raison dune plus grande dispersion des nuages de points.
Les mthodes volutionnaires sont, ici aussi, performantes pour la recherche de cette structure, comparativement aux algorithmes GES et GS. On peut tout de fois remarquer que les
confrontations bases sur les diffrences graphiques ne permettent pas rellement de distinguer les performances entre les algorithme AG et AGmemo dun ct et GES de lautre. Cependant,
ces diffrences consistent essentiellement en des inversions darcs (dont limpact rel sur la qualit des solutions est difficile estimer), phnomne gnralement vit par GES du fait de sa
procdure de construction graduelle de sa solution.
Entre elles, les mthodes volutionnaires font jeu gal hormis lalgorithme AG dont les
performances demeurent infrieures aux autres.
157 / 229
CHAPITRE 8. EXPRIMENTATIONS
(e) GES/AG
158 / 229
CHAPITRE 8. EXPRIMENTATIONS
159 / 229
CHAPITRE 8. EXPRIMENTATIONS
(e) GES/AG
160 / 229
CHAPITRE 8. EXPRIMENTATIONS
161 / 229
CHAPITRE 8. EXPRIMENTATIONS
(e) GES/AG
162 / 229
CHAPITRE 8. EXPRIMENTATIONS
163 / 229
CHAPITRE 8. EXPRIMENTATIONS
Commentaires
Les confrontations bases sur le score BIC, avec le rseau ALARM, permettent de dgager
deux algorithmes : lalgorithme GES mais aussi lalgorithme distribu AGdist . En concordance
avec Les tables 8.7 et 8.6, il savre que, pour lapprentissage de la structure du rseau ALARM,
lalgorithme populations distribues est le seul pouvant rivaliser, en termes de performances,
avec lalgorithme GES. On peut nanmoins remarquer que, ici aussi, bien que lalgorithme
AGdist trouve des solutions obtenant un meilleur score, lalgorithme GES trouve en moyenne
des solutions graphiquement plus proches du rseau dorigine do un ventuel phnomne
de surapprentissage dans le cas de AGdist .
Les autres mthodes volutionnaires sont difficilement dpartageables, tant au niveau du
score que de la distance ddition except pour lalgorithme adaptatif AGmemo . Ce dernier, pour
des raisons envisages dans la section 8.4, renvoie des solutions infrieures celles des autres
mthodes volutionnaires (ainsi qu celles de lalgorithme GES).
8.6
Nous commentons ici diverses mesures propres aux algorithmes volutionnaires afin, notamment, de pouvoir tirer quelques avis et conclusions quant aux mrites des diverses implmentations.
8.6.1
Avant de nous intresser aux figures, il est important de prciser que les courbes des algorithmes AGpenal et AGdist ont t "lisses" dans le sens o elles illustrent la valeur du meilleur
individu rencontr jusquau point considr. La nature mme de la politique de pnalisation
de ces mthodes a pour rsultat une courbe "en montagnes russes" difficilement lisible.
Les courbes correspondent aux performances des diffrents algorithmes volutionnaires sur
lapprentissage des structures les plus complexes, celles des rseaux Insurance et ALARM, et
ce, pour des bases dapprentissage de 250 et 2000 cas, respectivement. Nous nous limitons
lillustration de ces quatre sries dapprentissage pour les raisons suivantes :
les apprentissages effectus sur la structure ASIA nont pas permis de dgager un comportement caractristique de la part dune de nos mthodes par rapport aux autres. Cet
exemple est en fait trop limit et ne prsente pas de rel intrt ;
les sries choisies ici sont duales et permettent de reprsenter le comportement des mthodes dans le cadre de lapprentissage de modles complexes, suivant que la quantit
dinformation notre disposition soit trs limite (250 cas par base) ou plus consquente
(2000 cas par base).
Si nous considrons les volutions sur les bases de tailles les plus restreintes, nous remarquons tout dabord la performance de lalgorithme distribu AGdist . Celui-ci converge certes
plus lentement, lors des premires valuations, que ses vis--vis mais permet dobtenir, au final
et dans la plupart des cas, la meilleure solution au terme dun mme nombre dvaluations.
164 / 229
CHAPITRE 8. EXPRIMENTATIONS
Figure 8.12 Valeurs moyennes des fitness en fonction du nombre de structures values pour
le rseau Insurance, pour des bases de 250 et 2000 cas, respectivement.
165 / 229
CHAPITRE 8. EXPRIMENTATIONS
Figure 8.13 Valeurs moyennes des fitness en fonction du nombre de structures values pour
le rseau ALARM, pour des bases de 250 et 2000 cas, respectivement.
166 / 229
CHAPITRE 8. EXPRIMENTATIONS
8.6.2
Performances temporelles
Les temps indiqus dans cette partie sont donns titre indicatif ; sous rserve doptimisation
du code dune part et/ou de modification de la plate-forme de dveloppement (Matlab).
La vitesse dexcution est en gnral reconnue comme tant un des points faibles des mthodes volutionnaires. Au regard des donnes des tables 8.8, 8.9 et 8.10, faisant tat des temps
moyens dexcution pour lapprentissage des trois rseaux ASIA, Insurance et ALARM, ceci est
vrifi pour nos quatre mthodes avec des temps dexcution frquemment suprieurs ceux,
par exemple, des mthodes gloutonnes.
Ces tables recensent les temps dexcution moyens observs durant nos tests. Rappelons que
ces temps correspondent, pour les algorithmes, aux conditions dcrites en section 8.1.4 (donc,
167 / 229
CHAPITRE 8. EXPRIMENTATIONS
par exemple, pour 5 n instanciations avec ordre topologique alatoire pour lalgorithme K2R). Les algorithmes, en particulier pour lapprentissage de la structure du rseau ASIA, ont t
employs dans des conditions diffrentes ; par consquent, les temps affichs ne le sont qu titre
indicatif vis-vis des performances pralablement observes et non comme un rel comparatif
de performances entre les mthodes, suivant les cas dapplication.
Rseau ASIA
250
500
1000
2000
AG
224 5
236 3
252 2
261 4
AGpenal
224 3
239 4
246 2
261 4
AGmemo
147 3
152 5
158 2
169 4
AGdist
248 4
256 5
266 2
284 3
GS
29 2
35 3
38 6
45 8
GES
4 0, 3
4 0, 2
5 0, 2
6 0, 2
K2-T
4 0, 2
4 0, 3
6 0, 4
6 0, 1
K2-R
27 1.2
29 1
30 0, 4
35 0, 5
MWST
<1
<1
<1
<1
Tableau 8.8 Moyennes et cart-types arrondis des temps dexcution totaux, en secondes,
requis pour les diffrentes mthodes pour lapprentissage de la structure du rseau ASIA, selon
la taille de la base dapprentissage employe.
Rseau Insurance
AG
250
500
1000
2000
2637 38
2741 46
3010 103
3393 121
AGpenal
3366 42
3471 31
3712 93
3950 82
AGmemo
2842 51
3000 43
3484 32
4012 126
AGdist
7148 122
7345 92
7553 205
7977 220
GS
1281 152
1395 172
1809 230
3327 530
GES
642 69
757 74
1203 51
2007 228
K2-T
252 4
299 7
324 2
411 8
K2-R
1325 23
1496 16
1789 23
2188 20
MWST
<5
<5
<5
<5
Tableau 8.9 Moyennes et cart-types arrondis des temps dexcution, en secondes, requis pour
les diffrentes mthodes pour lapprentissage de la structure du rseau Insurance, selon la taille
de la base dapprentissage employe.
Les temps de calcul des algorithmes MWST et K2-T sont trs courts, sur les rseaux Insurance
et ALARM, comparativement aux mthodes de type AG ou gloutonnes. MWST limite cependant
sa recherche que sur lespace des arbres tandis que la mthode K2-T accepte en entre un ordre
topologique (fourni par MWST) au regard duquel la qualit des rsultats fournis est trs sensible.
La variante K2-R prend, quant elle, un temps dautant plus grand que la taille du problme
implique un grand nombre dinstances de lalgorithme K2, chacune dentre elles alatoirement
initialise. Cette approche semble dautant plus vaine que les performances de lalgorithme
K2-T sont tout fait comparables pour un temps dexcution drisoire.
On peut cependant remarquer que les temps dexcution des mthodes volutionnaires,
168 / 229
CHAPITRE 8. EXPRIMENTATIONS
Rseau ALARM
250
500
1000
2000
AG
3593 47
3659 41
3871 53
4088 180
AGpenal
3843 58
3877 44
4051 59
4332 78
AGmemo
3875 32
4005 43
4481 46
4834 52
AGdist
9118 269
9179 285
9026 236
9214 244
GS
9040 1866
9503 1555
12283 1403
16216 2192
GES
3112 321
2762 166
4055 3, 4
5759 420
K2-T
733 9
855 25
1011 14
1184 8
K2-R
3734 61
4368 152
5019 67
5982 43
MWST
10 1
10 2
11 1
12 1
Tableau 8.10 Moyennes et cart-types arrondis des temps dexcution totaux, en secondes,
requis pour les diffrentes mthodes pour lapprentissage de la structure du rseau ALARM,
selon la taille de la base dapprentissage employe.
bien quimportants, demeurent relativement stables avec laugmentation de la complexit du
problme traiter. Ceci est particulirement remarquable avec les apprentissages effectus sur le
rseau ALARM. Dans ce dernier cas, le nombre de variables pour chaque graphe exploit dfinit
un voisinage particulirement large. Alors que lalgorithme gntique procde par une approche
generate and test guide par la performance des lments de la population, les algorithmes
gloutons effectuent un parcours exhaustif de ce voisinage et voient donc leurs temps dexcution
augmenter radicalement.
noter que la version de lalgorithme GS qui a t teste emploie un cache afin dviter le
recalcul de certains scores. Mais en prsence dun voisinage important, le parcours mme dun
cache de taille (trop) importante prend lui aussi, au final, un temps consquent.
Ds lors que la recherche de la structure atteint une certaine complexit (ALARM avec une
base dapprentissage de 2000 cas), les algorithmes volutionnaires deviennent plus rapides que
les mthodes gloutonnes.
8.6.3
Un facteur important est le nombre ditrations requises par les diffrents algorithmes gntiques pour trouver leur solution. Ces rsultats figurent dans la table 8.11.
Il est important de parler ici de nombre ditrations avant de trouver le meilleur individu et
non pas de nombre ditrations avant convergence, comme cela est le cas dans la littrature. En
effet, la stratgie de niching squentiel mise en place au sein des algorithmes AGpenal et AGdist
introduit, ponctuellement et rgulirement, des perturbations conscutives la modification de
la fitness, interdisant la population de converger.
La lecture du nombre moyen ditrations avant obtention du meilleur individu meilleur
individu sur le nombre total ditrations prdfini par lutilisateur est une valeur dont il est
malheureusement assez difficile de retranscrire la signification. Bien quil soit naturel de penser
quun algorithme retournant sa meilleure solution en un temps trs bref soit prfrable, nous
169 / 229
CHAPITRE 8. EXPRIMENTATIONS
ne devons pas ngliger le fait que, pour un algorithme volutionnaire, une telle rapidit peut
aussi tre synonyme dune convergence prmature vers un optimum local. Linverse est aussi
vrai si lalgorithme prend trop de temps pour trouver sa meilleure solution.
Rseau ASIA
AG
250
500
1000
2000
14 14
31 23
23 15
30 23
AGpenal
16 16
33 29
26 24
38 29
AGmemo
13 12
15 8
17 11
21 4
AGdist
15 12
15 8
17 11
22 19
Rseau Insurance
250
500
1000
2000
AG
364 319
454 295
425 249
555 278
AGpenal
704 295
605 321
694 258
723 234
AGmemo
398 326
414 277
526 320
501 281
AGdist
82 59
106 77
166 84
116 27
Rseau ALARM
250
500
1000
2000
AG
265 257
417 271
552 244
529 245
AGpenal
380 291
535 225
640 262
624 253
AGmemo
341 269
474 332
592 291
592 249
AGdist
87 76
141 90
212 66
186 72
Tableau 8.11 Moyennes et cart-types arrondis des nombres ditrations ncessaires chaque
mthode pour obtenir sa meilleure proposition de solution.
Si lon croise les donnes de la table 8.11 avec celles de la table 8.10, on peut se rendre compte
que le ratio des temps dexcution des algorithmes et en particulier ceux dAGdist et du nombre
ditrations moyen mis par ces algorithmes pour trouver leurs meilleures solutions, la vitesse
de nos diffrentes mthodes devient comptitive avec celle dalgorithmes tels que GS et GES.
8.6.4
Comme nous lavons prcis dans la section 6.1.5, lensemble de nos mthodes volutionnaires emploient un oprateur de rparations, bas sur lemploi de linformation mutuelle entre
chaque paire de variables, afin de supprimer les circuits pouvant ventuellement apparatre
dans un individu au cours de lvolution.
Ces circuits ne peuvent en ralit apparatre qu lissue de la phase de mutation, soit par
ajout soit par inversion dun arc. En effet, loprateur de croisement, dfini dans la section 6.1.5,
prsente la particularit dtre ferm par rapport lespace des GOSC (i.e. tout transfert dun
ensemble de parents crant un circuit chez le descendant sera ignor).
Nous avons mesur le taux moyen dindividus rpars (par rapport au nombre dindividus
gnrs chaque itration de lalgorithme) au cours dinstances de nos diffrentes mthodes.
Les paramtres des algorithmes sont les mmes que ceux employs au cours de nos tests et les
rsultats prsents dans la table 8.6.4 correspondent une moyenne sur dix instances de chaque
algorithme, pour un rseau et une taille donne de base dapprentissage.
170 / 229
CHAPITRE 8. EXPRIMENTATIONS
500
1000
2000
AG
13%
15, 2%
15, 3%
16, 5%
250
500
1000
2000
AG
11%
13, 2%
13, 9%
15, 1%
AGpenal
13, 6%
15, 3%
15, 9%
16, 5%
AGpenal
13, 4%
14, 7%
15, 9%
15, 3%
AGmemo
12, 4%
15, 7%
15, 8%
16, 1%
AGmemo
12, 3%
13, 9%
13, 6%
14, 9%
AGdist
13, 7%
15, 3%
14, 5%
15, 6%
AGdist
9, 4%
10, 3%
12, 6%
14, 4%
250
500
1000
2000
6, 1%
5, 2%
6, 4%
7%
AGpenal
4, 6%
5, 3%
5, 6%
6, 5%
AGmemo
5, 7%
6, 2%
6, 3%
8, 4%
AGdist
5, 5%
5, 1%
6, 8%
7, 1%
Tableau 8.12 Taux dindividus ayant recouru loprateur de rparation, pour les diffrentes
mthodes volutionnaires selon le rseau appris et la taille de la base dapprentissage.
On peut remarquer, au vu de la table 8.6.4, que le taux moyen dindividus rpars ne semble
pas dpendre de la mthode adopte mais bien :
1. du rseau appris et de sa complexit ;
2. de la quantit dinformation disponible lapprentissage.
Ainsi, le rseau ASIA, prsentant pourtant la structure la plus simple parmi celles sur
lesquelles nous avons effectu nos tests, prsente le taux le plus important dindividus rpars
( peu prs 15%). Ces rsultats ne dpendent pas seulement dune convergence rapide de la
population au voisinage dun point, puisque le rseau Insurance, plus complexe et ncessitant
plus de recherche, implique un taux de rparations moyen peine infrieur celui constat avec
le rseau ASIA. En revanche, les apprentissages effectus sur le rseau ALARM nimpliquent
que des taux avoisinants les 5%. Les caractristiques des rseaux sont directement en cause.
En ce qui concerne limpact de ces rparations sur les calculs effectus : une rparation
nimplique de calculs de score, localement en une variable, que dans la mesure o la suppression
darc visant liminer le circuit cr efface un arc diffrent de celui venant dtre cr, par ajout
ou par inversion. Dans le cas contraire, lindividu et sa fitness (y compris les scores locaux) sont
remis leur tat dorigine.
Considrant ceci, un taux moyen de rparations de lordre de 5 10% (chiffres figurant une
borne suprieure pour les calculs lis la fitness, toute rparation nimpliquant pas forcment
de r-valuation) parat raisonnable.
8.7
Conclusion
Les diffrents rsultats et analyses effectus au cours de ce chapitre nous ont permis de
dgager plusieurs points concernant non seulement les performances de nos mthodes mais
171 / 229
CHAPITRE 8. EXPRIMENTATIONS
172 / 229
Troisime partie
173
Chapitre 9
Introduction
Il est un domaine o lemploi des rseaux baysiens est reconnu : la classification. Si lon
considre une classe comme tant la cause (ou la consquence) de ses caractristiques, un
modle prenant en compte ces interactions parat alors parfaitement mme de permettre la
dtermination dune classe partir dune base de caractristiques.
Nous introduisons dans ce chapitre une application des modles baysiens en tant que
classifieurs la segmentation de pixels dans un ensemble dimages.
9.2
La classification est une problmatique frquente dans des domaines tels que le traitement
de donnes ou la reconnaissance de formes. Elle conduit la construction dun modle ou dun
algorithme officiant en tant que classificateur et devant indiquer la classe dappartenance dun
objet partir des valeurs prises par un ensemble de ses caractristiques.
Les rseaux baysiens, par le biais de linfrence, notamment, se prtent particulirement
cet exercice [Cheeseman et al., 1988]. De nombreux chercheurs ont dvelopp des modles
particuliers de rseaux baysiens ddis la classification. Cette section va prsenter trois des
modles les plus rpandus : le rseau baysien naf, les rseaux augments et lapproche par
multi-nets. Nous cherchons ici dterminer la classe Xc dun objet partir des valeurs de ses n
caractristiques {X1 , X2 , . . . , Xn }.
9.2.1
Les rseaux baysiens nafs, dcrits dans [Langley et al., 1992], font lhypothse de lindpendance des caractristiques entre elles et se prsentent sous la forme de lexemple de la figure
175
9.1.
Il a t frquemment observ que, mme dans les cas o lindpendance entre les caractristiques nest pas vrifie, le classificateur naf conserve des performances proches de loptimal [Domingos et Pazzani, 1996]. Ce modle, la fois un des premiers et le plus simple
[Ling et Zhang, 2002], renvoie des rsultats de bonne qualit et savre trs robuste. Il a t ainsi
employ dans de nombreuses applications pratiques telles que le tri de pourriel [Sahami et al., 1998]
ou la classification de texte de manire plus gnrale [McCallum et Nigam, 1998].
9.2.2
La modlisation nave prsente prcdemment pose linconvnient majeur de faire lhypothse, rarement vrifie, dindpendance entre les diffrentes caractristiques. Malgr les performances dmontres dans des cas o cette hypothse est invalide [Domingos et Pazzani, 1996],
il est certains cas o il peut tre prfrable de reprsenter les dpendances rgnant entre les
caractristiques [Rish, 2001].
Il est alors possible de conserver une partie de la structure nave en reliant la variable classe
chacune des caractristiques tout en permettant lajout de liens entre celles-ci.
La structure reliant les caractristiques peut tre quelconque (obtenue par un algorithme
dapprentissage classique) dans ce cas on parle de BAN (Bayesian Network Augmented Naive
Bayes ou bien sous forme darborescence auquel cas on obtient un modle de type TANB (Tree
Augmented Naive Bayes) [Friedman et al., 1997].
176 / 229
9.2.3
Multi-nets
Lapproche par multi-nets est un hritage direct de lapproche par rseaux augments suivant
le principe que les liens existants entre les caractristiques peuvent varier dune instance de
classe une autre.
Ici, les diffrentes classes sont chacune reprsentes par un rseau ddi constitu des diffrentes caractristiques du problme mais dnu de la variable reprsentant la classe dappartenance. Pour un problme de classification nc classes, nous construisons donc nc rseaux,
chacun comportant uniquement les n variables reprsentant les caractristiques. La classification est opre en licitant, pour une instance classifier, la classe lie au rseau ayant la plus
grande probabilit jointe P(X1 , X2 , . . . , Xn ).
Figure 9.3 Exemple dapproche par multi-nets pour un problme trois classes.
9.3
Problmatique aborde
Hors de tout propos visant lidentification biomtrique, nous nous intressons dans ce
chapitre aux performances des rseaux baysiens appliqus au problme de la segmentation
de liris. Ce dernier problme vise, partir dune image de lil dun individu, distinguer la
partie de cette image correspondant liris.
La partie visible de lil est compose de plusieurs lments :
Sclre : membrane blanche et opaque formant le blanc de lil ;
Iris : membrane circulaire bordant la pupille. Liris ne participe la vision quen tant que
rgulateur de lillumination de la rtine : ses contractions permettent en effet de contrler
la quantit de lumire pntrant la pupille ;
Pupille : orifice situ au milieu de liris. Noire dapparence car la lumire y pntre. Sa taille
peut varier en fonction des contractions de liris.
Gnralement, la pupille se distingue donc comme tant un disque noir central, entour par
liris, lui mme entour par la sclre, plus claire. La problme est cependant plus complexe dans
le cadre du traitement de limage car il est ncessaire de prendre en compte plusieurs facteurs
gnrateurs de bruit :
Focus : perte du focus, limage apparat floue ;
177 / 229
9.4
9.4.1
Travaux antrieurs
Mthode de J. Daugman
Cette mthode est la plus connue pour plusieurs raisons. Tout dabord, il sagit de la mthode
pionnire dans le domaine. De plus, cette mthode est la plus robuste ce jour, ce qui lui a valu
dtre la mthode principalement implmente de par le monde dans les dispositifs commerciaux servant lidentification par liris. John Daugman a de plus dvelopp conjointement une
mthode didentification par dtection des indpendances conditionnelles entre les diffrentes
traductions de liris en messages binaires.
La mthode de segmentation de liris, telle que prsente dans [Daugman, 1993], repose sur
lemploi de loprateur intgro-diffrentiel suivant :
I
I(x, y)
9.4.2
Mthode de Wildes
Lauteur de cette mthode, dcrite dans [Wildes, 1997], propose de dtecter liris en utilisant
conjointement lalgorithme Canny Edge [Canny, 1986], et les transformes de Hough circulaires.
Le dtecteur de contours est, dans un premier temps, appliqu limage puis, la transforme
de Hough circulaire permet de dterminer tout dabord le cercle correspondant la frontire
entre la sclre et liris puis, dans les limites de ce cercle, le cercle form entre la pupille et liris.
Une mthode similaire est propose par Libor Masek [Masek, 2003] ; celle-ci prsente lavantage de disposer dune implmentation librement distribue [Masek et Kovesi., 2003].
178 / 229
9.5
Notre mthode
Nous proposons une mthode consistant employer un rseau baysien afin de pouvoir
dfinir si oui ou non un pixel donn de limage appartient un iris. Ce travail se place dans le
cadre de lvaluation des rseaux baysiens en tant que classificateurs et nous ne visons donc
pas ici surpasser les mthodes prcites, en particulier sur le point des temps de calcul. Les
mthodes de segmentation de liris existantes cherchent en effet toutes atteindre des temps
dexcution trs brefs. Or, nous verrons que les procds que nous employons sont coteux en
temps de calcul et donc non comptitifs en la matire.
Notre centre dintrt est de pouvoir valuer qualitativement les performances des modles
baysiens appliqus la segmentation dans une image.
9.5.1
Caractristiques employes
Nous avons vu que les modles baysiens employs dans la classification reposent sur
linfrence de la variable classe partir des valeurs prises par les caractristiques. Pour ces
dernires, nous avons choisi demployer des caractristiques de la texture dans limage : les
caractristiques dHaralick. Celles-ci sont prsentes dans lannexe B de mme que la notion de
matrice de cooccurrence.
9.5.2
La base Ubiris
Cette base dimages [Proena et Alexandre, 2005] consiste en des images prises en conditions
relles. Contrairement aux images couramment employes de bases telles que la base CASIA
[Sun, 2006], o les prises de vues sont effectues par lintermdiaire dune camra infrarouge,
les images issues dUbiris prsentent la plupart des bruits que nous avons cits en section 9.3.
Notons cependant quune nouvelle base CASIA (nomme CASIA V.3) a vu rcemment le jour
et comporte, toujours en prises de vues infrarouges, divers bruits parmi lesquels des reflets ou
encore des problmes de positionnement.
Les figures 9.4(a),(b) et (c) prsentent des exemples dimages issues de ces bases.
(b) Image de la base CASIA V.1. (c) Image de la base CASIA V.3.
179 / 229
9.6
Le modle baysien naf (cf section 9.2.1), reconnu pour sa robustesse et ses performances
gnrales, nous a paru tre un modle de choix pour cette application.
Nous avons cependant employ deux modles nafs distincts. Le premier modle, dnomm
simplement NB, est un modle naf constitu de la variable classe pouvant prendre les valeurs
Iris ou Iris et des caractristiques de texture dHaralick.
Un deuxime modle, dnot Bs , revient une architecture similaire celle de NB mais avec
un nombre rduit de caractristiques.
Il est effectivement courant, lors de lemploi des caractristiques dHaralick, de nutiliser
quun sous ensemble de celles-ci. Pour ce faire, nous avons tabli les corrlations existant entre
les caractristiques extraites des images dUbiris en effectuant une analyse par composantes
principales. Les rsultats de cette analyse sont rsums dans la figure 9.5, montrant le cercle des
corrlations entre les 11 premires caractristiques.
9.7
Implmentation
La classification est effectue sur une base dimages constitues de 50 images issues de la
base Ubiris. Chaque image est issue dun sujet diffrent afin dviter toute corrlation fortuite
entre images dun mme individu.
La base dapprentissage est, elle, constitue de 15 images issues elles aussi de sujets diffrents
entre eux ainsi que de ceux constituant la base de test. Si le nombre dimages parat limit, il faut
souligner que lapprentissage seffectue au niveau des pixels. Les images tant de dimensions
200 150 pixels, nous avons notre disposition une base de 430 000 points (les bords de limage
ne sont pas traits du fait du traitement par les matrices de cooccurrence).
Lapprentissage est effectu de manire supervise, partir dune segmentation manuelle de
la base dapprentissage constituant alors la vrit terrain.
Nous effectuons nos calculs sur les onze premires caractristiques de texture (les formules
de ces caractristiques sont prcises en annexe B). Les autres caractristiques nayant montr
quun intrt faible par rapport aux calculs supplmentaires quelles requraient. De plus, nous
rduisons le nombre de niveaux de gris de limage traiter 16. Cette rduction permet de
diminuer considrablement le nombre de calculs ncessaires sans pour autant causer une perte
dinformation notable concernant les textures prsentes.
En tout, le modle baysien NBs est par consquent constitu de 11 variables caractristiques
et de la variable binaire correspondant la classe. Afin de pouvoir traiter les valeurs continues
des caractristiques dHaralick, nous avons employ une mthode de discrtisation fonde sur
lemploi du critre AIC, tire de [Colot et al., 1994] et disponible via la toolbox Structure Learning
Package.
Pour la classification (pas dans le cas de lapprentissage), une pr-segmentation est opre
afin dacclrer les traitements. Cette pr-segmentation est fonde sur le mme principe que
les mthodes exposes en section 9.4.2 : une transforme de Hough circulaire est applique
limage aprs dtection des contours. Ce systme ne rencontre de problmes, dans le cas
dimages prises en conditions relles, que lors de la segmentation entre pupille et iris. Nous
lemployons ici afin de dlimiter une zone carre, de dimension gale au rayon extrieur de
liris dtect.
La classification se droule comme suit :
1. la pr-segmentation est effectue et permet de rduire la zone de limage traiter ;
2. une fentre glissante, de dimension f f pixels est applique chaque pixel, successivement dans limage ;
181 / 229
3. pour chaque pixel, les caractristiques dHaralick sont extraites et constituent une base
de cas ;
4. la base prcdemment extraite est fournie en entre au modle appris partir de la base
de 15 images ;
5. la classe dappartenance de chaque pixel est infre partir des caractristiques extraites ;
6. limage ainsi obtenue est soumise des oprateurs de morphologie mathmatique afin
dliminer les ventuels artefacts prsents.
Les oprateurs morphologiques sont appliqus limage segmente laide dun lment
structurant SE, de forme circulaire et de rayon 2.
Les oprateurs employs sont lrosion (EroSE (I)) et la dilatation (DilSE (I)) :
EroSE (I) = {(x, y)|SE(x,y) I}
(9.2)
(9.3)
o (x, y) dsigne les coordonnes du point de limage I o est appliqu loprateur. Plus exactement, nous appliquons une ouverture suivie dune fermeture (i.e. la suite doprations rosion,
dilatation, dilatation, rosion,).
Pralablement aux exprimentations, il nous a fallu fixer la valeur de deux paramtres :
la taille f de la fentre glissante ;
la distance d employe dans le calcul des caractristiques partir de la matrice de cooccurrence des niveaux de gris (cf section B.1.1).
Une premire srie dessais a t effectue partir du modle baysien NB afin de choisir ces
paramtres. Par la suite, nous avons utilis une dimension f , pour la fentre glissante, gale
7 pixels ainsi quune distance du vecteur de dplacement gale 2 pixels.
Enfin, la matrice doccurrence, base du calcul des caractristiques de texture, a t calcule
sur quatre directions (0 , 45 , 90 et 135 ), symtrise puis moyenne afin de rendre lensemble
invariant la rotation.
9.7.1
Rsultats
Nous avons valu quantitativement les rsultats des segmentations effectues partir des
deux modles NB et NBs . Ces rsultats sont regroups sous la forme des matrices de confusion
de la figure 9.6.
Afin de clarifier les rsultats, nous les reprsentons sous formes de taux, dans la figure 9.7
Les rsultats montrent que les modles sont capables, le plus souvent, de reconnatre les
parties de limage nappartenant pas liris, avec un taux de faux ngatif bas (0,65% et 3,2%).
Ce rsultat extrmement bas, pour le modle simplifi, est malheureusement contrebalanc par
une faible capacit reconnatre les parties de limage appartenant effectivement liris.
En regardant le dtail des rsultats pour chaque image, nous nous sommes aperus que les
modles ont eu plus particulirement du mal identifier les iris clairs et/ou fortement texturs.
Un exemple diris posant problme ainsi que le rsultat de sa segmentation laide du rseau
baysien naf dot de onze caractristiques sont donns dans la figure 9.8. On voit ici que seuls
182 / 229
Iris
Iris
Iris
194577
29997
Iris
26281
814945
Segmentation
Image
Image
Segmentation
Iris
Iris
Iris
146703
77871
Iris
5466
835760
(a) NB
(b) NB-s
Iris
Iris
Iris
86,6%
13,4%
Iris
3,2%
96,8%
(a) NB
Segmentation
Image
Image
Segmentation
Iris
Iris
Iris
65,3%
34,7%
Iris
0,6%
99,4%
(b) NB-s
Figure 9.8 Image dun iris et rsultat de sa segmentation par le biais dun rseau baysien naf
onze caractristiques. Seuls quelques pixels ont pu tre identifis comme appartenant liris.
Dans un premier temps, nous avons souponn une incompltude ou un manque de diversit
dans la base dapprentissage dtre la cause dun tel phnomne. Mais lajout dimages diris
prsentant des textures similaires neut, dans des essais ultrieurs, aucun effet.
La rduction du nombre de caractristiques modlises au sein du modle naf a eu pour effet
183 / 229
Figure 9.9 Image dun iris et rsultat de sa segmentation par le biais dun rseau baysien naf
onze caractristiques. De nombreux pixels appartenant liris ont pu tre identifis.
une dgradation des performances du modle. Mme si les variables font parties de groupes
fortement corrls, linformation apporte par une seule caractristique de chaque groupe est
clairement insuffisante pour permettre une segmentation efficace des pixels de liris.
Les temps de calcul demeurent de plus assez lourds du fait de lemploi dune classification
par pixel. Il est ncessaire de parcourir lensemble de limage afin dextraire les diffrentes
caractristiques et le temps mis est de prs de 110 secondes dans le cas du modle rduit NBs
et de 200 pour le modle NB, mme laide de la pr-segmentation du cercle extrieur de liris.
9.8
Conclusion
Les rsultats montrent que le modle baysien est capable deffectuer une tche de segmentation efficace.
Certaines images, cependant, semblent demeurer rfractaires la segmentation par un modle baysien.
Une explication ce phnomne est trs certainement lerreur humaine. Il nexiste pas en
effet de vrit terrain "officielle" pour la base Ubiris ; la consquence tant que nous avons nousmmes produit notre propre vrit terrain. Or, il est certainement de nombreux dfauts dans
limage (perte de focus, reflet insensible sur liris) perturbant les valeurs des caractristiques
que nous navons pas, nous-mmes, pu tablir lors de la cration de nos bases dapprentissage.
Si le travail ralis ici avait avant tout pour volont de dmontrer les capacits des rseaux
baysiens en tant que classificateurs sur un terrain inhabituel et non de rsoudre la problmatique de la segmentation de liris, ce dernier enjeu pourrait certainement tre entrepris. Certains
apports cette mthode pouvant, entre autres, tre lexploitation de techniques pouvant permettre lacclration du traitement et lamlioration de la segmentation.
Dautre part, nous navons prsent dans ce chapitre que les rsultats lis un seul type
de classificateur baysien : le modle naf. Nous avons essay, lors du dveloppement du
projet, demployer des modles plus fortement connects tels que les rseaux baysiens nafs
augments, les rseaux baysiens ou encore les arbres retourns par la mthode MWST. Les
184 / 229
185 / 229
Quatrime partie
Conclusions et perspectives
187
Chapitre 10
Conclusion
Ce travail de thse nous a permis dtablir quelques uns des principaux tenants et aboutissants de lapproche volutionnaire de lapprentissage de la structure dun rseau baysien.
Dans un premier temps, nous avons pu tudier la problmatique de lapprentissage de
structures travers les principales notions et dfinitions ainsi qu travers un panorama des
mthodes existantes.
Les mthodes volutionnaires ont ensuite t dfinies puis tudies afin de pouvoir les employer de manire adapte pour lapprentissage de structures. Nous avons par la suite propos
un algorithme gntique permettant un tel apprentissage, suivant une procdure de recherche
et dvaluation dans lespace des structures avant daugmenter cet algorithme par diverses
approches issues des travaux combins des domaines de lalgorithmique volutionnaire et des
modles baysiens.
Lexploitation des proprits de lespace des quivalents de Markov a t une premire
tape. En combinant la non-redondance propose par les graphes reprsentant des classes
dquivalence une mthode de niching squentiel, nous avons pu, de manire simple, amliorer
les performances de lalgorithme gntique. Cette mthode revenant pnaliser lvaluation
de certaines solutions par le biais de leurs classes dquivalences.
Dans la ligne de certains travaux rcents visant hybrider certaines techniques dexploration de lespace des solutions, nous avons procd une combinaison de la mthode prcdente avec un schma de rpartition des individus de la population dans lespace. Cette
dernire mthode sest montre gnralement plus performante, parvenant au moins galer
les performances de lalgorithme glouton sur lespace des quivalents, GES.
Nous avons aussi exploit la piste de ladaptativit des oprateurs, thmatique trs documente, en proposant une mthode dadaptativit de loprateur de mutation. la manire
dun processus de mmorisation des russites et erreurs passes venant renforcer le processus
volutionnaire, les conclusions quant cette dernire stratgie savrent mitigs. La complexit
mme du problme de lapprentissage de structures ainsi quune reprsentation a priori inadapte des solutions dans notre mthode figurent parmi les raisons derrire les performances
moindres de cette stratgie adaptative.
189
Le premier rsultat de notre travail est que les mthodes volutionnaires peuvent tre une
approche judicieuse dans les cas vraisemblables o lon cherche tablir la structure dun rseau
baysien partir dune base de cas de taille limite. En effet, dans ce cas prcis, la multiplicit
des optima locaux ainsi que labsence da priori sur la modlisation viennent frquemment
entraver le fonctionnement dalgorithmes tels que les algorithmes gloutons.
De plus, nos propositions de mthodes de niching, hybrides ou non, se sont avres efficaces en permettant de recouvrer des structures non seulement plus vraisemblables que celles
retournes par les mthodes existantes, mais aussi proches du modle sous-jacent aux donnes
considres.
Une autre partie de nos travaux a consist valuer le potentiel des rseaux baysiens en
tant que classifieurs apppliqus limage et ce, dans le cadre dune problmatique prcise :
la segmentation de la zone de liris dans limage dun il humain. Le modle naf utilis a
permis dobtenir des taux de segmentation trs performants, de lordre de 90%, en moyenne.
Si le systme dvelopp reste avant tout une tude thorique, les rsultats nous permettent
denvisager lexploitation future des modles baysiens dans le domaine de la reconnaissance
de formes bien quil nous semble impratif de combiner, du fait de la complexit de la tche, les
modles probabilistes aux connaissances et outils dores et dj employs pour le traitement de
limage : croissance de rgion, pr-segmentation, approche multi-rsolution, etc.
190 / 229
Chapitre 11
Perspectives
Le travail men dans cette thse a permis de pouvoir confronter les caractristiques dune
problmatique dintrt lapprentissage de la structure dun rseau baysien celles dun
ensemble de mthodes tout aussi populaire les mthodes volutionnaires . Sil est naturel
de penser que ces deux domaines devaient un jour faire lobjet dune tude commune, ce qui a
dores et dj t le cas (cf section 5.5), on peut tre surpris du fait que la plupart de ces mthodes
ont principalement voulu adapter le problme au solveur et non linverse. Or les limitations en
performances de ces approches sont, notre avis, pour la plupart inhrentes lapproche du
problme et non ncessairement celui-ci mme.
Si lon sintresse en particulier au cas des algorithmes employant une stratgie de niching, combine ou non un schma de rpartition de la population, ces stratgies pourraient
tre amliores par lemploi dune distance dfinie directement sur lespace des graphes essentiels, servant eux-mmes dans nos travaux la dfinition de niches. Des travaux rcents
[Tsamardinos et al., 2006] ont ainsi dtermin une distance ddition au sein de lespace de
graphes essentielles : la distance de Hamming structurelle. Les rsultats de lemploi de cette
distance en conjugaison avec une approche de niching spatial classique dont lemploi tait
dans notre cas contraint par la dfinition dune distance ad hoc dans lespace de recherche
serait un sujet dintrt, dans la continuit de nos travaux.
Lun des principaux dsavantages des mthodes volutionnaires appliques lapprentissage de structure, outre le temps de calcul, est doptimiser la population en cours en fonction
de la seule fitness alors couramment gale une fonction dvaluation de structures telle que le
critre BIC. Bien que justifie, cette approche entrane, dans le cas de lapprentissage de structures, un certain nombre de problmes intimement lis aux dfauts des mthodes dvaluation
issue du domaine des rseaux baysiens. Il nexiste en effet pas, lheure actuelle, de mthode
dvaluation parfaitement fiable pour une structure, preuve sil en est, le nombre important de
mesures employes : AIC, BIC, MDL, BDeu. La fiabilit des tests dindpendance statistique est
aussi un problme, si lon souhaite aborder le problme par cette voie.
Les scores aussi bien que les mthodes bases sur la dtection dindpendances probabilistes
rencontrent toutes des problmes dans le cas de bases dapprentissage de tailles restreintes. Une
possibilit, ds lors, serait de pouvoir combiner diffrentes mesures afin de russir atteindre
un compromis entre vraisemblance structurelle, du point vue de la mesure mathmatique, et de
191
192 / 229
Bibliographie
[Acid et de Campos, 1996] Acid, S. et de Campos, L. (1996). A hybrid methodology for learning
belief networks : Benedict. International Journal of Approximate Reasoning, 27 :235262.
[Acid et de Campos, 2003] Acid, S. et de Campos, L. M. (2003). Searching for bayesian network
structures in the space of restricted acyclic partially directed graphs. Journal of Artificial
Intelligence Research, 18 :445490.
[Akaike, 1970] Akaike, H. (1970). Statistical predictor identification. Annals of the Institute of
Statistical Mathematics, 22 :203217.
[Allanach et al., 2004] Allanach, J., Tu, H., Singh, S., Pattipati, K., et Willett, P. (2004). Detecting,
tracking and counteracting terrorist networks via hidden markov models. In IEEE Aerospace
Conference.
[Anastasoff, 1999] Anastasoff, S. J. (1999). Evolving mutation rates for the self-optimisation of
genetic algorithms. In Advances in Artificial Life, ECAL99 : 5th European Conference on Artificial
Life, pages 133139, Lausanne, Switzerland. Springer.
[Andersson et al., 1995] Andersson, S., Madigan, D., et Perlman, M. (1995). A characterization
of markov equivalence classes for acyclic digraphs. Technical Report 287, Department of
Statistics, University of Washington.
[Angeline, 1995] Angeline, P. J. (1995). Adaptive and self-adaptive evolutionary computations.
In Palaniswami, M. et Attikiouzel, Y., editors, Computational Intelligence : A Dynamic Systems
Perspective, pages 152163. IEEE Press.
[Antonisse, 1989] Antonisse, J. (1989). A new interpretation of schema notation that overturns
the binary encoding constraint. In Schaffer, J. D., editor, Proceedings of the Third International
Conference on Genetic Algorithms, pages 8697, San Francisco. Morgan Kaufmann.
[Auger, 2004] Auger, A. (2004). Contributions thoriques et numriques loptimisation continue
par Algorithmes Evolutionnaires. PhD thesis, Universit Paris 6.
[Baluja, 1994] Baluja, S. (1994). Population-based incremental learning : A method for integrating genetic search based function optimization and competitive learning. Technical Report
CMU-CS-94-163, Computer Science Department, Carnegie Mellon University, Pittsburgh,
PA.
[Bck, 1992] Bck, T. (1992). Self-adaptation in genetic algorithms. In Varela, F. J. et Bourgine, P.,
editors, Proceedings of the First European Conference on Artificial Life, pages 227235, Cambridge,
MA. MIT Press.
[Bck, 1993] Bck, T. (1993). Optimal mutation rates in genetic search. In Proceedings of the 5th
International Conference on Genetic Algorithms, pages 28.
193
BIBLIOGRAPHIE
[Bck et al., 2000] Bck, T., Eiben, A. E., et van der Vaart, N. A. L. (2000). An empirical study on
gas without parameters. In PPSN VI : Proceedings of the 6th International Conference on Parallel
Problem Solving from Nature, Paris, France, September 18-20, pages 315324.
[Bck et Schtz, 1996] Bck, T. et Schtz, M. (1996). Intelligent mutation rate control in canonical
genetic algorithms. In Proceedings of the International Symposium on Methodologies for Intelligent
Systems., pages 158167.
[Beal, 2003] Beal, M. (2003). Variational Algorithms for Approximate Bayesian Inference. PhD thesis,
Gatsby Computational Neuroscience Unit, University College, London.
[Beasley et al., 1993] Beasley, D., Bull, D. R., et Martin, R. R. (1993). A sequential niche technique
for multimodal function optimization. Evolutionary Computation, 1(2) :101125.
[Beinlich et al., 1989] Beinlich, I. A., Suermondt, H. J., Chavez, R. M., et Cooper, G. F. (1989).
The alarm monitoring system : A case study with two probabilistic inference techniques for
belief networks. In Proceedings of the Second European Conference on Artificial Intelligence in
Medicine, pages 247256, London, England.
[Binder et al., 1997] Binder, J., Koller, D., Russell, S. J., et Kanazawa, K. (1997). Adaptive probabilistic networks with hidden variables. Machine Learning, 29(2-3) :213244.
[Blanco et al., 2003] Blanco, R., Inza, I., et Larraaga, P. (2003). Learning bayesian networks
in the space of structures by estimation of distribution algorithms. International Journal of
Intelligent Systems, 18(2) :205220.
[Bonet et al., 1996] Bonet, J. S. D., Isbell, C. L., et Viola, P. (1996). Mimic : Finding optima by
estimating probability densities. In Proceedings of Neural Information Processing Systems, pages
424430.
[Bouckaert, 1994] Bouckaert, R. (1994). Properties of bayesian belief network learning algorithms. In Proceedings of the 10th Annual Conference on Uncertainty in Artificial Intelligence
(UAI-94), pages 10210, San Francisco, CA. Morgan Kaufmann.
[Bouckaert, 1993] Bouckaert, R. R. (1993). Probabilistic network construction using the minimum description length principle. Lecture Notes in Computer Science, 747 :4148.
[Bozdogan, 1987] Bozdogan, H. (1987). Model selection and akaikes information criteria (AIC) :
The general theory and its analytical extentions. Psychometrika, 52 :354370.
[Buntine, 1991] Buntine, W. (1991). Theory refinement of bayesian networks. In In Proceedings of the Seventh Conference on Uncertainty in Artificial Intelligence, pages 5260. American
Mathematical Society.
[Canny, 1986] Canny, F. J. (1986). A computational approach to edge detection. Transactions on
Pattern Analysis and Machine Intelligence, 8(6) :679698.
[Cantu-Paz, 1997] Cantu-Paz, E. (1997). A survey of parallel genetic algorithms. Technical Report 97003, Illinois Genetic Algorithms Laboratory, University of Illinois at UrbanaChampaign.
[Charniak, 1991] Charniak, E. (1991). Bayesian networks without tears. AI Magazine, 12(4) :50
63.
[Cheeseman et al., 1988] Cheeseman, P., Self, M., Kelly, J., Taylor, W., Freeman, D., et Stutz, J.
(1988). Bayesian classification. In Proceedings of the Seventh National Conference on Artificial
Intelligence (AAAI-88), pages 607617, St. Paul, MN.
194 / 229
BIBLIOGRAPHIE
[Chellapilla et Fogel, 1999] Chellapilla, K. et Fogel, D. (1999). Fitness distributions in evolutionary computation : motivation and examples in the continuous domain. BioSystems, 54
(1-2) :1529.
[Cheng et al., 2002] Cheng, J., Bell, D. A., et Liu, W. (2002). Learning belief networks from data :
An information theory based approach. Artificial Intelligence, 1-2 :4390.
[Chickering, 1995] Chickering, D. (1995). A transformational characterization of bayesian network structures. In Hanks, S. et Besnard, P., editors, Proceedings of the 11th Conference on
Uncertainty in Artificial Intelligence, pages 8798.
[Chickering, 2002a] Chickering, D. (2002a). Optimal structure identification with greedy search.
Journal of Machine Learning Research, 3 :507554.
[Chickering et al., 1995] Chickering, D., Geiger, D., et Heckerman, D. (1995). Learning bayesian
networks : Search methods and experimental results. In Proceedings of the fifth Conference on
Artificial Intelligence and Statistics, pages 112128.
[Chickering, 1996] Chickering, D. M. (1996). Learning equivalence classes of bayesian network
structures. In Horvitz, E. et Jensen, F. V., editors, Proceedings of the 12th Annual Conference on
Uncertainty in Artificial Intelligence, pages 150157. Morgan Kaufmann.
[Chickering, 2002b] Chickering, D. M. (2002b). Learning equivalence classes of bayesiannetwork structures. Journal of Machine Learning Research, 2 :445498.
[Chickering et al., 1994] Chickering, D. M., Geiger, D., et Heckerman, D. (1994). Learning bayesian networks is NP-hard. Technical report, Microsoft Research.
[Chickering et Meek, 2003] Chickering, D. M. et Meek, C. (2003). Monotone DAG faithfulness :
A bad assumption. Technical Report MSR-TR-2003-16, Microsoft Research.
[Chickering et al., 2003] Chickering, D. M., Meek, C., et Heckerman, D. (2003). Large-sample
learning of bayesian networks is hard. In Proceedings of the Nineteenth Conference on Uncertainty
in Artificial Intelligence, Acapulco, Mexico, pages 162169. Morgan Kaufmann.
[Chow et Liu, 1968] Chow et Liu (1968). Approximating discrete probability distributions with
dependence trees. IEEE Transactions on Information Theory, 14(3) :462467.
[Cobb et Shenoy, 2006] Cobb, B. R. et Shenoy, P. P. (2006). Inference in hybrid bayesian networks with mixtures of truncated exponentials. International Jounal of Approximate Reasoning,
41(3) :257286.
[Cohoon et al., 1987] Cohoon, J. P., Hedge, S. U., Martin, W. N., et Richards., D. (1987). Punctuated equilibria : A parallel genetic algorithm. In Grefenstette, J. J., editor, Genetic algorithms
and their applications : Proceedings of the second International Conference on Genetic Algorithms,
pages 148154. Lawrence Erlbaum Associates.
[Colot et al., 1994] Colot, O., Olivier, C., Courtellemont, P., et El Matouat, A. (1994). Information criteria and abrupt changes in probability laws. In Signal Processing VII : Theories and
Applications, pages 18551858.
[Cooper et Herskovits, 1992] Cooper, G. et Herskovits, E. (1992). A bayesian method for the
induction of probabilistic networks from data. Machine Learning, 9 :309347.
[Cooper, 1987] Cooper, G. F. (1987). Probabilistic inference using belief networks is NP-hard.
Technical Report KSL-87-27, Medical Computer Science Group, Stanford University, Stanford, CA.
[Cormen et al., 1994] Cormen, T., Leiserson, C., et Rivest, R. (1994). Introduction lalgorithmique.
Dunod.
195 / 229
BIBLIOGRAPHIE
[Cotta et Muruzbal, 2002] Cotta, C. et Muruzbal, J. (2002). Towards a more efficient evolutionary induction of bayesian networks. In PPSN VII : Parallel Problem Solving from Nature,
7th International Conference, Granada, Spain, September 7-11, pages 730739.
[Dagum et Luby, 1993] Dagum, P. et Luby, M. (1993). Approximate probabilistic reasoning in
bayesian belief networks is NP-hard. Artificial Intelligence, 60 :141153.
[DAmbrosio, 1993] DAmbrosio, B. (1993). Incremental probabilistic inference. In UAI 93 :
Proceedings of the Ninth Annual Conference on Uncertainty in Artificial Intelligence, pages 301308,
Providence, Washington, DC, USA. The Catholic University of America.
[Dash et Druzdzel, 1999] Dash, D. et Druzdzel, M. J. (1999). A hybrid anytime algorithm for
the construction of causal models from sparse data. In Proceedings of the 15th Conference on
Uncertainty in Artificial Intelligence, pages 142149.
[Daugman, 1993] Daugman, J. (1993). High confidence visual recognition of persons by a test
of statistical independence. Image Pattern Analysis and Machine Intelligence, 15(11) :11481161.
[Daugman, 2007] Daugman, J. G. (2007). New methods in iris recognition. IEEE Transactions
on Systems, Man, and Cybernetics, 37(5) :11671175.
[Davis, 1991] Davis, L. (1991). Handbook of Genetic Algorithms. van Nostrand Reinhold, New
York.
[de Campos et Castellano, 2007] de Campos, L. M. et Castellano, J. G. (2007). Bayesian network learning algorithms using structural restrictions. International Journal of Approximate
Reasoning, 45(2) :233254.
[De Jong, 1992] De Jong, K. (1992). Are genetic algorithms function optimizers ? In Parallel
Problem Solving from Nature 2, PPSN-II, Brussels, pages 314.
[De Jong, 2001] De Jong, K. (2001). Evolutionary Computation : A Unified Approach. MIT Press.
[De Jong, 1975] De Jong, K. A. (1975). An analysis of the behavior of a class of genetic adaptive
systems. PhD thesis, University of Michigan.
[Deb, 2001] Deb, K. (2001). Multi-objective optimization using genetic algorithms. Wiley.
[Deb et Agrawal, 1995] Deb, K. et Agrawal, R. B. (1995). Simulated binary crossover for continuous search space. Complex Systems, 9 :115148.
[Dechter, 1997] Dechter, R. (1997). Mini-buckets : a general scheme for approximation in automated reasoning. In Proceedings of the fifteenth International Joint Conference on Artifical
Intelligence (IJCAI), pages 12971302.
[Delaplace et al., 2006] Delaplace, A., Brouard, T., et Cardot, H. (2006). Two evolutionary methods for learning bayesian network structures. In Proceedings of the 2006 International Conference on Computational Intelligence and Security (CIS 2006), volume 4456 of Lecture Notes in
Artificial Intelligence, pages 7380, Guangzhou, China. Springer.
[Delaplace et al., 2007a] Delaplace, A., Brouard, T., et Cardot, H. (2007a). Apprentissage de la
structure dun rseau baysien par un algorithme gntique. Revue dIntelligence Artificielle,
21(3) :333352.
[Delaplace et al., 2007b] Delaplace, A., Brouard, T., et Cardot, H. (2007b). Dtermination volutionnaire de classes dquivalences de structures de rseaux baysiens. In Congrs de la
Socit Franaise de Recherche Oprationnelle et dAide la Dcision FRANCORO V / ROADEF
2007, Grenoble, France. Presses Universitaires de Grenoble.
[Dempster et al., 1977] Dempster, A., Laird, N., et Rubin, D. (1977). Maximum likelihood for
incomplete data via the EM algorithm. Journal of the Royal Statistical Society, B 39 :138.
196 / 229
BIBLIOGRAPHIE
BIBLIOGRAPHIE
[Forrest, 1985] Forrest, S. (1985). Documentation for prisoners dilemma and norms programs
that use the genetic algorithm. University of Michigan, Ann Arbor, MI.
[Francois et Leray, 2004] Francois, O. et Leray, P. (2004). BNT structure learning package :
Documentation and experiments. Technical report, Laboratoire PSI.
[Franois, 2006] Franois, O. (2006). De lidentification de structure de rseaux baysiens la reconnaissance de formes partir dinformations compltes ou incompltes. PhD thesis, Institut national
des sciences appliques de Rouen.
[Franois et Leray, 2004] Franois, O. et Leray, P. (2004). tude comparative dalgorithmes dapprentissage de structure dans les rseaux baysiens. Journal Electronique dIntelligence Artificielle, 5(39) :119.
[Friedman, 1997] Friedman, N. (1997). Learning bayesian networks in the presence of missing
values and hidden variables. In Proceedings of the 14th International Conference on Machine
Learning, pages 125133. Morgan Kaufmann.
[Friedman, 1998] Friedman, N. (1998). The bayesian structural EM algorithm. In Fourteenth
Conf. on Uncertainty in Artificial Intelligence (UAI), pages 129138.
[Friedman et al., 1997] Friedman, N., Geiger, D., et Goldszmidt, M. (1997). Bayesian network
classifiers. Machine Learning, 29 :131163.
[Friedman et Goldszmidt, 1996] Friedman, N. et Goldszmidt, M. (1996). Discretizing continuous attributes while learning bayesian networks. In ICML, pages 157165.
[Friedman et Koller, 2000] Friedman, N. et Koller, D. (2000). Being bayesian about network
structure. In Proceedings of the 16th Annual Conference on Uncertainty in Artificial Intelligence,
pages 2012, San Francisco, CA. Morgan Kaufmann.
[Fu, 2005] Fu, L. D. (2005). A comparison of state-of-the-art algorithms for learning bayesian
network structure from continuous data. Masters thesis, Faculty of the Graduate School of
Vanderbilt University.
[Geman et Geman, 1984] Geman, S. et Geman, D. (1984). Stochastic relaxation, gibbs distributions, and the bayesian restoration of images. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 6 :721741.
[Gilks et al., 1996] Gilks, W., Richardson, S., et Spiegelhalter, D. (1996). Markov Chain Monte
carlo in Practice. Chapman & Hall.
[Gillispie et Perlman, 2002] Gillispie, S. B. et Perlman, M. D. (2002). The size distribution
for markov equivalence classes of acyclic digraph models. Artificial Intelligence archive,
141(1/2) :137155.
[Glickman et Sycara, 2000] Glickman, M. et Sycara, K. (2000). Reasons for premature convergence of self-adapting mutation rates. In Proceedings of the 2000 Congress on Evolutionary
Computation, volume 1, pages 62 69.
[Goldberg, 1989] Goldberg, D. E. (1989). Genetic Algorithms in Search, Optimization, and Machine
Learning. Addison-Wesley Professional.
[Goldberg et Richardson, 1987] Goldberg, D. E. et Richardson, J. (1987). Genetic algorithms
with sharing for multimodal function optimization. In Proceedings of the Second International Conference on Genetic Algorithms on Genetic algorithms and their application, pages 4149,
Mahwah, NJ, USA. Lawrence Erlbaum Associates, Inc.
198 / 229
BIBLIOGRAPHIE
[Gomez, 2004] Gomez, J. (2004). Self adaptation of operator rates in evolutionary algorithms.
In Proceedings of the Genetic and Evolutionary Computation Conference (GECCO 2004), pages
11621173.
[Grefenstette, 1981] Grefenstette, J. (1981). Parallel adaptive algorithms for function optimization. Technical Report CS-81-19, Computer Science Department, Carnegie Mellon University,
Vanderbilt University, Nashville, TN.
[Haralick et al., 1973] Haralick, R., Shanmugan, K., et Distein, I. (1973). Textural features for
image classification. IEEE Transactions on Systems, Man, and Cybernetics, 3 :610621.
[He et Shi, 2007] He, X. et Shi, P. (2007). A new segmentation approach for iris recognition
based on hand-held capture device. Pattern Recognition, 40(4) :13261333.
[Heckerman, 1995] Heckerman, D. (1995). A tutorial on learning bayesian networks. Technical
Report MSR-TR-95-06, Microsoft Research, Redmond, WA.
[Heckerman et Geiger, 1994] Heckerman, D. et Geiger, D. (1994). A characterization of the dirichlet distribution through global and local independence. The Annals of Statistics, 25(3) :1344
1369.
[Heckerman et al., 1995a] Heckerman, D., Geiger, D., et M.Chickering, D. (1995a). Learning
bayesian networks : The combination of knowledge and statistical data. Machine Learning,
20 :197243.
[Heckerman et al., 1995b] Heckerman, D., Mamdani, A., et Wellman, M. P. (1995b). Real world
applications of bayesian networks. Communications of the ACM, 38(3) :2430.
[Henrion, 1988] Henrion, M. (1988). Propagation of uncertainty by probabilistic logic sampling
in bayes networks. Uncertainty in Artificial Intelligence, 2 :149164.
[Holland, 1975] Holland, J. H. (1975). Adaptation in natural and artificial systems. The University
of Michigan Press, Ann Arbor.
[Hu et Goodman, 2004] Hu, J. et Goodman, E. D. (2004). Robust and efficient genetic algorithms
with hierarchical niching and a sustainable evolutionary computation model. In Genetic and
Evolutionary Computation - GECCO 2004, Genetic and Evolutionary Computation Conference,
Seattle, WA, USA, June 26-30, 2004, Proceedings, Part I, pages 12201232.
[Huang et Darwiche, 1996] Huang, C. et Darwiche, A. (1996). Inference in belief networks : A
procedural guide. International Journal of Approximate Reasoning, 15 (3) :225263.
[Hurvich et Tsai, 1989] Hurvich, C. M. et Tsai, C.-L. (1989). Regression and time series model
selection in small samples. Biometrika, 76(2) :297307.
[Jaakkola et Jordan, 1999] Jaakkola, T. et Jordan, M. I. (1999). Variational probabilistic inference
and the qmr-dt network. Journal of Artificial Intelligence Research, 10 :291322.
[Jaronski et al., 2001] Jaronski, W., Bloemer, J., Vanhoof, K., et Wets, G. (2001). Use of bayesian belief networks to help understand online audience. In Proceedings of the Data Mining
Marketing Applications Workshop ECML/PKDD, Freiburg, Germany.
[Jensen, 1996] Jensen, F. (1996). An Introduction to Bayesian Networks. Springer Verlag, New
York.
[Jensen et al., 1990] Jensen, F., Lauritzen, S., et Olesen, K. (1990). Bayesian updating in causal
probabilistic networks by local computations. Computational Statistics Quaterly, 4 :269282.
[Jordan, 1998] Jordan, M. (1998). Learning in Graphical Models. Dordecht, The Netherlands :
Kluwer Academic Publishers.
199 / 229
BIBLIOGRAPHIE
[Jordan, 2004] Jordan, M. I. (2004). Graphical models. Statistical Science (Special Issue on Bayesian
Statistics), 19(1) :140155.
[Kallel et al., 2001] Kallel, L., Naudts, B., et Rogers, A., editors (2001). Theoretical Aspects of
Evolutionary Computing. Springer, Berlin.
[Kayaalp et Cooper, 2002] Kayaalp, M. et Cooper, G. F. (2002). A bayesian network scoring
metric that is based on globally uniform parameter priors. In Proceedings of the Eighteenth
Annual Conference on Uncertainty in Artificial Intelligence (UAI-2002), pages 251258.
[Kjrulff, 1994] Kjrulff, U. (1994). Reduction of computational complexity in bayesian networks through removal of weak dependences. In UAI 94 : Proceedings of the Tenth Annual
Conference on Uncertainty in Artificial Intelligence, pages 374382.
[Kocka et al., 2001] Kocka, T., Bouckaert, R. R., et Studen, M. (2001). On characterizing inclusion of bayesian networks. In UAI 01 : Proceedings of the 17th Conference in Uncertainty
in Artificial Intelligence, University of Washington, Seattle, Washington, USA, August 2-5, 2001,
pages 261268.
[Koehler, 1997] Koehler, G. J. (1997). New directions in genetic algorithm theory. Annals of
Operations Research, 75 :4968.
[Koza, 1989] Koza, J. R. (1989). Hierarchical genetic algorithms operating on populations of
computer programs. In Sridharan, N. S., editor, Proceedings of the Eleventh International Joint
Conference on Artificial Intelligence IJCAI-89, volume 1, pages 768774. Morgan Kaufmann.
[Koza, 1992] Koza, J. R. (1992). Genetic Programming : On the programming of Computers by Means
of Natural Selection. MIT Press, Cambridge, Massachusetts.
[Krause, 1999] Krause, P. J. (1999). Learning probabilistic networks. The Knowledge Engineering
Review archive, 13(4) :321351.
[Kreinovich et al., 1993] Kreinovich, V., Quintana, C., et Fuentes, O. (1993). Genetic algorithms :
What fitness scaling is optimal ? Cybernetics and Systems, 24(1) :926.
[Lacey et MacNamara, 2000] Lacey, G. et MacNamara, S. (2000). Context-aware shared control
of a robot mobility aid for the elderly blind. I. J. Robotic Res., 19(11) :10541065.
[Lam et Bacchus, 1994] Lam, W. et Bacchus, F. (1994). Learning bayesian belief networks : An
approach based on the MDL principle. Computational Intelligence, 10 :269294.
[Langley et al., 1992] Langley, P., Iba, W., et Thompson, K. (1992). An analysis of bayesian
classifiers. In (Ed.), W. R. S., editor, Proceedings of the 10th National Conference on Artificial
Intelligence., pages 223228, San Jose, CA,. The AAAI Press.
[Larraaga et al., 2000] Larraaga, P., Etxeberria, R., Lozano, J., et Pea, J. (2000). Combinatorial
optimization by learning and simulation of bayesian networks. In Proceedings of the Conference
in Uncertainty in Artificial Intelligence, UAI 2000, pages 343352.
[Larraaga et al., 1996] Larraaga, P., Kuijpers, C., Murga, R., et Yurramendi, Y. (1996). Learning
bayesian network structures by searching for the best ordering with genetic algorithms. IEEE
Transactions on Systems, Man, and Cybernetics, 26(4) :487493.
[Larraaga et Lozano, 2001] Larraaga, P. et Lozano, J. A. (2001). Estimation of Distribution
Algorithms : A New Tool for Evolutionary Computation (Genetic Algorithms and Evolutionary
Computation). Kluwer Academic Press.
[Larraaga et al., 2001] Larraaga, P., Lozano, J. A., et Bengoetxea, E. (2001). Estimation of distribution algorithms based on multivariate normal and gaussian networks. Technical Report
KZZA-1K-1-01, Department of Computer Science and Artificial Intelligence, University of
the Basque Country, Donostia, Spain.
200 / 229
BIBLIOGRAPHIE
[Larranaga et al., 1996] Larranaga, P., Poza, M., Yurramendi, Y., Murga, R., et Kuijpers, C. (1996).
Structure learning of bayesian networks by genetic algorithms : A performance analysis of
control parameters. IEEE Transactions on Pattern Analysis and Machine Intelligence, 18(9) :912
926.
[Lauritzen et Speigelhalter, 1988] Lauritzen, S. et Speigelhalter, D. (1988). Local computations
with probabilities on graphical structures and their application to expert systems. Royal
statistical Society series B (Methodological), 50(2) :157224.
[Lauritzen, 1995] Lauritzen, S. L. (1995). The EM algorithm for graphical association models
with missing data. Computational Statistics & Data Analysis, 19(2) :191201.
[Lauritzen, 1998] Lauritzen, S. L. (1998). Graphical Models, volume 17 of Oxford Statistical Science
Series. Oxford Science Publications.
[Lauritzen et Wermuth, 1989] Lauritzen, S. L. et Wermuth, N. (1989). Graphical models for
associations between variables, some of which are qualitative and some quantitative. Annals
of Statistics, 17 :31U57.
[Leray, 2006] Leray, P. (2006). Rseaux Baysiens - Apprentissage et Modlisation de Systmes Complexes. Habilitation diriger des recherches, Institut National des Sciences Appliques de
Rouen.
[Lerner et al., 2001] Lerner, U., Segal, E., et Koller, D. (2001). Exact inference in networks with
discrete children of continuous parents. In Proceedings of the 17th Annual Conference on Uncertainty in Artificial Intelligence (UAI-01), pages 31932, San Francisco, CA. Morgan Kaufmann.
[Li et DAmbrosio, 1994] Li, Z. et DAmbrosio, B. (1994). Efficient inference in bayes nets as a
combinatorial optimization problem. International Journal of Approximate Reasoning, 11(1) :55
81.
[Lin, 1991] Lin, J. (1991). Divergence measures based on the shannon entropy. IEEE Transactions
on Information Theory, 37(1) :145151.
[Ling et Zhang, 2002] Ling, C. X. et Zhang, H. (2002). The representational power of discrete
bayesian networks. Journal of Machine Learning Research, 3 :709721.
[Lozano et al., 2006] Lozano, J. A., Larranaga, P., et Inza, I. (2006). Towards a New Evolutionary
Computation : Advances on Estimation of Distribution Algorithms (Studies in Fuzziness and Soft
Computing). Springer.
[MacKay, 1998] MacKay, D. J. C. (1998). Introduction to Monte Carlo methods. In Jordan, M. I.,
editor, Learning in Graphical Models, NATO Science Series, pages 175204. Kluwer.
[Madigan et York, 1995] Madigan, D. et York, J. (1995). Bayesian graphical models for discrete
data. Int. Stat. Rev., 63 :215232.
[Mahfoud, 1992] Mahfoud, S. W. (1992). Crowding and preselection revisited. In Parallel Problem
Solving from Nature 2, PPSN-II, Brussels, Belgium, pages 2736.
[Mahfoud, 1994] Mahfoud, S. W. (1994). Crossover interactions among niches. In Proceedings of
the First IEEE Conference on Evolutionary Computation, volume 1, pages 188193, Piscataway,
NJ. IEEE Service Center.
[Mahfoud, 1995] Mahfoud, S. W. (1995). Niching methods for genetic algorithms. PhD thesis,
University of Illinois at Urbana-Champaign, Urbana, IL, USA. IlliGAL Report 95001.
[Margaritis, 2005] Margaritis, D. (2005). Distribution-free learning of bayesian network structure in continuous domains. In AAAI, pages 825830.
201 / 229
BIBLIOGRAPHIE
[Martin et al., 1997] Martin, W. N., Lienig, J., et Cohoon, J. P. (1997). Island (migration) models : Evolutionary algorithms based on punctuated equilibria. In Handbook of Evolutionary
Computation., pages C6.3 :1C6.3 :16. Oxford University Press.
[Masek, 2003] Masek, L. (2003). Recognition of human iris patterns for biometric identification.
[Masek et Kovesi., 2003] Masek, L. et Kovesi., P. (2003). Matlab source code for a biometric
identification system based on iris patterns. Technical report, The School of Computer
Science and Software Engineering, The University of Western Australia.
[McCallum et Nigam, 1998] McCallum, A. et Nigam, K. (1998). A comparison of event models
for naive bayes text classification. In Proceedings of the AAAI/ICML-98 Workshop on Learning
for Text Categorization, pages 4148. AAAI Press.
[Meek, 1997] Meek, C. (1997). Graphical Models : Selecting causal and statistical models. PhD thesis,
Carnegie Mellon University.
[Meganck et al., 2006a] Meganck, S., Leray, P., Maes, S., et Manderick, B. (2006a). Apprentissage
des rseaux baysiens causaux partir de donnes dobservation et dexprimentation. In
Proceedings of 15me Congrs Francophone Reconnaissance des Formes et Intelligence Artificielle,
RFIA 2006, page 131, Tours, France.
[Meganck et al., 2006b] Meganck, S., Leray, P., et Manderick, B. (2006b). Learning causal bayesian networks from observations and experiments : A decision theoritic approach. In Proceedings of the Third International Conference, MDAI 2006, volume 3885 of Lecture Notes in Artificial
Intelligence, pages 5869, Tarragona, Spain. Springer.
[Meganck et al., 2007] Meganck, S., Leray, P., et Manderick, B. (2007). Causal graphical models
with latent variables : Learning and inference. In Ninth European Conference on Symbolic and
Quantitative Approaches to Reasoning with Uncertainty ECSQARU 2007, pages 516.
[Metropolis et al., 1953] Metropolis, N., Rosenbluth, A., Rosenbluth, M., Teller, A., et Teller, E.
(1953). Equation of state calculations by fast computing machines. Journal of Chemical Physics,
21 :10871092.
[Monro et al., 2007] Monro, D. M., Rakshit, S., et Zhang, D. (2007). DCT-based iris recognition.
IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(4) :586595.
[Mhlenbein, 1991] Mhlenbein, H. (1991). Evolution in time and space - the parallel genetic
BIBLIOGRAPHIE
BIBLIOGRAPHIE
279U286.
Morgan Kaufman.
[Spirtes et al., 1993] Spirtes, Glymour, et Scheines (1993).
Springer-Verlag.
[Spirtes et al., 2000] Spirtes, Glymour, et Scheines (2000). Causation, Prediction and Search. (2d
ed.). The MIT Press, 2nd edition.
[Spirtes et Scheines, 1991] Spirtes, P. Glymour, C. et Scheines, R. (1991). An algorithm for fast
recovery of sparse causal graphs. Social Science Computer Review, 9(9) :6272.
[Spirtes et al., 1999] Spirtes, P., Meek, C., et Richardson, T. (1999). An algorithm for causal
inference in the presence of latent variables and selection bias. In Computation, Causation, and
Discovery, pages 211252. AAAI Press, Menlo Park, CA.
[Spirtes, 2001] Spirtes, R. (2001). An anytime algorithm for causal inference. In Proceedings of
the Conference on Artificial Intelligence and Statistics.
204 / 229
BIBLIOGRAPHIE
BIBLIOGRAPHIE
[Wong et al., 1999] Wong, M., Lam, W., et Leung, K. S. (1999). Using evolutionary programming
and minimum description length principle for data mining of bayesian networks. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 21(2) :174178.
[Wong et al., 2002] Wong, M., Lee, S. Y., et Leung, K. S. (2002). A hybrid data mining approach
to discover bayesian networks using evolutionary programming. In Proceedings of the Genetic
and Evolutionary Computation Conference (GECCO 2002), pages 214222.
[Wright, 1921] Wright, S. (1921). Correlation and causation. Journal of Agricultural Research,
20 :557585.
[Wright, 1964] Wright, S. (1964). Stochastic processes in evolution. In Gurland, J., editor, Stochastic models in medecine and biology, pages 199241. University of Wisconsin Press, Madison,
WI.
[Yu et al., 2002] Yu, J., Smith, V. A., Wang, P. P., Hartemink, A. J., et Jarvis., E. D. (2002). Using
bayesian network inference algorithms to recover molecular genetic regulatory networks. In
International Conference on Systems Biology (ICSB02).
[Zaharie, 2004] Zaharie, D. (2004). A multipopulation differential evolution algorithm for multimodal optimization. In Matousek, R. et Osmera, P., editors, Proceedings of Mendel, 10th
International Conference on Soft Computing, Brno, june 2004, pages 1722.
[Zhang, 2006] Zhang, J. (2006). Causal Inference and Reasoning in Causally Insufficient Systems.
PhD thesis, Carnegie Mellon University.
[Zhang et al., 2006] Zhang, J., Huang, D.-S., Lok, T.-M., et Lyu, M. R. (2006). A novel adaptive
sequential niche technique for multimodal function optimization. Neurocomputing, 69(1618) :23962401.
[Zhang, 2003] Zhang, N. (2003). Structural EM for hierarchical latent class models. Technical
Report HKUST-CS03-06, Hong Kong University of Science & Technology.
[Zhigljavsky, 1991] Zhigljavsky, A. A. (1991). Theory of global random search. Kluwer Academic.
206 / 229
Annexe A
Probabilits et statistiques
A.1
Probabilits
Cette partie a pour objectif dintroduire les notions et proprits de la thorie des probabilits
employes dans nos travaux. Cette tude nest pas exhaustive et nous limitons volontairement
notre champ aux lments ncessaires la comprhension et la manipulation des modles
tudis. Cest pour cela que seules seront abordes les probabilits dfinies sur un espace discret
et fini. Soit , lespace des observables (appel aussi univers ou espace des vnements dans la
littrature), un ensemble fini non vide.
Dfinition 25 (tribu des vnements)
Soit A, un sous ensemble des parties de , A a une structure de tribu sil satisfait :
si A A alors son complmentaire Ac = \A est aussi dans A.
S
Soit une suite A1 , A2 , . . . , An finie et dnombrable dlments de A, leur runion n1 An est aussi
dans A.
Lensemble vide est dans A.
On appelle vnements les lments de A.
Dfinition 26 (probabilit) Soit un espace dobservables et une tribu dvnements A forme de
sous-ensembles de , on appelle probabilit une fonction P de A dans [0, 1] telle que :
Lvnement certain est de probabilit 1 : P() = 1.
Toute suite A1 , A2 , . . . , An dvnements de A, deux deux disjoints alors la srie
P(Ai )
i=1
i1 Ai ).
207
Dfinition 27 (Variable alatoire) Soit {, A, P}, un espace probabilis et B la tribu des borliens de
R.
Une application :
(
{, A} {R, B(R)}
X:
X()
est appele variable alatoire (ou v.a.) sur {, A} si :
B B(R), (X B) implique X1 (B) A
Dans le cadre de notre tude, lespace de dfinition des variables est dnombrable et fini ; par
consquent, nous travaillerons par la suite avec des variables alatoires discrtes.
Dfinition 28 (loi dune variable alatoire discrte X)
p(x) = P( |X() = x)
Proprit 1
0 p(x) 1 x 0
x p(x)
P(X(A)) =
=1
P
xA p(x)
A.1.1
Probabilits conditionnelles
P(A B)
P(B)
P(o|H)P(H)
P(o)
Prenons lexemple suivant : soit une maladie M provoquant lapparition dun symptme A
chez 85% des personnes atteintes. Nous savons quune personne a une chance sur un million
dtre atteinte par M. Le symptme A, quant lui, est prsent chez 5% des patients visitant
le service mdical. La question est : quelle est la probabilit quune personne atteinte dune
symptme A souffre de la maladie en question ?
Soit M lvnement tre atteint de la maladie M et A lvnement prsenter le symptme A.
P(M|A) =
A.1.2
P(A|M)P(M) 0, 85 106
=
= 1, 7 105
P(A)
0, 05
Le calcul dune probabilit jointe sur un ensemble consquent de variables alatoires, mme
binaires, requiert un nombre exponentiel de calculs. Il convient alors de simplifier la dmarche
et pour cela, exploiter les indpendances conditionnelles sous-jacentes au domaine.
Dfinition 31 (Indpendance conditionnelle)
Soit un univers et un ensemble X de variables alatoires. Soient les sous ensembles X, Y et Z X. X
est indpendant de Y conditionnellement Z (ou (X y Y|Z)) si et seulement si X, Y et Z vrifient :
(
(X y Y|Z)
P(X|Y, Z) = P(X|Z)
et P(Y|X, Z) = P(Y|Z)
Cette dfinition signifie que la connaissance de la valeur prise par X, connaissant Z, napporte
aucune information quant celle prise par Y et inversement pour Y et X connaissant Z. Ceci
nous permet de retrouver les rsultats vus en 2.3.4. Lindpendance conditionnelle permet alors
la simplification de lcriture et du calcul de la loi jointe. Reprenons lexemple du diagnostic vu
prcdemment et adjoignons nos observations celle dun symptme B inputable lui aussi la
maladie M. On sait que, chez un patient atteint de la maladie M, le fait de souffrir du symptme
A ninflue en rien sur la survenue du symptme B. Donc P(B|M, A) = P(B|M) et ceci est aussi
vrai dans le cas o le patient ne souffre pas de la maladie M : P(B|M, A) = P(B|M). La probabilit
jointe P(M, A, B) peut alors scrire :
P(M, A, B) = P(B|A, M) P(A|M) P(M) = P(B|M) P(A|M) P(M)
Alors quavant la simplification lcriture de la probabilit jointe P(M, A, B) exigeait 23 1 entres,
la deuxime criture prenant en compte lindpendance conditionnelle (B y A|M) ne ncessite
plus que 2 + 2 + 1 entres.
A.2
A.2.0.1
2 =
X (N E )2
ab
ab
Eab
(A.1)
a,b
Dans le cadre de ltablissement non plus dune indpendance entre deux variables mais
dune indpendance conditionnelle faisant intervenir une troisime variable alatoire XC , les
hypothses vrifier deviennent :
H0 : les deux variables XA et XB sont indpendantes conditionnellement XC .
H1 : XA et XB ne sont pas indpendantes conditionnellement XC .
Et la formule A.1 se rcrit :
2 =
X (N
Eabc )2
Eabc
abc
a,b,c
(A.2)
A.2.1
Entropie
Pour une variable alatoire XA dote dune distribution de probabilit P(XA ), lentropie de
XA sexprime par :
X
P(XA ) log(P(XA )) = E( log(P(XA )))
H(XA ) =
xa
Lentropie conditionnelle dune variable alatoire XA tant donn la valeur prise par une variable alatoire XB exprime la quantit dinformation ncessaire pour infrer XA partir dXB .
Entropie Croise
alatoires
EC (XA , XB |XC ) =
(P(XC )
X
xa ,xb
xc
P(XA , XB |XC )
P(XA , XB |XC ) log
P(XA |XC ) P(XB |XC )
H(XA |XB , XC ) =
xb
xc
XXX
xa
xb
xc
211 / 229
XXX
xa
or,
P(XA |XB , XC ) =
xb
P(XA , XB , XC ) log(
xc
P(XA |XB , XC )
)
P(XA |XC )
do
Im (X, Y|Z) =
n X
m X
l
X
P(xi , y j , zk ) log(
P(XC )
xa
P(XA , XB |XC )
)
P(XA |XC )P(XB |XC )
xc
P(XA , XB |XC )
)
P(XA |XC )P(XB |XC )
A.2.2
Rapport de vraisemblance
G (XA , XB ) =
2
X
a,b
!
(Nab N
Nab log
.
Na Nb
(A.3)
Nous voyons ici que la valeur de G2 est proportionnelle celle de lentropie croise :
G2 (XA , XB ) = 2 EC (XA , XB ).
G2 suit alors une loi de distribution du 2 (ra 1)(rb 1)
(A.4)
cC rc
degrs de liberts.
212 / 229
A.2.3
Test de Mann-Whitney
n1 (n1 + 1)
R
2
(A.5)
A.3
Il peut tre utile de pouvoir dfinir une notion de distance entre deux distributions de
probabilits dfinies sur un mme domaine. Cest ce que permettent les mesures introduites
dans cette section : les divergences de Kullback-Leibler et celle de Jensen-Shannon.
A.3.1
Divergence de Kullback-Leibler
213 / 229
A.3.2
1
2
(A.7)
: la divergence de Jensen-Shannon.
Divergence de Jensen-Shannon
! X
!
2P(Xi )
2Q(Xi )
1 X
JS(P||Q) =
P(Xi ) log
+
Q(Xi ) log
2
P(Xi ) + Q(Xi )
P(Xi ) + Q(Xi )
xi
xi
Les proprits de cette divergence, comparativement celles de la divergence de KullbackLeibler sont les suivantes [Lin, 1991] :
symtrique ;
gale zro si et seulement si P = Q ;
borne par 1 ;
respecte lingalit triangulaire.
214 / 229
Annexe B
Analyse de texture
Lanalyse texturale sintresse la distribution spatiale des intensits dans limage.
Nous nous intressons particulirement ltude de la distribution des statistiques lordre
deux, telle quelle fut propose dans [Haralick et al., 1973].
B.1
Fondement
Linformation de texture, selon les travaux dHaralick, est contenue dans les relations spatiales entre les niveaux de gris. La reprsentation de ces diffrentes relations est tablie laide
dune matrice de cooccurrence. Lemploi de telles mthodes est rarement conseill dans le cadre
de la segmentation dimage et est plutt recommand pour lanalyse et la reconnaissance de
textures.
Nanmoins, lapproche par matrice de cooccurrence demeure populaire principalement du
fait que la reprsentation offerte par ces matrices est aisment apprhendable par lutilisateur
car elle reflte bien lapproche humaine didentification des textures.
B.1.1
Matrices de cooccurrence
Les matrices de cooccurrence servent reprsenter des relations spatiales dans un espace
dlimit suivant un angle et une distance donns.
Soit I, une image de dimensions (Nx , N y ) et dote de N g niveaux de gris.
Une matrice de cooccurrence sur une telle image et pour une relation spatiale r dfinie par
une direction et une distance d correspond une matrice de dimension N g N g dans laquelle
chaque coefficient Mi, j , i, j [0, . . . , N g 1[2 se calcule comme suit :
(x0 = x + dx ) (y0 = y + d y )
0
0
et
Mi,j = #{(x, y), (x , y )} tels que :
Avec :
I(x, y) le niveau de gris du pixel de I de coordonnes (x, y) ;
#{E}, notation dsignant le nombre doccurrences de lvnement E.
La matrice Mi,j retranscrit ds lors le nombre de fois o lon peut trouver, au sein de limage,
les transitions (I(x, y) = i ou j) et (I(x0 , y0 ) = i ou j) suivant r(, d).
La figure B.1 montre un exemple de matrice doccurrence partir dune image dote de
quatre niveaux de gris numrots de 1 4 et de dimensions 55.
Figure B.1 Exemple de matrice de cooccurrence suivant une direction de 0 et une distance de
1 pixel.
B.1.2
Caractristiques dHaralick
216 / 229
R =
Ng Ng
X
X
(ij) P(i, j)
(B.1)
i=1 j=1
P(i, j)
R
Ng
X
px (i) =
p(i, j)
p(i, j) =
(B.2)
(B.3)
j=1
p y (i) =
Ng
X
p(i, j)
(B.4)
i=1
Ng Ng
px+y (k) =
XX
k = 2, 3, . . . 2N g
(B.5)
k = 0, 1, . . . N g 1
(B.6)
i=1 j=1
pxy (k) =
Ng Ng
X
X
i=1 j=1
HXY =
Ng Ng
X
X
p(i, j)log p(i, j)
(B.7)
p(i, j)log px (i)p y (j)
(B.8)
px (i)p y ( j)log px (i)p y ( j)
(B.9)
i=1 j=1
HXY1 =
Ng Ng
X
X
i=1 j=1
HXY2 =
Ng Ng
X
X
i=1 j=1
HX =
Ng
X
px (i)log px (i)
(B.10)
p y (j)log p y ( j)
(B.11)
i=1
Ng
HY =
X
j=1
217 / 229
f1 =
Ng Ng
X
X
p(i, j)2
(B.12)
k2 pxy (k)
(B.13)
i=1 j=1
N g 1
Contraste
Corrlation
Variance
f2 =
f3 =
f4 =
k=0
PN g PN g
(ij) p(i,
i=1
j=1
j) x y
x y
Ng Ng
X
X
(i )2 p(i, j)
(B.14)
(B.15)
i=1 j=1
f5 =
Ng Ng
X
X
i=1 j=1
f6 =
2N g
X
p(i, j)
1 + (i j)2
(B.16)
ipx+y (i)
(B.17)
(i f8 )2 px+y (i)
(B.18)
i=2
2N g
f7 =
i=2
2N g
f8 =
(B.19)
Entropie
f9 =
XX
(B.20)
i=1 j=1
f10 = Var(pxy )
(B.21)
N g 1
f11 =
(B.22)
i=0
f12 =
f13 =
f9 HXY1
max(HX, HY)
q
1 exp2(HXY2 f9 )
(B.23)
(B.24)
218 / 229
Annexe C
Rsultats exprimentaux
Cette partie regroupe les rsultats obtenus lissue de tests visant dterminer les meilleurs
paramtrages pour les diffrentes mthodes dveloppes dans ce travail de thse. Lensemble
des tests, notamment les rglages de paramtres relativement triviaux tels que les probabilits
de croisement, de mutation ou encore la taille de la population pour lalgorithme panmictique
ne sauraient tre regroups ici mais nous avons cependant pens que le lecteur pourrait tre
intress par les rsultats obtenus selon les valeurs prises par certains paramtres.
Les paramtres concerns sont :
Algorithme stratgie de pnalisation : le nombre ditrations Iteopt effectues avant mmorisation puis pnalisation dune classe dquivalence ;
Algorithme stratgie de mmorisation : le coefficient par lequel sont multiplies les probabilits de mutation locales ;
Algorithme distribu : le nombre et la taille des populations considres.
Les diffrents rsultats ont t obtenus aprs 10 apprentissages sur des bases distinctes et
mesurs auprs dune unique base de 20000 cas.
C.1
Stratgie de pnalisation
Aprs quelques essais prliminaires, non reports ici, nous avons dcid de tester plusieurs
valeurs de Iteopt et ce dans le cadre de lapprentissage de la structure du rseau Insurance. Les
rsultats sont retranscrits dans le tableau, pour des valeurs de Iteopt allant de 10 30. Au del
de cet intervalle, les performances de lalgorithme savrent dgrades, y compris par rapport
la version simple, sans stratgie de pnalisation.
Les tests effectus ici lont t avec une population de 150 individus.
La qualit des solutions en termes de distance la structure dorigine et de scores permet
de dgager deux valeurs : 10 et 20. Sur la base de 250 cas, en particulier, une valeur de 10 pour
219
INSURANCE
250
500
1000
2000
Iteopt = 10
3189; 38, 6
-3089 ; 33,1
-2937; 30, 5
2862; 25, 1
Iteopt = 15
3194; 37, 7
3106; 33, 3
2951; 31, 2
2861; 27, 2
Iteopt = 20
-3176 ;37,0
3106; 34, 0
2969; 30, 8
-2856 ;24,4
Iteopt = 25
3193; 38, 3
3108;33,1
2947;30,0
2860; 27, 1
Iteopt = 30
3190; 38, 4
3098; 33, 8
2956; 31, 2
2860; 24, 6
Tableau C.1 Scores BIC moyens, diviss par 100 et arrondis, des structures obtenues pour le
rseau Insurance et nombre darcs diffrents de la structure recherche pour diffrentes valeurs
du paramtre Iteopt . Les scores affichs sont obtenus avec une base de 20000 cas dexemples de
test. Les meilleurs rsultats apparaissent en gras.
le paramtre Iteopt permet de recouvrir des rseaux trs performants en matire de score mais,
paradoxalement, les plus distants graphiquement du graphe dorigine.
Ceci signifierait, dans une moindre mesure, quune valeur de Iteopt trop petite entranerait
lapprentissage de rseaux trop spcialiss (situation de surapprentissage) en plus dun surcot
de calcul chaque itration due au parcours de la liste des optima connus. La valeur choisie
pour la suite de nos expriences a dont t de Iteopt = 20.
C.2
Nous testons ici trois valeurs possibles pour le coefficient employ dans lalgorithme 7.2 :
0,25
0,50
0,75
Les tests effectus ici lont t, comme prcdemment, sur lapprentissage de la structure du
rseau Insurance mais avec, ici, une population de 100 individus.
INSURANCE
= 0, 25
250
500
1000
2000
3207; 40, 5
3098;33,5
-2944 ;30,2
2894; 30, 2
= 0, 50
-3204; 40, 8
-3109; 34, 5
2966; 32, 3
2873;27,1
= 0, 75
3208;39,7
-3107; 33, 9
2950; 33, 3
2881; 29, 7
Tableau C.2 Valeurs moyennes, divises par 100 et arrondies des scores BIC des structures
obtenues pour le rseau Insurance pour diffrentes valeurs du paramtre et nombre darcs
diffrents de la structure recherch, pour des bases de tailles diffrentes (colonnes). Les scores
affichs sont obtenus avec une base de 20000 cas dexemples de test. Les meilleurs rsultats
apparaissent en gras.
Le tableau C.2 ne permet pas de distinguer clairement une valeur optimale pour le paramtre
. Aprs observation des diffrentes matrices de coefficients employes par cette mthode, il
savre que, du fait dune probabilit de mutation leve en conjugaison avec une population
220 / 229
assez nombreuse (150 individus), une valeur modeste de permet elle seule une chute rapide
des coefficients correspondant aux mutations dommageables. Inversement, le paramtre devant
tre assez lev non seulement pour pouvoir promouvoir une mutation intressante mais aussi
pour pouvoir inverser une tendance (une mutation dommageable par le pass mais bnfique
linstant t en cours) nous avons opt pour une solution intermdiaire avec la valeur = 0, 5.
C.3
Algorithme distribu
221 / 229
INSURANCE
250
500
1000
2000
Nb(pop) ;taille(pop)
10 ;10
3217; 41, 6
-3108; 35, 7
2978; 32, 7
2904; 30, 0
10 ;20
3226; 40, 7
3128; 36, 2
2972; 31, 3
2883; 28, 1
10 ;30
3219; 40, 6
3114; 35, 6
2972; 31, 6
2892; 28, 8
10 ;40
3218; 40, 0
3116; 34, 7
2971; 31, 1
2885; 27, 4
20 ;10
3213; 40, 6
3122; 35, 7
2993; 31, 0
2901; 28, 2
20 ;20
-3202; 38, 8
3114; 34, 4
2955; 32, 2
2865; 28, 2
20 ;30
3203;38,6
3124; 36, 0
2942; 31, 4
2857; 27, 4
20 ;40
3206; 39, 4
3110;33,4
2948; 31, 0
2859; 23, 9
30 ;10
3215; 40, 3
3123; 35, 8
2968;30,8
2872; 26, 6
30 ;20
3209; 40, 1
-3108 ;35, 4
2968; 32, 3
2859; 25, 8
30 ;30
-3202; 39, 4
3114; 34, 5
2936; 31, 1
2854; 25, 6
30 ;40
3208; 39, 3
3112; 34, 9
-2935; 32, 4
-2848 ;22,9
Tableau C.3 Scores BIC obtenus par lalgorithme distribu pour diffrentes tailles de bases
dapprentissage pour le rseau Insurance. Les scores des rseaux obtenus ont t calculs et
moyenns partir dune unique base de 20000 cas gnre par chantillonnage du rseau
dorigine. Les scores de ce tableau ont t obtenus pour une priode migratoire de 40 itrations
et un taux de migration de 10%. Les meilleurs rsultats apparaissent en gras.
INSURANCE
250
500
1000
2000
10 ;10
3228; 41, 1
3138; 37, 4
3014; 35, 0
2921; 30, 6
10 ;20
3220; 40, 0
3114; 36.5
2978; 33, 1
2905; 30, 9
10 ;30
3210; 39, 9
3128; 36, 0
2989; 32, 9
2875; 30, 3
10 ;40
3212; 40, 9
3120; 35, 1
2944; 32, 2
2890; 29, 2
20 ;10
3204; 39, 3
3136; 36, 8
2984; 32, 7
2914; 31, 5
20 ;20
3217; 40, 3
3126; 35, 5
2968; 31, 7
2865;25,2
20 ;30
3212; 40, 0
3117; 35, 1
2947; 31, 8
2865; 27, 6
20 ;40
3213; 40, 3
3116; 34, 0
2950; 31, 0
2861; 26, 9
30 ;10
3211; 40, 7
3120; 36, 1
2964; 31, 1
2884; 28, 8
30 ;20
3212; 40, 2
-3106; 34, 0
2970;30,8
2867; 25, 9
30 ;30
-3201; 38, 8
3111;33,9
-2933; 31, 8
2864; 26, 3
30 ;40
3206; 40, 1
3120; 36, 2
2936; 32, 1
-2859; 28, 3
Nb(pop) ;taille(pop)
Tableau C.4 Scores BIC obtenus par lalgorithme distribu pour diffrentes tailles de bases
dapprentissage pour le rseau Insurance. Les scores des rseaux obtenus ont t calculs et
moyenns partir dune unique base de 20000 cas gnre par chantillonnage du rseau
dorigine. Les scores de ce tableau ont t obtenus pour une priode migratoire de 40 itrations
et un taux de migration de 30%. Les meilleurs rsultats apparaissent en gras.
222 / 229
INSURANCE
250
500
1000
2000
10 ;10
3217; 40, 4
3134; 38, 0
2967; 32, 6
2895; 26, 9
10 ;20
3208; 39, 3
3131; 35, 2
2976; 33, 5
2884; 31, 0
10 ;30
3203; 39, 5
3115; 35, 1
2970; 31, 5
2869; 27, 3
10 ;40
3194; 37, 7
3117; 35, 6
2942; 32, 4
2863; 25, 8
20 ;10
3203; 39, 8
3120; 35, 2
2977; 32, 5
2884; 27, 8
20 ;20
3208; 39, 3
3112; 34, 8
2955; 31, 0
2868; 27, 5
20 ;30
3194;37,4
3097; 34, 5
2932; 29, 5
-2853; 25, 0
20 ;40
3207; 39, 1
3109; 34, 2
2934; 30, 1
2855; 25, 6
30 ;10
3202; 38, 6
3118; 34, 8
2938; 30, 2
2860; 25, 4
30 ;20
3197; 38, 3
3106; 34, 0
-2928; 29, 7
2857;24,8
30 ;30
-3193; 38, 1
-3104 ;33,3
2934;29,3
2860; 26, 6
30 ;40
3197; 38, 8
3107; 33, 7
-2928; 30, 9
2857; 26, 2
Nb(pop) ;taille(pop)
Tableau C.5 Scores BIC obtenus par lalgorithme distribu pour diffrentes tailles de bases
dapprentissage pour le rseau Insurance. Les scores des rseaux obtenus ont t calculs et
moyenns partir dune unique base de 20000 cas gnre par chantillonnage du rseau
dorigine. Les scores de ce tableau ont t obtenus pour une priode migratoire de 20 itrations
et un taux de migration de 10%. Les meilleurs rsultats apparaissent en gras.
INSURANCE
250
500
1000
2000
10 ;10
3226; 42, 0
3136; 37, 8
3003; 34, 4
2906; 30, 6
10 ;20
3217; 39, 3
3125; 37, 2
2966; 32, 5
2883; 28, 8
10 ;30
3208; 39, 8
3125; 35, 2
2966; 32, 2
2870; 27, 7
10 ;40
3201; 37, 8
3111; 34, 4
2956; 29, 9
2860; 26, 5
20 ;10
3216; 39, 5
3120; 37, 0
2999; 32, 6
2886; 28, 0
20 ;20
3208; 39, 6
3113; 34, 8
2965; 30, 9
2861; 26, 3
20 ;30
-3191; 37, 8
3110; 35, 6
2959; 30, 9
2875; 25, 9
20 ;40
3213; 39, 8
3117; 34, 7
2946; 32, 4
2858; 24, 8
30 ;10
3205; 38, 7
3117; 35, 0
2948; 31, 8
2880; 30, 3
30 ;20
3207; 38, 6
3104; 34, 4
2946; 30, 1
2862; 27, 8
30 ;30
3210; 39, 1
-3097 ;33,2
-2942 ;29,7
-2854 ;23,6
30 ;40
3208; 40, 0
3101; 33, 4
2936; 30, 9
2858; 24, 2
Nb(pop) ;taille(pop)
Tableau C.6 Scores BIC obtenus par lalgorithme distribu pour diffrentes tailles de bases
dapprentissage pour le rseau Insurance. Les scores des rseaux obtenus ont t calculs et
moyenns partir dune unique base de 20000 cas gnre par chantillonnage du rseau
dorigine. Les scores de ce tableau ont t obtenus pour une priode migratoire de 20 itrations
et un taux de migration de 30%. Les meilleurs rsultats apparaissent en gras.
223 / 229
24
2.2
Sparation inconditionnelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
2.3
Blocage conditionnel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
2.4
28
2.5
29
2.6
30
2.7
30
4.1
46
4.2
61
4.3
V-structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
4.4
63
4.5
72
5.1
80
6.1
6.2
6.3
6.4
6.5
6.6
8.1
8.2
8.3
8.4
8.5
8.6
8.7
8.8
8.9
8.10 Duels sur les distances ddition pour le rseau ALARM - 1. . . . . . . . . . . . . 162
8.11 Duels sur les distances ddition pour le rseau ALARM - 2. . . . . . . . . . . . . 163
8.12 Valeurs des fitness : Insurance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
8.13 Valeurs des fitness : ALARM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
9.1
9.2
9.3
9.4
9.5
9.6
9.7
9.8
9.9
225 / 229
8.2
8.3
8.4
8.5
8.6
8.7
8.8
8.9
C.6 Scores BIC pour un taux migratoire de 30% et une priode migratoire de 20
itrations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
227 / 229
Rsum :
Dans ce travail de thse, nous proposons dtudier le problme de lapprentissage de la structure dun rseau baysien par un ensemble de mthodes volutionnaires. Aprs avoir conu
un algorithme gntique parcourant lespace des structures, nous avons labor diffrentes
techniques visant amliorer les performances de cet algorithme. Nous avons ainsi dvelopp
une stratgie de parcours visant exploiter les proprits de lespace des graphes essentiels
travers un mcanisme de niching squentiel, mcanisme que nous tendons par une hybridation
avec une modlisation en lots. Une autre mthode dfinit une distribution de probabilits sur
les oprations de mutation appliques la population, dtermine par la qualit des individus
modifis.
Mots cls :
rseaux baysiens, algorithme gntique, apprentissage de structure, dtection de liris,
caractristiques de texture dHaralick.
Abstract :
In this thesis, we propose a study of the problem of learning the structure of a bayesian network through the use of evolutionary methods. We first designed a genetic algorithm to search
the space of structures before establishing various strategies aiming at improving the performances of this algorithm. We consequently developed a search strategy aiming at exploiting
the properties of the space of completed partially oriented graphs using a sequential niching
principle which we later hybridized with an island model scheme. Another method defines a
distribution probability over the mutation operations which are applied to the individuals and
that is a function of the qualitative results of previously applied operations.
Keywords :
bayesian networks, genetic algorithms, structure learning, iris detection, Haralick texture
features.
Universit Franois-Rabelais de Tours, Laboratoire dInformatique, EA 2101, quipe Reconnaissance des Formes et Analyse de lImage (http://www.li.univ-tours.fr). PolytechTours,
Dpartement Informatique, 64 Avenue Jean Portalis, 37200 Tours (http://www.polytech.
univ-tours.fr).