Bouquin PD Mia

Processus Dcisionnels de Markov en Intelligence Articielle
Groupe PDMIA 27 fvrier 2008
Table des matires
P REMIRE PARTIE . P RINCIPES GNRAUX . . . . . . . . . . . . . . . . . . Chapitre 1. Processus Dcisionnels de Markov . . . . . . . . . . . . . . . . . Frdrick G ARCIA 1.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Problmes dcisionnels de Markov . . . . . . . . . . . . . . . . . . . . 1.2.1. Processus dcisionnels de Markov . . . . . . . . . . . . . . . . . . 1.2.2. Les politiques dactions . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3. Critres de performance . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Fonctions de valeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1. Le critre ni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2. Le critre -pondr . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3. Le critre total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.4. Le critre moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4. Politiques markoviennes . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1. Equivalence des politiques histoire-dpendantes et markoviennes 1.4.2. Politique markovienne et chane de Markov value . . . . . . . . 1.5. Caractrisation des politiques optimales . . . . . . . . . . . . . . . . . . 1.5.1. Le critre ni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.2. Le critre -pondr . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.3. Le critre total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.4. Le critre moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6. Algorithmes de rsolution des MDP . . . . . . . . . . . . . . . . . . . . 1.6.1. Le critre ni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.2. Le critre -pondr . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.3. Le critre total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.4. Le critre moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7. Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . Chapitre 2. Apprentissage par renforcement . . . . . . . . . . . . . . . . . .
15 17 17 18 18 20 22 23 23 24 24 25 25 25 27 27 27 29 34 36 40 40 40 45 46 48 51
PDM en IA
Olivier S IGAUD, Frdrick G ARCIA 2.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1. Bref aperu historique . . . . . . . . . . . . . . . . . . . . . . . 2.2. Apprentissage par renforcement : vue densemble . . . . . . . . . . 2.2.1. Approximation de la fonction de valeur . . . . . . . . . . . . . 2.2.2. Mthodes directes et indirectes . . . . . . . . . . . . . . . . . . 2.2.3. Apprentissage temporel, non supervis et par essais et erreurs 2.2.4. Le dilemme exploration/exploitation . . . . . . . . . . . . . . 2.2.5. Des mthodes incrmentales fondes sur une estimation . . . 2.3. Mthodes de Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1. Prliminaires gnraux sur les mthodes destimation . . . . . 2.3.2. Les mthodes de Monte Carlo . . . . . . . . . . . . . . . . . . 2.4. Les mthodes de diffrence temporelle . . . . . . . . . . . . . . . . 2.4.1. Lalgorithme TD(0) . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2. Lalgorithme S ARSA . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3. Lalgorithme Q-learning . . . . . . . . . . . . . . . . . . . . . 2.4.4. Les algorithmes TD(), Sarsa() et Q() . . . . . . . . . . . . 2.4.5. Les architectures acteur-critique . . . . . . . . . . . . . . . . . 2.4.6. Diffrences temporelles avec traces dligibilit : TD() . . . 2.4.7. De TD() S ARSA () . . . . . . . . . . . . . . . . . . . . . . 2.4.8. Lalgorithme R-learning . . . . . . . . . . . . . . . . . . . . . . 2.5. Mthodes indirectes : apprentissage dun modle . . . . . . . . . . 2.5.1. Les architectures DYNA . . . . . . . . . . . . . . . . . . . . . . 2.5.2. Lalgorithme E 3 . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.3. Lalgorithme Rmax . . . . . . . . . . . . . . . . . . . . . . . . 2.6. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Chapitre 3. PDM partiellement observables Alain D UTECH, Bruno S CHERRER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 52 53 53 54 55 56 58 59 59 60 62 63 64 66 68 69 69 73 75 77 78 80 81 82 85 86 86 88 88 92 93 95 95 96 100 101 102 103
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1. Dnition formelle des POMDP . . . . . . . . . . . . . . . . . . . . . 3.1.1. Dnition dun POMDP . . . . . . . . . . . . . . . . . . . . . . 3.1.2. Critres de performance . . . . . . . . . . . . . . . . . . . . . . 3.1.3. Etat dinformation . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.4. Politique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.5. Fonctions de valeur . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Problmes non-markoviens (information incomplte) . . . . . . . . 3.2.1. Politiques adaptes . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2. Critre pondr . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3. Algorithmes adapts et critre moyen adapt . . . . . . . . . . 3.3. Calculer une politique exacte sur les tats dinformation . . . . . . 3.3.1. Cas gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2. Etats de croyance et fonction de valeur linaire par morceaux
Table des matires
3.4. Algorithmes exacts ditration sur les valeurs . . . . . . . . 3.4.1. Etapes de loprateur de programmation dynamique . 3.4.2. Obtenir une reprsentation parcimonieuse de V . . . 3.4.3. Lalgorithme W ITNESS . . . . . . . . . . . . . . . . . 3.4.4. Elagage itratif (Iterative pruning) . . . . . . . . . . . 3.5. Algorithmes ditration sur les politiques . . . . . . . . . . 3.6. Conclusion et Perspectives . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
107 107 110 117 120 123 125
Chapitre 4. Une introduction aux jeux stochastiques . . . . . . . . . . . . . 127 Andriy B URKOV, Brahim C HAIB - DRAA 4.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Rappel sur la thorie des jeux . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1. Quelques dnitions de base . . . . . . . . . . . . . . . . . . . . . 4.2.2. Jeux statiques en information complte . . . . . . . . . . . . . . . 4.2.3. Jeux dynamiques en information complte . . . . . . . . . . . . . 4.3. Jeux stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1. Dnition et quilibre dun jeu stochastique . . . . . . . . . . . . 4.3.2. Rsolution des jeux stochastiques . . . . . . . . . . . . . . . . . . 4.3.3. Complexit et extensibilit des algorithmes dapprentissage multiagent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.4. Au-del de la recherche dquilibre . . . . . . . . . . . . . . . . . 4.3.5. Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . 127 128 128 133 137 143 143 145 155 157 161 162
Chapitre 5. Critres non classiques . . . . . . . . . . . . . . . . . . . . . . . . 165 Matthieu B OUSSARD , Maroua B OUZID , Abdel-Illah M OUADDIB , Rgis S ABBADIN , Paul W ENG 5.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Les approches multicritres . . . . . . . . . . . . . . . . . . . 5.2.1. Dcision multicritre . . . . . . . . . . . . . . . . . . . 5.2.2. Processus dcisionnel de Markov multicritres . . . . . 5.3. Prise en compte de la robustesse dans la rsolution des MDP 5.4. Processus Dcisionnels de Markov Possibilistes . . . . . . . 5.4.1. Contreparties possibilistes de lutilit espre . . . . . 5.4.2. Programmation Dynamique Possibiliste . . . . . . . . . 5.4.3. Extensions des MDP possibilistes . . . . . . . . . . . . 5.5. MDP algbriques . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1. Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.2. Dnition dun MDP algbrique . . . . . . . . . . . . . 5.5.3. Fonctions de valeur dune politique . . . . . . . . . . . 5.5.4. Conditions . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.5. Exemples de AMDP . . . . . . . . . . . . . . . . . . . . 5.6. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 166 167 168 172 175 175 178 183 187 188 190 191 192 193 198
PDM en IA
D EUXIME PARTIE . E XEMPLES D APPLICATION DES (PO)MDP . . . . . 201 Chapitre 6. Apprentissage en ligne de la manipulation de micro-objets . . 203 Guillaume L AURENT 6.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Dispositif de manipulation . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1. Objectif : le micro-positionnement par pousse . . . . . . . . . . 6.2.2. Dispositif de manipulation . . . . . . . . . . . . . . . . . . . . . . 6.2.3. Boucle de commande . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.4. Reprsentation du systme de manipulation sous la forme dun MDP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3. Choix de lalgorithme dapprentissage par renforcement . . . . . . . . 6.3.1. Caractristiques du MDP . . . . . . . . . . . . . . . . . . . . . . . 6.3.2. Un algorithme adapt : STM-Q . . . . . . . . . . . . . . . . . . . . 6.4. Rsultats exprimentaux . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1. Mise en uvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.2. Rsultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 204 204 205 206 206 207 207 208 210 210 210 211
Chapitre 7. Conservation de la biodiversit . . . . . . . . . . . . . . . . . . . 215 Iadine C HADS 7.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2. Protger, surveiller ou abandonner : gestion optimale despces crtes et menaces . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1. Surveillance et gestion du tigre de Sumatra . . . . . . . . . . 7.2.2. Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.3. Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.4. Extension plusieurs populations . . . . . . . . . . . . . . . 7.3. Les loutres et les abalones peuvent-ils co-exister ? . . . . . . . . . 7.3.1. Les abalones et les loutres, deux espces menaces . . . . . 7.3.2. Modles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.3. Mthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.4. Rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.5. Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . se. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 216 216 217 217 220 221 221 223 226 227 229 231
T ROISIME PARTIE . E XTENSIONS . . . . . . . . . . . . . . . . . . . . . . . . 233 Chapitre 8. DEC-MDP/POMDP . . . . . . . . . . . . . . . . . . . . . . . . . 235 Aurlie B EYNIER, Franois C HARPILLET, Daniel S ZER, Abdel-Illah M OUAD DIB
8.1. Introduction gnrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
Table des matires
8.2. Observabilit . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3. Processus dcisionnels de Markov multi-agents . . . . . . 8.3.1. Formalisme . . . . . . . . . . . . . . . . . . . . . . . . 8.3.2. Contrle centralis . . . . . . . . . . . . . . . . . . . . 8.3.3. Contrle dcentralis . . . . . . . . . . . . . . . . . . 8.4. Contrle dcentralis et processus dcisionnels de Markov 8.4.1. Les processus dcisionnels de Markov dcentraliss . 8.4.2. Multiagent Team Decision Problem . . . . . . . . . . 8.4.3. Gestion de la communication dans les DEC - POMDP . 8.5. Proprits et classes particulires de DEC - POMDP . . . . . 8.5.1. Transitions, observations et buts . . . . . . . . . . . . 8.5.2. DEC - MDP dirigs par les vnements . . . . . . . . . 8.5.3. Modlisation de DEC - MDP avec contraintes . . . . . 8.6. La rsolution des DEC - POMDP . . . . . . . . . . . . . . . . 8.6.1. Algorithmes de rsolution optimaux . . . . . . . . . . 8.6.2. Algorithmes de rsolution approche . . . . . . . . . 8.7. Quelques exemples dapplication . . . . . . . . . . . . . . 8.7.1. Robotique mobile exploratoire . . . . . . . . . . . . . 8.8. Conclusion et perspectives . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
236 238 238 239 239 240 240 241 244 247 248 250 251 254 254 264 270 270 272
Chapitre 9. Reprsentations factorises . . . . . . . . . . . . . . . . . . . . . 275 Thomas D EGRIS, Olivier S IGAUD 9.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2. Le formalisme des FMDP . . . . . . . . . . . . . . . . . . . . . . . 9.2.1. Reprsentation de lespace dtat . . . . . . . . . . . . . . . 9.2.2. Lexemple Coffee Robot . . . . . . . . . . . . . . . . . . . . . 9.2.3. Dcomposition et indpendances relatives aux fonctions . . 9.2.4. Indpendances relatives aux contextes . . . . . . . . . . . . . 9.3. Planication dans les FMDP . . . . . . . . . . . . . . . . . . . . . . 9.3.1. Itrations structures sur les valeurs et sur les politiques . . 9.3.2. Lalgorithme Stochastic Planning Using Decision Diagrams 9.3.3. Programmation linaire approche dans un FMDP . . . . . . 9.4. Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 276 276 276 278 283 284 284 289 292 299
Chapitre 10. Approches de rsolution en ligne . . . . . . . . . . . . . . . . . 301 Laurent P RET , Frdrick G ARCIA 10.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1.1.Exploiter le temps en ligne . . . . . . . . . . . . . . . . . . . . 10.1.2.Recherche en ligne par simulation . . . . . . . . . . . . . . . . 10.2.Algorithmes en ligne pour la rsolution dun MDP . . . . . . . . . . 10.2.1.Algorithmes hors ligne, algorithmes en ligne . . . . . . . . . . 10.2.2.Formalisation du problme . . . . . . . . . . . . . . . . . . . . 10.2.3.Algorithmes heuristiques de recherche en ligne pour les MDP . . . . . . . . . . . . . . 301 301 302 303 303 303 306
10
PDM en IA
10.2.4.Lalgorithme par simulation de Kearns, Mansour et Ng 10.2.5.Lalgorithme Rollout de Tesauro et Galperin . . . . . . 10.3.Contrler la recherche . . . . . . . . . . . . . . . . . . . . . . 10.3.1.Bornes sur lerreur et pathologie de la recherche avant 10.3.2.Allocation itrative des simulations . . . . . . . . . . . 10.3.3.Focused Reinforcement Learning . . . . . . . . . . . . 10.3.4.Controlled Rollout . . . . . . . . . . . . . . . . . . . . . 10.4.Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
310 312 314 315 317 320 325 327
Chapitre 11. Programmation dynamique avec approximation . . . . . . . . 329 Rmi M UNOS 11.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.Itrations sur les valeurs avec approximation (IVA) . . . . . . . . . . . 11.2.1.Implmentation partir dchantillons et apprentissage supervis 11.2.2.Analyse de lalgorithme IVA . . . . . . . . . . . . . . . . . . . . . 11.2.3.Illustration numrique . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.Itrations sur les politiques avec approximation (IPA) . . . . . . . . . . 11.3.1.Analyse de lalgorithme IPA en norme L . . . . . . . . . . . . . 11.3.2.valuation approche dune politique . . . . . . . . . . . . . . . . 11.3.3.Approximation linaire et mthode des moindres carrs . . . . . . 11.4.Minimisation directe du rsidu de Bellman . . . . . . . . . . . . . . . . 11.5.Vers une analyse de la programmation dynamique en norme Lp . . . . 11.5.1.Intuition dune analyse Lp en programmation dynamique . . . . . 11.5.2.Bornes PAC pour des algorithmes dA/R . . . . . . . . . . . . . . 11.6.Conclusion et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . 330 332 333 335 336 338 340 342 343 350 351 352 354 355
Chapitre 12. Mthodes de gradient . . . . . . . . . . . . . . . . . . . . . . . . 357 Olivier B UFFET 12.1.Rappels sur la notion de gradient . . . . . . . . . . . . . . . . . . . . . . 12.1.1.Gradient dune fonction . . . . . . . . . . . . . . . . . . . . . . . . 12.1.2.Descente de gradient . . . . . . . . . . . . . . . . . . . . . . . . . 12.2.Optimisation dune politique paramtre par mthode de gradient . . . 12.2.1.Application aux MDP : aperu . . . . . . . . . . . . . . . . . . . . 12.2.2.Estimation du gradient de f dans un MDP, cas de lhorizon temporel ni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2.3.Extension au cas de lhorizon temporel inni : critre actualis, critre moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2.4.Cas partiellement observable . . . . . . . . . . . . . . . . . . . . . 12.3.Mthodes "Acteur-Critique" . . . . . . . . . . . . . . . . . . . . . . . . 12.3.1.Estimateur du gradient utilisant les Q-valeurs . . . . . . . . . . . 12.3.2.Compatibilit avec lapproximation dune fonction de valeur . . . 12.4.Complments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.5.Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358 358 359 360 360 362 365 369 370 371 372 375 378
Table des matires
11
Q UATRIME PARTIE . E XEMPLES D APPLICATION ( SUITE ) . . . . . . . . . 379 Chapitre 13. Hlicoptre autonome . . . . . . . . . . . . . . . . . . . . . . . . 381 Patrick FABIANI, Florent T EICHTEIL -KNIGSBUCH 13.1.Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.Prsentation du scnario . . . . . . . . . . . . . . . . . . . . . . . 13.2.1.Problme de planication . . . . . . . . . . . . . . . . . . . 13.2.2.tats et actions . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.3.Incertitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2.4.Critre optimiser . . . . . . . . . . . . . . . . . . . . . . . 13.2.5.Modle formel de dcision . . . . . . . . . . . . . . . . . . 13.3.Architecture de dcision embarque . . . . . . . . . . . . . . . . 13.3.1.Vue globale . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.3.2.Planication multi-tche sur requte du superviseur . . . . 13.4.Programmation dynamique stochastique, incrmentale et locale 13.4.1.Obtention dune premire politique non optimise . . . . . 13.4.2.Gnration du sous-espace dtats atteignables . . . . . . . 13.4.3.Optimisation locale de la politique . . . . . . . . . . . . . . 13.4.4.Replanications locales . . . . . . . . . . . . . . . . . . . . 13.5.Tests en vol et retour dexprience . . . . . . . . . . . . . . . . . 13.6.Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381 383 384 385 386 386 386 387 387 388 389 390 391 391 392 392 394
Chapitre 14. Robotique mobile . . . . . . . . . . . . . . . . . . . . . . . . . . 397 Simon L E G LOANNEC, Abdel-Illah M OUADDIB 14.1.La mission du robot explorateur . . . . . . . . . . . . . . . . 14.2.Formalisme dune mission constitue de tches progressives 14.3.Modlisation MDP / PRU . . . . . . . . . . . . . . . . . . . . 14.3.1.Les tats de lagent . . . . . . . . . . . . . . . . . . . . 14.3.2.Les actions de lagent . . . . . . . . . . . . . . . . . . . 14.3.3.La fonction de transition . . . . . . . . . . . . . . . . . 14.3.4.La fonction de rcompense . . . . . . . . . . . . . . . . 14.4.Calcul de la politique de contrle . . . . . . . . . . . . . . . 14.5.Modliser concrtement une mission . . . . . . . . . . . . . 14.6.Extensions possibles . . . . . . . . . . . . . . . . . . . . . . . 14.7.Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397 399 400 401 401 402 403 403 405 406 406
Chapitre 15. Planication doprations . . . . . . . . . . . . . . . . . . . . . 407 Sylvie T HIBAUX, Olivier B UFFET 15.1.Planication doprations . 15.1.1.Intuition . . . . . . . . 15.1.2.Dnitions formelles 15.2.MDP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407 407 410 415
12
PDM en IA
15.2.1.Modlisation sous la forme dun CoMDP 15.3.Algorithmes . . . . . . . . . . . . . . . . . . . 15.3.1.Rsolution exacte . . . . . . . . . . . . . 15.3.2.Rsolution heuristique . . . . . . . . . . . 15.3.3.Autres approches base de modles . . . 15.4.Apprentissage par renforcement : FPG . . . . 15.4.1.Employer des mthodes approches . . . 15.4.2.Politique paramtre . . . . . . . . . . . . 15.4.3.Mthodes de gradient . . . . . . . . . . . 15.4.4.Amliorations de FPG . . . . . . . . . . . 15.5.Exprimentations . . . . . . . . . . . . . . . . 15.6.Conclusion et perspectives . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
415 417 417 419 423 425 425 426 428 429 429 430
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459
Avant-propos
Le prsent volume est le second tome dun ouvrage constitu de deux tomes, portant sur les problmes de dcision squentielle dans lincertain et de lapprentissage par renforcement, deux classes de problmes dintelligence articielle que lon peut formaliser dans le cadre des processus dcisionnels de Markov. Il a t crit pour les tudiants, ingnieurs et chercheurs susceptibles de sintresser ces disciplines et ces modles. Lopportunit de la rdaction de ces deux tomes est ne de la structuration de la communaut PDMIA , qui regroupe les chercheurs francophones en informatique, mathmatiques appliques et robotique qui utilisent le cadre des processus dcisionnels de Markov (PDM) dans le cadre de lintelligence articielle (IA). Depuis 2001, des rencontres informelles annuelles puis la confrence JFPDA ont permis de mettre en vidence lexistence dune activit de recherche signicative dans ce domaine de la part de chercheurs francophones, au point de justier la rdaction dun ouvrage de rfrence sur ces travaux en langue franaise. Les deux tomes, fortement complmentaires, sont organiss de la manire suivante. Dans le premier tome, nous proposons une prsentation introductive des bases et des principaux cadres de ce domaine (processus dcisionnels de Markov, apprentissage par renforcement, processus dcisionnels de Markov partiellement observables, jeux de Markov et critres non-classiques) et quelques applications des principes utiliss dans ces diffrents cadres dans les domaines de la micro-manipulation et de la gestion de systmes naturels. Dans le second tome, en supposant acquises les notions prsentes dans le premier tome, nous rassemblons une slection des travaux actuels plus avancs consistant en des extensions de ces cadres gnraux (cadre multi-agent dcentralis, reprsentations
14
PDM en IA
factorises, reprsentations approches, mthodes de gradient) et un choix dapplications concrtes traites par des quipes appartenant notre communaut (planication doprations, hlicoptre autonome, robotique). Il ntait pas possible de prsenter dans le cadre de cet ouvrage la totalit des axes de recherche de ce domaine globalement trs actif au niveau international. Nous donnons ici quelques rfrences pour orienter le lecteur vers quelques aspects que nous navons pas couverts. Ainsi, nous avons choisi de ne pas parler dapprentissage par renforcement en temps continu [?], dapprentissage par renforcement relationnel [?], dapprentissage par renforcement hirarchique [?], de systmes de classeurs [?] ou de reprsentations prdictives de ltat [LIT 02]. Par ailleurs, nous nous sommes efforcs au sein des diffrents chapitres de donner des rfrences vers des travaux connexes ceux prsents ici. Les activits scientiques de la communaut PDMIA sont prsentes sur internet ladresse suivante : http://www.loria.fr/projets/PDMIA/index.php. Le lecteur dsireux dentrer en contact avec les auteurs de cet ouvrage y trouvera le moyen de contacter chacun dentre eux.
P REMIRE PARTIE
Principes gnraux
Chapitre 1
Processus Dcisionnels de Markov
1.1. Introduction Les problmes de dcision traits dans cet ouvrage sont communment appels problmes de dcision squentielle dans lincertain. La premire caractristique de ce type de problmes est quil sinscrit dans la dure et que ce nest pas en fait un, mais plusieurs problmes de dcisions en squence quun agent (ou dcideur ou encore acteur) doit rsoudre, chaque dcision courante inuenant la rsolution des problmes qui suivent. Ce caractre squentiel des dcisions se retrouve typiquement dans les problmes de planication en intelligence articielle et relve en particulier des mthodes de plus court chemin dans un graphe. La seconde caractristique de ces problmes est lie lincertitude des consquences mmes de chacune des dcisions possibles. Ainsi, lagent ne sait pas lavance prcisment quels seront les effets des dcisions quil prend. En tant que telle, cette problmatique relve des thories de la dcision dans lincertain qui proposent de nombreuse voies de formalisation et approches de rsolution, en particulier la thorie classique de maximisation de lutilit espre. Les problmes de dcision squentielle dans lincertain couplent donc les deux problmatiques de dcision squentielle et de dcision dans lincertain. Les problmes dcisionnels de Markov (MDP1) en sont une formalisation mathmatique, qui gnralise les approches de plus court chemin dans un environnement stochastique. A la base de ce formalisme, les processus dcisionnels de Markov (que lon note aussi MDP) intgrent les concepts dtat qui rsume la situation de lagent chaque instant, daction
Chapitre rdig par Frdrick G ARCIA. 1. Pour Markov Decision Problem
18
PDM en IA
(ou dcision) qui inuence la dynamique de ltat, de revenu (ou rcompense) qui est associ chacune des transitions dtat. Les MDP sont alors des chanes de Markov visitant les tats, contrles par les actions et values par les revenus. Rsoudre un MDP , cest contrler lagent pour quil se comporte de manire optimale, cest--dire de faon maximiser son revenu. Toutefois, les solutions dun MDP ne sont pas des dcisions ou squences de dcisions, mais plutt des politiques, ou stratgies, ou encore rgles de dcision, qui spcient laction entreprendre en chacune des tapes pour toutes les situations futures possibles de lagent. Du fait de lincertitude, une mme politique peut donner lieu des squences dtats / actions trs varies selon les alas. E XEMPLE. Illustrons ces concepts de manire plus concrte en prenant lexemple de lentretien dune voiture. La question qui se pose est de dcider, en fonction de ltat de la voiture (prsence de panne, usure, ge, etc.), quelle est la meilleure stratgie (ne rien faire, remplacer prventivement, rparer, changer de voiture, etc.) pour minimiser le cot de lentretien sur le long terme. Si on fait lhypothse que lon connat les consquences et le cot des diffrentes actions pour chaque tat (par exemple on connat la probabilit quun moteur lche si on ne rpare pas une fuite dhuile) alors on peut modliser ce problme comme un MDP dont la solution nous donnera, en fonction de ltat de la voiture, laction optimale. Ainsi, la suite des actions prises au fur et mesure de lvolution de ltat de la voiture permettra, en moyenne, de minimiser son cot dentretien. Le cadre des problmes dcisionnels de Markov et ses gnralisations que nous dvelopperons dans des chapitres ultrieurs forment les modles les plus classiques pour les problmes de dcision squentielle dans lincertain. Nous en exposons les bases dans ce chapitre, dans le cas dun agent qui dispose a priori dune connaissance parfaite du processus et de son tat tout instant, dont la tche consiste donc planier a priori une politique optimale qui maximise son revenu au cours du temps.
1.2. Problmes dcisionnels de Markov 1.2.1. Processus dcisionnels de Markov Les processus dcisionnels de Markov sont dnis comme des processus stochastiques contrls satisfaisant la proprit de Markov, assignant des rcompenses aux transitions dtats [BER 87, PUT 94]. On les dnit par un quintuplet : (S, A, T, p, r) o : S est lespace dtats dans lequel volue le processus ; A est lespace des actions qui contrlent la dynamique de ltat ; T est lespace des temps, ou axe temporel ; p() sont les probabilits de transition entre tats ; r() est la fonction de rcompense sur les transitions entre tats.
19
La gure 1.1 reprsente un MDP sous la forme dun diagramme dinuence. A chaque instant t de T , laction at est applique dans ltat courant st , inuenant le processus dans sa transition vers ltat st+1 . La rcompense rt est mise au cours de cette transition.
r(s t , a t)
st p( s t+1 | s t , a t)
s t+1
at
Figure 1.1. Processus dcisionnel de Markov.
Le domaine T des tapes de dcision est un ensemble discret, assimil un sousensemble de IN, qui peut tre ni ou inni (on parle dhorizon ni ou dhorizon inni). Les domaines S et A sont supposs nis, mme si de nombreux rsultats peuvent tre tendus aux cas o S et A sont dnombrables ou continus (voir [BER 95] pour une introduction au cas continu). Dans le cas gnral, lespace A peut tre dpendant de ltat courant (As pour s S ). De mme, S et A peuvent tre fonction de linstant t (St et At ). Nous nous limiterons ici au cas classique o S et A sont constants tout au long du processus. Les probabilits de transition caractrisent la dynamique de ltat du systme. Pour une action a xe, p(s |s, a) reprsente la probabilit que le systme passe dans ltat s aprs avoir excut laction a dans ltat s. On impose classiquement que s, a, s p(s |s, a) = 1. Par ailleurs, on utilise classiquement une reprsentation matricielle de ces probabilits de transition, en notant Pa la matrice de dimension |S | |S | dont les lments sont s, s Pa s,s = p(s | s, a). Les probabilits dcrites par p() se dcrivent donc par |A| matrices Pa , chacune des lignes de ces matrices ayant pour somme 1 : les Pa sont des matrices stochastiques. Les distributions p() vrient la proprit fondamentale qui donne son nom aux processus dcisionnels de Markov considrs ici. Si on note ht lhistorique la date t du processus, ht = (s0 , a0 , . . . , st1 , at1 , st ), alors la probabilit datteindre un nouvel tat st+1 suite lexcution de laction at nest fonction que de at et de ltat courant st et ne dpend pas de lhistorique ht . Si on note de faon standard P (x|y ) la
20
PDM en IA
probabilit conditionnelle de lvnement x sachant que y est vrai, on a : ht , at , st+1 P (st+1 | ht , at ) = P (st+1 | st , at ) = p(st+1 | st , at )
Il faut noter que cela nimplique pas que le processus stochastique induit (st )tT soit lui-mme markovien, tout dpend de la politique de choix des actions at . Comme rsultat davoir choisi laction a dans ltat s linstant t, lagent dcideur reoit une rcompense, ou revenu, rt = r(s, a) IR. Les valeurs de rt positives peuvent tre considres comme des gains et les valeurs ngatives comme des cots. Cette rcompense peut tre instantanment perue la date t, ou accumule de la date t la date t + 1, limportant est quelle ne dpende que de ltat et de laction choisie linstant courant. La reprsentation vectorielle de la fonction de rcompense r(s, a) consiste en |A| vecteurs ra de dimension |S |. Une extension classique est de considrer des rcompenses r(s, a) alatoires et lon considre alors la valeur moyenne rt = r (s, a). En particulier, rt peut ainsi dpendre de ltat darrive s selon r(s, a, s ). On considre alors la valeur moyenne est r (s, a) = s p(s |s, a)r(s, a, s ). Dans tous les cas, on suppose rt borne dans IR. Par ailleurs, comme pour S et A, les fonctions de transition et de rcompense peuvent elles-mmes varier au cours du temps, auquel cas on les note pt et rt . Lorsque ces fonctions de varient pas, on parle de processus stationnaires : t T, pt () = p(), rt () = r(). Par la suite, nous supposerons vrie cette hypothse de stationnarit dans ltude des MDP horizon inni. 1.2.2. Les politiques dactions Les processus dcisionnels de Markov permettent de modliser la dynamique de ltat dun systme soumis au contrle dun agent, au sein dun environnement stochastique. On nomme alors politique (note ), ou stratgie, la procdure suivie par lagent pour choisir chaque instant laction excuter. Deux distinctions sont essentielles ici. Tout dabord, une politique peut dterminer prcisment laction effectuer, ou simplement dnir une distribution de probabilit selon laquelle cette action doit tre slectionne. Ensuite, une politique peut se baser sur lhistorique ht du processus, ou peut ne simplement considrer que ltat courant st . Nous obtenons ainsi quatre familles distinctes de stratgies, comme indiqu sur le tableau 1.1 : Pour une politique dterministe, t (st ) ou t (ht ) dnit laction a choisie linstant t. Pour une politique alatoire, t (a, st ) ou t (a, ht ) reprsente la probabilit de slectionner a. Ces quatre familles de politique dnissent les quatre ensembles suivants :
Processus Dcisionnels de Markov politique t dterministe alatoire markovienne st at at , st [0, 1] histoire-dpendante ht at ht , st [0, 1] Tableau 1.1. Diffrentes familles de politiques pour les MDP.
21
HA pour les politiques histoire-dpendantes alatoires ; HD pour les politiques histoire-dpendantes dterministes ; M A pour les politiques markoviennes alatoires ; M D pour les politiques markoviennes dterministes. Ces diffrentes familles de politiques sont imbriques entre elles, de la plus gnrale (histoire-dpendante alatoire) la plus spcique (markovienne dterministe), comme le montre la gure 1.2.
histoiredpendante alatoire
histoiredpendante dterministe
markovienne alatoire
markovienne dterministe
Figure 1.2. Relations entre les diffrentes familles de politiques
Indpendamment de cela et comme pour le processus dcisionnel de Markov luimme, la dnition des politiques peut ou non dpendre explicitement du temps. Ainsi, une politique est stationnaire si t t = . Parmi ces politiques stationnaires, les politiques markoviennes dterministes sont centrales dans ltude des MDP. Il sagit du modle le plus simple de stratgie dcisionnelle, on nomme leur ensemble D: D FINITION 1.1. Politiques markoviennes dterministes stationnaires D est lensemble des fonctions qui tout tat de S associent une action de A : : s S (s) A
22
PDM en IA
Un autre ensemble important, not DA est constitu des politiques markoviennes alatoires stationnaires. Les politiques de D et DA sont trs importantes car, comme nous le verrons, D et DA contiennent les politiques optimales pour les principaux critres.
1.2.3. Critres de performance Se poser un problme dcisionnel de Markov, cest rechercher parmi une famille de politiques celles qui optimisent un critre de performance donn pour le processus dcisionnel markovien considr. Ce critre a pour ambition de caractriser les politiques qui permettront de gnrer des squences de rcompenses les plus importantes possibles. En termes formels, cela revient toujours valuer une politique sur la base dune mesure du cumul espr des rcompenses instantanes le long dune trajectoire, comme on peut le voir sur les critres les plus tudis au sein de la thorie des MDP, qui sont respectivement : le critre ni : E [r0 + r1 + r2 + + rN 1 | s0 ] le critre -pondr : E [r0 + r1 + 2 r2 + + t rt + | s0 ] le critre total : E [r0 + r1 + r2 + + rt + | s0 ] le critre moyen : lim 1 E [r0 + r1 + r2 + + rn1 | s0 ] n n
Les deux caractristiques communes ces quatre critres sont en effet dune part leur formule additive en rt , qui est une manire simple de rsumer lensemble des rcompenses reues le long dune trajectoire et, dautre part, lesprance E [.] qui est retenue pour rsumer la distribution des rcompenses pouvant tre reues le long des trajectoires, pour une mme politique et un mme tat de dpart. Ce choix dun cumul espr est bien sr important, car il permet dtablir le principe doptimalit de Bellman [BEL 57] ( les sous-politiques de la politique optimale sont des sous-politiques optimales ), la base des nombreux algorithmes de programmation dynamique permettant de rsoudre efcacement les MDP. On verra au chapitre 5 dautres critres qui tendent les MDP, pour lesquels le principe doptimalit nest plus ncessairement respect. Dans la suite de ce chapitre, nous allons successivement caractriser les politiques optimales et prsenter les algorithmes permettant dobtenir ces politiques optimales pour chacun des prcdents critres.
23
1.3. Fonctions de valeur Les critres ni, -pondr, total et moyen que nous venons de voir permettent de dnir une fonction de valeur qui, pour une politique xe, associe tout tat initial s S la valeur du critre considr en suivant partir de s : V : S IR. On note V lespace des fonctions de S dans IR, identiable lespace vectoriel IR|S | . Lensemble V est muni dun ordre partiel naturel : U, V V U V s S U (s) V (s).
Lobjectif dun problme dcisionnel de Markov est alors de caractriser et de rechercher si elles existent les politiques optimales HA telles que HA soit encore argmax V .
HA
s S
V (s) V (s)
On note alors V = maxHA V = V . Dans le cadre des MDP, on recherche donc des politiques optimales meilleures que toute autre politique, quel que soit ltat de dpart. Remarquons que lexistence dune telle politique optimale nest pas en soi vidente. La spcicit des problmes dcisionnels de Markov est alors de pouvoir tre traduits en terme dquations doptimalit portant sur les fonctions de valeur, dont la rsolution est de complexit moindre que le parcours exhaustif de lespace global des politiques de HA (la taille du simple ensemble D est dj de |A||S | ).
1.3.1. Le critre ni On suppose ici que lagent doit contrler le systme en N tapes, avec N ni. Le critre ni conduit naturellement dnir la fonction de valeur qui associe tout tat s lesprance de la somme des N prochaines rcompenses en suivant la politique partir de s : D FINITION 1.2. Fonction de valeur pour le critre ni Si T = {0, . . . , N 1}, on pose
N 1
s S
VN (s) = E [ t=0
rt | s0 = s].
24
PDM en IA
Dans cette dnition, E [.] dnote lesprance mathmatique sur lensemble des ralisations du MDP en suivant la politique . E est associe la distribution de probabilit P sur lensemble de ces ralisations. Notons quil est parfois utile dajouter au critre une rcompense terminale rN fonction du seul tat nal sN . Il suft pour cela de considrer une tape articielle supplmentaire o s, a rN (s, a) = rN (s). Cest le cas par exemple lorsquil sagit de piloter un systme vers un tat but en N tapes et moindre cot.
1.3.2. Le critre -pondr Le critre -pondr, ou critre actualis, est le critre horizon inni le plus classique. La fonction de valeur du critre -pondr est celle qui associe tout tat s la limite lorsque N tend vers linni de lesprance en suivant la politique partir de s de la somme des N futures prochaines rcompenses, pondres par un facteur dactualisation2 : D FINITION 1.3. Fonctions de valeur pour le critre -pondr Pour 0 < 1, on pose s S V (s) = E [r0 + r1 + 2 r2 + + t rt + | s0 = s]
= E [
t=0
t rt | s0 = s]
Le terme reprsente la valeur la date t dune unit de rcompense reue la date t + 1. Reue la date t + , cette mme unit vaudrait . Cela implique que les instants de dcision t = 0, 1, 2, . . . de T soient rgulirement rpartis sur IN. Ce facteur a pour principal intrt dassurer la convergence de la srie en horizon inni. Dun point de vue pratique, il est naturellement utilis au sein des MDP modlisant des 1 processus de dcision conomique en posant = 1+ , o est le taux dactualisation. 1.3.3. Le critre total Il est toutefois possible de choisir = 1 dans certains cas particuliers horizon inni. Lorsque cela a un sens, on pose ainsi :
2. discount factor en anglais
25
D FINITION 1.4. Fonction de valeur pour le critre total
V (s) = E [
t=0
rt | s0 = s]
Ce critre est en pratique souvent utilis pour des problmes horizon temporel alatoire ni non born : on sait que le processus de dcision va sarrter une tape terminale, mais on ne peut borner cet instant. Ce type de modle est particulirement utilis dans des applications de type optimal stopping ( tout instant, la dcision de lagent porte simplement sur larrt ou non du processus alatoire), ou plus gnralement de type jeux et paris.
1.3.4. Le critre moyen Lorsque la frquence des dcisions est importante, avec un facteur dactualisation proche de 1, ou lorsquil nest pas possible de donner une valeur conomique aux rcompenses, on prfre considrer un critre qui reprsente la moyenne des rcompenses le long dune trajectoire et non plus leur somme pondre. On associe ainsi une politique lesprance du gain moyen par tape. On dnit alors le gain moyen (s) associ une politique particulire et un tat s : D FINITION 1.5. Le gain moyen (s) = lim E [
n
1 n
n1
rt | s0 = s]
t=0
Pour le critre moyen, une politique est dite gain-optimale si (s) (s) pour toute politique et tout tat s. Ce critre est particulirement utilis dans des applications de type gestion de le dattente, de rseau de communication, de stock etc.
1.4. Politiques markoviennes 1.4.1. Equivalence des politiques histoire-dpendantes et markoviennes Nous allons tablir ici une proprit fondamentale des MDP pour ces diffrents critres, qui est daccepter comme politiques optimales des politiques simplement markoviennes, sans quil soit ncessaire de considrer lespace total HA des politiques histoire-dpendantes.
26
PDM en IA
P ROPOSITION 1.1. Soit HA une politique alatoire histoire-dpendante. Pour chaque tat initial x S , il existe alors une politique alatoire markovienne M A telle que
1) VN (x) = VN (x),
2) V (x) = V (x), 3) V (x) = V (x), 4) (x) = (x) P REUVE. Soit x S et une politique alatoire histoire-dpendante. Soit la politique alatoire markovienne dnie partir de et x selon : t = 0, 1, . . . , s S, a A (at = a, st = s) = P (at = a | st = s, s0 = x)
On a ainsi P (at = a | st = s) = P (at = a | st = s, s0 = x). On montre alors par rcurrence sur t que P (st = s, at = a | s0 = x) = P (st = s, at = a | s0 = x). Lgalit est directe pour t = 0. Pour t > 0, en supposant tablie la proprit jusqu t 1, on a P (st = s | s0 = x) =
iS aA
P (st1 = i, at1 = a | s0 = x)p(s | i, a) P (st1 = i, at1 = a | s0 = x)p(s | i, a)

iS aA
= P (st = s | s0 = x) Do P (st = s, at = a | s0 = x) = P (at = a | st = s)P (st = s | s0 = x) = P (at = a | st = s, s0 = x)P (st = s | s0 = x) = P (st = s, at = a | s0 = x), ce qui tablit la rcurrence. On conclut en remarquant alors que pour tout x S
t=N 1 VN (x)
=
t=0 t=
E [r(st , at ) | s0 = x]
V (x) V (x)
=
t=0 t=
t E [r(st , at ) | s0 = x]
=
t=0
E [r(st , at ) | s0 = x] 1 n n lim
t=n1
(x)
E [r(st , at ) | s0 = x],
t=0
27
et E [r(st , at ) | s0 = x] =
sS aA
r(s, a)P (st = s, at = a | s0 = x).
Ce rsultat permet dafrmer que lorsque lon connat ltat initial (ou une distribution de probabilit sur ltat initial), toute politique histoire-dpendante alatoire peut tre remplace par une politique markovienne alatoire ayant la mme fonction de valeur. 1.4.2. Politique markovienne et chane de Markov value Pour toute politique markovienne M A , le processus dcrit par ltat st vrie, pour tout s0 , s1 , , st+1 , P (st+1 | s0 , s1 , , st ) = aA P (at = a | s0 , s1 , , st )P (st+1 | s0 , s1 , , st , at = a) = aA (a, st )P (st+1 | st , at = a) = P (st+1 | st ). Il sagit donc dun processus markovien, qui forme une chane de Markov dont la matrice de transition note P est dnie par s, s Ps,s = P (st+1 = s | st = s) =
a
(a, s)p(s | s, a).
Dans le cas o est dterministe ( M D ), Ps,s est simplement gal p(s | s, (s)). La matrice P est construite simplement en retenant pour chaque tat s la ligne correspondante dans la matrice Pa avec a = (s). De mme, on note r le vecteur de composante r(s, (s)) pour M D et a (a, s)r(s, a) pour M A . Le triplet (S, P , r ) dnit ce que lon nomme un processus de Markov valu, ou chane de Markov value. Il sagit simplement dune chane de Markov avec des revenus associs aux transitions. Nous verrons quvaluer une politique consiste alors calculer certaines grandeurs asymptotiques (pour les critres innis) caractristiques de la chane de Markov value associe. 1.5. Caractrisation des politiques optimales 1.5.1. Le critre ni 1.5.1.1. Equations doptimalit Supposons que lagent se trouve dans ltat s lors de la dernire tape de dcision, confront au choix de la meilleure action excuter. Il est clair que la meilleure dcision prendre est celle qui maximise la rcompense instantane venir, qui viendra
28
PDM en IA
sajouter celles quil a dj perues. On a ainsi :

N 1 (s) argmax rN 1 (s, a) aA
et V1 (s) = max rN 1 (s, a)

aA o N 1 est la politique optimale suivre ltape N 1 et V1 la fonction de valeur optimale pour un horizon de longueur 1, obtenue en suivant cette politique optimale.
Supposons maintenant lagent dans ltat s ltape N 2. Le choix dune action a va lui rapporter de faon sre la rcompense rN 2 (s, a) et lamnera de manire alatoire vers un nouvel tat s ltape N 1. L, il sait quen suivant la politique optimale N 1 , il pourra rcuprer une rcompense moyenne V1 (s ). Le choix dune action a ltape N 2 conduit donc au mieux en moyenne la somme de rcompenses rN 2 (s, a) + s pN 2 (s |s, a)V1 (s ). Ainsi, le problme de lagent ltape N 2 se ramne simplement rechercher laction qui maximise cette somme, soit :
N 2 (s) argmax{rN 2 (s, a) + aA s
pN 2 (s |s, a)V1 (s )}
et V2 (s) = max{rN 2 (s, a) +

aA s
pN 2 (s |s, a)V1 (s )}.
Ce raisonnement peut stendre jusqu la premire tape de dcision, o lon a donc : p0 (s |s, a)VN 0 (s) argmax{r0 (s, a) + 1 (s )}
aA s p0 (s |s, a)VN 1 (s )}. s
et
VN (s) = max{r0 (s, a) + aA
Cela conduit ainsi lnonc du thorme suivant : T HORME 1.1. Equations doptimalit pour le critre ni Soit N < . Les fonctions de valeurs optimales V = (VN , . . . , V1 ) sont les solutions uniques du systme dquations s S
Vn +1 (s) = max{rN 1n (s, a) + aA s pN 1n (s |s, a)Vn (s )}
(1.1)
avec n = 0, . . . , N 1 et V0 = 0. Les politiques optimales pour le critre ni = (0 , 1 , . . . , N 1 ) sont alors dtermines par : s S
t (s) argmax{rt (s, a) + aA s pt (s |s, a)VN 1t (s )}
29
pour t = 0, . . . , N 1. On voit donc ici dans le cadre du critre ni que les politiques optimales sont de type markovien dterministe, mais non stationnaire (le choix de la meilleure dcision prendre dpend de linstant t). 1.5.1.2. Evaluation dune politique markovienne dterministe Soit une politique markovienne dterministe. La mme dmarche permet alors de caractriser sa fonction de valeur VN : T HORME 1.2. Caractrisation de VN Soient N < et = (0 , 1 , . . . , N 1 ) une politique markovienne. Alors VN = VN , avec (VN , VN 1 , . . . , V1 ), solutions du systme dquations linaires s S Vn+1 (s) = rN 1n (s, N 1n (s))+
s
pN 1n (s |s, N 1n (s))Vn (s )
pour n = 0, . . . , N 1 et V0 = 0. 1.5.2. Le critre -pondr Ce critre est le plus classique en horizon inni et celui pour lequel il est assez simple de caractriser la fonction de valeur optimale et les politiques associes. On rappelle que lon suppose ici, dans le cas de lhorizon inni, que le MDP considr est stationnaire. 1.5.2.1. Evaluation dune politique markovienne stationnaire Pour une politique markovienne stationnaire DA , on dnit loprateur L de V dans V , espace vectoriel muni de la norme max : V V , V = maxsS | V (s) |. D FINITION 1.6. Oprateur L Pour DA , V V
L V = r + P V
Un premier rsultat permet alors de relier la fonction de valeur V dune politique stationnaire DA cet oprateur L : T HORME 1.3. Caractrisation de V Soient < 1 et DA une politique stationnaire markovienne. Alors V est lunique solution de lquation V = L V : s S V (s) = r (s) +
s S
P,s,s V (s )
(1.2)
30
PDM en IA
et V = (I P )1 r . P REUVE. Soit V solution de V = L V . On a donc (I P )V = r . La matrice P tant stochastique, toutes les valeurs propres de la matrice P sont de modules infrieurs ou gaux < 1 et donc la matrice I P est inversible, avec
(I P )1 =
k=0
k k P
do V = (I P )
1
r =
k=0
k k P r .
Or, s S
V (s)
= E [r0 + r1 + 2 r2 + + t rt + | s0 = s]
=
t=0
t E [r(st , at ) | s0 = s] t
t=0 s S aA
P (st = s , at = a | s0 = s)r(s , a)
=
t=0
t
s S aA
q (a, s )P (st = s | s0 = s)r(s , a)
=
t=0
t
s S
P (st = s | s0 = s)r (s )
=
t=0
t
s S
t P,s,s r (s )
=
t=0
t t P r (s),
et donc V = V . 1.5.2.2. Equations doptimalit Rappelons que lon cherche rsoudre le problme doptimisation s S , V (s) = maxHA V (s). Une politique est dite optimale si V = V . De par la proprit 1.1, on a alors s S V (s) = max V (s) = max V (s).
HA M A
31
Soit donc maintenant loprateur L de lensemble des fonctions de valeur V dans lui-mme, nomm oprateur de programmation dynamique : D FINITION 1.7. Oprateur L V V s S LV (s) = max r(s, a) +
aA s S
p(s | s, a)V (s )
soit en notation vectorielle V V LV = max (r + P V )

D
Le thorme principal concernant loptimalit des fonctions de valeur pour le critre -pondr est alors le suivant : T HORME 1.4. Equation de Bellman Soit < 1. Alors V est lunique solution de lquation V = LV : s S V (s) = max r(s, a) +
aA s S
p(s | s, a)V (s ) .
(1.3)
P REUVE. Montrons que V et pour 0 1 LV = max (r + P V ) = max (r + P V )

D D A
Pour cela, considrons une fonction de valeur V et DA . Pour tout s, du fait du caractre positif des (a, s), on a (a, s) r(s, a) +
a s S
p(s | s, a)V (s )
(a, s) max r(s, a ) +

a s S
p(s | s, a )V (s )
(a, s)LV (s)
LV (s)
32
PDM en IA
Ainsi, pour tout DA r + P V max (r + P V )

D
soit
D A
max (r + P V ) max (r + P V )
D A
Lingalit inverse est immdiate car D D . Montrons alors que V , V LV V V , et V LV V V . Soit V telle que V LV . On a donc V max {r + P V } = max {r + P V }
D D A
Soit = (0 , 1 , . . .) M A . Pour tout t, t DA , do V r0 + P0 V r0 + P0 (r1 + P1 V )

n r0 + P0 r1 + 2 P0 P1 r2 + + n1 P0 Pn2 rn1 + n P V.
On a donc
n V V n P V k=n k k P rk , car V = k=0 k k P r k ,
k avec P = P0 P1 Pk1 . Les deux termes de droite peuvent tre rendus aussi n petits que dsir pour n sufsamment grand, car n P V n V et n k k k k=n P rk k=n R 1 R avec R = maxs,a r (s, a). On en dduit
V V 0 Cela tant vrai pour toute politique M A , on a donc V max V = max V = V

M A HA
Inversement, soit V telle que V LV . On a donc V maxD {r + P V } Supposons ce max atteint en . On a donc V r + P V r + P (r + P V )
n1 n r + P r + + n1 P r + n P V
V V
k=n
k n n k P r + P V
33
Les termes de droite pouvant tre rendus aussi proches de 0 que dsir, on a donc V V 0, soit V V V . On a ainsi montr que V LV V V , V LV V V , ce qui implique que V = LV V = V : toute solution de lquation LV = V est ncessairement gale la fonction de valeur optimale V . Montrons maintenant quune telle solution existe. Rappelons pour cela le thorme du point xe de Banach : T HORME 1.5. Thorme du point xe de Banach Soient U un espace de Banach (i.e. espace vectoriel norm complet) et T une contraction sur U (i.e. u, v T u T v u v pour 0 < 1). Alors 1) Il existe un unique u U tel que T u = u ; 2) Pour tout u0 U , la suite (un )n0 dnie par un+1 = T un = T n+1 u0 converge vers u . Lespace V muni de la norme max est un espace vectoriel norm de dimension ni donc complet. Il suft donc de montrer que loprateur L est une contraction pour cette norme. P ROPOSITION 1.2. Soit < 1. Loprateur de programmation dynamique L dni par LV = maxD (r + P V ) est une contraction sur V . P REUVE. Soient U et V dans V et s S . Supposons LV (s) LU (s). Soit a s argmaxaA r (s, a) + On a alors 0 | LV (s) LU (s) | = LV (s) LU (s) r(s, a s) +
s S s S
p(s | s, a)V (s ) .
p(s | s, a s )V (s ) p(s | s, a s )U (s )
s S
r(s, a s)
s S
p(s | s, a s )(V (s ) U (s )) p(s | s, a s)

s S
Do
V U
V U
LV LU = max | LV (s) LU (s) |

s
V U
34
PDM en IA
Cette proprit de contraction assure donc lexistence pour loprateur L dun point xe unique qui est donc gal V . On termine alors lanalyse du critre -pondr avec le thorme suivant : T HORME 1.6. Caractrisation des politiques optimales Soit < 1. Alors 1) HA est optimale V est solution de LV = V et V = V ; 2) toute politique stationnaire dnie par argmax{r + P V }
D
est une politique optimale. P REUVE. La premire quivalence est vidente du fait du thorme prcdent. Soit alors argmaxD {r + P V }. On a alors L V = r + P V = max{r + P V }
D
= LV = V . Lunicit de la solution de V = L V dmontre par le thorme 1.3 permet de dduire que V = V et donc que est optimale. 1.5.3. Le critre total Lexistence de la limite dnissant le critre total ne peut tre assure que sous certaines hypothses. Nous considrons ici deux classes de problmes pour lesquelles cette limite existe ncessairement, et est nie pour au moins une politique : les modles positifs et les modles ngatifs.
D FINITION 1.8. Soit HA . On dnit les fonctions V+ et V par V+ (s)
= E[
t=0
max(rt , 0) | s0 = s]
V (s)
= E [
t=0
max(rt , 0) | s0 = s]
35
On appelle alors respectivement V + et V lensemble des fonctions positives et ngatives de V

On suppose que pour toute politique et tat s, V+ (s) ou V (s) est ni, ce qui implique lexistence (nie ou innie) de la limite V avec
s S
V (s) = V+ (s) V (s).
Les MDP borns positivement, ou encore positifs, sont tels que pour chaque s il existe au moins une action a A avec r(s, a) 0 et
V+ (s) < pour tout s S et pour tout HA .
Les MDP ngatifs sont tels que r(s, a) 0 pour tout s S et a A et il existe HA telle que V (s) > pour tout s S . Lexistence dune politique pour laquelle V (s) soit ni pour tout s S est typiquement assure par la prsence dun tat absorbant s rcompense nulle : s0 avec p(s | s , (s )) = 1, et r(s , (s )) = 0 Pour un modle positif, une politique optimale a un revenu total positif le plus loign de 0 possible. Lagent cherche prolonger le plus possible les trajectoires pour accumuler des revenus positifs. Pour un modle ngatif, une politique optimale a un revenu ngatif aussi proche de 0 possible. Lagent cherche terminer aussi vite que possible en s pour minimiser les pertes. Les deux modles ne sont donc pas exactement symtriques. Nous nonons ci-dessous quelques rsultats importants concernant ces deux modles. Pour cela, nous introduisons une nouvelle dnition des oprateurs L et L. D FINITION 1.9. Oprateurs L et L pour le critre total Soit stationnaire DA , V V et V V LV = max (r + P V )
D
P (t st = s ) = 1
L V = r + P V
36
PDM en IA
On montre alors pour les MDP positifs et ngatifs les rsultats suivants : T HORME 1.7 [PUT 94]. Soit un MDP positif. Alors 1) pour tout stationnaire D, V est la solution minimale de V = L V dans V +. 2) V est la solution minimale de lquation V = LV dans V + . 3) une politique HA est optimale V = LV

N 4) si argmaxD (r + P V ) et si limN P V (s) = 0 pour tout s S , alors est optimale.
T HORME 1.8 [PUT 94]. Soit un MDP ngatif. Alors 1) pour tout stationnaire D, V est la solution maximale de V = L V dans V .
2) V est la solution maximale de lquation V = LV dans V . 3) toute politique argmaxD (r + P V ) est optimale. On note que pour un MDP ngatif, il peut exister une politique vriant V = LV qui ne soit pas optimale (voir lexemple 7.3.1 dans [PUT 94]).
1.5.4. Le critre moyen Lanalyse thorique du critre moyen est plus complexe que pour les prcdents critres. Elle fait intervenir le comportement limite du processus markovien valu sous-jacent. Nous nous limitons ici prsenter les rsultats principaux, dans le cadre des MDP rcurrents (pour toute politique markovienne dterministe, la chane de Markov correspondante est constitue dune unique classe rcurrente), unichanes (chaque chane de Markov est constitue dune unique classe rcurrente plus ventuellement quelques tats transitoires) ou multichanes (il existe au moins une politique dont la chane de Markov correspondante soit constitue de deux classes rcurrentes irrductibles ou plus). On suppose de plus ici que pour toute politique, la chane de Markov correspondante est apriodique. 1.5.4.1. Evaluation dune politique markovienne stationnaire Soit DA une politique stationnaire et (S, P , r ) le processus de Markov valu qui lui est associ. Rappelons que le gain moyen ou critre moyen est dni par : s S (s) = lim E
N
1 N
N 1
r (st ) | s0 = s .
t=0
37
Sous forme matricielle, on a ainsi = lim 1 N N

N 1 t P r . t=0
1 t Soit P = limN N t=0 P la matrice limite de P . On montre que P existe et est une matrice stochastique pour tout S ni. De plus, P vrie P P = P P = P P = P .
N 1
Le coefcient P,s,s peut tre interprt comme la fraction de temps que le systme passera dans ltat s en tant parti de ltat s. Pour des MDP apriodiques, on N a de plus P = limN P et P,s,s peut tre interprt comme la probabilit lquilibre dtre dans ltat s en tant parti de s. Enn, pour un MDP unichane, P est alors la matrice dont toutes les lignes sont identiques et gales la mesure invariante de la chane contrle par la politique . Ainsi s, s P,s,s = (s ).
De la dnition prcdente de , on dduit que = P r . Pour un MDP unichane on tablit ainsi que (s) = est constant pour tout s, avec
=
sS
(s)r (s)
Dans le cas gnral dun MDP multichane, (s) est constant sur chaque classe de rcurrence.
Cette premire caractrisation de fait intervenir P quil nest pas facile de calculer. Il est toutefois possible dobtenir autrement , en introduisant une nouvelle fonction de valeur pour le critre moyen, dite fonction de valeur relative :
D FINITION 1.10. Fonction de valeur relative pour le critre moyen
s S
U (s) = E [
t=0
(rt ) | s0 = s]
38
PDM en IA
En termes vectoriels, on a ainsi
=
t=0
t P (r )
=
t=0
t P (r P r )
=
t=0
t (P P )r
= =
(I P + t=1 (P
t (P P ) )r
1 + (I P + P ) )r ,
t car on montre que la matrice (I P + P ) est inversible et pour t > 0 : (P P ) = t P P . En multipliant gauche par (I P + P ), on en dduit
= =
1 (I P + P ) (I P (I P + P ))r 1 (I P + P ) (I P )r .
1 On note HP = (I P + P ) (I P ) la matrice de dviation de P , qui est donc telle que U = H P r .
On peut vrier que HP est matrice pseudo-inverse de (I P ), ce qui tablit un lien clair entre cette dnition de U et lexpression de V tablie au thorme 1.3. On montre alors le rsultat gnral suivant, valable pour tout processus de Markov valu quil soit rcurrent, unichane ou multichane : T HORME 1.9 [PUT 94]. Soit (S, P , r ) un processus de Markov valu associ une politique stationnaire DA . Alors 1) si et U sont le gain moyen et la fonction de valeur relative de a) (I P ) = 0, b) + (I P )U = r . 2) rciproquement, si et U vrient les deux galits prcdentes, alors a) = P r = ,
39
b) U = HP r + u, o (I P )u = 0. c) si de plus P U = 0, alors U = HP r = U . On retiendra que la fonction de valeur relative U est lunique solution de (I P )U = (I P )r telle que P U = 0, obtenue en utilisant la pseudo-inverse HP de (I P ). Dans le cas simpli dun processus unichane, la premire quation se simplie en (s) = et la seconde peut scrire selon : s S U (s) + = r (s) +
s S
P,s,s U (s ).
(1.4)
Toute solution (, U ) de cette quation vrie alors = et U = U + ke, o k est un scalaire quelconque et e le vecteur dont toutes les composantes sont gales 1. Si de plus sS (s)U (s) = 0 alors U = U . Cette quation est bien sr rapprocher de celle tablie pour le critre -pondr. 1.5.4.2. Equations doptimalit Enonons maintenant les conditions doptimalit quil est possible dtablir pour le critre moyen. Rappelons que lon recherche les politiques HA telles que = max =
HA
Le rsultat principal nonc dans le cadre gnral des MDP multichanes est le suivant : T HORME 1.10 [PUT 94]. Equations doptimalit multichane Il existe une solution (, U ) au systme dquations dnies pour tout s S : (s) = max
aA s S
p(s | s, a)(s )
U (s) + (s) = max avec Bs = On a alors = . aA|
aBs
r(s, a) +
s S
p(s | s, a)U (s )
p(s | s, a)(s ) = (s)

s S
40
PDM en IA
Dans le cas unichane, le gain est constant et Bs = A. Les quations doptimalit se rduisent alors s S U (s) + = max r(s, a) +
aA s S
p(s | s, a)U (s )
(1.5)
Le lien entre solutions des quations doptimalit et politiques optimales est alors tabli avec le thorme suivant : T HORME 1.11 [PUT 94]. Soit (, U ) une solution aux quations doptimalit. Il existe alors une politique stationnaire markovienne dterministe gain-optimale D, dtermine par : s S (s) argmax r(s, a) +
aBs s S
p(s | s, a)U (s )
Notons quil peut exister des politiques gain-optimales telles que ( , U ) ne vrient pas les quations doptimalit. Remarquons enn que les solutions des quations doptimalit ne sont pas uniques, car si ( , U ) est solution, il en est au moins de mme pour ( , U + ke) pour tout scalaire k . Surtout, il peut y avoir plusieurs fonctions de valeur relative solutions, dnissant des politiques diffrentes, associes au mme optimal. Il est alors utile de rechercher parmi ces diffrentes solutions celles qui maximisent la fonction de valeur relative, on parle alors de bias-optimality. 1.6. Algorithmes de rsolution des MDP 1.6.1. Le critre ni Le cas de lhorizon ni est assez simple. Les quations doptimalit permettent en effet de calculer rcursivement partir de la dernire tape les fonctions de valeur optimales V1 , . . . , VN selon lalgorithme 1.1. La complexit temporelle et spatiale de cet algorithme est en O(N |S | |A|). 1.6.2. Le critre -pondr Trois grandes familles de mthodes existent pour rsoudre de tels MDP : la programmation linaire, litration sur les valeurs et litration sur les politiques. Toutes recherchent des politiques optimales dans D.
2
41
Algorithme 1.1 : Programmation dynamique horizon ni V0 0 pour n 0 jusqu N 1 faire pour s S faire Vn +1 (s) = maxaA {rN 1n (s, a) + s pN 1n (s |s, a)Vn (s )} N 1n (s) argmaxaA {rN 1n (s, a) + s pN 1n (s |s, a)Vn (s )} retourner V ,
1.6.2.1. Programmation linaire Il est immdiat de vrier que si V V minimise la fonction sS V (s) sous la contrainte V LV , alors V = V . En effet, nous avons montr au cours de la preuve du thorme 1.4 que V LV impliquait V V et donc que sS V (s) sS V (s). Une manire de rechercher la fonction de valeur optimale V est donc de rsoudre le systme linaire associ, comme dcrit dans lalgorithme 1.2 ci-dessous. Algorithme 1.2 : Programmation linaire pour le critre -pondr rsoudre
V V
min
sS
V (s)
avec V (s) r(s, a) +

s S
p(s | s, a)V (s ),
s S, a A
pour s S faire (s) argmaxaA {r(s, a) + retourner V ,
p(s |s, a)V (s )}
Cette approche a t propose initialement par [DE 63]. Si n et m sont les tailles respectives de S et A, avec p() et r() codes sur b bits, la complexit dun tel algorithme de programmation linaire sur les rationnels est polynomiale en |S |, |A|, b, avec des temps de rsolution assez lents [LIT 95c]. Nous verrons toutefois au chapitre 9 que des mthodes de programmation linaire peuvent savrer trs efcaces dans le cadre des MDP admettant une reprsentation factorise. 1.6.2.2. Algorithme ditration sur les valeurs Lapproche la plus classique se base aussi sur la rsolution directe de lquation doptimalit de Bellman V = LV , en utilisant pour cela une mthode itrative de type point xe, do son nom anglais de value iteration [BEL 57, BER 87, PUT 94].
42
PDM en IA
Comme le prouve le thorme 1.4, la solution de lquation de Bellman est obtenue comme limite de la suite Vn+1 = LVn , quelle que soit linitialisation de V0 . Il est alors tabli quun nombre maximum ditrations polynomial en |S |, |A|, b, 1/(1 ) log(1/(1 )) est ncessaire pour atteindre , chaque itration tant de complexit 2 O(|A||S | ) [PAP 87]. Au del de ce nombre ditrations, la suite Vn est de plus en plus proche de V mais la politique correspondante n = ne change plus. En pratique, plusieurs conditions darrt de litration peuvent tre envisages. La plus classique consiste stopper litration lorsque Vn+1 Vn < , o est un seuil derreur x a priori. On aboutit lalgorithme 1.3 suivant : Algorithme 1.3 : Algorithme ditration sur les valeurs - Critre -pondr initialiser V0 V n0 rpter pour s S faire Vn+1 (s) = maxaA r(s, a) + s S p(s | s, a)Vn (s ) nn+1 jusqu Vn+1 Vn < pour s S faire (s) argmaxaA {r(s, a) + s p(s |s, a)Vn (s )} retourner Vn ,
On montre alors que
Vn V <
avec
2 1
(voir chapitre 11).
Il est possible damliorer la vitesse de convergence de lalgorithme ditration sur les valeurs en modiant lgrement le calcul de Vn+1 . Lide consiste utiliser Vn+1 (s) la place de Vn (s) lorsque cette valeur a dj t calcule. On dnit ainsi lalgorithme de Gauss-Seidel, en numrotant les tats de S de 1 |S | (algorithme 1.4). Cette ide peut encore tre gnralise au cas o les tats mis jour chaque itration sont slectionns alatoirement parmi S . On dnit ainsi la programmation dynamique asynchrone [BER 89]. Il est enn possible doptimiser encore lalgorithme en liminant ds que possible des actions qui savrent tre dnitivement non optimales. Cela permet ainsi de rduire la complexit de lopration de maximisation sur A. 1.6.2.3. Algorithme ditration sur les politiques La dernire classe importante dalgorithmes de rsolution est constitue des mthodes itrant sur les politiques elles-mmes.
43
Algorithme 1.4 : Algorithme ditration sur les valeurs - Gauss-Seidel initialiser V0 V n0 rpter pour i 1 jusqu |S | faire Vn+1 (si ) = maxaA r(s, a) +
ij |S | 1j<i
p(sj | s, a)Vn+1 (sj ) +
p(sj | s, a)Vn (sj )
nn+1 jusqu Vn+1 Vn < pour s S faire (s) argmaxaA {r(s, a) + retourner Vn ,
p(s |s, a)Vn (s )}
Considrons une politique stationnaire D et V sa fonction de valeur. Lalgorithme ditration sur les politiques exploite la proprit suivante : P ROPRIT 1.1. Amlioration sur 1 coup de la politique Soit D. Toute politique + dnie par + argmax{r + P V }
D
vrie V V avec V = V = . P REUVE. On a r+ + P+ V = max{r + P V }

D
+ +
r + P V V car V = r + P V . Do r+ + P+ V + P+ (V V ) V V P+ V (I P+ )V V
+ + + +
V P+ V (I P+ )V V
44
PDM en IA
2 2 car si u v , (I P+ )1 u = u + P+ u + 2 P + u v + P + v + 2 2 2 1 P+ v (I P+ ) v .
Lgalit nest possible que si maxD {r + P V } = V , soit V = V . Lalgorithme ditration sur les politiques se dcline donc ainsi (algorithme 1.5) : soit la politique n litration n. Dans une premire tape, on rsout le systme dquations linaires Vn = Ln Vn puis, dans un second temps, on amliore la politique courante en posant n+1 argmaxD {r + P Vn }. On stoppe lalgorithme lorsque n = n+1 . La suite Vn , croissante et borne par V , converge. Comme il y a un nombre ni de politiques, la suite n converge alors en un nombre ni ditration. A la limite, Vn = V et n est optimale. Algorithme 1.5 : Algorithme ditration sur les politiques - Critre -pondr initialiser 0 D n0 rpter rsoudre Vn (s) = r(s, n (s)) +
s S
p(s | s, n (s))Vn (s ),
s S
pour s S faire n+1 (s) argmaxaA r(s, a) + nn+1 jusqu n = n+1 retourner Vn , n+1
s S
p(s | s, a)Vn (s )
La complexit de lalgorithme ditration sur les politiques est en O(|A||S | ) + 3 O(|S | ) par itration, avec un nombre maximum ditrations polynomial en |S |, |A|, b constant [PAP 87]. L aussi, il est possible damliorer lefcacit de cet algorithme en simpliant la phase dvaluation de la politique courante n . Une approche classique consiste rsoudre lquation Vn = Ln Vn de manire itrative, comme pour litration sur les valeurs, mais sarrter au bout dun faible nombre ditrations. Lutilisation de ce principe conduit lalgorithme modi ditration sur les politiques (algorithme 1.6). Cet algorithme combine les caractristiques de litration sur les valeurs et de litration sur les politiques. Il converge pour tout vers une politique optimale pour
45
Algorithme 1.6 : Algorithme modi ditration sur les politiques - Critre pondr initialiser V0 V tel que LV0 V0 f lag 0 n0 rpter pour s S faire n+1 (s) argmaxaA r(s, a) + s S p(s | s, a)Vn (s ) (n+1 (s) = n (s) si possible) 0 Vn (s) = maxaA r(s, a) + s S p(s | s, a)Vn (s ) m0 0 si Vn Vn < alors f lag 1 sinon rpter pour s S faire m+1 m Vn (s) = r(s, n+1 (s)) + s S p(s | s, n+1 (s))Vn (s ) mm+1 m+1 m jusqu Vn Vn < m Vn+1 Vn nn+1 jusqu f lag = 1 retourner Vn , n+1
0, sous lhypothse LV0 V0 . Cette condition est par exemple vrie pour le choix suivant de V0 : V0 (s) = pour tout s S . En pratique, les algorithmes ditration sur les politiques et, en particulier, lalgorithme modi ditration sur les politiques, apparaissent plus efcaces que les algorithmes ditration sur les valeurs et doivent leur tre prfrs. 1 mins S minaA r(s , a) 1
1.6.3. Le critre total 1.6.3.1. MDP positifs On montre pour les modles borns positivement que lalgorithme ditration sur les valeurs converge de manire monotone vers V sous lhypothse que V0 vrie 0 V0 V .
46
PDM en IA
En ce qui concerne lalgorithme ditration sur les politiques adapt au cas des positifs (algorithme 1.7), on impose une condition sur V0 qui implique que Vn reste dans V + pour tout n. Le calcul de Vn peut tre men en forant 0 la valeur Vn (s) pour tous les tats rcurrents de la chane dnie par Pn . On montre alors que cet algorithme converge en un nombre ni ditrations vers V et . De mme, sous les hypothses LV0 V0 et V0 V , on montre que lalgorithme modi ditration sur les politiques converge vers une politique optimale. En pratique V0 = 0 est une condition sufsante.
MDP
Algorithme 1.7 : Algorithme ditration sur les politiques - Critre total - MDP positifs initialiser 0 D avec r0 0 n0 rpter calculer la solution minimale de Vn (s) = r(s, n (s)) +
s S
p(s | s, n (s))Vn (s ),
s S
pour s S faire n+1 (s) argmaxaA r(s, a) + (n+1 (s) = n (s) si possible) nn+1 jusqu n = n+1 retourner Vn , n+1
s S
p(s | s, a)Vn (s )
1.6.3.2. MDP ngatifs On montre que lalgorithme ditration sur les valeurs converge de manire monotone vers V pour toute condition initiale V V0 0. Par contre, ce nest pas le cas pour les algorithmes ditration sur les politiques, qui peuvent sarrter sur des politiques sous-optimales. Il en est de mme pour lalgorithme modi ditration sur les politiques. 1.6.4. Le critre moyen En ce qui concerne le critre moyen, de mme que pour le critre -pondr, on dispose de nombreux algorithmes de programmation dynamique pour calculer des politiques gain-optimales. On prsente ici les deux principaux, dans le cas simpli de MDP unichanes (toutes les politiques sont unichanes) pour lesquels le gain moyen est constant. Le test darrt est ici bas sur lemploi de la semi-norme span sur V : V V , span(V ) = maxsS V (s) minsS V (s). Contrairement V qui
47
mesure lcart de V 0, la semi-norme span(V ) mesure lcart de V un vecteur constant. 1.6.4.1. Algorithme ditration sur les valeurs relatives Lalgorithme 1.8 est un algorithme ditration sur les valeurs relatives U (s) = V (s) . Algorithme 1.8 : Algorithme ditration sur les valeurs relatives - Critre moyen initialiser U0 V choisir s S n0 rpter n+1 = maxaA r(s , a) + s S p(s | s , a)Un (s ) pour s S faire Un+1 (s) = maxaA r(s, a) + s S p(s | s, a)Un (s ) n+1 nn+1 jusqu span(Un+1 Un ) < pour s S faire (s) argmaxaA {r(s, a) + s p(s |s, a)Un (s )} retourner n , Un ,
Sous diffrentes hypothses techniques, on peut montrer sa convergence pour 0 vers une solution ( , V ) des quations doptimalit (1.5) et donc vers une politique optimale (voir [PUT 94], thorme 8.5.3). Pour un MDP unichane, cest le cas par exemple si p(s | s, a) > 0 pour tout s et a. 1.6.4.2. Algorithme modi ditration sur les politiques Lalgorithme 1.9 est un algorithme modi ditration sur les politiques, qui ne ncessite pas la rsolution de lquation (1.4) pour valuer la fonction de valeur relative. Pour lev, lalgorithme est quivalent litration sur les valeurs (non relative car on ne gre pas ici explicitement le revenu moyen n ). Pour proche de 0, on retrouve une itration sur les politiques classique. Sous les mmes conditions techniques prcdentes, on montre que cet algorithme converge pour tout vers une politique optimale pour 0. Plus prcisment, lorsque lalgorithme sarrte, on a
0 min(Vn (s) Vn (s)) n+1 max(V 0 (s) Vn (s)), sS sS
ce qui assure | n+1 | .
48
PDM en IA
Algorithme 1.9 : Algorithme modi ditration sur les politiques - Critre moyen initialiser V0 V f lag 0 n0 rpter pour s S faire n+1 (s) argmaxaA r(s, a) + s S p(s | s, a)Vn (s ) (n+1 (s) = n (s) si possible) 0 Vn (s) = maxaA r(s, a) + s S p(s | s, a)Vn (s ) m0 0 si span(Vn Vn ) < alors f lag 1 sinon rpter pour s S faire m+1 m Vn (s) = r(s, n+1 (s)) + s S p(s | s, n+1 (s))Vn (s ) mm+1 m+1 m jusqu span(Vn Vn )< m Vn+1 Vn nn+1 jusqu f lag = 1 retourner Vn , n+1
1.7. Conclusion et perspectives Le cadre des processus dcisionnels de Markov, avec les modles de dcision, critres doptimalit et algorithmes doptimisation que nous venons de prsenter constitue un outil mthodologique de base en intelligence articielle. Il est en particulier devenu incontournable pour concevoir et analyser les mthodes formelles dveloppes aujourdhui sur le thme de la dcision squentielle dans lincertain. Malgr sa gnralit, le cadre thorique que nous avons expos au cours de ce chapitre nest toutefois pas exempt de limites en termes thoriques. Tout dabord, ce cadre suppose de la part de lagent une parfaite connaissance des fonctions de transition et de rcompense qui dnissent le problme auquel il est confront. Nous verrons au chapitre 2 comment lapprentissage par renforcement permet de relcher cette hypothse. Par ailleurs, on suppose que lagent a directement accs son tat. Or, dans la plupart des situations o lon reprsente un agent en interaction avec son environnement, lagent ne dispose pas dun tel accs son tat, mais plutt des perceptions diffrencies qui le renseignent exhaustivement ou non sur sa situation vis--vis de son environnement. Nous verrons au chapitre 3 comment formaliser une observation partielle de ltat du monde. De mme, une autre limite formelle concerne le caractre
49
mono-agent du cadre des MDPs. De nombreux problmes requirent la modlisation de plusieurs agents voluant et agissant ensemble au sein du mme environnement. Nous prsenterons dans les chapitres 4 et 8 les travaux qui tendent les MDPs au cadre multi-agents. Enn, une autre limitation thorique du cadre des MDP provient de lexpression du critre optimiser, sous la forme de lesprance dune somme de rcompenses maximiser. Nous verrons alors dans le chapitre 5 comment il est possible dtendre les reprsentations de lincertitude et des prfrences de lagent dautres formalismes. Les utilisations de plus en plus nombreuses du cadre des MDP et de ses extensions voques ci-dessus pour aborder des problmes de dcision dans des domaines naliss varis, qui vont de la gestion indutrielle aux agro-cosystmes en passant par la robotique et les applications militaires, ont amen considrer de manire de plus en plus srieuse la question de lefcacit des algorithmes de rsolution proposs. Plusieurs chapitres de cet ouvrage seront ainsi consacrs des mthodes rcentes permettant de dpasser les limitations traditionnelles des algorithmes de programmation dynamique, dont les principales sont lapproximation de la fonction de valeur (chapitre 11), les reprsentations factorises (chapitre 9), loptimisation de politiques paramtres (chapitre 12) ou encore loptimisation de dcision en ligne (chapitre 10).
Chapitre 2
Apprentissage par renforcement
2.1. Introduction Par rapport aux mthodes de planication prsentes au chapitre 1, dans lesquelles lagent connat a priori la fonction de transition et la fonction de rcompense du problme dcisionnel de Markov auquel il est confront, les mthodes dapprentissage par renforcement permettent de traiter les situations dans lesquelles les fonctions de transition et de rcompense ne sont pas connues a priori. E XEMPLE. Reprenons lexemple de lentretien dune voiture abord dans lintroduction du chapitre prcdent (voir page 18). Si on doit maintenant faire lentretien dun modle de voiture que nous navons jamais rencontr prcdemment et qui nous est livre sans manuel technique, nous navons pas assez de connaissance pour modliser ce problme sous forme dun MDP. En effet, il se peut que cette voiture soit, par exemple, plus robuste aux fuites dhuile et donc nous ne connaissons pas les probabilits de panne dans ce cas. De mme, nous ne savons pas le prix des pices de rechange et il est donc impossible de connatre le cot dune action lavance. Une solution possible dans ce cas est dutiliser les mthodes dapprentissage par renforcement qui sappuient sur une succession dexpriences : en exprimentant, nous allons petit petit pouvoir estimer directement la valeur des actions, au sens de la fonction de valeur daction dcrite au chapitre prcdent, pour chaque tat de la voiture, sans forcment avoir apprendre les diffrentes probabilits de panne. Et cette estimation de la valeur des actions permettra nalement de choisir laction optimale en fonction de ltat de la voiture.
Chapitre rdig par Olivier S IGAUD et Frdrick G ARCIA.
52
PDM en IA
Le prsent chapitre est donc consacr au traitement de ce problme plus complexe que le prcdent.
2.1.1. Bref aperu historique
La prsentation adopte dans la suite de ce chapitre fait lobjet dune reconstruction a posteriori qui ne rend pas compte de lenchanement historique des ides. Avec un souci de clart des concepts, notre prsentation sappuiera sur louvrage de Sutton et Barto [SUT 98], qui constitue une synthse dune qualit telle quil est difcile de sen dmarquer. Cependant, avant den venir au cur de cette prsentation, nous donnons un bref aperu de la succession des tapes qui ont conduit la formulation actuelle des modles thoriques de lapprentissage par renforcement, en nous focalisant sur le dveloppement de modles informatiques.
La plupart des mthodes algorithmiques de lapprentissage par renforcement reposent sur des principes simples issus de ltude de la cognition humaine ou animale, comme par exemple le fait de renforcer la tendance excuter une action si ses consquences sont juges positives, ou encore de faire dpendre ce renforcement de la dure qui spare la rcompense de laction, ou de la frquence laquelle cette action a t teste. Cet arrire-plan psychologique a t prsent dans [SIG 04].
Les premiers travaux en informatique reprsentatifs du cadre de lapprentissage par renforcement datent approximativement de 1960. En 1961, Michie [MIC 61] dcrit un systme capable dapprendre jouer au morpion par essais et erreurs. Puis Michie et Chambers [MIC 68] crivent en 1968 un programme capable dapprendre maintenir un pendule invers lquilibre. Paralllement, Samuel [SAM 59] ralise un logiciel qui apprend jouer aux dames en utilisant une notion de diffrence temporelle. Les deux composantes, exploration par essais et erreurs et gestion de squences daction par diffrences temporelles vont tre au cur des modles ultrieurs. La synthse entre les deux courants est ralise par Klopf [KLO 72, KLO 75]. Dans la ligne de ces travaux, les principaux acteurs du dveloppement de lapprentissage par renforcement en informatique, Sutton et Barto, implmentent en 1981 [SUT 81] un perceptron linaire dont lquation de mise jour drive directement des thories dveloppes en psychologie exprimentale par Rescorla et Wagner [RES 72]. Jozefowiez fait trs clairement apparatre dans sa thse [JOZ 01] que lquation de RescorlaWagner, qui est dune importance considrable pour les modles de lapprentissage animal, nest rien dautre que la version approxime par un perceptron linaire de lalgorithme T D(0) prsent la section 2.4.1. Cette quivalence explique que le recours
53
aux algorithmes dapprentissage par renforcement soit aussi appel programmation neurodynamique 1. Sur ces bases, Sutton et Barto proposent en 1983 avec Anderson [BAR 83] une mthode, AHC- LEARNING 2, qui est considre comme le vritable point de dpart des travaux qui font lobjet de ce chapitre. De faon intressante, AHC- LEARNING repose sur une architecture acteur-critique dont nous verrons la section 2.4.5, quelle est au cur du dialogue qui sinstaure prsent entre la modlisation informatique et la modlisation neurophysiologique de lapprentissage par renforcement chez lanimal. La formalisation mathmatique des algorithmes dapprentissage par renforcement telle que nous la connaissons aujourdhui sest dveloppe partir de 1988 lorsque Sutton [SUT 88] puis Watkins [WAT 89] ont fait le lien entre leurs travaux et le cadre thorique de la commande optimale propose par Bellman en 1957 avec la notion de MDP [BER 95]. 2.2. Apprentissage par renforcement : vue densemble 2.2.1. Approximation de la fonction de valeur Le principe de lapprentissage par renforcement repose en premier lieu sur une interaction itre du systme apprenant avec lenvironnement, sous la forme de lexcution chaque instant n dune action an depuis ltat courant sn , qui conduit au nouvel tat sn et qui fournit la rcompense rn . Sur la base de cette interaction, une politique est petit petit amliore. En pratique toutefois, la plupart des algorithmes dapprentissage par renforcement ne travaillent pas directement sur la politique, mais passent par lapproximation itrative dune fonction de valeur, issue de la thorie des MDP prsente au chapitre prcdent. La notion de fonction de valeur, qui associe chaque tat possible une estimation de la valeur pour lagent de se situer en cet tat en fonction de lobjectif vis3, est fondamentale en apprentissage par renforcement. Elle permet de distinguer clairement lapprentissage par renforcement de toutes les autres mthodes doptimisation bases sur la simulation, comme les algorithmes gntiques [?], la programmation gntique [?], le recuit simul [?], etc. qui permettent aussi de construire des politiques
1. Plus prcisment, le terme neuro-dynamic programming dnit lensemble des techniques couplant programmation dynamique ou apprentissage par renforcement et mthodes de gnralisation [BER 96]. 2. Adaptive Heuristic Critic learning 3. Il sagit donc l dune notion similaire celle introduite en thorie des jeux sous le nom de fonction dvaluation.
54
PDM en IA
optimales, mais qui nexploitent pas pour cela la structure temporelle des problmes dcisionnels considrs, comme le fait lapprentissage par renforcement lchelle de lexprience (tat courant, action, rcompense, tat suivant). La plupart des mthodes de lapprentissage par renforcement que nous allons voir dans ce chapitre sont troitement lies aux algorithmes de programmation dynamique prsents au chapitre prcdent. En effet, le problme de dnir et de calculer des politiques optimales a t formalis dans le cadre des MDP depuis la n des annes 50, et lapprentissage par renforcement peut tre peru comme une simple extension des algorithmes classiques de programmation dynamique au cas o la dynamique du processus contrler nest pas connue a priori.
2.2.2. Mthodes directes et indirectes Les mthodes dapprentissage par renforcement sont dites indirectes ou directes selon que lon maintient ou non un modle explicite des fonctions de transition et de rcompense du MDP que lon cherche contrler. ce titre, les mthodes de programmation dynamique vues au chapitre prcdent peuvent tre considres comme des cas limites de mthodes indirectes, o le modle maintenu est le modle exact par hypothse. Lorsque le modle de la dynamique nest pas connu initialement, les mthodes indirectes doivent donc identier en ligne ce modle. Dans les cas discrets que nous considrons, cette identication se fait simplement par maximum de vraisemblance. Dautre part, il sagit de rechercher sur la base du modle courant une fonction de valeur ou une politique optimale. Il est alors possible dexploiter les algorithmes classiques de programmation dynamique. Les mthodes directes ne passent pas par lidentication dun modle de la dynamique du systme : les paramtres cachs p(s |s, a) et r(s, a) ne sont pas estims et seule la fonction de valeur est mise jour itrativement au cours du temps. Le principal avantage est ici en terme de place mmoire ncessaire et, historiquement, lapprentissage par renforcement revendiquait dtre une mthode directe. Ainsi, les algorithmes les plus classiques de lapprentissage par renforcement que nous prsentons ci-dessous partagent tous, chacun sa manire, le mme principe gnral qui est dapproximer partir dexpriences une fonction de valeur optimale V sans ncessiter la connaissance a priori dun modle du processus, et sans chercher estimer ce modle travers les expriences accumules. Plutt quune fonction V qui associe une valeur chaque tat, nous verrons que lon peut aussi chercher approximer une fonction Q qui associe une valeur chaque action ralise dans chaque tat.
55
2.2.3. Apprentissage temporel, non supervis et par essais et erreurs Quelques caractristiques permettent de distinguer lapprentissage par renforcement des autres formes dapprentissage. En informatique, on distingue dune part lapprentissage dit supervis , dans lequel un instructeur indique lapprenant quelle rponse il aurait d fournir dans un contexte donn et, dautre part, lapprentissage dit non supervis , dans lequel lapprenant doit identier par lui-mme la meilleure rponse possible. Dans le cadre de lapprentissage supervis, la meilleure rponse possible est fournie lapprenant si bien quil na pas besoin de la rechercher. Cest le cas, par exemple, avec lalgorithme de rtro-propagation du gradient dans les rseaux de neurones couches [?]. Lapprentissage par renforcement se distingue de lapprentissage supervis par le fait que, lorsquil reoit un premier signal dvaluation, lapprenant ne sait toujours pas si la rponse quil a donne est la meilleure possible ; il doit essayer dautres rponses pour dterminer sil peut recevoir une meilleure valuation. Parmi les mthodes dapprentissage non supervis, il faut distinguer les mthodes dans lesquelles lapprentissage se fait sans valuation, par exemple en mmorisant simplement des associations observes, et les mthodes dans lesquelles une valuation est fournie lapprenant, comme cest le cas pour lapprentissage par renforcement. Lapprentissage par renforcement est donc une forme dapprentissage non supervis reposant sur une valuation. La prsence de cette valuation implique un mode de fonctionnement par essais et erreurs. Enn, lapprentissage par renforcement porte sur des squences temporelles. Lorsque lon cherche classer des donnes dcrivant des iris, mme si le processus dapprentissage est itratif (le professeur fournit des exemples lun aprs lautre), le temps ne change rien laffaire, au sens o lordre dans lequel sont prsents les exemples importe peu. Au contraire, en apprentissage par renforcement, tout choix dune action excute dans un tat a des consquences plus ou moins long terme et la donne de la rcompense immdiate nest rien sans les autres donnes qui correspondent la suite de linteraction entre lagent et lenvironnement. On peut en effet tre confront des rcompenses retardes et les mthodes de lapprentissage par renforcement offrent des outils permettant de grer cette difcult. Ds lors, alors que lapprentissage par simple mmorisation des associations observes peut se faire directement, lapprentissage par renforcement induit par nature une activit dexploration de la part de lagent. Il faut que cet agent explore son environnement pour dterminer dans quelles circonstances il est puni ou rcompens et quelles sont les squences daction qui lui permettent datteindre les rcompenses plutt que les punitions. Cette ncessit dexplorer est la source de la prsence dans tous les travaux dapprentissage par renforcement du dilemme pos par le compromis entre exploration et exploitation.
56
PDM en IA
2.2.4. Le dilemme exploration/exploitation Pour rgler la politique de faon maximiser sa rcompense sur le long terme, la phase dapprentissage se trouve confronte la ncessit de trouver un compromis entre lexploitation, qui consiste refaire les actions dont on connat dj la rcompense laquelle elles donnent lieu, et lexploration, qui consiste parcourir de nouveaux couples (tat, action) la recherche dune rcompense cumule plus grande, mais au risque dadopter parfois un comportement sous-optimal. En effet, tant que lagent na pas explor la totalit de son environnement, il nest pas certain que la meilleure politique quil connat est la politique optimale. En consquence, toutes les preuves de convergence des algorithmes dapprentissage par renforcement exigent en thorie que toutes les transitions soient exprimentes [WAT 92]. En pratique, toutefois, on se contente dune exploration partielle qui suft en gnral dcouvrir une politique satisfaisante. Lexploration peut porter sur le choix de ltat sn ou sur celui de laction an . La plupart du temps, le choix le plus naturel concernant sn est de poser chaque itration sn+1 = sn , cest--dire de laisser la dynamique du systme le soin de grer lexploration de lespace dtats. Dune part, cela permet de se concentrer sur les zones importantes de lespace dtats, acclrant ainsi la convergence (cest aussi une des raisons de lefcacit dalgorithmes comme RTDP, dcrit chapitre 10). Dautre part, cest souvent ncessaire du fait de la structure des systmes sur lesquels est ralis lapprentissage. Par exemple, dans un contexte robotique, on ne matrise pas le choix de ltat suivant. Il est clair toutefois que lorsque sn est un tat absorbant, cest-dire un tat dans lequel le systme reste une fois quil y est entr, il est ncessaire de rinitialiser le processus en tirant par exemple au hasard un nouvel tat sn+1 dans S . La seconde heuristique concerne le choix de laction an . Une action choisie uniformment dans A chaque itration satisfait bien le critre de convergence, avec une exploration maximale, mais un tel choix est peu efcace pour deux raisons. Tout dabord, la valeur de la meilleure action en chaque tat tant aussi souvent mise jour que la valeur de la plus mauvaise action, lapprentissage se fait srement mais trs lentement. Dautre part, les rcompenses accumules au cours de lapprentissage sont ncessairement moyennes, ce qui peut tre inacceptable lorsque cet apprentissage est en prise avec le systme dynamique rel et non simul. Inversement, le choix chaque itration de laction an correspondant la politique optimale courante (on parle daction gloutonne 4 et de politique gloutonne 5), nest pas non plus satisfaisant, car il conduit gnralement soit une politique sous-optimale, soit la divergence de lalgorithme.
4. greedy-action 5. greedy-policy
57
Ainsi, les algorithmes dapprentissage par renforcement retiennent un compromis entre exploration et exploitation qui consiste suivre la politique optimale courante la plupart du temps, tout en choisissant plus ou moins rgulirement une action alatoire pour an . Comme le dit lgamment Jozefowiez [JOZ 01], compte tenu de la ncessit de cette exploration plus ou moins alatoire, la rsolution dun problme dapprentissage par renforcement reste un art plutt quune science. Plusieurs mthodes de choix de an ont t proposes, que lon classe en deux catgories dites diriges ou non-diriges [THR 92]. Les mthodes non-diriges utilisent peu dinformation issues de lapprentissage autre que la fonction de valeur elle-mme. Citons par exemple [BER 96, KAE 98] : sur un intervalle de N1 itrations, suivre la meilleure politique connue, puis sur N2 itrations, tirer uniformment an dans A ; les mthodes -greedy, qui consistent utiliser chaque itration un tirage semiuniforme, qui consiste suivre la meilleure politique connue avec une probabilit 1 , ou tirer uniformment an dans A avec une probabilit , et [0, 1] ; les mthodes softmax, qui consistent tirer an dans A selon une distribution de Boltzmann, la probabilit associe laction a tant pT (a) =
Qn (sn ,a) ) T Qn (sn ,a ) ) a exp( T
exp(
avec limn T = 0 o Qn (s, a) reprsente la fonction de valeur associe la ralisation de laction a dans ltat s. Ces diffrentes fonctions dexploration font intervenir des paramtres (N1 , N2 , et T ) qui contrlent le degr dexploration dans le choix de an . Par exemple, si N1 = 0, T trs grand ou = 1, lalgorithme dapprentissage parcourt uniformment toutes les actions. Les cas utiles en pratique sont pour N1 > 0, T < + et < 1, qui assurent exprimentalement une convergence beaucoup plus rapide. La mthode de la roue de la fortune 6 est un cas particulier de mthode softmax dans laquelle le facteur T de temprature est constant au lieu de dcrotre. Les mthodes diriges utilisent pour leur part des heuristiques propres au problme de lexploration, en se basant sur des informations acquises au cours de lapprentissage. La plupart de ces mthodes reviennent ajouter la valeur Q(s, a) dune action dans un tat un bonus dexploration [MEU 96]. Ce bonus peut tre local comme dans
6. roulette wheel selection
58
PDM en IA
la mthode de lestimation dintervalle 7 [?], ou propag dtat tat au cours de lapprentissage [?]. Des dnitions simples de ce bonus dexploration conduisent des rsultats intressants : la recency-based method : le bonus est gal nsa o nsa reprsente le nombre ditrations parcourues depuis la dernire excution de laction a dans ltat s, et o est une constante infrieure 1 ; la mthode de luncertainty estimation : le bonus est gal nc , o c est une sa constante et nsa reprsente le nombre de fois o laction a a dj t choisie dans ltat s. Ces diffrentes mthodes dexploration peuvent tre utilises indiffremment quel que soit lalgorithme dapprentissage par diffrence temporelle auquel on fait appel. En effet, pour tous les algorithmes de diffrence temporelle que nous allons prsenter dans la suite, si lhypothse de Markov est vrie et si lon parcourt tous les tats un nombre inni de fois, alors les valeurs V (st ) ou les qualits des actions Q(st , at ) convergent vers les valeurs optimales. Notons quau sein dun algorithme dapprentissage par renforcement, il est ncessaire de distinguer la politique dexploration simule chaque itration, qui est une politique alatoire et la meilleure politique courante, qui est markovienne dterministe et qui tend vers une politique optimale . Enn, nous verrons la section 2.5.2 quil existe dans le cadre de lapprentissage par renforcement indirect des mthodes dexploration rcentes dots dune preuve de convergence en fonction polynomiale de la taille du problme. 2.2.5. Des mthodes incrmentales fondes sur une estimation Il existe trois classes dalgorithme doptimisation du comportement : Les algorithmes de programmation dynamique sappliquent dans le cas o lagent dispose dun modle de son environnement, cest--dire lorsque les fonctions de transition p et de rcompense r sont connues a priori. Elles peuvent aussi sappliquer dans le cas o lon cherche apprendre le modle, donc dans le cadre des mthodes indirectes. Nous y reviendrons la section 2.5.1. Les mthodes de programmation dynamique prsentent lavantage dtre incrmentales. On peut raliser des itrations successives qui convergent peu peu vers la fonction de valeur optimale, ce qui permet dagir sans attendre de raliser toutes
7. interval estimation
59
les itrations. Par contre, elles exigent une connaissance parfaite de la fonction de transition et de la fonction de rcompense du MDP associ. Les mthodes de Monte Carlo prsentent les avantages et inconvnients opposs. Elles ne prsupposent aucune connaissance a priori du problme de dcision markovien rsoudre, mais elles ne sont pas incrmentales. Les mthodes de diffrence temporelle reposent sur une estimation incrmentale du modle de lenvironnement. Comme les mthodes de Monte Carlo, elles ralisent cette estimation sur la base de lexprience de lagent et se passent ainsi dun modle du monde. Nanmoins, elles combinent cette estimation avec des mcanismes de propagation locale destimation des valeurs tires de la programmation dynamique, ce qui leur permet de conserver un caractre incrmental. Les mthodes de diffrence temporelle, qui constituent le cur de lapprentissage par renforcement proprement dit, se caractrisent donc par cette combinaison du recours lestimation avec des proprits dincrmentalit. Les mthodes de programmation dynamique ont dj t prsentes au chapitre prcdent. Nous consacrons la section suivante aux mthodes de Monte Carlo, avant de nous tourner la section 2.4 vers les mthodes de diffrence temporelle. 2.3. Mthodes de Monte Carlo 2.3.1. Prliminaires gnraux sur les mthodes destimation Nous avons vu au chapitre prcdent quil existait des mthodes de rsolution de lquation doptimalit de Bellman qui rclamaient de calculer chaque itration la fonction de valeur associe la politique courante (algorithmes de policy iteration). Ces algorithmes de programmation dynamique ncessitant la connaissance des probabilits de transition et des fonctions de rcompense, des mthodes ont t dveloppes permettant destimer au mieux la fonction de valeur V dune politique xe, sur la base des seules transitions simules en suivant cette politique. Ces algorithmes dapprentissage dune fonction de valeur peuvent alors tre utiliss au sein de mthodes directes en apprentissage par renforcement. Pour des raisons de clart, nous nous plaons prsent dans le cas dun MDP et dune politique telle que la chane de Markov associe p(st+1 |st ) = p(st+1 |st , (st )) conduise pour tout tat initial vers un tat terminal T absorbant de rcompense nulle. On considre donc le critre total et on cherche estimer V (s) = E ( 0 rt | s0 = s) partir des seules observations (st , st+1 , rt ). Une faon simple de raliser cette estimation consiste simuler des trajectoires partir de chacun des tats s jusqu ltat terminal T . Si lon note Rk (s) la somme cumule obtenue le long de la trajectoire k en suivant la politique , alors une estimation
60
PDM en IA
de la fonction de valeur V en s aprs k + 1 trajectoires est donne par : s S, Vk+1 (s) = R1 (s) + R2 (s) + ... + Rk (s) + Rk+1 (s) k+1 (2.1)
Pour ne pas avoir stocker chacune des Rk reues, on montre trs simplement quun tel calcul peut se reformuler de manire incrmentale : s S, Vk+1 (s) = Vk (s) + 1 [Rk+1 (s) Vk (s)] k+1 (2.2)
Pour calculer Vk+1 (s), il suft donc de stocker Vk (s) et k . Plutt que de stocker le nombre k dexpriences ralises, on utilise gnralement une formule destimation encore plus gnrique : s S, Vk+1 (s) = Vk (s) + [Rk+1 (s) Vk (s)] qui, pour bien choisi, vrie
k
(2.3)
lim Vk (s) = V (s)
(2.4)
Nous retrouverons cette mthode destimation incrmentale dans les mthodes de diffrence temporelle. 2.3.2. Les mthodes de Monte Carlo Pour rsoudre un problme de planication en utilisant la programmation dynamique dans le cas o lon ne connat pas a priori les fonctions de transition p() et de rcompense r(), lapproche indirecte de type maximum de vraisemblance qui consiste estimer les paramtre p() et r() puis calculer V en rsolvant lquation V = L V (avec ici = 1) est gnralement trop coteuse, en temps et en espace. On lui prfre classiquement lapproche dite de Monte Carlo, qui revient simuler un grand nombre de trajectoires issues de chaque tat s de S , et estimer V (s) en moyennant les cots observs sur chacune de ces trajectoires. chaque exprience ralise, lagent mmorise les transitions quil a effectues et les rcompenses quil a reues. Il met alors jour une estimation de la valeur des tats parcourus en associant chacun deux la part de la rcompense reue qui lui revient. Au l de ces expriences, la valeur estime associe chaque tat converge alors vers la valeur exacte de ltat pour la politique quil suit. Lapport principal des mthodes de Monte Carlo rside donc dans la technique qui permet destimer la valeur dun tat sur la base de la rception de plusieurs valeurs
61
successives de rcompense cumule associes cet tat lors de trajectoires distinctes. On sappuie alors sur la mthode destimation prsente la section 2.3.1. Soit ainsi (s0 , s1 , . . . , sN ) une trajectoire gnre en suivant la probabilit de transition inconnue p(), et (r0 , r1 , . . . , rN 1 ) les rcompenses observes au cours de cette trajectoire (sN est ltat terminal T de rcompense nulle). Le principe de la mthode de Monte Carlo est de mettre jour les N valeurs V (sk ), k = 0, . . . , N 1, selon : V (sk ) V (sk ) + (sk )(rk + rk+1 + + rN 1 V (sk )) (2.5)
avec les taux dapprentissage (sk ) tendant vers 0 au cours des itrations. La convergence presque sre de cet algorithme vers la fonction V est assure sous des hypothses gnrales [BER 96]. Cette mthode est qualie devery-visit car la valeur dun tat peut tre mise jour plusieurs fois le long dune mme trajectoire. Les termes derreur associs chacune de ces mises jours ne sont alors pas indpendants, entranant un biais non nul dans lestimation de la fonction V sur la base dun nombre ni de trajectoires [BER 96, page 190]. Une solution simple ce problme de biais consiste alors ne mettre jour la valeur V (s) dun tat que lors de sa premire rencontre le long de la trajectoire observe. Cela dnit la mthode dite de rst-visit, qui conduit un estimateur non-biais de la fonction V . Exprimentalement, lerreur quadratique moyenne de la mthode rst-visit tend tre infrieure celle de la mthode every-visit [SIN 96]. Les mthodes de Monte Carlo permettent donc destimer la fonction de valeur dune politique en mettant jour certaines de ses composantes la n de chaque trajectoire observe. Ces mthodes exigent pour fonctionner quun grand nombre de contraintes soient remplies. En particulier, il est indispensable que lapprentissage soit dcompos en une succession dpisodes de longueur nie, faute de quoi la mise jour de lestimation de la valeur des tats ne peut pas avoir lieu. Le fait quil faille attendre la n dune exprience pour apprendre quoi que ce soit justie lafrmation selon laquelle ces mthodes ne sont pas incrmentales. Il est toutefois possible damliorer ces algorithmes en autorisant la mise jour de la fonction de valeur non plus la n de chaque trajectoire, mais la suite de chaque transition du systme. Nous dveloppons ici cette rcriture, dont le principe est la base des mthodes de diffrence temporelle. La rgle de mise jour (2.5) de la fonction V peut tre rcrite de la manire suivante (le terme vaut 1, il est introduit dans les quations pour faire ressortir les
62
PDM en IA
relations avec lerreur de diffrence temporelle utilise dans les mthodes de diffrence temporelle ; par ailleurs, nous utilisons la proprit V (sN ) = V (T ) = 0) : V (sk ) V (sk ) + (sk ) (rk + V (sk+1 ) V (sk )) +(rk+1 + V (sk+2 ) V (sk+1 )) + +(rN 1 + V (sN ) V (sN 1 )) soit encore V (sk ) V (sk ) + (sk )(k + k+1 + + N 1 ) en dnissant la diffrence temporelle k par k = rk + V (sk+1 ) V (sk ), k = 0, . . . , N 1 (2.6)
Le terme k 8 est appel erreur de diffrence temporelle 9 [SUT 88]. Cette erreur k peut tre interprte en chaque tat comme une mesure de la diffrence entre lestimation courante V (sk ) et lestimation corrige un coup rk + V (sk+1 ). Son calcul est possible ds que la transition (sk , sk+1 , rk ) a t observe, et cela conduit donc une version on-line de la rgle de mise jour (2.6) o il nest plus ncessaire dattendre la n de la trajectoire pour commencer modier les valeurs de V : V (sl ) V (sl ) + (sl )k , l = 0, . . . , k (2.7) ds que la transition (sk , sk+1 , rk ) est simule et lerreur k calcule. Selon quune trajectoire peut parcourir plusieurs fois le mme tat ou non, cette version on-line peut lgrement diffrer de lalgorithme original (2.6). Toutefois sa convergence presque sre vers V reste valide. L encore, une approche de type rst-visit semble prfrable en pratique [SIN 96].
2.4. Les mthodes de diffrence temporelle Nous allons nous tourner prsent vers les mthodes de diffrence temporelle, qui combinent lincrmentalit de la programmation dynamique avec le recours lexprience des mthodes de Monte Carlo.
8. On trouve parfois k = rk+1 + V (sk+1 ) V (sk ), k = 0, . . . , N 1, si lon note rk+1 plutt que rk la rcompense reue lors du passage de ltat sk ltat sk+1 . 9. temporal difference error
63
2.4.1. Lalgorithme TD(0) Nous avons vu au chapitre prcdent quil existait plusieurs critres possibles pour reprsenter la performance que lagent doit maximiser sur le long terme. Historiquement, le critre qui a donn lieu aux dveloppements les plus importants est le critre dit -pondr . Tous les algorithmes que nous allons prsenter dans cette section, qui sont les algorithmes les plus classiques de lapprentissage par renforcement, sappliquent dans le cadre de ce critre. Lalgorithme lmentaire dapprentissage par renforcement, dit algorithme de diffrence temporelle sappelle TD 10. Nous le notons ici TD(0) pour des raisons qui apparatront quand nous prsenterons les traces dligibilit. Cet algorithme repose sur une comparaison entre la rcompense que lon reoit effectivement et la rcompense que lon sattend recevoir en fonction des estimations construites prcdemment. Si les estimations des fonctions de valeur aux tats st et st+1 , notes V (st ) et V (st+1 ), taient exactes, on aurait : V (st ) V (st+1 ) Donc on aurait : V (st ) = rt + V (st+1 ) (2.10) = rt + rt+1 + 2 rt+2 + 3 rt+3 + ... = rt+1 + rt+2 + 2 rt+3 + ... (2.8) (2.9)
On voit que lerreur de diffrence temporelle k mesure lerreur entre les valeurs effectives des estimations V (s) et les valeurs quelles devraient avoir. La mthode de diffrence temporelle consiste corriger peu peu cette erreur en modiant la valeur de V (st ) selon une quation de type Widrow-Hoff, que lon utilise dans le domaine des rseaux de neurones : V (st ) V (st ) + [rt + V (st+1 ) V (st )] (2.11)
Cette quation de mise jour permet de comprendre immdiatement comment les algorithmes de diffrence temporelle combinent les proprits de la programmation dynamique avec celles des mthodes de Monte Carlo. En effet, elle fait apparatre les deux caractristiques suivantes :
10. Temporal Difference
64
PDM en IA
comme dans les algorithmes de programmation dynamique, la valeur estime de V (st ) est mise jour en fonction de la valeur estime de V (st+1 ). Il y a donc propagation de la valeur estime ltat courant partir des valeurs estimes des tats successeurs ; comme dans les mthodes de Monte Carlo, chacune de ces valeurs rsulte dune estimation locale des rcompenses immdiates qui repose sur lexprience accumule par lagent au l de ses interactions avec son environnement. On voit donc que les mthodes de diffrence temporelle et, en particulier, TD(0), reposent sur deux processus de convergence coupls, le premier estimant de plus en plus prcisment la rcompense immdiate reue dans chacun des tats et le second approchant de mieux en mieux la fonction de valeur rsultant de ces estimations en les propageant de proche en proche. Dans le cas de TD(0), les mises jour se font localement chaque fois que lagent ralise une transition dans son environnement, partir dune information se limitant son tat courant st , ltat successeur st+1 et la rcompense rt reue suite cette transition. Une preuve de convergence de lalgorithme a t propose par Dayan et Sejnowski [DAY 94]. Par contre, il faut noter que, comme TD(0) estime la fonction de valeur de chacun des tats dun problme, faute dun modle des transitions entre les tats, lagent est incapable den dduire quelle politique suivre, car il ne peut raliser un pas de regard en avant pour dterminer quelle est laction qui lui permettra de rejoindre ltat suivant de plus grande valeur. Ce point explique que lon prfre avoir recours aux algorithmes qui travaillent sur une fonction de valeur associe aux couples (tat, action) plutt qu ltat seul. Ce sont ces algorithmes que nous allons prsenter dans ce qui suit. Nous verrons ensuite lapproche alternative propose par les architectures acteur-critique, consistant travailler directement sur une politique que lon cherche amliorer itrativement au l de lexprience. 2.4.2. Lalgorithme S ARSA Comme nous venons de lexpliquer, la forme de lquation de Bellman V = LV nest pas satisfaisante pour en driver directement un algorithme adaptatif de rsolution. Pour cela, Watkins [WAT 89] a introduit la fonction de valeur Q, dont la donne est quivalente celle de V lorsquon connat la fonction de transition p. Dnition 1 (Fonction de valeur Q) une politique xe de fonction de valeur V , on associe la nouvelle fonction s S, a A Q (s, a) = r(s, a) +
s
p(s |s, a)V (s ).
65
Linterprtation de la valeur Q (s, a) est la suivante : cest la valeur espre du critre pour le processus partant de s, excutant laction a, puis suivant la politique par la suite. Il est clair que V (x) = Q (x, (x)), et lquation de Bellman vrie par la fonction Q devient : s S, a A Q (s, a) = r(s, a) +
s
p(s |s, a) max Q (s , b)

b
On a alors V (s) (s)
s S
= =
max Q (s, a)
a
argmax Q (s, a)
a
Lalgorithme S ARSA est similaire lalgorithme TD(0) ceci prs quil travaille sur les valeurs des couples (s, a) plutt que sur la valeur des tats. Son quation de mise jour est identique celle de TD(0) en remplaant la fonction de valeur par la fonction de valeur daction : Q(sn , an ) Q(sn , an ) + [rn + Q(sn+1 , an+1 ) Q(sn , an )] (2.12)
Linformation ncessaire pour raliser une telle mise jour alors que lagent ralise une transition est le quintuplet (sn , an , rn , sn+1 , an+1 ), do dcoule le nom de lalgorithme. Effectuer ces mises jour implique que lagent dtermine avec un pas de regard en avant quelle est laction an+1 quil ralisera lors du pas de temps suivant, lorsque laction an dans ltat sn laura conduit dans ltat sn+1 . Il rsulte de cette implication une dpendance troite entre la question de lapprentissage et la question de la dtermination de la politique optimale. Dans un tel cadre, il nexiste quune seule politique, qui doit prendre en compte la fois les proccupations dexploration et dexploitation, et lagent est contraint de raliser cet apprentissage uniquement sur la base de la politique quil suit effectivement. On dit dun algorithme tel que S ARSA quil est on-policy . La dpendance que cela induit entre lexploration et lapprentissage complique considrablement la mise au point de preuves de convergences pour ces algorithmes, ce qui explique que de telles preuves de convergence soient apparues beaucoup plus tard [SIN 00] que pour les algorithmes dits off-policy tels que Q-learning, que nous allons voir prsent.
66
PDM en IA
2.4.3. Lalgorithme Q-learning Lalgorithme Q-learning se prsente comme une simplication de lalgorithme S ARSA par le fait quil nest plus ncessaire pour lappliquer de dterminer un pas de temps lavance quelle sera laction ralise au pas de temps suivant. Son quation de mise jour est la suivante : Q(sn , an ) Q(sn , an ) + [rn + max Q(sn+1 , a) Q(sn , an )]
a
(2.13)
La diffrence essentielle entre S ARSA et Q-learning se situe au niveau de la dnition du terme derreur. Le terme Q(sn+1 , an+1 ) apparaissant dans lquation (2.12) a t remplac par le terme maxa Q(sn+1 , a) dans lquation (2.13). Cela pourrait sembler quivalent si la politique suivie tait gloutonne (on aurait alors an+1 = arg maxa Q(sn+1 , a)). Toutefois, compte tenu de la ncessit de raliser un compromis entre exploration et exploitation, ce nest gnralement pas le cas. Il apparat donc que lalgorithme S ARSA effectue les mises jour en fonction des actions choisies effectivement alors que lalgorithme Q-learning effectue les mises jour en fonction des actions optimales mmes si ce ne sont pas ces actions optimales que lagent ralise, ce qui est plus simple. Cette simplicit a fait la rputation de lalgorithme Q-learning. Il sagit sans doute de lalgorithme dapprentissage par renforcement le plus connu et le plus utilis en raison des preuves formelles de convergence qui ont accompagn sa publication [WAT 92]. Algorithme 2.1 : Le Q-learning
/* n est un taux d'apprentissage Initialiser(Q0 ) pour n 0 jusqu Ntot 1 faire sn ChoixEtat an ChoixAction (sn , rn ) Simuler(sn , an ) { mise jour de Qn :} dbut Qn+1 Qn n rn + maxb Qn (sn , b) Qn (sn , an ) Qn+1 (sn , an ) Qn (sn , an ) + n (sn , an )n n retourner QNtot
*/
Le principe de lalgorithme Q-learning, dni formellement par lalgorithme 2.1, est de mettre jour itrativement, la suite de chaque transition (sn , an , sn+1 , rn ),
67
la fonction de valeur courante Qn pour le couple (sn , an ), o sn reprsente ltat courant, an laction slectionne et ralise, sn ltat rsultant et rn la rcompense immdiate. Cette mise jour se fait sur la base de lobservation des transitions instantanes et de leur rcompense associe. Dans cet algorithme, Ntot est un paramtre initial xant le nombre ditrations. Le taux dapprentissage n (s, a) est propre chaque paire tat-action, et dcrot vers 0 chaque passage. La fonction Simuler retourne un nouvel tat et la rcompense associe selon la dynamique du systme. Le choix de ltat courant et de laction excuter est effectu par les fonctions ChoixEtat et ChoixAction et sera discut plus loin. La fonction Initialiser revient la plupart du temps initialiser les composantes de Q0 0, mais il existe des initialisations plus efcaces. Il est immdiat dobserver que lalgorithme Q-learning est une formulation stochastique de lalgorithme de value iteration vu au chapitre prcdent pour les MDP. En effet, ce dernier peut sexprimer directement en terme de fonction de valeur daction :
Qn (s,a)
Vn+1 (s) = maxaA
r(s, a) +
s S s S
p(s |s, a)Vn (s ) p(s |s, a)Vn+1 (s )
Qn+1 (s, a) = r(s, a) + Qn+1 (s, a) = r(s, a) +

s S
p(s |s, a) maxa A Qn (s , a )
Le Q-learning est alors obtenu en remplaant le terme r(s, a) + s p(s |s, a) maxa A Qn (s , a ) par son estimateur sans biais le plus simple construit partir de la transitition courante rn + maxa Qn (sn , a ). La convergence de cet algorithme est tablie [WAT 89, JAA 94a] (la fonction Qn converge presque srement vers Q ) sous les hypothses suivantes : nitude de S et A, chaque paire (s, a) est visite un nombre inni de fois,
n
n (s, a) = et
2 n (s, a) < ,
< 1 ou si = 1 pour toute politique il existe un tat absorbant de rcompense nulle. Rappelons que cette convergence presque sre signie que s, a la suite Qn (s, a) converge vers Q (s, a) avec une probabilit gale 1. En pratique, la suite n (s, a) est souvent dnie comme n (s, a) = n1 . sa
68
PDM en IA
2.4.4. Les algorithmes TD(), Sarsa() et Q()
0.9
0.81 0.9
Figure 2.1. Q-learning : premier et deuxime essai. On observe que, toutes les valeurs tant initialement nulles, la propagation de valeurs non nulles ne se fait quune fois que lagent a trouv une premire fois la source de rcompense et ne progresse que dun pas chaque essai de lagent.
Les algorithmes TD(0), S ARSA et Q-learning prsentent le dfaut de ne mettre jour quune valeur par pas de temps, savoir la valeur de ltat que lagent est en train de visiter. Comme il apparat sur la gure 2.1, cette procdure de mise jour est particulirement lente. En effet, pour un agent ne disposant daucune information a priori sur la structure de la fonction de valeur, il faut au moins n expriences successives pour que la rcompense immdiate reue dans un tat donn soit propage jusqu un tat distant du premier de n transitions. En attendant le rsultat de cette propagation, tant que toutes les valeurs sont identiquement nulles, le comportement de lagent est une marche alatoire. Une faon damliorer cet tat de fait consiste doter lalgorithme dune mmoire des transitions effectues au cours dune exprience an deffectuer toutes les propagations possibles la n de cette exprience. Cette mmoire des transitions effectues prcdemment est appele une trace dligibilit. Ainsi, Sutton et Barto [SUT 98] ont propos une classe dalgorithmes appels TD() qui gnralisent lalgorithme TD(0) au cas o lagent dispose dune mmoire des transitions. Plus tard, les algorithmes S ARSA et Q-learning ont t gnraliss en S ARSA () et Q(), le second layant t de deux faons diffrentes par deux auteurs diffrents [WAT 92, PEN 96]. Un premier procd naf pour acclrer lapprentissage consiste stocker directement une liste des couples (tat, action) parcourus par lagent puis, chaque fois que lagent reoit une rcompense, propager celle-ci en parcourant la mmoire des transitions en marche arrire depuis la rcompense reue. Avec un tel procd, plus la mmoire des transitions est longue, plus une rcompense reue est propage efcacement. Il apparat donc un compromis entre la quantit de mmoire mobilise pour apprendre et la vitesse dapprentissage. Mais une telle mthode ne fonctionne pas sur un horizon inni.
69
La mthode mise en uvre dans TD(), S ARSA () et Q() est plus sophistique et fonctionne pour des horizons innis. Nous discuterons la section 2.5.1, page 78, une autre solution qui permet deffectuer plusieurs mises jour chaque pas de temps, dans le cadre de lapprentissage par renforcement indirect. Nous commenons par examiner de plus prs les algorithmes TD(), S ARSA () et Q().
2.4.5. Les architectures acteur-critique Historiquement, les architectures acteur-critique ont t les premires architectures informatiques imagines par des chercheurs pour modliser lapprentissage par renforcement [WIT 77, BAR 83]. Nous avons dit que, dans TD(0), on met jour la fonction de valeur en se fondant sur lerreur de diffrence temporelle t = rt+1 + V (st+1 ) V (st ) mais, si on ne dispose pas dun modle de la fonction de transition, on ne sait pas comment exploiter la fonction de valeur pour choisir une action. La solution propose par les architectures acteur-critique consiste tenir jour en parallle une structure reprsentant la fonction de valeur, appele le critique , et une structure reprsentant la politique, appele lacteur . Le critique est ncessaire pour calculer la valeur de t , qui dpend de la fonction de valeur. Mais le terme t est aussi utilis pour mettre jour la politique. Si ce terme est positif, laction ralise mrite dtre renforce. Sil est ngatif, au contraire, il faut diminuer la tendance de lacteur raliser cette action. Cette spcication est trs gnrale, elle impose trs peu de contraintes sur les formalismes de reprsentation respectifs de lacteur et du critique. La seule contrainte forte est que lacteur soit capable de prendre en compte le signal derreur t pour modier sa propension raliser telle ou telle action dans un contexte donn. Quant au critique, tout formalisme capable de fournir une approximation de la fonction de valeur fait laffaire. Cependant, un grand nombre darchitectures acteur-critique sappuient sur des rseaux de neurones formels, en raison de la relative plausibilit biologique de cette architecture. Le terme t vient alors modier le poids des connexions qui gouvernent la propension dun rseau raliser telle ou telle action.
2.4.6. Diffrences temporelles avec traces dligibilit : TD() Loriginalit de TD() est de proposer un compromis entre les deux quations (2.6) et (2.7) prsentes dans le cadre de lalgorithme de Monte Carlo itratif. Soit donc
70
PDM en IA
[0, 1] un paramtre de pondration. Avec les mmes notations que prcdemment, lalgorithme TD() dni par Sutton [SUT 88] est le suivant :
m=N 1
V (sk ) V (sk ) + (sk )

m=k
mk m ,
k = 0, . . . , N 1
(2.14)
On peut essayer de mieux comprendre le rle du coefcient en rcrivant lquation (2.14) sous la forme
V (sk ) V (sk ) + (sk )(zk V (sk ))
On a alors
m=N 1 zk
= V (sk ) +
m=k
mk m
m=N 1
= V (sk ) + k +
m=k+1
mk1 m
= V (sk ) + k + (zk +1 V (sk+1 )) = V (sk ) + rk + V (sk+1 ) V (sk ) + (zk +1 V (sk+1 )) = rk + (zk +1 + (1 )V (sk+1 ))
Dans le cas o = 0, il est clair que cela revient ne considrer quun horizon unitaire, comme dans le cadre de la programmation dynamique. On retrouve donc TD(0). Si = 1, lquation (2.14) se rcrit
m=N 1
V (sk ) V (sk ) + (sk )

m=k
m ,
k = 0, . . . , N 1,
ce qui est exactement lquation (2.5) de la mthode de Monte Carlo. Pour tout , les deux approches de type rst-visit ou every-visit peuvent tre considres. De mme, une version on-line de lalgorithme dapprentissage TD() dcrit par lquation (2.14) est possible : V (sl ) V (sl ) + (sl )kl k , l = 0, . . . , k (2.15)
71
ds que la transition (sk , sk+1 , rk ) est simule et lerreur k calcule. Lapplication du TD() pour lvaluation dune politique selon le critre pondr entrane certaines modications des algorithmes standards (2.14) ou (2.15), quil est ncessaire de citer ici. Un calcul en tout point semblable au cas = 1 conduit une rgle du type :
m=
V (sk ) V (sk ) + (sk )

m=k
()mk m
(2.16)
Il est alors clair que labsence potentielle dtats naux absorbants rend inadquate un algorithme de type off-line ne mettant jour la fonction de valeur V qu la n de la trajectoire, car celle-ci peut tre de taille innie. On dnit donc une version on-line de (2.16), qui prend la forme suivante : V (s) V (s) + (s)zn (s)n , s S, (2.17)
ds que la nime transition (sn , sn+1 , rn ) a t simule et lerreur n calcule. Le terme zn (s), dnomm trace dligibilit 11 se dnit ainsi dans la version la plus proche de lalgorithme TD() original :
Dnition 2 (Trace dligibilit accumulative) z0 (s) zn (s) = 0, = s S zn1 (s) zn1 (s) + 1
si s = sn si s = sn
Ce coefcient dligibilit augmente donc sa valeur chaque nouveau passage dans ltat associ, puis dcrot exponentiellement au cours des itrations suivantes, jusqu un nouveau passage dans cet tat (voir gure 2.2). Dans certains cas, une dnition lgrement diffrente de la trace zn (s) semble conduire une convergence plus rapide de la fonction de valeur V :
Dnition 3 (Trace dligibilit avec rinitialisation) z0 (s) zn (s) = 0, = s S zn1 (s) 1
si s = sn si s = sn
72
PDM en IA
z(s)
n dates des visites de ltat s n
Figure 2.2. Trace dligibilit cumulative : chaque visite, on ajoute 1 la valeur prcdente, si bien que la valeur de la trace peut dpasser 1.
z(s)
n dates des visites de ltat s n
Figure 2.3. Trace dligibilit avec rinitialisation : on remet la valeur 1 chaque visite.
La valeur de la trace est donc sature 1, comme le montre la gure 2.3. La convergence presque sre de lalgorithme TD() a t montre pour toute valeur de , en on-line ou off-line, sous les hypothses classiques de visite en nombre inni de chaque tat s S , et dcroissance des vers 0 chaque itration n, telle que 2 n n (s) = et n n (s) < [JAA 94a, BER 96]. Il est noter que leffet du est encore mal compris et sa dtermination optimale pour un problme donn reste trs empirique. Une implmentation directe de TD() base sur la trace dligibilit nest bien sr pas efcace ds que la taille de lespace dtat S devient trop grande. Une premire solution approche [SUT 98] consiste forcer 0 la valeur de toutes les traces zn (s) < , et donc ne maintenir que les traces des tats rcemment visits (plus
11. eligibility trace, ou encore activity.
73
prcisment, on cesse de maintenir un tat dont la dernire visite remonte plus de log() log() transitions. Une autre mthode approche [CIC 95] connue sous le nom de truncated temporal differences, ou TTD(), revient grer un horizon glissant de taille m mmorisant les derniers tats visits et mettre jour sur cette base chaque itration n la valeur de ltat visit litration (n m).
2.4.7. De TD() S ARSA () TD() peut tre appliqu au problme de lapprentissage par renforcement pour apprendre une politique optimale. Pour cela, une premire approche consiste coupler TD() un algorithme grant lvolution dune suite de politiques n . En effet, contrairement au Q-learning qui voit la suite Qn converger vers Q sans ncessiter la prsence en parallle dune suite de politiques n , lalgorithme TD() ne sait quapprendre la fonction de valeur dune politique xe. Dans Q-learning, une telle suite de politiques existe travers Qn , mais lintrt du Q-learning est justement que cette suite nest quimplicite. On retrouve donc ici un type dopposition rencontre au chapitre prcdent en programmation dynamique entre value iteration et policy iteration. Toutefois, il savre que lalgorithme Q-learning intgre directement lide matresse de TD() de considrer une erreur de diffrence temporelle. Si lon reprend la rgle de mise jour du Q-learning Qn+1 (sn , an ) = Qn (sn , an ) + n {rn + Vn (sn ) Qn (sn , an )} pour la transition observe (sn , an , sn , rn ), et dans le cas o laction an excute dans ltat sn est laction optimale pour Qn , cest--dire an = Qn (sn ) = argmaxb Qn (sn , b), on constate que le terme derreur employ est gal rn + Vn (sn ) Vn (sn ) qui est exactement celui de TD(0). Cela peut alors se gnraliser > 0, au travers dun couplage entre les mthodes TD() et Q-learning. Lalgorithme S ARSA () [RUM 94] en est une premire illustration. Cet algorithme 2.2 reprend directement lquation (2.17) en ladaptant une reprsentation par fonction de valeur daction. La trace dligibilit zn (s, a) est tendue aux couples tat-action et lexploration de lespace dtats est guide par la dynamique (sauf lors de la rencontre avec un tat terminal).
74
PDM en IA
Algorithme 2.2 : SARSA()
/* n est un taux d'apprentissage Initialiser(Q0 ) z0 0 s0 ChoixEtat a0 ChoixAction pour n 0 jusqu Ntot 1 faire (sn , rn ) Simuler(sn , an ) an ChoixAction { mise jour de Qn et zn :} dbut n rn + Qn (sn , an ) Qn (sn , an ) zn (sn , an ) zn (sn , an ) + 1 pour s S, a A faire Qn+1 (s, a) Qn (s, a) + n (s, a)zn (s, a)n zn+1 (s, a) zn (s, a) n si sn non absorbant alors sn+1 sn et an+1 an sinon sn+1 ChoixEtat an+1 ChoixAction
retourner QNtot
*/
2.4.7.1. Q() La prise en compte des cas o laction optimale Qn (sn ) na pas t slectionne conduit aux algorithmes Q() proposs par Watkins (voir [SUT 98]) et Peng [PEN 94]. La caractristique du Q() de Watkins est de ne considrer un > 0 que le long des segments de trajectoires o la politique courante Qn a t suivie. Les deux modications relativement S ARSA() concernent donc les rgles de mise jour de Qn et de zn , comme cela apparat dans lalgorithme 2.3. Linconvnient de cette approche est que, pour des politiques dapprentissage trs exploratrices, les traces zn sont trs frquemment remises 0 et le comportement de Q() est alors assez proche du Q-learning original. Le Q() de Peng est une rponse ce problme. Il est aussi possible dimaginer une application directe de TD() au Q-learning en ne remettant pas la trace zn 0 lors du choix dune action nonoptimale. Il existe peu de rsultats exprimentaux prsentant cette approche (voir toutefois [NDI 99]) ni de comparaisons entre TD(), S ARSA() et Q() autorisant de tirer des conclusions dnitives sur le sujet. La seule vritable certitude issue de nombreuses applications est que la prise en compte des traces dligibilit avec > 0 acclre la convergence de lapprentissage en terme de nombre ditrations. Lanalyse
75
Algorithme 2.3 : Le Q()
/* n est un taux d'apprentissage Initialiser(Q0 ) z0 0 s0 ChoixEtat a0 ChoixAction pour n 0 jusqu Ntot 1 faire (sn , rn ) Simuler(sn , an ) an ChoixAction { mise jour de Qn et zn :} dbut n rn + maxb Qn (sn , b) Qn (sn , an ) zn (sn , an ) zn (sn , an ) + 1 pour s S, a A faire Qn+1 (s, a) Qn (s, a) + n (s, a)zn (s, a)n 0 si an = Qn (sn ) zn+1 (s, a) zn (s, a) si an = Qn (sn )
n si sn non absorbant alors sn+1 sn et an+1 an sinon sn+1 ChoixEtat an+1 ChoixAction retourner QNtot
*/
en terme de temps de calcul est plus complexe, car les algorithmes prenant en compte une trace ncessitent beaucoup plus de calculs chaque itration. 2.4.8. Lalgorithme R-learning Tous les algorithmes que nous avons prsents jusqu prsent sappliquaient dans le cas du critre -pondr. Lalgorithme R-learning, propos par Schwartz [SCH 93], est ladaptation au critre moyen de lalgorithme Q-learning et lon y retrouve tous les principes voqus prcdemment. Lobjectif de cet algorithme est de construire une politique dont la rcompense moyenne est la plus proche possible de la rcompense moyenne maximale dune politique optimale . Pour cela, le R-learning maintient deux suites entrecroises n et Rn . Notons ici que la suite n nest mise jour que lorsque laction qui vient dtre excute tait la greedy-action maximisant Rn dans ltat courant sn . La suite relle des n est une estimation du critre optimiser. Comme Qn dans le Q-learning, Rn reprsente une forme particulire de la fonction de valeur relative U dune politique :
76
PDM en IA
Dnition 4 (Fonction de valeur R) une politique xe de fonction de valeur U et de gain moyen , on associe la nouvelle fonction s S, a A R (s, a) = r(s, a) +
s
p(s |s, a)U (s ).
On a donc l encore U (x) = R (x, (x)) et lquation de Bellman vrie par et R devient : s S, a A R (s, a) = r(s, a) +
s
p(s |s, a) max R (s , b)

b
(2.18)
avec lassurance que la politique R (s) = argmaxa R (s, a) a pour gain moyen le gain optimal . Comme pour Q-learning, lalgorithme R-learning est une version stochastique de la mthode ditration sur les valeurs pour lquation (2.18). Algorithme 2.4 : Le R-learning
/* n et n sont des taux d'apprentissage Initialiser(R0 ,0 ) pour n 0 jusqu Ntot 1 faire sn ChoixEtat an ChoixAction (sn , rn ) Simuler(sn , an ) { mise jour de Rn et n :} dbut Rn+1 Rn n rn n + maxb Rn (sn , b) Rn (sn , an ) Rn+1 (sn , an ) Rn (sn , an ) + n (sn , an )n n si an = Rn (sn ) n+1 n + n n si an = Rn (sn ) n retourner RNtot , Ntot
*/
Bien quil nexiste pas de preuve formelle de convergence du R-learning vers une politique gain-optimale, de nombreuses exprimentations montrent que n approche efcacement , avec des taux dapprentissage n (s, a) et n tendant vers 0 selon les mmes conditions que pour le Q-learning et pour le mme type de compromis entre exploration et exploitation.
77
Bien que le R-learning soit moins connu et moins utilis que le Q-learning, il semble quil prsente des proprits de vitesse de convergence plus intressantes en pratique [MAH 96b]. Si peu de rsultats thoriques existent ce sujet, citons toutefois [GAR 98] o lon montre quen horizon ni, le R-learning est trs proche dune version parallle optimise du Q-learning, expliquant ainsi ses meilleurs rsultats exprimentaux. Dautres algorithmes dapprentissage par renforcement pour le critre moyen ont aussi t proposs [MAH 96b]. Parmi eux, lalgorithme B [JAL 89] est une mthode indirecte qui ncessite une estimation adaptative des fonctions p() et r(). Citons aussi les travaux de Mahadevan [MAH 96a] qui a dni un algorithme toujours base de modles permettant dapprendre des politiques biais-optimales, sur la base des quations doptimalit de Bellman. Nous allons voir prsent deux autres algorithmes qui visent aussi maximiser le critre moyen, mais en construisant un modle des transitions. Ils prsentent la particularit thorique de disposer dune preuve de convergence polynomiale en fonction du nombre dtats et non pas exponentielle comme cest le cas pour les algorithmes prcdents. Ils sont aussi connus pour avoir donn lieu des prolongements dans le cadre des MDP factoriss, ce qui sera voqu au chapitre 9, dans le tome 2 de cet ouvrage. 2.5. Mthodes indirectes : apprentissage dun modle Nous avons vu la section 2.4.4 quil existait un compromis entre la vitesse dapprentissage et la mmoire utilise pour apprendre. La solution consistant mettre en uvre des traces dligibilit reste limite en ceci que lapprentissage nopre qu partir dinformations extraites du pass immdiat de lagent. Nous allons voir prsent une approche diffrente dans laquelle lagent labore un modle de ses interactions avec son environnement puis peut apprendre sur la foi de ce modle, indpendamment de son exprience courante. La question principale de ce type dapproche est la suivante : faut-il attendre de disposer dun modle le plus exact possible avant dentamer la phase doptimisation ? Peut-on entrelacer au maximum identication et optimisation, cest--dire modier chaque transition observe la fonction de valeur et le modle estim ? Il semble actuellement que cette dernire approche soit prfrable, comme par exemple dans ARTDP 12 [BAR 95], o acquisition du modle, programmation dynamique et excution sont concurrents. Parmi les algorithmes de ce type les plus connus en apprentissage par renforcement, citons aussi Dyna [SUT 90a], Queue-Dyna [PEN 93] et Prioritized Sweeping [MOO 93].
12. Adaptive Real-Time Dynamic Programming
78
PDM en IA
2.5.1. Les architectures DYNA Tous les systmes dapprentissage par renforcement indirect 13 sont motivs par le mme constat. Plutt que dattendre quun agent effectue des transitions dans son environnement rel, une faon dacclrer la propagation de la qualit des situations consiste construire un modle des transitions ralises par lagent et se servir de ce modle pour appliquer un algorithme de propagation indpendamment du comportement de lagent. En effet, quand un agent interagit avec son environnement, ses actions ne dbouchent pas seulement sur une possible punition ou rcompense, mais aussi sur une situation ultrieure. Lagent peut donc construire un modle des transitions dont il fait lexprience, indpendamment de tout modle des rcompenses. Lide de construire un modle des transitions par apprentissage a t ralise pour la premire fois avec les architectures DYNA [SUT 90b]. En effet, Sutton a propos cette famille darchitectures pour doter un agent de la capacit mettre jour plusieurs valeurs dactions lors du mme pas de temps, indpendamment de la situation courante de lagent, de faon acclrer sensiblement lapprentissage de la fonction de valeur. Cette capacit est ralise en appliquant au modle un nombre x dtapes de planication, qui consistent appliquer un algorithme de programmation dynamique au sein du modle de lagent 14.
rcompense situations prcdente et courante ENVIRONNEMENT
modle des rcompenses
transitions
modle des transitions
action
Figure 2.4. Les architectures DYNA combinent un modle des rcompenses et un modle des transitions. Le modle des transitions est utilis pour acclrer lapprentissage par renforcement. La construction des deux modles requiert une mmorisation de la situation prcdente, ce qui nest pas explicite sur la gure.
Les architectures DYNA, prsentes sur la gure 2.4, construisent un modle des transitions effectues par lagent dans son environnement et un modle des rcompenses quil peut y obtenir.
13. model-based reinforcement learning 14. Voir le chapitre prcdent
79
Le modle des transitions prend la forme dune liste de triplets st , at , st+1 qui indiquent que, si lagent effectue laction at dans ltat st , il atteindra immdiatement ltat st+1 . Des transitions de la forme (st , at , st+1 ) constituent le modle des interactions dun agent avec son environnement. Au lieu dapprendre que tel stimulus doit tre suivi de telle action, lagent apprend alors que, sil effectue telle action aprs avoir reu tel stimulus, alors il doit sattendre recevoir tel autre stimulus lors du pas de temps suivant. Une fois ce modle construit par apprentissage, on peut appliquer des algorithmes de programmation dynamique tels que litration sur les valeurs ou sur les politiques pour acclrer lapprentissage de la fonction de valeur. Ainsi, le modle des transitions peut tre utilis indpendamment de la situation courante de lagent pour propager les valeurs de diffrents tats partir de diverses sources de rcompense. En pratique, ce processus de propagation consiste raliser des actions simules partir de situations ctives, ventuellement plusieurs fois par pas de temps. Lorsque lagent est un robot rel dont chaque action effective peut tre longue et difcile mettre en uvre, voire dangereuse pour son fonctionnement, raliser des transitions simules dans un modle interne est beaucoup moins coteux pour propager des valeurs que refaire chaque action laborieusement. En outre, si les buts attribus lagent changent, ce qui a pour effet de modier les rcompenses quil recevra, alors lagent est capable de recongurer rapidement sa stratgie de comportement plutt que de dsapprendre tout ce quil a pniblement appris et dapprendre nouveau une autre stratgie comportementale. Par ailleurs, la construction dun tel modle peut doter un agent de capacits danticipation. En effet, sil enregistre les associations entre les tats dans lesquels il se trouve dune part et les rcompenses quil reoit dautre part, lagent peut choisir son action en fonction du caractre dsirable pour lui de ltat auquel cette action doit le conduire. Au lieu davancer aveuglment vers une rcompense attendue, lagent peut alors mettre en uvre des capacits de planication plus long terme. En parcourant par un regard en avant le graphe des transitions dtat en tat dont il dispose, lagent devient capable de prvoir lvolution de ses interactions avec son environnement en fonction de ses actions un horizon indni. Si bien que, sil veut atteindre un but dans un certain tat, il peut rechercher au sein du graphe la squence daction qui le conduit ce but, avant deffectuer la squence dactions correspondante. Les architectures Dyna constituent une famille de systmes qui vrient les principes que nous venons de dcrire. Au sein de cette famille, on distingue cependant des variations sur lalgorithme dapprentissage ou la mthode dexploration utiliss. Le
80
PDM en IA
systme original, Dyna-PI 15 repose sur un algorithme ditration sur les politiques. Sutton [SUT 90b] montre que ce systme est moins exible que le systme Dyna-Q, qui repose sur le Q-learning. Il propose en outre une version dote de capacits dexploration active, nomme Dyna-Q+ et prsente la diffrence de performance entre ces trois systmes sur des environnements changeants dans lesquels soit des chemins optimaux sont bloqus, soit, au contraire, des raccourcis apparaissent. Enn, tous ces systmes reposant sur un algorithme de programmation dynamique pour propager efcacement la fonction de valeur ou la fonction de qualit, il est possible de rendre cette programmation dynamique plus efcace avec un algorithme de balayage prioritaire tel que Prioritized Sweeping [MOO 93], qui met jour en priorit les valeurs des tats dans lesquels lagent est susceptible de se trouver, ou dautres variantes telles que Focused Dyna [PEN 92], Experience Replay [LIN 93] et Trajectory Model Updates [KUV 96]. Examinons prsent les algorithmes dots dune preuve de convergence en fonction polynomiale de la taille du problme. 2.5.2. Lalgorithme E 3 Le premier de ces algorithmes sappelle E 3 , pour Explicit Explore and Exploit [KEA 98]. De mme que les architectures DYNA, lalgorithme E 3 repose sur la construction dun modle des transitions et des rcompenses. Nanmoins, au lieu de chercher construire un modle de lenvironnement tout entier, il ne mmorise quun sous-ensemble des transitions rencontres, savoir celles qui jouent un rle dans la dnition de la politique optimale. Pour construire ce modle, lalgorithme visite les tats de faon homogne, ce qui signie que, quand il arrive dans un nouvel tat, il choisit laction quil a effectue le moins souvent dans cet tat. Il tient alors jour une probabilit observe de transition vers des tats suivants, ce qui revient se donner un modle approch du MDP sousjacent. Au cur de lalgorithme E 3 se trouve un mcanisme de gestion du compromis entre exploration et exploitation qui repose sur le principe dit de la case courrier 16 . Lide est que, si lon visite un nombre ni dtats de faon homogne, il nit toujours par y avoir un tat qui a t visit sufsamment souvent pour que lestimation des probabilits de transition construite sur la base des observations partir de cet tat
15. PI pour Policy Iteration. noter que dans [SUT 98], Sutton appelle ce mme systme DynaAC, avec AC pour Actor Critic 16. The pigeon hole principle
81
soit proche de la distribution de probabilit effective engendre par lenvironnement. Les auteurs dnissent alors une notion dtat connu de telle faon que le nombre de visites sufsant pour connatre un tat reste polynomial en fonction de la taille du problme. Le modle construit par E 3 est un MDP dans lequel gurent tous les tats connus avec les probabilits de transition observes et un tat absorbant qui reprsente lui seul tous les tats non encore connus . Lalgorithme est alors face une alternative : soit il existe une politique proche de loptimum qui repose uniquement sur des tats connus et lalgorithme peut trouver cette politique en appliquant un algorithme de programmation dynamique sur le modle quil a construit ; soit cette condition nest pas vrie et il faut explorer davantage, donc choisir des actions qui mnent ltat absorbant an de mieux connatre les tats de lenvironnement quil regroupe. Cet algorithme est simple et prsente lintrt de disposer de preuves qui garantissent le caractre polynomial de la convergence. Pour dterminer dans quelle branche de lalternative ci-dessus on se trouve, lalgorithme est capable de calculer si explorer davantage au-del dun horizon x pour mieux connatre le modle permet damliorer de faon signicative la meilleure politique connue. Si ce nest pas le cas, il vaut mieux exploiter quexplorer. 2.5.3. Lalgorithme Rmax Lalgorithme Rmax [BRA 01] apparat comme une alternative intressante lalgorithme E 3 . Il repose sur le mme principe gnral que E 3 consistant construire un modle des transitions et rechercher une politique qui maximise la rcompense moyenne sur un horizon ni. Cependant, dune part, il simplie la gestion du dilemme entre exploration et exploitation en initialisant toutes les esprances de rcompense une valeur optimiste gale au maximum des rcompenses immdiates atteignables dans lenvironnement 17 et, dautre part, il tend le cadre des MDP dans lequel travaille E 3 au cadre des jeux stochastiques somme nulle, ce qui permet de prendre en compte la prsence dun adversaire. La principale diffrence provient de ce que linitialisation des rcompenses une valeur optimiste permet lalgorithme Rmax dviter davoir grer explicitement le compromis entre exploration et exploitation. En effet, lagent se contente daller vers les tats dans lesquels il sattend recevoir une rcompense leve. La rcompense attendue peut tre leve pour deux raisons : soit parce que ltat est mal connu et dans ce cas le comportement de lagent relve de
17. do le nom de lalgorithme, Rmax
82
PDM en IA
lexploration, soit parce que lagent sait quil a dj reu des rcompenses dans ltat en question et son comportement relve de lexploitation. Les auteurs argumentent la supriorit de leur approche sur celle de lalgorithme E 3 en soulignant que, en prsence dun adversaire, on ne matrise pas compltement les transitions du systme, donc on ne matrise pas totalement le choix entre exploration et exploitation. Avec Rmax , lalgorithme explore ou exploite au mieux compte tenu des choix raliss par ladversaire. Lalgorithme est globalement plus simple et constitue donc un excellent candidat pour grer efcacement le compromis entre exploration et exploitation. Comme lalgorithme E 3 , Rmax repose sur deux hypothses irralistes qui compromettent son application en pratique. Dune part, on suppose connu lhorizon T au-del duquel chercher amliorer le modle en explorant ne permet plus damliorer la politique de faon signicative. Dautre part, on suppose qu chaque pas de temps, on est capable de dterminer efcacement la politique optimale sur cet horizon T , compte tenu de la connaissance dont on dispose dans le modle. La difcult provient de ce que T peut tre grand, si bien que trouver une politique optimale sur cet horizon peut tre trs long et que donner T une valeur arbitraire suppose de prendre une valeur encore plus grande que la valeur idale, ce qui ne fait quaggraver le problme. En vue dapplications pratiques de ces algorithmes conus essentiellement en fonction de la possibilit de disposer de preuves thoriques de convergence, des variantes ont t proposes pour acclrer la recherche dune politique optimale en faisant un chantillonnage heuristique 18 des transitions plutt quune exploration systmatique homogne [?, ?]. Dans [BRA 03], les auteurs utilisent aussi des valeurs bien infrieures la valeur de T thorique et montrent que lalgorithme se comporte de mieux en mieux au fur et mesure que T augmente, au prix dun temps de calcul croissant. 2.6. Conclusion Lapprentissage par renforcement est aujourdhui une discipline trs active. linterface entre apprentissage automatique et sciences cognitives, contrle optimal et optimisation par simulation, lapprentissage par renforcement utilise des techniques varies pour aborder le problme de lacquisition dun comportement optimal dans un environnement incertain et dynamique. Nous avons principalement prsent dans ce chapitre les mthodes classiques de lapprentissage par renforcement, qui ont historiquement fond la discipline. Toutefois, lapprentissage par renforcement tant en plein dveloppement, de nombreuses
18. heuristic sampling
83
mthodes plus rcentes nont pu tre prsentes ici. On peut citer par exemple les travaux actuels sur les modles dapprentissage par renforcement probablement approximativement corrects (PAC), comme MBIE [?] ou Delayed Q-learning l [?]. On trouvera enn dans la suite de cet ouvrage dautres approches classiques qui partagent galement lemploi de la simulation, telles les mthodes de rsolution en ligne (chapitre 10), les mthodes de programmation dynamique avec approximation de la fonction de valeur (chapitre 11) ou encore les mthodes de gradient pour loptimisation de politiques paramtres (chapitre 12).
Chapitre 3
Processus Dcisionnels de Markov partiellement observables
Si les systmes rencontrs dans la ralit peuvent souvent tre modliss comme des processus markoviens, lagent charg de les contrler ou dapprendre les contrler a rarement accs une information sufsante pour connatre ltat du processus. Lagent observe le processus mais ne le connat pas. Le formalisme des Processus Dcisionnels de Markov Partiellement Observable (ou POMDP) permet justement de modliser ce genre de situation o un agent na accs qu des informations souvent partielles sur le processus contrler. E XEMPLE. Dans lexemple de lentretien de la voiture des chapitres prcdents (voir pages 18 et 51), nous avons en fait implicitement suppos que nous connaissions ltat de la voiture. Bien souvent ce nest pas le cas, car personne ne va constamment mesurer le taux dtanchit du joint de culasse ou lusure des plaquettes de frein. En nous contentant dun rapide coup doeil, nous navons pas accs ltat de la voiture au sens formel mais simplement une observation, souvent incomplte et imprcise, de cet tat. Le formalisme des POMDP permet de modliser ce genre de problmes et ses solutions indiquent comment choisir optimalement les actions raliser en ne sappuyant que sur ces observations imparfaites. Ppourtant, il faut encore une fois faire lhypothse que nous connaissons la dynamique du processus, cest--dire les consquences des actions (les transitions), leur cot (les rcompenses) mais aussi la probabilit avec lesquelles un tat donn de la voiture produit telle ou telle observation (la fonction dobservation).
Chapitre rdig par Alain D UTECH et Bruno S CHERRER.
86
PDM en IA
Cette problmatique lie au ralisme des problmes pouvant tre abords par les mthodes de la programmation dynamique est apparue trs tt. Ds 1965, Astrm pose les bases thoriques des POMDP et de leur rsolution en utilisant les tats de croyance1 [AST 65]. Il faut attendre les travaux de Smallwood et Sondik pour voir les premiers algorithmes de rsolution qui sont trs peu efcaces [SMA 73, SON 71, SON 78]. On peut dire que cest avec lalgorithme W ITNESS [CAS 94] puis I TERATIVE P RUNNING [ZAN 96] que la recherche dans le domaine a vraiment pris son essor et, depuis, de nombreux algorithmes exacts ou approchs ont vu le jour. Ce chapitre est consacr aux POMDP. Dans un premier temps (section 3.1), nous dtaillons et explicitons le formalisme en introduisant la notion dtat dinformation. Puis, nous montrons que lapplication directe des mthodes vues aux chapitres prcdents (ce qui revient essayer de contrler un POMDP comme si ctait un MDP) est en gnral voue lchec (section 3.2). Il existe cependant des principes gnraux permettant des mthodes exactes de rsolution des POMDP (section 3.3) ce qui se traduit par des algorithmes de type itration sur les valeurs (3.4) ou itration sur les politiques (3.5). 3.1. Dnition formelle des POMDP 3.1.1. Dnition dun POMDP Un processus dcisionnel de Markov partiellement observable est un MDP dans lequel lagent ne connat pas ltat rel du processus : lagent na accs qu une observation partielle de cet tat ([CAS 98]). On le dnit, de manire analogue un MDP (cf. section 1.2.1, page 18), par : (S , A, , T, p, O, r, b0 ) o : S est lespace dtat ; A est lespace des actions ; est lespace des observations ; T est laxe temporel ; p() sont les probabilits de transition entre tats ; O() sont les probabilits dobservation sur les tats ; r() est une fonction de rcompense sur les transitions dtats ; b0 est la distribution de probabilit initiale sur les tats. Les seules nouveauts par rapport un MDP sont donc la distribution initiale des tats du processus b0 , lespace des observations et la fonction dobservation associe O().
1. pour langlais belief states
PDM partiellement observables
87
ot
r(s t , a t)
ot+1
st p( s t+1 | s t , a t)
s t+1
at
Figure 3.1. Vue gnrale dun POMDP sous forme dun diagramme dinuence.
Le principe gnral, illustr g. 3.1 est que, chaque instant t de T , lagent ne connat pas ltat courant st S mais peut seulement le percevoir partiellement sous forme dune observation ot . Cette observation est donne par la fonction dobservation O. Quand il applique une action at A sur le processus, cela modie alors alatoirement ltat du processus selon p() pour lamener dans ltat st+1 alors que lagent ne peroit que lobservation ot+1 qui dpend de la fonction O(). Enn, comme dans un MDP, lagent reoit une rcompense r IR.
Tout comme S et A, lespace des observations est suppos ni. Si, dans le cas le plus gnral, lobservation de ltat courant peut dpendre de la dernire transition en date du processus, le cas le plus classique suppose que cette observation ne dpend que de ltat courant. A un instant t, la probabilit pour lagent dobserver o dans ltat s est donne par Pr(o|s) = Ot (o|s). On impose que t, s, o Ot (o|s) = 1. Il est noter que, mme quand la fonction dobservation O() est dterministe, cest--dire qu chaque tat est associ une et une seule observation, lagent peut ne pas connatre ltat : deux tats peuvent tre associs la mme observation. Cest dailleurs quand il y a ambigut sur ltat quil est intressant de parler de POMDP, car sinon le problme que lagent doit rsoudre possde la structure dun MDP classique.
Cest donc dans le cadre plus large o les ambiguts perceptives peuvent se produire que nous allons nous placer dans la suite de ce chapitre. Nous ferons aussi lhypothse que le processus est stationnaire (O() et p() ne dpendent pas du temps).
88
PDM en IA
3.1.2. Critres de performance Tout comme dans le cadre des MDP, la rsolution dun POMDP se fait en cherchant maximiser un critre de performance donn. Ces critres sont les mmes que ceux utiliss pour les MDP (voir section 1.2.3, page 22). Si les critres existent toujours, il nen est pas forcment de mme des fonctions de valeur que nous avons dtailles pour les MDP. En effet, les fonctions de valeur existent bien quand elles sont dnies sur lespace S des tats, or cet espace nest pas accessible lagent. Il est donc temps de parler des tats dinformations et donc des espaces associs qui, comme nous le verrons, conditionnent lexistence de ces fonctions de valeur et donc la rsolution des POMDP. 3.1.3. Etat dinformation Lagent, qui na pas accs ltat, doit choisir ses actions en fonction des informations qui lui sont disponibles, cest pourquoi nous parlerons dtat dinformation2 pour parler des espaces de dnition des politiques (ou des fonctions de valeur) permettant effectivement lagent de contrler le POMDP de faon optimale. 3.1.3.1. Dnition Appelons It lensemble des informations accessibles un agent un instant t. Aprs avoir effectu laction at , lagent peroit le processus sous la forme de lobservation ot+1 , ce qui lui permet daugmenter lensemble des informations dont il dispose, par exemple par : It+1 = (I0 , I1 , . . . , It , ot+1 , at ). (3.1)
D FINITION 3.1. Etat dinformation dun POMDP I forme un ensemble dtats dinformation si la squence (I )t dnit une chane de Markov contrle (par les actions), cest--dire si : t, Pr(It+1 |I0 , I1 , . . . , It , ot+1 , at ) = Pr(It+1 |It , ot+1 , at ).
Attention, si certains espaces de dnition des politiques peuvent paratre naturels (comme par exemple lensemble des observations), dans le cas gnral ces espaces
2. information state en anglais
89
ne sont pas des espaces dinformation. La section 3.2 revient plus en dtails sur ce problme crucial des POMDP. On peut alors dnir une fonction de transition pour ce processus : (I, a, o, I ) = Pr(It = I |It1 = I, a, o). (3.2)
La rcompense associe ces tats dinformation scrit alors : (I, a) =

sS
r(s, a) Pr(s|I ).
(3.3)
En principe, un POMDP peut toujours tre transform en un MDP dni sur un ensemble dtats dinformation. Le problme est de trouver une reprsentation intressante et utilisable en pratique de ces tats dinformation. 3.1.3.2. Etat dinformation complet La faon la plus simple et la plus nave de reprsenter les tats dinformation est dutiliser toute linformation disponible sur le processus depuis le dbut (depuis linstant t = 0). Dans ce cas, ltat dinformation est constitu des historiques complets des observations et actions passes.
C Plus formellement, ltat dinformation complet (not It ) au temps t est constitu de :
la distribution de probabilit initiale sur les tats b0 , lhistorique des observations passes et prsente (o0 , , ot ), lhistorique des actions passes (a0 , , at1 ). Il est clair que les tats dinformation complets satisfont la proprit de Markov nonce prcdemment. Le principal problme de cette reprsentation est que la taille dun tat dinformation grossit chaque pas de temps. Cette reprsentation nest donc pas facilement manipulable, surtout quand on considre des processus horizon inni. 3.1.3.3. Statistiques sufsantes On peut reprsenter plus efcacement les tats dinformation en utilisant des statistiques sufsantes (ou exhaustives) vis--vis du contrle du processus ([BER 95]). D FINITION 3.2. Information sufsante Une squence dtats dinformation (I )t dnit un processus dinformation sufsant quand on a :
90
PDM en IA
It = (It1 , ot , at1 ), C Pr(st |It ) = Pr(st |It ),

C Pr(ot |It1 , at1 ) = Pr(st |It 1 , at1 ), C C o It 1 et It sont des tats dinformation complets. On peut aussi voir un tat dinformation sufsant comme un tat qui permet de prdire le comportement du processus, ce qui permet ensuite de le contrler. Ces mta-informations sur le processus satisfont la proprit de Markov et prservent les informations contenues dans les tats dinformation complets qui sont sufsantes pour contrler le processus. Lavantage principal des tats dinformation sufsants est quils peuvent se reprsenter de faon plus compacte que les tats dinformation complets. Leur taille naugmente pas avec le temps, par exemple. Le dsavantage vient du fait que leur mise jour est un peu plus complexe et que leur espace de dnition peut tre continu.
3.1.3.4. Etats de croyance (belief states) Des tats dinformation sufsants couramment utiliss sont les tats de croyance. D FINITION 3.3. Etat de croyance Un tat de croyance bt linstant t est dni par :
C bt (s) = Pr(st = s|It ).
Un tat de croyance est une distribution de probabilit sur lensemble des tats. On note B lensemble des tats de croyance, cest lespace de toutes les distributions de probabilit sur S . Comme nous lavons dit, un tat dinformation sufsant doit tre mis jour aprs chaque action. Ainsi, si b est tat de croyance, nous pouvons exprimer ltat de croyance ba o aprs une transition du processus, cest--dire aprs que lagent a effectu une action a et reu une observation o : ba o (s ) = = = = = = Pr(s |b, a, o) Pr(s , b, a, o) Pr(b, a, o) Pr(o|s , b, a) Pr(s |b, a) Pr(b, a) Pr(o|b, a) Pr(b, a) Pr(o|s , b, a) Pr(s |b, a) s S Pr(s |b, a) Pr(o|s , a) O(o|s )
sS s
Pr(s |a, s) Pr(s) S O (o|s ) Pr(s |a, s) Pr(s)

sS
O(o|s )
sS s
p(s |s, a)b(s) . S O (o|s )p(s |s, a)b(s)

sS
91
On obtient alors O(o|s )

sS s sS p(s |s, a)b(s) . O (o|s )p(s |s, a)b(s) S
ba o (s )
(3.4)
Puisque les tats de croyance forment un processus markovien, nous pouvons expliciter ce processus, notamment au niveau des fonctions de transition et de rcompense. Pour cela, nous allons dnir la probabilit conditionnelle dune observation par (b, a, o) = =
sS s S
Pr(o|b, a) O(o|s , a)p(s |s, a)b(s).
On peut alors calculer la fonction de transition entre deux tats de croyance. Etant donn un tat de croyance b et une action a, chaque observation o peut donner lieu un tat de croyance successeur ba o diffrent. La probabilit de transiter vers un tat de croyance b donn est alors gal la somme de toutes les probabilits de transiter vers des ba o gaux b . Ce qui scrit : (b, a, b ) = Pr(b |b, a) =
o
(b, a, o) (b , ba o ), 0 1 si x = y, sinon
avec
(x, y ) =
Quant la rcompense associe un tat de croyance, on lobtient aisment par
(b, a)
=
sS
r(s, a)b(s).
Le processus de Markov ainsi dni sur les tats de croyance est difcile rsoudre car il est dni sur un espace dtat continu, celui des distributions de probabilit sur lespace dtat S . De plus, sauf pour certains POMDP bien particuliers quon
92
PDM en IA
appelle transitoires 3 (voir section 3.3.2.2), la suite des tats de croyance gnre par une politique donne comporte un nombre inni dtats de croyance diffrents. Nanmoins, nous verrons plus loin (section 3.3) quil est parfois possible dutiliser les proprits particulires des fonctions de valeurs de ce processus pour proposer des algorithmes exacts ou quasi-exacts. 3.1.4. Politique Les espaces sur lesquels il est possible de dnir une politique sont plus divers que dans le cas des MDP. Il est inutile de calculer des politiques dnies sur les tats ou les historiques dtats puisque ces derniers sont inaccessibles lagent. Il est envisageable de dnir des politiques sur lespace des observations ou lhistorique des observations. Comme nous le verrons la section 3.2, il nest pas possible de garantir loptimalit de telles politiques mais elles peuvent nanmoins constituer une option viable dans certains cas. Il est plus intressant de travailler sur les espaces dinformation que nous venons daborder dans la partie prcdente. Dans labsolu, il existe une multitude de types dtats dinformation possibles, mais qui peuvent tous plus ou moins se ramener des historiques daction et dobservation sur le processus. Cest notamment le cas des tats dinformation complets. Nous allons nous intresser la manire de reprsenter les politiques dans ce cas. Cette dmarche peut aisment sadapter dautres politiques dnies sur dautres espaces (comme par exemple des historiques dobservation). Pour un tat dinformation complet initial I , la politique optimale dhorizon N peut tre reprsente par un arbre, elle correspond une sorte de plan conditionnel. En effet, pour un tat dinformation I , la politique optimale dhorizon 1 est laction optimale associe cet tat, notons la a1 (I ). Intressons nous maintenant la politique dhorizon 2 partir de I , elle commence par une action a. Aprs avoir choisi cette action, lagent obtient une observation o et se trouve donc dans le nouvel tat a a dinformation Io . Sil veut alors agir optimalement, il choisira alors a1 (Io ). On voit que la deuxime action de lagent dpend de lobservation o perue, cest une sorte de plan conditionnel. Ainsi, une politique dhorizon N pour un tat dinformation I peut se reprsenter sous la forme dun arbre comme celui de la gure 3.2. Lexcution dun plan conditionnel ou dune politique dordre N partir dun tat dinformation I consiste essentiellement traverser cet arbre en partant de la racine en suivant, tout tour, des nuds action et des branches observation . Quand on arrive un nud, on excute laction associe ce nud, puis en fonction de lobservation reue, on navigue vers le nud suivant le long de la branche associe lobservation.
3. de langlais transient
93
tat dinformation I
a1 o1 o2
Ordre 3
a0 o1 o2 o1
a1 o2
Ordre 2
a1
a2
a0
a3
Ordre 1
Figure 3.2. Plan conditionnel. Cet arbre reprsente une politique dhorizon 3 pour un tat dinformation I donn. Cest aussi une sorte de plan conditionnel. A chaque tape du plan, un nud contient laction effectuer et, en fonction de lobservation reue, on se dplace vers un nud dordre infrieur en suivant la branche approprie.
Les arbres de politiques permettent donc de reprsenter les politiques dhorizon ni. Par contre, la reprsentation sous forme darbre nest pas pratique dans le cas des problmes horizon inni car les arbres grandissent de manire exponentielle. Une alternative, qui est utilisable dans les cas o les politiques sont cycliques, est de reprsenter les politiques en utilisant des automates tats nis qui permettent de reprsenter des plans conditionnels qui bouclent. Un exemple dautomate est dcrit la gure 3.3 qui sexcute comme prcdemment : on applique laction dans le nud actuel avant de transiter vers le nud suivant en fonction de lobservation reue. Le nud de dpart pour appliquer la politique dpend de ltat dinformation de dpart.
3.1.5. Fonctions de valeur
De la mme manire que pour les MDP, on peut dnir une fonction de valeur pour les POMDP dnis sur les tats dinformation. Nous nous plaons ici, titre dexemple, dans le cadre du critre actualis, mais les dveloppements faits sur les diffrents critres pour les MDP en section 1.5 sont utilisables de la mme manire.
94
PDM en IA
tat dinformation I
a1 o2 o1 o2 o2 a1 o2 o1 a2 o1 a2 o1
Figure 3.3. Automate tats ni pour politique cyclique innie. Lautomate permet de reprsenter des politiques innies qui prsentent des cycles. Comme dans le cas des arbres, on excute une politique en appliquant laction dans le nud actuel avant de transiter vers le nud suivant en fonction de lobservation reue.
Ainsi, loprateur ditration de la fonction de valeur pour une politique t dnie sur lespace des tats dinformation I scrit
t Vn (I )
= (I, t (I )) +
I I
t (I, t (I ), I )Vn 1 (I ).
(3.5)
On peut, de la mme manire, crire lquation de Bellman dnissant la fonction de valeur optimale du MDP dni sur les tats dinformation
V (I ) = max (I, a) +
aA I I (I,a)
(I, a, I )V (I ), (3.6)
o I (I, a) est lensemble des successeurs de ltat dinformation I . Nous avons vu prcdemment que ces successeurs se calculaient partir de I par I = (I, o, a),
95
on peut donc en dduire quil y a au maximum || successeurs un tat dinformation et crire cette quation en sommant cette fois-ci sur lensemble des observations possibles, ce qui donne
V (I )
max (I, a) +
aA o
Pr(o|I, a)V ( (I, o, a)) .
(3.7)
POMDP .
On peut aussi crire cette quation en utilisant directement les paramtres du On obtient alors :
V (I )
max
aA sS
r(s, a) Pr(s|I )
(3.8)
+
si nS s S o
Pr(s|I )p(s |s, a)O(o|s )V ( (I, o, a)) . (3.9)
Comme dans le cas des MDP, loprateur associ cette quation est une contraction pour la norme max et pour 0 < 1 et les mmes dmonstrations assurent lexistence et lunicit de la solution (voir thormes 1.4, 1.5 et 1.6, pages 31-34). 3.2. Problmes non-markoviens (information incomplte) Comme nous lavons signal, pour un POMDP les observations ne sont pas des tats dinformation. Autrement dit, un agent ne peut pas contrler de faon optimale un POMDP en ne se basant que sur lobservation courante du processus pour dcider de son action. Dans cette section, nous allons tudier plus en dtail les politiques dnies seulement sur lobservation courante dans le but de mieux comprendre les diffrences entre les POMDP et les MDP. Cette comprhension permettra aussi de mieux aborder ensuite les problmes lis la rsolution des POMDP. 3.2.1. Politiques adaptes Dans cette partie, nous allons uniquement considrer des politiques de la forme : ( T ) (A), o (A) est lensemble des distributions de probabilit sur A.
96
PDM en IA
Si, pour essayer de rsoudre un POMDP, on adapte les algorithmes dnis pour les MDP en assimilant navement les observations des tats, on cherche en fait des politiques de la forme que nous venons de rappeler. Nous appelons cette famille de politique des politiques adaptes. Et nous allons voir quen fait, elles ne sont pas adaptes au contrle optimal dun POMDP, mme si les rsultats pratiques peuvent savrer satisfaisants.
3.2.2. Critre pondr 3.2.2.1. Politique adapte stochastique Plaons-nous dans le cas dun critre actualis. Il est alors facile de montrer que, contrairement aux MDP, il nexiste pas de politique adapte dterministe optimale. Lexemple de la gure 3.4 permet de montrer facilement que : P ROPOSITION 3.1. Il existe des POMDP o la meilleure politique stochastique adapte peut tre arbitrairement meilleure que la meilleure politique dterministe. P REUVE. La gure 3.4 montre un POMDP avec deux tats (1a et 1b) et une seule observation (1). Il nexiste que deux politiques adaptes dterministes (soit tout le temps faire A , soit tout le temps faire B ). Au mieux, ces politiques amnent une 2 )R rcompense de +R suivie dune squence innie de R, soit une valeur de (1 1 . La politique stochastique qui choisit A avec une probabilit de 0.5 et B avec une probabilit de 0.5 reoit en moyenne une rcompense de 0 chaque instant. Ds lors, il suft daugmenter R et de choisir > 0.5 pour que la diffrence de valeur entre la politique stochastique et la meilleure politique dterministe soit aussi grande que lon veut. De plus, il est possible, laide dexemples aussi simples, de montrer que (voir [JAA 94b]) : P ROPOSITION 3.2. Il existe des POMDP o la meilleure politique stochastique adapte peut tre arbitrairement plus mauvaise que la politique optimale du MDP sous-jacent. P ROPOSITION 3.3. Il existe des POMDP o la meilleure politique adapte peut tre non-stationnaire. 3.2.2.2. Fonction de valeur adapte Les faits prcdents amnent se poser la question de lexistence dune politique optimale, mme stochastique. Pour cela, on peut se poser la question de lexistence dune fonction de valeur optimale.

A (R) "1" est observation unique. a
97
B (+R) A (+R)
b B (R)
Figure 3.4. Besoin de politiques adaptes stochastiques. Le POMDP de cette gure est constitu de deux tats (1a et 1b) qui gnrent tous les deux la mme observation 1 , ce que nous symbolisons par une ellipse.Face cette observation, lagent peut choisir entre les actions A ou B qui, selon ltat sous-jacent, sont associes des rcompenses positives (+R) ou ngatives (R). On ne peut trouver de politique dterministe optimale.
Partons dune politique adapte : (A), il est possible den dduire une politique dnie sur les tats par : Pr(a|s) =
oin
Pr(o|s) Pr(a|o) =
oin
O(o|s) (a|s).
(3.10)
Connaissant les tats sous-jacents du POMDP, on peut appliquer cette politique et en dduire une fonction de valeur V qui vrie :
V (s)
=
aA
P r(a| , s) r(s) +
s S
p(s |s, a)V (s ) .
Cette proprit utilise le fait que, pour la politique , les tats sont issus dun processus qui vrie la proprit de Markov. Or, ce nest pas le cas quand on utilise sur les observations, car les observations ne sont pas des tats dinformation. On ne peut alors dnir la fonction de valeur dune politique adapte, cest--dire dnie sur les seules observations. Mais on peut se servir de V pour dnir la fonction de valeur dune observation comme tant la valeur moyenne des tats sous-jacents cette observation si on avait utilis . Nous appelons cette nouvelle fonction la fonction de valeur adapte.
98
PDM en IA
D FINITION 3.4. Fonction de valeur adapte Pour une politique adapte , il existe une politique dnie sur les tats par lquation (3.10) qui permet de dnir la fonction de valeur adapte de de la manire suivante : (o) =
sS
Pr (s|o)V (s),
(3.11)
o Pr (s|o) est la distribution asymptotique de probabilit sur les tats, cest--dire la probabilit que ltat du MDP sous-jacent soit s quand on observe o quand t tend vers linni et V la fonction de valeur de . Cette dnition nest quune dnition et ne permet pas lagent de calculer la fonction de valeur dune observation puisquil na pas accs s. Nanmoins, munis de cette dnition, nous pouvons montrer que, contrairement un MDP, pour un POMDP , il nexiste pas forcment de politique stationnaire qui maximise la valeur de toutes les observations simultanment. Pour un MDP, la politique optimale maximisait simultanment la valeur de tous les tats. La preuve de cette afrmation peut se faire au travers de la gure 3.5. Dans ce quatre tats (1, 2a, 2b et 3) et trois observations (1, 2 et 3), le seul choix possible daction se fait pour lobservation 1 . Si lon y augmente la probabilit de choisir laction A , on augmente la valeur de lobservation 1 et on diminue la valeur de lobservation 2 . Leffet inverse se produit si on augmente la probabilit de choisir laction B . On ne peut donc maximiser la valeur de ces deux observations simultanment.
POMDP
Ainsi, la fonction de valeur adapte na pas du tout les mmes proprits que la fonction de valeur dun MDP. En particulier, on ne peut pas dnir de fonction de valeur adapte optimale, ni donc de politique adapte optimale. Du moins, en utilisant le critre -pondr. 3.2.2.3. Convergence des algorithmes adapts Puisquil nexiste ni fonction de valeur adapte optimale, ni politique adapte optimale, on peut lgitimement se demander si les algorithmes dnis pour les MDP sont dune utilit quelconque si on les adapte aux POMDP. En fait, il nest mme pas sr que ces algorithmes convergent, puisque leur convergence tait assure par lexistence dune solution optimale dans le cadre des MDP. Si lon y regarde de plus prs, il y a deux facteurs prendre en compte. Dune part, la fonction de valeur dune observation dpend de la probabilit doccupation des tats sous-jacents. On peut alors se dire que les algorithmes qui ne modient pas cette probabilit sous-jacente ont des chances de converger. Dautre part, nous avons

observation 2
99
2a observation 1 A (R) A (+R) 3 B (R) A (+R) 2b observation 3
A (0)
Figure 3.5. Pas de politiques adaptes optimales. Le POMDP de cette gure est constitu de quatre tats (1, 2a, 2b et 3) et de trois observations (1, 2 et 3). La seule dcision concernant la politique est faite pour lobservation 1 . Y augmenter la probabilit de choisir A augmente la valeur de 1 et diminue celle de 2 . Cest un exercice trs facile de montrer quon ne peut donc trouver de politique maximisant la valeur de toutes les observations.
vu quil ntait pas possible, dans le cas gnral, de maximiser la fonction de valeur de toutes les observations simultanment. Ds lors, il parat difcile de prvoir le comportement dalgorithmes qui essaient justement de trouver cette fonction de valeur dominante (comme par exemple Value Iteration ou Policy Iteration car ltape non-linaire de maximisation effectue chaque itration est une source dinstabilit potentielle). On peut nanmoins penser que des algorithmes qui explorent de manire stationnaire lenvironnement et sappuient sur une approximation stochastique de la fonction de valeur peuvent avoir une chance de converger. Les rsultats dmontrs dans la littrature semblent conrmer ces intuitions, puisque la convergence de deux algorithmes entrant dans le cadre nonc plus haut a t prouve (voir [SIN 94a]). TD(0) : Dans un POMDP, sous les conditions classiques de convergence, lalgorithme TD(0) converge avec une probabilit de 1 vers la solution du systme dquations ci-dessous

(o)
=
sS
Pr(s|o) r(s) +
o
Pr(s, o ) (o ) ,
(3.12)
o Pr (s, o ) =
s S
Pr (s |s)O(o |s ).
100
PDM en IA
Il est noter que la fonction de valeur vers laquelle on converge nest pas forcment la fonction de valeur dnie lquation (3.11). Il est dailleurs possible de montrer sur des exemples assez simples que cela nest pas le cas.
Q-Learning : Dans un POMDP, un algorithme de Q-Learning qui utilise une politique dexploration stationnaire exp converge vers la solution du systme dquations suivant avec une probabilit de 1 (sous les conditions classiques de convergence).
a
Q(o, a) =
sS
Prexp (s|o, a) r(s, a) +

o
Pr(s, o )maxa A Q(o , a ) ,
o Prexp (s|o, a) est la probabilit asymptotique doccupation de s sous la politique dexploration exp sachant quon observe o aprs avoir effectu laction a et o Pra (s, o ) = s S p(s |s, a)O (o |s ). Il est important de noter que le Q-Learning ne converge que si on explore lenvironnement avec une politique stationnaire (pas dalgorithme -greedy par exemple). En outre, le Q-Learning est limit par le fait quil converge vers une politique dterministe dont nous avons vu quelle pouvait tre clairement sous-optimale.
Ces limitations posent avec insistance le problme de lapprentissage dans un car, comme nous le verrons, la recherche de solutions optimales quand on connat le modle est en partie rsolu.
POMDP
3.2.3. Algorithmes adapts et critre moyen adapt
Nous venons de voir quil nest pas possible de dnir une fonction de valeur qui soit optimale sur toutes les observations la fois. An de comparer deux politiques adaptes entre elles et donc de dnir une politique adapte optimale, lide est de transformer cette fonction de valeur sur les observations en un scalaire, par exemple = en crivant que lon cherche maximiser o P (o) (o) o P est une distribution de probabilit sur . Parmi les choix possibles pour cette distribution, on peut naturellement penser la distribution initiale sur les observations, ou la probabilit asymptotique des observations. Cette dernire solution est en fait quivalente utiliser le critre moyen et donc le gain associ U (voir partie 1.5.4), comme lont montr les auteurs de [SIN 94a].
101
En effet, si on pose Pr (o) comme tant la probabilit asymptotique dune observation en suivant une politique , on peut crire le critre scalaire ci-dessus comme : Pr(o) (o) =
o o
Pr(o)
sS
Pr(s|o)V (s)
=
sS o
Pr(o) Pr(s|o)V (s) Pr(s)V (s)

sS
= =
sS
Pr(s)r(s, (s)) +
sS
Pr(s)
s S
p(s |s, (s))V (s )
= U +
s S
Pr(s )V (s ) Pr(o)V (o)

o U 1 .
= U + Pr (o)V (o) =
et donc
Il est alors tentant de chercher une politique adapte stochastique optimale au sens de ce critre scalaire en cherchant tout simplement la politique adapte stochastique qui optimise la rcompense moyenne. A notre connaissance, le seul algorithme pour trouver une politique de ce type a t propos par Jaakkola, Singh et Littman [JAA 94b]. Cet algorithme de type itration sur les politiques sappuie sur une mthode de Monte Carlo pour valuer la rcompense moyenne dune politique, ce qui permet de calculer des Q-valeurs et damliorer la politique courante. Le problme majeur de cette mthode, outre le fait quelle na jamais t teste en pratique, est quelle ne converge au mieux que vers un maximum local de la fonction de valeur scalaire. Le chapitre sur les mthodes de gradient pour la recherche de politique optimale (chapitre 12) exposera dautres mthodes approches pour rsoudre les POMDP, notamment lors de la section 12.2.4, page 369.
3.3. Calculer une politique exacte sur les tats dinformation Par lintermdiaire des tats dinformation, nous savons transformer un POMDP en un MDP. En thorie, les outils de rsolution des MDP peuvent tre utiliss pour trouver une politique optimale. En pratique, le problme est plus dlicat, notamment cause de la taille et de la nature de lespace des tats dinformation. En fait, la rsolution
102
PDM en IA
dun POMDP ayant un seul tat initial, en horizon ni, est un problme PSPACE-dur [PAP 87]. N OTE. Dans la suite de ce chapitre, nous allons travailler avec le critre actualis et la fonction de valeur associe V . 3.3.1. Cas gnral 3.3.1.1. Horizon ni En thorie, pour un horizon ni N , il suft dutiliser le principe de la programmation dynamique pour, dune manire similaire lalgorithme 1.1, trouver la politique et la fonction de valeur optimales. Ainsi, partant de la fonction de valeur V0 = maxaA (I, a) au dernier pas de temps, on applique rcursivement loprateur de programmation dynamique (qu. (3.7), section 3.1.5) N fois de la manire suivante :
Vn (I ) Pr(o|I, a)Vn 1 ( (I, o, a)) . o
max (I, a) +
aA
(3.13)
Lquation (3.13) dnit aussi un oprateur que nous noterons L. On a alors Vn = LVn . 1
Une fois que lon connat la fonction de valeur optimale, la politique optimale n sen dduit par :
n (I )
argmax (I, a) +
aA o
Pr(o|I, a)Vn 1 ( (I, o, a)) .
3.3.1.2. Horizon inni Plaons nous maintenant dans le cas dun horizon inni. Loprateur L que nous venons de dnir possde les mmes proprits que loprateur utilis dans les MDP la section 1.5.2, cest une contraction (pour toutes fonctions U et V , on a LU LV U V o V = maxI V (I )). Il est alors possible de trouver une fonction de valeur -optimale en utilisant une mthode de type itration sur les valeurs dont le pas ditration est : Vi+1 = LVi . (3.14)
103
0 V(b) 1
2 3 0 b(s0) 1
Figure 3.6. fonction de valeur convexe linaire par morceaux. La fonction de valeur V dun POMDP avec deux tats (s0 et s1 ) est reprsent laide de 4 vecteurs de paramtres i , chacun de dimension 2. On trouve lespace des tats dinformation le long de laxe des abscisses et les valeurs sont sur laxe des ordonnes. Une seule probabilit b(s0 ) permet de dcrire ltat de croyance car b(s1 ) = 1 b(s0 ). Sur cette gure, chaque segment linaire de la fonction de valeur est trac avec une ligne ne tandis que la fonction de valeur elle-mme est indique en gras.
Puisquil existe une fonction de valeur optimale V et que L est une contraction, on peut utiliser le thorme de Banach pour prouver que cette mthode ditration sur les valeurs converge vers V . Ds lors, il suft dun nombre ni ditrations de la mthode pour atteindre une solution -optimale do il est possible de dduire une politique optimale.
3.3.2. Etats de croyance et fonction de valeur linaire par morceaux En pratique, les deux schmas de calcul voqus dans la partie prcdente sont difcilement utilisables. Le problme vient du fait que les espaces dtats dinformation sont continus ou de taille consquente et il peut alors tre impossible de calculer ou de reprsenter les fonctions de valeur et les politiques optimales. En travaillant avec les tats de croyance et les POMDP qui admettent de tels tats dinformation, il est possible dexploiter les proprits particulires des fonctions de valeur pour proposer des algorithmes plus efcaces. La fonction de valeur optimale pour un problme horizon ni est linaire par morceaux et convexe (LPMC) [SON 71]. Cest une proprit trs importante car elle permet de reprsenter la fonction de valeur avec un nombre ni de paramtres, ainsi que le montre la gure 3.6.
104
PDM en IA
Comme la fonction de valeur est dnie sur lespace B qui est de dimension |S|1, chaque segment linaire utilis dans sa reprsentation est de dimension |S| et peut donc tre reprsent par un vecteur avec |S| coefcients. Pour ces vecteurs, (s) sera la s-ime composante de ce vecteur. Lensemble des vecteurs permettant de reprsenter la fonction de valeur LPMC est not . On dit que reprsente V , ce qui se traduit par : V (b) = = max
sS
b(s)(s)
(3.15) (3.16)
max b..

Il reste maintenant dmontrer que la fonction de valeur optimale est bien linaire par morceaux et convexe. Cette dmonstration sappuie sur le thorme suivant dmontr par Smallwood. T HORME 3.1. (Fonction de valeur linaire par morceaux et convexe). ( [SMA 73]) Soit L loprateur de Bellman dni lquation (3.13) et soit Vinit une fonction de valeur initiale qui est linaire par morceaux et convexe, dnie sur lespace B des tats de croyance. Alors, pour un POMDP admettant des tats de croyance, on a : Vn = Ln Vinit , obtenue aprs n applications de loprateur L sur Vinit , est elle aussi linaire par morceaux et convexe sur B ; Vn peut tre reprsente par un ensemble ni = {} de vecteurs de taille |S| par Vn (b) = max b.. P REUVE. Nous allons montrer que si, aprs i 1 applications de loprateur L, la fonction de valeur Vi1 est linaire par morceaux et convexe, alors la fonction de valeur Vi obtenue aprs une nouvelle application de loprateur est elle aussi LPMC. Supposons donc que Vi1 est LPMC, il existe alors i1 tel que Vi1 =
i1 i1
max
bi1 (s )i1 (s ).
s S
Si a est laction effectue alors quil restait i actions choisir et o lobservation reue aprs. Alors, on peut crire ltat de croyance bi1 comme tant : bi1 = Pr(s |bi , a, o), ce qui nous permet dobtenir : Vi1 =
i1 i1
max
Pr(s |bi , a, o)i1 (s ).

s S
105
On peut alors substituer Vi1 dans lquation (3.13) dnissant loprateur L, ce qui donne : Vi (bi ) = max (bi , a) +
aA o
Pr(o|bi , a)
i1 i1
max
Pr(s |bi , a, o)i1 (s ) ,

s S
que lon peut rcrire en : Vi (bi ) = max

aA sS
r(s, a)bi (s) +

o
Pr(o|bi , a)
i1 i1
max
Pr(s |bi , a, o)i1 (s )

s S
= max
aA sS
r(s, a)bi (s) +

o
i1 i1
max
Pr(o|bi , a) Pr(s |bi , a, o)i1 (s )

s S
= max
aA sS
r(s, a)bi (s) +

o
i1 i1
max
Pr(s , o|bi , a)i1 (s )

s S
= max
aA sS
r(s, a)bi (s) +

o
i1
max
Pr(s , o|s, a)bi (s) (s ) .

s S sS
a,o a,o Soit i 1 (b) llment optimal de i1 pour b, a et o donns, cest--dire i1 (b) = argmaxi1 i1 sS Pr(s|bi , a, o)i1 (s). Cela revient chercher le segment de droite qui dnit la fonction de valeur pour b, a et o donns. Alors, nous pouvons crire :
Vi (bi ) = max
aA sS
r(s, a)bi (s) +

o s S sS
a,o Pr(s , o|s, a)bi (s) i 1 (bi , s )
= max
aA sS
bi (s) r(s, a) +
o s S
a,o Pr(s , o|s, a)i 1 (bi , s )
Lexpression entre les crochets intrieurs de lquation prcdente peut se reprsenter par |A||i1 ||| diffrents vecteur de taille |S| : il faut en effet au maximum un vecteur par choix de a et dune squence de || vecteurs de i1 . On peut dire que ces vecteurs forment alors lensemble i , ce qui permet dcrire Vi (bi ) comme tant : Vi (bi ) =
i i
max
bi (s)i (s).
sS
Cela signie que Vi est bien une fonction linaire par morceaux et convexe et quelle peut se dnir par un ensemble ni de vecteur i de i . Chacun de ces vecteurs i est de la forme : i (b, s) = r(s, a) +
o s S a,o Pr(s , o|s, a)i 1 (b, s ).
(3.17)
106
PDM en IA
Comme la fonction de valeur initiale Vinit est linaire par morceaux et convexe, on en dduit aisment quaprs tout nombre ni dapplications de loprateur L on obtient bien une fonction de valeur qui est elle aussi LPMC, ce qui conclut la dmonstration. Pour montrer que la fonction de valeur est LPMC en utilisant le thorme prcdent, il ne nous reste plus qu montrer que toute fonction de valeur optimale pour un horizon de taille 1 est LPMC. Quand il ne reste plus quune action a choisir, seule la rcompense immdiate intervient dans la dnition de la fonction de valeur. On a alors immdiatement : V1 (b) = = max
aA sS
b(s)r(s, a)
max b.r(a).
aA
V1 est donc trivialement LPMC et peut tre reprsente par au plus |A| vecteurs. Ainsi, en utilisant le thorme prcdent, on obtient alors immdiatement que toute fonction de valeur optimale pour un horizon ni est linaire par morceaux et convexe. De plus, la dmonstration du thorme tant constructive, on sait aussi que : on peut toujours calculer la fonction de valeur optimale pour un horizon ni en un nombre ni doprations ; la fonction de valeur optimale pour un horizon ni peut tre reprsente par un ensemble ni de vecteurs de taille |S| ; la politique optimale est donc calculable elle aussi en un temps ni. 3.3.2.1. Choix des vecteurs Une fonction de valeur optimale pour un horizon ni peut tre reprsente par un nombre ni de vecteurs. Nous avons vu dans la dmonstration du Thorme 3.1 quil fallait au maximum |A||i1 ||| vecteurs pour reprsenter Vi . En fait, on peut encore rduire ce nombre en ne considrant que lensemble poss des observations possibles aprs avoir excut une action dans un tat de croyance donn. La borne devient donc poss |A||i1 ||| . En pratique, il faut beaucoup moins de vecteurs pour reprsenter la fonction de valeur. Certains vecteurs (comme par exemple le vecteur 2 dans la gure 3.6) sont en effet domins par les autres et leur omission ninuence pas la fonction de valeur. On appelle ce type de vecteur un vecteur domin. Inversement, un vecteur qui permet de calculer la valeur optimale pour au moins un point de lespace des tats de croyance est appel un vecteur utile. On comprend aisment que, pour faciliter le calcul des fonctions de valeur, il faut minimiser le nombre de vecteurs utiliss pour reprsenter les fonctions. Pour un tat
107
de croyance I donn, il faut utiliser chaque vecteur de la reprsentation pour trouver la fonction de valeur. Il est donc trs intressant dliminer tous les vecteurs domins dune reprsentation, ce qui est un problme trs difcile et [LIT 95a] a montr que cela ne pouvait tre fait efcacement que si RP=NP, cest--dire si tous les algorithmes de dcision non-dterministes ont une probabilit signicative de succs. La recherche des fonctions de valeur doit donc faire face une possible explosion du nombre de vecteurs (taille exponentielle en ||), mais aussi la difcult de trouver les vecteurs utiles. Les algorithmes de recherche de fonction optimale que nous allons dtailler dans la partie 3.4 explorent plusieurs mthodes pour rendre efcace cette recherche des vecteurs utiles la reprsentation. 3.3.2.2. Horizon inni
Bien que chaque fonction de valeur Vn soit linaire par morceaux et que
lim
Vn V
0,
rien ne dit que la fonction de valeur optimale pour un horizon inni soit elle aussi linaire par morceaux. [SON 71] a montr quil existe une classe de POMDP o V est LPMC, il lappelle la classe des POMDP transitoires4. Quand le POMDP nest pas transitoire, on peut approcher aussi prcisment que lon veut la fonction de valeur optimale ainsi que la politique optimale en horizon inni par une politique transitoire admettant une fonction de valeur optimale. On parle de solution -optimale. Par contre, toutes les fonctions de valeur en horizon inni, mme celles qui ne sont pas transitoires, sont convexes.
3.4. Algorithmes exacts ditration sur les valeurs 3.4.1. Etapes de loprateur de programmation dynamique Le problme crucial lapplication de loprateur de la programmation dynamique est la construction de lensemble de vecteurs n partir de n1 . Cette opration est rsume (on peut aussi dire cache) dans lquation (3.17). Nous allons dtailler le principe de cette construction et en donner un exemple qui essayera dexpliciter les principales notions utilises dans les algorithmes que nous allons tudier par la suite.
4. de langlais transient
108
PDM en IA
Vn1 n1,0
n1,1
n1,1
n1,0
Figure 3.7. fonction de valeur ltape n 1. Ce POMDP deux tats sert dexemple pour expliciter la construction de lensemble n . A ltape n 1, la fonction de valeur est reprsente par deux vecteurs, qui sont chacun associ une politique. Les rgions de dominance sont dmarques par les barres au bas de la gure. Les politiques associes ces rgions sont indiques sous les barres.
Partons donc dun ensemble n1 de vecteurs dcrivant la fonction de valeur optimale pour un horizon de taille n 1. Chacun des vecteurs n1 domine les autres dans une rgion de lespace B des tats de croyance et, fait important, reprsente aussi la meilleur politique suivre dans cette rgion. On peut associer chaque vecteur n1 une politique n1 dhorizon n 1. La gure 3.7 illustre le cas qui nous servira dexemple, avec un ensemble de 2 vecteurs (n1,0 et n1,1 ). Les rgions o dominent les vecteurs sont reprsentes par la barre grise le long de laxe des abscisses. La construction de lensemble n se comprend plus facilement en la dcomposant et cest aussi la dmarche suivie par les deux algorithmes que nous allons prsenter. a1,o1 Supposons que nous voulons calculer Vn aprs avoir effectu laction a1 et observ o1. On sait alors que la fonction de valeur sera reprsente par les vecteurs a1,o1 {n } donns par lquation (3.17) adapte ce cas prcis, cest--dire :
a1,o1 n (b, s)
r(s, a1) + ||
a1,o1 a1,o1 p(s, a1s )O(s , o1)n , s).(3.18) 1 (b s S
Cette fonction de valeur sera reprsente avec au plus |n1 | vecteurs. La gure 3.8 illustre cette transformation de la fonction de valeur. Il est noter que cette fonction de valeur est un peu particulire puisquelle prend en compte la probabilit que o1 soit ) observe, ce qui se traduit par le terme r(|s,a | puisque nous avons fait le choix ici de distribuer uniformment la rcompense immdiate sur les observations.

a1
109
Vn1 n1,0
Vn
a1,o1
n,0
n,1 n1,1
a1,o1
n1,1
n1,0
a1:o1: n1,1
a1:o1: n1,0 1
Figure 3.8. fonction de valeur ltape n pour a1 et o1. Pour une action et une observation donnes, la nouvelle fonction de valeur se reprsente avec, au plus, le mme nombre de vecteur. Ces vecteurs dnissent des nouvelles rgions o les politique dhorizon n commencent toutes par a1 : o1 avant dutiliser la meilleure politique dhorizon n 1.
Avec a1 toujours x, on peut ainsi calculer la fonction de valeur pour chaque observation o possible. Lide est maintenant dutiliser ces fonctions de valeur pour a calculer la fonction de valeur Vn reue aprs avoir effectu laction a1. Cest aussi une fonction LPMC. Cest en fait la moyenne des fonctions de valeur associs chaque a1,o1 couple (a1, o). Etant donn que les fonctions Vn prennent dj en compte les probabilits dobservation, il est trivial de montrer que, pour chaque tat de croyance b on a :
a1 n (b)
=
o
a1,o n (b).
(3.19)
De cette manire, nous gnrons en fait au plus |n1 || (a1)| vecteurs. Pour chaque vecteur, nous aurons un ensemble de politiques qui commencent toutes par laction a1 et qui dpendent ensuite de lobservation reue. Cette tape est illustre par la gure 3.9. Il reste enn combiner les fonctions de valeur calcules pour chaque action an de dterminer la fonction de valeur Vn pour un horizon n. Pour chaque tat de a croyance, la fonction est reprsente par le meilleur vecteur Vn et on a :
succ
n (b)
a max n (b). aA
(3.20)
110
PDM en IA
a1
Vn
a1:o3: n1,1 o3 o2 a1:o2: n1,0 o1 0 a1:o1: n1,1 b a1:o1: n1,0 1 a1:o2: n1,1 a1:o3: n1,0
Figure 3.9. fonction de valeur ltape n pour a1. Pour une action donne, la nouvelle fonca1,o . Ces vecteurs tion de valeur se reprsente avec des vecteurs qui sont sommes des vecteurs n dnissent des nouvelles rgions o les politique dhorizon n commencent toutes par a1 avant dutiliser la meilleure politique dhorizon n 1 en fonction de lobservation qui sera perue. Par exemple, pour ltat de croyance b indiqu, aprs avoir effectu a1, il faudra utiliser n1,1 si o = o1 et n1,0 sinon.
Cest cette tape quil est possible dliminer le plus de vecteurs qui ne sont pas utiles pour reprsenter la fonction de valeur. La gure 3.10 explicite cette tape en a1 a2 combinant les fonctions de valeur Vn et Vn de deux actions, en liminant les vecteurs inutiles (indiqu en pointills). 3.4.2. Obtenir une reprsentation parcimonieuse de V Nous dnissons ici la notion de reprsentation parcimonieuse de V et prsentons quelques techniques pour obtenir cette reprsentation parcimonieuse en laguant les vecteurs domins. 3.4.2.1. Rgion Un ensemble donn dnit une partition sur lespace des vecteurs estims B . Chaque partie de cette partition est associe un vecteur de . Par exemple, sur la gure 3.7, la partition est constitue de deux parties. La rgion R(, ) associe un vecteur est la portion de B o ce vecteur domine les autres. D FINITION. Soient un espace dtats de croyance B et une reprsentation dune fonction de valeur , la rgion R(, ) associe un vecteur de est dnie par : R(, ) = {b | b. > b. , {}, b B}. (3.21)
111
Vn
a1
Vn
a2
Vn
0 a2:.. a1:..
b a1:..
1 a1:...
Figure 3.10. fonction de valeur ltape n. Il faut maintenant chercher la meilleure action, ce qui revient chercher, pour chaque tat de croyance, le meilleur vecteur pour le reprsenter. Nous avons ici combin les fonctions de valeur de deux actions (a1 et a2), ce qui permet en outre dliminer des vecteurs inutiles (indiqus en pointills). Pour chacune des rgions dtermines, nous avons indiqu le dbut de la politique optimale dhorizon n.
112
PDM en IA
A cause de lingalit stricte, les rgions ne dnissent pas exactement une partition de B et les points exclus sont des points o plusieurs vecteurs donnent une mme valeur la fonction de valeur. Ces points sont assez particuliers et peuvent poser problme, comme nous le verrons la partie 3.4.2.5. La notion de rgion est trs importante. Elle est utilise par de nombreux algorithmes pour calculer la fonction de valeur. Lalgorithme TrouveVectDansRegion (Alg. 14) dcrit la procdure qui dtermine si la rgion dun vecteur est vide (cest alors un vecteur inutile) et, dans le cas contraire, retourne un vecteur particulier de cette rgion. Il faut pour cela utiliser une mthode de programmation linaire pour optimiser une fonction sous contraintes qui est dnie par la mthode PrepareProgLin explicite dans lalgorithme 15. Algorithme 3.1 : TrouveVectDansRegion(, ) Entres : Une reprsentation , un vecteur Sorties : Un point de cette rgion ou null LP PrepareProgLin ( , ) ResoudProgLin (LP) si SansSolution (LP) alors retourner null si value(LP) 0 alors retourner null retourner Solution (LP)
Algorithme 3.2 : PrepareProgLin(, ) Entres : Une reprsentation , un vecteur Sorties : Un problme de programmation linaire rsoudre maxIR avec ) , , = x.( x (S )
3.4.2.2. Reprsentation parcimonieuse Dans un ensemble quelconque, certains vecteurs ne sont pas ncessaires la reprsentation de la fonction de valeur. Cest le cas des vecteurs domins. D FINITION. Soit reprsentant une fonction de valeur. Un vecteur de est domin si b B on a : b. max b. .
113
0 V(b) 4 1
2 3 0 b(s0) 1
Figure 3.11. Reprsentation parcimonieuse de V . Tous les vecteurs de ne sont pas utiles pour reprsenter V . Le vecteur 2 , qui est entirement domin par 1 , sera enlev par la procdure VerifDomination. Quand au vecteur 4 , il faut la procdure plus complexe Elagage pour lliminer.
Si est domin, on montre trivialement que et {} reprsentent la mme fonction de valeur : un vecteur domin peut tre enlev de sans danger. En fait, on peut montrer (voir par exemple [LIT 96]) quune fonction de valeur LPMC possde une unique reprsentation minimale o aucun vecteur nest domin. On dit que cette reprsentation est parcimonieuse. Sur lexemple de la gure 3.11 on voit bien que les vecteurs 2 et 4 ne sont pas utiles pour reprsenter V . Dans ce cas, la reprsentation parcimonieuse est = {0 , 1 , 3 }. D FINITION. Une reprsentation parcimonieuse dune fonction de valeur LPMC est telle que, pour tout , la rgion R(, ) nest pas vide. Il reste maintenant construire cette reprsentation parcimonieuse partir dune reprsentation donne. 3.4.2.3. Elimination des vecteurs domins La Recherche de Domination Simple est une procdure trs simple pour liminer des vecteurs inutiles dune reprsentation . On recherche les vecteurs qui sont entirement domins par un seul autre vecteur. Ce sont des vecteurs tels quil existe un tel que s S , (s) (s ). Bien que cette procdure ne gaautre vecteur rantisse pas de diminuer ou dliminer tous les vecteurs inutiles (voir gure 3.11), elle est trs efcace dun point de vue computationnel.
114
PDM en IA
Lalgorithme VerifDomination (Alg. 16) dtaille la procdure qui permet de nettoyer une reprsentation des vecteurs entirement domins. On y utilise la procdure EnleveElement qui retire un lment dun ensemble. Algorithme 3.3 : VerifDomination() Entres : Une reprsentation Sorties : Une reprsentation sans vecteur domin si || < 2 alors retourner rpter EnleveElement() t.q. alors si , . } { | {} jusqu = retourner
3.4.2.4. Elagage La mthode la plus simple pour rendre une reprsentation parcimonieuse consiste regarder, pour chacun de ses vecteurs, si la rgion associe est vide. Cest le principe de lalgorithme propos par Monahan [MON 82], mais cest une mthode plutt inefcace. Il existe une mthode dlagage beaucoup plus efcace propose par Lark et White [WHI 91] et dtaille dans lalgorithme Elagage (Alg. 17). Le principe de Elagage est de construire incrmentalement la reprsentation par de cette reprsentation cimonieuse en ayant, tout moment, un sous-ensemble parcimonieuse. Prenant dans un nouveau vecteur candidat , le fait de chercher si nest pas vide est rapide (car est petit), par contre une sa rgion associe dans rponse positive nassure pas que cest un vecteur dominant (on ne connat pas en nest pas encore complte. Il core la vraie reprsentation) mais simplement que faut encore y ajouter au moins un vecteur dominant et on utilise pour cela la routine . La routine MeilleurVecteur MeilleurVecteur alors que a t remis dans recherche, pour ltat de croyance retourn par TrouveVectDansRegion, le meilleur qui sera alors ajout . Il y a une petite subtilit dans le choix vecteur restant dans de ce meilleur vecteur, comme nous allons le voir maintenant. 3.4.2.5. Choix dun vecteur en un point Les diverses versions de lquation (3.17) que nous avons explicites dans la section 3.4.1 dtaillant une application de loprateur de la programmation dynamique permettent de calculer le vecteur dominant en un point b quelconque de lespace des
115
) Algorithme 3.4 : Elagage( de V Entres : Une reprsentation Sorties : Une reprsentation parcimonieuse de V = faire tant que EnleveElement( ()) b TrouveVectDansRegion(, ) si b = null alors {} , b) MeilleurVecteur( {} { } retourner
V 1,
Figure 3.12. Vecteur dominant. Quel est le vecteur dominant au point I ?
tats de croyance. Il subsiste un problme potentiel quand plusieurs vecteurs sont candidats en un point (illustr par la gure 3.12) : lequel est le vecteur dominant en un point I donn ? Il faudrait en fait pouvoir tester la validit de ces vecteurs dans un voisinage de b, ce qui nest pas simple mettre en place de manire exacte. Une solution plus subtile consiste doter les vecteurs dun ordre lexicographique. Pour cela il faut doter les tats dun ordre xe et arbitraire sur S , on le note s s .
116
PDM en IA
L
D FINITION. Le vecteur est lexicographiquement plus grand que (not > ) sil existe un tat s tel que (s) > (s) et (s ) = (s ) pour tout s s. Alors, sans entrer dans les dtails de la dmonstration, Littman a prouv (thorme 3.2) que, en cas de doute, le vecteur maximal au sens de cet ordre lexicographique sera bien un vecteur qui fait partie de la reprsentation parcimonieuse de la fonction de valeur. En effet, la rgion de ce vecteur sera non vide, et cest bien sur le vecteur qui est retourn par lalgorithme MeilleurVecteur (Alg. 19), en saidant de la procdure MaximumLexicographique (Alg. 18) qui retourne le maximum lexicographique de deux vecteurs. T HORME 3.2. Soient une fonction de valeur, b un point de lespace des tats de croyance et lensemble des vecteurs donnant une valeur maximum de la fonction de valeur en b ( = {argmax b.}). Alors, sil existe un tel que > pour tous les autres , alors R( , ) est non-vide. ([LIT 96]) ) Algorithme 3.5 : MaximumLexicographique(, de Entres : Deux vecteurs et Sorties : Le maximum lexicographique des deux vecteurs pour chaque s S faire (s) alors si (s) > retourner (s) alors si (s) < retourner retourner
L
Algorithme 3.6 : MeilleurVecteur(, b) Entres : Une reprsentation , un tat de croyance b Sorties : Le meilleur vecteur de pour cet tat v pour chaque faire v b. si v = v alors v MaximumLexicographique( , ) si v > v alors v v retourner
117
3.4.3. Lalgorithme W ITNESS Lalgorithme W ITNESS a t propos par Cassandra, Littman et Kaelbling [CAS 94] en 1994. Il a ensuite t tudi plus formellement an de prouver son optimalit [LIT 96]. Pour chaque action a de A, lalgorithme calcule une reprsentation parcimonieuse de a n partir de n1 en explorant un nombre ni de rgions de B . Cest dans la faon de choisir ces rgions que rside toute lintelligence de lalgorithme, comme nous allons le voir. Il est noter que dautres mthodes sappuient aussi sur lexploration de rgions, mais pour construire n directement (voir [SON 71, SMA 73, CHE 88]). 3.4.3.1. Voisinage dun vecteur
a a La notion du voisinage dun vecteur n de Vn est cruciale pour lalgorithme W ITNESS puisque cest en vriant les voisins dun vecteur que lon peut savoir si la a construction courante de la reprsentation parcimonieuse de Vn est complte ou pas.
On peut rcrire lquation (3.18) sous la forme : r(a) a,o a,o + P a,o n ), 1 (b ||
a,o n
(3.22)
a,o a,o o n ) est le vecteur de n1 qui est le meilleur pour ltat de croyance ba,o . 1 (b Mais si on enlve les rfrences aux tats de croyance, on peut aussi construire toute une famille de vecteurs
a,o
r(a) + P a,o n1 , ||
(3.23)
o n1 est simplement un vecteur de n1 . On construit ainsi lensemble a,o n et, a par combinaison, lensemble qui contient la reprsentation parcimonieuse a n de a Vn . Il y |n1 ||| vecteurs possibles dans |a | . On peut dnir la notion de voisinage n pour ces vecteurs comme suit :
a D FINITION 3.5. Un vecteur de a n est un voisin du vecteur n = a lui est aussi dans n ) si a,o o n
(qui
a,o + = n
o=o
a,o n ,
a,o = a,o . a,o a,o et o o , n n n n
118
PDM en IA
possde |O|(|n1 | 1) voisins, on note N ( ) lensemble de ses Un vecteur voisins. Tout lintrt des voisins vient du thorme suivant qui dit que, sil existe un point de B o il existe un meilleur vecteur, alors cest vrai aussi pour un des voisins de ce vecteur (voir [CAS 98]). a tels que a a , il existe un b B et un T HORME 3.3. Pour tout n n n n a a ) tel que b. > b. a . > b. a si et seulement sil existe un voisin N ( b. n n n n P REUVE. Nous allons procder en deux temps. a = b. a > b. a . Prouvons que b. > b.
n n n a
Comme a n , cest vident. a . a > b. a = b. > b. Prouvons que b. n n n Nous allons prouver que existe en le construisant. Nous avons a > b. a b.
n n
a,o b. n
o
>
o
a,o . b. n
Comme la premire somme est plus grande que la deuxime, il existe forcment une observation o telle que a,o > b. a,o . b. n n Nous allons nous servir de ce fait pour construire a,o = a,o b. b.
n n o =o o=o
b. n b. n
a,o
+
o=o
a,o b. n
>
a,o + b. n
o=o
a,o b. n
a,o
+
o=o
a,o n
>
a . b. n a,o pour terminer la dmonstration de cette n
a,o + Il suft de poser = n implication et donc du thorme. 3.4.3.2. Lalgorithme
o=o
Lalgorithme W ITNESS construit progressivement une reprsentation parcimonieuse a a n dune fonction de valeur Vn pour une action a xe. Comme dcrit dans lalgo grossit en stockant petit petit les vecteurs rithme Witness (Alg. 20), lensemble (b) V (b). qui composent , de sorte que lon a toujours V Pour ce faire, lalgorithme choisit dabord un vecteur b de B et cherche le meilleur vecteur de la rgion laquelle appartient ce vecteur, ainsi que tous les voisins de
119
ce meilleur vecteur. Ces voisins forment lensemble qui servira, en quelque sorte, dagenda. Un par un, les vecteurs v de lagenda sont examins pour : soit lenlever de lagenda si la rgion dnie par v est vide (car v est alors un vecteur inutile pour V ) ; soit ajouter le meilleur vecteur de la rgion dnie par v aux vecteurs dnissant V et mettre tous les voisins de ce vecteur dans lagenda. Il est aussi important de remettre v dans lagenda car, bien que v ne soit pas maximal pour linstant, nous navons pas encore la certitude quil est inutile. Algorithme 3.7 : Witness(n1 , a) Entres : Une reprsentation parcimonieuse n1 de Vn 1 , une action a ,a Sorties : Une reprsentation parcimonieuse de Vn b un tat de croyance de B a {n (b)} a N (n (b)) tant que = faire v EnleveElement() alors si v b null sinon b TrouveVectDansRegion(v, ) si b = null alors {a (b)} n {v } a N (n (b)) a n retourner a n
La validit de lalgorithme repose sur le thorme 3.3. En essence, quels que soient , sil y a un vecteur de a les vecteurs actuellement prsents dans n qui serait meilleur en un point b, alors un des voisins v du vecteur de qui est actuellement le meilleur en b donne aussi une meilleure valeur en ce point b. Comme lalgorithme vrie tous , nous sommes srs de ne manquer aucun vecteur de a les voisins des vecteurs de n. La preuve formelle est un peu plus complexe. Lefcacit de lalgorithme peut tre amliore de plusieurs manires. En particulier, [CAS 98] mentionne le fait de choisir avec pertinence les vecteurs de la repr ou dviter de tester plusieurs fois un vecteur v de ou encore sentation initiale de vrier lutilit des voisins dun vecteur avant de les ajouter . Il nen reste pas moins que la porte pratique de cet algorithme est limite car, pour des raisons de
120
PDM en IA
mmoire et de temps de calcul, on ne peut appliquer plus de quelques itrations (de lordre de 4 ou 5) des problmes avec une poigne dtats. 3.4.4. Elagage itratif (Iterative pruning) Lalgorithme dLAGAGE ITRATIF est un peu plus efcace que lalgorithme W ITNous prsentons tout dabord un algorithme dlagage trs simple, puisquil parcourt tous les vecteurs pour laguer ceux qui sont domins.
NESS.
3.4.4.1. Enumration complte Pour trouver une reprsentation parcimonieuse de n , il est possible dnumrer tous les vecteurs possibles de cet ensemble et de les laguer ensuite. Cest la mthode propose par Monahan [MON 82] et nous allons la dtailler un peu pour comprendre le fonctionnement de llagage itratif. Posons n =
a,o r (a) | |
s S
a,o a,o p(s, a, s )O(s , o)n ) 1 (b
(a,o)
Cest lensemble de tous les vecteurs possibles de a,o n . Si on cherche toutes les combinaisons possibles de ces vecteurs (en sinspirant de lquation (3.19)), on obtient a un nouvel ensemble n qui contient a n . Nous appellerons cette opration la somme croise et nous noterons n
a
=
o
n .
a,o
Ainsi, lensemble complet des vecteurs gnrant Vn scrit n =

a
n .
Et il ne reste plus qu laguer cet ensemble pour obtenir une reprsentation parcimonieuse
a
E LAGAGE
a
Linconvnient de cette mthode est que sa complexit est exponentielle en la taille de . Lide est alors deffectuer llagage de manire incrmentale.
121
3.4.4.2. Enumration incrmentale Comme W ITNESS, lalgorithme dlagage incrmental cherche dabord des reprsentations parcimonieuses de a n pour ensuite les combiner et trouver n . Comme a ), nous avons a = E LAGAGE ( n n a n
a,o
E LAGAGE
o
Puisque la procdure E LAGAGE cherche en fait les vecteurs maximaux, il est facile de montrer que ces derniers sont en fait obtenus par combinaisons de vecteurs euxmmes maximaux, ce qui nous permet dcrire que :
a,o
a n
E LAGAGE
o
E LAGAGE(n )) a,o n
o
E LAGAGE
Il faut conserver loprateur E LAGAGE lextrieur de la somme croise car, si tous les vecteurs maximaux sont des combinaisons de vecteurs maximaux, certaines de ces combinaisons sont tout de mme inutiles. En continuant, on obtient : a n = E LAGAGE
o 0 a,1 a,2 a,||1 = E LAGAGE a, n n n n 0 a,1 a,2 a,||1 = E LAGAGE E LAGAGE(E LAGAGE(a, . n n ) n ) n
a,o n
Cette quation rsume donc lalgorithme dlagage incrmental. Lide, comme le montre la gure 3.13, est dlaguer les combinaisons de deux ensembles de vecteurs 0 a,1 a, n et n (reprsents par leur partition en rgions) pour obtenir un ensemble lagu intermdiaire. Les vecteurs de ce nouvel ensemble sont ensuite combins avec 2 ceux de a, n et ainsi de suite. Cette mthode est dtaille par lalgorithme de la table 21. Lensemble sert stocker tous les vecteurs de a,o n et les rsultats intermdiaires obtenus par lagage de deux de ces vecteurs.
122
PDM en IA
a, 0
a, 1
a, 2
a, 0+1
a, 0+1
a, 2
Figure 3.13. Elagage incrmental de a n Pour construire une reprsentation parcimonieuse a,0 1 de a et a, n , llagage incrmental part de deux ensembles n n . Lensemble form par toutes les combinaisons de vecteurs issus de ces deux ensembles est ensuite lagu pour former 1+2 2 lensemble parcimonieux a, . Cest ensuite cet ensemble qui est combin avec a, n n pour a,0+1+2 a crer n et ainsi de suite pour obtenir n .
Algorithme 3.8 : ElagageIncremental(n1 , a) Entres : Une reprsentation parcimonieuse n1 de Vn 1 , une action a ,a Sorties : Une reprsentation parcimonieuse de Vn o {a,o n } tant que || > 1 faire A EnleveElement() B EnleveElement() D E LAGAGE(A B ) {D} retourner
123
3.5. Algorithmes ditration sur les politiques A linstar de lalgorithme ditration sur les politiques (cf. algorithme 1.5, page 44), il est possible de chercher une solution optimale un POMDP directement dans lespace des politiques. Reste alors bien prciser dans quel espace se fait cette recherche. Si on se place dans lespace des politiques dnies sur les tats de croyance ( : B A), on se trouve dans un espace inni continu o il faut chercher un maximum absolu. Lalgorithme propos par Sondik (voir [SON 78]) permet, en thorie, de trouver une solution exacte pour les POMDP transitoires et une solution -optimale sinon. Par contre, son application pratique est limite des cas trs simples au vu de la complexit de chaque itration. Une alternative intressante, propose par Hansen [HAN 98b], sappuie sur le fait que les politiques des POMDP transitoires peuvent tre reprsentes par des automates avec un nombre ni dtat, comme celui de la gure 3.3 page 94. Cette reprsentation permet de lever la principale difcult de lalgorithme de Sondik car ce dernier, qui sappuie sur un dcoupage de B en rgion, doit transformer cette reprsentation en un contrleur tats nis quivalent, ce qui est extrmement coteux. Hansen choisit de travailler directement avec des contrleurs tats nis. Le cur de lalgorithme repose sur une mise jour du contrleur laide de loprateur de la programmation dynamique, ce qui permet damliorer les performances de la politique. Sondik a montr que la fonction de valeur dune politique exprime comme un contrleur tats nis est linaire par morceaux [SON 78]. Soit un tel contrleur , appelons V sa fonction de valeur, qui peut donc tre dcrite par un ensemble de vecteurs {i }, avec exactement un vecteur par nud i du contrleur. A chaque vecteur i , li au nud i, on peut associer une action a(i) et une transition vers le nud l(i, o) (ou le vecteur l(i,o) ) pour chaque observation o. Cette fonction de valeur vrie lquation suivante pour chaque nud i du contrleur et chaque tat s du POMDP : i (s) = r(s, a(i)) +
s ,o
Pr(s |s, a(i)) Pr(o|s )l(i,o) .
(3.24)
En appliquant loprateur de la programmation dynamique (cf. section 3.4.1) sur . Il est facile de les vecteurs de V , on obtient une nouvelle fonction de valeur V j montrer que chaque vecteur de V est associ une action a(j ) et, pour chaque j l(j, o) vers un vecteur l(j,o) de V . Ces vecteurs observation o, une transition peuvent tre des copies de vecteurs de (mme action et mmes liens). Ils de V peuvent aussi tre de nouveaux vecteurs et vont permettre de modier V (et donc le contrleur), de la manire suivante :
124
PDM en IA
j domine un vecteur i de V , on associe au nud i laction et les transitions si du nud j ; sinon, on ajoute le nud j .
mais Il faut enn enlever de tous les nuds qui nont pas de vecteur associ dans V qui ne peuvent tre atteints par un des autres nuds de auquel est associ un vecteur . Cest le . Cette srie doprations permet de dnir un nouveau contrleur de V coeur de lalgorithme de Hansen (voir Alg. 22). Dans sa thse [HAN 98a], Hansen prouve le thorme (voir Thorme 3.4) qui assure quune itration amliore la politique, ce qui garantit la convergence vers une solution -optimale aprs un nombre ni ditrations (ou, dans le cas des POMDP transitoires, vers la solution optimale).
Algorithme 3.9 : PolicyIteration( , ) Entres : Un contrleur tat ni et un rel positif Sorties : Un contrleur tat ni qui est -optimal rpter Calculer V partir de en rsolvant les quations (3.24) OpProgrammationDynamique(V ) Construire V j V faire pour chaque j avec action et liens identiques si il existe un nud i de associ alors ajouter i j domine i alors sinon si il existe nud i tq , avec laction et les liens de j ajouter i a sinon avec action et liens de j ajouter un nouveau nud tous les autres nuds de qui sont atteignables depuis Ajoute V (1 )/ jusqu V retourner
T HORME 3.4. Si un contrleur tats ni nest pas optimal, une itration de dont la fonction de lalgorithme PolicyIteration le transforme en un contrleur valeur est au moins aussi bonne pour tous les tats de croyance et meilleure pour quelques tats de croyance.
125
3.6. Conclusion et Perspectives Les Processus Dcisionnels de Markov Partiellement Observables (POMDP) permettent de modliser et contrler les systmes dynamiques incertains dont ltat nest que partiellement connu. Le contrleur na pas accs ltat du processus mais doit se contenter dobservations imparfaites de cet tat. En gnral, il nest pas possible de contrler optimalement un POMDP en utilisant uniquement lobservation courante du processus. Il faut en effet avoir accumul sufsamment dinformation, comme par exemple lhistorique de toutes les observations passes, pour dnir une politique optimale. Ainsi, les mthodes classiques sappuient sur les tats de croyance qui sont des rsums sufsants de linformation contenue dans les historiques dobservations. En fait, les mthodes de la programmation dynamique (itration sur les valeurs et itration sur les politiques) peuvent tre appliques sur ces tats de croyance. En pratique, les algorithmes classiques comme W ITNESS ou E LAGAGE I NCR MENTAL utilisent le fait que la fonction de valeur est linaire par morceau et cherchent la reprsenter efcacement. Cependant, ces algorithmes exacts ne peuvent tre appliqus des problmes comportant plus dune dizaine dtats cause de laccroissement potentiellement exponentiel du nombre dlments ncessaires pour reprsenter la fonction de valeur. Il en va de mme dautres algorithmes classiques que nous navons pas dtaills ici, comme par exemple les algorithmes de Monahan [MON 82] ou Cheng [CHE 88]. Une autre alternative est de sintresser la factorisation des tats et des observations, comme le fait [GUE 01b]. Il se peut aussi que des travaux beaucoup plus rcents (voir [KOL 94, ARA 07]), sappuyant sur la programmation linaire pour reprsenter une politique par lensemble des trajectoires quelle peut gnrer, puissent mener des algorithmes permettant de rsoudre de manire exacte des problmes plus complexes. Pour linstant, les gains en complexits sont relativement restreints. Ces travaux thoriques laspect pratique limit ont inspir des algorithmes pour trouver des solutions approches aux POMDP. Il est possible de ne chercher la fonction de valeur que pour certains point de lespace des tats de croyance en esprant que cette fonction de valeur approche sera proche de loptimale [PIN 03, SPA 05]. Dautres optent pour une recherche avant partir dun unique tat estim de dpart pour ne calculer la fonction de valeur que sur les tats de croyance atteignables (voir par exemple [BON 00]). Dautres travaux combinent la programmation dynamique avec une recherche heuristique pour, chaque tape de litration sur la fonction de valeur, restreindre fortement lensemble des tats estim sur lesquels la fonction valeur est calcule. Il est ainsi possible de sattaquer des problmes beaucoup plus complexes [SEU 07]. Le problme le plus crucial avec les POMDP reste celui de lapprentissage. Les mthodes dapprentissage indirectes (apprendre dabord un modle avant de planier) ne sont pas trs performantes car il est difcile dapprendre la structure cache
126
PDM en IA
dun POMDP. Actuellement, il faut utiliser des mthodes dapprentissage qui cherche des solutions approches. Les travaux de [MCC 95, DUT 00] font lhypothse que le POMDP peut sapprhender comme un MDP dordre k . Dautres travaux apprennent directement dans lespace des politiques paramtriques en utilisant des montes de gradient pour en trouver les meilleurs paramtres [BAX 00]. Enn, il faut mentionner les travaux rcents autour de lutilisation des reprsentations par tats prdictifs5. [LIT 02] ayant montr quon peut efcacement reprsenter un POMDP avec ces tats prdictifs, qui sont en fait les probabilits que certaines trajectoires se ralisent dans le futur, des algorithmes dapprentissage commencent voir le jour, aussi bien pour dcouvrir ces tats prdictifs que pour apprendre leurs probabilits de ralisation [SIN 03, ABE 07b].
5. de langlais Predictive State Representation (PSR)
Chapitre 4
Une introduction aux jeux stochastiques
4.1. Introduction La thorie des jeux [AUM 02] est un formalisme qui vise tudier les interactions entre agents sachant que de telles interactions peuvent stendre de la coopration au conit. Originellement conue comme un outil mathmatique pour les sciences conomiques, il a montr au travers des annes son utilit en logique et thorie des ensembles [GR 02b, MAR 75], en biologie et thorie de lvolution [SMI 02], en informatique [PAP 95, PAR 02, GIE 06], en analyse des conits [MYE 97] etc. Linteraction est la pierre angulaire des tudes sous-tendus par la thorie des jeux. Pour modliser les interactions, il faut tout dabord tendre la notion de thorie des jeux des jeux dynamiques, gnralement utiliss pour rendre compte de la comptition entre processus voluant dans le temps. Des transitions stochastiques sont ensuite utilises pour formaliser lincertain. Les jeux stochastiques (ou markoviens) sont des jeux dynamiques avec des transitions stochastiques. Ils forment, de nos jours, une thorie mathmatique mature et riche, utilise dans beaucoup dapplications comme lconomie, la biologie et tout ce qui tourne autour de lvolution et des populations, les les dattentes, les tlcommunications, le model checking etc. Ces derniers temps, les jeux stochastiques ont pris beaucoup dimportance en informatique aux travers plus particulirement des systmes multiagents spcialement pour la dcision, la planication et lapprentissage dans un environnement o interviennent plusieurs agents autonomes [STO 00].
Chapitre rdig par Andriy B URKOV et Brahim C HAIB - DRAA.
128
PDM en IA
Dans ce chapitre, nous considrons les jeux stochastiques comme tant le modle multiagent le plus gnral. Nous prsentons de faon dtaille plusieurs algorithmes pour rsoudre les problmes qui peuvent tre modliss par des jeux stochastiques, mme si la plupart de ces algorithmes peuvent aussi rsoudre des modles plus simples. Le reste du chapitre est organis comme suit. La section 4.2 prsente les principales notions de la thorie des jeux classique, telles que le jeu en forme stratgique, le jeu dynamique, lquilibre de Nash et autres. Dans la section 4.3, le modle des jeux stochastiques est dni et diffrents algorithmes pour le rsoudre sont prsents et discuts. La section 4.4 conclut ce chapitre. 4.2. Rappel sur la thorie des jeux 4.2.1. Quelques dnitions de base Une partie de poker, la formation dune quipe, ou une ngociation entre agents pour la prise de rendez-vous sont autant de jeux diffrents obissant des rgles spciques. Dans ces jeux, chaque participant ne peut tre totalement matre de son sort ; on dit alors que tous les intervenants se trouvent en situation dinteraction stratgique [THI 04]. La thorie des jeux vise tudier formellement ce type de jeux o le sort de chaque agent participant dans le jeu dpend non seulement des dcisions quil prend mais galement des dcisions prises par les autres agents intervenant dans le jeu. Ds lors, le meilleur choix pour un agent dpend gnralement de ce que font les autres. Les agents participants un jeu sont appels joueurs. Ainsi un joueur est un agent qui pourrait reprsenter une entreprise, un robot, un consommateur etc. et qui agit pour son propre compte selon le principe de la rationalit qui vise maximiser soit son utilit soit une mesure de performance donne1 comme le prcisent Russell et Norvig [?]. Ainsi, chaque agent cherche prendre les meilleures dcisions pour lui-mme et ne fait pas rfrence un quelconque sacrice pour autrui. Bien entendu, ceci nest plus valable si on sintresse des quipes dagents o les participants poursuivent un objectif commun. En thorie des jeux, il est important de garder lesprit que les agents participants au jeu (appels dornavant agents-joueurs) se doivent de choisir leurs propres actions, en tenant compte des actions des autres participants. Ils doivent raisonner sur autrui et se faire une ide aussi prcise que possible du comportement possible des autres agents-joueurs. cet effet, la thorie des jeux admet : i) que chaque agent-joueur
1. Une telle mesure dnit le critre de succs du comportement de lagent.
129
sefforce de prendre les meilleures dcisions pour lui mme et sait que les autres font de mme ; ii) que le prcdent fait, cest--dire i), est une connaissance commune tous les agents-joueurs. 4.2.1.1. Jeux non coopratifs et jeux coopratifs En thorie des jeux, on distingue les jeux coopratifs des jeux non-coopratifs. Un jeu est dit coopratif si les agents-joueurs peuvent passer entre eux des accords qui les lient de manire contraignante. Cest le cas par exemple si les agents-joueurs saccordent sur un contrat, un accord devant une autorit etc., o il est prvu une sanction lgale en cas de non respect du contrat ou de laccord. Dans ce cas, on dit que les agents-joueurs forment une coalition dont les membres agissent de concert. Lorsque les agents-joueurs nont pas la possibilit de former des coalitions, on dit que le jeu est non-coopratif . Dans ce type de jeu, on spcie toutes les options stratgiques offertes aux agents-joueurs, chose quon ne fait pas dans les jeux coopratifs. Un jeu non-coopratif peut tre dni de deux manires diffrentes (qui sont toutefois quivalentes) : stratgique (ou normale) et extensive. Un jeu en forme stratgique est une collection de stratgies dcrivant les actions de chaque agent-joueur dans toutes les situations concevables du jeu, ainsi que les gains obtenus par chacun lorsque les stratgies de tous les agents sont connues. La gure 4.1 reprsente un exemple de jeu en forme stratgique pour deux agents-joueurs, Entreprise1 et Entreprise2 ayant leur disposition les actions produit et ne produit pas. Par convention les gains sont reports sous la forme (x, y ) pour une combinaison dactions actionEntreprise1 actionEntreprise2 et o x est le gain de lagent-joueur ligne (ici Entreprise1) et y est le gain de lagent-joueur colonne (ici Entreprise2). Entreprise2
produit produit Entreprise1 ne produit pas ne produit pas
3, 2 0, 8
10, 0 0, 0
Figure 4.1. Exemple de jeu en forme stratgique. Des valeurs dans chacun des cases indiquent les gains (en termes dutilit) de chaque agent-joueur pour chacune des actions joues conjointement par les joueurs.
Un jeu en forme extensive est dni par un arbre qui dcrit comment le jeu est jou. Dans ce cas, chaque sommet de larbre spcie le (ou les) agent(s)-joueur(s) qui doit (doivent) choisir une action ce moment du jeu ainsi que linformation dont chaque agent-joueur dispose lors de la prise de dcision. Les gains que chaque agent-joueur peut raliser aprs avoir suivi un des chemins possibles au sein de larbre sont donns aux sommets terminaux de larbre. Les jeux en forme extensive ne sont pas traits dans ce chapitre. Pour en savoir plus, le lecteur peut se rfrer aux ouvrages suivants [YIL 03, FUD 91].
130
PDM en IA
Dnissons maintenant les jeux en forme stratgique plus formellement. 4.2.1.2. Jeu en forme stratgique, stratgie pure Un jeu G en forme stratgique est un tuple Ag, {Ai : i = 1 . . . |Ag |}, {Ri : i = 1 . . . |Ag |} . Les lments constitutifs de ce jeu sont les suivants [THI 04] : Ag = 1 . . . |Ag | est lensemble ni des agents-joueurs. Pour viter toute confusion, un agent-joueur quelconque est not i. Bien entendu i Ag . ai dsigne la stratgie de lagent-joueur i. Une telle stratgie dcrit de manire prcise ce quun joueur fait. Par extension, lensemble Ai dcrit toutes les stratgies disponibles pour le joueur i. Bien entendu, ai Ai . Un jeu en forme stratgique est ni, si lensemble des actions, Ai , de chaque agent-joueur est ni. Ds lors, a = (a1 , . . . , ai , . . . , a|Ag| ) A1 . . . Ai . . . A|Ag| A est une issue du jeu ; autrement dit une combinaison de stratgies o ai est la stratgie pour lagent i. Dans le reste du chapitre, ai Ai dsigne lensemble de toutes les stratgies choisies par les agents-joueurs sauf celle du joueur i. Ri (a) R est la fonction de rcompense du joueur i. On voit bien que la fonction de rcompense de lagent-joueur i dpend non seulement de sa stratgie ai , mais aussi de celles des autres joueurs retes dans a. Bien entendu, le joueur i prfre strictement lissue a lissue a si Ri (a) > Ri (a ). Dans le cas, o Ri (a) = Ri (a ), i est dit indiffrent aux deux issues a et a . Chaque agent-joueur connat, outre les siens, les ensembles de stratgies et les fonctions de gains de tous les autres joueurs. Cette dernire hypothse caractrise le jeu comme tant en information complte. linverse, un jeu est dit en information incomplte si les agents-joueurs ne connaissent certains lments du jeu quen termes de probabilits. Une stratgie pure rete une action ou une suite dactions choisies par chaque agent-joueur de faon dterministe (par opposition stochastique). Dans certains cas, il est prfrable davoir recours une stratgie mixte dnie comme une distribution de probabilit sur lensemble des stratgies pures. Soit Ai un ensemble des stratgies la disposition dun joueur i. Dsignons alors la stratgie pure dun agent i comme une simple action, soit ai Ai , et la stratgie mixte comme une politique (o distribution de probabilit) sur ces stratgies pures, soit i = Ai . Conformment ai cette notation, on va aussi noter par i la probabilit de lagent i de jouer une action ai Ai et i = Ai la politique conjointe des autres agents par rapport lagent i. 4.2.1.3. Jeu somme nulle et minimax Un jeu deux joueurs (nots 1 et 2) est somme nulle si R1 (a) + R2 (a) = 0 et ce a A. Autrement dit, les gains de lun sont les pertes de lautre et les joueurs
131
sont donc des opposants. Ce genre de jeu particulier peut trouver une solution via le principe de minimax (ou maximin). Minimax est une technique de recherche dune solution dans les jeux somme nulle. Lalgorithme Minimax a t labor en 1928 par John von Neumann [NEU 28]. Il sapplique pour les jeux 2 joueurs somme nulle. Les agents sont assigns un des deux rles : soit Max soit Min. Le joueur Max est sens maximiser sa rcompense, alors que le joueur Min est sens minimiser le rcompense de Max (ce qui revient maximiser sa propre rcompense). Pour illustrer cela, supposons que le joueur i est celui qui cherche maximiser. Il dispose de m stratgies aik avec k = 1, 2, . . . , m. Le joueur j est celui qui cherche minimiser. Il dispose de n stratgies ajk avec k = 1, 2, . . . , n. Lensemble de tous les gains possibles que i peut obtenir est reprsent par une matrice Ri de dimensions m n avec lentre Ri (k, k ). Ds lors, dans cette matrice Ri , lagent i slectionne les lignes de Ri , tandis que lagent j slectionne les colonnes. Dans ce cas, si le joueur i choisit la stratgie k tandis que j choisit la stratgie k , alors j doit payer i le gain Ri (k, k ). Il convient de noter que les paiements ngatifs sont permis car on est dans un jeu somme nulle. On pourrait aussi dire que i reoit la quantit Ri (k, k ) alors que j reoit la quantit Ri (k, k ). Considrons alors lexemple montr en gure 4.2 ci dessous. Bien entendu, un tel jeu peut tre reprsent simplement par la matrice de la gure 4.3. Min Max 3, 3 4, 4 1, 1 10, 10 8,-8 0,0
Figure 4.2. Jeu somme nulle. Dans la matrice, les valeurs de la forme , reprsentent respectivement les utilits des agents Max et Min pour chacune des actions conjointes.
Min Max 3 1 4 10 8 0
Figure 4.3. Autre reprsentation matricielle dun jeu somme nulle. Les valeurs dans la matrice reprsentent seulement les utilits de lagent Max.
Dans ce jeu, la question est de savoir quelle option devra choisir un agent rationnel. Pour cela, on peut considrer les niveaux de scurit de chacun des agents [HAU 98]. Il est alors facile de voir que, si Max choisit la premire ligne, quoi que fasse Min,
132
PDM en IA
il fera au moins un gain de 1. En choisissant la deuxime ligne, il risque de faire un gain nul. De faon similaire, en choisissant la premire colonne, Min naura pas payer plus que 4, tandis que sil choisit la seconde ou la troisime colonne, il risque de perdre respectivement 10 ou 8. On voit donc que le niveau de scurit de Max est 1 et il est assur par le choix de la premire ligne, tandis que le niveau de scurit de lagent Min est 4 et il est assur par le choix de la premire colonne. Il convient de noter que : 1 = max min akk
k k
4 = min max akk

k k
Ceci montre que la stratgie qui assure lagent Max son niveau de scurit est la stratgie maximin. Symtriquement, la stratgie qui assure lagent Min son niveau de scurit est la stratgie minimax. P ROPOSITION 4.1 [HAU 98]. Dans une matrice reprsentant un jeu deux joueurs somme nulle, on a lingalit suivante : max min akk
k k
min max akk

k k
Il convient de noter que la solution maximin (ou minimax) est acceptable si les joueurs jouent chacun leur tour, par exemple, le joueur i commence par choisir une action puis le joueur j fait son choix en fonction de laction joue par j . Cependant, si les deux joueurs avaient jouer simultanment, une tude approfondie du jeu prcdent illustr en gure 4.2 montrerait, que dans ce cas, les stratgies maximin et minimax ne sont pas des solutions satisfaisantes pour ce jeu. Dans certains cas, toutefois, le jeu pourrait converger vers une solution stable. Considrons un autre exemple, celui de la gure 4.4, emprunt [HAU 98]. Min 10 20 30 15 30 45 20 40 60
Max
Figure 4.4. Jeu o Maximin = Minimax.
Il est facile ici de voir que : 15 = max{15, 30, 45} 15 = min{30, 15, 60}
133
Ainsi, la paire correspondant aux stratgies maximin and minimax est donne par Ri (kk ) = (15, 15) et elle correspond (k, k ) = (1, 2), cest--dire la premire ligne et la deuxime colonne. Si dans une matrice de jeu somme nulle il y a une paire (k , k ), telle que : akk ak k ak k
on dit alors que la paire (k , k ) est un point selle. P ROPOSITION 4.2 [HAU 98]. Si dans une matrice de jeu somme nulle, on a : max min akk = min max akk = v
k k k k
alors le jeu admet un point selle en stratgies pures. Si (k , k ) est un point selle pour une matrice de jeu, alors les joueurs Max et Min ne peuvent amliorer leur gain unilatralement en dviant de k et k respectivement. On dit alors que (k , k ) est un quilibre, car tous les joueurs ont intrt sy tenir. 4.2.2. Jeux statiques en information complte Comme on a dj mentionn plus haut, un jeu en forme stratgique est dit en information complte si chaque agent-joueur connat, outre les siens, les ensembles de stratgies et les fonctions de gains de tous les autres joueurs. On dit quun jeu est statique lorsque les joueurs choisissent simultanment leurs actions et reoivent ensuite leurs gains respectifs. Ainsi, le jeu se joue en un seul coup, contrairement aux jeux dynamiques sur lesquels nous reviendrons plus tard. Parmi ces jeux, les jeux en forme stratgique nis 2 joueurs occupent une place privilgie car ils sont simples dun point de vue prsentation bien quenglobant les principales caractristiques (hormis la complexit engendre par un nombre lev de joueurs) quon trouve en thorie des jeux. Comme on la prcis plus haut, ces jeux peuvent tre reprsents sous forme stratgiques et donc sous la forme de matrices dans lesquelles le premier joue verticalement en choisissant une ligne de la matrice et le second horizontalement en jouant une colonne. De tels jeux sont aussi appels jeux matriciels. Une telle forme de jeu peut sillustrer par le clbre jeu du dilemme du prisonnier. Il snonce de la faon suivante : Deux suspects (Suspect1 et Suspect2) sont interrogs sparment par un juge pour un dlit grave. Le juge ne dispose pas dlments de preuve sufsants pour les condamner et laveu dau moins un est indispensable. Ds lors, il propose chaque accus la libert sil avoue. Par contre sil nie et que lautre avoue, il cope dune peine de 15 ans. Si les deux avouent ils peuvent esprer bncier de circonstances attnuantes et recevoir une peine de 8 ans. Enn si les deux nient, ils seront condamns pour des dlits mineurs 1 an de prison chacun. Avouer
134
PDM en IA
revient dnoncer lautre (en mme temps que soi-mme). On notera donc D comme dnoncer et N comme nier les deux actions. La matrice des gains des deux joueurs correspondante apparat sur la gure 4.5. Suspect2
N D 8, 8 0, 15 Suspect1 N 15, 0 1, 1 Figure 4.5. La matrice des gains des deux joueurs dans le Dilemme du prisonnier. D
On est donc amen se poser la question : comment doivent se comporter les deux suspects, en supposant quils soient rationnels ? On peut remarquer quAvouer est une stratgie qui conduit une peine moins lourde que la stratgie Nier et ce, quel que soit le choix effectu par lautre joueur. Par consquent, chacun des suspects a intrt opter pour cette stratgie en vue de rduire sa peine. Selon la matrice des gains, chacun cope alors dune peine de 8 ans de prison, ce qui constitue une condamnation assez lourde. Il faut bien voir que cette stratgie mise sur le fait quelle est choisie parce quelle donne un gain moindre que lautre stratgie et ce sans avoir besoin de se faire une ide de ce que va faire lautre. Une telle stratgie est appele, en thorie des jeux, une stratgie dominante. Dnition 5 Dans un jeu en forme stratgique, une stratgie ai Ai est dite dominante pour le joueur i si, quel que soit a i Ai et a i = ai , on a : Ri (ai , ai ) Ri ( ai , ai ), ai Ai
Dans notre exemple, on voit bien que nos deux suspects ont intrt jouer leur stratgie dominante tous les deux et ne pas dvier. La stratgie conjointe (D,D) est donc un quilibre (sorte de point xe) pour les deux o chacun na pas intrt dvier. Plus gnralement, si dans un jeu donn, tous les joueurs ont leur disposition une stratgie dominante, alors ils ont intrt la choisir effectivement et, dans ce cas, le rsultat du jeu est appel quilibre en stratgies dominantes. En fait, lquilibre en stratgies dominantes existe rarement et il faut faire appel dautres types de solutions. Pour ces cas, il existe un concept de solution plus faible qui sappelle lquilibre de Nash. 4.2.2.1. quilibre de Nash Dnition 6 On dit quune combinaison de stratgies a est un quilibre de Nash si on a lingalit suivante pour chaque joueur i :
Ri (a i , ai )
Ri (ai , a i ) ai Ai
135
Autrement dit, si le joueur i anticipe que les autres participants au jeu vont choisir les stratgies associes au vecteur a i , il ne peut que maximiser son gain en choisissant la stratgie a . Celle-ci est en fait la meilleure rponse de i a i i (note bri , pour best response) et elle correspond :
bri : a i argmax Ri (ai , ai ) ai Ai
Ds lors, lquilibre de Nash peut aussi scrire :

i, a i bri (ai )
Comme on peut le voir, lquilibre de Nash constitue une combinaison de stratgies o chaque joueur maximise ses gains compte tenu des actions supposes des autres. Il a donc une proprit de stabilit qui est satisfaite pour chacun des joueurs, cest pourquoi on parle d quilibre . Dans lexemple de la gure 4.6 deux entreprises Entreprise1 et Entreprise2 ont la possibilit de se lancer dans la production dun nouveau bien pour lequel les dbouchs sont limits, sans quil y ait de compromis possible entre elles si toutes deux dcident de produire. Ce jeu comporte 2 quilibres de Nash, (ne produit pas, produit) dont les gains sont (0,8) et (produit, ne produit pas) dont les gains sont (10,0) chacun correspondant une situation o lune des entreprises produit, lautre sabstenant de le faire. Cet exemple montre que des deux quilibres, il na y a pas un qui apparaisse plus raisonnable quun autre. Entreprise2
Produit Produit Entreprise1 Ne produit pas Ne produit pas
3, 2 0, 8
10, 0 0, 0
Figure 4.6. Multiplicit de lquilibre de Nash. Ce jeu comporte deux quilibres de Nash en stratgies pures : (ne produit pas, produit) dont les gains sont (0,8) et (produit, ne produit pas) dont les gains sont (10,0).
cette difcult de multiplicit dquilibres, sajoute le fait quil peut ne pas y avoir du tout dquilibre de Nash, en stratgies pures, pour un jeu particulier. Un exemple bien connu est celui du jeu de pile ou face (matching pennies) prsent sous la forme stratgique en gure 4.7. Dans ce cas, on pourrait penser un mcanisme alatoire (constitu par la composition des loteries2 des diffrents intervenants) qui dcide pour les joueurs. Pour cela,
2. une loterie est une loi de probabilit de choix, voir le chapitre 5
136
PDM en IA
Joueur2
Face Pile 1, 1 1, 1 Joueur1 Face 1, 1 1, 1 Figure 4.7. Le jeu de pile ou face : un exemple de jeu nayant pas dquilibre de Nash en stratgies pures. Pile
on suppose que chaque joueur choisit une loterie dnie sur lensemble des stratgies pures. Techniquement, chaque joueur associe une probabilit pi la stratgie ai et laisse au mcanisme alatoire le soin de dcider. Dans ce contexte, chaque joueur vise maintenant maximiser ses gains esprs en choisissant la meilleure loterie possible, autrement dit la meilleure stratgie mixte. Notons quen thorie des jeux, le terme gain espr (o utilit espre ) dun agent-joueur est la rcompense quil sattend obtenir tant donn sa politique (stratgie mixte) et les politiques des autres joueurs. Dsignons le gain espr de lagent i par ui , alors :
(i ,i )
ui
= EaA Ri (a) =
ai Ai ai Ai ai i Ri (ai , ai )i i a
(4.1)
Dans le jeu de pile ou face, prsent en gue 4.7, le Joueur1 a une probabilit p de choisir Pile et une probabilit de 1 p de choisir Face. Pour le Joueur2 les deux probabilits sont respectivement de q et 1 q . Ds lors, le gain espr du Joueur1 est rete par la fonction u1 linaire en p suivante : u1 = pqR1 (P ile, P ile) + p(1 q )R1 (P ile, F ace) + (1 p)qR1 (F ace, P ile)+ (1 p)(1 q )R1 (F ace, F ace) Maximiser ce gain espr revient donc chercher d(u1 )/dp = 0 soit : qR1 (P ile, P ile)+(1q )R1 (P ile, F ace) = qR1 (F ace, P ile)+(1q )R1 (F ace, F ace) Si on remplace les Ri par les valeurs indiques dans la matrice prsente en gure 4.7, on obtient alors : q (1 q ) = q + (1 q )
137
Soit alors q = 1/2. Le mme raisonnement pour le Joueur2 (o cette fois-ci on chercherait le point o d(u2 )/dq = 0) aurait donn p = 1/2. Le rsultat (1/2,1/2) est appel quilibre en stratgies mixtes et il correspond au fait que lun ou lautre des joueurs choisisse une fois sur deux pile et une fois sur deux face. Mais est-ce quon peut trouver un quilibre de ce type dans nimporte quel jeu en forme stratgique ? Si le jeu est ni, la rponse est dnitivement oui, grce au thorme suivant : T HORME 4.1 [NAS 51]. Tout jeu en forme stratgique ni admet un quilibre de Nash en stratgies mixtes. On pourrait se demander si la solution donne par lquilibre de Nash correspond un mcanisme de coordination efcace. Deux concepts peuvent aider rpondre cette question : lefcacit au sens de Pareto et loptimum de Pareto. domine Pour le premier concept, on peut dire quune combinaison de stratgie a au sens de Pareto une autre combinaison a si : i ) Ri (ai , ai ) i Ri ( ai , a et j ) > Rj (aj , aj ) j tel que Rj ( aj , a est un optimum de Pareto sil nexiste pas une Une combinaison de stratgies a autre combinaison qui la domine au sens de Pareto. Par exemple, dans le dilemme du prisonnier prsent en gure 4.5, la combinaison (D,D) est un quilibre de Nash mais la combinaison (N,N ) la domine au sens de Pareto. Il faudra donc retenir que lquilibre de Nash nest pas ncessairement un optimum de Pareto. Clairement, un quilibre de Nash nest pas ncessairement un optimum de Pareto mais quand il y a multiplicit des quilibres de Nash, un quilibre peut en dominer un autre au sens de Pareto. Le problme est de savoir comment attirer les joueurs vers cet quilibre dominant au lieu dun autre quilibre qui sera domin. 4.2.3. Jeux dynamiques en information complte Contrairement aux jeux en forme stratgique (ou jeux matriciels) qui sont jous une fois, les jeux dynamiques dcrivent les processus tendus dans le temps. Ces processus comportent plusieurs intervenants (agents-joueurs) qui peuvent conditionner leurs comportement au moment prsent sur les dcisions observables des autres
138
PDM en IA
joueurs dans le pass. Dans cette section, on suppose que le jeu se droule en plusieurs tapes et que toutes les actions passes sont observables et connues par tous les participants. Dans ce contexte, une tape pourrait reprsenter, mais pas toujours, une priode temporelle. Une stratgie dans un tel jeu spcie laction que choisit chaque agent-joueur chaque tape o il intervient, en fonction de ltat du jeu qui prvaut en ce moment. Ds lors, lhistorique du jeu a son importance et chaque agent-joueur choisit laction quil convient de faire en tenant compte de lhistoire passe du jeu. Gnralement, on distingue deux types de jeux dynamiques en information complte. Un premier type o chaque joueur connat lensemble des actions choisies par tous les autres agents-joueurs avant quil ne slectionne sa propre action. Il convient de bien voir ici que cest le seul joueur qui est cens prendre sa dcision ltape considre. Ce jeu est alors appel jeu en information parfaite. Dans le second type, appel jeu rpt, plusieurs agents choisissent leurs actions simultanment une tape donne du jeu. Pour chaque joueur, les actions des autres joueurs ne sont toutefois pas connues, mais lhistorique lui lest et il inuence le choix de chacun. Un cadre conceptuel gnral des jeux dynamiques peut tre dni comme suit. On dsigne par a le vecteur des actions conjointes choisies ltape du jeu par des participants qui interviennent cette tape. Soit t une tape quelconque du jeu. On dnit alors lhistorique du jeu ltape t, ht = {a0 , a1 , . . . , at1 }, par la squence de toutes les dcisions prises par les joueurs lors des tapes antrieures = 0, 1, . . . , t 1, avec h0 comme historique initial. Par ailleurs, toutes les actions passes sont observables et connues par tous les agents-joueurs. Il convient de noter que, pour > t, le reste du jeu peut tre vu comme un autre jeu induit par lhistorique ht ; ce nouveau jeu est appel sous-jeu G(ht ). Un tel cadre formel va maintenant nous permettre de dnir ce que lon attend par stratgie pure au niveau dun jeu dynamique admettant T tapes. Une stratgie pure t t pour le joueur i est dnie par une suite de T applications At i de H vers Ai (H ), soit t t t t donc Ai : H Ai (H ), o H est lensemble de toutes les historiques possibles jusquau temps t, avec ht H t . Pour un joueur donn i, une stratgie pure est donc une suite de rgles de slection dune action particulire par un tel joueur chaque tape du jeu, compte tenu de lhistorique qui sest droul jusqualors. Contrairement ce quon a vu prcdemment dans le cadre dune stratgie pure dans un jeu statique, ici, la dnition prend en compte les dcisions choisies antrieurement. Elle permet donc une analyse dynamique des choix. Considrons dabord les jeux dynamiques en information parfaite. 4.2.3.1. Jeux dynamiques en information parfaite Soit larbre reprsent en gure 4.8 o le jeu se droule en plusieurs tapes. Ainsi pour le joueur 1 (dnot par un nud 1), une stratgie consiste choisir entre les
139
actions a et b. Pour le joueur 2 (nud 2) qui intervient juste aprs, sa stratgie a2 est une fonction dnie sur lensemble des stratgies de 1. Le principe ici consiste par exemple utiliser la rtroduction3 o le raisonnement se fait en sens inverse du droulement normal du jeu. Ds lors, le jouer 1 va se dire que le joueur 2 va jouer : b sil joue a aboutissant ainsi au gain (2,1) ou jouer a sil joue b aboutissant ainsi au gain de (1,1). Ds lors, le joueur 1 va jouer a amenant ainsi le joueur 2 jouer b et aboutissant ainsi lquilibre de Nash (2,1) pour lequel aucune dviation unilatrale nest payante. En fait, ce raisonnement est sous-tendu par le fait que le joueur 2 est sens choisir la meilleure action pour lui. Ainsi, si 1 joue a alors 2 joue b, si en revanche 1 joue b alors 2 joue a. Ds lors, lagent-joueur 1 intgre une telle connaissance et agit en consquence pour aligner sa meilleure rponse.
1
Figure 4.8. Un exemple de jeux dynamique jou tape par tape.
Pour en savoir plus sur les jeux dynamiques en information parfaite, le lecteur peut se rfrer lun des ouvrages [YIL 03, FUD 91]. Les jeux rpts, un autre type des jeux dynamiques en information complte, sont de plus grand intrt pour nous, car ils sont la base du concept des jeux stochastiques un des plus puissants modles dinteraction entre agents rationnels.
3. backward induction, quon traduit aussi par induction rtroactive .
140
PDM en IA
4.2.3.2. Les jeux rpts Avec les jeux rpts, on voudrait modliser des situations o des agents-joueurs interagissent de manire rptitive chacun avec lautre, en jouant le mme jeu. Contrairement aux jeux dynamiques en information parfaite, les joueurs dun jeu rpt choisissent leurs actions de manire simultane sans connatre le choix des autres joueurs. Une fois les action choisies, celles-ci sont alors connues par les autres agents et ds lors font partie de lhistorique du jeu. Ainsi, le jeu du dilemme du prisonnier peut par exemple tre rpt plusieurs fois o lon aurait par exemple {(N, N), (D, N), (D, D), . . .}. Dans de telles interactions, un joueur peut, chaque tape, conditionner son comportement sur les comportements passs des autres intervenants. En fait, les jeux rpts sont un cas particulier des jeux dynamiques introduits prcdemment. La particularit rside dans le fait que la rptition se fait sur la base dun mme jeu. Quand ils sont engags dans une situation rptitive, les joueurs doivent non seulement considrer leur gain court terme mais galement leur paiement long terme. Par exemple, si un dilemme du prisonnier est jou une fois, les joueurs auront tendance jouer lquilibre de Nash soit, (D,D). En revanche, si le mme jeu est rpt par les mmes deux joueurs, il y aurait peut tre une possibilit de faire merger une coopration (entente implicite) qui aboutirait (N,N). Lide gnrale sous-tendant les jeux rpts rside dans le fait que les joueurs doivent trouver un compromis entre exploiter le gain court terme et les gains long terme. On distingue en gnral deux classes de jeux rpts : (a) jeux rpts nis et ; (b) jeux rpts innis. Un historique terminal dans un jeu rpt ni est nimporte quel historique de longueur T , o T est le nombre de priodes durant lesquelles le jeu est rpt. Dans le cas o le jeu est rpt inniment, lhistorique terminal est alors de longueur innie. Tout historique non terminal dbute un sous-jeu dans le jeu rpt. Selon la dnition dune stratgie pure dun jeu dynamique donne plus haut, on pourrait spcier dans le cas du dilemme du prisonnier ai (h0 ) = N ai (ht ) = N D si a j = N, j = i, pour = 0, 1, . . . , t 1 autrement
Une telle stratgie traduit commencer par nier dans la premire priode et continuer ainsi tant que lautre le fait galement dans les priodes prcdentes ; si ce nest pas le cas, dnoncer . Cette stratgie est appele la stratgie grim trigger. Dautres stratgies peuvent tre mises en vidence, en utilisant la mme formulation, en particulier : (i) toujours dnoncer (always DefectALL-D) ; (ii) toujours nier (always cooperateALL-C) ; (iii) donnant-donnant (Tit for TatTFT) etc.
141
Il faudra galement prendre en compte les choix des agents en fonction du temps dans la mesure o ils accordent de limportance la date laquelle ils obtiennent les diffrents gains : un dollar obtenu maintenant naura pas la mme valeur quun dollar obtenu dans dix jours. tant donn une squence {a0 , a1 , . . . , at , . . .} dactions conjointes, la fonction dutilit actualise de cette squence pour un joueur i, ui, , est la rcompense actualise sur lensemble des priodes, soit donc, en dsignant comme dhabitude par le facteur dactualisation :
ui, =
t=1 t
t1 Ri (at )
Bien entendu, si Ri (a ) = c et ce t, o c tant une constante quelconque et si [0, 1[, alors cette valeur devient4 :
ui, = c
t=1
t1 =
c 1
Jusquici on na parl que des stratgies pures dans le cadre des jeux dynamiques. Une stratgie mixte i pour le joueur i est une squence de fonctions, i (ht ) : H t Ai (H t ), o Ai est lespace des distributions de probabilit sur Ai , soit Ai (H t ) = Ai (H t ), qui lie donc les historiques t-priodes possibles des actions mixtes i Ai . On doit noter ici que la stratgie dun joueur i ne peut pas dpendre des valeurs passes des probabilits des autres joueurs mais des valeurs passes de ai . Voyons maintenant comment un jeu rpt pourrait tre analys en termes de gains escompts et contentons-nous pour cela du cas des stratgies pures pour lexemple du dilemme du prisonnier (voir gure ??). Dans ce cas, les gains des joueurs pour toute la squence des rptitions du jeu pourraient tre reprsente par la moyenne des rcompenses quils obtiennent chaque priode. Dans le cas du Suspect1 par exemple sa fonction de gain sur lensemble du jeu rpt pour toujours est u1 = lim 1 T T
T
R1 (at )
t=1
o R1 est la fonction de rcompense dun tel suspect. On pourrait de la mme faon imaginer quun tel suspect utilise la valeur actualise de ses rcompenses sur la totalit de la squence de jeux.
u1, =
t=1
t1 R1 (at ) [0, 1[
4. On pourrait commencer par mettre c en facteur et voir = 1 + + 2 + 3 + . . . sous la forme dune srie innie. Si maintenant on sintresse = + 2 + 3 + . . . et donc = 1 menant donc = 1/1 .
142
PDM en IA
o est le facteur dactualisation du Suspect1. En combinant les deux fonctions prcdentes, on obtient la moyenne actualise des rcompenses :
u1, = (1 )
t=1
t1 R1 (at )
o on espre que lgalit suivante est vrie :

1
lim u1, = u1
Ainsi donc, il existe plusieurs possibilits pour reprsenter les gains long terme des intervenants dans un jeu rpt. Voici un exemple tir de [YIL 03] sur la manire de les utiliser. Reprenons le dilemme du prisonnier illustr en gure ?? rpt inniment et considrons la stratgie grim trigger discute plus haut. Admettons que le joueur Suspect1 a adopt cette stratgie et le Suspect2 est au courant de cela. On pourrait se demander quelle est alors la stratgie optimale de Suspect2, face cette stratgie de Suspect1. Sil joue tout le temps N, il va obtenir un ux continu de rcompenses gales 1 jusqu la n des temps. La valeur actualise de ces rcompenses dans ce cas est : 1 t1 = 1 t=1 En revanche, sil commence par D ds le premier tour, alors il va obtenir initialement 0 puis -8 pour le reste des priodes, ce qui lui donne une valeur actualise de : 8 0 + (8) + (8) 2 + . . . = 8( + 2 + . . .) = 1 Le joueur Suspect2 aura donc intrt cooprer ds le dbut si 1 8 1 > > 1 1 8 La stratgie prcdente du Suspect1 et sa contrepartie quon vient de dtailler pour le Suspect2 forment un quilibre de Nash du dilemme du prisonnier rpt inniment en valeurs actualises pour les valeurs de > 1 8 . Si on choisissait une autre forme pour la fonction dutilit des agents (par exemple, la moyenne des rcompenses ou la moyenne actualise des rcompenses), on pourrait obtenir une autre solution au mme problme. Pour plus de prcisions sur ces aspects, le lecteur est encourag consulter les ouvrages de rfrence [FUD 99, GEN 00, OSB 04, YIL 03].
143
4.3. Jeux stochastiques Les jeux stochastiques (SG, pour stochastic games) tendent les MDP au cas o il y a plusieurs agents-joueurs dans un environnement commun. Ces agents excutent une action conjointe qui dnit la rcompense obtenue par les agents et le nouvel tat de lenvironnement. De lautre ct, un jeu stochastique peut tre vu comme un jeu rpt plusieurs tats. a veut dire quaprs avoir jou un jeu matriciel (correspondant un tat du jeu stochastique), les agents-joueurs sont transfrs dans un autre tat du jeu stochastique pour jouer un autre jeu matriciel. Cest donc un modle hybride runissant jeux dynamiques (rpts) et MDP.
4.3.1. Dnition et quilibre dun jeu stochastique Formellement, un jeu stochastique est dni par un quintuplet Ag, S, {Ai : i = 1, . . . , |Ag |}, {Ri : i = 1, . . . , |Ag |}, T o Ag est lensemble des agents et |Ag |
i est leur nombre, S lensemble ni dtats du jeu, Ai = a1 lensemble i , . . . , ai dactions de lagent i, Ri : S A1 . . . A|Ag| IR est la fonction de rcompense de lagent i Ag et T : S A1 . . . A|Ag| S IR est le modle de transition entre tats, dpendant de laction conjointe des agents. Notons que contrairement aux MDP , les tats des jeux stochastiques sont des vecteurs (ou tats conjoints) composs des tats propres chaque agent, S = S1 . . . Si . . . S|Ag| , o Si est lensemble des tats propres lagent i.
|A |
chaque tour du jeu, tant donn ltat courant s S, les agents choisissent les actions a1 , . . . , a|Ag| . Chaque agent i obtient alors la rcompense Ri s, (a1 , . . . , a|Ag| ) et le systme passe dans ltat s en suivant le modle de transition T , qui vrie | Ai | pour lagent i s S T s, (a1 , . . . , a|Ag | ), s = 1. Une politique i : S [0, 1] dnit une stratgie locale en chaque tat au sens de la thorie des jeux. Autrement dit, i (s) est un vecteur dont les lments dnissent une distribution de probabilit sur les actions du joueur i, spciques au jeu en forme normale dni par ltat s. Le terme dutilit espre dun joueur en thorie des jeux dsigne lesprance de rcompense sur les stratgies des joueurs adverses, alors que la fonction de valeur des MDP est lesprance temporelle de la rcompense. Nous emploierons donc le concept dutilit Ui (s) en jeu stochastique comme lesprance temporelle des utilits espres ui (s) de lagent i dnies pour chaque tat s de manire similaire aux utilits (1 ,...,|Ag| ) espres des jeux en forme normale. Ds lors, ui (s) = EaA Ri (s, a). Par consquent, les utilits Ui (s) des tats pour chaque joueur i, associes la politique |Ag | conjointe i=1 i , sont dnies comme lutilit espre par lagent i partir de
144
PDM en IA
ltat s si tous les agents suivent cette politique conjointe :
Ui (s)
= E
t=0
t 0 t u i (s) |s = s
u i (s)
+
aA s S
T (s, a, s ) a (s)Ui (s )
o a (s) dnote la probabilit de laction conjointe a dans ltat s selon la politique conjointe . Comme pour les MDP, ici aussi s0 est ltat initial et [0, 1[ est le facteur dactualisation. Comme indiqu plus haut, chaque tat dun jeu stochastique peut tre vu comme un jeu en forme normale. Le processus de transition entre les deux tats est illustr par la gure 4.9.
t+1 t
Figure 4.9. Jeu stochastique deux joueurs : transitions possibles entre le tour t et le tour t + 1 lorsque les joueurs jouent laction conjointe a = (a1 , a2 ) ; chaque tat peut tre vu comme un jeu en forme normale.
Les jeux stochastiques sont un cadre formel permettant de modliser un environnement multiagent non-coopratif. Le fait dtre non-coopratif signie que les agents poursuivent des objectifs individuels. Ils peuvent cependant tre amens se coordonner, voire cooprer, pour atteindre leur but individuel.
Dans un jeu stochastique, un quilibre de Nash est un vecteur de stratgies (1 , . . . , | Ag | ) tel que, pour tout tat s S et i = 1, . . . , |Ag |,
Ui
( 1 ,...,| Ag | )
(s)
Ui
( 1 ,...,i 1 ,i ,i+1 ,...,|Ag | )
(s)
i i
145
o i est lensemble des politiques offertes lagent i.
Dnition 7 Une politique (ou stratgie) dans un jeu stochastique est dite stationnaire (ou markovienne) si et seulement si la rgle de dcision qui associe une action un tat dpend seulement de ltat courant.
Le thorme ci-aprs montre lexistence dun quilibre de Nash en stratgies stationnaires. T HORME 4.2 [FIN 64]. Tout jeu stochastique escompt n-joueurs (n 2) possde au moins un quilibre de Nash en stratgies stationnaires.
4.3.2. Rsolution des jeux stochastiques Nous prsentons ici quelques algorithmes de rsolution de jeux stochastiques. Comme on a pu le constater dans la section prcdente, les jeux stochastiques sont des jeux multi-tapes qui peuvent tre vus comme une extension des MDP aux multiagents. tant des jeux, ils noffrent pas de solution optimale, au sens des MDP, qui soit indpendante des autres joueurs. linstar des jeux en forme normale, le concept le plus utilis comme solution dun jeu stochastique est un quilibre de Nash en stratgies stationnaires, dont lexistence a t prouv. Cependant, contrairement aux MDP, la solution (ou lquilibre) dans la thorie des jeux nest pas toujours unique (comme, par exemple, dans le jeu de la gure 4.6 de la section 4.2). Le fait davoir plusieurs quilibres avec des valeurs diffrentes pose gnralement des problmes de coordination. En effet, dans ce cas, si les agents choisissent de jouer des quilibres diffrents, laction conjointe joue peut ne pas constituer un quilibre. Selon le jeu jou par les agents-joueurs, cela peut constituer une catastrophe si les valeurs des utilits varient beaucoup dune action conjointe une autre. Pour simplier la prsentation de ce qui suit, les quilibres sont supposs uniques dans cette section. Le lecteur intress par le problme de coordination dans les jeux stochastiques peut se rfrer [LIT 94]. Tous les algorithmes proposs dans le cadre des jeux stochastiques que lon va voir ont la mme proprit commune. Ils sont composs de deux parties principales. La premire partie peut tre vue comme la partie diffrences temporelles pour rsoudre la composante multi-tat du jeu stochastique ; la deuxime partie, quant elle, est la partie jeu pour trouver une solution de la composante multi-agent du jeu stochastique. Selon ces observations, on peut regrouper les algorithmes de jeux stochastiques en quatre catgories (dont le sens sera dni plus loin) en leur donnant les appellations suivantes :
146
PDM en IA
Itration sur les valeurs + Thorie des jeux classique ; Apprentissage par renforcement + Thorie des jeux classique ; Apprentissage par renforcement + Modlisation de lopposant ; Apprentissage par renforcement + Descente du gradient. 4.3.2.1. Itration sur les valeurs + Thorie des jeux classique Nous faisons tat dans cette sous-section de deux algorithmes labors par des chercheurs venant de la communaut de la thorie des jeux. Le premier algorithme trouve un quilibre de Nash dun jeu stochastique somme nulle [SHA 53]. Cet algorithme nest quune extension de la technique ditration sur les valeurs (vue au chapitre 1) aux cas des jeux stochastiques. Pour faire cela, Shapley utilise une fonction V aleur an de trouver la valeur dun tat. Cette fonction calcule un quilibre de Nash dun jeu en forme normale associ cet tat. Pour trouver un quilibre de Nash, Shapley utilise lalgorithme minimax qui a un temps dexcution polynomial en la taille de la matrice du jeu dtat. La dnition complte de lalgorithme de Shapley est donne par lalgorithme 4.1. Dans ledit algorithme, la valeur U (s) dsigne le vecteur dutilits espres de tous les agents dans ltat s. Les fonctions Equilibre et V aleur retournent respectivement un quilibre dun jeu dtat (une politique conjointe) et son vecteur de valeurs. Algorithme 4.1 : Algorithme de Shapley [SHA 53] pour les SG somme nulle initialiser U (s)0 par des valeurs arbitraires n0 rpter pour s S faire Construire la matrice G(s) = {ga : ga = R(a, s) + s S T (s, a, s )U (s )n } U (s)n+1 = V aleur(G(s)) nn+1 jusqu U (s)n+1 U (s)n < s pour s S faire Construire la matrice G(s) (s) = Equilibre(G(s)) retourner U (s)n , (s) s
Lalgorithme de Shapley est certain de trouver un quilibre dans nimporte quel jeu stochastique somme nulle, car cet algorithme lui-mme est une consquence directe du thorme suivant : T HORME 4.3 [SHA 53]. Tout jeu stochastique G somme nulle escompt horizon inni possde une valeur unique. Cette valeur est donne par la squence des
147
valeurs uniques des jeux dtat G(s)s. Chaque joueur du jeu G possde une stratgie optimale qui utilise les stratgies minimax mixtes dans chaque jeu dtat G(s). Kearns, Mansour et Singh [KEA 00] sont alls plus loin. Ils ont propos un algorithme similaire celui de Shapley ( savoir ditration sur les valeurs) mais leur algorithme, appel FiniteVI, a t conu pour les jeux stochastiques somme gnrale. Les auteurs ont montr que FiniteVI converge vers un quilibre de Nash horizon ni. Ce qui concerne les jeux horizon inni, il a t rcemment montr [?] quil existe une classe de jeux stochastiques pour lesquels aucun algorithme ditration sur les valeurs bas sur lapplication directe de lquation de Bellman (ce qui est fait, par exemple, dans FiniteVI) ne convergera pas vers une politique stationnaire. La structure de lalgorithme FiniteVI est la mme que celle de celui de Shapley. Il se diffrencie toutefois par le fait que (1) lhorizon T est utilis comme critre darrt ; (2) les fonctions quilibre et Valeur sont dnies diffremment. Tandis que lquilibre minimax utilis par lalgorithme de Shapley est assur tre unique, ce nest plus le cas dans le cadre des jeux somme gnrale ; par contre, il peut y avoir plusieurs quilibres possdants des valeurs diffrents. Ds lors, comme un seul quilibre doit tre choisi chaque itration, Kearns et ses collgues ont propos dutiliser une fonction f (G(s)) choisissant un seul quilibre parmi plusieurs. Cependant, cette fonction f (G(s)) na pas t dnie, ce qui pose le problme dapplication directe de FiniteVI. Il convient de noter galement qu linverse du cas somme nulle , il nexiste pas dalgorithme polynomial trouvant un quilibre de Nash dans un jeu somme gnrale. Parmi dautres algorithmes ditration sur les valeurs pour les jeux stochastiques, le lecteur peut se rfrer [POL 69, HOF 66, BOW 03a]. 4.3.2.2. Apprentissage par renforcement + Thorie des jeux classique Les algorithmes de cette catgorie combinent les techniques de recherche dquilibre dans les jeux en forme normale avec les techniques dapprentissage par renforcement comme le Q-learning vu dans la section 2.4.3 du chapitre 2. Lide sous-tendant les algorithmes de ce type est la suivante. Les agents ralisent un A/R en faisant des actions simultanes et en recevant des rcompenses. Aprs chaque tour du jeu (ou aprs chaque squence action conjointetransition ) les agents mettent jour leurs fonctions Q qui associent des valeurs relles des paires action conjointetat : Qi (s, a) Qi (s, a) + (Ri (s, a) + V aleuri (s ) Qi (s, a)) (4.2)
o la fonction V aleuri retourne la valeur dun quilibre dun jeu G compos des valeurs-Q des agents dans ltat s . On voit bien ici que, pour pouvoir calculer cette
148
PDM en IA
fonction, lagent i a besoin dobserver les actions et les rcompenses de tous les autres agents dans lenvironnement ou que les autres agents doivent lui communiquer cette information. Dans lalgorithme Minimax-Q de Littman [LIT 94], utilisant ce principe, la fonction V aleuri retourne au joueur i la valeur minimax dun jeu compos des valeurs-Q des agents. La politique suivie par les agents est alors la politique de minimax en stratgies mixtes. Quant lalgorithme Nash-Q de Hu et Wellman [HU 03], la fonction V aleuri propose par les auteurs retourne la valeur dun quilibre de Nash du jeu dtat. Le fait davoir choisi le mme quilibre par tous les agent est assur par une politique de coordination qui prescrit aux agents de choisir toujours un quilibre prdni, par exemple le premier. La politique suivie par les agents dans ce cas est alors la politique aligne sur lquilibre de Nash choisi. Une dnition plus formelle de lalgorithme de base pour les algorithmes Nash-Q et Minimax-Q est reprsent par lalgorithme 4.2. Comme cela tait le cas des algorithmes de Shapley et de Kearns, la diffrence entre les deux algorithmes rside dans la dnition des fonctions Equilibrei et V aleuri . Dans le cas de Minimax-Q, ces deux fonctions retournent lagent i respectivement la composante i de la politique dquilibre minimax dans ltat s et la valeur de cet quilibre ; tandis que dans NashQ, elles retournent la politique dun quilibre de Nash et sa valeur respective pour lagent i. Dans lalgorithme 4.2, le terme une certaine exploration fait rfrence aux diffrentes techniques dexploration discutes au chapitre 2. Il convient de noter que les preuves de convergence des deux prcdents algorithmes se trouvent dans [LIT 94] pour le premier et dans [HU 03] pour le second. Dans le cas de ce dernier, la preuve est faite sous certains restrictions assez contraignantes. 4.3.2.3. Apprentissage par renforcement + Modlisation de lopposant Les algorithmes de cette catgorie combinent galement deux parties provenant de deux champs de recherches distincts : celui de lapprentissage monoagent et celui de la thorie des jeux dynamiques dont la technique de modlisation de lopposant fait partie. Si tout est assez clair avec la premire partie un algorithme des diffrences temporelles est utilis pour traiter le ct plusieurs tats dun jeu stochastique (voir la section 2.4 du chapitre 2) il reste prciser quest ce quon entend par modlisation de lopposant . La modlisation de lopposant est une technique largement utilise dans la thorie des jeux dynamiques pour rendre chaque joueur capable de sadapter des changements de la politique de ses adversaires [CLA 98, UTH 03].
149
Algorithme 4.2 : Algorithme de la base pour les algorithmes Minimax-Q et Nash-Q pour un joueur i Pour tous s, a et pour tout j Ag , initialiser Qj (s, a) par des valeurs arbitraires. Mettre dans s ltat courant. Construire la matrice G(s) partir des valeurs Qj dans s, j Ag . Choisir une politique i (s) = Equilibrei (G(s)). rpter Jouer la politique i (s) avec une certaine exploration. Observer laction conjointe et la mettre dans a. Observer le nouvel tat et le mettre dans s . Construire la matrice G(s ). Choisir une politique i (s ) = Equilibrei (G(s )). Pour tout joueur j mettre jour la valeur Qj (s, a) en utilisant lquation (4.2). s s , t t + 1. jusqu t < T pour s S faire Construire la matrice G(s) comme prcdemment. i (s) = Equilibrei (G(s)). retourner i (s) s.
Le premier effort fait en direction de ladaptation au comportement de ladversaire dans le cadre dun jeu rpt est d Brown [BRO 51]. La technique utilise sous le nom de jeu ctif (ctitious play) permet un agent-joueur destimer la stratgie joue par son adversaire an de jouer la meilleure rponse cette estimation.
Dans le jeu ctif, les joueurs jouant un jeu rpt maintiennent des croyances empiriques individuelles sur les stratgies suivies par les autres joueurs. Rappelons que, selon notre notation, Ai dsigne lespace ni de stratgies conjointes des adversaires du joueur i, avec ai Ai . Dans ce cadre, le modle du jeu ctif suppose que chaque joueur i choisit ses actions chaque priode pour maximiser son utilit espre, ui i , tant donne son estimation des politiques mixtes des adversaires, i . Cette estimation prend la forme suivante. On suppose que le joueur i a une fonction de poids initiale qui serait c0 i : Ai R+ . Ce poids est mis jour en ajoutant 1 au poids de chacune des stratgies conjointes adverses, lorsque cette stratgie est joue par ses adversaires : 1 0
1 si at i = ai sinon
t1 ct (ai ) + i (ai ) = ci
150
PDM en IA
a
i t Dan ces conditions, la probabilit estime ( i ) que le joueur i assigne ses adversaires de jouer une certaine ai la date t est donne par :
i t ( i ) =
ct i (ai ) ct i (ai ) a
i
Ds lors, la meilleure action jouer pour lagent i est celle qui maximise son utilit espre tant donne son estimation de la politique adverse (en dautres mots, sa meilleure rponse cette politique) : at i = argmax
ai a i
i t Ri (ai , ai )( i )
Le jeu ctif converge vers un quilibre de Nash dans les jeux appels iterated dominance solvable , cest--dire les jeux dans lesquels il est possible denlever les actions domines de faon itrative pour obtenir la n une seule action ou un ensemble dactions quivalentes [FUD 99]. La version du jeu ctif adapte aux jeux stochastiques, tant donne la fonction de transition T (s, a, s ), est prsente sur lalgorithme 4.3, elle est due Vrieze [VRI 87].
Algorithme 4.3 : Algorithme du jeu ctif dans les SG pour un joueur i Pour tout s, ai , initialiser qi (s, ai ) |A1 ai Ai Ri (s, (ai , ai )). i | n 0. rpter pour tous les s faire qi (s,ai ) Choisir une action faire comme tant an . i = argmaxai n n Jouer laction ai . Observer laction conjointe et la mettre dans a. pour tous les ai faire Mettre jour la valeur qi (s, ai ) qi (s, ai ) + Ri (s, (ai , ai )) + s S T (s, a, s )V aleur(s ) ,ai ) ou V aleur(s ) = maxai qi (s n n n + 1. jusqu n < N ai ai Pour tout s, i (s) 1 si ai = aN i et i (s) 0 sinon. retourner i (s) s.
Il convient de noter que la version du jeu ctif pour les jeux stochastiques est base sur la connaissance par tous les agents du modle de transition T (s, a, s ). De
151
plus, elle ncessite en pratique un mcanisme de coordination entre agents an quils puissent proposer une action jouer pour chaque tat s de faon synchronise. Un algorithme similaire propos par Gies et Chaib-draa [GIE 06] est appel Qlearning par jeu adaptatif . Lapproche est base sur la technique du jeu adaptatif pour les jeux rpts propose par Young [YOU 93]. Lalgorithme de Young est trs similaire au jeu ctif. La diffrence rside dans la manire destimer la politique de lopposant. Tandis que, dans le jeu ctif, tout lhistorique est pris en compte, dans le jeu adaptatif lagent fait un chantillonnage partir dun historique rcent de taille limite. Une telle modication permet de prouver la convergence du jeu adaptatif pour une plus large classe des jeux de coordination appels weakly acyclic games [YOU 98]. Une autre approche propose par Claus et Boutilier [CLA 98], appele Joint Action Learners ou JALs, est base sur le Q-learning et par consquent ne dpend pas du modle. De plus, comme cest une technique essai-erreur, elle ne ncessite aucun mcanisme de coordination des agents. Notons que cette technique ressemble beaucoup celle du jeu ctif deux diffrences prs. La premire rside dans le fait que les Q-valeurs dans JALs sont associes aux paires tataction conjointe au lieu de tataction simple du jeu ctif. La deuxime diffrence rside dans lquation utilise pour mettre jour les valeurs-Q. Claus et Boutilier utilisent la mise jour usuelle du Q-learning (algorithme 4.4) au lieu dune forme de lquation de Bellman telle quutilise dans le jeu ctif. 4.3.2.4. Apprentissage par renforcement + Descente du gradient La technique de la descente du gradient a t tout dabord utilise dans lapprentissage multiagent par Singh et al [SIN 94b]. Lalgorithme IGA (pour Innitesimal Gradient Ascent) fait une monte du gradient dans lespace des politiques dans un jeu rpt avec deux actions et deux joueurs. Le problme sous-tendu par un tel algorithme peut tre reprsent par deux matrices de rcompenses pour les joueurs ligne et colonne, l and c, comme suit : Rl = l11 l21 l12 l22 , Rc = c11 c21 c12 c22
Les joueurs l et c choisissent simultanment une action de lensemble Al,c = {1, 2}, le joueur ligne l joue une action i et le joueur colonne c choisit une action j ; les rcompenses obtenues sont alors lij et cij respectivement. Comme il sagit dun jeu deux actions, une stratgie mixte dun joueur peut tre reprsente avec une seule valeur. Soit [0, 1] une probabilit avec laquelle le joueur l choisit laction 1 et (1 ) une probabilit de jouer laction 2. De faon similaire, soit [0, 1] et (1 ) les probabilits de jouer les actions 1 et 2 respectivement par le joueur c. Lutilit espre dune stratgie = (, ) peut tre alors
152
PDM en IA
Algorithme 4.4 : Algorithme JALs pour les SG pour un joueur i propos par [CLA 98], adapt de [BOW 02a] Pour tous s et ai , initialiser Qi (s, ai ) arbitrairement, ci (s, ai ) 0 et c(s) 0. Initialiser n 0, s s0 . rpter Dans ltat s, choisir une action faire comme tant ci (s,ai ) an i = argmaxai a i c(s) Qi (s, (ai , ai )). n Jouer laction ai avec un certain bruit dexploration. Observer laction conjointe des autres agents, ai . Observer la rcompense, Ri (s, (ai , ai )). Observer le nouvel tat, s . Mettre jour la valeur Qi (s, (ai , ai )) (1 )Qi (s, (ai , ai )) + (R(s, (ai , ai )) + V aleur(s )) s ,a i ) ou V aleur(s ) = maxai ai ci (n (s ) Qi (s , (ai , ai )). Mettre jour c(s) c(s) + 1, ci (s, ai ) ci (s, ai ) + 1, n n + 1. jusqu n < N s,a i ) ai Pour tout s, i (s) 1 si ai = argmaxai ai ci (c (s) Qi (s, (ai , ai )) et ai i (s) 0 sinon. retourner i (s) s.
calcule comme suit : ul

(, )
= l11 + l22 (1 )(1 ) + l12 (1 ) + l21 (1 )
, ) u( = c11 + c22 (1 )(1 ) + c12 (1 ) + c21 (1 ) c
Pour estimer leffet dun changement de sa politique courante, un joueur peut calculer une drive partielle de son utilit espre par rapport sa stratgie mixte : ul uc
(, )
= u (l22 l12 ) = u (c22 c21 )
(, )
o u = (l11 + l22 ) (l21 + l12 ) and u = (c11 + c22 ) (c21 + c12 ). chaque pas de temps, le joueur IGA ajuste sa stratgie courante dans la direction du gradient en vue de maximiser son utilit espre : t+1 = t + ul t
( ,t )
153
t+1 = t +
uc t
( ,t )
o est la taille dun pas, typiquement 0 < 1. videmment, la stratgie mixte de lopposant est suppose tre connue par les joueurs. Singh et ses collgues ont prouv la convergence de IGA vers un quilibre de Nash (o vers une valeur moyenne quivalente) en self-play (cest--dire, quand les deux joueurs utilisent le mme algorithme) et ce dans le cas o le pas tend vers 0 (lim0 ), do le nom de lalgorithme. Lalgorithme IGA ne peut pas tre appliqu un grand nombre de problmes du monde rel pour les deux raisons principales : 1) il suppose une connaissance omnisciente des stratgies courantes dautrui et 2) il a t conu pour le cas deux agentsdeux actions ; une extension au cas plusieurs agentsplusieurs actions est loin dtre vidente. Le premier algorithme pratique hritant (en pratique) des proprits de convergence de IGA est lalgorithme du Policy Hill Climbing (PHC) propos par Bowling et Veloso [BOW 02a]. Cet algorithme nexige pas la connaissance de la politique courante de ladversaire. Essentiellement, PHC ralise un hill-climbing dans lespace des stratgies mixtes. De ce fait, cest une simple modication du Q-learning monoagent. Il comporte deux parties ; la premire est base sur le Q-learning en vue de maintenir les valeurs des actions simples (et non des actions conjointes) dans les tats. La deuxime est une partie de thorie des jeux qui maintient la stratgie mixte courante dans chacun des tats du systme. Dans PHC, la politique courante est ajuste via une augmentation de la probabilit de choisir laction ayant la valeur la plus leve. Ceci est fait en utilisant un petit pas . Les valeurs-Q sont mises jour en utilisant le facteur dapprentissage . Notons que si gale 1, lalgorithme devient quivalent au Q-learning monoagent, car lagent excutera toujours laction dont la valeur est la plus leve. Par consquent, cette technique est rationnelle et converge vers la solution optimale si les autres joueurs suivent une politique stationnaire. Toutefois, si les autres joueurs sont en train dapprendre leurs politiques, le PHC peut ne pas converger vers une politique stationnaire bien que sa rcompense moyenne converge vers la rcompense dun quilibre de Nash, comme cela a t montr par Bowling et Veloso [BOW 02a]. La dnition formelle de lalgorithme PHC est prsente via lalgorithme 4.5. Dans cet algorithme (et ceux qui suivent plus bas), lexpression une certaine exploration fait rfrence aux diffrentes techniques dexploration des espaces dtats ou dactions, telles que -greedy et autres (voir le chapitre 2). Bowling et Veloso [BOW 02a] ont dvelopp une extension importante des algorithmes IGA et PHC, appele respectivement WoLF-IGA et WoLF-PHC (le dernier est
154
PDM en IA
Algorithme 4.5 : Algorithme PHC pour les SG pour un joueur i, adapt de [BOW 02a] Initialiser (0, 1], (0, 1], (0, 1). Pour tous s S et tous ai Ai , initialiser qi (s, ai ) 0. ai 1 Pour tous ai Ai , initialiser la politique courante i (s) |A . i| 0 Ltat courant s s . rpter Dans ltat s, choisir une ai selon la stratgie i (s). Jouer ai avec une certaine exploration. Observer le nouvel tat s et la rcompense obtenue Ri . Mettre jour qi (s, ai ) en utilisant la rgle suivante : qi (s, ai ) (1 )qi (s, ai ) + Ri + max qi (s , ai ) .
ai
Mettre jour la stratgie courante, i (s), en utilisant la rgle suivante :

ai ai i (s) i (s) + sai ,
o sai = sai
ai =ai sai
si ai = argmaxai qi (s, ai ) sinon ; |Ai | 1 ,
ai sai = min i (s),
en se limitant la distribution de probabilit lgale. Mettre jour ltat courant s s . n n + 1. jusqu n < N retourner i (s) s.
illustr par lalgorithme 4.6). WoLF (pour Win or Learn Fast) est une technique selon laquelle un agent i change le pas dajustement de la politique selon quil gagne ou quil perd . Sil gagne, son est petit, sil perd il est grand. Bowling a montr de faon formelle quune telle alternance assure la convergence de WoLF-IGA en self-play vers un quilibre de Nash dans le cas o il y a deux joueurs qui ont deux actions chacun. En pratique, la convergence de WoLF-PHC a aussi t observe dans plusieurs jeux problmatiques . Notons que le principe WoLF aide la convergence en donnant aux autres joueurs plus de temps pour sadapter aux changements de stratgie du joueur considr. Rciproquement, il permet un joueur de sadapter plus
155
rapidement aux changements des stratgies des autres joueurs quand ces changements sont dfavorables. Dune faon plus formelle, lalgorithme WoLF-PHC exige dutiliser deux valeurs du pas : perdre et gagner . Le fait de gagner ou perdre est dtermin en comparant la valeur espre de la politique courante, , avec la valeur espre dune politique moyenne , (voir lalgorithme 4.6). Si la valeur espre de est infrieure celle de , alors le joueur est considr comme perdant et la valeur de perdre est utilise, sinon gagner est utilise pour ajuster sa politique. La politique moyenne dun joueur i est une moyenne en ligne de toute les politiques joues par i ds le dbut de lapprentissage. Au demeurant, lalgorithme WoLF-PHC est identique PHC (voir lalgorithme 4.5).
4.3.3. Complexit et extensibilit des algorithmes dapprentissage multiagent Cette section fait tat de la complexit informatique de certains algorithmes dapprentissage multiagent et leurs extensibilit (ou scalability) des problmes de grande taille. Comme on la prcis plus haut, lalgorithme de Shapley [SHA 53] pour les jeux stochastiques, qui sappuie sur la technique ditration sur les valeurs, utilise lalgorithme minimax pour trouver lquilibre dans chaque tat et chaque itration. Puisque le temps dexcution de lalgorithme ditration sur les valeurs est lui-mme polynomial en la taille de lespace dtats, alors, le temps dexcution de lalgorithme de Shapley est polynomial en le nombre de joueurs et le nombre dtats du jeu stochastique. Le mme raisonnement peut tre appliqu pour conclure sur le temps dexcution de lalgorithme de Kearns et al. [KEA 00]. Le temps dexcution de lalgorithme de Kearns est quadratique en la taille de lespace dtats en supposant que le temps dexcution de la fonction f (cense trouver un quilibre de Nash) est unitaire. Cependant, comme on ne connat pas dalgorithme polynomial trouvant un quilibre de Nash dans un jeu matriciel, le temps dexcution de lalgorithme de Kearns, utilisant un des algorithmes connus permettant calculer un Nash, ne peut tre polynomial non plus. Lanalyse du temps dexcution des algorithmes bases sur le Q-learning est plus compliqu. On sait [KOE 96] que le temps dexcution du Q-learning peut tre exponentiel en la taille de lespace dtats, mais ce temps peut tre rduit un polynme si certaines restrictions sur le modle de rcompense sont appliques [KOE 96]. De plus, selon le modle des jeux stochastiques, la taille de lespace dtats est elle-mme exponentielle en le nombre dagents (car |S| = |S1 S2 . . . S|Ag| | = |Si ||Ag| , si tous les Si ont la mme taille). Par consquent, le temps dexcution dun tel algorithme
156
PDM en IA
Algorithme 4.6 : Algorithme WoLF-PHC pours les SG pour un joueur i, adapt de [BOW 02a]. Initialiser (0, 1], (0, 1], (0, 1). Pour tous s S et tous ai Ai , initialiser qi (s, ai ) 0. Initialiser le compteur c(s) 0. ai 1 (s) |A Pour tous ai Ai , initialiser la politique courante i . i| 0 Ltat courant s s . rpter Dans ltat s, choisir une ai selon la stratgie i (s). Jouer ai avec une certaine exploration. Observer le nouvel tat s et la rcompense obtenue Ri . Mettre jour qi (s, ai ) en utilisant la rgle suivante : qi (s, ai ) (1 )qi (s, ai ) + Ri + max qi (s , ai ) .
ai
Mettre jour lestimation de la politique moyenne, (s), comme suit : c(s) c(s) + 1, i i (s) i i (s) +
a a
1 a a ( i (s) i i (s)), ai Ai . c(s) i
Mettre jour la stratgie courante, i (s), en utilisant la rgle suivante :

ai ai i (s) i (s) + sai ,
o sai = sai
ai =ai
sai
si ai = argmaxai qi (s, ai ) , sinon |Ai | 1

ai
ai sai = min i (s),
, i i (s)qi (s, ai )
a
gagner perdre
si a i i (s)qi (s, ai ) > i sinon
en se limitant la distribution de probabilit lgale. Mettre jour ltat courant s s . n n + 1. jusqu n < N retourner i (s) s.
157
comme Nash-Q nest pas polynomial en la taille de la matrice du jeux dtat (en raison du fait que la procdure utilise pour calculer un quilibre de Nash est elle-mme non polynomiale) ; de plus, ce temps peut tre exponentiel en le nombre dtats (en raison de la structure de la fonction de rcompense utilise dans la partie Q-learning de cet algorithme). Comme on peut le constater, lapplication directe aux problmes de grande taille des algorithmes de planication ou dapprentissage multiagents bass sur le modle des jeux stochastiques est problmatique cause de leur complexit leve. Une exception est lalgorithme de Shapley qui a un temps dexcution polynomial mais qui ne sapplique qu des jeux somme nulle. Un bon candidat une application dans les problmes de grande taille est lalgorithme WoLF-PHC de Bowling [BOW 02a]. Vu sa simplicit structurelle, ses conditions de convergence tolrantes et ses exigences modestes relativement linformation provenant de lenvironnement (en fait, les agents WoLF-PHC doivent percevoir seulement ltat courant et leurs propres rcompenses), les techniques connues dapproximation de la fonction peuvent tre directement appliques cet algorithme. Dans ce contexte, Bowling [BOW 02b] a propos de combiner : (i) une technique appele Tile Coding [SUT 98] pour gnraliser la fonction de valeur, (ii) une mthode de monte du gradient de la politique [SUT 00] comme mthode dapprentissage de base (au lieu du Q-learning) et (iii) le principe WoLF pour favoriser la convergence vers un quilibre de Nash. Cette mthode a permis dobtenir un algorithme dapprentissage multiagent facilement extensible appel GraWoLF [BOW 02b]. Bowling a montr via des exprimentations que GraWoLF peut tre utilis pour faire de lapprentissage multiagent dans les problmes de trs grande taille, comme le jeu de cartes Goofspiel [BOW 02b] et lentranement des robots comptitifs [BOW 03b] de type RoboCup [KIT 97].
4.3.4. Au-del de la recherche dquilibre Ces derniers temps, les chercheurs sinterrogent sur la ncessit de la convergence dun algorithme dapprentissage vers un quilibre de Nash. Il existe plusieurs raisons cela. Tout dabord, il peut y avoir plusieurs quilibres dans un jeu et il peut ne pas y avoir de mthode de coordination des choix des agents. Ensuite, la complexit de calcul dquilibre de Nash est peu tudie et on ne connat pas dalgorithme polynomial pouvant calculer un tel quilibre. La troisime raison est plus philosophique. Certains auteurs [SHO 04] attirent lattention sur le fait que, dans plusieurs cas, comme par exemple dans le dilemme du prisonnier, jouer lquilibre de Nash peut tre catastrophique pour les agents, tandis que laction cooprative, bien quelle ne soit pas un quilibre, serait un choix plus judicieux . Autrement dit, laction cooprative est le seul choix rationnel, comme on la vu dans le cas du dilemme du prisonnier rpt.
158
PDM en IA
4.3.4.1. Jeu efcace Certains travaux rcents ont mis laccent sur le fait de jouer plus efcacement contre un certain autre type de joueur et non pas le fait de converger ver une valeur o une politique stable, comme on le fait usuellement. Parmi ces approches, il convient de citer les travaux suivants [CHA 01, TES 04, POW 05b, POW 05a]. Chang et Kaelbling [CHA 01] ont t les premiers proposer une mthode permettant un joueur dexploiter lalgorithme dapprentissage de son adversaire. En particulier, leur algorithme appel PHC-Exploiter peut lemporter plus de fois que son adversaire dans les jeux somme nulle, tels que Pierre-Papier-Ciseaux et ce si ladversaire utilise lalgorithme PHC [BOW 02a]. En fait, PHC-Exploiter est capable destimer la valeur du pas dapprentissage de lalgorithme PHC de ladversaire et changer sa politique an dexploiter cette connaissance. Tesauro [TES 04] est all plus loin. Il a propos une technique qui semble tre plus gnrale que celle de Chang et Kaelbling. En effet, lalgorithme Hyper-Q de Tesauro peut jouer de faon plus efcace dans les jeux somme nulle contre un joueur sans connatre lalgorithme sous-tendu par ce dernier. Par exemple, Tesauro a montr via les exprimentations que lalgorithme Hyper-Q est plus efcace que PHC et IGA dans le jeu Pierre-Papier-Ciseaux. Lide sous-tendant lapproche de Tesauro est la suivante. Lagent Hyper-Q discrtise lespace des stratgies de son adversaire de faon uniforme. Il associe ensuite une valeur-Q chacune de ses actions simples et chacune des valeurs discrtes de la stratgie adverse. Pour estimer la stratgie de son adversaire, il utilise une technique destimation de distribution de probabilit. Finalement, en interagissant avec ladversaire, lagent Hyper-Q apprend des valeurs-Q de chaque paire stratgie de ladversaireaction simple . Il convient de noter quune extension de cet algorithme aux jeux stochastiques na pas t propose. Une approche similaire celle de Tesauro, appel ADL (pour Adaptive Dynamics Learning) a t propose par Burkov et Chaib-draa [BUR 07]. La diffrence de cette dernire par rapport Hyper-Q rside dans la manire dassigner des valeurs-Q ; dans ADL, ces dernires sont assignes des historiques de taille limite la place des distributions de probabilits. Alors les valeurs-Q de ADL ont la forme historique du jeuaction simple . Pour apprendre ces valeurs, une rgle standard de mis jour du Q-learning est utilise. Un autre point de vue sur lapprentissage dans les jeux rpts a t propose par Powers et Shoham [POW 05b, POW 05a]. Leur mthode consiste en une classication des adversaires relativement diffrentes classes. Leurs agents, appels MetaStrategy [POW 05b] et Manipulator [POW 05a] sont programms en vue dtre capable de jouer diffrentes politiques (par exemple, telles comme TFT pour le dilemme du prisonnier et autres). En jouant avec un adversaire dont la classe ( savoir, son algorithme dapprentissage ou sa politique, si elle est xe) est inconnue, le joueur tente destimer cette classe selon ses observations et ensuite il choisit la meilleure politique prprogramme, dont il dispose, pour jouer contre cette classe dadversaire.
159
4.3.4.2. Minimisation du regret Une autre direction de recherche [HAR 00, AUE 95, ZIN 03] vise apporter des rponses la question suivante. tant donn un historique du jeu, dans quelle mesure la politique excute par lagent (par un algorithme dapprentissage ou celui ralisant une politique xe) pourrait-elle tre amliore ? Plus prcisment, il sagit de la notion de regret mesurant jusqu quel degr la performance observe dun algorithme est pire que la meilleure stratgie pure. Dcrivons cette notion de regret de faon plus formelle et limitons-nous au cas | Ai | des jeux rpts. Soit rt le vecteur des rcompenses que le joueur i pourrait i R obtenir au temps t sachant les choix faits au mme temps par les autres joueurs. Soit t t i la stratgie adapte par le joueur i au temps t. Lutilit espre ut i de stratgie i est alors la suivante : ai ,t ai ,t ut i ri i =
ai Ai
o dsigne la rcompense de i pour laction ai selon rt i . En utilisant le produit scalaire de deux vecteurs, on peut aussi crire :
t t ut i = i ri
ai ,t ri
t Au pas de temps t, le regret Rt i de lagent i pour avoir jou une politique i au lieu dune action simple ai est la diffrence entre les rcompenses de ces deux stratgies, tant donn le choix des stratgies des adversaires : ai ,t t Rt ut i (i , ai ) = ri i
En dsignant par 1ai une politique de lagent i dans laquelle la probabilit de 1 est assigne une action ai , le regret total RT i de lagent i pour une squence de tours du jeu de la taille T scrit comme suit :
T
RT i = max
ai Ai
t t (rt i 1ai ) (ri i ) t=1
i du mme algorithme scrit alors comme Le regret moyen R i = lim 1 RT R i T T Pour un algorithme donn, la proprit de ne pas avoir de regret (no-regret) dans le sens du regret moyen signie que la rcompense moyenne que lagent obtient en utilisant cet algorithme est au moins aussi grande que ce que peut lui apporter une stratgie pure xe.
160
PDM en IA
Zinkevich [ZIN 03] a propos une extension de lalgorithme IGA [SIN 94b] aux jeux admettant plus de deux actions et deux joueurs, savoir aux jeux somme gnrale sans aucune contrainte. Ledit auteur a prouv que son algorithme, appel GIGA (pour Generalized Innitesimal Gradient Ascent), na pas de regret dans les jeux en forme normale. Lalgorithme GIGA est similaire IGA et PHC. La mise jour de la politique de lagent i se fait comme suit :
t+1 t i = P (i + rt i)
i rsultante de la sommaLa fonction P ( i ) est une fonction qui rduit la politique t + rt tion (i i ) une distribution de probabilit lgale : i i || P ( i ) = argmin ||
i Ai
o loprateur || || est la norme euclidienne usuelle. Zinkevich a montr que le regret total de GIGA est born par : RT i maxi ,i ||i i || 2
2
1 2
sup
i ,t=1...T
||rt i ||
ai max et ou, en supposant que tous les rcompenses ri du joueur i sont bornes par ri en tenant compte que maxi ,i ||i i || = 2, on peut crire :
RT i
T+
1 2
max 2 |Ai |(ri )
En utilisant la rgle de lHpital5, on peut trouver que 1 T T lim T+ T 1 2

max 2 |Ai |(ri )
= 0,
i 0 et, donc, GIGA na pas de regret au sens du ce qui nous amne conclure que R regret moyen. Quant lui, Bowling [BOW 04] a montr que le principe WoLF appliqu GIGA fait converger ce dernier vers un quilibre en self-play. Son WoLF-GIGA hrite alors les proprits du no-regret de GIGA et converge vers un quilibre de Nash en stratgies mixtes dans les jeux somme gnrale deux joueursdeux actions.
5. Cette rgle est dnie comme suit : si f et g sont deux fonctions drivables en a, sannulant (a) (x) (a) en a et telles que le quotient f soit dni, alors limxa f = f . g (a) g (x) g (a)
Une introduction aux jeux stochastiques Connu ou observ Ri Ai Ri connu connu connu connu connu connu connu observ observ connu observ observ connu observ non observ observ non observ observ non observ observ non observ observ non observ observ non observ observ non observ non non observ non non Type qu. Nash Nash Nash Nash Nash Nash Nash Nash Nash ? ? ? ? Tous Proprits jeux thoriques non oui oui oui non oui non oui non oui non non non non non oui non oui ? non ? non ? oui ? oui
161
Algorithme [SHA 53] [KEA 00] Minimax-Q Nash-Q Jeu ctif [GIE 06] JALs WoLF-PHC GIGA-WoLF Hyper-Q ADL Manipulator MetaStrategy
S connu connu connu connu connu observ observ observ observ observ observ observ observ
Tableau 4.1. Comparaison des algorithmes voqus.
4.3.5. Discussion Il est intressant de voir comment les diffrents algorithmes introduits prcdemment peuvent tre compars entre eux. cet effet, le tableau rcapitulatif 4.1 prsente les diffrentes caractristiques des algorithmes dapprentissage ou de planication multiagent vus dans ce chapitre. Ce tableau est inspir des travaux dAras [DUT 06]. Dans ce tableau, tous les algorithmes introduits dans ce chapitre sont situs relativement des exigences concernant lobservabilit de certaines proprits du jeu. La colonne S indique si les tats de lenvironnement sont supposs connus par les agents ou si les agents nen ont quune perception partielle ; la colonne Ri indique si les agents connaissent leurs rcompenses ou bien sils sont capables de les observer en interagissant avec les autres. Les colonnes Ai et Ri indiquent si les agents sont supposs capables de connatre par avance ou dobserver les actions pouvant tre faites par les autres joueurs. Non dans les cellules signie que les agents ne peuvent pas connatre ni observer certaines proprits du jeu. Les colonnes Type qui. et Tous jeux indiquent si lquilibre de Nash est atteint par chacun des algorithmes et si ce fait est valide pour nimporte quel jeu, ou bien il existe certaines restrictions (comme par exemple le fait que le jeu soit somme nulle, ou que seulement deux actionsdeux joueurs soient permises). La colonne Proprits thoriques indique si oui ou non certaines proprits thoriques des algorithmes sont prouves. Il convient de noter que les points dinterrogation dans les cellules du tableau 4.1 signient que cet aspect nest pas bien tudi et/ou compris dans la littrature. Comme certains des algorithmes voqus sont assez rcents, il reste beaucoup de travail faire en vue dexpliquer leur comportement dans diffrentes situations et dtudier leurs proprits de convergence, leur complexit et ainsi de suite.
162
PDM en IA B0 B1 B H0 Minimax-Q, Nash-Q Bully H1 Godfather H Q-learning, (WoLF)-PHC, Jeu ctif ADL avec |h| = 1 Poids multiplicatif Tableau 4.2. Classication des algorithmes propose par Chang et Kaelbling et adapte de [CHA 01] pour les algorithmes prsents dans ce chapitre.
Une autre classication intressante des algorithmes jouant aux jeux (rpts ou stochastiques) a t propose par Chang et Kaelbling [CHA 01]. Ces auteurs ont propos une classication des algorithmes via le produit cartsien des stratgies possibles et des croyances possibles sur les stratgies des adversaires. Dans ce contexte, les stratgies possibles dun agent ont t classes selon la longueur de lhistorique gard en mmoire, de H0 jusqu H . videmment, en ayant plus de mmoire, les agent peuvent laborer des politiques plus complexes et plus astucieuses . Dans le mme ordre dide, un agent peut classer ses adversaires selon le mme principe. Sil croit que son adversaire na pas de mmoire, il le classe dans B0 . Sil croit que la mmoire de son adversaire est illimite alors il le classe dans B . La classication propose par Chang et Kaelbling, adapte pour reter certains algorithmes voqus dans ce chapitre, est prsente par le tableau 4.2. Notons que les algorithmes dnots comme Bully , Godfather et Poids multiplicatif nont pas t discuts dans ce chapitre. Pour plus de dtails, le lecteur peut se rfrer aux ouvrages suivants [LIT 01, FRE 99].
4.4. Conclusion et perspectives Nous avons prsent dans ce chapitre un survol de la thorie des jeux et son application la prise de dcision dans les environnements multiagents. cet effet, les jeux en forme normale et les jeux dynamiques comme modles dinteraction entre les agents rationnels ont t tout dabord discuts. Ces modles ont ensuite t tendus au monde multi-tat en les combinant avec les MDP. Ceci a alors fait merger un modle plus puissant, appel jeux stochastiques , qui permet de dcrire des interactions complexes du monde rel tendu dans le temps. Plusieurs algorithmes de planication et dapprentissage utilisant le formalisme des jeux stochastiques ont t prsents et discuts. On a ainsi pu constater que certains dentre eux possdent une bonne base thorique tandis que dautres ne sont encore tudis que via des exprimentations. Comme ce domaine de recherches est assez jeune et en priode de croissance rapide, on peut sattendre ce que, dans un proche avenir, ces algorithmes soient convenablement analyss dun point de vue thorique et que dautres approches intressantes soient proposes.
163
Hormis les assises thoriques manquantes, il existe dautres problmes qui doivent tre rsolus an de permettre ces algorithmes dtre appliqus des problmes du monde rel. Tout dabord, la complexit des algorithmes reste assez leve. En fait, ce problme est cach dans le modle mme des jeux stochastiques dont le nombre dtats crot exponentiellement avec le nombre dagents. De plus, certains algorithmes exigent de percevoir des actions conjointes de tous les autres joueurs, ce qui complique le processus dapprentissage. cela sajoute le problme induit par la multitude des quilibres dans un jeu et pour lequel la coordination sur le choix dun seul quilibre nest pas vidente pour le moment. Il convient de noter que ce chapitre na pas abord une autre branche de recherches dans le domaine de la dcision dans lincertain dans les environnements multiagents que sont les jeux stochastiques partiellement observables (POSG, pour Partially Observable Stochastic Games). Dans ce modle, les jeux en forme normale sont combins avec le modle des POMDP ce qui permet, en utilisant ce formalisme, de rsoudre des problmes o les agents ont une vue partielle de ltat de lenvironnement. De bons exemples de cette problmatique et des approches proposes pour la rsolution de celle-ci se trouvent dans [HAN 04, EME 04]. Une autre problmatique similaire celle modlise par les POSG, est appele (pour Decentralized POMDP ou POMDP dcentraliss), qui fait objet du chapitre 8. La diffrence entre les DEC - POMDP et les POSG rside dans le fait que les agents dans les DEC - POMDP sont censs tre coopratifs et les politiques, excutes par les agents de faon distribue, sont calcules de faon centralise [BER 02]. Alors que dans les POSG, on ne fait pas une telle hypothse : bien que les agents puissent en gnral tre coopratifs (avoir des rcompenses identiques par exemple), cette coopration peut seulement tre dsire (par exemple, lalgorithme utilis peut la rapporter sous certaines conditions) et non pas assure. Le cadre POSG est donc plus gnral.
DEC - POMDP
Remerciement : les auteurs tiennent remercier M. Bowling pour laide quil a prodigue relativement la partie technique du gradient de la politique.
Chapitre 5
Critres non classiques
5.1. Introduction La modlisation et la rsolution dun problme de dcision squentielle dans lincertain par un MDP classique imposent certaines hypothses fortes : problme monocritre, connaissance complte et prcise de lenvironnement tout instant, connaissance du modle lui-mme, cadre dincertitude probabiliste bien dni... Parmi ces hypothses, nous avons vu que certaines pouvaient tre relches. Les permettent de prendre en compte la connaissance partielle de lenvironnement. Les mthodes dapprentissage par renforcement permettent de se passer de la connaissance du modle lui-mme. Nous allons nous intresser plus particulirement dans ce chapitre aux deux autres limitations, celles dun cadre mono-critre et dune reprsentation probabiliste bien dnie de lincertain.
POMDP
Plus prcisment, nous allons commencer par dcrire le formalisme des MDP multicritre ou 2V-MDP [?, ?, ?] tendant le cadre MDP la dcision multicritre. Dans ce cadre, nous prsentons un algorithme [MOU 04] permettant de calculer des politiques satisfaisantes, cest--dire aussi proches que possible dun point idal. Ensuite, nous dcrirons une premire approche pour la rsolution de MDP dont le modle est mal connu. Dans cette approche dite robuste [?, BAG 01, NIL 04, NIL 05], on reste dans le cadre probabiliste classique des MDP, la diffrence prs que le modle des fonctions de transition et de rcompense du MDP est mal connu. Grce
Chapitre rdig par Matthieu B OUSSARD et Maroua B OUZID et Abdel-Illah M OUADDIB et Rgis S ABBADIN et Paul W ENG.
166
PDM en IA
certaines hypothses (connaissance dun intervalle de probabilits de transition et de rcompenses), il est possible de proposer une version robuste de lalgorithme ditration sur les valeurs. Mais la spcication mme dintervalles de probabilit pour la fonction de transition dun MDP peut tre impossible. De mme, il peut tre particulirement arbitraire de spcier des rcompenses numriques, additives, pour certains MDP. Dans certains cas, les connaissances et les prfrences dun agent sexpriment plus dlement par un prordre sur les vraisemblances des transitions et sur ses prfrences sur ces transitions. La Thorie des Possibilits [DUB 88] offre un cadre permettant de reprsenter de telles connaissances et prfrences qualitatives. Nous prsenterons donc dans ce chapitre une approche des MDP base sur la thorie des possibilits [SAB 98]. Nous verrons que cette approche permet galement de prendre en compte lobservabilit partielle des tats (ou du modle) dans les MDP possibilistes et quelle permet la rsolution de problmes reprsents de manire concise. Enn, nous prsenterons le cadre des MDP algbriques [PER 05, WEN 06b], gnralisant la fois MDP multicritres et MDP possibilistes dans le cas dun horizon temporel ni. Ce cadre permet non seulement dunier ces approches, mais aussi de mettre en valeur des conditions algbriques garantissant la validit dun algorithme de programmation dynamique. Ces conditions peuvent tre alors utilises pour tester si de nouvelles reprsentations de prfrences et/ou de nouvelles reprsentations de lincertain peuvent tre exploites ensemble en planication dans lincertain. E XEMPLE. Si nous revenons lexemple rcurrent de lentretien dune voiture (voir page 18), les mthodes dcrites dans le prsent chapitre permettent, entre autre, de traiter les deux problmes suivants : il parat plus raliste destimer les consquences dune action en disant si on ne rpare pas cette fuite dhuile, il est quasiment sr que le moteur lchera que de prtendre savoir que la probabilit que votre moteur lche est de 87, 72%. La thorie des possibilits permet dutiliser le cadre des MDP avec un savoir exprim de la premire manire. plutt que de ne sintresser quau cot dune action, il est possible de combiner plusieurs critres. Par exemple, on pourrait chercher optimiser la fois le cot, le temps dimmobilisation de la voiture, les rpercussion cologiques et lencombrement du garage. Cest exactement ce que permettent de modliser les MDP multicritres.
5.2. Les approches multicritres Dans cette section, nous allons prsenter des modles dcisionnels permettant de relcher une des hypothses des MDP classiques quest la fonction de rcompense relle scalaire additive. En effet, plusieurs problmes peuvent tre formaliss par des MDP dont la fonction de rcompense est multidimensionnelle, reprsentant diffrents
167
critres optimiser. Devant de tels problmes, le formalisme des processus dcisionnels de Markov multicritres (2V-MDP 1) a pour but de proposer des solutions. La section 5.2.1 prsentera des notions de dcision multicritre, puis la section 5.2.2 dtaillera le formalisme des 2V-MDP ainsi que les algorithmes de rsolution, un exemple illustratif sera explicit pour montrer le fonctionnement du modle. 5.2.1. Dcision multicritre Le but de la dcision multicritre [VIN 89, KEE 76] est de choisir une solution prfre dans un ensemble de choix prenant en compte plusieurs aspects (critres), comme par exemple le prix, la qualit, lapparence etc... Ces critres peuvent tre contradictoires (on peut difcilement maximiser la qualit et minimiser le prix en mme temps). Le fait davoir des critres multiples au sein du processus dcisionnel implique que, dun certain point de vue, un choix, constitu dun ensemble de critres, peut tre arbitrairement prfr un autre, sans faire pour autant un mauvais choix. Ceci implique que lon ne puisse plus dnir aisment loprateur max utilis traditionnellement pour dnir le choix optimal. Dnition 8 Un point x = (c1 , c2 , . . . , ci , . . . , cn ) de IRn domine un autre point x = (c1 , c2 , . . . , ci , . . . , cn ) de IRn si : i, ci ci i, ci > ci
Sur la gure 5.2.1, la zone grise correspond aux points dominants le point D0 . La solution un problme de dcision multicritre ne doit pas tre domine par une autre. Elle doit en effet faire partie de lensemble Pareto-optimal. Dnition 9 Lensemble Pareto-optimal est form des lments non domins. Nous introduisons deux points de rfrences, le point Idal et le point AntiIdal [BEL 04]. Dnition 10 Le point Ideal = (c1 , . . . , ci , . . . , cn ) est dni comme tant le point maximisant tout les critres simultanment. Cest un point de rfrence, il nappartient pas ncessairement un choix possible. Soit pour un ensemble de choix E Rn , Ideali = max vj (ci ), vj E
j
1. Vector-Valued Markov Decision Process
168
C2
PDM en IA
x
x x x D0 x x x
C2
x x x x
x
x x x x x x
Ideal O
x x x x
Nadir O O AntiIdeal
x
C1
C1
Figure 5.1. Dominance avec deux attributs
Figure 5.2. Idal, AntiIdal et Nadir
Le point AntiIdal est son oppos, cest--dire quil minimise tous les critres. Il sert de rfrence comme tant le pire choix. AntiIdeali = min vj (ci ), vj E
j
Il est possible de rafner cet encadrement en dnissant le point de N adir. Il dnit le point minimisant tous les critres seulement pour les choix appartenant lensemble Pareto-optimal. Avec ces points, nous obtenons un encadrement partant du plus mauvais choix jusquau meilleur. Pour plus de dtails, le lecteur est invit consulter [GRA 02a]. Dans la partie suivante, nous allons construire un processus de dcision complet.
5.2.2. Processus dcisionnel de Markov multicritres Les 2V-MDP [MOU 04] sont donc une extension des MDP o la prise de dcision dpend de plusieurs critres. Ces critres sont introduits dans le processus de dcision travers la fonction de rcompense, ce qui implique des rpercussions sur le reste du formalisme. Soit Z = {z1 , z2 , . . . , zn } un vecteur de critres zi , o chaque zi reprsente un des critres du rsultat. Une action aj prise dans un ensemble dactions A =
169
{a1 , a2 , . . . , am } agit sur un certain nombre de critres (quelques-uns ou tous) transformant le vecteur Z en Z = {z1 , z2 , . . . , zn }. Il convient donc de modier la dnition du MDP an dinsrer la prise en compte de ces critres. Ainsi, un MDP multicritre se dnit par : un ensemble dtats S , un ensemble dactions A, une fonction de transition p(s, a, s ), s, s S, a A, une fonction de rcompense r(s) = {r1 (s), r2 (s), . . . , ri (s), . . . , rn (s)} o chaque ri (s) reprsente la rcompense obtenue dans ltat s pour le critre i (de la mme manire que dans les MDP monocritre). Reprenons maintenant lquation de Bellman qui permet de driver, par le calcul de la rcompense espre de chaque tat V (s), une politique optimale. Dans sa formulation monocritre, elle scrit sous la forme :
V (s) = R(s) + max

a s
p(s, a, s )V (s )
Dans le cas multicritre, la fonction de rcompense retourne un vecteur. Plus formellement, soit :
v1 (s) r1 (s) v2 (s) r2 (s) V (s) = ... = ... vn (s) rn (s)
+ max a
v1 (s ) v2 (s ) p(s, a, s ) ... vn (s )
O chaque vi , i 1 . . . n sont les valeurs des diffrents critres. Il apparat que, dans le cas gnral, lapplication directe de loprateur max est impossible, une mme action ne maximisant pas simultanment tous les critres. Il en dcoule des problmes quant la convergence de tels processus vers un point xe. De nombreuses approches on t dveloppes an de rsoudre ce problme [?, ?]. Certaines approches cherchent trouver tous les chemins efcaces [?]. Celles-ci souffrent du fait quil peut y avoir un nombre exponentiel (en le nombre dtats) de politiques non domines. 5.2.2.1. Oprateurs de dcision multicritre Nous cherchons ici obtenir une politique satisfaisante et non pas toutes les politiques. Loprateur max a donc besoin dtre redni dans le cadre multicritre an dobtenir une seule politique lissue de lalgorithme. Pour cela, nous nous basons sur la norme pondre de Tchebychev [BEL 04].
170
PDM en IA
Dnition 11 Norme pondre de Tchebychev : p, q Rn , s ,q (p) =

i{1,...,n}
max
i pi q i
Cette norme nous permet de dnir, pour un point p, une distance un point de rfrence q . Pour q , nous choisissons le point Idal (Dnition 10). Il reste dnir les poids i de la norme. Nous les utiliserons an de normaliser tous les critres entre eux. Les i sont donc dnis : i = i Ideali AntiIdeali
o le paramtre i permet de rintroduire au besoin des priorits entre les critres [BOU 07]. Lintrt dutiliser cette norme (avec la normalisation) est de pouvoir exprimer, pour chaque action, le regret qua un agent davoir choisi une action par rapport laction idale. A partir de cette norme, nous pouvons construire un oprateur de dcision qui remplacera le max de lquation de Bellman dans les 2V-MDP. Nanmoins, il apparat que la norme pondre de Tchebychev ne conserve pas la proprit doptimalit de Bellman [GAL 06]. Nanmoins, nous avons pu, au cours de nombreuses exprimentations, montrer le bon comportement des agents suivant ce critre doptimalit. Cest pourquoi nous avons construit notre oprateur max sur ce modle. Un oprateur dcisionnel : le LexDiff
Soit vi la valeur de la politique courante pour le critre i et vi la valeur de la politique optimale (toujours pour le critre i).
Nous dnissons un nouveau vecteur, appel vecteur dutilit et not V u , construit partir de la norme pondre de Tchebychev, reprsentant pour chaque critre la dis tance normalise (par les i ) au point Idal q = (v1 , v2 , . . . , vn ) (pondre si ncessaire par les coefcients i prsents dans les i ). Ainsi, pour un tat s S : u v0 (s) = 0 v0 (s) v0 (s) u v ( s ) = v ( s ) v 1 1 1 1 (s) V u (s) = . . . u vn (s) = n vn (s) vn (s) Cet oprateur nous garantit une solution Pareto-optimale, tout en prservant une socit galitaire. Cest dire que la solution choisie ne laissera aucun critre trop se dgrader, mme si pour cela, elle perd un peu en utilit globale. Nous utilisons un algorithme de programmation dynamique an de calculer la politique optimale (au
171
Algorithme 5.1 : Rsolution des 2V-MDP pour tous les critres i faire Calculer Vi (s) V 0 pour t = 0 . . . T 1 faire V V pour tous les s S faire pour tous les a A faire tmp V (a) R (s) +
s S
P (s, a, s ) V (s )
pour tous les critres i faire Ideali maxa Vitmp (a) Anti Ideali mina Vitmp (a) i i Ideali AntiIdeal i Viu (a) i Vtmp (a) Vi (s) pour tous les a A faire Calculer V u (a) ActionOpt leximina V u (a) V (s) V tmp (ActionOpt) retourner V
sens de loprateur). On peut trouver un algorithme similaire dans [?]. Lalgorithme 5.1 permet de calculer une politique partir du critre LexDiff.
Pour dterminer le vecteur V u (s), il est ncessaire de calculer les points Ideal et AntiIdeal. Pour le point Ideal, il faut effectuer n optimisations monocritre. Chacune de ces valeurs optimales est calcule en utilisant lalgorithme value iteration par exemple. Pour n critres, nous devons donc dterminer n fonctions de valeur optimales. Cela naugmente pas ncessairement de beaucoup le temps de calcul global. En effet, comme toutes ces optimisations sont indpendantes, il est facile de les parallliser. Il est aussi possible dacclrer ce calcul en optimisant un critre tout en gardant les valeurs des autres critres qui, par la suite, serviront initialiser les calculs des critres suivants. Lutilisation du point AntiIdeal peut conduire une mauvaise normalisation (en considrant une valeur minimale plus basse que celle des choix appartenant lensemble des solutions Pareto-optimales). Le point N adir est plus juste, mais est difcile calculer. Cest pourquoi, nous utiliserons une heuristique classique an de se rapprocher tout de mme du N adir : nous utiliserons la plus petite valeur rencontre lors des diffrentes optimisations [EHR 03]. E XEMPLE. Application numrique : La gure 5.3 prsente un MDP avec trois actions
172
PDM en IA
S0
S0
a(29;3)
c(25;5) b(23;10)
Vu(a)=(1;0)
Vu(c)=(1/3;2/7) Vu(b)=(0;1)
0.5 S1
0.5 S2
0.5 S3
0.5 S4
0.3 S5
0.3 S6
0.4 S7
0.5 S1
0.5 S2
0.5 S3
0.5 S4
0.3 S5
0.3 S6
0.4 S7
(29;2)(20;9)
(20;9)(26;11) (20;4)(30;6)(25;5)
Figure 5.3. 2V-MDP : application de loprateur LexDiff
{a, b, c}. Les probabilits de transition sont indiques le long des arcs et les rcompenses sous les feuilles. Ce MDP comporte ainsi deux critres. Les diffrentes tapes de la prise de dcision sont numres ci-dessous : calcul des points Ideal et AntiIdeal N adir calcul des i : 1 2 calcul des V u = = Ideal = AntiIdeal = = (23; 3) (30; 11)
1 =6 1 =7
1 23(29) 1 3(10)
V u (a) = (1; 0) V u (b) = (0; 1) 2 V u (c) = ( 1 3; 7) V u (a) = (1; 0) V u (b) = (1; 0) 1 V u (c) = ( 2 7; 3)
tri par ordre lexicographique
slection par leximin Lexdiff(V ) = c 5.3. Prise en compte de la robustesse dans la rsolution des MDP Il est courant que le modle dun MDP (fonction de transition et fonction de rcompense) soit connu de manire incertaine. Les raisons pour cela sont lies la faon dobtenir le modle : via un expert humain ou en faisant des statistiques. Si lon veut tenir compte de cette incertitude, une premire difcult est de dcider comment la modliser. Mais cette difcult est directement lie au problme que lon se pose, lequel peut tre :
173
Quelles parties du modle est-il le plus utile damliorer pour prendre de meilleures dcisions ? Comment planier ses actions en tenant compte de cette incertitude ? Le premier problme est celui rencontr quand on cherche la meilleure approximation dun modle, en discrtisant les tats ou les actions, ou en utilisant des fonctions dapproximation. [cf ? ? ?] Nous nous intressons ici au deuxime problme, en reformulant lobjectif de la planication comme celui de trouver une politique optimale face au pire modle possible. On parle alors de planication robuste. On se retrouve ici face un jeu deux joueurs (le planicateur contre le modeleur ) et somme nulle, lequel peut tre rsum par le problme doptimisation suivant : arg max min V (, m),
mM
o est lensemble des politiques, M lensemble des modles possibles et V (, m) la valeur dune politique pour un modle m (diffrents critres sont possibles). La planication robuste nous amne faire deux remarques propos de la fonction de rcompense : Alors quune rcompense peut tre lie une transition (s, a) s : r(s, a, s ), il est usuel de ne faire dpendre la rcompense que de s et a : r(s, a) = Es [r(s, a, s )]. Ne connaissant pas ici le vrai modle, on ne peut calculer cette esprance. Il est donc prfrable de garder la formulation r(s, a, s ). r(s, a, s ) est une grandeur incertaine. Mais, parmi ses valeurs possibles, la pire est toujours la plus petite. On fait donc par la suite lhypothse que r(s, a, s ) prend cette pire valeur. Notons dabord que la planication robuste sintresse aux modles possibles, pas la distribution de probabilit sur les modles. On na donc besoin que de spcier lensemble des modles possibles. Un choix simple et pratique est de modliser lincertitude sur une grandeur (ici p(s |s, a)) par un intervalle : p(s |s, a) [P min (s |s, a), P max (s |s, a)]. La gure 5.4 illustre cette modlisation de lincertitude sur la transition depuis une paire (tat, action) (s, a). Ici, un triangle est un simplexe reprsentant toutes les distributions de probabilit possibles pour une transition trois tats atteignables (P (si ) = 1 au sommet si ). Le trapze sur le triangle de gauche correspond la contrainte fournie par lintervalle de probabilits pour s1 . Sur le triangle de droite, les modles possibles sont lintersection des trois contraintes. On notera que lensemble des modles possibles pour une paire (tat, action) forme un polygone convexe (dans le cas de la modlisation laide dintervalles). Cette convexit est une proprit facilitant souvent la recherche dun optimum : si la fonction optimiser est elle aussi convexe, il ny a quun optimum global.
174
PDM en IA
s 1
s 1
pmax s
1
pmin s
1
s 3
s 2
s 3
s 2
Figure 5.4. Modlisation de lincertitude sur la transition depuis une paire (tat, action) (s, a) laide dintervalles.
La planication robuste telle quelle a t dcrite permet dutiliser des algorithmes optimisant les dcisions localement (i.e. au niveau dun tat) la condition que la proprit suivante soit vrie :
Proprit 1 La distribution de probabilit p(|s, a) est indpendante dune paire (tat, action) lautre.
Faire cette hypothse accrot le nombre de modles possibles et permet de se ramener un jeu altern, o planicateur et modeleur jouent tour de rle. On peut ainsi reformuler lalgorithme ditration sur les valeurs sous une forme robuste en alternant une tape de minimisation et une tape de maximisation, comme le montre lalgorithme 5.2 avec critre -pondr. Algorithme 5.2 : Itration sur les valeurs robuste initialiser V0 V n0 rpter pour s S faire pour a A faire Qn+1 (s, a) a minma (s |s, a) [r(s, a, s ) + Vn (s )] s S pma s Ms s Vn+1 (s) maxaA Qn+1 (s, a) nn+1 jusqu ||Vn+1 Vn || < pour s S faire (s) arg maxaA Qn (s, a) retourner Vn ,
175
On notera quil existe toujours une politique optimale dterministe pour le planicateur. De plus, si lensemble des modles possibles est convexe, il existe un pire modle lune des extrmits de cet ensemble (dans le cas de lutilisation dintervalles, il sagit dun sommet du polygone). Cela permet de dnir des procdures simples pour trouver le pire modle local. Le lecteur intress par la planication robuste trouvera plus de dtails dans la litrature suivante [?, BAG 01, NIL 04, NIL 05, ?]. La principale difcult est lie la proprit 1. Il existe de nombreux cas dans lesquels celle-ci nest pas vrie, comme en planication avec tches concurrentes (voir chapitre 15). On ne peut alors plus utiliser la programmation dynamique. Il faut se ramener des approches par recherche directe de politiques [BUF 05]. 5.4. Processus Dcisionnels de Markov Possibilistes Un des apports de lintelligence articielle la thorie de la Dcision en gnral a t la proposition et ltude de critres de dcisions alternatifs au critre traditionnel de lutilit espre. Parmi ces critres de dcision alternatifs, des critres qualitatifs , plus adapts aux problmatiques de lintelligence articielle (licitation de connaissances / prfrences, communication Homme / Machine), ont t utiliss dans le cadre de la dcision squentielle dans lincertain. En particulier, une contrepartie qualitative des MDP / POMDP [FAR 98, SAB 01a] a t rcemment propose. Nous allons dcrire ce modle dans la suite de ce chapitre. 5.4.1. Contreparties possibilistes de lutilit espre Une distribution de possibilit dcrit la connaissance que lon a de la valeur prise par un ou plusieurs attributs mal connus dcrivant ltat dun systme. Par exemple, lge dun homme, la taille dun immeuble... Dans notre cas, une distribution de possibilit sera utilise pour modliser la connaissance imparfaite que lon a du monde dans un problme de dcision dans lincertain, distinguant les tats plausibles ou normaux, des tats peu vraisemblables ou surprenants. Plus formellement, une distribution de possibilit sur un ensemble dtats S est une application de S dans (L, <), une chelle ordonne nie ou borne. Cette chelle est suppose quipe dune fonction de renversement n, bijection de L dans L telle que si > L, alors n( ) > n(). 1L et 0L reprsentent respectivement le plus grand et plus petit lment de L et n(0L ) = 1L et n(1L ) = 0L . Si L = [0, 1], on choisit en gnral n = 1 . Dans le cas o L est nie (ce que nous supposerons par la suite, S tant ni), n est la fonction de renversement de L. La fonction : S L modlise cette connaissance, avec les conventions suivantes : (s) = 0L signie que s est considr comme impossible ; (s) = 1L signie que s est un tat normal ou totalement possible ;
176
PDM en IA
(s) > (s ) signie que s est plus vraisemblable que s . Notons quil se peut trs bien que plusieurs tats aient une possibilit de 1L : cela signie que tous ces tats sont galement plausibles et sont plus plausibles que tous les autres. Le cas extrme dignorance est celui o tous les tats partagent une possibilit de 1L : tous les tats sont possibles et rien ne permet de les dpartager. Au contraire, si un seul tat a une possibilit de 1L et tous les autres sont impossibles (possibilit 0L ), alors on est dans un tat de connaissance parfaite. Cette description de la connaissance en termes de distribution de possibilit est assez exible dans la mesure o tous les degrs de lchelle L compris entre 0L et 1L sont utilisables pour modliser le degr de possibilit (s) des diffrents tats. En gnral et cela sera le cas dans ce chapitre, la seule contrainte sur la distribution est quil existe un tat s de possibilit 1L (normalisation) : quelle que soit notre connaissance sur ltat du monde, il existe au moins un tat accept comme normal . Une distribution de possibilit peut tre utilise pour modliser des connaissances incompltes sur ltat rel du monde. On peut toutefois donner une interprtation diffrente de cette fonction en termes de prfrence sur ltat du monde : Dans ce cas, (s) reprsente le degr auquel s est une situation souhaitable pour un agent (on trouvera dans [DUB 96] une discussion dtaille sur linterprtation dune distribution de possibilit en termes de prfrence). Nous allons maintenant examiner le cas o deux distributions de possibilit sont utilises conjointement pour modliser connaissances et prfrences dans des problmes de dcision qualitative dans lincertain. Les auteurs de [DUB 95] ont propos une contrepartie ordinale de la thorie de lutilit espre, base sur la thorie des possibilits. Dans le cadre de la dcision non squentielle, S et X sont respectivement les ensembles (nis) dtats possibles du monde et de consquences possibles des actions. En supposant que les informations sur les connaissances et les prfrences du dcideur sont qualitatives, il est raisonnable de reprsenter la fois la connaissance incomplte de ltat du monde par une distribution de possibilit sur S et les prfrences graduelles sur les consquences par une autre distribution de possibilit note sur X , ces deux distributions prenant leurs valeurs sur une chelle commune L nie, totalement ordonne et de plus petit et plus grand lments respectivement 0L et 1L . Lexistence de cette chelle commune se justie naturellement dans le cadre dune axiomatisation des critres de dcision possibilistes la Savage, telle que propose dans [DUB 98]. Lincertitude de lagent sur leffet dune action a effectue dans ltat du monde s est reprsente par une distribution de possibilit (|s, a) : X L. La distribution (x|s, a) value dans quelle mesure x est une consquence plausible de laction a applique en s. (x|s, a) = 1L signie que x est une consquence tout fait plausible, alors que (x|s, a) = 0L signie que x est impossible. De la mme manire, les consquences sont galement ordonnes en termes de niveau de satisfaction par une fonction dutilit qualitative : S A X L. (s, a, x) = 1L signie que x est une consquence tout fait satisfaisante de a en x,
177
alors que (s, a, x) = 0L signie que x nest absolument pas satisfaisante. Notons que nous supposerons toujours que est normalise, alors que peut trs bien ne pas ltre (rien ne garantit pour un problme de dcision x quune consquence totalement satisfaisante puisse tre atteinte). [DUB 95, DUB 98] ont propos et axiomatis les deux critres de dcision suivants :
u (a, s) = max min{ (x|s, a), (s, a, x)}

xX
(5.1) (5.2)
u (a, s) = min max{n( (x|s, a)), (s, a, x)}

xX
o n est la fonction de renversement de L. u peut tre vu comme une extension du critre maximax qui value les couples (tat, action) suivant lutilit de leur meilleure consquence possible, alors que u est une extension du critre maximin qui les value suivant la pire consquence possible. Utiliser u correspond une attitude optimiste (on se focalise sur les meilleures consquences possibles dune action, en ignorant les pires), alors que u correspond une attitude prudente (on se focalise sur les pires consquences possibles dune action, en ignorant les meilleures). Les utilits qualitatives possibilistes, bien que fort diffrentes de lutilit espre, ne sont pas totalement distinctes de celles-ci. En fait, il est possible de dmontrer que des relations de prfrence bases sur les utilits possibilistes optimistes et pessimistes peuvent toujours tre rafnes par une relation de prfrence base sur une utilit espre, elle mme exprimable de manire qualitative en fonction des distributions de possibilits et dutilit qualitative uniquement [FAR 03, FAR 05]. E XEMPLE. Considrons lexemple, propos par ([SAV 54], pages 13 15) pour illustrer le critre de lutilit espre : Le problme est de cuisiner une omelette... Nous avons dj cass cinq ufs dans un bol et nous avons le sixime, dont ltat de fracheur semble douteux, en main. Trois actions sont disponibles : Casser luf dans lomelette (CO), le casser part dans une tasse (CT) ou le jeter directement (J). Considrons que lchelle nie L = T = {0, a, b, c, d, 1} o 0 < a < b < c < d < 1, quipe dun renversement dordre n est sufsante pour exprimer conjointement lincertitude sur ltat du monde et les prfrences sur les consquences. En particulier, les consquences sont ordonnes en termes de prfrence dans la Table 5.1. Les degrs entre parenthses reprsentent un codage intuitif de lordre de prfrence entre les consquences. Deux tats du monde sont possibles (frais (F), pourri (P)), de possibilit respectives (F ) et (P ), avec max( (F ), (P )) = 1 (normalisation de la distribution de possibilit reprsentant lincertitude).
178
PDM en IA Actions/tat CO CT J uf Frais (F) omelette 6 ufs (1) omelette 6 ufs, tasse laver (d) omelette 5 ufs, uf gch (a) uf Pourri (P) rien manger (0) omelette 5 ufs, tasse laver (b) omelette 5 ufs (c)
Tableau 5.1. tats, actions et consquences dans lexemple de lomelette de Savage.
u (CO) u (CO) u (CT ) u (CT ) u (J ) u (J )

min(1, max(n( (P )), 0)) = n( (P ))
= (F ) = = = = min(d, max(n( (P )), b)) max(min( (F ), d), b) min(max(n( (F )), a), c) max(a, min( (P ), c))
Le critre u recommande la prudence (CT) ds lors que lon est ignorant de ltat de luf ( (P ) et (F ) suprieurs ou gaux n(a) = d), ce qui semble plus raliste que les thories qualitatives suggrant doublier les tats qui ne sont pas les plus plausibles (comme dans [BOU 94]). Ces dernires, en se focalisant soit sur ltat (F), soit sur ltat (P) ne recommandent en aucun cas laction (CT), qui semble la plus intuitive . Il est noter que, dans cet exemple, lattitude optimiste est moins intuitive , puisquelle recommande laction (CO) en cas dincertitude. 5.4.2. Programmation Dynamique Possibiliste 5.4.2.1. Horizon ni Dans [FAR 98], la thorie de la dcision possibiliste a t tendue au cas squentiel en horizon ni N . Dans ce cadre, lutilit dune politique : S H A dans un tat initial s0 est dnie suivant le cas (pessimiste ou optimiste) par un critre dutilit qualitative appliqu aux trajectoires possibles (et pas aux tats /consquences possibles) : u (, s0 ) u (, s0 ) = = min max{n( ( |s0 , )), (, )}
(5.3) (5.4)
max min{ ( |s0 , )), (, )}
o, si = {s0 , . . . , sN }, ( ) ( |s0 , ) = i0...N (si , (si )) =

i0...N 1
min
(si+1 |si , di (si )).
179
est un oprateur agrgeant les degrs de prfrence associs chaque transition. En pratique, on utilise dans le cas de lhorizon ni soit i0...N (si , (si )) = mini0...N (si ), soit i0...N (si , (si )) = (sN ). Pour se faire une ide intuitive de ces critres en dcision squentielle, considrons les cas simplis suivants : i) Les possibilits de transition ne prennent que des degrs 0L ou 1L , de mme que les degrs dutilit, qui ne sont associs qu ltat nal : dans ce cas, le critre pessimiste donne une utilit maximale toutes les stratgies qui ne gnrent que des trajectoires dont ltat nal est satisfaisant. Le critre optimiste, lui, slectionne les stratgies qui gnrent au moins une trajectoire menant un tat satisfaisant. ii) Mme cas, mais loprateur dagrgation est le min : sont satisfaisantes les stratgies qui soit ne gnrent que des trajectoires dont toutes les transitions sont satisfaisantes (cas pessimiste), soit gnrent au moins une trajectoire dont toutes les transitions sont satisfaisantes (cas optimiste). iii) Possibilits de transition 0L ou 1L , mais les prfrences prennent toutes les valeurs possibles de lchelle L : Le degr de satisfaction dune stratgie est soit le degr de satisfaction de la pire trajectoire possible (cas pessimiste) soit celui de la meilleure (cas optimiste) trajectoire possible, o le degr de satisfaction dune trajectoire est soit le degr de satisfaction de son tat nal, soit le degr de satisfaction de sa pire transition. iv) Cas gnral : on retrouve les critres de dcision possibilistes pour la dcision une tape, lespace dtat tant remplac par celui des trajectoires, lespace des consquence, soit par SN , soit par lespace des N uplets de transitions et lespace des actions par celui des politiques. Les contreparties possibilistes (pessimistes et optimistes) des quations de Bellman sont : Dans le cas pessimiste (pour min) :
t+1 ut (s) = max min min{(s, a, s ), max{n( (s |s, a)), u (s )}} aAs s St+1
uN (s) = (s) Dans le cas optimiste : ut (s) = max max min{(s, a, s ), (s |s, a), ut+1 (s )}
aAs s St+1
(5.5)
uN (s) = (s)
(5.6)
Dans [FAR 98] on montre que les politiques calcules rcursivement (backwards) par applications successives de (5.5) (resp. (5.6)) optimisent le critre u (resp. u ). Notons qu cause de lidempotence de loprateur min, le calcul backwards ne calcule quun sous-ensemble de lensemble des politiques maximisant u (resp. u ).
180
PDM en IA
Nanmoins, ces politiques vrient la proprit de cohrence dynamique : toute souspolitique (de t N ) dune politique optimale de t N (avec t t) est optimale pour le critre choisi (voir [FAR 98]). 5.4.2.2. Itration sur les valeurs Considrons, maintenant dans le cadre qualitatif (possibiliste) les problmes stationnaires en horizon inni. Pour tre plus exact et tant donn quil nexiste pas de correspondance dans le cas possibiliste avec le critre -pondr qui permette dassocier un degr de prfrence une trajectoire de longueur innie, on se limitera dans le cas possibiliste au cas de problmes horizon indni : il existe une fonction dutilit possibiliste sur les tats terminaux des trajectoires, une action arbitraire no op laissant le systme dans son tat actuel et on cherche une stratgie permettant damener le systme dans un tat nal satisfaisant ( coup sr, ou possiblement suivant quon est pessimiste ou optimiste), ventuellement en neffectuant que des transitions satisfaisantes. Il est possible de dnir une version possibiliste de lalgorithme itration sur les valeurs pour rsoudre ce type de problme. Cet algorithme [SAB 01a] utilise une ver (s, a) de la fonction Q utilise en apprentissage par renforcement. sion possibiliste Q (s, a) value lutilit (pessimiste ou optimiste) de laction a dans ltat s. Q Comme dans le cas stochastique, les stratgies possibilistes optimales peuvent tre obtenues en itrant les mises jour suivantes : Cas pessimiste : t+1 (s, a) = min min{(s, a, s ), max{n( (s |s, a)), ut (s )}}, Q
s S
(5.7)
o ut (s) = maxa Q t (s, a) et Qt (s, no op) = (s). Cas optimiste :

Q t+1 (s, a) = max min{(s, a, s ), (s |s, a), ut (s )}, s S
(5.8)
o u t (s) = maxa Qt (s, a) et Qt (s, no op) = (s). Cet algorithme converge en un nombre ni ditrations (lalgorithme sarrte ds t+1 = Q t ). Ceci est facile prouver, en constatant que la suite de fonctions que Q (Qt )t est non-dcroissante et prend ses valeurs dans lensemble L, ni. Au passage, notons que le nombre ditrations est born par la taille de lensemble des fonctions Q : |A| |S | |L|. Puisquune itration de lalgorithme ncessite |S | |A| mises jour, la complexit de la recherche dune politique optimale est O(|S |2 |A|2 |L|). Notons galement que, contrairement lalgorithme ditration sur les valeurs stochastique, linitialisation de u (ou u ) nest pas arbitraire (la fonction sur S est utilise pour initialiser ). E XEMPLE. Considrons lexemple de la gure 5.5, dans lequel un robot doit atteindre le coin infrieur droit de la gure. Une politique le menant dans une des cases voisines
181
du coin infrieur droit sera partiellement satisfaisante. Les cases noires de la gure reprsentent des obstacles. La fonction dutilit associe au problme (les degrs de satisfaction ne sont associs quaux tats naux du systme) galement reprsente dans la gure 5.5, est dnie par : (s33 ) = 1, (s23 ) = (s32 ) = 0, 5 et (s) = 0 pour les autres tats.
1 1 2 3
0.5 0.5
G
1
Figure 5.5. Espace dtat et fonction dutilit.
Les actions disponibles sont de dplacer le robot vers le (H)aut, (B)as, (D)roite et (G)auche, ou de (R)ester en place. Si le robot choisi de (R)ester en place, sa position restera identique, avec certitude. Par contre, sil choisit une des autres actions, il se dplacera vers la case dsire avec une possibilit maximale ( = 1), mais il pourra ventuellement driver vers une des cases voisines, avec des degrs de possibilits donns dans la gure 5.6 (pour laction D, les autres sobtiennent par symtrie).
0.4 1 0.4 1 0.2 1 1
Figure 5.6. Possibilits de transition pour laction D.
Si la case de destination choisie est un obstacle, la position du robot ne change pas (comme si laction R avait t choisie). Calculons maintenant la politique (pessimiste) obtenue aprs une itration de la mise jour (eq. [5.7]). Pour tous les couples (s, a), nous obtenons : 1 (s, a) = mins S max(1 (s |s, a), (s )) ( ne dpend pas de ltape de Q calcul) et 1 u1 (s) = maxa{H,B,G,D,R} Q (s, a). La gure 5.7 dcrit lutilit pessimiste de chaque action aprs une itration, ainsi que la politique courante calcule pour tous les tats dutilit non nulle. Laction retourne pour chaque tat est unique, except pour les tats s33 et s22 pour lesquels B et D peuvent tre retournes.
182
PDM en IA
1 1 2 3
Figure 5.7. Politique calcule aprs une itration.
1 0 0 1 0 0 1 1 1 0
2 3
0.5 0.8 1 0.5 0.8
Il suft maintenant de ritrer les mises jour jusqu convergence de la fonction de valeur obtenue. Le processus est dcrit dans la gure 5.8, o lon constate que la convergence est obtenue aprs cinq itrations.
T=3
1 2 3
Figure 5.8. Calcul itratif dune politique pessimiste optimale.
1 0 0 1 0 0 1 11 0 1 00 0 1 0 1 0 11 1 0 1 0 0 1 0 1 0 1 0 1 0 1 00 1 0 1 0 1 1 0 1 0 1 1 0 1 0 1 0 110 00 11 00 1 0 1 1 00 0 11
T=0
1 2
T=1
1 2 3
T=2
1 2 3
0.5
0.8 0.8 1
0.5
0.5 0.8
0.8 1
0.5
0.8
0.5
0.8
T=4
1 2 3
T=5
1 2 3
0.5
0.8
0.8 0.8
0.8
0.8 0.8
0.8 0.8 1
0.8
0.8
0.8 1
0.8 0.8
0.8 1
0.8 0.8
0.8
Le nombre ditrations requis pour calculer une politique optimale est de lordre du plus long chemin dterministe reliant un tat de dpart quelconque ltat but. Ce nombre est toujours infrieur la taille de lespace dtats. Dans cet exemple, la politique optimale optimiste est identique la politique optimale pessimiste. Seule la fonction de valeur associe (reprsente dans la gure 5.9) diffre.
1 2 3
1 0 0 01 1 0 1 1 0 11 0 00 1
1 2 3
1 1 1 1 1 1 1
Figure 5.9. Politique optimale optimiste.
11 00 00 11 00 11 00 11 00 11 00 11 S 00 11 00 11
183
5.4.2.3. Itration sur les politiques Une version possibiliste de lalgorithme ditration sur les politiques peut galement tre dnie. Cet algorithme (ici dans le cas o il ny a pas dutilits intermdiaires) alterne comme lalgorithme classique des MDP des phases dvaluation et damlioration de la politique courante : valuation : Rpter, jusqu convergence de u :
s S, u (s) = min max{n( (s |s, (s))), u (s )} s S
(5.9)
Amlioration : s S, (s) argmaxaA min max{n( (s |s, a)), u (s )}

s S
(5.10)
Tout comme pour lalgorithme ditration sur les valeurs, linitialisation de la fonction de valeur ne peut pas tre arbitraire (la fonction est initialise par la fonction dutilit sur les buts). Une version optimiste de lalgorithme ditration sur les politiques sobtient de la mme manire que prcdemment. 5.4.3. Extensions des MDP possibilistes Les MDP possibilistes ont t tendus pour faire face aux limitations similaires celles affrontes par le cadre des MDP classiques. Plus prcisment, les trois extensions suivantes ont t proposes : Apprentissage par renforcement. Certains problmes de dcision qualitative dans lincertain mlent la fois une reprsentation qualitative des prfrences (un prordre sur les prfrences) et une reprsentation incomplte de lincertain, seulement accessible via la simulation de transitions, ou leur exprimentation. Des mthodes de type apprentissage par renforcement ont t proposes pour traiter ces problmes. POMDP possibilistes. Lhypothse dobservabilit complte ou partielle de ltat du monde nest pas lie au cadre utilis pour reprsenter lincertain. Les MDP possibilistes ont donc t tendus pour prendre en compte lobservabilit partielle inhrente certains problmes. diagrammes dinuences possibilistes. Le cadre possibiliste de reprsentation de lincertain est naturellement mieux adapt que le cadre probabiliste au raisonnement sur des connaissances structures, du fait des oprateurs (min et max) impliqus dans les outils de raisonnement. Il tait donc naturel dtendre les MDP possibilistes des reprsentations structures des connaissances et des prfrences. Rcemment, une contrepartie possibiliste des diagrammes dinuence a donc t propose, incluant des outils algorithmiques pour la rsolution de ces problmes. Dans cette section, nous dcrivons brivement les rsultats obtenus sur ces trois points.
184
PDM en IA
5.4.3.1. Apprentissage par renforcement possibiliste [SAB 01b] a propos des versions possibilistes des algorithmes dapprentissage par renforcement dits indirects : quivalent certain et prioritized sweeping. Les proprits mathmatiques des oprateurs de type utilit qualitative ne permettent pas de dnir des algorithmes dapprentissage par renforcement directs (TD-lambda, Qlearning) aussi, seules des mthodes indirectes ont t dveloppes. Le problme de lapprentissage par renforcement possibiliste est de dnir un estimateur t (s |s, a) de t (s |s, a) o et appartiennent une chelle ordinale nie L. Il existe dans la littrature de nombreux oprateurs de transformation entre probabilits et possibilits. Ces oprateurs peuvent tre classs en deux catgories : La premire famille [DAR 94, HEN 99] est base sur une interprtation des degrs de possibilit en termes de probabilits innitsimales . La seconde famille [GIA 99, DUB 93] est base sur le principe de transformations entre probabilits et possibilits cohrentes. Une transformation est cohrente ds lors que A, B S, P (A) P (B ) (A) (B )2. La mthode dapprentissage de politiques possibilistes optimales la plus simple (et la moins efcace) est la mthode de lquivalent certain, qui consiste apprendre et par exploration exhaustive de S A avant dappliquer un algorithme ditration sur les valeurs ou sur les politiques possibiliste. Cette mthode est inefcace car, comme dans le cas stochastique, elle consacre le mme effort tout lespace dtat, alors que certains tats peu plausibles ont peu dinuence sur la valeur globale dune politique et que certains couples (tat, action) peuvent trs vite tre considrs comme mauvais . Elle peut tre amliore en alternant des phases dapprentissage de modle et de mise jour de la fonction de valeur possibiliste, constituant ainsi une forme dalgorithme de type prioritized sweeping possibiliste. Lalgorithme prioritized sweeping possibiliste (PSP) est similaire lalgorithme stochastique, la diffrence que (comme pour lalgorithme itration sur les valeurs possibiliste) la politique courante est sauvegarde en mmoire en plus de la fonction de valeur courante. A chaque fois quune action a est applique en un tat s et que (s, a), sont des changements de et , sufsants pour changer la valeur courante de Q observs, ces changements sont propags vers les prdcesseurs de s. Si la valeur des prdcesseurs est modie, ces modications sont galement propages etc. La propagation est effectue grce une le dattente de type FIFO contenant les prdcesseurs modier. La taille de la le dattente est borne, ainsi que le nombre de mises jour par transition observe.
2. Remarquons que les transformations bases sur des probabilits innitsimales ne sont pas forcment cohrentes, sauf lorsque 0, auquel cas les distributions de possibilit obtenues ont tendance tre des distributions tout ou rien .
185
Malheureusement, la politique retourne par lalgorithme PSP nest pas toujours optimale. Ceci est li au processus dallocation dactions : une nouvelle action a (sloc ) est associe par lalgorithme ltat courant sloc chaque fois que la valeur courante u (sloc ) est modie par une exprience. Or il se peut au cours de lapprentissage que la valeur courante u (sloc ) devienne gale la valeur optimale alors que le modle courant , nest pas encore correct, ce qui implique que laction courante a (sloc ) nest pas forcment optimale. Si, par la suite, la fonction de valeur courante ne change plus alors que le modle continue changer, laction courante ne pourra plus tre modie. Le moyen utilis par [SAB 01b] pour rsoudre ce problme consiste utiliser lalgorithme PSP pour calculer une politique sous-optimale, puis lancer un algorithme ditration sur les politiques possibiliste partir de cette politique, en utilisant les estimations et courantes. Ceci permet de restaurer loptimalit des politiques, lorsque le nombre dessais allous PSP augmente. En pratique, on constate que la politique calcule par PSP est presque optimale et quun trs petit nombre ditrations sont ensuite ncessaires pour obtenir une politique optimale. PSP+Itration sur les politiques permet de calculer une politique optimale plus rapidement que lalgorithme dquivalent certain possibiliste. 5.4.3.2. MDP possibiliste partiellement observable La notion de conditionnement a t tudie dans le cadre de la thorie des possibilits (voir [DUB 94] pour une prsentation complte). Le conditionnement par rapport un vnement prend une forme similaire celle du conditionnement Baysien : A, B, (A B ) = min{(B |A), (A)}. (5.11)
Contrairement au cas du conditionnement Baysien, lquation 5.11 ne possde pas une solution (B |A) unique. Aussi, en gnral, on choisit la solution de lquation 5.11 la moins spcique3 : (B |A) = 1L si (A B ) = (A) > 0L et (B |A) = (A B ) sinon. (5.12) Une fois ce choix effectu pour le conditionnement de la mesure de possibilit, le conditionnement (|o) dune distribution de possibilit par une observation o se dnit immdiatement par : (s|o) = 1L si (s, o) = (o) et (s|o) = (s, o) sinon. (5.13)
O (o) = maxs (s, o) et (, ) est la distribution de possibilit jointe sur S .

MDP
possibiliste partiellement observable
A partir de cette dnition du conditionnement possibiliste, il est facile de dnir un POMDP possibiliste [SAB 99], de la mme manire que dans le cadre stochastique.
3. Si (A B ) = (A) < 1L alors, (A B ), (B |A) = satisfait lquation 5.11 (lorsque = min).
186
PDM en IA
Dans le cadre possibiliste, un POMDP possibiliste (-POMDP) peut tre transform en un PDM possibiliste, tout comme dans le cas stochastique. Toutefois, dans ce cas, lespace dtat reste ni, ce qui permet dappliquer les algorithmes itratifs dcrits prcdemment : un tat de croyance possibiliste est une distribution de possibilit sur lespace dtats S . Contrairement au cas stochastique, lensemble des tats de croyance possibilistes est ni ds lors que lchelle L utilise pour prciser les degrs de possibilit est nie. Le cardinal de B , lensemble des tats de croyance possibilistes est major par |L||S | . Supposons maintenant comme dans le cas probabiliste que les possibilits de transition (s |s, a) sont donnes, de mme que les possibilits des observations, (o|s, a). Alors on peut dnir a (s ), la possibilit datteindre s en partant dune connaissance sur ltat initial dnie par et en appliquant laction a : a (s ) = max min{ (s |s, a), (s)}.
sS
(5.14)
On calcule ensuite la possibilit dobserver o aprs avoir appliqu a en : a (o) = max min{ (o|s, a), a (s)}.
sS
(5.15)
o Maintenant, a est ltat de croyance possibiliste, rvis aprs avoir appliqu a en et observ o : o a (s) = 0L si (o|s, a) = 0L , o a (s) = 1L si (o|s, a) = a (o) > 0L , o a (s) = a (s) dans les autres cas.
(5.16)
Tous les lments du nouveau MDP possibiliste sur lespace des tats de croyance sont dnis dans les quations 5.14, 5.15 et 5.16. Intuitivement, lvolution du systme se dnit par : si le systme est dans ltat , alors appliquer laction a peut mener o o dans lun des || tats successeurs possibles a , la possibilit de rejoindre ltat a tant a (o) = (o|, a). A partir de l, les quations de Bellman possibilistes peuvent tre tendues au cas partiellement observable (ici dans le cas pessimiste)4 :
t+1 o ut ( ) = max min{( ), min max{n(a (o)), u (a )}}, aAs oO
o ( ) = minsS max{n( (s)), (s)} et u0 ( ) est initialis ( ).
4. Par souci de simplication des notations, on se limite ici une fonction dutilit sur les tats et non sur les transitions. videmment, lquation ?? peut tre tendue pour prendre en compte des prfrences sur les transitions.
187
5.4.3.3. Diagrammes dinuence possibilistes (DIP) Le cadre des Diagrammes dInuence Possibilistes (DIP), contrepartie possibiliste des diagrammes dinuence, a t dni rcemment [GAR 06]. La partie graphique dun DIP est exactement la mme que celle dun diagramme dinuence usuel mais la smantique diffre. Les vraisemblances des transitions sont exprimes par des distributions de possibilit et les rcompenses sont considres ici comme des degrs de satisfaction attachs des buts partiels. Lutilit espre est alors remplace par lun des deux critres dutilit qualitative possibiliste prsents prcdemment. Les algorithmes de programmation dynamique possibiliste (recherche arrire, puisque lhorizon est ni) sont applicables pour rsoudre un problme exprim sous la forme dun DIP. Cependant, ils ncessitent des ressources en temps exponentielles pour calculer lutilit dune stratgie possibiliste optimale5. [GAR 07, GAR 08] ont montr que le calcul de lutilit dune stratgie optimale pour un DIP tait NP-complet dans le cas optimiste6 et PSPACE-complet dans le cas pessimiste. Ils ont propos deux classes dalgorithmes, respectivement bass sur lexploration dun arbre de dcision ou sur llimination de variables, permettant de rsoudre des problmes exprims sous la forme de DIP. Indpendamment, un modle algbrique plus gnral pour la dcision (structure) dans lincertain a t propos [PRA 06], prsentant galement des algorithmes de la mme famille, pour une classe de problmes plus vaste.
5.5. MDP algbriques Nous prsentons maintenant un cadre tendant la fois celui des MDP multicritres et celui des MDP possibilistes. Dans le but dtudier ces problmes de planication utilisant une reprsentation de lincertain non probabiliste et/ou une reprsentation non classique des prfrences sur les actions (rcompenses non ncessairement relles scalaires additives), nous introduisons le cadre gnral des MDP algbriques propos par [PER 05, WEN 06b]. Avant de prsenter ce formalisme, nous faisons un bref rappel des outils utiliss : semi-anneaux, mesure de plausibilit et utilit espre gnralise. Nous prsentons ensuite formellement les MDP algbriques. Sous certaines conditions que nous dtaillons, il est possible dutiliser un algorithme dinduction arrire pour dterminer les politiques non domines. Cette tude prliminaire est restreinte au cas de lhorizon ni (nombre ni dtapes de dcisions).
5. Et un espace exponentiel pour la reprsenter. 6. En fait, cest le problme de dcision associ ce problme doptimisation, qui est NPcomplet.
188
PDM en IA
5.5.1. Rappels 5.5.1.1. Semi-anneaux Pour la dnition dun MDP algbrique (AMDP), nous introduisons deux chelles de valuation V et P , pour mesurer respectivement les rcompenses et lincertain. Elles sont supposes munies dune structure de semi-anneau (cf. [GON 01] pour un expos plus complet). Dnition 12 Un semi-anneau (X, X , X , 0X , 1X ) est un ensemble X muni de deux lois X et X qui vrient les conditions suivantes : (X, X , 0X ) est un monode commutatif avec 0X comme lment neutre, i.e. : a X b = b X a (a X b) X c = a X (b X c) a X 0X = a (X, X , 1X ) est un monode avec 1X comme lment neutre et 0X comme lment absorbant, i.e. : (a X b) X c = a X (b X c) 1X X a = a X 1X 0X X a = a X 0X (a X b) X c = a X (b X c) = = a = 0X (5.17) (5.18)
X est distributif sur X i.e. : (a X c) X (b X c) (a X b) X (a X c)
Lopration X permet de dnir un prordre (non ncessairement complet) X appel canonique comme suit : x, y X, x X y z X, x = z X y. Le semi-anneau est dit idempotent lorsque X est idempotent (i.e. x X, x X x = x). Dans ce cas, le prordre canonique X associ X est un ordre. Ainsi, lchelle de valuation des rcompenses V est suppose munie de la structure de semi-anneau idempotent (V, V , V , 0V , 1V ). Intuitivement, la loi V est une opration pour la slection des lments prfrs et la loi V permet la combinaison des lments. Lchelle de valuation de lincertain P est suppose munie de la structure de semi-anneau (P, , , 0P , 1P ). Linterprtation des oprateurs et est donne dans la section suivante. Nous supposons de plus pour simplier que le prordre canonique sur P est un ordre. titre illustratif, dans les MDP classiques, on a (V, V , V , 0V , 1V ) = (IR {}, max, +, , 0) et (P, , , 0P , 1P ) = ([0, +[, +, , 0, 1).
189
5.5.1.2. Mesures de plausibilit Pour modliser lincertain li aux consquences dune action, nous faisons appel aux mesures de plausibilit7 proposes par [FRI 95] gnralisant la plupart des reprsentations de lincertain. Dnition 13 Soit X un ensemble ni. Une mesure de plausibilit P l sur 2X est une application de 2X dans P vriant : P l() = 0P P l(X ) = 1P A, B X, A B P l(A) P l(B ) On peut interprter de manire simple ces trois conditions. La dernire condition afrme une certaine cohrence dans les plausibilits : un vnement est toujours plus plausible (au sens large) que tout vnement le composant. Elle implique avec la premire condition que lvnement impossible est le moins plausible des vnements et avec la seconde condition que lvnement certain est lvnement le plus plausible. Une mesure de plausibilit est dite dcomposable si P l(A B ) = P l(A) P l(B ) pour toute paire A, B dvnements disjoints et P l(A B ) = P l(A) P l(B ) pour toute paire A, B dvnements indpendants au sens des plausibilits ([HAL 01]). La restriction dune mesure de plausibilit dcomposable sur les singletons de 2X est appele distribution de plausibilit. Celle-ci dtermine compltement la mesure de plausibilit dcomposable. Dans les AMDP, on suppose que lincertain est reprsent par des distributions de plausibilit. Ainsi, on constate que les deux lois du semi-anneau (P, , , 0P , 1P ) permettent respectivement la combinaison des vnements disjoints et la combinaison des vnements indpendants. Notons de plus que lhypothse que (P, , , 0P , 1P ) est un semi-anneau nest pas trs restrictive car [DAR 92], qui utilise des proprits similaires pour dnir les probabilits symboliques, ont montr que ces proprits sont vries par de nombreuses reprsentations de lincertain, telle la thorie des probabilits, la thorie des possibilits et dautres systmes de calcul utiliss en intelligence articielle. 5.5.1.3. Utilit espre gnralise Nous prsentons maintenant le formalisme des utilits espres gnralises (GEU) propos par [CHU 03] pour offrir un cadre gnral pour ltude de critres dcisionnels. Dans ce cadre, on suppose que les utilits sont mesures sur une chelle V et lincertain concernant les consquences dune action est reprsent par une mesure de
7. ne pas confondre avec les fonctions de plausibilit de Dempster et Shafer [DEM 67, SHA 76]
190
PDM en IA
plausibilit valeur dans une chelle P . Le lecteur intress par une justication axiomatique de ce critre quand les mesures de plausibilit sont supposes dcomposables pourra se rfrer [WEN 06a]. Comme dans les critres classiques (total, total pondr, moyenne), GEU combine les plausibilits et les utilits pour dnir un critre de dcision. Dans ce but, on introduit les oprations g : V V V et g : P V V qui sont les analogues de + et sur les rels utiliss par les critres classiques. On suppose que ces deux oprations satisfont trois prrequis : GEU1 (x g y ) g z = x g (y g z ) GEU2 x g y = y g x GEU3 1P g x = x Le critre GEU se dnit alors par : GEU (P l) = o P l est une mesure de plausibilit. Finalement, on dira que P l est prfr P l si et seulement si GEU (P l) V GEU (P l ). 5.5.2. Dnition dun MDP algbrique Un MDP algbrique (AMDP) est alors dcrit comme un quintuplet (S , A, p, r, T ), o p et r sont rednis comme suit : p : S A Pl(S ) est une fonction de transition, o Pl(S ) est lensemble des distributions de plausibilit sur S , values dans P , r : S A V est une fonction de rcompense donnant la rcompense immdiate dune action, value dans V . De manire cohrente avec lhypothse de Markov, ltat suivant et la rcompense ne dpendent que de ltat courant et de laction choisie. En particulier, les distributions de plausibilit de type p(s, a) sont indpendantes (de manire plausibiliste) des tats et des actions passs. E XEMPLE. La plupart des MDP introduits prcdemment dans la littrature sont des instances de AMDP. Dans les MDP standards (section 1.2.1, p. 18), lincertain est probabiliste. Ainsi, la structure algbrique sous-jacente utilise pour les plausibilits est (P, , , 0P , 1P ) = ([0, +[, +, , 0, 1). Le critre dvaluation de lapplication dune politique dans un tat repose sur le modle de lutilit espre, ce qui indique que les oprations g et g sont respectivement + et . Quand les rcompenses
g xV
P l(x) g x
191
sont dnies sur (V, V , V , 0V , 1V ) = (IR, max, +, , 0) o IR = IR {}, nous reconnaissons le critre total (p. 22). Avec (IR, max, + , , 0) (o x + y = x + y ), nous reconnaissons le critre total pondr. Avec (IR, max, +h , , 0) o 1 a +h b = a + b, nous reconnaissons le critre moyen. Les MDP possibilistes (prsents en section 5.4, p. 175) introduits par [SAB 98] sont aussi des AMDP dans lesquels lincertain est valu sur une chelle qualitative L munie de la structure de semi-anneau (L, , , OL , 1L ) o et sont respectivement les oprateurs maximum et minimum sur L. Quand lutilit optimiste est utilise (section 5.4.1, p. 175), les rcompenses sont values sur la mme chelle munie de la structure (L, , , OL , e ) o est la loi de composition sur les rcompenses ( par exemple), dlment neutre e . Les oprations g et g sont respectivement et . En revanche, quand lutilit pessimiste est utilise, il faut inverser lchelle dvaluation L et minimiser ses valeurs car on a : U ( ) = n(
xX
(x) n(u(x)) )
o n est loprateur involutif dinversion dordre sur L. Les MDP qualitatifs, introduits par [BON 02], sont des AMDP o les mesures de plausibilit sont dnies sur le semi-anneau des sries formelles (( ), +, , 0, 1) o ( ) est dni comme lensemble des sries formelles innies convergentes en :

( ) = {
k=
ak
: k, ak IR,
k=
|ak |
< }
Les oprations + et sont laddition et la multiplication sur les sries. Elles sont bien dnies car les sries sont convergentes. Les rcompenses sont, quant elles, dnies sur le semi-anneau (( ) {}, max, +, , 0). Enn, les oprations pour le calcul des esprances sont simplement + et . Les MDP multicritres (prsents en section 5.2.2, p. 168) sont galement une instance de AMDP. Lincertain est probabiliste comme dans le cas standard. Nous ne prsentons pas ici le semi-anneau des rcompenses utilis. Le lecteur intress pourra se rfrer [WEN 06b] pour plus de dtails. En dehors de ces instances de AMDP dj proposes, nous prsentons dautres exemples qui nont pas encore t tudis notre connaissance en section 5.5.5 pour justier de lintrt de notre approche algbrique. 5.5.3. Fonctions de valeur dune politique Nous pouvons maintenant procder de la mme manire que dans les MDP classiques et dnir une fonction de valeur pour les politiques. cette n, nous dnissons la valeur dun historique t = (st , at , st1 , . . . , a1 , s0 ) par : r(t ) = V r(si , ai ).
i=1 t
192
PDM en IA
Pour un tat initial s, une politique = (t , . . . , 1 ) induit une distribution de plausibi lit P lt (s, ) sur les historiques. Ainsi, la plausibilit que lapplication de la politique dans ltat s gnre un historique t est donne par P lt (s, t ). La fonction de valeur dune politique , calcule grce cette distribution de plausibilit en utilisant GEU, scrit : g P lt (s, ) g r( ) s S , vt (s) =
t (s)
Cette fonction de valeur peut tre vue comme un vecteur de V n o n est le nombre dtats. Les politiques peuvent donc tre compares en utilisant la relation de dominance V n entre vecteurs de V n : x
Vn
y (i = 1, . . . , n, xi V yi )
(5.19)
pour tout x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) V n . En effet, un horizon t donn, une politique est prfre une politique si et seulement si, dans chaque tat, la valeur de la politique est meilleure que celle de , ce qui scrit :
s S , vt (s) V vt (s). V n,
De manire plus compacte, en utilisant la relation de dominance crire : vt V n vt .
on peut alors
Une politique non domine est une politique pour laquelle il nexiste pas de politique qui lui soit prfre. La rsolution dun AMDP revient donc dterminer les politiques non domines. Ces dernires peuvent tre obtenues par le calcul des quations suivantes : s S s S , t = 1 . . . h 5.5.4. Conditions Les quations (5.20) sont difcilement applicables directement quand lhorizon est lev. Pour cette raison, nous introduisons un ensemble de conditions sur les oprateurs algbriques qui garantit que ces quations peuvent tre calcules itrativement : AMDP1 p g (x V y ) = (p g x) V (p g y ) AMDP2 x g (y V z ) = (x g y ) V (x g z ) AMDP3 p g (q g x) = (p q ) g x AMDP4
i g (s) = 1V v0 vt (s) = t vt (s)
(5.20)
pi g (x V yi ) = x V (
i
pi g yi )
193
AMDP5 p g (x g y ) = (p g x) g (p g y ) pour tout p, q, pi P, x, y, z, yi V . Les conditions AMDP1 et AMDP2 sont deux proprits de distributivit impliquant une certaine forme dadditivit de V par rapport g et g (cest--dire, x V y (z x V z y ) pour {g , g }). La condition AMDP3 permet la rduction des loteries. La condition AMDP4 rend possible lisolation dun gain certain dans une loterie. Remarquons quelle est similaire un axiome de distributivit introduit par [LUC 03], qui afrme quune loterie probabiliste l est quivalente recevoir de manire conjointe un gain certain x et une autre loterie probabiliste obtenue partir de l en retranchant x toutes ses consquences. Enn, la condition AMDP5 est une condition de distributivit analogue celle rencontre dans lesprance classique. Ces conditions tant vries, on peut crire une version algbrique des quations de Bellman (quations (1.1), p. 28) : s S s S , t = 1 . . . h
(s) = 1V v0 vt (s) = aA r(s, a) V
g s S
p(s, a, s ) g vt 1 (s )
(5.21) [PER 05] ont dmontr la proposition suivante qui indique que les quations (5.20) et (5.21) sont quivalentes. P ROPOSITION 5.1 [PER 05]. Si les conditions AMDP1 AMDP5 sont vries, alors les politiques obtenues par les quations de Bellman (5.21) sont des politiques non domines. La proposition 5.1 justie donc lemploi dune version algbrique de lalgorithme dinduction arrire 5.3 et factorise en un rsultat diffrents travaux sur les MDP classiques, sur les MDP multicritres, sur les MDP possibilistes,... De part leur gnralit, ces rsultats permettent donc dexpliquer un certain nombre de travaux connus dvelopps dans des contextes diffrents, mais aussi de justier par avance lalgorithme dinduction arrire dans des contextes qui nont pas encore t tudis. Nous prsenterons en section 5.5.5 quelques instances originales et potentiellement utiles de AMDP, qui nont pas encore t investigues notre connaissance.
5.5.5. Exemples de AMDP Pour montrer la gnralit de lapproche algbrique, nous fournissons quelques exemples de AMDP non encore tudies notre connaissance : un premier exemple avec une structure de prfrence incomplte, un deuxime exemple avec une reprsentation qualitative de lincertain, et enn, un dernier exemple o les rcompenses sont des fonctions croissantes sur un semi-anneau de valuation.
194
PDM en IA
Algorithme 5.3 : Version algbrique de lalgorithme dinduction arrire pour les

AMDP
v0 1 t0 rpter tt+1 pour i = 1 . . . n faire pour j = 1 . . . m faire qt (si , aj ) r(si , aj ) V
g k=1...n
p(si , aj , sk ) g vt1 (sk )
vt (si ) qt (si , a1 ) V . . . V qt (si , am ) jusqu t = h
5.5.5.1. AMDP multicritres probabilistes Dans les MDP multicritres probabilistes, on utilise la Pareto-dominance pour discriminer entre les vecteurs de rcompenses. Lordre induit par la Pareto-dominance est partiel et il arrive quil ne soit pas assez discriminant et quon obtienne un nombre trop important de politiques non domines. Nous proposons de rafner lordre induit par la Pareto-dominance en introduisant une priorit dans la comparaison des critres. Soit Q lensemble de ces critres (|Q| critres au total) et Q une relation dordre (qui peut tre partielle) sur Q (retant limportance des critres). Suivant [GRO 91] et [JUN 02], nous utilisons une relation dordre strict G entre les vecteurs, qui est caractrise par, pour tout x = (x1 , . . . , x|Q| ) et y = (y1 , . . . , y|Q| ) dans IR|Q| : x
G
i = 1 . . . |Q|, xi = yi et i : xi = yi , (xi > yi ) ou (j

G, G
i, xj > yj )
De manire naturelle, on dnit x
pour tout x, y dans IR|Q| , par :

G
y x = y ou x
y.
La relation de Pareto-dominance est un cas particulier de G quand Q est la relation vide, cest--dire quand tous les critres ont la mme importance. Quand Q est linaire, G devient la relation dordre lexicographique. La relation de prfrence G permet donc de rafner la relation de Pareto-dominance en introduisant une priorit sur la prise en compte des critres. [PER 05] montre que cet exemple est une instance de AMDP et quil est possible de calculer les politiques non domines par induction arrire. 5.5.5.2. AMDP multicritres possibilistes Dans lincertain possibiliste, lutilisation des utilits optimiste et pessimiste (section 5.4.1, p. 175) a t tendue dans la prise de dcision squentielle dans le cadre
195
des MDP possibilistes (section 5.4, p. 175) par [SAB 98]. Nous montrons que lemploi de lutilit binaire possibiliste [GIA 01] qui est une unication des deux critres prcdents, est galement envisageable. Avant de rappeler la dnition de lutilit binaire possibiliste, prsentons le cadre de travail. Lincertain est mesur sur un ensemble totalement ordonn (P, , , 0P , 1P ) o et sont respectivement les oprations minimum et maximum sur P . Nous d2 = { , : , P }, , , 0P , 1P , 1P , 0P ) o pour tout nissons (P P2 P2 2 , on a : , , , dans P , P 2 , = , et , P 2 , = , . Ces deux structures sont des semi-anneaux grce aux proprits de et (notamment leurs distributivits lun sur lautre). La loi P 2 induit un ordre partiel P 2 sur P2 : 2 , , , et . , , , P P2 2 : = 1P }, qui est Les rcompenses sont mesures sur P2 = { , P un sous-ensemble de P2 . Remarquons que la relation P 2 est complte quand elle est 2 et P 2 sont respectivement les oprations maximum restreinte sur P2 et les lois P et minimum sur P2 . Rappelons que lutilit possibiliste binaire est dnie par : P U ( ) =
xX
( (x) u(x)) =
xX
( (x) u1 (x)),
xX
( (x) u2 (x))
o u : X P2 est la fonction dutilit valeurs dans P2 et x X, u(x) = u1 (x), u2 (x) . Elle est donc une esprance gnralise avec lopration g dnie comme lopration sur chaque composante et lopration g comme sur chaque composante. Remarquons que ce critre prend ses valeurs dans P2 galement. Grce aux proprits de et , si les politiques sont values avec ce critre binaire, alors la version algbrique de lalgorithme de Jacobi gnre les politiques optimales. Comme dans lexemple prcdent, supposons maintenant que les actions et donc les politiques sont values par un vecteur dlments de P2 . De plus, sur lensemble des critres Q, supposons quune relation Q est dnie. Alors, lordre strict G est maintenant caractris par pour tout x = (x1 , . . . , x|Q| ) et tout y = (y1 , . . . , y|Q| ) dans P2 |Q| : x
G
i = 1 . . . |Q|, xi = yi i : xi = yi , (xi >P 2 yi ) ou (j
i, xj >P 2 yj )
196
PDM en IA
De mme que dans lexemple prcdent, [PER 05] ont montr que lalgorithme dinduction arrire 5.3 permet le calcul de politiques non domines. 5.5.5.3. AMDP dont les rcompenses sont des fonctions croissantes Soit une chelle de valuation V possdant une structure de semi-anneau (V, V , V , 0V , 1V ). La loi idempotente V sert maximiser et la loi V sert combiner les valeurs de lchelle. Lensemble H des fonctions croissantes (au sens de V ) sur V peut tre muni de la structure de semi-anneau suivante (H, V , , 0, Id) ([MIN 77]) o x V, f, g H, (f V g )(x) = f (x) V f (x) f, g H, f g = g f (composition des fonctions) 0 est la fonction constante valant 0V partout Id est la fonction identit Il est alors possible de construire un AMDP dont les rcompenses seraient ces fonctions croissantes, cest--dire que la fonction de rcompense serait dnie par : r :S AH Dans un tel AMDP, la rcompense peut donc varier. La valeur dun historique t = (st , at , st1 , . . . , a1 , s0 ) est alors dnie par : r(t ) = r(st , at ) r(t1 ) o t1 = (st1 , at1 , . . . , a1 , s0 ) et r(0 ) est une valeur xe dpendant du problme rsoudre. Les oprations g et g sont tendues sur H par : x V, (h g g )(x) = h(x) g g (x) et (p g h)(x) = p g h(x) pour tout h, g H et tout p P . La proposition suivante indique que les conditions AMDP1 AMDP5 sont vries. P ROPOSITION 5.2 [WEN 06 B ]. Si les conditions AMDP1 AMDP5 sont vries pour la structure V , alors ces conditions sont galement vries pour la structure H . Les conditions AMDP1 AMDP5 tant vries, nos rsultats sur les AMDP peuvent tre appliqus. Notamment, lalgorithme gnralis dinduction arrire 5.3 peut tre exploit pour la recherche des politiques non domines. Nous prsentons maintenant un exemple illustratif o il est naturel de modliser les rcompenses par des fonctions croissantes. E XEMPLE. Lexemple illustratif que nous dveloppons dans cette section est inspir du problme de transport de produits dangereux prsent dans [ERK 98] et [SER 06]. Supposons quun robot doive transporter un produit dangereux dun point A un point But. Les tats de ce problme sont les positions que peut occuper le robot. Supposons
197
que lenvironnement soit matrialis par une grille n m (voir la partie gauche de la gure 5.10). On a alors S = {1, 2, . . . , n} {1, 2, . . . , m}. Certains tats (murs,
0.1 0.8 0.1 0.9 0.1 1 1
But
Figure 5.10. Navigation dun agent autonome
obstacles,...) peuvent ne pas tre accessibles. Ces informations seront intgres dans la fonction de transition. Les actions sont constitues par les mouvements que peut effectuer le robot. Par exemple, les actions peuvent tre haut, bas, gauche ou droite. Les effets des actions sont modliss par une fonction de transition probabiliste (voir la partie droite de la gure 5.10). La russite dune action nest pas assure pour diverses raisons : le robot contrle imparfaitement ses moteurs, le sol est glissant ou encore cause dvnements imprvus. Les rcompenses sont ici des cots. Elles sont donc minimiser et elles modlisent les probabilits dun accident et son cot. chaque dplacement, le robot risque davoir un accident imputant un cot c avec une probabilit p. Les cots et les probabilits peuvent dpendre de la position et de laction effectue (certains endroits tant plus difciles daccs par exemple). Ils sont donc nots c(s, a) et p(s, a) pour tout s S et a A. Lapproche classique dans le traitement de ce problme serait de chercher la politique qui minimiserait lesprance de la somme des cots sans prendre en compte linformation disposition des probabilits doccurrence dun accident. Le critre serait lhorizon h :
h s S , vh (s) = Es ( t=1 o Eh est lesprance induite par lapplication par la politique dans ltat s et Ct est le cot encouru ltape t. Cette approche est discutable puisque lon prend en compte le cot dun accident mme sil na pas lieu.
Ct )
Une autre approche serait de chercher la politique maximisant la probabilit de ne pas avoir daccident. Le critre considr lhorizon h serait :
s S , vh (s) = Es h t=1 (1 Pt )
o Pt est la probabilit davoir un accident ltape t. Dans cette approche, on ne prend pas en compte les cots des accidents. On peut vouloir faire des compromis entre cot et probabilit daccident.
198
PDM en IA
Ainsi, quand on a les deux informations (cots et probabilits daccident), il est possible dadopter une meilleure approche en dnissant le risque dun historique. Dnition 14 Le risque dun historique t = (st , at , st1 , at1 , . . . , a1 , s0 ) est dni rcursivement par : r(t ) = pt ct + (1 pt )r(t1 ) o ct = c(st , at ), pt = p(st , at ) et t1 = (st1 , at1 , . . . , a1 , s0 ) en posant le risque dun historique vide 0. La fonction de valeur des politiques est alors dnie lhorizon h par :
s S , vh (s) = h (s) o P rs est la distribution de probabilit sur les historiques induite par lapplication de la politique dans ltat s. r( )P rs ( )
Le problme de recherche dune politique minimisant lesprance du risque peut se modliser dans les AMDP dont la fonction rcompense est dnie comme suit : r : S A H. Lensemble H est lensemble des fonctions croissantes dnies sur le semi-anneau (IR {+}, min, +). Pour notre problme de transport de produits dangereux, on peut dnir pour tout s S et pour tout a A, r(s, a)(x) = p(s, a)c(s, a) + (1 p(s, a))x. On constate que le risque dun historique t = (st , at , st1 , at1 , . . . , a1 , s0 ) est alors dni par : r(t ) = r(st , at )(r(t1 )) o t1 = (st1 , at1 , . . . , a1 , s0 ) Le risque dun historique est obtenu en composant successivement les rcompenses (qui sont des fonctions). Dans cette section, nous avons montr que lalgorithme dinduction arrire pouvait tre utilis pour chercher les politiques minimisant lesprance du risque. 5.6. Conclusion Ce chapitre na donn quun bref aperu, non exhaustif et forcment biais, des travaux existant sur la prise en compte de critres non-classiques dans les MDP. Nanmoins, il a montr que cette voie de recherche est vaste (de lintgration de critres multiples lutilisation de critres de dcision non classiques) et active.
199
Citons pour mmoire, [?], qui propose de prendre en compte plusieurs critres dans les MDP dans le cadre des MDP contraintes. Un MDP contraintes contient plusieurs fonctions de cot8, c0 , c1 , . . . , ck . Il se donne galement un ensemble de seuils de valeur, C1 , . . . , Ck et un ensemble de degrs de probabilit, 1 , . . . , k . Rsoudre un MDP contrainte consiste trouver, pour un tat initial s0 x, une politique stationnaire non dterministe minimisant la fonction de valeur du MDP dnie par rapport c0 , sous les contraintes que la probabilit que la valeur en s0 de chacune des fonctions de valeurs dnies partir des fonctions de cot ci , i 1 soit suprieure Ci nexcde pas i . Les utilits qualitatives possibilistes ne sont pas les seuls critres dutilit non classiques avoir t tendus la dcision squentielle. De manire plus gnrale, un certain nombre de travaux [?, ?] visent exploiter dans le cadre de la prise de dcision squentielle des modles plus riches en termes de pouvoir descriptif. Ces modles dcisionnels, tels que le critre RDU [?], lintgrale de Choquet [?] ou lintgrale de Sugeno [?], dvelopps en thorie de la dcision ne peuvent sexprimer sous la forme dune esprance gnralise et ne rentrent donc pas dans le formalisme des AMDP. En effet, ils sont connus pour ne pas tre dynamiquement cohrents [?]. Lutilisation de ces modles dcisionnels en dcision squentielle reprsente ainsi un problme difcile car le principe doptimalit de Bellman nest plus vrie.
8. Un MDP contrainte peut tre dni de manire quivalente avec des fonctions de rcompense mais ce cadre a t dni par un automaticien et reprend la formulation minimisation de cot, habituelle dans ce domaine.
D EUXIME PARTIE
Exemples dapplication des (PO)MDP
Chapitre 6
Apprentissage en ligne de la manipulation de micro-objets
6.1. Introduction Ce chapitre prsente lapplication dun algorithme dapprentissage par renforcement lapprentissage en ligne de la manipulation de micro-objets [ADD 05]. Loriginalit de cette application tient au fait que la politique daction a t apprise non pas sur une simulation mais au travers du pilotage du processus rel. Ces travaux ont t effectues au Laboratoire dAutomatique de Besanon dont une des spcialits est la microrobotique. Dautres travaux sur lusage de lapprentissage par renforcement en microrobotique sont dcrits dans [LAU 02]. La microrobotique a pour objectif gnral de concevoir, raliser et commander des systmes robotiques compacts destins manipuler des objets de dimensions typiquement comprises entre un millimtre et un micromtre pour diverses applications (instrumentation, applications industrielles, biomdicales). Compte tenu des dimensions et des prcisions recherches, la microrobotique se heurte des difcults de mise en uvre diffrentes de celles de la robotique classique : au niveau des actionneurs : la microrobotique fait appel de nouveaux principes dactionnement plus compacts, notamment fonds sur lutilisation de matriaux actifs ; de tels actionneurs sont bien souvent fortement non linaires ; au niveau des capteurs : le volume rduit des applications rend difcile la mise en place de capteurs en nombre sufsant ; lemploi dun systme de vision (via un
Chapitre rdig par Guillaume L AURENT.
204
PDM en IA
microscope) est souvent le principal moyen dobservation et de mesure ; au niveau des interactions entre le robot et les objets qui lentourent : cette chelle, les forces de surface deviennent prpondrantes sur les forces volumiques ; linertie des objets est trs faible, la friction entre objets engendre des frottements secs importants et difciles quantier, en dessous de 100 m les forces dadhsion (capillarit) et de Van Der Waals font que les objets collent les uns aux autres ; ces phnomnes rendent les manipulations extrmement dlicates et hasardeuses. La non-linarit des actionneurs, limprcision des capteurs, la complexit des forces de surface, rendent les processus difciles modliser. En labsence de modle prcis, la synthse de contrleurs par les approches traditionnelles de lautomatique est difcile. A contrario, lapprentissage par renforcement permet de saffranchir de tout modle du processus contrl et de prendre en compte le caractre hasardeux de ce processus via une approche stochastique. Ces mthodes de contrle sont donc adaptes la microrobotique. Ce chapitre est structur en trois sections. La premire prsente le contexte de la micro-manipulation par pousse ainsi que le dispositif piloter. La deuxime dcrit lalgorithme dapprentissage par renforcement employ pour le contrle du manipulateur. Enn, les rsultats exprimentaux sont prsents dans la dernire section.
6.2. Dispositif de manipulation 6.2.1. Objectif : le micro-positionnement par pousse Dans lindustrie, le positionnement est une fonction essentielle pour lusinage ou lassemblage de pices. Dans le domaine de la microrobotique, les solutions classiques comme la prise-dpose ne sont pas transposables directement. Dans ces conditions, il est souvent plus ais de pousser un micro-objet que de le tenir dans une pince. Ainsi, de nombreux travaux utilisent cette approche de micro-positionnement par pousse [BAU 98, ZES 98]. Si ces manipulateurs sont plus simples concevoir, il nen est pas de mme pour la commande. En effet, le problme qui consiste prvoir le mouvement dun objet pouss en un point donn est dj complexe lchelle macroscopique [PES 88]. En dessous du millimtre, les quations classiques de frottement fondes sur le poids des objets (loi de Coulomb) ne sappliquent plus du fait de limportance prpondrante des forces de surfaces. Le mouvement dun objet pouss dpend alors de paramtres divers comme ltat de surface du support et de lobjet, lhumidit de lair, la rpartition des charges lectrostatiques, etc. Dans ces conditions, le mouvement de lobjet est impossible prdire et cest ainsi quune approche de pilotage par apprentissage par renforcement a t envisag. Lobjectif consiste donc en la synthse par apprentissage de politiques de contrle performantes dun manipulateur ralisant des tches de micro-positionnement par pousse.
205
Figure 6.1. Dispositif de manipulation : (a) vue densemble, (b) zoom sur la zone de manipulation entoure des trois actionneurs de pousse, (c) dtail de la zone de manipulation (image de la camra). La position de lobjet est repre par le systme de vision.
6.2.2. Dispositif de manipulation Le dispositif de manipulation pilot est inspir de dispositifs de manipulation existants qui permettent de pousser et tirer des nano-particules une une laide de pointes nes ou du levier dun microscope force atomique [Zyv 06, RES 00, HAN 98c]. En revanche, lchelle du dispositif dcrit ici est tout autre puisquil sagit de positionner des objets de taille millimtrique comme des pignons de montres. Ce dispositif est un banc dessais ayant pour objectif de dmontrer la faisabilit de la commande par apprentissage par renforcement pour le micro-positionnement par pousse. Le manipulateur est quip de trois pointes de verre montes sur des actionneurs linaires asservis en position avec une prcision de lordre du micromtre (cf. gure 6.1b). Lobjet manipuler est pos sur une lame de verre entre les trois pointes (cf. gure 6.1c). Chaque pointe peut venir en contact de lobjet puis exercer sur lui une pousse sur une distance donne. Lobjectif est de dplacer cet objet vers une position donne par une squence adquate de pousses. Les axes de dplacements des pointes sont concourants. La zone de manipulation est entoure dune paroi circulaire empchant lobjet manipul de schapper. Cette
206
PDM en IA
Figure 6.2. Boucle sensori-motrice.
disposition permet a priori de dplacer un objet cylindrique (de rvolution) dans nimporte quelle position (voire dans nimporte quelle orientation mais cela nest pas encore trait). La position de lobjet est mesure via un systme de vision (cf. gure 6.1a). Lobjet est repr par son abscisse et son ordonne dans limage vido. La rsolution de la camra tant limite, la prcision de localisation est de lordre de 23 m.
6.2.3. Boucle de commande Pour le contrle du manipulateur, deux niveaux de commande sont utiliss : un bas niveau et un haut niveau (cf. gure 6.2). Le bas niveau gre lasservissement en position des pointes (par des mthodes traditionnelles dautomatique). Il permet damener une pointe en contact de lobjet puis de pousser celui-ci sur une distance spcie par la commande haut niveau. Le haut niveau est lorgane de dcision qui planie les pousses sur le long terme pour amener lobjet une position donne. La dure dune action de haut niveau (i.e. dune pousse) est variable : de une trois secondes. A la n dune pousse, lobjet sarrte immdiatement car son inertie est trs faible. Ainsi, seul le comportement statique de lobjet est pris en compte et son comportement dynamique est nglig.
6.2.4. Reprsentation du systme de manipulation sous la forme dun MDP 6.2.4.1. Dnition de lespace dtat Le systme tant considr comme statique, son tat s est simplement dni par la position (x, y ) du centre de lobjet dans limage vido.
207
La zone de manipulation ayant un diamtre de 7 mm et lobjet un diamtre de 4 mm, la position du centre de lobjet peut voluer dans un disque de diamtre 3 mm. Etant donn la faible rsolution du capteur vido, la camra permet de localiser le centre de lobjet dans une zone circulaire de diamtre 131 pixels soit dans environ 13 500 positions diffrentes (card S = 13 500). 6.2.4.2. Dnition de lespace daction Dans les expriences menes, seules 6 actions distinctes ont t utilises. Chacune des trois pointes peut pousser lobjet sur deux distances dtermines : une pousse longue de 1 mm utile pour les grands dplacements ou une pousse courte de 100 m indispensable au positionnement n. On a donc : card A = 6. Cet ensemble de 6 actions est le rsultat dun compromis entre qualit des trajectoires obtenues et temps dapprentissage. Plus de varit dans les actions permettrait sans doute une manipulation plus rapide mais augmenterait considrablement les possibilits dexploration et donc le temps dapprentissage global. 6.2.4.3. Dnition de la fonction de renforcement Lobjectif de la manipulation est damener lobjet dans une position dtermine avec une prcision donne. Dans les expriences ralises, le but tait de positionner lobjet au centre de la zone de manipulation 140 m prs (soit 6 pixels camra). Lensemble des tats se situant une distance de la position cible infrieure la prcision requise est not Scible . Ainsi, le but est de conduire le processus dun tat quelconque vers un des tats de Scible . La fonction de renforcement est donc dnie de la manire suivante : r(s, a, s ) = 1 si s Scible 0 sinon (6.1)
6.2.4.4. Dnition dun pisode Avant chaque manipulation, lobjet est pos dans une position quelconque de la zone de manipulation (i.e. ltat initial est alatoire). Le manipulateur passe alors sous contrle de lalgorithme de commande de haut niveau, en loccurrence un algorithme dapprentissage par renforcement et un pisode dapprentissage commence. Lpisode se termine quand lobjet a atteint un tat cible. 6.3. Choix de lalgorithme dapprentissage par renforcement 6.3.1. Caractristiques du MDP Le systme de manipulation tant particulirement lent (une pousse toute les une trois secondes), il est impratif de rduire au maximum le nombre dpisodes ncessaires lobtention dune bonne politique daction. En outre, il est possible deffectuer de nombreux traitements hors ligne entre deux pousses. Le systme de localisation par vision fournit une observation discrte de ltat du systme. Vu la faible rsolution du capteur vido, il y a une imprcision notable sur
208
PDM en IA
la mesure de ltat du processus : il nest pas compltement observable. Malgr tout, lobservation est sufsante pour considrer que le processus est discret, compltement observable et lgrement stochastique (bruit de mesure). Pour ces raisons, une mthode discrte et indirecte (cf. chapitre 2) a t utilise an dexploiter au mieux, pendant le temps dexcution des pousses, toutes les interactions passes entre lalgorithme et le processus. Lalgorithme indirect le plus classique est Dyna-Q [SUT 90a] (cf. chapitre 2). Dans sa version originale, Dyna-Q gre des processus dterministes, ce qui signie que la mme action dans le mme tat produit toujours le mme tat suivant. Par consquent, dans un cas dterministe, le modle des transitions peut tre reprsent sous la forme dune matrice de |S| lignes par |A| colonnes, chaque case contenant ltat suivant. Une extension de Dyna-Q aux processus stochastiques est immdiate, mais on a alors pour chaque couple s a une distribution de probabilit sur tous les tats suivants, donc il faut une matrice de taille |S| |A| |S| pour stocker les probabilits. Dans notre cas, avec 13 500 tats et 6 actions, une telle reprsentation nest pas grable. De mme, Prioritized Sweeping permet lapprentissage dune politique avec un processus stochastique mais ncessite la mmorisation des relations dantcdence sous la forme dune matrice de |S| |A| lignes par |S| colonnes. Chaque tat ayant souvent de nombreux antcdents mme pour un systme dterministe, la matrice est gnralement bien remplie. Vu le nombre dtats du processus contrler, cette mthode, pourtant efcace, nest pas applicable non plus. Pour ces raisons, un algorithme plus conome en mmoire est propos et utilis pour le contrle du manipulateur. 6.3.2. Un algorithme adapt : STM-Q Lalgorithme utilis, appel STM-Q (Short-Term Model-based Q-Learning), est une extension de Dyna-Q aux systmes stochastiques qui utilise une reprsentation de taille mmoire intermdiaire entre le cas dterministe et le cas stochastique exhaustif (cf. algorithme 32) [ADD 05]. Cest un algorithme indirect qui, comme Dyna-Q, recherche une politique optimale vis--vis du critre -pondr. En tant que mthode indirecte, STM-Q construit au fur et mesure de ses interactions avec le processus un modle des transitions et des renforcements. Ce modle est constitu dun tableau de les (FIFO) qui stockent, pour chaque couple tat-action visit, les diffrents rsultats observs par le pass : chaque couple s a est associ une le M (s, a) dont la taille maximale ne peut dpasser un nombre dtermin avant lapprentissage, not nmax . Chaque lment de M (s, a) contient un couple constitu de ltat suivant et de la rcompense reue en faisant laction a dans ltat s. Par exemple, si nmax = 4 et que le couple s a a t visit au moins 4 fois, on peut avoir une le de la forme : M (s, a) = (st1 , rt1 ), (st2 , rt2 ), (st3 , rt3 ), (st4 , rt4 ) (6.2)
209
Algorithme 6.1 : STM-Q (Short-Term Model-based Q-Learning). initialisation pour chaque (s, a) S A faire Q(s, a) Q0 M (s, a) /* M (s, a) est la file des couples tat-renforcement observs lors des visites passes du couple (s, a) */ pour chaque pisode faire s ChoixEtat tant que s nest pas un tat terminal faire a ChoixAction(Q, s) Effectuer laction a, observer le nouvel tat s et le renforcement r si card M (s, a) < nmax alors Ajouter lobservation (s , r) la le M (s, a) sinon Remplacer lobservation la plus ancienne de la le M (s, a) par lobservation (s , r) ss rpter N fois /* cette partie peut tre effectue hors ligne choisir au hasard un couple (s, a) dj visit Q(s, a)
(y,r )M (s,a) 1 card M (s,a)
*/
r + max Q(y, v )
v A
avec t1 < t2 < t3 < t4 . Ces couples ont videmment des valeurs diffrentes si le processus nest pas dterministe. Le modle ainsi constitu permet de calculer une estimation des probabilits de transition du processus (maximum de vraisemblance) : 1 card M (s, a)
p(s |s, a) =
(y,r )M (s,a)|y =s
(6.3)
Cette estimation est utilise pour optimiser la fonction de valeur Q(s, a) selon une procdure similaire un algorithme ditration sur les valeurs (cf. chapitre 1). Lquation de mise jour est alors celle qui apparat la dernire ligne de lalgorithme 32.
210
PDM en IA
La taille nmax de la le dattente permet dadapter lalgorithme au degr de non dterminisme du processus. Par souci defcacit, nmax doit rester faible (de 10 50 environ), ainsi STM-Q est plutt adapt au contrle de processus faiblement stochastiques comme notamment les systmes physiques vus au travers de capteurs numriques et ayant un espace dtat de dimension faible (2 3). 6.4. Rsultats exprimentaux 6.4.1. Mise en uvre Comme expliqu dans la section , lobjectif est de slectionner les pousses permettant damener lobjet une position donne le plus rapidement possible. Lalgorithme STM-Q a donc t implant dans le contrleur de haut niveau (cf. gure 6.2). Il reoit ltat du processus via le systme de vision et envoie ses commandes au contrleur bas niveau (choix de la pointe et longueur de pousse). Lexprience consiste apprendre positionner un objet vers le centre de la zone de manipulation partir dune position quelconque. Au dbut de chaque pisode, lobjet est plac au hasard dans la zone et lpisode se termine quand lobjet est correctement positionn. La mthode dexploration retenue pour ChoixAction(Q, s) dans lalgorithme est la mthode -greedy (cf. chapitre 2). Avant le premier pisode, la fonction de valeur est initialise Q0 = 0. Durant lexprience, les valeurs des paramtres de lalgorithme sont : = 0.1, = 0.9, nmax = 10, N gal au nombre de couples tat-action distincts prcdemment visits (sur tous les pisodes), cest--dire : N=
(s,a)SA|M (s,a)=
(6.4)
6.4.2. Rsultats obtenus Lexprience a dur un peu plus de 24 heures et totalise 34 134 pousses rparties sur 100 pisodes. La courbe de la gure 6.3 reprsente le nombre de pousses (i.e. dactions) effectues chaque pisode. Au dbut de lapprentissage, entre 400 et 500 pousses en moyenne sont ncessaires pour que lobjet soit positionn. Lcart-type est trs important (environ 500). La politique consiste principalement explorer lespace dtat.

800
211
700
600
Nombre de pousses
500
400
300
200
100 20
30
40
50
60
70
80
90
100
Episodes conscutifs
Figure 6.3. Rsultat de lapprentissage en ligne : en trait plein, le nombre moyen de pousses par pisode (moyenne glissante sur les 20 derniers pisodes conscutifs), en traits pointills, lcart-type centr sur la moyenne.
Au bout de 80 pisodes, on note une baisse signicative de la dure des pisodes. Il faut en moyenne 250 pousses pour positionner lobjet, mais lcart-type reste lev (environ 200). On peut nanmoins obtenir des pisodes trs courts comme en tmoigne la gure 6.4b. Lobservation de squences plus longues montrent que le pilotage est particulirement dlicat pour deux raisons principales. Dune part, quand lobjet est entre deux pointes contre la paroi, il est difcile de le dloger. La gure 6.4b montre que la fonction de valeur est bien value sur le pourtour par rapport lintrieur. Dautre part, pour atteindre lobjectif, il ne suft pas de rapprocher lobjet du centre : il faut rester dans laxe dune pointe et, si lobjectif est manqu de peu, il est souvent ncessaire de recommencer la manipulation zro en repoussant lobjet contre la paroi. Ces deux observations se traduisent dans la fonction de valeur par des pics situs sur les axes des pointes environ une pousse de la cible et par des valeurs faibles sur une couronne proche de lobjectif.
6.5. Conclusion Cette exprience montre quil est possible dutiliser un algorithme dapprentissage par renforcement indirect pour apprendre en ligne contrler un processus rel. Nanmoins, en ce qui concerne le manipulateur tudi, les rsultats obtenus sont encore loin dune automatisation able et efcace. Certes, en raisons du contexte micro , la tche de manipulation est ardue mme pour un oprateur humain entran. Mais ces
212
PDM en IA
(a) Squence de manipulation : tat initial, pousse longue de la pointe de droite, pousse longue de la pointe du haut, pousse longue de la pointe de droite, pousse longue de la pointe du haut, pousse courte de la pointe du bas. Les pointes sont peu visibles car elles sont nes et transparentes (bres optiques).
(b) Reprsentation de la fonction de valeur V et des tats successivement atteints lors de la squence de manipulation. Les points blancs reprsentent les tats non visits.
Figure 6.4. Exemple dpisode de manipulation obtenue lissu de lapprentissage.
Apprentissage en ligne de la manipulation de micro-objets Au total Nombre dtats 13 500 Nombre de couples tat-action 81 000 Nombre dactions par tat 6 Visit 8 748 10 700 1 action dans 7 138 tats 2 actions dans 1 138 tats plus de 3 actions dans 375 tats
213
Tableau 6.1. Statistiques de visite des tats et des actions lissue lapprentissage en ligne (qui totalise 34 134 actions).
rsultats mitigs conrment aussi un besoin classique en apprentissage : la gnralisation. Lalgorithme employ, STM-Q, construit un modle du processus an de mettre jour la fonction de valeur le plus rapidement possible, mais ne gnralise pas la valeur dun tat un autre tat proche comme le montre laspect trs parsem des valeurs obtenues (cf. gure 6.4b). De plus, les statistiques de visite des tats (cf. tableau 6.1) indiquent qu peine plus dun huitime des couples tat-action ont t visits lors de lexprience. Comme il nest pas raisonnable de prolonger la dure, dj importante, de ce genre dapprentissage, un mcanisme de gnralisation serait ncessaire pour rutiliser lexprience acquise pour les couples non visits. Ainsi, au-del de cette application de manipulation, lapprentissage en ligne du pilotage de processus rel doit faire face un double enjeu : utiliser au maximum lexprience passe via des approches indirectes et gnraliser lexprience acquise pour rpondre de la meilleure faon possible dans un tat inconnu.
Chapitre 7
Conservation de la biodiversit
7.1. Introduction La biodiversit terrestre et marine est de plus en plus menace par la pression grandissante de lactivit humaine. Croissance de la population mondiale, urbanisation, industrialisation des pays en voie de dveloppement et exploitation non raisonne des ressources naturelles sont autant de causes de disparition despces vivantes constituant la biodiversit de la plante. Face ces changements environnementaux (dforestation, rosion, pollution), les espces survivantes sont condamnes sadapter rapidement ou bien disparatre. La biologie de la conservation est un domaine de lcologie qui se donne pour objectif la protection de la biodiversit. Jadis exprimentales, les recherches actuelles en biologie de la conservation se tournent vers ltude de la gestion optimale des efforts de conservation. Laugmentation du nombre despces menaces [ANO 07] et les faibles crdits disponibles pour les protger sont autant darguments forts pour optimiser les dcisions de conservation et amliorer les actions de sauvegarde de la biodiversit [POS 01]. Dans ce contexte, les processus dcisionnels de Markov permettent une formulation claire de ces problmes doptimisation. Dans ce chapitre, on propose dtudier deux applications des mthodes doptimisation MDP. Le premier problme concerne la conservation despces menaces difcilement observables. Au fur et mesure quune population diminue, les individus menacs deviennent de plus en plus difciles dtecter. Les gestionnaires de rserves abritant des espces menaces font face au dilemme suivant : si je ne suis pas certain que lespce est prsente, dois-je continuer protger cette espce, ou dois-je investir
Chapitre rdig par Iadine C HADS.
216
PDM en IA
mes ressources limites dans la surveillance de cette espce ? Nous1 avons tudi le cas particulier du tigre de Sumatra (Panthera tigris sumatrae). Ce travail constitue la premire application de POMDP dans le domaine de la conservation de la biologie. La deuxime application concerne la conservation de deux espces menaces en interaction (proie-prdateur). Les abalones du Nord (Haliotis kamtschatkana) constituent le rgime alimentaire prfr des loutres de mer (Enhydra lutris). A lheure actuelle, les stratgies de conservation de ces espces sont gres de manire indpendante et ne prennent pas en compte leurs interactions. Nous2 avons soulev ce problme et tudi loptimisation de la gestion des dcisions de conservation de ces deux espces en utilisant deux algorithmes dapprentissage par renforcement horizon ni.
7.2. Protger, surveiller ou abandonner : gestion optimale despces secrtes et menaces 7.2.1. Surveillance et gestion du tigre de Sumatra Le tigre de Sumatra, comme toutes les espces de tigre, souffre dun dclin dramatique de sa population, consquence de lappauvrissement de son habitat en proies, de la destruction de son habitat et de lactivit de braconnage [LIN 06]. Dans la rgion de Kerinci Seblat, Linkie et al. ont conduit une tude sur les consquences des ressources investies dans la mise en place de patrouilles anti-braconnage sur la probabilit dextinction de la population de tigre de Sumatra [LIN 06]. Les efforts actuels de conservation de cette espce incluent la rduction de lactivit de braconnage par des gardes et lanalyse du statut de la population par la surveillance. Actuellement, 30 000 dollars sont dpenss chaque anne pour effectuer ces deux actions avec approximativement 2/3 de ce budget consacr aux patrouilles (cm ) et le tiers restant investi dans la surveillance (cs ). Nous avons estim le cot potentiel de lchec de la conservation dune population viable de tigres 175 134 dollars par anne (V ) sur la base des fonds rcolts par le programme de protection du tigre de Sumatra. Nous avons dtermin la probabilit dextinction locale de la population de tigres par anne lorsque le parc est protg (pm = 0, 058) et lorsquil nest pas protg (po = 0, 1). De manire similaire, nous avons dtermin la probabilit de dtection de tigres vivants dans cette rserve 0, 782 (d) lorsque lon conduit une surveillance et 0, 001 sinon. Nous avons modlis ce problme laide dun processus dcisionnel de Markov partiellement observable (POMDP).
1. E. McDonald-Madden, M. McCarthy, B. Wintle, M. Linkie et H. Possingham sont les coauteurs de ces travaux voir [CHA 08] 2. T. Martin, J. Curtis, C. Barreto sont les co-auteurs de ces travaux voir [?]
217
7.2.2. Modle Posons S = {E, V } lensemble ni des tats de notre systme qui qualie ltat de notre population de tigres comme teinte ou viable. Lensemble ni des actions A comporte trois actions A = {S, P, N } qui dnit nos dcisions de conservation, respectivement surveiller, protger et abandonner (ne rien faire). A chaque action est associe une matrice de transition Ta qui dnit pour chaque paire tat-action une distribution de probabilit sur S . Dans notre problme nous faisons lhypothse que la population de tigres, une fois teinte, ne peut tre recolonise, ainsi lextinction de la population est dnitive. La fonction de rcompense prend en compte le cot des actions (cm , cs ou 0) et les bnces des tats (V ou 0). Enn, nous prenons en compte lobservabilit partielle en reprsentant la probabilit de dtection dun tigre en fonction de ltat et de laction choisie laide dun ensemble de matrices dobservation O. On dnote = {A, P r} lensemble ni des observations du systme, respectivement absent et prsent. Le critre doptimisation choisi est la maximisation de lesprance des gains horizon ni comme dni par lquation (3.13) du chapitre 3. Nous avons utilis lalgorithme lagage incrmental (Incremental Pruning) [CAS 98] pour dterminer la stratgie de conservation optimale. Cet algorithme est disponible dans la bote outils POMDP de Cassandra [CAS 05]. 7.2.3. Rsultats La politique optimale est reprsente ici sous deux formes : avec un graphe de dcision (gure 7.1) et comme une fonction de deux variables reprsentant la politique optimale directement (gure 7.2). Il est optimal de protger le tigre de Sumatra pendant 12 ans sil nest pas observ. Puis, si le tigre reste non observ, laction surveiller est optimale pendant 3 ans, avant denvisager dautres actions de conservation (abandonner).
Dtect
Protger Dtect Non dtect pendant 12 ans
Surveiller Non dtect pendant 3 ans
Abandonner
Figure 7.1. Graphe de dcision
218
PDM en IA
Figure 7.2. Reprsentation de la politique optimale en fonction de la probabilit de croyance de persistence de lespce. La ligne de carrs reprsente une simulation de la stratgie optimale lorsque le tigre de Sumatra demeure non observe.
Figure 7.3. Inuence de la probabilit de dtection (d) sur la stratgie optimale et le rapport valeur conomique de lespce/cot de protection (V /cm ). Les courbes continues illustrent les stratgies optimales numriques, les courbes pointilles reprsentent les stratgies calcules par approximation analytique.
219
Figure 7.4. Inuence des probabilits dextinction (pm et p0 ) sur la stratgie optimale et le rapport valeur conomique de lespce/cot de protection. Les courbes continues illustrent les stratgies optimales numriques, les courbes pointilles reprsentent les stratgies calcules par approximation analytique.
Sur la gure 7.2 nous avons reprsent la politique optimale pour un horizon de 30 ans. On distingue 3 rgions, chacune delle nous informe sur la dcision optimale prendre en fonction du temps restant et de ltat de croyance courant. A titre dexemple, nous avons simul un scnario (ligne de carrs) qui illustre la dcroissance de la valeur de ltat de croyance que le tigre persiste sil nest pas observ pendant 30 ans en ralisant laction optimale chaque pas de temps. Nous avons conduit une tude de sensibilit intensive des paramtres importants de notre modle : la fonction de cot et de rcompense (gures 7.3 et 7.4), linuence des paramtres de dtection (gure 7.3), ainsi que la probabilit dextinction locale (gure 7.4). Cette tude nous permet de gnraliser nos rsultats dautres espces menaces comme par exemple la grue blanche (Grus americana) ou encore la chouette tachete Mexicaine (Strix occidentalis lucida). Les politiques optimales obtenues sont caractristiques et suivent le mme modle, seules les dures de protection et de surveillance varient. Nous pouvons en dduire des rgles de gestion de rserves naturelles. Le rsultat principal snonce simplement : plus lespce est menace, plus il est optimal dinvestir dans la protection active de lespce, au point que laction de surveillance peut ne pas apparatre comme une dcision optimale (gure 7.4). Cela sexplique par lextrme urgence de la situation :
220
PDM en IA
les valeurs conomiques ont moins dinuence sur la stratgie optimale ; le temps devient la ressource critique pour la sauvegarde de lespce. Enn, la lecture des graphes solutions, il apparat quil est possible dapprocher la solution analytique de ce problme. Les valeurs de croyance pour lesquelles il devient optimal de changer de dcision (protger vers surveiller, et surveiller vers abandonner) peuvent sexprimer en fonction des paramtres de notre problme. Ils nous permettent galement dapprocher les priodes de temps correspondant chaque phase. Le lecteur intress pourra se reporter larticle [CHA 08]. Lintrt dapprocher analytiquement la solution optimale est double. Cette approximation permet de mieux comprendre les effets de chacun des paramtres de notre modle mais surtout les gestionnaires de rserves naturelles disposent maintenant dun outil simple pour dterminer la politique optimale quils peuvent suivre sans avoir rsoudre un nouveau POMDP. La qualit de cette approximation est reprsente par les lignes discontinues des gures 7.3 et 7.4. Nous avons formul en termes simples le problme de dcider quand on doit protger, surveiller et arrter la gestion dune rserve naturelle pour une espce secrte menace. Nous avons rsolu ce problme de manire exacte en utilisant un algorithme de rsolution de POMDP et de manire approche en dveloppant la solution analytique. Ltude intensive des paramtres de ce problme nous permet dtablir une conduite suivre pour les gestionnaires de parcs et de rserves. De manire gnrale, ce travail illustre comment les POMDP, bien que de complexit algorithmique souvent rdhibitoire, peuvent tre appliqus dans un problme doptimisation du compromis recherche dinformation/exploitation de linformation. 7.2.4. Extension plusieurs populations Lextension plusieurs populations est naturelle si lon considre la ralit du terrain. Plusieurs rserves fragmentent lle de Sumatra et les ressources sont limites. Nous avons donc tudi quelle serait la stratgie de conservation optimale pour deux populations. Cette fois-ci, lefcacit des actions est proportionnelle la charge de travail : la protection simultane des deux populations est moins efcace dun point de vue individuel que dans le cas o une population bncie de lensemble des ressources. Nous avons tudi le critre doptimisation qui maximise le nombre de populations de tigres viables, et nous avons tudi comment la qualit de lhabitat inuenait la performance des actions. Certaines rserves plus vastes ont une probabilit de persistance plus leve quune rserve plus petite. Par consquent il nous faut trouver les stratgies optimales adaptes ces conditions. Nous avons de nouveau tudi ce problme en utilisant un POMDP multi-agent en distinguant ltat de la population a et de la population b : S = Sa Sb . Lensemble ni des actions A comporte 5 actions A = {Pa , Pb , Pab , Pa Sb , Sa Pb } qui dnit nos dcisions de conservation (respectivement protger a, protger b, protger a et b, protger a et surveiller b, surveiller a et protger b). La probabilit de transition associe chaque action est reprsente par un ensemble de matrices de transition T dnissant pour chaque paire tat-action une distribution de probabilit sur S . La fonction de
221
rcompense prend en compte les bnces des tats (1 point par population viable). Enn, nous prenons en compte lobservabilit partielle en reprsentant la probabilit de dtection dun tigre en fonction de ltat et de laction choisie laide dun ensemble de matrices dobservation O. On dnote = a b lensemble ni des observations du systme.
Figure 7.5. Inuence de la probabilit dextinction sur la stratgie optimale dans deux cas de gure sur un horizon de 5 annes. Pers A et Pers B reprsentent la croyance de persistence des populations A et B.
Ltude des solutions comme celle prsente gure 7.5 nous permet dnoncer des rgles simples de gestion de rserves multiples. Lun des rsultats importants est quil est plus efcace dalterner la protection des rserves pour le tigre de Sumatra plutt que dessayer de protger les deux rserves simultanment de manire moins efcace. Sur la gure 7.5, dans le cas 1, les populations bncient de la mme qualit dhabitat et ont les mmes probabilits dextinction : lalternance de protection est optimale. Dans le cas 2, la population B a une probabilit dextinction plus forte que la population a : la stratgie optimale favorise la protection de la population a au dtriment de la population b plus faible. Les lecteurs intresss par cette tude pourront se rapporter [MCD 08]. 7.3. Les loutres et les abalones peuvent-ils co-exister ? 7.3.1. Les abalones et les loutres, deux espces menaces Les loutres et les abalones de Colombie-Britannique sont protges [CIT 07] et disposent toutes deux dun plan de protection et de rhabilitation. La loutre a t extermine au dbut du 20me sicle : chasse pour sa fourrure, lespce sest teinte en Colombie-Britannique en 1905. Seules quelques colonies ont survcu au nord de
222
PDM en IA
lAlaska. Dans les annes 80, un plan de rintroduction a t mis en place. La population de loutres stend prsent sur les ctes de lle de Vancouver et lon compte un peu plus de 3500 individus. La loutre de Colombie-Britannique est principalement menace par la pollution maritime et les phnomnes de mare noire qui peuvent tre particulirement dvastateurs pour une petite population. Labalone, aussi appel ormeaux, est un coquillage qui vit sur les ctes de la Colombie-Britannique dans les forts dalgues (kelp). Labalone constitue le rgime alimentaire prfr des loutres. Aprs la disparition de ces dernires, la population dabalones a explos. Dans les annes 70, une activit de pche prolique sest ainsi dveloppe. Labalone est un coquillage prcieux, apprci pour sa chair et la nacre de sa coquille. Devant la diminution des stocks, cette pche gnratrice de revenus importants a dans un premier temps t contrle par la mise en place de quotas dans les annes 80, quotas qui se sont rvls insufsants pour la rgnration des stocks. La pche dabalones a donc t suspendue, puis interdite depuis 1993. La densit dabalones est ainsi passe de plus de 1, 2 2 abalone/m2 moins de 0, 1 0, 3 abalone/m2 . Bien que la pche dabalones soit interdite, lespce est en ralit toujours victime de braconnage et du march noir. La diminution de la population dabalones et lextermination des loutres a pour consquence un autre dsastre cologique : lexplosion de la population doursins dvoreurs dalgues prcieuses lquilibre de la biodiversit de ces rgions. Les forts dalgues font place des dserts marins. Cest tout un cosystme qui a t boulevers par lactivit humaine. Aujourdhui, bien que protge, la population dabalones naugmente pas et reste un niveau proccupant. Plusieurs hypothses biologiques ont t formules an dexpliquer ce phnomne. Tout dabord le mode de reproduction de ce coquillage requiert une densit forte pour tre russi, la forte proportion doursins empche linstallation de nouvelles abalones, ces deux espces sont en comptition pour la nourriture et lhabitat. Enn, lactivit parallle de pche illgale est trs importante, elle est estime plus de 40 tonnes par an, soit lquivalent du dernier quota de pche autorise en 1993. Dans ce contexte o la population de loutres est en expansion, nous soulevons la question de la co-existence de ces deux espces des niveaux de subsistance sufsants. Pour rpondre cette question nous avons choisi de modliser la dynamique de population de ces deux espces ainsi que leurs interactions. En utilisant un simulateur, nous avons reproduit les effets des dcisions de conservation sur chaque population. Nous avons utilis deux algorithmes dapprentissage par renforcement adapt lhorizon ni : le QH-learning et le RH-learning.
223
7.3.2. Modles 7.3.2.1. Dynamique de population des abalones Nous avons choisi un modle de dynamique des populations dmographiques prsent dans Bardos et al ([BAR 06]). Ce modle, aussi appel modle structur de matrice de population, constitue un bon compromis entre une modlisation du comportement individuel de type systmes multi-agent ractifs et les modles dterministes simplis. Les lments de la matrice expriment les diffrentes probabilits de croissance, de naissance et de mortalit pour un individu dans une phase donne aussi appeles probabilits de transition. Ces valeurs sont utilises lors de simulations dterministes pour lesquelles les probabilits pour les individus dnissent des fractions ou taux pour les populations. Cest une approximation commune dans la communaut cologique pour laquelle les uctuations sont ignores. Cette approximation est vrie aux limites de grandes populations [MAY 73]. Plus formellement, ltat de la population linstant n est dni par le vecteur x(n) = (x1 (n), ..., x7 (n)) de dimension 7 identiant autant de classes dge. Lvolution de la population dabalones linstant n +1 est dnie par la relation x(n +1) = G.x(n), avec G la matrice de transition : 0 0 0 g3,2 s2 g4,2 s2 g5,2 s2 0 0 0 0 0 g4,3 s3 g5,3 s3 g6,3 s3 0 0 0 0 g4,4 s4 g5,4 s4 g6,4 s4 g7,4 s4 f5 s5 0 0 0 g5,5 s5 g6,5 s5 g7,5 s5 f6 s6 0 0 0 0 g6,6 s6 g7,6 s6 f7 s7 0 0 0 0 0 g7,7 s7
g2,1 s1 g3,1 s1 g4,1 s1 0 0 0
Les gij dnissent la matrice de croissance g , cest dire la probabilit de transition dun individu de la classe j la classe i. Les sj dnissent la probabilit de survie pour un individu en phase j . Les fi reprsentent la fcondit la classe i multiplie par la probabilit de fertilisation et la probabilit de survie dune larve. En dautres termes, fi est le nombre de post-larves produites par un individu dans la classe i chaque pas de temps. Les fi sont multiplis par les probabilits de survie et sont dpendant de la densit dadultes (classes 5 7). En labsence de menace, la population dabalones se stabilise 1abalone/m2 (25 premires annes de la gure 7.6). La classe 1 correspond ltat post-larvaire et les classes 2 4 sont les classes dge des juvniles, enn les classes 5 7 identient des abalones adultes. Les abalones, bien que protgs, sont victimes de la pche illgale. Il est estim que le taux de pche actuel diminue le taux de survie de la 7me classe de 90% . La simulation de la pche illgale fait descendre la densit dabalones au m2 0, 31. Nous modlisons ce phnomne par un processus stochastique en faisant varier ce taux de braconnage entre 90% (probabilit 0, 75) et 70% (probabilit 0, 25).
224
PDM en IA
Figure 7.6. Evolution de la population dabalones selon diffrents taux de prdation (t=0 aucun t=25 faible, t=50 moyen et t=75 fort).
7.3.2.2. Dynamique de population des loutres La dynamique de population des loutres est reprsente par le modle BevertonHolt dcrit dans [GER 04]. Ce modle inclut une relation asymptotique entre la densit et la natalit : er KNt Nt+1 = r e Nt Nt + K avec K la taille maximale de la population, Nt la taille de la population t et r le taux de croissance intrinsque. Les paramtres sont issus de ltude dune population de loutres vivant dans ltat de Washington avec K = 612 et r = 0, 26 [GER 04]. Bien que les prdateurs comme les requins, les orques et les aigles aient un impact sur les loutres, les mares noires sont de loin la cause majeure de mortalit. A partir des donnes recueillies sur le terrain, nous avons introduit dans notre modle loccurrence de mares noires comme un processus stochastique qui se produit en moyenne tous les 10 ans et dont lintensit varie, pouvant rduire la population de loutres de 20% 43%. Ce taux est relativement faible par rapport aux observations ralises ces dernires annes. La gure 7.7 illustre la dynamique de la population de loutres soumise loccurrence de mares noires. 7.3.2.3. Etats On dnit Sa lensemble ni des tats de la population dabalones. Sa partitionne lensemble des valeurs possibles de la population adulte (classes 5 7) en 20 tats distincts. Chaque tat reprsente un intervalle de densit 0, 05. On attribut galement chaque tat un statut qualiant la population selon son niveau dalerte (voir tableau 7.1). On dnit Sl lensemble ni des tats de la population de loutres. Sl partitionne lensemble des valeurs possibles de la population en 10 tats distincts. Chaque tat reprsente un intervalle de 10% de la capacit K . On attribue galement chaque tat
225
Figure 7.7. Simulation des effets de mares noires sur une population de loutres. Densit dabalones (m2 ) Status Quantit de loutres (%K ) Status < 0.1 En danger 30 En danger < 0.3 Menac 40 Menac < 0.5 Concern 60 Concern 0.5 Pas risque 60 Pas risque
0 Extirp
Tableau 7.1. Classication des tats en status selon son niveau dalerte.
un statut qualiant la population selon son niveau dalerte (voir tableau 7.1). Enn, on dnit S lensemble ni des tats de notre problme S = Sa Sl avec |S| = 200. Ltat initial de notre problme suppose que les loutres ne sont pas encore rintroduites et quune activit de braconnage est prsente. 7.3.2.4. Dcisions Nous considrons cinq actions de conservation dnissant A : ne rien faire (N), rintroduire les loutres (RI), augmenter la force anti-braconnage (AB), contrler la population de loutres (CL) et laction combine contrler la population de loutres et force anti-braconnage (ABCL). La mise en place dune force anti-braconnage permet de rduire lactivit de pche illgale de 90% 10% avec une probabilit 0, 75 ou 30% avec une probabilit 0, 25. La dcision de contrle de la population de loutres ne se ralise que si le statut de sa population est "pas risque". Cette action rduit la population de 0, 3K chaque anne. 7.3.2.5. Interactions et probabilits de transition En labsence de modle mathmatique dcrivant les interactions entre les loutres et les abalones nous avons dcid dtudier trois formes dinteractions inspires de la littrature :
226
PDM en IA
La premire forme dinteraction suppose que la pression prdatrice des loutres sur les abalones ne dpend que de la densit dabalones (F1) : le taux de prdation crot avec le nombre dabalones (gure 7.8). De manire symtrique, la deuxime forme suppose que la pression prdatrice des loutres sur les abalones ne dpend que de la densit de loutres (F2) : le taux de prdation crot avec le nombre de loutres. Enn, la forme 3 est inuence par labondance des loutres et des abalones. La prdation augmente avec la densit en proie et diminue jusqu satit lorsque la densit en proie est forte (F3).
Figure 7.8. Reprsentation de la fonction dinteraction F1 entre les loutres et les abalones (L pour faible prdation, M pour prdation moyenne, H pour prdation forte).
Le taux de survie des classes 3 7 est rduit de 5% (L) pour une prdation faible, de 15% (M) pour une prdation moyenne et 25% (H) pour prdation forte (voir gure 7.6 et 7.8) . 7.3.2.6. Objectif multicritre et fonction de rcompense Pour dterminer une politique de gestion optimale, nous devons dnir notre objectif. Ici, nous avons distingu deux critres : maximiser loccurrence davoir les deux espces "pas risque" ou "vulnrable" simultanment (R1), ou bien de manire indpendante (R2). La gure 7.9 illustre les deux fonctions de rcompenses que nous avons considres. 7.3.3. Mthodes Nous avons choisi dutiliser deux algorithmes dapprentissage par renforcement pour rsoudre ce problme horizon ni : le QH-learning et le RH-learning adapt par Garcia et al. [GAR 98]. Il nexiste pas de preuve de convergence thorique de
227
Figure 7.9. R1 identie une rcompense jointe et R2 une rcompense individuelle. Niveau de braconnage vulnrable menac menac en danger pas risque vulnrable 0% 27.2% 13.4% 7.4% 10% 25.9% 11.1% 4.3% 90% 19.7% 0.6% 0.1%
Tableau 7.2. Niveau de prdation sufsant pour que la population dabalone change de statut dans diffrents cas de braconnage.
ces algorithmes horizon ni. Toutefois les rsultats exprimentaux montrent leur efcacit produire de bonnes stratgies. 7.3.4. Rsultats Notre objectif est de dterminer les conditions de gestion pour lesquelles les deux populations peuvent co-exister des niveaux non menacs sur un horizon de 50 annes, une dcision tant prise tous les 5 ans. Nous avons laiss les deux algorithmes apprendre sur 500 000 simulations. Nous avons procd par tape tout dabord sans considrer laction controverse du contrle de la population de loutres. Nos rsultats montrent que sans contrle de la population de loutres il nest pas possible datteindre lobjectif souhait. 7.3.4.1. Conditions remplir Pour maintenir les deux populations des niveaux pas risque, limpact des loutres sur les abalones sous diffrentes conditions de braconnage doit tre relativement faible comme en tmoigne le tableau 7.2. Dans les conditions idales dabsence de braconnage, le taux de prdation des loutres doit tre infrieur 7, 4% pour ne pas menacer les abalones. Ce taux de prdation descend 4, 3% en cas de braconnage de faible intensit et est infrieur 0, 1% en cas de braconnage intensif.
228
PDM en IA
7.3.4.2. Scnario 1 : rintroduction de loutres et force anti-braconnage Ltat initial considr dans notre problme identie labsence de loutre et une activit de braconnage. Nous avons dans un premier temps tudi les dcisions utilises actuellement : la rintroduction de loutres et la mise en place dune force anti-braconnage. Les stratgies optimales pour linteraction de type F1 et les rcompenses R1 et R2 rintroduisent les loutres ds le premier pas de temps. La force anti-braconnage est par la suite optimale. Le tableau 7.3, colonnes 2 et 3, lignes QL1 et RL1, reprsente les performances moyennes observes pour ce scnario. La population de loutres se stabilise autour des tats pas risque et vulnrable (suivant loccurrence de mares noires) tandis que la population dabalones oscille entre menac et vulnrable. Cette dernire oscillation sexplique par la dnition du niveau de prdation de la fonction dinteraction F1 de faible moyen (gure 7.8). Les stratgies optimales pour linteraction de type F2 et les rcompenses R1 (gure 7.10) et R2 sefforcent dans un premier temps daugmenter la population dabalones jusquau niveau pas risque en prconisant la force anti-braconnage. Puis les loutres sont rintroduites. La fonction dinteraction F2 rend encore plus difcile la coexistence des deux espces des niveaux vulnrable ou pas risque. La population dabalones suit une volution inverse de la population de loutres. Les performances observes tableau 7.3 colonnes 4 et 5 reprsentent les faibles rcompenses accumules pour linteraction F2.
Figure 7.10. Une simulation de la meilleure stratgie pour le cas du scnario 1 (fonction dinteraction F2 et rcompenses R1).
Les stratgies optimales pour linteraction de type F3 et les rcompenses R1 et R2 rintroduisent les loutres ds le premier pas de temps. La force anti-braconnage est par la suite optimale. La densit des abalones dcroit avec laugmentation du nombre de loutres jusqu atteindre un seuil o la pression est faible (menac ou en danger).
229
Les performances observes tableau 7.3 colonnes 6 et 7 retent les rcompenses accumules pour linteraction F3 et ne nous permettent pas de conclure la co-existence des deux espces des niveaux non menacs. 7.3.4.3. Scnario 2 : contrle des loutres A la lumire de ces rsultats nous avons dcid dintroduire laction de contrle de la population de loutres. Cette action est controverse car la loutre est protge par la loi, il est donc illgal de procder cette action ce jour. Cette action ne permet pas damliorer les performances (lignes QL2, RL2 tableau 7.3). 7.3.4.4. Scnario 3 : actions combines contrle des loutres et force anti-braconnage Nous avons donc dcid de combiner cette action de contrle des loutres avec laction anti-braconnage. Cette option fait lhypothse que nous disposons de sufsamment dargent pour effectuer ces deux actions paralllement et en garantissant la mme efcacit. Dans ce troisime scnario, les performances des stratgies optimales sont aussi bonnes pour la fonction dinteraction F1 o le taux de prdation des abalones ne dpend pas de la quantit de loutres. Les performances sont meilleures pour les fonctions dinteraction F2 et F3. Toutefois cela reste insufsant : les populations ne se stabilisent pas des niveaux pas risque (gure 7.11).
Figure 7.11. Une simulation de la meilleure stratgie pour le cas du scnario 3 (fonction dinteraction F3 et rcompenses R2).
7.3.5. Discussion Nous navons pas russi trouver une stratgie qui permette de stabiliser les deux espces des niveaux pas risque. Nous pouvons voquer quelques lments explicatifs.
230
PDM en IA F1 R1 66.06 66.11 66.29 66.10 66.17 66.05 F1 R2 111.85 111.44 111.36 111.78 111.56 111.44 F2 R1 19.90 20.50 19.47 19.48 25.39 24.73 F2 R2 98.96 98.55 99.11 99.12 100.06 99.90 F3 R1 53.63 53.94 53.07 54.92 84.67 84.53 F3 R2 108.28 108.33 108.72 108.65 119.95 119.64
QL1 RL1 QL2 RL2 QL3 RL3
Tableau 7.3. Performances compares pour chaque scnario et algorithme exprim sous la forme de rcompenses cumules sur un total de 160 points.
Premirement, nos modles et nos hypothses peuvent ne pas tre ralistes. En labsence dinformation publie sur les interactions entre les loutres et les abalones, nous avons suppos 3 formes dinteractions possibles et complmentaires. Il est possible que la vraie fonction dinteraction soit un mlange de ces 3 fonctions. La littrature sur le sujet tant pauvre, une tude approfondie de la sensibilit des paramtres dinteraction nous permettra de rpondre cette question. Nous procdons galement lamlioration du modle de population des abalones. En effet les abalones du Nord ont des caractristiques de croissance diffrentes du modle de population gnrale prsent dans [BAR 06]. Une seconde possibilit qui pourrait expliquer pourquoi nous navons pas t en mesure de montrer la co-existence des deux espces des niveaux pas risque est une dnition non raliste des niveaux dalerte des abalones en prsence des loutres. Si cela est le cas, alors les quipes de rtablissement sont susceptibles dinvestir des ressources signicatives an datteindre un objectif non ralisable. Car, mme avec notre dnition des niveaux dalerte dabalones optimistes (pas risque 0.5 au lieu de 1), la co-existence des deux espces ces niveaux na pas t montre. Dans la littrature, Watson [WAT 00] argumente que le rtablissement des loutres et de la pche dabalones sont mutuellement exclusives, corroborant ainsi nos conclusions. Nous avons toutefois trouv quil tait possible dobtenir des congurations pas risque pour les loutres et vulnrable pour les abalones en implmentant les actions combines de contrle des loutres et de force anti-braconnage. Le rtablissement dune pche traditionnelle par les populations indignes est une possibilit pour le contrle de la population de loutres. Ce travail met en valeur lintrt des modles et mthodes des MDP pour laide la dcision de la conservation de deux espces menaces en interaction. De nombreuses perspectives sont envisages et incluent une gnralisation une tude spatiale, lincorporation de fonctions de cots ainsi que lenrichissement du choix des dcisions possibles.
231
7.4. Conclusion Dans ce chapitre nous avons illustr comment les modles dcisionnels de Markov et leurs mthodes doptimisation pouvaient sappliquer dans le domaine de la conservation de la biologie. De manire gnrale, nous identions un besoin grandissant de dveloppement de nouvelles mthodes prennant en compte la spatialit des problmes, lobservabilit partielle et lintrt des approches multi-critres. De tels algorithmes permettraient de rsoudre des problmes dallocation de ressources et de protection de la biodiversit comme prsent dans [WIL 06] qui cherche identier les lieux prioritaires parmi lensemble des hot spot de biodiversit dans le monde.
T ROISIME PARTIE
Extensions
Chapitre 8
DEC-MDP/POMDP
8.1. Introduction gnrale Les MDP et les POMDP sont deux modles mathmatiques rigoureux qui ont t utiliss avec succs dans la formalisation des processus dcisionnels squentiels sous incertitude. Ils ont t utiliss pour le contrle dun agent voluant dans des environnements partiellement ou compltement observables et qui cherche maximiser sa performance en interaction avec cet environnement (et probablement avec dautres agents) en se fondant sur ses observations. Ce succs amne naturellement les chercheurs utiliser ce modle mathmatique dans des systmes complexes composs de plusieurs agents en interaction. E XEMPLE. Revenons lentretien de notre voiture (voir tome 1, section 1.1). On peut supposer que plusieurs garagistes, qui ne se coordonnent pas toujours, seront sollicits pour cet entretien. On peut mme imaginer une situation futuriste o les garages seront quips dune otille de robots spcialiss : un pour les freins, lautre pour lhuile, un autre pour la rouille, etc. Ainsi, plusieurs agents peuvent dcider dagir sur le mme objet, parfois avec des informations communes, parfois avec des informations parcellaires. Comment faire pour que ces agents cooprent pour que laction globale rsultant de chacune des actions individuelles soit optimale ? Plusieurs extensions des MDP permettent dapporter des rponses ce problme. Dans ce chapitre, nous prsentons, comme pour les MDP, les POMDP mono-agent, les divers formalismes dextension des MDP et POMDP aux systmes multi-agents. Ces extensions sont diverses et se fondent sur diffrentes hypothses quon peut classer en : i) chaque agent a une connaissance complte de ltat du monde, ii) chaque agent
Chapitre rdig par Aurlie B EYNIER et Franois C HARPILLET et Daniel S ZER et Abdel-Illah M OUADDIB.
236
PDM en IA
a une connaissance partielle (en gnral propre) de ltat du monde, iii) les agents peuvent communiquer, iv) les agents ne peuvent pas (ou partiellement) communiquer, ... Ces diffrentes hypothses ont donn lieu diffrents formalismes que nous passons en revue pour les plus notables dentre eux, comme MMDP, Dec-MDP, DecPOMDP, Dec-MDP-Com, MTDP, COM-MTDP, R-MTDP, E-MTDP, EMT, I-POMDP, POSG, POIPSG, ND-POMDP, TI-Dec-MDP, OC-Dec-MDP, EOC-Dec-MDP. Ce chapitre montrera aussi la difcult de construire des solutions optimales avec ces formalismes cause de la trs haute complexit et qui construit un obstacle leur utilisation dans des problmes rels complexes. Ce chapitre discutera ce problme et montrera que, lorsquon exploite une certaine structure du problme comme la localit des interactions, la dcomposabilit des rcompenses et certaines formes dindpendances entre les agents, des algorithmes approchs sont possibles et, pour certains, convergent vers des optima locaux et atteignent certaines formes dquilibre.
8.2. Observabilit Lobservabilit dun environnement caractrise lensemble des informations qui sont accessibles un agent. Les modles utiliss an de formaliser les problmes de dcision multi-agent sous incertitude varient selon le degr dobservabilit des agents. Nous commenons donc, dans cette section, par dnir les diffrents types dobservabilit. Nous montrerons dans la suite du chapitre que le degr dobservabilit inuence galement la complexit de la prise de dcision. Comme cela a t indiqu au chapitre 3, nous parlerons dobservabilit partielle quand toutes les informations ncessaires la prise dune dcision par un agent ou un groupe dagents ne sont pas accessibles instantanment. Les agents seront alors contraints de faire face ce manque dinformation et devront dcider au mieux comment agir en fonction des informations accessibles et des ventuelles connaissances complmentaires dont ils disposent. Dans le cadre multi-agents, suivant les informations auxquelles les agents ont accs, nous pouvons distinguer diffrents types dobservabilit. Nous distinguerons tout dabord lobservabilit de ltat du systme et lobservabilit de ltat de lagent. Le terme tat global dsignera ltat du systme multi-agents (agents + environnement). Ltat dun agent sera dni selon son degr de dlibration la complexit de ses raisonnements. Il pourra correspondre aux perceptions courantes de lagent ou bien une reprsentation interne de ses connaissances. Ltat dun agent peut tre partiellement ou compltement observable. Dans le premier cas, on parle dtat localement partiellement observable. Lagent na alors pas accs toutes les informations ncessaires pour savoir dans quel tat il se trouve. Dans le cas contraire, ltat est localement totalement observable : lagent peut, partir de ses observations, dduire avec certitude son tat.
DEC-MDP/POMDP
237
Observabilit
Observabilit locale
Observabilit collective
Localement Partiellement Observable
Localement Totalement Observable
Non Observable
Collectivement Partiellement Observable
Collectivement Totalement Observable
Figure 8.1. Diffrents types dobservations
En ce qui concerne ltat global du systme, on distingue observabilit collective et observabilit individuelle. Lobservabilit collective rsulte de lagrgation des observations de tous les agents. Ltat global du systme peut tre collectivement partiellement observable ou bien collectivement totalement observable. Dans le cas de lobservabilit collective partielle, il nest pas possible de dduire ltat du systme mme si on a accs toutes les observations de tous les agents. Certaines proprits de ltat global ne sont donc observes par aucun des agents. Dans le cas contraire, on peut dduire ltat global du systme partir des observations locales et ltat global est dit collectivement totalement observable. Par ailleurs, ltat global du systme est dit individuellement observable si chaque agent connat ltat global du systme partir de ses observations. Un tat global individuellement observable est par consquent collectivement totalement observable. Dans le cadre mono-agent, lobservabilit individuelle de ltat du systme diffrencie les MDP des POMDP (cf. chapitre 3). Enn, lorsque les agents nont aucune observabilit, on parle de non-observabilit (locale et collective). Remarquons que lobservabilit ne concerne pas seulement ltat du systme et des autres agents mais galement leur comportement. En effet, chaque agent peut, dans certains cas, connatre les stratgies des autres agents. Ainsi, il est possible de dduire comment sadapter au mieux leur comportement.
238
PDM en IA
8.3. Processus dcisionnels de Markov multi-agents An dadapter le formalisme des MDP aux systmes multi-agent coopratifs, Boutilier [BOU 96a, BOU 99c, BOU 99a] a dni les processus dcisionnels de Markov multi-agent ou MMDP (Multiagent Markov Decision Processes). Ces derniers permettent de formaliser des problmes de dcision squentielle dans des systmes multi-agents coopratifs. Ce formalisme est trs proche de celui des jeux de Markov [SHA 53] prsent au chapitre 4. Cependant, les MMDP modlisent uniquement des systmes coopratifs. Il sagit dun jeu de Markov dans lequel la fonction de rcompense est partage par tous les joueurs, alors que, dans le cadre gnral des jeux de Markov, il y a une fonction de rcompense propre chaque agent. 8.3.1. Formalisme Un MMDP est dni par un tuple S , A, T , R tout comme les processus dcisionnels de Markov classiques. Cependant, une action lmentaire, appele action jointe est dcrite par lensemble des actions individuelles des agents. En plus du tuple S , A, T , R , on ajoute une variable qui correspond au nombre dagents du systme. Dnition 15 Processus dcisionnels de Markov multi-agents Un MMDP est dni par un tuple n, S , A, T , R tel que : n est le nombre dagents Agi du systme, i {1, ..., n}. S correspond lensemble des tats s du systme. A = A1 An dnit lensemble des actions jointes des agents, Ai est lensemble des actions locales de lagent Agi . T est une fonction de transition. Elle donne la probabilit T (s, a, s ) que le systme passe dans un tat s quand les agents excutent laction jointe a A partir de ltat s. R dnit la fonction de rcompense. R(s, a, s ) est la rcompense obtenue par le systme lorsquil passe dun tat s un tat s en excutant laction a. Un MMDP peut tre vu comme un MDP ayant un grand espace dtats et dactions. Lensemble des agents est alors considr comme un seul agent dont le but est de calculer une politique optimale pour le MDP joint (cf. chapitre 1). Un MMDP peut galement tre considr comme un jeu stochastique joueurs dans lequel la fonction de rcompense est la mme pour tous les joueurs. Le formalisme des MMDP correspond donc une gnralisation des MDP au cas multi-agent et une spcialisation des jeux stochastiques joueurs. Rsoudre un MMDP consiste calculer une politique jointe = 1 , , n o i correspond la politique locale de lagent Agi . Elle dnit une fonction i : S Ai qui fait correspondre tout tat du systme une action ai de lagent Agi . Une telle
DEC-MDP/POMDP
239
politique jointe peut tre calcule par un algorithme classique comme lalgorithme ditration sur les valeurs (cf. chapitre 1). La politique dun MMDP est une politique centralise. Il est ncessaire pour lexcuter que chaque agent ait accs ltat global du systme. Dans les systmes multiagents cette hypothse est rarement vrie. An dexcuter la politique du MMDP, il est alors ncessaire que le contrle soit centralis ou bien que les agents puissent communiquer. 8.3.2. Contrle centralis Les systmes multi-agents contrle centralis sont conus de telle faon quun contrleur central est charg de calculer la politique optimale jointe et de prendre les dcisions pour tous les agents. Dans de tels systmes, la politique dun MMDP peut tre facilement excute. Lentit centrale connat ltat global du systme et peut dicter chaque agent quelle action raliser. Un tel type de contrle nest gnralement pas envisageable dans des applications pratiques. En effet, les agents sont souvent rpartis dans lespace et aucun na assez dinformation pour jouer le rle dentit centrale. 8.3.3. Contrle dcentralis Appliquer la politique dun MMDP de manire dcentralise est cependant possible si les agents peuvent communiquer volont et gratuitement, cest--dire si la communication nest pas limite par des contraintes physiques telles que la taille de la bande passante et si elle na aucune inuence sur lutilit des agents. Ces derniers peuvent alors changer leurs informations sur leurs tats an de dterminer ltat global du systme. Il est malgr tout ncessaire que ltat du systme soit collectivement totalement observable. Sinon, les agents ne pourront pas dduire ltat du systme mme sils ont chang toutes leurs informations. Dans les systmes multi-agents o le contrle est dcentralis, le calcul de la politique peut tre ralis de manire centralise ou dcentralise. Dans le premier cas, un contrleur central est charg de calculer la politique optimale jointe = 1 , , n . Les politiques locales i constituant cette politique optimale jointe sont ensuite envoyes aux agents chargs de les excuter. Un autre modle de conception, compltement dcentralis, peut tre utilis. Chaque agent calcule alors de manire individuelle la politique optimale jointe. Si les agents suivent le mme raisonnement pour effectuer ce calcul, ils obtiendront tous la mme politique optimale. Cependant, sil existe plusieurs politiques optimales, il est ncessaire que les agents coordonnent le choix de la politique optimale suivre, faute de quoi des problmes de coordination risquent de survenir [CLA 98]. En effet, si les agents slectionnent diffrentes politiques et font ainsi des choix non-coordonns, le comportement global peut ne pas tre optimal.
240
PDM en IA
La coordination est dnie par Malone [MAL 88] comme lensemble des activits supplmentaires quil est ncessaire daccomplir dans un environnement multiagents et quun seul agent poursuivant les mme buts naccomplirait pas . Ces tches de coordination permettent damliorer le comportement des agents. Ainsi, les agents peuvent faire face des situations o leurs actions sont susceptibles dinterfrer entre elles. De mme, la coordination permet de garantir une certaine qualit de rsultat mme si un agent manque de comptences, de ressources ou dinformation. Selon Ferber [FER 95] ; la coordination des actions, dans le cadre de la coopration, peut donc tre dnie comme larticulation des actions individuelles accomplies par chacun des agents de manire ce que lensemble aboutisse un tout cohrent et performant. (...) laction du groupe est amliore soit par une augmentation des performances, soit par une diminution des conits. La coordination des actions est donc lune des principales mthodes pour assurer la coopration entre agents autonomes. . En dcrivant les MMDP, Boutilier a propos un premier formalisme intgrant systmes multi-agents coopratifs et processus dcisionnels de Markov. Lutilisation des processus dcisionnels de Markov multi-agents (MMDP) suppose lexistence dun contrleur central ayant une vue globale du systme ou bien ncessite la possibilit de communiquer volont et gratuitement. Cependant, dans de nombreux systmes multiagents, chaque agent na quune vue locale de ltat global du systme sur laquelle il base ses dcisions et la communication possde un cot. Les MMDP peuvent alors difcilement tre utiliss. 8.4. Contrle dcentralis et processus dcisionnels de Markov Les processus dcisionnels de Markov dcentraliss partiellement observables (DEC POMDP ) et les processus dcisionnels de Markov dcentraliss ( DEC - MDP ) constituent des extensions des POMDP et des MDP pour des domaines o le contrle est dcentra-
lis. 8.4.1. Les processus dcisionnels de Markov dcentraliss Dans le cas dune prise de dcision dcentralise, ltat de chaque agent peut ne pas tre directement observable par lagent. Celui-ci reoit alors des observations qui peuvent savrer insufsantes an de dduire prcisment son tat. On parle dtat localement partiellement observable. Lagent doit alors fonder sa dcision sur ses observations et non sur son tat. De ce fait, les DEC - MDP et les DEC - POMDP dnissent un ensemble dobservations constitu des observations locales i des agents. Une fonction dobservation O est galement dnie, qui permet dobtenir la probabilit quun agent Agi observe oi tant donns un tat de dpart s, une action jointe a et un tat darrive s . Dnition 16 Un DEC - POMDP est dni par un tuple S , A, T ,, O, R tel que :
DEC-MDP/POMDP
241
S dnit ltat global du systme. A = A1 , , An est lensemble des actions jointes et Ai dnit lensemble des actions ai de lagent Agi . T = S A S R dnit la fonction de transition. T (s, a, s ) correspond la probabilit que le systme passe dun tat s un tat s lorsque laction jointe a est excute. = 1 2 n est lensemble des observations des agents et i est lensemble des observations de lagent Agi . O = S A S R dnit la fonction dobservation. O(s, a, s , o = o1 , , on ) correspond la probabilit que chaque agent Agi observe oi lorsque les agents excutent laction jointe a partir de ltat s et que le systme arrive dans ltat s . R dnit la fonction de rcompense. R( s1 , , sn , a1 , , an , s1 , , sn ) est la rcompense obtenue par le systme lorsque les agents excutent laction jointe a1 , , an partir de ltat s1 , , sn et arrivent dans ltat s1 , , sn . La fonction de transition ainsi que la fonction de rcompense dpendent de laction jointe excute par tous les agents. Comme les POMDP, les DEC - POMDP sont dnis sur un horizon T correspondant au nombre dtapes de dcision. Celui-ci peut tre ni ou inni. A chaque excution dune action jointe, la fonction R dtermine la rcompense octroye au systme. Le but est de trouver le comportement (politique) de chaque agent tel que ces derniers maximisent globalement leur mesure de performance. Notons quun DEC - POMDP un seul agent est quivalent un POMDP. Si ltat du systme est collectivement totalement observable on peut le dduire des observations locales des agents, le DEC - POMDP devient un DEC - MDP. Cette proprit peut se traduire plus formellement ainsi : si O(s, a, s , o = o1 , , on ) > 0, alors P (s | o1 , , on ) = 1. Remarquons que cette proprit nimplique pas ncessairement que chaque agent observe totalement son tat. Dans le cas o les tats des agents sont localement totalement observables, lensemble des observations et la fonction dobservation O peuvent tre omis an dviter les redondances dinformation. Le DEC - MDP est alors dni par lensemble S , A, T , R . Les relations entre DEC - POMDP, DEC - MDP, POMDP et MDP peuvent tre rsumes par le diagramme de la gure 8.2. Dans le cadre du contrle centralis, observabilit locale et observabilit collective sont quivalentes. 8.4.2. Multiagent Team Decision Problem Pynadath et Tambe [PYN 02] ont dcrit un formalisme similaire aux DEC - POMDP : le Multiagent Team Decision Problem (MTDP). Tout comme les DEC - POMDP, les MTDP permettent de formaliser des problmes de contrle dcentralis sous incertitude. Un MTDP reprend les mmes composantes quun DEC - POMDP. An de reprsenter plus facilement les problmes de contrle dans les systmes multi-agents, un
242
PDM en IA
DECPOMDP
POMDP
MDP
DECMDP
Figure 8.2. Relations entre les diffrents types de processus dcisionnels de Markov
ensemble dtats de croyance est ajout la dnition des DEC - POMDP. Ltat de croyance bt i dun agent Agi dcrit son tat mental linstant t. Il est ainsi possible de diffrencier croyances et observations. Dnition 17 Un MTDP est dni par un tuple S , A, T ,Bi , , O, R tel que : S dnit ltat global du systme. A = A1 , , An est lensemble des actions jointes et Ai dnit lensemble des actions ai de lagent Agi . T = S A S R dnit la fonction de transition. T (s, a, s ) correspond la probabilit que le systme passe dun tat s un tat s lorsque laction jointe a est excute. Bi dsigne lensemble des tats de croyance de lagent Agi . Un agent Agi construit son tat de croyance bt i linstant t partir de ses observations jusqu linstant t. = 1 2 n est lensemble des observations des agents tel que i est lensemble des observations de lagent Agi . O = S A S R dnit la fonction dobservation. O(s, a, s , o = o1 , , on ) correspond la probabilit que chaque agent Agi observe oi lorsque les agents excutent laction jointe a partir de ltat s et que le systme arrive dans ltat s . R dnit la fonction de rcompense. R( s1 , , sn , a1 , , an , s1 , , sn ) est la rcompense obtenue par le systme lorsque les agents excutent laction a1 , , an partir de ltat s1 , , sn et arrivent dans ltat s1 , , sn . Seuken et Zilberstein [SEU 05] ont dmontr que les modles des DEC - POMDP et des MTDP taient quivalents lorsque chaque agent a accs toutes les informations quil a perues par le pass. Intuitivement, les tats de croyance dun MTDP peuvent
DEC-MDP/POMDP
243
tre dnis par lhistorique des observations. Il nexiste donc pas de perte dinformations entre ces deux modles et les politiques locales des agents sont dnies de faon similaire. Les relations entre les MTDP, DEC - POMDP, DEC - MDP, POMDP et MDP sont rsumes par le tableau 8.1.
Type de contrle Etat global collectivement totalement observable Formalisme Centralis Oui Non
MDP MMDP
Dcentralis Oui Non
POMDP DEC - MDP DEC - POMDP MTDP
Tableau 8.1. Relations entre les DEC - POMDP, DEC - MDP, POMDP et MDP
8.4.2.1. Complexit Rsoudre de manire optimale un DEC - POMDP (un MTDP, ou un DEC - MDP) consiste trouver une politique optimale jointe = 1 , , n compose dun ensemble de politiques locales i . Une politique optimale jointe est une politique qui maximise lutilit espre du systme. Elle fournit aux agents un comportement optimal, cest-dire que, chaque tape de dcision, chaque agent choisit laction qui maximise le gain espr du systme. Dans le cadre des DEC - POMDP, la politique locale dun agent Agi associe chaque historique dobservations oi,1 , oi,t de lagent une action ai . En revanche, dans le cadre des MTDP, la politique locale dun agent Agi correspond une fonction i : Bi Ai qui fait correspondre une action chaque tat de croyance de lagent Agi . En raison du manque dobservabilit de ltat global du systme, la rsolution optimale de problmes de contrle dcentralis est beaucoup plus difcile que dans le cadre du contrle centralis. Les performances du systme dpendent de son tat global et de laction jointe excute. Cependant, lorsque ltat du systme est collectivement totalement ou partiellement observable, les agents nont pas accs individuellement ltat global du systme et doivent baser leurs dcisions sur leurs observations locales. Bien que la rsolution optimale des POMDP soit un problme PSPACEcomplet1 [PAP 87], la rsolution des DEC - POMDP est bien plus complexe. Bernstein et al. [BER 02] ont dmontr que rsoudre de faon optimale un DEC - POMDP 2 agents ou plus est un problme NEXP2. Il en est de mme pour les DEC - MDP : la rsolution optimale dun MDP est un problme P-complet alors que celle dun DEC - MDP est NEXP pour 3 agents ou plus.
1. Un problme PSPACE-complet peut tre rsolu par un algorithme dterministe et polynomial en espace (par rapport la taille de linstance du problme). 2. Un problme de complexit NEXP est un problme pouvant tre rsolu par un algorithme non-dterministe exponentiel. La vrication dune solution prend donc un temps exponentiel.
244
PDM en IA
Si ltat du systme est individuellement partiellement observable, cest--dire si chaque agent connat ltat global du systme, alors le problme peut se rduire un MDP dont la rsolution est P-complte. Enn, si ltat global du systme nest pas observable, le problme se rduit un MDP non observable (NOMDP) connu pour tre NP-complet. Le tableau 8.2 rsume linuence de lobservabilit de ltat global du systme sur la complexit du problme.
Observabilit Individuellement Collectivement Collectivement Non de l tat Observable Observable Partiellement Observable du systme Observable Complexit P-complet NEXP-complet NEXP-complet NP-complet Formalisme MMDP, DEC - MDP DEC - MDP DEC - POMDP
MTDP
Tableau 8.2. Observabilit et Complexit en temps
8.4.3. Gestion de la communication dans les DEC - POMDP Dans certains systmes multi-agents, il est possible que les agents communiquent entre eux lors de lexcution des tches. Cette communication peut alors leur permettre dchanger des informations sur leurs observations, leur tat, leurs actions, etc. Ainsi, les agents augmentent leurs connaissances sur les autres agents et sur ltat global du systme, et peuvent se coordonner plus facilement. Deux types de communication peuvent tre identis : la communication directe et la communication indirecte. La communication directe consiste envoyer des messages directement aux autres agents. La communication indirecte est gnralement ralise par modication de lenvironnement ou par manipulation de connaissances communes. Les agents peuvent laisser des traces dans lenvironnement an dindiquer aux agents quelle action a t excute, quel est leur tat, etc. Lorsque les agents ont tous accs une base de donnes commune la communication peut seffectuer par modication des connaissances stockes dans la base. La perception de lenvironnement constitue alors un mcanisme permettant de mettre en place un tel type de communication. Cependant, dans le cas de la communication indirecte, il nest pas certain que tous les agents observeront ces modications. Par consquent, linformation peut ne pas tre reue. Nous nous intresserons par la suite linuence de la communication sur lobservabilit des agents. Nous ne traiterons alors que de la communication directe. En effet, cette dernire constitue le seul type de communication qui permette datteindre lobservabilit totale lorsquil nexiste pas de caractristiques incontrlables communment observables par tous les agents.
DEC-MDP/POMDP
245
Toute communication a gnralement un cot d aux ressources quelle consomme (nergie, bande passante, ...) ou bien d au risque de rvler des informations dventuels agents comptitifs. Lorsquun agent a la possibilit de communiquer, il doit tenir compte de lutilit des informations apportes par la communication et du cot de cette dernire. La dcision de communiquer ou non rsulte dun compromis entre cette utilit et ce cot. Nous dsignerons par communication gratuite une communication directe instantane dont le cot est nul pour les agents. Plusieurs formalismes se sont proposs dtendre les DEC - POMDP an de permettre la modlisation de la communication entre les agents durant la phase dexcution des tches3. A chaque tape de dcision, un agent peut dcider de communiquer ou non. Ensuite, il dtermine quelle action raliser. Comme le montre la gure 8.3, chaque tape de dcision est donc dcompose en deux phases : la phase de communication et la phase dexcution dune action standard. Le terme action standard dsigne toute action ne consistant pas communiquer des informations avec les autres agents.
Dcision de communiquer ou non Communication termine Dcision de laction standard excuter Fin de lexcution de laction standard
Communi cation
Action standard
Figure 8.3. Diffrentes phases dune tape de dcision
La politique i de chaque agent est alors compose de deux politiques distinctes : et une politique dexcution des actions standards une politique de communication i a i . Goldman et Zilberstein [GOL 03] ont dcrit une extension des DEC - POMDP permettant de modliser la communication entre les agents. Les DEC - POMDP - COM (processus dcisionnels de Markov dcentralis partiellement observables avec communication) sont dnis de la mme manire que les DEC - POMDP. Deux nouvelles composantes sont cependant ajoutes au formalisme : un langage de communication et une fonction de cot denvoi des messages C . Dnition 18 Un DEC - POMDP - COM S , A, , C , T , , O, R tel que : S dsigne ltat global du systme.
3. La phase dexcution des tches est appele phase on-line . Elle est oppose la phase off-line de calcul des politiques et ayant lieu avant lexcution des tches.
est
dni
par
un
tuple
246
PDM en IA
A = A1 , , An est lensemble des actions jointes et Ai dnit lensemble des actions ai de lagent Agi . dsigne lalphabet des messages. i correspond un message de lagent Agi . C associe tout message un cot. Cette fonction est telle que C : R. T = S A S R dnit la fonction de transition. T (s, a, s ) correspond la probabilit que le systme passe dun tat s un tat s lorsque laction jointe a est excute. = 1 2 n est lensemble des observations des agents tel que i est lensemble des observations de lagent Agi . O = S A S R dnit la fonction dobservation. O(s, a, s , o = o1 , , on ) correspond la probabilit que chaque agent Agi observe oi lorsque les agents excutent laction jointe a partir de ltat s et que le systme arrive dans ltat s . R dnit la fonction de rcompense. R( s1 , , sn , a1 , , an , s1 , , sn ) est la rcompense obtenue par le systme lorsque les agents excutent laction a1 , , an partir de ltat s1 , , sn et arrivent dans ltat s1 , , sn .
Remarquons quil est galement possible dajouter la communication au formalisme des DEC - MDP comme lont fait Xuan et Lesser [XUA 01]. Pynadath et Tambe [PYN 02] ont galement dcrit une extension des MTDP permettant la modlisation de la communication. Un COM - MTDP (Communicative Multiagent Team Decision Problem) est dni par un tuple S , A,, T ,, O, B , R . La fonction de rcompense R est tendue an de modliser le cot des envois de messages. Comme pour les DEC - POMDP et les MTDP, Seuken et Zilberstein [SEU 05] ont dmontr que les modles des DEC - POMDP - COM et des COM - MTDP taient quivalents lorsque chaque agent a accs toutes les informations quil a perues par le pass. Par ailleurs, il a t prouv que les modles des DEC - POMDP et des DEC - POMDP - COM taient quivalents. En effet, les changes de messages peuvent tre considrs comme des actions appartenant lensemble Ai des actions de chaque agent Agi (fusion des ensembles dactions de communication et des actions standards). En adaptant en consquence lespace des tats, la fonction de transition et la fonction de rcompense, il est alors possible de transformer tout DEC - POMDP - COM en un DEC - POMDP quivalent. Un DEC - POMDP tant, par dnition, une classe particulire de DEC - POMDP COM , on en dduit lquivalence entre ces deux modles. A partir de ces diffrentes quivalences, il peut tre dduit que les modles des DEC - POMDP, DEC - POMDP - COM, MTDP et COM - MTDP sont quivalents lorsque chaque agent a accs toutes les informations quil a perues par le pass. Les complexits de ces diffrents problmes sont par consquent identiques.
DEC-MDP/POMDP
247
Le cot de la communication et le degr dobservabilit du systme inuencent toutefois la complexit de ces modles (tableau 8.3). Lorsque la communication est gratuite, il est possible pour chaque agent de communiquer toutes ses connaissances tous les autres agents. Si le systme est collectivement totalement observable, la communication permet de se ramener un processus de dcision dcentralise compltement observable. Ce dernier peut tre reprsent par un MMDP [BOU 99a] dont la rsolution est P-complte [PAP 87]. Dans le cas o ltat nest pas collectivement totalement observable, communiquer permet de ramener le problme un POMDP dont la rsolution est PSPACE [PAP 87]. Si les agents nont aucune observabilit, alors le problme correspond un NOMDP (processus dcisionnel de Markov non observable) qui est NP-complet. Lorsque la communication nest pas gratuite, chaque agent doit trouver un compromis entre le cot de la communication et les bnces rsultant des informations quil aura obtenues ou transmises. Rsoudre de manire optimale de tels problmes consiste trouver une politique optimale jointe = 1 , , n o chaque politique locale comprend deux composantes. Chaque agent doit donc construire une politique a a maximisent la rcompense jointe. , i telle que i et i i = i Lorsque ltat du systme est individuellement observable, les agents nont aucun besoin de communiquer. Le problme peut se ramener, comme dans le cas de la communication gratuite, un MMDP. Dans le cas o ltat du systme est non observable, les agents sont aveugles et nont alors aucune information communiquer. Le problme se ramne un NOMDP NP-complet.
Observabilit Individuellement Collectivement Collectivement Non de l tat Observable Observable Partiellement Observable du systme Observable Communication P-complet P-complet PSPACE-complet NP-complet gratuite Communication P-complet NEXP-complet NEXP-complet NP-complet avec un cot Tableau 8.3. Observabilit et Complexit en temps
Le formalisme des COM - MTDP ne pose aucune hypothse quant lobservabilit collective de ltat du systme et au cot de la communication. Leur complexit varie suivant lobservabilit du systme. 8.5. Proprits et classes particulires de DEC - POMDP Nous avons vu que la rsolution des DEC - POMDP est un problme difcile. Cependant, certaines proprits, autres que le degr dobservabilit, permettent de diminuer la complexit du problme.
248
PDM en IA
8.5.1. Transitions, observations et buts Parmi ces proprits, on peut citer lindpendance des transitions, lindpendance des observations et lexistence dun but commun tous les agents. Dans cette section, nous allons dnir ces proprits et tudier leur inuence sur la complexit des DEC POMDP et DEC - MDP . Ces rsultats sont galement applicables aux MTDP . 8.5.1.1. Transition et Observation Indpendantes Lindpendance des transitions permet didentier des problmes o les actions des agents sont indpendantes les unes des autres. Dnition 19 Un DEC - POMDP est dit transitions indpendantes si la fonction de n transition peut tre factorise en un produit de probabilits tel que : P = i=1 Pi o Pi = P r(si |si , ai ). Pour un DEC - POMDP deux agents, la proprit dindpendance des transitions se traduit par la formule suivante : s1 , s1 S1 , s2 , s2 S2 , a1 A1 , a2 A2 , P r(s1 |(s1 , s2 ), a1 , a2 , s2 ) = P r(s1 |s1 , a1 ) et P r(s2 |(s1 , s2 ), a2 , a1 , s1 ) = P r(s2 |s2 , a2 ). Lorsquun DEC - POMDP est transitions indpendantes, la probabilit quun agent Agi passe dun tat si un tat si ne dpend que de laction ai quil a excute. Les actions des autres agents nont pas dinuence sur la transition de lagent Agi . Lindpendance des observations caractrise les problmes o les observations de chaque agent sont indpendantes des actions des autres agents. Dnition 20 Un DEC - POMDP est dit observations indpendantes si la probabilit dobservation O peut tre dcompose en n probabilits dobservations Oi telles que : Oi = P r(oi | s1 , , sn , a1 , , an , s1 , , sn , o1 , , oi1 , oi+1 , , on ) Pour un DEC - POMDP deux agents, la proprit dindpendance des observations se traduit par la formule suivante : o1 1 , o2 2 , s = (s1 , s2 ), s = (s1 , s2 ) S , a1 A1 , a A2 , P r(o1 |(s1 , s2 ), a1 , a2 , (s1 , s2 ), o2 ) = P r(o1 |s1 , a1 , s1 ) et P r(o2 |(s1 , s2 ), a1 , a2 , (s1 , s2 ), o1 ) = P r(o2 |s2 , a2 , s2 ) et O(o1 , o2 |(s1 , s2 ), a1 , a2 , (s1 , s2 )) =
DEC-MDP/POMDP
249
P r(o1 |(s1 , s2 ), a1 , a2 , (s1 , s2 ), o2 ) P r(o2 |(s1 , s2 ), a1 , a2 , (s1 , s2 ), o1 ) Un DEC - POMDP transitions et observations indpendantes modlise un problme o linuence des actions dun agent sur les autres est restreinte. En effet, seule la fonction de rcompense dpend de laction jointe excute. La conjugaison de ces deux proprits permet, dans certains cas, de diminuer la complexit. Lors de la rsolution des problmes de dcision dcentralise, les agents doivent faire face au manque dobservabilit de ltat global du systme. An de calculer une politique globale optimale, chaque agent doit garder en mmoire toute la squence de ses observations puisque chaque dcision dpend de cette squence. La taille de la politique de lagent est donc exponentielle en |i |T o |i | dsigne la taille de lensemble des observations de lagent Agi et T est lhorizon du problme. Lvaluation de la politique est par consquent de complexit exponentielle. De plus, il T existe |Ai ||i | politiques devant tre values pour chaque agent, do une complexit NEXP. Goldman et Zilberstein [GOL 04] ont montr que la rsolution dun DEC - MDP transitions et observations indpendantes ncessite que lagent ne garde en mmoire que sa dernire observation. Ainsi, la taille des politiques locales des agents diminue. La politique dun agent Agi a alors une taille polynomiale en |Si |T o |Si | correspond la taille de lespace dtats de lagent Agi . Lvaluation dune telle politique peut tre ralise en temps polynomial. Cependant, il existe un nombre exponentiel |Ai ||Si |T de politiques. An de calculer la politique optimale, il est ncessaire dvaluer tout lespace des politiques, cest pourquoi lalgorithme est NP-complet. En ce qui concerne les DEC - POMDP, les proprits dindpendance des transitions et des observations nentranent pas de diminution de la complexit. En effet, chaque agent doit, dans tous les cas, mmoriser toute la squence de ses observations et la taille des politiques locales reste inchange. 8.5.1.2. Agents orients vers un but Un processus orient vers un but est un processus dans lequel les agents cherchent atteindre des tats globaux spciques correspondant des tats o le systme a atteint son but. Par exemple, des agents devant transfrer des objets dun point A un point B auront atteint un tat but quand tous les objets seront au point B. Dnition 21 Un DEC - POMDP est dit orient par des buts si les conditions suivantes sont remplies : 1) Il existe un sous-ensemble non vide G de lensemble des tats S reprsentant les tats but du systme. Au moins un tat g G est accessible par une politique jointe. 2) Le problme a un horizon ni T . 3) Toute action ai dun agent Agi a un cot C (ai ) < 0. 4) La fonction de rcompense est telle que R(s, a1 , , an , s ) =
n i=1
C (ai ).
250
PDM en IA
5) Si linstant T , le systme a atteint un tat but s G alors une rcompense supplmentaire positive est attribue au systme pour avoir atteint un tat but. Un tel DEC - POMDP est communment not GO-DEC - POMDP. Dnition 22 Un GO-DEC - POMDP est dit cot uniforme si toutes les actions ont le mme cot. La rsolution de DEC - MDP transitions et observations indpendantes, ayant un seul but et cot uniforme, est un problme P-complet [GOL 04]. Chaque agent doit, dans ce type de problme, suivre une politique qui minimise les cots. En raison de lhypothse duniformit des cots, ceci revient calculer la politique de plus court chemin, par un algorithme de programmation dynamique P-complet. En revanche, la rsolution dun DEC - MDP ou dun DEC - POMDP orient par un but, transitions et observations non indpendantes reste un problme NEXP [GOL 04]. 8.5.2. DEC - MDP dirigs par les vnements Becker et al. [BEC 04a] ont identi une autre classe de DEC - MDP dont la complexit est moins importante que celles des DEC - MDP classiques : les DEC - MDP dirigs par les vnements ou Event Driven Decentralized Markov Decision Processes (ED - DEC - MDP). Les DEC - MDP dcrivent des problmes dans lesquels les interactions entre les agents correspondent des dpendances entre leurs actions. Ces dernires se traduisent par des contraintes entre les agents, comme par exemple des contraintes temporelles ou bien des contraintes dordre entre les actions. Cette classe de DEC - MDP permet de reprsenter des contraintes sur lexcution des tches qui sont souvent rencontres en pratique et non modlises dans le formalisme classique des processus dcisionnels de Markov dcentraliss. Il est ainsi possible de formaliser des problmes dans lesquels le rsultat de laction dun agent dpend de lexcution dautres actions effectues par dautres agents. Diffrents types de relations peuvent ainsi tre modlises. Parmi elles, on trouve les relations de prcdence : un agent Agi ne peut excuter la tche ti que si lagent Agj a ni dexcuter la tche tj . De mme, il est possible de reprsenter des dpendances de qualit : si lagent Agj a termin la tche tj lorsque la tche ti est excute, alors la qualit dexcution de ti sera meilleure. An de reprsenter ces dpendances, le formalisme des ED - DEC - MDP se base sur le langage TAEMS [DEC 93] de description des tches. Les DEC - MDP supposent que les tats locaux des agents sont localement totalement observables. Enn, la fonction de rcompense R dun ED - DEC - MDP est rcompenses indpendantes, cest--dire quelle peut tre dcompose en une somme de fonctions de rcompense locales telles que :
DEC-MDP/POMDP
251
R( s1 , , sn , a1 , , an , s1 , , sn ) =
i=1
Ri (si , ai , si )
La rsolution dun ED - DEC - MDP est un problme NP-complet. En effet, un ED a une complexit exponentielle en le nombre dtats et doublement exponentielle en nombre de dpendances. Les DEC - MDP tant localement totalement observables, une politique fait correspondre une action chaque tat (et non chaque observation). La taille dune telle politique est alors exponentielle en le nombre dtats. Le nombre dtats tant exponentiel en le nombre de dpendances, le nombre de politiques est doublement exponentiel en le nombre de dpendances.
DEC - MDP
NEXPC NEXPC
DECMDP
DECPOMDP
NPC
NEXPC
NEXPC
NEXPC
Observ. Indep. et Transition Indep.
Orient par un but
Observ. Indep. et Transition Indep.
Orient par un but
PC
Ouvert
Orient par un but
Orient par un but
Figure 8.4. Complexit des problmes des classes de DEC - MDP et DEC - POMDP
Les proprits que nous venons de dcrire permettent didentier des sous-classes de DEC - MDP de complexit moins importante. Ces rsultats sont rsums par la gure 8.4. La solution optimale ces problmes peut alors tre obtenue plus facilement. 8.5.3. Modlisation de DEC - MDP avec contraintes Bien que les DEC - MDP permettent la modlisation de problmes dcisionnels multiagents, leur utilisation pour la rsolution de problmes concrets, par exemple pour la planication de tches dans des colonies de robots autonomes, peut savrer difcile. En effet, les DEC - MDP ne permettent pas la prise en compte de certaines donnes du problme comme les contraintes sur lexcution des tches. De plus, la complexit de leur rsolution est telle quil est extrmement difcile de calculer une solution optimale ou une solution approche pour des problmes de plus dune dizaine de tches et
252
PDM en IA
dagents. An de pallier ces difcults, Beynier et al. [BEY 04] ont cherch amliorer la modlisation du temps et des actions dans les DEC - MDP avec le modle OC - DEC MDP . A partir de cette formalisation du problme, Beynier et al. [BEY 05, BEY 06] ont ensuite cherch dvelopper des algorithmes de rsolution approche efcaces qui puissent tre utiliss pour rsoudre des problmes de taille importante. 8.5.3.1. Problmes envisags Les problmes considrs dans ce travail sont constitus dun ensemble dagents devant raliser un ensemble de tches tout en respectant diffrents types de contraintes. Dnition 23 Mission Une mission est dnie par un couple Ag, T tel que : Ag = {Ag1 , , Agn } dnit lensemble des n agents Agi Ag . T = {t1 , , tp } est lensemble des tches devant tre excutes par les agents. A partir de ltude dapplications en robotique collective, Beynier et al. ont identi diffrentes contraintes devant tre respectes lors de lexcution dune mission. Les contraintes suivantes ont plus particulirement t recenses : des contraintes temporelles, des contraintes de prcdence, des contraintes de ressources, une communication limite voire impossible, des capacits de calcul restreintes. Les deux derniers types de contraintes rpertoris inuencent plus particulirement le processus dlibratif des agents. Ils imposent que les agents prennent des dcisions en limitant les calculs et les communications. Les trois premiers types de contraintes portent sur lexcution des tches. Pour chaque tche, ils dnissent des conditions au succs de son excution. Les contraintes temporelles dnissent, pour chaque tche, une fentre temporelle durant laquelle lexcution de la tche doit avoir lieu. Les contraintes de prcdence traduisent des contraintes dordre entre les tches. Elles permettent la formalisation de pr-conditions telles que la tche A doit tre termine pour que la tche B puisse commencer . Enn les contraintes de ressources posent les conditions sur les ressources ncessaires lexcution dune tche. Le problme de dcision auquel chaque agent doit alors faire face consiste dcider quelle tche excuter et quand, de faon maximiser lesprance de gain du systme. 8.5.3.2. Le modle OC - DEC - MDP Beynier et al. se sont penchs sur la mise en place dun modle bas sur les processus dcisionnels de Markov dcentraliss (DEC - MDP), qui permette la formalisation
DEC-MDP/POMDP
253
des contraintes et autorise une modlisation plus riche du temps et des actions. Lapproche labore, nomme OC - DEC - MDP (processus dcisionnel de Markov dcentraliss avec cot occasionn), permet de reprsenter les contraintes temporelles, de ressources et de prcdence entre les tches. An de limiter la taille du DEC - MDP obtenu et dtre en mesure de grer des problmes rels de taille importante, le problme de dcision multi-agent est dcompos en un ensemble de problmes plus simples. Le problme initial est ainsi reprsent par un ensemble de MDP locaux, o chaque MDP dnit le problme dcisionnel dun agent.
Dnition 24 Un OC - DEC - MDP pour n agents est constitu dun ensemble de n MDP locaux, un pour chaque agent. Le MDP local dun agent Agi est dni par un tuple Si , Ai , Ti , Ri tel que : Si est lensemble ni des tats de lagent Agi . Ai est lensemble ni des actions de lagent Agi . Ti dnit la fonction de transition de lagent Agi . Ri : Ti R dcrit la fonction de rcompense de lagent. Ri (ti ) est la rcompense obtenue par lagent lorsque la tche ti a t excute en respectant les contraintes.
Chaque composante des MDP locaux est dnie de manire tenir compte des diffrentes contraintes du problme. Ainsi, lespace dtats est compos de trois types dtats : les tats de succs dans lesquels un agent arrive lorsquil a excut une tche avec succs ; les tats dchec partiel correspondant des situations o les contraintes de prcdence entre les tches nont pas t respectes ; les tats dchec total correspondant des situations o les contraintes temporelles ou les contraintes de ressources ne sont pas respectes. De la mme faon, la fonction de transition rend compte de trois grands types de transitions : succs, chec partiel et chec total. Il a t dmontr que la complexit en temps dun OC - DEC - MDP est exponentielle en le nombre dtats. Les contraintes du problme inuencent la taille de lespace dtats et donc la taille et le nombre de politiques. En effet, elles restreignent le nombre dtats et dactions possibles pour chaque agent. Cependant, ces contraintes naffectent en rien la complexit au pire cas du problme, le nombre de politiques possibles demeure exponentiel en le nombre dtats. Les contraintes ne rduisent donc pas la classe de complexit du problme.
254
PDM en IA
8.6. La rsolution des DEC - POMDP Dans la suite de ce chapitre, nous allons nous intresser plus particulirement la rsolution des problmes formaliss sous forme de DEC - POMDP. Cette section prsente diffrents algorithmes permettant de rsoudre des DEC - POMDP gnraux ou se focalisant sur la rsolution de certaines classes de DEC - POMDP. Rsoudre un DEC - POMDP revient trouver un ensemble de politiques, une par agent, dont lexcution parallle et synchrone maximise le critre de performance choisi. La fonction de rcompense R du DEC - POMDP est propre au systme ; il ny a pas de rcompense individuelle pour chaque agent. Les DEC - POMDP formalisent donc des problmes de dcision pour des systmes multi-agents purement coopratifs. Les critres de performance sapparentent ceux du POMDP mono-agent. Nous allons nous concentrer ici sur le critre ni et le critre -pondr. Nous allons prsenter dans ce qui suit trois types dalgorithmes : des algorithmes optimaux pour les DEC - POMDP horizon ni, des algorithmes approximatifs pour les DEC - POMDP horizon ni, et des algorithmes approximatifs pour les DEC - POMDP horizon inni. 8.6.1. Algorithmes de rsolution optimaux Une politique pour un POMDP horizon ni peut toujours tre reprsente sous forme dun arbre de dcision [KAE 98] que lon notera q (cf. chapitre 3). Laction associe la racine de larbre est dnote (q ) et le sous-arbre associ une observation o est dnot q (o). (q, i) dnote la iime feuille de larbre q . Dans le cas du contrle dcentralis, une politique optimale pour le systme consiste en un ensemble T de politiques locales. Si lon note qi un arbre de profondeur T , le but de la planicaT T T tion pour DEC - POMDP est de calculer une politique jointe q T = q1 , q2 , . . . , qn de profondeur T maximisant lesprance
T
E
t=1
R(st , a1 , a2 , . . . , an t , st+1 )
(8.1)
La valeur dune politique jointe q T pour un tat initial s peut tre dtermine par programmation dynamique avec V (s, q T ) =
o
P (o|s, q T )
s S
P (s |s, q T , o)V (s , q T (o)) ,
(8.2)
o o = o1 , . . . , on dnote une observation jointe et q T (o) la sous-politique jointe horizon (T 1) des agents aprs observation de o. Nous prcisons quune recherche exhaustive dans lensemble des politiques possibles devrait considrer un nombre total de |A|
1||T 1||
(8.3)
DEC-MDP/POMDP
255
politiques. Deux approches de planication ont t proposes rcemment pour effectuer ce calcul de manire plus efcace. Nous allons les prsenter dans les sections suivantes. 8.6.1.1. Rsolution par programmation dynamique Lalgorithme de programmation dynamique prsent par Hansen et al. [HAN 04] a t le premier algorithme non-trivial permettant de rsoudre de manire gnrale les DEC - POMDP horizon ni. Il est bas sur la gnration exhaustive de politiques possibles, puis llagage itratif de politiques domines. Nous allons introduire maintenant lextension de la notion dtat estim (cf. chapitre 3) au cas multi-agent dcentralis, cest--dire linformation probabiliste dont dispose un agent Agi au moment t de lexcution. Elle peut tre vue comme la composition dune estimation de ltat sous-jacent st , mais aussi du comportement futur des autres agents. Si on note Qt i lensemble de politiques horizon t possibles pour t t t = Q , , Qt lagent Agi , et Qt 1 i i1 , Qi+1 , , Qn les ensembles des politiques possibles pour les agents Agj , j = i, alors ltat estim multi-agent est une distribution de probabilit sur S et sur Qt i . Dnition 25 (Etat estim multi-agent) On appelle tat estim multi-agent bi une distribution de probabilit sur la conguration possible du systme, savoir ltat rel sous-jacent et les politiques futures des autres agent participants : bi (S Qi ). A la diffrence de ltat estim dun POMDP, la dimension de ltat estim multi-agent dpend du nombre de politiques possibles pour chaque agent, et donc au pire cas de toutes les politiques envisageables. On peut noter que, pour le cas spcial dun DEC POMDP un seul agent, cette notion dtat estim se rduit la dnition rencontre dans le cas POMDP (3). Ltat estim multi-agent synthtise la vision partielle et subjective que possde un agent Agi sur le systme. Il permet de dnir une fonction de valeur Vi propre cet agent. Si on note qi une politique jointe pour tous les agents sauf lagent Agi , qi , qi est une politique jointe complte et la valeur de la politique qi pour ltat estim bi peut-tre exprime laide de la fonction de valeur du systme : Vi (bi , qi ) =
sS qi Qi
bi (s, qi )V (s, qi , qi ).
(8.4)
Il est important de prciser quune politique locale ne peut pas tre value seule dans un cadre multi-agent, quil soit coopratif ou non. La valeur dune politique dpend en effet toujours du comportement futur du systme entier, donc du choix des politiques de tous les agents participants. En ce sens, le contrle stochastique multiagent se formalise dans le cadre des jeux de Markov. Limportance de la prise en compte du comportement futur des autres agents est mis en vidence par la notion de rponse optimale.
256
PDM en IA
Dnition 26 (Politique de rponse optimale) On appelle Bi (bi ) la politique de rponse optimale de lagent Agi pour ltat estim multi-agent bi : Bi (bi ) = arg max Vi (bi , qi ).
qi Qi
Il sagit donc du meilleur comportement de lagent Agi pour complter le groupe, sous condition que tout agent Agj , j = i a dj pralablement choisi sa politique individuelle. Or, le choix de la politique de rponse optimale dun agent Agj ncessite que la politique de lagent Agi lui-mme soit dj dtermine. Dterminer la politique optimale jointe par n calculs de rponses optimales individuelles nest donc pas envisageable. Lapproche de programmation dynamique consiste faire linverse, cest--dire identier les politiques qui ne constituent jamais une rponse optimale. Pour cela, nous allons tendre au cas multi-agent le concept de politique utile, introduit dans le cas des POMDP (cf. chapitre 3). Une politique est utile pour lagent Agi si elle reprsente une rponse optimale pour au moins un tat estim. Une politique qui nest utile sous aucune conguration est appele politique domine. Dnition 27 (Politique domine) On appelle politique domine une politique qi Qi qui est sous-optimale sur lensemble de lespace des tats estims, ce qui veut dire i qui que, pour chaque tat estim bi possible, il existe au moins une autre politique q est au moins aussi performante : (bi )(q i Qi \{qi }) tel que Vi (bi , q i ) Vi (bi , qi ) Une politique qui nest pas entirement domine est appele politique utile. Au lieu de dterminer les politiques de rponse optimale pour chaque agent, lapproche de programmation dynamique de Hansen et al. vise identier et ensuite laguer toutes les politiques domines. Identier une politique domine revient rsoudre un programme linaire simple : maximiser sous contraintes Vi (bi , q i ) + Vi (bi , qi ) bi (s, qi ) = 1
sS qi Qi
(q i = qi )
bi (s, qi ) 0
(s S )(qi Qi ).
Si le rsultat est infrieur ou gal zro ( 0), alors la politique qi est entirement domine et peut tre supprime.
DEC-MDP/POMDP
257
Algorithme 8.1 : ProgDynPourDEC - POMDP Entres : Un DEC - POMDP S , A, T , , O, R et un horizon T pour tout agent Agi : faire Initialiser Q0 i pour t = 1 t = T faire pour tout agent Agi : faire t1 Qt ) i GnrationExhaustive(Qi tant que toutes les politiques entirement domines nont pas t lagues faire Trouver un agent Agi et une politique qi Qt i avec bi , q i Qt i ) Vi (bi , qi ) i \{qi } tel que Vi (bi , q
t Qt i Qi \ {qi }
Sorties : Un ensemble de politiques utiles pour chaque agent
Lalgorithme de programmation dynamique multi-agent consiste en une alternance de deux oprateurs : la gnration exhaustive des politiques possibles et llagage de politiques domines. Ce processus est rpt pour chaque horizon, en commenant par les politiques horizon 1. Lalgorithme 8.1 rsume cette approche par programmation dynamique. Le choix dune politique jointe optimale pour un tat initial s0 se fait alors par simple maximisation :
qs = 0
arg max
T q T QT 1 Qn
V (s0 , q T ).
(8.5)
Algorithme 8.2 : GnrationExhaustive Entres : Un ensemble de politiques Qt i horizon t k = |i | pour toute action ai Ai faire k pour p = 1 |Qt i | faire ok o1 En dnotant qi , . . . , qi p la p-ime slection de k politiques parmi t+1 t Qi , crer une nouvelle politique qi avec : pour j = 1 k faire o t+1 qi (oj ) := qi j
t+1 (qi ) := ai t+1 +1 Qi Qt i t+1 {q i }
+1 Sorties : Un ensemble de politiques Qt horizon (t + 1) i
258
PDM en IA
2 2 q = < q1 ,
q2 2 > b
o1
o2
o1
o2
...
...
3 3 q = < q1 3 , q2 >
o1 o1
o2 o1
o1 o2 o1
o2 o1
o2
o2
o2
2 agents, 2 observations (o1 et o2), 2 actions (a et b)
Figure 8.5. Une partie de larbre de recherche A* multi-agent. La gure montre une politique jointe horizon 2 avec un de ses ls dvelopp, une politique jointe horizon 3.
8.6.1.2. Rsolution par recherche heuristique Une autre approche de rsolution a t propose par Szer et al. [SZE 05]. Il sagit de lextension multi-agent de lalgorithme de recherche heuristique A*, appele MAA* (A* multi-agent). Tandis que lapproche par programmation dynamique procde de bas en haut, en laguant pour chaque horizon les politiques domines, lalgorithme MAA* fonctionne dans le sens inverse et se sert dune fonction heuristique pour exclure des politiques domines. La recherche se fait de manire incrmentale : les feuilles de larbre de recherche contiennent des solutions partielles au problme et, chaque itration, la meilleure solution apparente est choisie pour tre dveloppe dune tape supplmentaire. Une feuille de larbre contient une politique jointe horizon t < T . Dvelopper une politique jointe q t horizon t signie construire tous les ls de q t , cest--dire toutes les politiques jointes q t+1 horizon t + 1 qui concident avec q t pour les t premiers niveaux. Une partie dun tel arbre de recherche apparat sur la gure 8.5. La base de tout algorithme de recherche heuristique est ensuite la dcomposition de la fonction dvaluation en une partie exacte pour une solution partiellement construite, et une estimation heuristique pour la partie restante. Dans le cas prsent, il sagit dvaluer des politiques jointes q t pour un certain horizon t, et de trouver une heuristique H T t pour estimer le comportement potentiel du systme aprs lexcution de q t . Ce comportement futur est appel le complment dune politique jointe, et il est not T t . Il sagit dun ensemble de politiques de profondeur (T t) qui peuvent tre attachs
DEC-MDP/POMDP
259
aux feuilles de q t , tel que q t , T t constitue une politique jointe complte de profondeur T . La diffrence entre les deux valuations V (s0 , q t ) et V (s0 , q t , T t ) dtermine la valeur du complment T t : V (T t |s0 , q t ) := V (s0 , q t , T t ) V (s0 , q t ). (8.6)
Dune manire quivalente, la valeur de toute politique jointe peut tre dcompose en la valeur dune racine et la valeur du complment : V (s0 , q t , T t ) = V (s0 , q t ) + V (T t |s0 , q t ). (8.7)
Pour une politique jointe q t partiellement construite, une borne suprieure sur son ventuelle valeur horizon T peut tre value en utilisant le meilleur complment possible : T V (s0 , q t ) = V (s0 , q t ) + max V (T t |s0 , q t ). (8.8)
T t
Calculer cette valeur explicitement revient une recherche exhaustive dans lespace des politiques. La fonction heuristique H T t a pour but de surestimer efcacement la valeur du meilleur complment. Dnition 28 (Fonction heuristique multi-agent) La fonction dvaluation heuristique pour guider la recherche meilleur-dabord multi-agent doit garantir la proprit suivante : H T t (s0 , q t ) max V (T t |s0 , q t ). (8.9)
T t
Une heuristique vriant cette proprit est dite admissible. Pour toute heuristique admissible H , la fonction dvaluation de lalgorithme A* multi-agent peut nalement scrire : V (s0 , q t ) = V (s0 , q t ) + H T t (s0 , q t ) V
T T
(s0 , q t ).
(8.10)
La partie essentielle de lalgorithme de recherche savre la dnition dune telle fonction heuristique, cest--dire une borne suprieure la valeur dun DEC - POMDP partiel. Il a t constat par [LIT 95b] et puis par [HAU 00] que la fonction de valeur dun POMDP peut tre facilement surestime laide du MDP sous-jacent. La fonction de valeur dun POMDP est dnie pour lespace des tats estims (cf. chapitre 3). La valeur optimale dun tat de croyance dans un POMDP peut ainsi tre approxime par
Vpomdp (b) sS b(s)Vmdp (s).
(8.11)
Une proprit semblable peut tre tablie dans le cas dcentralis. Si P (s|s0 , q ) dnote la probabilit que ltat du systme soit s aprs lexcution de la politique jointe q en
260
PDM en IA
s0 , alors une deuxime heuristique h peut tre utilise pour surestimer la valeur du DEC - POMDP optimal : ht (s) V t (s). (8.12) Lheuristique h permet la dnition de toute une classe de fonctions heuristiques H comme suit : H T t (s0 , q t ) := P (s|s0 , q t )hT t (s). (8.13)
sS
Intuitivement, toute heuristique H est admissible, puisquelle simule le fait que le vrai tat du systme est rvl aux agents aprs lexcution de la politique jointe q t . Ceci constitue une information supplmentaire que les agents nont pas au moment de lexcution. Lavantage de la fonction H rside dans le fait quelle permet dapproximer une innit de distributions alors que h ne doit tre value que pour les |S| tats du systme. Lemme 1 Si h est admissible, toute fonction heuristique H est admissible. P REUVE. Pour prouver ce lemme, nous avons besoin de dtailler ce qui se passe effectivement aprs lexcution de la politique jointe q t : chaque agent Agi a excut son arbre de politique qi jusqu une feuille suite la squence dobservations T t t (i ) contient alors un arbre de proi = (o1 i , . . . , oi ). Le complment potentiel fondeur (T t) que lagent Agi doit excuter pendant les (T t) pas de temps restants. De la mme manire, le vecteur = 1 , . . . , n reprsente les squences dobservations individuelles pour tous les agents, et on peut noter T t ( ) lensemble des complments horizon (T t) pour lquipe dagents toute entire. Sa valeur dpend videmment de la distribution sous-jacente des tats, correspondant aux squences dobservations . On peut donc crire pour la valeur de tout complment de politique : V (T t |s0 , q t ) =
t
P ( |s0 , q t )V (T t ( )|s0 , q t )
=
t
P ( |s0 , q t )
sS
P (s| )V (s, T t ( ))
P ( |s0 , q t )
sS
P (s| )V T t (s)
=
sS t
P (s| )P ( |s0 , q t )V T t (s) P (s|s0 , q t )V T t (s)

sS
=
sS
P (s|s0 , q t )hT t (s) = H T t (s0 , q t ).
DEC-MDP/POMDP
261
Lintrt principal de lheuristique H rside dans la simplicit de son valuation. Dabord, la valeur de lheuristique ht (s) peut tre rutilise dans le calcul de H dans (8.13) pour chaque nud de larbre de recherche qui se trouve la mme profondeur n t. Ceci rduit le nombre dvaluations de |t | |S|. Ensuite, le calcul de h lui-mme peut apporter des bnces. Il existe plusieurs faons de dterminer une fonction h admissible, que nous allons lister dans les sections ci-aprs. 8.6.1.2.1. Lheuristique MDP Une premire approche consiste en lutilisation du MDP sous-jacent mono-agent et compltement observable. Cette mthode a dj t employe par [WAS 96] puis par [GEF 98] pour rsoudre des POMDP par recherche heuristique. Le MDP sous-jacent est caractris par une dobservation complte, cest--dire que le vritable tat du systme est dvoil chaque moment, ainsi que par le choix centralis dune action jointe a = a1 , . . . , an . Ceci implique que le contrle du MDP peut tre plus efcace que celui du DEC - POMDP et que sa fonction de valeur constitue par consquent une borne suprieure pour celle du DEC - POMDP correspondant :
T t hT t (s) := Vmdp (s).
(8.14)
Rsoudre un MDP peut se faire par des mthodes de recherche ou par programmation dynamique, avec une complexit polynomiale dans le pire cas (cf. chapitre 1). 8.6.1.2.2. Lheuristique POMDP Une heuristique plus proche de la vraie valeur du DEC - POMDP fait appel au POMDP centralis correspondant, cest--dire un processus sous-jacent qui simule un agent capable de connatre chaque moment les observations de tous les agents :
T t hT t (s) := Vpomdp (s).
(8.15)
Une telle heuristique reste admissible, puisquelle permet de considrer des observations et des actions jointes, donc de coordonner les agents de la meilleure faon, ce qui nest justement plus possible dans le cas de lexcution dcentralise. Rsoudre un POMDP est en gnral PSPACE-complet. Par consquent, lheuristique POMDP est plus complexe calculer que lheuristique MDP, mais le fait quelle soit plus proche de la vraie valeur du DEC - POMDP peut permettre lexclusion dun nombre plus important de nuds et ainsi aboutir une meilleure performance nale de lalgorithme de recherche. 8.6.1.2.3. Lheuristique DEC - POMDP Un cas particulier de fonction heuristique consiste utiliser la solution optimale au DEC - POMDP lui-mme, calcule par exemple de manire rcurrente par MAA* sur lhorizon restant :
T t T t hT t (s) := Vdec (s). pomdp (s) = M AA
(8.16)
Lintrt de cette heuristique, contre-intuitive premire vue puisquelle signie rsoudre un DEC - POMDP entier sur lhorizon restant, sexplique par le fait que h ne doit
262
PDM en IA
tre valu quun nombre limit de fois, mais que sa valeur peut tre rutilise dans les calculs de H dans (8.13). Lalgorithme de recherche heuristique pour les DEC - POMDP horizon ni est donn dans lalgorithme 8.3. Il est la synthse dune recherche dans lespace des politiques jointes et lutilisation dune des trois heuristiques (8.14), (8.15) et (8.16) pour le calcul de H . Lalgorithme est la fois complet et optimal, ce qui peut tre soulign par le thorme suivant : Thorme 1 (rfrence) MAA* est complet et optimal. P REUVE. Lalgorithme va terminer au pire cas aprs avoir numr tous les vecteurs de politiques possibles et avoir trouv le meilleur. Sil termine plus tt, la solution propose contient une politique jointe dont lvaluation est suprieure celle de toutes les feuilles restantes. Puisque lvaluation de feuilles utilise toujours une heuristique admissible et surestime par consquent la valeur de toute politique qui na pas encore t construite, on peut garantir loptimalit de la solution retourne. Algorithme 8.3 : MAA* Entres : Un DEC - POMDP S , A, T , , O, R , un tat initial s0 , un horizon T Initialiser la liste OPEN D = i Ai qtemp arg max F T (s0 , q )
q D
rpter Choisir q arg max F T (s0 , q )

q D
q Dvelopper(q ) si F T (s0 , qtemp ) < F T (s0 , q ) alors qtemp q Afcher q pour tous les q D faire si F T (s0 , q ) F T (s0 , q ) alors D D \ {q } DD q si q compltement dvelopp alors D D \ {q } jusqu q T D telle que q D : F T (s0 , q ) F T (s0 , q T ) = V (s0 , q T ) Sorties : Une politique jointe optimale
8.6.1.3. Rsolution optimale de classes spciques de DEC - POMDP A partir des travaux de Goldman et Zilberstein sur lidentication de classes de DEC - POMDP de complexit moins importante, Becker et al. ont propos un algorithme permettant de rsoudre certaines de ces classes de problmes. CSA (Coverage
DEC-MDP/POMDP
263
Algorithme 8.4 : Dvelopper Entres : Une politique jointe q t horizon t ki = |i |t Dnir une nouvelle politique jointe q t+1 := q t = q1 , q2 , . . . , qn Initialiser ltat de dveloppement de q t+1 zro si p est ltat de dveloppement de la politique jointe q t alors k1 k2 1 1 kn a1 1 , . . . , a1 , a2 , . . . , a2 , . . . , an , . . . , an p dnote la pime slection t+1 dactions pour les feuilles de q pour tous les i = 1 n faire pour tous les j = 0 ki faire (qi , j ) := aj i pp+1 Sorties : Une politique jointe q t+1 horizon (t + 1)
Set Algorithm) permet de rsoudre des DEC - MDP transitions et observations indpendantes [BEC 03, BEC 04b], mais galement des DEC - MDP dirigs par les vnements [BEC 04a]. Bien que CSA soit prsent dans le cadre de problmes deux agents, il est en mesure de traiter des problmes n agents (n 2). CSA se dcompose en trois tapes : la cration de MDP augments, la recherche dun ensemble optimal de couverture et la recherche dune solution. tant donns deux agents Agi et Agj , un MDP augment reprsente un problme de dcision dans lequel un agent Agi doit calculer sa politique optimale, sachant une politique xe de lagent Agj . La premire phase de lalgorithme consiste donc crer, pour chaque politique de Agj , un MDP augment. La deuxime tape ralise par CSA calcule la politique optimale de chacun de ces MDP augments. Elle permet ainsi dobtenir lensemble des politiques optimales de lagent Agi quelle que soit la politique de lagent Agj . Lensemble de ces politiques est appel ensemble de couverture optimal. Dnir cet ensemble permet de rduire lespace de recherche des politiques et damliorer les performances par rapport une recherche exhaustive. Enn, la troisime et dernire tape, ralise par CSA, cherche la politique optimale jointe dans lensemble de couverture optimal. Pour chaque politique de lagent Agi appartenant cet ensemble, la politique optimale pour Agj est recherche. La politique jointe rsultante est value et la meilleure paire trouve correspond la politique optimale jointe. La complexit de cet algorithme est exponentielle en le nombre dtats. Dans le cadre de la rsolution des DEC - MDP, la complexit est galement doublement exponentielle en nombre de dpendances. Dans le pire cas, CSA a la mme complexit que la recherche exhaustive.
264
PDM en IA
Bien que la complexit des sous-classes de problmes traites par CSA soit moins importante que celles des DEC - POMDP gnraux, il reste encore trs difcile de rsoudre des problmes de taille consquente. Dans le cas des DEC - MDP, CSA ne peut en pratique rsoudre que de petits problmes 2 agents et trs peu de dpendances. A partir du moment o le nombre dagents ou de dpendances augmente, le temps ncessaire pour trouver la solution devient beaucoup trop important et la solution ne peut tre obtenue. 8.6.2. Algorithmes de rsolution approche Les approches que nous venons de prsenter recherchent une solution optimale au problme de dcision dcentralise. tant donne la complexit des DEC - POMDP, plusieurs travaux se sont intresss la mise en place dalgorithmes permettant dobtenir une approximation de la politique optimale. Ainsi, la complexit des algorithmes de rsolution a pu tre rduite et une plus grande diversit de problmes ont pu tre envisags. 8.6.2.1. Limitation de la mmoire An de pallier les problmes dexplosion de mmoire dus au nombre exponentiel de politiques stocker, Bernstein et al. [BER 05] ont propos un algorithme pour la rsolution de DEC - POMDP ne consommant quune quantit xe de mmoire et pouvant traiter des problmes horizon ni ou inni. La politique de chaque agent est reprsente par un contrleur stochastique tats nis. Un contrleur dit de corrlation permet aux agents de coordonner leurs politiques. Lalgorithme fonctionne par amlioration itrative des contrleurs : chaque itration un contrleur est mis jour de faon augmenter lutilit jointe des agents. La convergence vers un optimum global nest pas garantie. Cependant, il est dmontr que la qualit de la solution augmente de faon monotone chaque itration. Lalgorithme atteint par consquent un optimum local. Les exprimentations montrent que plus le nombre de nuds de chaque contrleur augmente, plus la qualit de la solution augmente. En revanche, la quantit de mmoire ncessaire augmente elle aussi. Chaque itration tant ralise en un temps polynomial, des problmes plus grands que ceux traits par les algorithmes de rsolution optimale peuvent tre envisags. Laugmentation de la taille des problmes pouvant tre rsolus est ralise au dtriment de la qualit de la solution : de plus grands problmes peuvent tre traits mais la solution optimale nest pas trouve. La taille des problmes rsolus reste cependant limite un petit nombre dagents puisque chaque itration est exponentielle en fonction du nombre dagents. 8.6.2.2. Algorithmes de co-volution itratifs A complter par Iadine ? Diffrents algorithmes itratifs de co-volution ont t proposs an de permettre lobtention dune politique localement optimale. Le principe de ces algorithmes consiste amliorer la politique dun agent en xant les politiques de tous les autres agents.
DEC-MDP/POMDP
265
Pour un systme n agents, les politiques de n 1 agents tant xes, lalgorithme calcule la politique optimale de lagent restant. Ce principe est rpt itrativement jusqu ce quil ne soit plus possible damliorer aucune des politiques des agents. Nair et al. [NAI 03] ont dcrit un algorithme bas sur ce principe de co-volution : JESP (Joint Equilibrium Based Search for Policies). Ce dernier permet de rsoudre des problmes formaliss sous forme de MTDP et ayant des observations indpendantes. A chaque itration, la politique dun agent est modie an damliorer la politique jointe. Lalgorithme converge vers un optimum local correspondant un quilibre de Nash. Cet algorithme est en moyenne beaucoup plus rapide que la recherche exhaustive. Dans le pire cas, la complexit est toutefois quivalente celle de la recherche exhaustive. Nair et al. ont propos une amlioration de JESP utilisant les principes de la programmation dynamique : DP-JESP (Dynamic Programming Joint Equilibrium Based Search for Policies). DP-JESP est plus rapide que JESP en raison de lutilisation du principe doptimalit pour lvaluation des politiques. Il peut donc traiter des problmes plus grands que ceux rsolus par JESP. Malgr tout, la taille des problmes traits aussi bien par JESP que par DP-JESP reste limite. Sur le scnario deux agents du tigre et du trsor [NAI 03], JESP rsout le problme jusqu lhorizon 3 et DP-JESP atteint lhorizon 7. Ces problmes restent assez petits par rapport des problmes rels. La complexit de ces algorithmes tant exponentielle, on peut en dduire quils ne sont pas en mesure de traiter des problmes de grande taille. Lalgorithme LID-JESP (Locally Interacting Distributed Joint Equilibrium Based Search for Policies) [NAI 05] utilise lalgorithme JESP et les principes de loptimisation distribue de contraintes pour la rsolution de DEC - MDP observations et transitions indpendantes, dans lesquels les interactions entre les agents restent locales. LID-JESP exploite la localit des interactions entre les agents an damliorer les performances de JESP. Chaque agent possde un ensemble de voisins (des agents) avec lesquels il est en interaction. Par dnition, tout agent nappartenant pas au voisinage dun agent Agi nest pas inuenc par les actions de Agi . La politique de lagent Agi ninuence donc que ses voisins. LID-JESP tire parti de cette topologie des interactions an de calculer de manire distribue les politiques des diffrents voisinages. Les politiques des agents dun mme voisinage sont calcules par un algorithme de co-volution itratif identique JESP. LID-JESP permet ainsi un gain de temps dans la rsolution de problmes o chaque agent ninteragit quavec un nombre restreint dautres agents. Chads et al. [CHA 02, SCH 02a] ont galement dcrit un algorithme de co-volution itratif permettant de rsoudre des DEC - POMDP. Contrairement JESP, aucune contrainte nest impose concernant lindpendance des observations. Chads et al. ont tout dabord propos deux algorithmes de co-volution permettant de rsoudre les MMDP . Ces algorithmes aboutissent un optimum local quivalent un quilibre de Nash.
266
PDM en IA
Une adaptation de ces algorithmes aux DEC - POMDP a ensuite t propose. An de rendre compte de lobservabilit partielle de ltat du systme, chaque agent modlise le problme laide dun MDP-Subjectif. Un MDP-Subjectif est un MDP dans lequel les tats sont remplacs par les perceptions locales de lagent. Ce formalisme est quivalent un POMDP sans tats de croyance, ni historique, et dans lequel on travaillerait directement sur les observations locales des agents. A chaque itration de lalgorithme, un agent, choisi au hasard, reoit les politiques locales des autres agents. Ces dernires tant supposes xes, lagent peut alors construire son MDP-Subjectif et ensuite le rsoudre an de dterminer sa politique optimale. Un MDP-Subjectif ntant pas markovien, sa rsolution ne permet pas dobtenir une politique optimale. Dans le cas du contrle dcentralis, lalgorithme de covolution propos par Chads et al. ne garantit donc pas la convergence vers un quilibre de Nash. La qualit des politiques obtenues nest garantie que dans le cas du contrle centralis ou de lobservabilit totale (on peut alors formaliser le problme par un MMDP). 8.6.2.3. Apprentissage par descente de gradient Lalgorithme dapprentissage par descente de gradient propos dans [PES 00] sintresse galement la rsolution de problmes de dcision dcentralise dans des systmes multi-agents coopratifs. Peshkin et al. proposent un algorithme dapprentissage distribu permettant chaque agent dapprendre individuellement quelle politique excuter an de maximiser la rcompense globale du systme. Chaque politique est reprsente par un contrleur tats nis. A partir dun sousensemble de politiques jointes, les agents apprennent simultanment leur politique par descente de gradient. Cet apprentissage conduit alors une solution correspondant un optimum local. Contrairement lalgorithme JESP, cet optimum peut ne pas tre un quilibre de Nash. Par ailleurs, les politiques des agents tant reprsentes par un ensemble de contrleurs factoriss, certaines politiques jointes ne peuvent pas tre reprsentes et seules les politiques pouvant tre factorises sont envisages. La solution calcule est donc recherche dans un sous-ensemble des politiques jointes et correspond un optimum local dans ce sous-ensemble. 8.6.2.4. Jeux baysiens Emery-Montemerlo et al. [EME 04] ont propos un algorithme dcentralis pour la rsolution de DEC - POMDP. Cette approche consiste approcher un DEC - POMDP par une srie de jeux baysiens. La politique du DEC - POMDP est obtenue par concatnation de politiques plus petites rsultant de la rsolution des jeux baysiens. Lalgorithme propos alterne planication et excution. A chaque tape de planication, un jeu baysien est rsolu par chaque agent an dobtenir la politique pour cette tape. Cette politique est ensuite excute, puis un nouveau jeu baysien est rsolu et ainsi de suite.
DEC-MDP/POMDP
267
La rsolution dun jeu baysien ncessite le recours une heuristique an de dterminer la fonction dutilit. Les performances de cette approche dpendent donc du problme trait et de lheuristique utilise. Par ailleurs, lors de la rsolution dun jeu baysien, il est ncessaire que chaque agent considre toutes les valeurs possibles des variables quil ne peut observer (comme par exemple la position des autres agents), ce qui peut conduire une explosion du nombre des valeurs prendre en compte.
8.6.2.5. Approches heuristiques Les travaux utilisant des mthodes heuristiques pour le calcul dune solution approche se sont essentiellement intresss la rsolution de DEC - POMDP - COM. Goldman et Zilberstein [GOL 03] ont prsent une approche de choix glouton pour la rsolution du problme de la rencontre dagents. Deux agents se dplaant sur une grille doivent se rencontrer le plus tt possible. Chaque agent ne peut observer la position de lautre. Les dplacements tant incertains, communiquer permet aux agents dchanger des informations sur leurs positions respectives et ventuellement de rviser leur point de rencontre en cas de dviation. La communication permet ainsi de limiter le temps ncessaire aux agents pour se rencontrer. La communication ayant un cot, le problme consiste dterminer une politique de communication pour chaque agent, lui indiquant quand communiquer. Si la communication est prohibitive, la politique optimale consiste ne jamais communiquer. Si la communication est gratuite, la politique optimale est de communiquer tout le temps. Dans les autres cas, la politique optimale se situe entre ces deux extrmes. Goldman et Zilberstein ont propos une mthode permettant de calculer une approximation de la politique de communication optimale. Elle correspond un choix myope des agents qui ne peroivent pas leur possibilit de communication future : chaque tape, chaque agent dtermine sa politique de communication en supposant quil ne lui reste quune seule possibilit de communication. Cette mthode contraint les agents ne communiquer que sils en ont vraiment besoin. Elle permet dobtenir une approximation de la politique optimale et conduit de bons rsultats dans le problme considr. Xuan et al. [XUA 01] ont galement prsent diffrentes approches heuristiques pour la rsolution du problme de rencontre sous incertitude. Ils ont cependant pos lhypothse que les tats des agents taient localement totalement observables. Aussi bien dans ce travail que dans celui de Goldman et Zilberstein, les heuristiques proposes ne sont values que sur un problme prcis. Leurs performances sur dautres types de problmes ne sont pas prsentes. Ces travaux montrent que la politique de communication optimale se situe quelque part entre les deux politiques extrmes qui sont toujours communiquer et ne jamais communiquer . En fonction du problme considr, lune ou lautre des heuristiques va savrer la plus approprie.
268
PDM en IA
8.6.2.6. Rsolution approche de DEC - MDP avec contraintes A partir du formalisme OC - DEC - MDP dcrit prcdemment, Beynier et al. [BEY 05, BEY 06] ont cherch dvelopper des algorithmes de rsolution approche efcaces qui puissent tre utiliss pour rsoudre des problmes de taille importante. 8.6.2.6.1. Cot occasionn et coordination La dcomposition du problme, ralise lors de la modlisation sous forme dOC DEC - MDP , permet denvisager une rsolution locale de chaque MDP . Au lieu de rsoudre un DEC - MDP de taille consquente, le problme est alors considr comme consistant en la rsolution dun ensemble de MDP. A partir du MDP local dun agent Agi , une politique dactions de lagent peut ainsi tre dduite. Les contraintes temporelles et de prcdence entre les tches conduisent nanmoins des dpendances entre les agents et par consquent entre les MDP locaux. An que les agents adoptent un comportement coopratif et coordonn, il est donc ncessaire que les MDP ne soient pas rsolus de manire indpendante. Pour ce faire, Beynier et al. ont eu recours une notion provenant des sciences conomiques : le cot occasionn. La thorie du cot occasionn afrme que toute dcision a un cot cach et ignorer ce cot peut conduire des choix errons. En effet, le cot dune action ne se traduit pas seulement en fonction des biens dpenss pour lexcuter, mais galement en fonction des bnces qui ne pourront tre obtenus par la suite car cette action a t ralise. Cette perte de bnces constitue le cot occasionn. Pour leur part, Beynier et al. font appel la notion de cot occasionn an que chaque agent puisse prendre en compte limpact de ses dcisions sur les autres agents. Linuence dune action dun agent Agi sur un autre agent Agj est alors exprime par le cot occasionn. La meilleure action quun agent puisse excuter partir dun tat si rsulte ainsi dun compromis entre : lutilit espre de lagent V et le cot occasionn provoqu sur les autres agents. Ainsi, la politique de lagent Agi partir dun tat si est calcule par lquation suivante : i (si ) = arg max V OC (ai ) ,
ai Ai
(8.17)
o Ai dsigne lensemble des actions ai de lagent Agi , V dsigne lutilit espre et OC (ai ) dsigne le cot occasionn. Plus prcisment, le cot occasionn correspond une diffrence dutilit. Il mesure la perte en utilit espre provoque sur un autre agent lorsque ce dernier est dvi de sa politique optimale. Diffrentes mesures du cot occasionn ont t dcrites. En particulier, Beynier et al. ont introduit la mesure du cot occasionn espr permettant une valuation prcise de linuence dune dcision sur les autres agents. Par ailleurs, diffrentes approximations du cot occasionn espr ont t prsentes.
DEC-MDP/POMDP
269
8.6.2.6.2. Algorithme de rvision des politiques An de rsoudre les problmes formaliss sous forme de OC - DEC - MDP, Beynier et al. ont propos un algorithme de rsolution approche qui tient compte des diffrentes contraintes du problme. Lalgorithme ainsi dvelopp procde par amliorations successives dun ensemble de politiques initiales, en ordonnanant la rvision des politiques dexcution de chaque tche. A partir de cet ensemble de politiques initialement x, lalgorithme ralise la rvision simultane des politiques de tous les agents. La politique dexcution de chaque tche est alors considre et modie de sorte quelle corresponde au meilleur compromis entre lutilit espre de lagent excutant la tche et le cot occasionn provoqu sur les autres agents en utilisant lquation (8.17). Deux versions de cet algorithme de rvision des politiques ont t dcrites. La version centralise permet une unique entit de faire voluer les politiques de tous les agents. La version dcentralise permet, quant elle, lvolution simultane des politiques des agents. En effet, ces derniers rvisent simultanment leur propre politique en utilisant les valeurs de cot occasionn quils communiquent entre eux. Contrairement aux autres approches existantes, qui sont de complexit exponentielle, lalgorithme de rvision des politiques propos par Beynier et al. est de complexit polynomiale. En raison de cette faible complexit, des problmes de taille importante peuvent tre traits. Les rsultats exprimentaux ont ainsi montr que des missions composes de plusieurs centaines de tches et dagents peuvent tre rsolues. Cette augmentation signicative de la taille des problmes traits (par rapport aux approches existantes) est rendue possible grce lexploitation des caractristiques du problme et la recherche dune solution approche. Cette approche rejoint les ides exposes par Nair et al. [NAI 05] an de dvelopper une approche efcace pour la rsolution des ND-POMDP. En effet, ils suggrent dexploiter les caractristiques du problme, dans ce cas la localit des interactions, an de dvelopper un algorithme calculant une politique approche de la solution optimale. En ce qui concerne la qualit des solutions obtenues par lalgorithme de rvision des politiques, il a t prouv que certaines proprits des problmes (ressources illimites par exemple) garantissent lobtention dune solution optimale. Dans le cas gnral, une solution approche est dtermine. 8.6.2.6.3. Itration de la rvision des politiques An damliorer la qualit des politiques calcules par le prcdent algorithme de rvision des politiques, une version itrative de lalgorithme a t propose [BEY 06]. Elle consiste en lexcution rpte de lalgorithme de rvision des politiques et permet de rviser plusieurs fois la politique dexcution de chaque tche. A chaque itration, le nouvel ensemble des politiques calcul est utilis comme ensemble des politiques initiales de litration suivante. Ainsi, litration N , lensemble des politiques initiales considr correspond lensemble rsultant de la N 1me itration. Le processus de rvision des politiques est ainsi rpt jusqu ce quaucun changement ne soit plus possible, cest--dire que lensemble des politiques initiales et lensemble des politiques nales dune mme itration soient identiques.
270
PDM en IA
La complexit de cette version itrative dpend de la complexit de lalgorithme de rvision des politiques (polynomiale) et du nombre ditrations. Les garanties de convergence de lalgorithme itratif dpendent de la mthode destimation du cot occasionn utilise. Lorsquil est fait appel au cot occasionn espr, la convergence de lalgorithme est garantie. Les rsultats exprimentaux montrent quun tel point de convergence est, dans la majeure partie des cas, atteint en moins de quatre itrations. La version itrative de lalgorithme de rvision des politiques est donc galement en mesure de rsoudre des problmes de taille importante. Il a par ailleurs t mis en vidence que les proprits du problme garantissant lobtention dune politique optimale dans le cas de lalgorithme de rvision, garantissaient galement lobtention dune politique optimale lors de lexcution de lalgorithme itratif. Dans le cas gnral, il a t prouv que la politique jointe calcule correspond une situation dquilibre. En effet, lalgorithme itratif propos sarrte lorsque la politique dexcution de chaque tche ne peut plus tre amliore. Ainsi, tant donnes les politiques des autres agents, aucun agent nest en mesure de modier sa politique de sorte que les performances du systme augmentent.
8.7. Quelques exemples dapplication 8.7.1. Robotique mobile exploratoire An de dmontr leur applicabilit des problmes rels, les travaux dvelopps par Beynier et al. [BEY 05, BEY 06] ont t appliqus des problmes de dcision dcentralise en robotique collective. Pour ce faire, Beynier et al. se sont inspirs de scnarios de la robotique exploratoire visant rsoudre des problmes de planication similaires ceux rencontrs par les robots envoys sur Mars. Ils ont ainsi, entre autres, considr un ensemble de deux robots devant visiter un certain nombre de sites an dy raliser des photographies et/ou des analyses du sol. Lun des avantages li au dveloppement de colonies de robots autonomes est de permettre la spcialisation des facults de chacun. Le premier robot considr est ainsi spcialis dans la prise de photos alors que le second est quip dune foreuse lui permettant de prlever des chantillons du sol. Il dispose galement des appareils de mesure ncessaires an danalyser ces prlvements. Les robots doivent explorer un ensemble de huit sites pour lesquels il est ncessaire de prendre une photo, danalyser le sol ou bien de raliser ces deux tches. Les prlvements risquant nanmoins de modier la topologie des sites, il est ncessaire de les raliser aprs la prise de photos. De plus, lorsque le premier robot ralise les photographies, il est impratif quaucun autre robot ne soit prsent sur le site an de ne pas risquer de masquer une partie de limage. A partir dune zone de dpart donne, le robot 1 doit alors prendre des photos des sites A, B , D, E , F , H et J . Quant lui, le robot 2 doit raliser des analyses sur les sites C , D, F , H et I . Les sites considrs par un mme robot sont ordonns de sorte de minimiser les dplacements et par consquent les consommations de ressources. La gure 8.6 prsente le droulement
DEC-MDP/POMDP
271
de la mission. Chacun des robots devant visiter les sites D, F et H , des contraintes de prcdence doivent tre tablies entre les robots. Ainsi le robot 2 peut pntrer sur le site D si et seulement si le robot 1 la quitt. Il en va de mme pour les sites F et H .
Figure 8.6. Mission envisage
La mission considre a tout dabord t reprsente sous forme dun graphe orient acyclique. Pour chaque tche de la mission, les donnes la caractrisant ont t renseignes (agent, dures dexcution, consommations de ressources, etc.). A partir du graphe ainsi dni, la modlisation du problme sous forme dOC - DEC - MDP a t automatiquement gnre. Lalgorithme itratif de rvision des politiques a ensuite permis de calculer les politiques des agents. Une fois les politiques dtermines, leur application correspond au parcours dun automate tats nis, les capacits de calcul et la quantit de mmoire ncessaires chaque robot restent donc limites. Le processus dlibratif propos par cette approche fait ainsi preuve defcacit et de lgret. Ces politiques ont t implmentes sur des robots Koala qui ont ainsi t en mesure de mener bien la mission dexploration dcrite par la gure 8.6. La gure 8.7 prsente le droulement de la mission au niveau du site D (matrialis par une croix noire sur le sol). Le robot 2 (dans la partie suprieure de limage) arrive le premier proximit du site. Anticipant le comportement du robot 1 et par consquent le fait que celui-ci nait pas encore explor le site D, le robot 2 attend pour pntrer sur le site. Nous voyons alors le robot 1 entrer sur le site D, y raliser sa tche (image 2) et en repartir (images 3 et 4). Le robot 2 nobservant pas les actions entreprises par le robot 1, il ne peut constater la prsence de ce dernier sur le site que sil tente dy entrer. Le robot 2 essaie donc ensuite dentrer sur le site (image 5). Si les contraintes de prcdence sont respectes, il achve son dplacement (image 6). En cas dchec partiel, le robot 2 revient sa position prcdente et attend jusqu ce que sa politique lui dicte dessayer nouveau dentrer sur le site. Une conguration similaire est observable pour les croisements des sites F et H . Ces exprimentations ont permis de
272
PDM en IA
dmontrer les possibilits dexploitation, par des robots rels, des politiques calcules par cette approche. Elles ont galement montr que les politiques ainsi calcules permettaient aux robots de mener bien leur mission tout en respectant les contraintes sur lexcution des tches et sans ncessiter denvois de messages entre les robots. Des exprimentations en simulation [BEY 05, BEY 06] ont galement t menes sur des scnarios plus importants an de tester la taille des missions pouvant tre envisages. Elles ont dmontr que des problmes dexploration multi-robots composs dune dizaine dagents et de plusieurs centaines de tches pouvaient tre rsolus (des exprimentations ont t ralises jusqu 2 agents et 800 tches). 8.8. Conclusion et perspectives
Figure 8.7. Excution de la mission (croisement sur le site D)
Chapitre 9
Reprsentations factorises
9.1. Introduction Lensemble des solutions dcrites dans le cadre des MDP (chapitre 1), que ce soit pour la planication ou lapprentissage par renforcement, partagent toutes un inconvnient commun : elles ne sont pas adaptes la rsolution de problmes de grande taille. En effet, lutilisation de reprsentations non structures ncessite une numration explicite de lensemble des tats possibles du problme pour reprsenter les fonctions ncessaires sa rsolution. E XEMPLE. Dans le cas de la voiture quil faut entretenir (voir tome 1, section 1.1), on conoit rapidement que lensemble des tats possibles dune voiture peut devenir gigantesque. Par exemple, on peut tenir compte de ltat dusure de chacune des pices de la voiture. Lide sous-tendant ce chapitre est que la voiture est constitue dune collection de sous-systmes plus ou moins indpendants. Par exemple, faire une vidange ne devrait pas, en principe, inuencer ltat des freins de la voiture. Il semble alors possible de prendre en compte la relative indpendance de ces sous-systmes pour dcrire plus efcacement le modle du problme dans lespoir que la recherche dune solution sera plus simple. Peut-tre apprendrons-nous ainsi quil est toujours optimal de remplacer des freins uss, quel que soit ltat du reste de la voiture... Ce chapitre vise donc dcrire une extension des MDP prsente par [BOU 95, BOU 99a], appele processus dcisionnels de Markov factoriss (Factored Markov Decision Processes (FMDP)) et permettant de reprsenter les fonctions de transition et de rcompense dun problme de faon compacte (section 9.2). Une fois le problme reprsent de faon compacte, nous dcrirons plusieurs mthodes de planication permettant de trouver les solutions optimales ou optimales approches (section 9.3), tout
Chapitre rdig par Thomas D EGRIS et Olivier S IGAUD.
276
PDM en IA
en exploitant la structure du problme an dviter une numration explicite de lespace dtat. Nous conclurons section 9.4.
9.2. Le formalisme des FMDP 9.2.1. Reprsentation de lespace dtat Il est souvent naturel de dcrire un problme par un ensemble de paramtres pouvant prendre diffrentes valeurs dcrivant ltat courant du systme. Ainsi, lensemble des tats possibles peut tre caractris par un ensemble de variables alatoires. En pratique, lensemble des tats possibles S est dcrit par un ensemble de variables alatoires X = {X1 , . . . , Xn } o chaque variable Xi peut prendre diffrentes valeurs dans son domaine Dom(Xi ). Un tat est donc une instanciation de X dcrite sous la forme dun vecteur x = {x1 , . . . , xn } de valeurs xi avec i xi Dom(Xi ). De plus, on utilise comme raccourci dcriture Dom(X ) pour dcrire lensemble des instanciations possibles des variables Xi X . Lespace dtat S du MDP est donc S = Dom(X ). Lavantage dune telle reprsentation est quil est possible dexploiter diffrentes structures existantes dans un problme pour, dune part, le reprsenter de faon compacte, dautre part le rsoudre en limitant la complexit de la solution et de la mthode utilise pour lobtenir. tant donne une telle dcomposition, les principales contributions du cadre mathmatique des FMDP sont de dcomposer les fonctions de transition et de rcompense (respectivement de faon multiplicative et additive) an dexploiter les indpendances relatives aux fonctions lies la structure du problme. De plus, les FMDP offrent un cadre appropri lutilisation, de faon complmentaire mais pas obligatoire, de deux autres proprits lies la structure dun problme : les indpendances relatives aux contextes et lapproximation additive. Dans la suite, nous parlerons d indpendances fonctionnelles (respectivement contextuelles ) pour dsigner les indpendances relative aux fonctions (respectivement aux contextes). An dillustrer le cadre des FMDP, nous utiliserons lexemple du Coffee Robot propos par [BOU 00a] bien connu dans la littrature des FMDP. Une fois lexemple Coffee Robot dcrit (section 9.2.2), la section 9.2.3 dcrit les dcompositions des fonctions de transition et de rcompense ainsi que la formalisation des indpendances fonctionnelles. La section 9.2.4 propose une formalisation du concept dindpendance contextuelles. Enn, lapproximation additive sera tudie plus tard, dans le contexte de son utilisation lors de la section 9.3.3.5.
9.2.2. Lexemple Coffee Robot Un robot doit aller acheter un caf pour sa propritaire restant au bureau. Quand il pleut, comme le robot doit sortir pour aller chercher le caf, il doit se munir dun parapluie lorsquil est au bureau, sinon il sera mouill. Pour dcrire ltat du systme,
277
six variables alatoires binaires1 (Dom(Xi ) = {0, 1} correspondant respectivement Faux et Vrai) sont utilises : HOC : la propritaire a-t-elle un caf ? (Has Owner Coffee ?) HRC : le robot a-t-il un caf ? (Has Robot Coffee ?) W : le robot est-il mouill ? (Wet ?) R : est-ce quil pleut ? (Raining ?) U : le robot a-t-il un parapluie ? (Umbrella ?) O : le robot est-il au bureau ? (Ofce ?) Par exemple, le vecteur [HOC =0,HRC =1,W =0,R=1,U =0,O=1] reprsente un tat de ce problme dans lequel la propritaire na pas de caf, le robot a un caf, le robot nest pas mouill, il pleut, le robot na pas de parapluie et le robot est au bureau. Ce problme tant compos de 6 variables binaires, son espace dtats contient 26 = 64 tats possibles. Dans le problme Coffee Robot, le robot dispose de quatre actions possibles : G o : se dplacer vers le lieu oppos ; B uyC : acheter un caf, que le robot obtient sil est au caf ; (Buy Coffee) DelC : donner le caf sa propritaire, quelle peut obtenir si le robot est au bureau et quil a un caf ; (Deliver Coffee) G etU : prendre un parapluie, que le robot peut obtenir sil est au bureau. (Get Umbrella) Leffet de ces actions peut tre bruit an de reprsenter les cas stochastiques. Par exemple, lorsque le robot donne la tasse de caf sa propritaire, la propritaire obtiendra son caf avec une certaine probabilit. Laction peut mal se passer, par exemple, lorsque le robot renverse le caf. Ainsi, lorsque le robot excute laction DelC dans ltat s = [HOC =0,HRC =1,W =0,R=1,U =0,O=1] (le robot a un caf et est au bureau, la propritaire na pas de caf), la fonction de transition dnit : P ([HOC =1,HRC =1,W =0,R=1,U =0,O=1]|s, DelC) = 0.8, P ([HOC =0,HRC =1,W =0,R=1,U =0,O=1]|s, DelC) = 0.2,
1. Principalement pour des raisons de simplicit dexposition, la plupart des exemples dcrits dans ce chapitre utilisent des variables binaires. Cependant, rien ne limite lutilisation des mthodes exposes des problmes contenant des variables numres.
278
PDM en IA
0.0 pour les autres probabilits. Enn, le robot reoit une rcompense de 0.9 lorsque la propritaire a un caf (0 lorsquelle na pas de caf) ajoute 0.1 lorsquil est sec (et 0 lorsquil est mouill). La rcompense obtenue lorsque la propritaire a un caf est suprieure la rcompense obtenue par le robot lorsquil reste sec pour indiquer que le premier objectif est prioritaire sur le deuxime. Dans cet exemple, la fonction de rcompense ne dpend pas de laction ralise par le robot. 9.2.3. Dcomposition et indpendances relatives aux fonctions Les indpendances relatives aux fonctions expriment le fait que certaines dnitions du problme ne dpendent pas systmatiquement de toutes les autres variables du problme ou de laction ralise par lagent. Par exemple, dans le problme Coffee Robot, la valeur de la variable R au prochain pas de temps indiquant sil pleut ou non ne dpend que de sa propre valeur au pas de temps courant. En effet, le fait quil va pleuvoir au prochain pas de temps est indpendant des variables telles que le robot a-t-il un caf ? (variable HRC ) ou de laction excute par lagent. Le cadre des FMDP permet dexploiter cette proprit principalement dans la description des fonctions de transition et de rcompense du problme et dans lutilisation de ces fonctions par les algorithmes de planication. Cette notion est formalise par deux oprateurs, Parents et Scope, qui sont dnis respectivement dans le cadre de la reprsentation de la fonction de transition (section 9.2.3.1) et de la fonction de rcompense (section 9.2.3.4). 9.2.3.1. Dcomposition de la fonction de transition En supposant que lensemble des tats possibles se dcompose en un ensemble de variables alatoires (dcrit section 9.2.1), il est possible de dcomposer une probabilit P (s |s) en un produit de probabilits, puis dexploiter les indpendances entre ces variables alatoires an de rendre plus compacte la description de la fonction de transition. Par exemple, admettons quun espace dtat soit dcrit avec trois variables binaires X , Y et Z . Pour numrer lensemble des combinaisons possibles P (s |s), il est ncessaire de dcrire une table contenant 223 = 64 entres. En dcomposant la probabilit P (s |s) en un produit de probabilits, on obtient : P (s |s) = P (x , y , z |s) = P (x |s)P (y |s, x )P (z |s, x , y ) avec x reprsentant la valeur de la variable X au pas de temps t et, x la valeur de la variable X au pas de temps t + 1. De plus, si les relations de dpendance entre les variables sont connues, alors P (s |s) peut scrire de faon plus compacte. Par exemple, si chacune des variables X , Y et Z ne dpend que de sa valeur dans ltat
279
prcdent sauf la variable Y qui dpend aussi de X dans ltat prcdent, alors : P (s |s) = P (x |s)P (y |s, X )P (z |s, x , y ) = P (x |x)P (y |y, x)P (z |z ) En agrgeant les tats pour lesquels la fonction de transition est identique, seules 21 + 22 + 21 = 8 entres sont ncessaires et rparties en trois tables diffrentes, une pour chaque variable (correspondant respectivement la description des distributions de probabilit P (X |X ), P (Y |Y, X ) et P (Z |Z )). Ainsi, les indpendances fonctionnelles lies la structure du problme sont mises en vidence et permettent ainsi dagrger certaines rgularits dans la description de la fonction de transition. De plus, elles correspondent une reprsentation intuitive consistant dcrire leffet de chaque action sur la valeur de chacune des variables du problme. Cette reprsentation de la fonction de transition est formalise en utilisant le cadre des rseaux baysiens dynamiques [BOU 95]. 9.2.3.2. Les rseaux baysiens dynamiques Les rseaux baysiens [PEA 88] sont un formalisme permettant de reprsenter graphiquement des dpendances (ou indpendances) entre des variables. Les variables constituent les nuds dun graphe orient, les relations directes de dpendance probabiliste entre deux variables sont reprsentes par un arc entre les deux nuds reprsentant chacun des variables. Les rseaux baysiens dynamiques [DEA 89] (Dynamic Bayesian Networks (DBN)) sont des rseaux baysiens permettant de reprsenter les donnes temporelles engendres par des processus stochastiques. En faisant lhypothse que le problme observ est stationnaire (donc la fonction de transition T du MDP ne varie pas au cours du temps), il est possible de reprsenter T avec des DBN faisant seulement apparatre deux pas de temps successifs. Dans ce cas, les DBN sont composs de deux ensembles de nuds : 1) lensemble de nuds reprsentant lensemble des variables de lespace dtat linstant t ; 2) lensemble de nuds reprsentant lensemble des variables de lespace dtat linstant t + 1. Les arcs indiquent alors les dpendances directes entre les variables linstant t et les variables linstant t + 1 ou encore des dpendances entre les variables linstant t + 1 (ces arcs sont appels arcs synchrones). Dans ce cas particulier, un DBN est quelque fois appel 2 Time Bayesian Network. Pour une question de clart, nous ferons lhypothse que les arcs synchrones ne sont pas ncessaires pour dcrire le modle des transitions du problme. Il est alors possible de reprsenter graphiquement les dpendances de la fonction de transition en utilisant un DBN par variable et par action. Laction excute par lagent peut aussi tre considre comme une variable linstant t. Dans ce cas, un
280
PDM en IA
seul DBN par variable suft [BOU 96b]. Enn, pour tre complet, un DBN doit tre quanti, comme illustr dans la section suivante pour lexemple Coffee Robot. 9.2.3.3. Modle factoris de la fonction de transition La gure 9.1 montre la reprsentation de leffet de laction DelC sur lensemble des tats. Le DBN (gure 9.1(a)) permet de constater facilement que, pour laction DelC, la variable HOC ne dpend que des variables O, HRC et HOC au pas de temps prcdent et est indpendante des autres variables du problme. On dnit Parents (Xi ) lensemble des parents de la variable Xi dans ce DBN . Cet ensemble t+1 peut tre partitionn en deux sous-ensembles Parentst (Xi ) et Parents (Xi ) reprsentant respectivement lensemble des parents au temps t et lensemble des parents +1 au temps t + 1. Nous supposons labsence darc synchrone, donc Parentst (Xi ) = t et Parents (Xi ) = Parents (Xi ). Dans lexemple de la gure 9.1, nous avons ParentsDelC (HOC ) = {O, HRC , HOC}.
W U R O HOC HRC
W U R O HOC HRC
Temps t (a)
Temps t + 1
HOC HRC O HOC 1 1 1 1 .0 1 1 0 1 .0 1 0 1 1 .0 1 0 0 1 .0 0 1 1 0 .8 0 1 0 0 .0 0 0 1 0 .0 0 0 0 0 .0 (b)
Figure 9.1. Reprsentation (partielle) de la fonction de transition T pour le problme Coffee Robot. La gure (a) reprsente les dpendances entre les variables pour laction DelC sous la forme dun DBN. La gure (b) dnit la distribution de probabilit conditionnelle PDelC (HOC |O, HRC , HOC ) sous forme tabulaire.
An de quantier leffet dune action sur lespace dtats, on spcie la probabilit P (Xi |x) pour chaque instanciation possible x Dom(Parents (Xi )). Chaque rseau daction DBN est donc quanti par un ensemble de distributions de probabilits conditionnelles2. On note P (Xi |Parents (Xi )) une telle distribution pour une variable Xi . Une probabilit P (s |s) de la fonction de transition peut alors tre
2. Conditional Probability Distributions
281
dnie de faon compacte : P (s |s) =

i s avec xs i linstanciation de la variable Xi dans ltat s et x linstanciation des variables appartenant Parents (Xi ). s P (xs i |x )
(9.1)
La gure 9.1(b) reprsente sous forme tabulaire et pour laction DelC la distribution de probabilit conditionnelle PDelC (HOC |O, HRC , HOC ) dans le problme Coffee Robot. Les colonnes O, HRC et HOC reprsentent la valeur de ces variables linstant t, la colonne HOC reprsente la probabilit pour la variable HOC davoir la valeur Vrai au temps t + 1. La dcomposition multiplicative et lexploitation des indpendances fonctionnelles dans la description du modle des transitions et dans le calcul des probabilits qui en dcoulent sont les principales contributions des FMDP par rapport aux MDP. Ces deux proprits sont exploites par lensemble des algorithmes dcrits dans le cadre des FMDP . 9.2.3.4. Modle factoris de la fonction de rcompense Pour spcier compltement un MDP, il est ncessaire de dcrire la fonction R de rcompense. Une reprsentation similaire la description de la fonction de transition peut tre utilise pour le cadre des FMDP. En effet, la fonction de rcompense dun MDP peut, dune part, tre dcompose de faon additive et, dautre part, ne dpend pas ncessairement de toutes les variables dtat du problme. Par exemple, dans le problme Coffee Robot, la fonction de rcompense, reprsente par un losange dans la gure 9.2, ne dpend que des variables HOC et W et elle est indpendante des actions ralises par le robot ou bien des autres variables du problme.
HOC 1 1 0 0 W 0 1 0 1 (b) R 1 .0 0 .9 0 .1 0 .0
HOC R0 W R1
HOC R W
HOC R0 W R1 0 0 .0 + 0 0 .1 1 0 .9 1 0 .0 (c)
(a)
Figure 9.2. Reprsentation de la fonction de rcompense R(s)
La table de la gure 9.2(b) spcie que le meilleur tat pour le robot est lorsque sa propritaire a un caf et que le robot est sec tandis que le pire cas est lorsque sa propritaire na pas de caf et que le robot est mouill. On observe la prfrence donne au cas o lutilisateur possde un caf et le robot est mouill par rapport au cas o lutilisateur na pas de caf et le robot est sec.
282
PDM en IA
[BOU 00a] dnissent la fonction de rcompense du problme Coffee Robot en faisant la somme des deux critres du problme, la propritaire a un caf et le robot est mouill . Pourtant, ces deux critres sont indpendants. An de proter de la dcomposition additive de cette fonction de rcompense, [GUE 03b] proposent de formaliser la fonction de rcompense dun FMDP en une somme de plusieurs fonctions de rcompense localises 3. Pour le problme Coffee Robot, on peut dnir la fonction de rcompense comme la somme de deux fonctions de rcompenses localises : la premire associe la variable HOC et la deuxime associe la variable W et reprsentant respectivement les deux critres la propritaire a un caf et le robot est mouill . [GUE 03b] formalisent cette notion en dnissant tout dabord la notion de scope dune fonction f localise (note Scope(f )), que nous traduirons par porte . La porte dune fonction f localise est dnie tel que : Dnition 29 (scope) Soit une fonction f : {X1 , . . . , Xn } IR. Scope(f ) = C dnit la porte de f si et seulement si f ne dpend que des variables de C , les valeurs des autres variables tant indiffrentes. On assimilera alors f sa projection sur Dom(C ) : f : Dom(C ) IR avec C {X1 , . . . , Xn }. Soit une fonction f telle que Scope(f ) = C avec C X , on utilise la notation f (x) comme raccourci pour noter f (x[C ]) avec x[C ] reprsentant linstanciation des variables appartenant C dans linstanciation x. La porte dune fonction f permet ainsi de mettre en vidence les indpendances relatives f 4. Il est maintenant possible de dnir le concept de fonction de rcompense locaa a , . . . , Rr avec la porte de chaque lise. Soit un ensemble de fonctions localises R1 a a fonction Ri restreinte un sous-ensemble Ci {X1 , . . . , Xn }. La rcompense associe au fait dexcuter laction a dans un tat s est alors dnie telle que :
r
Ra (s)
=
i=1 r
a a Ri (s[Ci ])
(9.2)
=
i=1
a Ri (s).
(9.3)
Ainsi, pour reprendre lexemple de Coffee Robot, le problme est dni par deux fonctions de rcompenses R1 et R2 dnies dans la gure 9.2(c) et correspondant respectivement aux deux critres la propritaire a un caf et le robot est mouill . On a
3. localized reward functions 4. La notion de porte dune fonction est similaire la notion de parent utilise pour la dnition des distributions de probabilit conditionnelles de la fonction de transition.
283
Scope(R1 ) = {HOC} et Scope(R2 ) = {W}. On utilise R1 (s) comme raccourci pour reprsenter R1 (s[HOC ]), avec s[HOC ] reprsentant linstanciation de HOC dans s. Bien que lensemble des algorithmes dcrits dans le cadre des FMDP exploitent les indpendances relatives aux fonctions de rcompense du problme, tous nexploitent pas la dcomposition additive de la fonction de rcompense. De plus, tous les problmes ne prsentent pas une telle dcomposition. 9.2.4. Indpendances relatives aux contextes Les indpendances relatives aux contextes concernent le fait que, pour reprsenter une fonction du problme rsoudre (quelle que soit la fonction), il nest pas obligatoire de tester systmatiquement lensemble des variables ncessaires la reprsentation de cette fonction. Un contexte se dnit de la faon suivante : Dnition 30 (Contexte) Soit une fonction f : {X0 , . . . , Xn } Y . Un contexte c Dom(C ) est une instanciation dun sous-ensemble de variables C = {C0 , . . . , Cj } tel que C {X0 , ..., Xn }. Un contexte est not (C0 = c0 ) . . . (Cj = cj ) ou C0 = c0 . . . Cj = cj . Par exemple, la description de la politique optimale dans le problme Coffee Robot ncessite lutilisation de toutes les variables du problme. Cependant, dans le contexte HOC = 0 HRC = 1 O = 1, cest--dire lorsque la propritaire na pas de caf et que le robot a un caf et quil est au bureau, il est possible de dterminer laction optimale (laction DelC dans ce cas) sans avoir tester dautres variables telles que est-ce quil pleut ? ou le robot est-il mouill ? . Contrairement aux indpendances fonctionnelles, lexploitation des indpendances contextuelles est troitement lie aux structures de donnes employes pour reprsenter les fonctions du problme. En effet, les oprateurs, Parents et Scope, qui sappliquent aux indpendances fonctionnelles dnissent le nombre de variables dont une fonction dpend. Comme nous lavons constat dans la section 9.2.3 (par exemple dans la gure 9.1), la spcication des indpendances fonctionnelles permet de reprsenter ces fonctions de faon plus compacte, mme lorsque la structure de donnes utilise pour leur reprsentation nest pas structure, comme cest le cas pour les reprsentations tabulaires. Pour un ensemble de variables donn (spcies par les oprateurs Parents et Scope), les indpendances contextuelles sont exploites pour reprsenter des fonctions de faon plus compacte. Pour ces indpendances, la principale technique est dutiliser des reprsentations structures permettant daggrger des tats, contrairement une reprsentation tabulaire. Ainsi, chaque algorithme utilisant une structure de donnes diffrente, nous avons prfr illustrer ce concept dans la section suivante, cest--dire dans le cadre de lalgorithme qui lexploite et des structures de donnes utilises.
284
PDM en IA
9.3. Planication dans les FMDP La section suivante prsente un certain nombre de mthodes de planication dans les FMDP. Plutt que de dcrire les algorithmes en dtails, nous nous sommes attachs dcrire les diffrentes reprsentations utilises par ceux-ci, an que le lecteur puisse distinguer rapidement les principales diffrences et caractristiques de ces algorithmes. Cependant, nous donnerons lensemble des rfrences ncessaires pour que le lecteur puisse obtenir une description exhaustive de ces algorithmes sil le dsire. 9.3.1. Itrations structures sur les valeurs et sur les politiques Les deux algorithmes ditration structure sur les valeurs et sur les politiques, Structured Value Iteration (SVI) et Structured Policy Iteration (SPI) [BOU 00a] ont t les premiers algorithmes adaptant les algorithmes de programmation dynamique au formalisme des FMDP, illustrant ainsi les avantages (et les inconvnients) de ce formalisme. En plus des indpendances spciques aux fonctions utilises dans la dcomposition des fonctions de transition et de rcompense, les algorithmes SPI et SVI utilisent une reprsentation structure an dexploiter les indpendances contextuelles dans la reprsentation des diffrentes fonctions du problme. Par exemple, nous pouvons constater que, dans lexemple Coffee Robot, lorsque la propritaire a dj un caf, alors il nest pas ncessaire dvaluer si le robot a un caf ou sil est au bureau pour dterminer si la propritaire aura un caf au prochain pas de temps. Ainsi, la distribution de probabilit de la variable alatoire HOC dans le contexte HOC = 1, cest--dire la propritaire a un caf , est indpendante des variables HRC et O au pas de temps prcdent, cest--dire le robot a-t-il un caf ? et le robot est-il au bureau ? , bien que ces deux variables soient ncessaires pour dnir compltement la distribution de probabilit de HOC . Pour exploiter ce type de rgularits, [BOU 00a] suggrent plusieurs notations pour reprsenter les fonctions du FMDP rsoudre, telles que les rgles [POO 97], les listes de dcision [RIV 87] ou les diagrammes de dcision binaires [BRY 86]. SPI et SVI sont prsents en utilisant les arbres de dcision [QUI 93], principalement cause de leur simplicit. Nous verrons aussi deux autres mthodes de rsolution dans les FMDP utilisant dautres reprsentations (section 9.3.2 et 9.3.3). 9.3.1.1. Les arbres de dcision Les arbres de dcision reprsentent une fonction en partitionnant son espace dentre. Un arbre de dcision est compos de : nuds intrieurs (ou nuds de dcision) : ils reprsentent un test sur une variable de lespace dentre. Ils sont parents dautres nuds dans larbre et dnissent la structure de la partition de lespace dentre. branches : elles connectent un nud intrieur parent un nud enfant en restreignant le domaine des valeurs de la variable en fonction dun test install au nud intrieur parent.
285
feuilles : elles reprsentent les nuds terminaux de larbre et sont associes la valeur de la fonction dans la partition dnie par lensemble des tests des nuds intrieurs qui sont les parents de la feuille. Dans le cadre de SPI et SVI, les arbres de dcision sont utiliss pour reprsenter lensemble des fonctions du FMDP rsoudre. Une fonction F reprsente avec un arbre de dcision est note Tree [F ]. Graphiquement, les arbres sont reprsents en utilisant la convention suivante : pour un nud de dcision testant une variable X boolenne, les branches de gauche et de droite sont associes respectivement X = 1 et X = 0. Lorsque la variable nest pas boolenne, alors la valeur de X est indique sur chaque branche. 9.3.1.2. Reprsentation de la fonction de transition Dans le problme Coffee Robot, la description sous forme tabulaire de la distribution de probabilit PDelC (HOC |O, HRC , HOC ), rappele gure 9.3(a), fait apparatre plusieurs rgularits pouvant tre agrges. Par exemple, on peut remarquer que, comme dcrit ci-dessus, dans le contexte HOC = 1, la probabilit que HOC soit vrai est gale 1 quelle que soit la valeur des deux autres variables O et HRC appartenant lensemble ParentsDelC (HOC ). En effet, lorsque la propritaire a un caf, alors il est certain quelle aura un caf au prochain pas de temps. Les arbres de dcision permettent de reprsenter de faon compacte ce type de rgularits.
HOC HRC O HOC 1 1 1 1 .0 1 1 0 1 .0 1 0 1 1 .0 1 0 0 1 .0 0 1 1 0 .8 0 1 0 0 .0 0 0 1 0 .0 0 0 0 0 .0 (a) HOC 1 0 1 .0 HRC O 0 .8 0 .0 (b) 0 .0
Figure 9.3. Reprsentation sous la forme tabulaire de la distribution de probabilit conditionnelle PDelC (HOC |O, HRC , HOC ) (gure a) et sous la forme dun arbre de dcision (gure b). La feuille note 0.8 signie que la probabilit pour la variable HOC dtre vraie est : PDelC (HOC |O = 1, HRC = 1, HOC = 0) = 0.8. Ainsi, certaines rgularits sont agrges, comme par exemple les probabilits PDelC (HOC |HOC = 1) = 1.0.
Un arbre de dcision Tree [P (X |Parents (X ))] reprsentant la distribution de probabilit conditionnelle P (X |Parents (X )) est compos de : nuds intrieurs : reprsentent un test sur une variable Xj Parents (X ) ;
286
PDM en IA
branches : reprsentent une valeur xj Dom(Xj ) de la variable Xj teste au nud parent et dnissant le sous-espace reprsent par le nud enfant connect la branche. les feuilles : reprsentent la distribution de probabilit Pf (X |x[Xj ]), avec x[Xj ] lensemble des instanciations des variables Xj Parents (X ) testes dans les nuds parents de la feuille f dans larbre. Linterprtation dun tel arbre est directe : la distribution de probabilit dune variable X pour une instanciation x est donne par lunique feuille que lon atteint en choisissant chaque nud de dcision la branche correspondant une valeur de test cohrente avec x. Le chemin en question peut spcier une instanciation partielle de X. La gure 9.3(b) reprsente Tree PDelC (HOC |O, HRC , HOC ) : la distribution de probabilit conditionnelle PDelC (HOC |O, HRC , HOC ) sous la forme dun arbre de dcision. Les valeurs aux feuilles indiquent la probabilit que la variable HOC soit vraie. On peut alors remarquer quune reprsentation en arbre de dcision, pour la dnition de PDelC (HOC ), est plus compacte quune reprsentation tabulaire puisquelle exploite les indpendances contextuelles : 4 feuilles sont ncessaires la reprsentation de la fonction alors que 8 entres sont ncessaires pour dcrire la mme fonction sous forme tabulaire. Nous verrons que cette factorisation est utilise par les algorithmes de planication SPI et SVI. 9.3.1.3. Reprsentation de la fonction de rcompense La reprsentation dune fonction de rcompense avec des arbres de dcision est trs similaire la reprsentation dune distribution de probabilit. En effet, la signication des nuds intrieurs et des branches est la mme. Seule change ltiquette attache aux feuilles de larbre puisquelle reprsente des nombres rels plutt que des distributions de probabilit.
HOC HOC 1 1 0 0 W 0 1 0 1 (a) R 1 .0 0 .9 0 .1 0 .0 1 0 W 0 .9 1 .0 (b) W 0 .0 0 .1
Figure 9.4. Dnition de la fonction de rcompense R(s) avec une reprsentation tabulaire (gure a) et un arbre de dcision (gure b). La feuille note 0.9 signie R(HOC = 1, W = 1) = 0.9.
La gure 9.4 reprsente la fonction de rcompense pour le problme Coffee Robot et compare la reprsentation tabulaire R(s) avec larbre de dcision Tree [R(s)]. On
287
constate quaucune indpendance contextuelle nest utilisable puisque le nombre de feuilles dans larbre est gal au nombre de lignes ncessaires la dnition de la fonction avec une reprsentation tabulaire. Les algorithmes SPI et SVI ne permettent pas dexploiter la dcomposition additive dune fonction de rcompense telle quelle a t dnie dans la section 9.2.3.4. 9.3.1.4. Reprsentation dune politique Une politique (s) peut aussi tre reprsente sous la forme dun arbre de dcision Tree [ (s)]. La gure 9.5 reprsente une politique stationnaire dterministe Tree [ (s)] dans le problme Coffee Robot.
HOC 1 DelC O DelC Go Go U Go G etU 0 HRC O W BuyC R Go
Figure 9.5. Reprsentation dune politique (s) sous la forme dun arbre de dcision Tree [ (s)]. La feuille note BuyC signie (HOC = 0, HRC = 0, O = 0) = BuyC.
Lespace dtat du problme Coffee Robot est compos de 6 variables binaires. Une description tabulaire de aurait donc ncessit 26 = 64 entres. Larbre Tree [ ] ne contient que 8 feuilles (15 nuds au total). Sur le problme Coffee Robot, lutilisation darbres de dcision pour reprsenter une politique permet donc dexploiter des indpendances contextuelles telles que, lorsque la propritaire na pas de caf, que le robot est au bureau et quil a un caf, il nest pas ncessaire de connatre la valeur des variables telles que est-ce quil pleut ? pour dterminer la meilleure action raliser. Lors de lexcution dune politique dans un environnement, une telle reprsentation se rvle avantageuse lorsque dterminer la valeur dune variable a un cot (par exemple en terme de temps de calcul). En effet, elle permet de navoir dterminer que la valeur des variables strictement ncessaires lexcution de la politique de faon
288
PDM en IA
spcique ltat courant de lagent. Une telle proprit permet ainsi dconomiser lvaluation des variables inutiles. Enn, lutilisation dun arbre de dcision pour la description dune politique permet deffectuer un nombre rduit de tests pour dterminer laction raliser pour lagent. Dans le pire cas, pour un problme dcrit avec N variables, seuls N tests sont ncessaires pour dterminer laction retourne par la politique. Cependant, lespace mmoire requis pour une telle reprsentation reste, dans le pire cas, exponentielle en fonction du nombre de variables dcrivant lespace dtats du problme. 9.3.1.5. Reprsentation dune fonction de valeur Naturellement, la fonction de valeur V dune politique peut aussi se reprsenter sous la forme dun arbre de dcision Tree [V ]. La smantique dun tel arbre est quasiment identique celle dun arbre de dcision reprsentant une fonction de rcompense : un nud de dcision reprsente une variable, une branche reprsente la valeur de la variable teste au nud de dcision parent et les feuilles reprsentent la valeur de la fonction de valeur pour la partition dlimite par les tests de ses parents. La gure 9.6 reprsente la fonction de valeur de la politique Tree [ ] reprsente gure 9.5.
HOC 1 W 9 .0 W 7 .5 U 8 .4 8 .3 R 8 .5 6 .6 U 7 .5 6 .8 10.0 0 HRC O W R 7 .6 6 .1 O W 5 .3 U 5 .5 R 6 .3 6 .8 W 5 .9 U 6 .2 R 6 .9
Figure 9.6. Reprsentation de la fonction de valeur V (s) de la politique sous la forme dun arbre de dcision Tree [V (s)] pour le problme Coffee Robot. La feuille note 10.0 signie V (HOC = 1, W = 0) = 10.0.
Larbre Tree [V ] ne contient que 18 feuilles (35 nuds au total) alors quune reprsentation tabulaire aurait ncessit 64 entres. Sur le problme Coffee Robot, une reprsentation sous la forme dun arbre de dcision permet donc dexploiter les indpendances contextuelles. Par exemple, la valeur V (HOC = 1, W = 0) de la politique , lorsque la propritaire a un caf et que le robot est sec, ne dpend pas des autres
289
variables du problme. Une telle proprit peut tre considre comme lagrgation de plusieurs tats. Ainsi, lors du calcul itratif dune fonction de valeur, il nest ncessaire de calculer quune seule fois la mise jour de la valeur dune feuille pour mettre jour la valeur de tous les tats reprsents par cette feuille. Cependant, il est possible de constater sur la fonction de valeur Tree [V ] quune telle reprsentation ne permet pas dexploiter certaines rgularits prsentes dans la dnition de V . En effet, on peut remarquer, par exemple, que la structure des sousarbres composs des variables R, W , U et O est identique. Nous verrons quune approximation additive de la fonction de valeur (que nous prsenterons section 9.3.3.5, page 297) permet dexploiter une telle symtrie, contrairement une reprsentation telle que les arbres de dcision. Enn, dans le pire cas, cest--dire lorsque la fonction de valeur de la politique value est diffrente pour tous les tats possibles, la taille de la reprsentation augmente exponentiellement avec le nombre de variables composant lespace dtats du problme. 9.3.1.6. Algorithmes Le principe de base des algorithmes SPI et SVI est dadapter les algorithmes Policy Iteration et Value Iteration aux arbres de dcision. Ainsi, plutt que davoir calculer une mise jour de la valeur de chaque tat possible lors dune itration, comme cest le cas pour Policy Iteration et Value Iteration, SVI et SPI calculent cette mise jour pour chaque feuille dun arbre de dcision, permettant de rduire le cot des calculs lorsque plusieurs tats sont agrgs et reprsents par la mme feuille. [BOU 00a] propose une description exhaustive de ces deux algorithmes, que nous ne rappelons pas ici puisque nous nous concentrons sur les reprsentations. 9.3.2. Lalgorithme Stochastic Planning Using Decision Diagrams Dans certains problmes, la fonction de valeur possde des symtries qui ne sont pas exploites par les arbres de dcision, notamment lorsque la fonction est strictement identique dans plusieurs contextes disjoints. Lalgorithme prsent par [HOE 99], nomm SPUDD 5, propose dutiliser des diagrammes de dcision algbriques6 (ADD), dcrits par [BAH 93], pour reprsenter les fonctions dun FMDP. De faon semblable SPI , SPUDD exploite les indpendances relatives la fois aux fonctions et aux contextes. Lutilisation dADD plutt que darbres de dcision prsente deux avantages supplmentaires. Dune part, les ADD permettent de mieux factoriser certaines fonctions en exploitant le fait que certaines sous-parties dune partition de lespace sont semblables les unes aux autres, alors que les contextes les caractrisants sont disjoints.
5. Stochastic Planning Using Decision Diagrams (planication stochastique utilisant les diagrammes de dcision) 6. Algebraic Decision Diagrams
290
PDM en IA
Dautre part, les variables utilises dans un ADD sont ordonnes. Bien que trouver un ordre optimal des variables tester pour reprsenter une fonction de faon la plus compacte possible est un problme difcile, [HOE 00] montrent que plusieurs heuristiques peuvent tre utilises pour trouver un ordre permettant de reprsenter les fonctions de faon sufsamment compacte pour acclrer nettement les calculs. Un tel ordonnancement est utilis pour acclrer les calculs raliss sur les fonctions reprsentes. Ces deux avantages permettent damliorer les algorithmes de programmation dynamique aussi bien en termes despace mmoire consomm quen termes de temps de calcul. 9.3.2.1. Les diagrammes de dcision algbriques Les ADD sont une gnralisation des diagrammes de dcision binaires (BDD) ou Binary Decision Diagrams [BRY 86]. Les BDD sont une reprsentation compacte de fonctions B n B de n variables binaires vers une valeur binaire. Les ADD gnralisent les BDD pour reprsenter des fonctions relles B n IR de n variables binaires vers une valeur relle. Un ADD est compos de : nuds intrieurs (ou nuds de dcision) : ils reprsentent un test sur une variable binaire de lespace dentre. Ils sont le parent de deux branches correspondant respectivement au fait que la variable teste est gale Vrai ou Faux. branches : elles connectent un nud intrieur parent un nud enfant en fonction de la valeur Vrai ou Faux du test install au nud intrieur. feuilles : elles reprsentent les nuds terminaux du diagramme et sont associes la valeur de la fonction dans lun des sous-espaces dnis par lensemble des tests des nuds intrieurs parents de la feuille. Contrairement un arbre de dcision, les nuds intrieurs et les feuilles dun ADD peuvent avoir plusieurs parents. Une fonction F reprsente avec un ADD est note ADD [F ]. La convention suivante est utilise pour reprsenter un ADD graphiquement : pour un nud de dcision testant une variable X , les branches dessines en trait plein et pointill sont associes respectivement X = 1 et X = 0. Les ADD possdent plusieurs proprits intressantes. Dune part, pour un ordre de variables donn, chaque fonction distincte na quune seule reprsentation. Dautre part, la taille de la reprsentation de nombreuses fonctions peut tre rduite grce la rutilisation de sous-graphes identiques au sein de la description. Enn, il existe des algorithmes optimiss pour la plupart des oprations de base, notamment la multiplication, laddition ou bien la maximisation. La gure 9.7 montre lexemple dune mme fonction F reprsente par un arbre de dcision et par un ADD. Elle illustre le fait que les arbres de dcision, contrairement aux ADD, ne sont pas adapts pour la reprsentation de certaines fonctions, notamment les fonctions disjonctives. Ainsi, alors que la reprsentation Tree [F ] contient 5 feuilles diffrentes (et 4 nuds intrieurs), la reprsentation ADD [F ] nen contient que 2 (plus
291
V0 1 0 V1 0 .0 0 .0 V2 1 .0 (a) V2 0 .0 1 .0 0 .0 V1
V0 1 0 V2 1 .0 (b)
Figure 9.7. Comparaison des reprsentations dune fonction F sous la forme dun arbre de dcision Tree [F ] (gure a) et dun diagramme de dcision algbrique ADD [F ] (gure b).
3 nuds intrieurs). La mise jour de cette fonction dans le cas de SPI ncessitera donc 5 calculs de mise jour diffrents alors que SPUDD ne ralisera que 2 calculs. Cependant, lutilisation des ADD impose principalement deux contraintes sur le rsoudre. Premirement, il est ncessaire que les variables du FMDP soient toutes binaires, les ADD ne reprsentant que des fonctions B n IR. Pour les problmes contenant des variables plus de deux valeurs, il est toujours possible de dcomposer ces variables avec de nouvelles variables (binaires). Deuximement, les algorithmes bass sur les ADD supposent que, au sein de la structure de donnes, les tests sur les variables sont ordonns. Lorsque ces deux contraintes sont satisfaites, il est possible de reprsenter lensemble des fonctions du FMDP rsoudre en utilisant des ADD.
FMDP
De la mme faon que pour SPI et SVI, la plupart des oprateurs sur les fonctions sont rednis et optimiss pour manipuler des ADD. Lalgorithme SPUDD reprend le principe de lalgorithme Value Iteration pour ladapter aux ADD en supposant que toutes les variables du FMDP rsoudre sont binaires et que les variables sont pralablement ordonnes. Les travaux sur SPUDD ont t prolongs avec APRICODD [STA 00] qui est une implmentation de SPUDD avec plusieurs amliorations. Premirement, plusieurs tapes du calcul de lquation de Bellman sont optimises an de permettre lutilisateur de pouvoir paramtrer un compromis entre temps de calcul et espace mmoire ncessaire. De plus, il est possible de calculer des fonctions de valeur approches en spciant soit une taille maximale de lADD reprsentant la fonction de valeur, soit une erreur maximale de la reprsentation [HOE 00]. Enn, APRICODD propose plusieurs mthodes de rorganisation automatique des variables an dviter lutilisateur davoir les
292
PDM en IA
spcier manuellement. La dernire version dAPRICODD est disponible sur Internet7. Les rsultats prsents dans [HOE 99, STA 00] suggrent quune telle approche est plus efcace que celle utilise par les algorithmes SPI ou SVI. 9.3.3. Programmation linaire approche dans un FMDP Une alternative la programmation dynamique pour rsoudre un MDP est lutilisation de la programmation linaire (section 1.6.2.1). Lutilisation de cette technique pour la rsolution dun FMDP est laboutissement de nombreux travaux commencs par [KOL 99, KOL 00] puis mens principalement par Guestrin [GUE 01a, GUE 03a, GUE 03b]. La fonction de valeur optimale dun MDP peut tre calcule en formulant celui-ci sous la forme dun programme linaire [MAN 60] : Pour les variables: V (s), s S ; Minimiser: s (s)V (s) ; Avec les contraintes : V (s) R(s, a) + s S, a A.
P (s |s, a)V (s )
(LP 1)
o (s) > 0 est la pondration dintrt de ltat s. La rsolution de ce programme linaire se heurte un problme de complexit la fois dans la fonction optimiser, les variables dterminer et le nombre de contraintes, ce qui impose davoir recours une mthode approche pour traiter des problmes de grande taille. Ces problmes sont rsolus en exploitant deux ides principales reposant principalement sur les indpendances fonctionnelles et la dcomposition additive de la fonction de rcompense. La premire ide exploite une reprsentation approche de la fonction de valeur, plus prcisment une combinaison linaire de fonctions de base [SCH 85], pour, dune part, diminuer la complexit de la dnition de la fonction optimiser et du nombre de variables dterminer et pour, dautre part, acclrer le calcul de la gnration des contraintes. La deuxime ide propose dutiliser un algorithme de dcomposition des contraintes an de pouvoir reprsenter lensemble des contraintes du programme linaire de faon compacte. Ces deux ides sont exploites par deux algorithmes diffrents proposs par [GUE 03b]. Le premier algorithme est une reformulation de lalgorithme Policy Iteration utilisant la programmation linaire pour la phase dvaluation de la politique. Le deuxime algorithme part directement du programme linaire LP 1 et propose la construction directe dun programme linaire an dvaluer la fonction de valeur optimale du FMDP rsoudre. La section suivante prsente les reprsentations utilises par ces deux algorithmes.
7. http://www.cs.toronto.edu/~jhoey/spudd
293
9.3.3.1. Reprsentations Principalement deux reprsentations sont utilises dans lutilisation de la programmation linaire telle quelle est propose par Guestrin. La premire reprsentation est une reprsentation tabulaire classique et permet dexploiter uniquement les proprits dindpendance fonctionnelle et de dcomposition additive du problme. La deuxime reprsentation est une reprsentation structure base sur des rgles [ZHA 99] permettant en plus dutiliser les indpendances contextuelles au sein dune fonction. Bien que [GUE 03b] montrent que, pour certains problmes, une reprsentation tabulaire est plus rapide quune reprsentation structure, nous pensons que les reprsentations structures sont mieux adaptes pour reprsenter des problmes rels, justement parce quelles exploitent les indpendances contextuelles. De plus, le pire des cas des reprsentations structures est souvent moins mauvais que le pire des cas des reprsentations tabulaires en terme de temps de calcul [STA 00, GUE 03a]. Deux avantages sont avancs par [GUE 03b] pour justier lutilisation des rgles plutt quune autre reprsentation telle que les arbres de dcision ou les ADD. Premirement, cette reprsentation est bien adapte leur technique de dcomposition des contraintes du programme linaire. Deuximement, contrairement aux arbres de dcision ou aux ADD, les rgles utilises pour dcrire une fonction peuvent ne pas tre exclusives. Deux types de rgles sont distingues : les rgles de probabilit (probability rules) et les rgles de valeur (value rules). Les rgles de probabilit sont utilises pour reprsenter la fonction de transition alors que les rgles de valeur sont utilises pour dnir les fonctions de rcompense ainsi que les fonctions de valeur. Ces deux types de rgles et leurs utilisations dans le cadre de la programmation linaire approche dans un FMDP sont dcrits dans la suite de cette section, daprs [GUE 03b]. Une fonction F (x) reprsente avec un ensemble de rgles est note Rule [F ]. 9.3.3.2. Reprsentation de la fonction de transition Le premier type de rgles est utilis pour reprsenter la fonction de transition, plus prcisment les distributions de probabilit conditionnelles quantiant les DBN. Une rgle correspond un ou plusieurs contextes dans la distribution ayant la mme probabilit. Nous commenons par dnir la cohrence entre deux contextes : Dnition 31 (Cohrence entre deux contextes) Soit C {X, X }, c Dom(C ), B {X, X } et b Dom(B ). On dit que les deux contextes b et c sont cohrents sils ont tous les deux les mmes valeurs pour toutes les variables appartenant lintersection C B . Ainsi, des contextes possdant des variables avec des valeurs identiques sont dnis comme tant cohrents. Les probabilits ayant la mme valeur et des contextes cohrents sont reprsentes avec des rgles de probabilit : Dnition 32 (Rgle de probabilit) Une rgle de probabilit = |c : p| est une fonction : {X, X } [0, 1] avec le contexte c Dom(C ), C {X, X } et
294
PDM en IA
p [0, 1] et tel que (s, x ) = p si les instanciations s et x sont cohrentes avec c, ou sinon est gal 1. Deux rgles sont dites cohrentes si leurs contextes respectifs sont cohrents. On dnit maintenant un ensemble de rgles de probabilit pour dnir compltement une distribution de probabilit conditionnelle : Dnition 33 (Ensemble de rgles de probabilit) Un ensemble de rgles Pa dune distribution de probabilit conditionnelle est une fonction Pa : ({Xi } X ) [0, 1] compose des rgles de probabilit {1 , . . . , m } dont les contextes sont mutuellement exclusifs et exhaustifs. On dnit : Pa (xi |x) = j (x, xi ) avec j lunique rgle appartenant Pa dont le contexte cj est cohrent avec (xi , x). De plus, on a ncessairement : s S : x Pa (xi |s) = 1.
i
Il est possible de dnir Parentsa (Xi ) comme lunion des variables appartenant aux contextes des rgles appartenant Pa (Xi ). A linstar des arbres de dcision, les ensembles de rgles de probabilit permettent dexploiter les indpendances contextuelles. De plus, les arbres de dcision forment une partition complte dun espace. Il est donc facile de dnir un ensemble de rgles mutuellement exclusives et exhaustives partir dun arbre de dcision, comme le montre la gure 9.8 pour dnir PDelC (HOC ).
HOC 1 0 1 .0 HRC O 0 .8 0 .0 (a) 0 .0 HOC HOC HOC HOC HOC = 1 HOC = 1 = 0 O = 0 HOC = 0 O = 1 HRC = 0 O = 1 HRC = 0 O = 1 HRC (b) : =0 : = 1 HOC = 0 : = 1 HOC = 1 : = 0 HOC = 0 : 1.0 1.0 0.2 0.8 1.0
Figure 9.8. Reprsentation de la distribution de probabilit conditionnelle PDelC (HOC ) sous la forme dun arbre de dcision et dun ensemble de rgles. La rgle |HOC = 0 O = 1 HRC = 1 HOC = 1 : 0.8| dnit PDelC (HOC = 1|HOC = 0, O = 1, HRC = 1) = 0.8.
La probabilit PDelC (HOC = 1|HOC = 0, O = 1, HRC = 1) = 0.8 est reprsente par la rgle correspondante |HOC = 0 O = 1 HRC = 1 HOC = 1 : 0.8|. On peut remarquer que, pour les tests concernant les variables X au temps t, le contexte de cette rgle correspond aux tests raliss dans larbre de dcision pour atteindre la feuille 0.8. De plus, la variable Xi au temps t + 1 appartiennent aussi au contexte de la rgle. Une distribution de probabilit conditionnelle F (x) reprsente avec un ensemble de rgles de probabilit est note Rulep [F ].
295
9.3.3.3. Reprsentation de la fonction de rcompense Pour reprsenter la fonction de rcompense dun FMDP, on dnit les rgles de valeur : Dnition 34 (Rgle de valeur) Une rgle de valeur = |c : v | est une fonction : X IR telle que (x) = v lorsque x est cohrent avec le contexte c et 0 sinon. On note que la porte dune rgle de valeur est Scope() = C avec C lensemble des variables instancies dans le contexte c de la rgle = |c : v |. Il est maintenant possible de dnir une fonction comme un ensemble de rgles de valeur : Dnition 35 (Ensemble de rgles de valeur) Un ensemble de rgles de valeur reprsentant une fonction f : X IR est compos de lensemble des rgles de valeur n {1 , . . . , n } telles que f (x) = i=1 i (x) avec i : Scope(i ) X . Une fonction F reprsente avec un ensemble de rgles de valeur est note Rulev [F ]. De plus, on suppose quune rcompense R(s, a) peut scrire sous la forme dune somme de fonctions de rcompense dont la porte est limite : R(s, a) =
j a rj (s).
(9.4)
Cette reprsentation permet de reprsenter de faon naturelle des fonctions en exploitant la fois des indpendances contextuelles et une dcomposition additive, comme le montre la gure 9.9. Reprsentation tabulaire : HOC R0 W R1 R(s) = 0 0.0 + 0 0.1 1 0.9 1 0.0 Arbres de dcision : HOC R(s) = 0.9 1 0 0.0 + 0.0
W 1 0 0.1
Ensembles de rgles de valeur : HOC = 1 : 0.9 R(s) = W = HOC = 1 : 0.9 + W = 0 : 0.1 =0 : 0.1
Figure 9.9. Reprsentation de la fonction de rcompense R dcompose en une somme de fonction de rcompense dont la porte est restreinte une seule variable du problme.
Comme nous lavons dcrit dans la section 9.2.3.4, la fonction de rcompense du problme Coffee Robot peut tre dcompose en une somme de deux fonctions dont
296
PDM en IA
la porte nest restreinte qu une seule variable du problme. Plusieurs reprsentations peuvent tre utilises pour reprsenter les fonctions composant la fonction de rcompense, notamment une forme tabulaire, darbres de dcision ou dun ensemble de rgles de valeur. La gure 9.9 montre que deux congurations sont possibles, soit en regroupant les rgles au sein dun mme ensemble pour ne dnir quune seule fonction, soit en sparant les rgles dans deux ensembles diffrents pour dnir deux fonctions diffrentes. Enn, on remarque que, mme sur cet exemple simple, les rgles de valeur permettent dexploiter les indpendances contextuelles pour dcrire la fonction de rcompense du problme Coffee Robot, contrairement aux arbres de dcision. En effet, les arbres de dcision requirent la reprsentation des feuilles contenant la valeur 0, ce qui nest pas le cas des rgles. 9.3.3.4. Reprsentation dune politique Pour reprsenter une politique de faon compacte, [GUE 03b] reprennent une technique prsente par [KOL 00]. Plutt que dutiliser un arbre de dcision Tree [ ] ou un ADD ADD [ ] pour reprsenter une dnition structure de , une action par dfaut est choisie a priori dans le FMDP et la politique est reprsente comme une liste de dcision ordonne. Chaque lment de la liste est compos de trois informations diffrentes : un contexte indiquant si la dcision peut tre prise tant donn un tat s, laction excuter si la dcision est prise et enn le bonus indiquant la rcompense espre supplmentaire pour cette dcision compare la rcompense espre de laction par dfaut. Le dernier lment de la liste est toujours laction par dfaut, associe un contexte vide (pour que ce dernier lment reprsente la dcision par dfaut prendre si aucun autre nest cohrent avec ltat) et un bonus de 0. Une politique reprsente sous la forme dune liste de dcision est note List [ ]. La gure 9.10 montre lexemple dune politique dans le problme Coffee Robot dont laction par dfaut est G o.
0 1 2 3 4 5 6 7 8 9 10 11
Contexte HOC = 0 HRC = 1 W = 0 R = 1 U = 0 O HOC = 0 HRC = 0 W = 0 R = 1 U = 0 O HOC = 0 HRC = 1 W = 0 R = 1 U = 1 O HOC = 0 HRC = 1 W = 1 O = 1 HOC = 0 HRC = 1 W = 0 R = 0 O = 1 HOC = 0 HRC = 0 W = 0 R = 1 U = 1 O HOC = 0 HRC = 0 W = 1 O = 0 HOC = 0 HRC = 0 W = 0 R = 0 O = 0 HOC = 1 W = 0 R = 1 U = 0 HOC = 0 HRC = 0 W = 0 R = 1 U = 0 O HOC = 1 W = 0 R = 1 U = 1
Action Bonus = 1 DelC 2.28 = 0 BuyC 1.87 = 1 DelC 1.60 DelC 1.45 DelC 1.44 = 0 BuyC 1.27 BuyC 1.18 BuyC 1.18 DelC 0.84 = 1 G etU 0.18 DelC 0.09 Go 0.00
Figure 9.10. Reprsentation dune politique (s) sous la forme dune liste de dcision List [ ] (avec G o laction par dfaut).
297
On peut remarquer que la politique reprsente gure 9.10 nest pas simplie. En effet, par exemple, la rgle 3 peut tre agrge avec la rgle 1 puisque ces deux rgles ont le mme contexte (la rgle 3 ne sera jamais utilise puisque la rgle 1 sera ncessairement utilise avant). De plus, contrairement aux arbres de dcision ou aux ADD , le nombre de tests raliss pour dterminer laction excuter peut tre suprieur au nombre de variables dcrivant le problme. Enn, pour certains problmes de grande taille, quelle que soit la mthode de planication utilise, une reprsentation explicite de la politique optimale, mme factorise, est impossible puisquil est ncessaire pour chaque tat dvaluer toutes les variables du problme an de dterminer la meilleure action raliser par lagent. Cest la raison pour laquelle [GUE 03b] propose des algorithmes ne ncessitant pas une reprsentation explicite de la politique du problme. 9.3.3.5. Reprsentation de la fonction de valeur Nous avons vu quun MDP pouvait scrire sous la forme dun programme linaire de la faon suivante (section 1.6.2.1, LP 1, page 292) : Pour les variables: V (s), s S ; Minimiser: s (s)V (s) ; Avec les contraintes : V (s) R(s, a) + s S, a A.
P (s |s, a)V (s )
(LP 2)
Cependant, une telle reprsentation pose un problme de complexit, aussi bien en le nombre de variables dterminer, quen le nombre de termes de la somme de la fonction objectif, ou en le nombre de contraintes. Une solution pour viter lexplosion combinatoire concernant le nombre de variables dterminer et le nombre de termes dans la fonction minimiser est lapproximation de la fonction de valeur par une combinaison linaire propose par [BEL 63] H IRn (voir le chapitre 11). Lespace des fonctions de valeur approches V est dni via un ensemble de fonctions de base, ou basis functions, dont la porte est limite un petit nombre de variables : sur Dnition 36 (Fonction de valeur linaire) Une fonction de valeur linaire V (s) = un ensemble de fonctions de base H = {h0 , . . . , hk } est une fonction telle que V k k j =1 wj hj (s) avec w IR . Cette approximation peut tre utilise pour rednir le programme linaire simplement en remplaant la fonction de valeur dterminer par son approximation [SCH 85] : Pour les variables: w1 , . . . , wk ; k Minimiser: s (s) i=1 wi hi (s) ; k Avec les contraintes : i=1 wi hi (s) R(s, a)+ s P (s |s, a) s S, a A.
(LP 3)
k i=1
wi hi (s )
298
PDM en IA
Ainsi, plutt que de dterminer la fonction de valeur dans lespace complet des fonctions de valeur, lespace de recherche est rduit lespace des valeurs pour lensemble des coefcients utiliss dans la combinaison linaire. De plus, le fait de limiter la porte des fonctions de base permet dexploiter les indpendances relatives aux fonctions de base. On peut donc remarquer que le nombre de variables dterminer du programme linaire nest plus le nombre dtats possibles mais le nombre de coefcients dans lapproximation linaire. Cependant, le nombre de termes dans la fonction minimiser et le nombre de contraintes sont toujours gaux aux nombres dtats dans le problme. Pour un tel programme, une solution existe si une fonction de base constante est incluse dans lensemble des fonctions de base [SCH 85]. Nous supposons donc quune telle fonction h0 , telle que h0 (s) = 1, s S , est systmatiquement incluse lensemble des fonctions de base. De plus, il est important de noter que le choix des pondrations dintrt (s) inue sur la qualit de lapproximation [FAR 01]. En plus de la diminution de la complexit du programme linaire, une telle approximation de la fonction de valeur permet dexploiter la fois les indpendances fonctionnelles et certaines rgularits de la structure de la fonction de valeur. Dans le problme Coffee Robot, la gure 9.11 montre un exemple de dcomposition additive de la fonction de valeur approche permettant dexploiter une rgularit que des reprsentations telles que les arbres de dcision et les ADD ne pouvaient pas utiliser.
HOC 1 HOC 1 W 9.00 10.00 0 HRC O O 2.40 1.70 8.40 7.50 U 8.30 R 8.50 0.00 0 W
0.10 1.00
Tree [h1 ]
Tree [h2 ]
Figure 9.11. Exemple de dcomposition de la fonction de valeur du problme Coffee Robot sous la forme de deux arbres de dcision reprsentant deux fonctions de base permettant de calculer la politique (s) (gure 9.10). La fonction de valeur optimale approche est : (s) = 0.63 Tree [h0 ] + 0.94 Tree [h1 ] + 0.96 Tree [h2 ]. Larbre V Tree [h0 ] nest pas illustr puisquil dnit une fonction constante et ne contient donc quune seule feuille gale 1.
299
La dnition dune fonction de valeur Tree [V ] du problme est dcompose en deux fonctions de base Tree [h1 ] et Tree [h2 ]8 et permet une approximation de Tree [V ] dont lerreur est infrieure 1. La proprit de dcomposition additive est exploite puisque, plutt que de contenir 18 feuilles, cette reprsentation ne ncessite que 11 feuilles pour les deux arbres (soit 20 nuds au total, au lieu de 35 nuds pour Tree [V ]). Cette dcomposition contient deux fonctions de base (trois en comptant la fonction constante h0 ), donc trois coefcients, w0 , w1 et w2 , sont dterminer dans le programme linaire 2. Enn, lorsque la fonction de rcompense possde une dcomposition additive, comme cest le cas dans le problme Coffee Robot, il semble naturel que la fonction de valeur du problme possde galement cette proprit. Cependant, ces deux proprits ne sont pas ncessairement corrles. En effet, bien quune fonction de rcompense puisse ne prsenter aucune dcomposition additive, une combinaison linaire de fonctions de base peut quand mme permettre de dterminer avec une faible erreur dapproximation les fonctions de valeur du problme. Une telle reprsentation est donc plus gnrale que les reprsentations sous forme darbre de dcision ou dADD proposes par SPI ou SPUDD [GUE 03b]. Rciproquement, des reprsentations compactes des fonctions de transition et de rcompense nimpliquent pas non plus une reprsentation compacte de la fonction de valeur [KOL 99, MUN 00, LIB 02]. 9.3.3.6. Algorithmes Les algorithmes [GUE 03b] permettent ainsi, partir de la dnition dun problme sous la forme dun FMDP, de gnrer le programme linaire associ an de calculer une approximation de la fonction de valeur du problme. De plus, des algorithmes sont aussi proposs an dobtenir une reprsentation de la politique (sous la forme expose dans la section 9.3.3.4). Cependant, une telle reprsentation peut savrer trop coteuse, cest la raison pour laquelle les auteurs proposent une autre alternative : une fois la fonction de valeur calcule, pour un tat donn, il est facile de calculer la valeur daction pour chaque action, permettant ainsi de trouver la meilleure action excuter pour cet tat. Ainsi, une reprsentation explicite de la politique est vite. Le lecteur pourra consulter [GUE 03b] pour obtenir une description exhaustive de ces algorithmes.
9.4. Conclusion et perspectives La rsolution efcace de problmes dcisionnels de Markov de grande taille dans un cadre factoris est un domaine de recherche trs actif. Plusieurs extensions de ce cadre ont t proposes, notamment dans le cadre partiellement observable [?] et dans celui de lapprentissage par renforcement. Cette seconde extension se justie par le
8. Ces deux fonctions Tree [h1 ] et Tree [h2 ] ont t obtenues partir de larbre de dcision reprsentant la fonction de valeur Tree [V ] dans le problme Coffee Robot, gure 9.6 (page 288).
300
PDM en IA
fait que dnir compltement la fonction de transition et de rcompense dun FMDP peut savrer fastidieux, voir impossible dans certains cas. Dans ce cadre, la premire famille dalgorithmes est ladaptation directe des algorithmes dapprentissage par renforcement prsents dans la section 2.5.2, nommment DBN - E 3 [KEA 99], factored R - MAX [STR 07] et factored I . E . [STR 07]. Ces algorithmes supposent que la structure des DBN du FMDP est connue, mais pas quantie. Les algorithmes proposent alors un apprentissage permettant dobtenir une politique proche dune politique optimale du FMDP en un temps ni. La deuxime famille dalgorithmes ne fait aucune hypothse sur la structure de la fonction de transition et de rcompense du FMDP. En sinspirant de lapprentissage par renforcement indirect (cf. tome 1, section 2.5), de rcents travaux proposs par [DEG 07] proposent dapprendre la structure des problmes partir de lexprience dun agent et en utilisant linduction darbres de dcisions. Bien que les rsultats exprimentaux soient intressants, une preuve mathmatique de cette approche nexiste pas encore. Nous renvoyons le lecteur [DEG 07] pour un expos plus prcis de ces dernires mthodes. Des recherches destines combler le foss entre les approches disposant dune preuve de convergence et celles qui en sont dpourvues sont elles aussi trs actives. Lapproche suivie par lquipe de Littman dans ce cadre consiste proposer des preuves de convergence pour des algorithmes prsupposant de moins en moins de connaissances a priori sur la structure du FMDP quil sagit de rsoudre. On consultera en particulier [STR 07] sur ce point. Enn, une dernire extension du cadre des FMDP consiste combiner la factorisation et une approche hirarchique. Les travaux de thse de Teichteil [TEI 05c] se sont intresss ce cadre. On peut aussi citer lalgorithme VISA [JON 06] qui prsente des performances comparables celles des algorithmes de Guestrin avec des mthodes de programmation dynamique.
Chapitre 10
Approches de rsolution en ligne
10.1. Introduction Nous avons vu dans les prcdents chapitres de cet ouvrage comment rsoudre de manire approche des MDP de grande taille par diffrentes techniques reposant sur la reprsentation paramtrique ou structure des politiques et/ou fonctions de valeur et sur lemploi de la simulation pour les techniques dapprentissage par renforcement. A lissue du processus doptimisation, on obtient une politique optimale approche valide pour lensemble de lespace dtats. Pour des MDP de trs grande taille, obtenir une bonne approximation est souvent difcile, dautant plus que, en gnral, on ne sait pas quantier prcisment la sous-optimalit de la politique a priori. Une amlioration possible consiste alors considrer ces mthodes doptimisation comme un pr-calcul hors ligne. Lors dune seconde phase en ligne, la politique a priori est amliore par un calcul non lmentaire pour chaque tat rencontr. 10.1.1. Exploiter le temps en ligne Dans le cadre des MDP, lalgorithme utilis pour dterminer en ligne laction courante est en gnral trs simple. Ainsi, lorsque est dnie par lintermdiaire dune , cet algorithme est une simple comparaison des valeurs des acfonction de valeur V tions un coup (voir algorithme 1.3 du chapitre 1). De mme, dans le cas dune politique paramtre, lalgorithme permettant de dterminer laction courante est habituellement trs lmentaire. Ce schma de rsolution permet un contrle trs ractif et est bien adapt pour des systmes embarqus soumis de fortes contraintes tempsrel. En revanche, il peut tre remis en cause pour amliorer en ligne une politique lorsque du temps est disponible pour dcider.
Chapitre rdig par Laurent P RET et Frdrick G ARCIA.
302
PDM en IA
Cest lune des cls du succs des meilleurs programmes de jeux qui combinent intensivement calculs hors ligne et en ligne. Par exemple, le fameux programme dchecs Deep Blue [?] repose sur une fonction de valeur complexe dnie par plus de 8000 fonctions caractristiques. Les poids de cette fonction de valeur ont fait lobjet de nombreuses optimisations hors ligne, tant manuelles quautomatiques. La fonction de valeur ainsi obtenue fournit une excellente valuation de la force dune position, intgrant le jugement dexperts humains. Nanmoins, elle reste synthtique et imparfaite : lalgorithme lmentaire qui consiste choisir le coup menant la position de meilleure valuation depuis la position courante ne permet pas toujours de choisir un coup efcace. Si Deep Blue est un programme capable de battre les meilleurs joueurs humains, cest parce quil couple la fonction de valeur un algorithme de recherche arborescente qui dveloppe des millions de positions obtenues sur plusieurs coups partir de chaque position rencontre en cours de partie.
10.1.2. Recherche en ligne par simulation Pour des MDP de grande taille, effectuer une recherche arborescente peut savrer une tche dlicate, en particulier lorsque les probabilits de transition sont inconnues ou lorsque le nombre dtats successeurs dun tat est lev autrement dit, en termes de recherche arborescente, lorsque le facteur de branchement est lev. Comme pour les algorithmes hors ligne, lemploi de la simulation permet de contourner ces difcults en effectuant les calculs sur la base dchantillons de transitions simules. Rcemment, Kearns, Mansour et Ng ont propos un algorithme [?] posant les fondements thoriques pour combiner en ligne recherche arborescente et simulation. Cet algorithme construit un arbre par simulation stochastique sur un horizon de raisonnement H et dnit une politique stochastique. Cette approche est trs sduisante puisquelle permet de traiter des MDP arbitrairement grands avec pour seule donne lexistence dun simulateur du systme1. Le prix payer pour cette gnralit est que le nombre dappels au simulateur requis par cet algorithme est norme, ce qui le rend inoprant dans de nombreux cas. Une alternative aux techniques de recherche arborescente pour amliorer une politique en ligne a t propose par Tesauro et Galperin [?]. Il ne requiert que lexistence dun simulateur et dune politique a priori dnie par une fonction de valeur ou paramtre. Il peut tre envisag comme une itration focalise de litration sur les politiques avec approximation. Cet algorithme savre parfois trs lourd en calculs mais, en revanche, et la diffrence de lalgorithme de Kearns et al., il a fait ses preuves exprimentalement, notamment en amliorant le niveau de jeu du programme de backgammon TD-Gammon [?].
pour valuer les feuilles de larbre constitue une 1. Lintgration dune fonction de valeur V amlioration naturelle de lalgorithme.
303
Pour les problmes de grande dimension, il apparat ainsi ncessaire de contrler en ligne la recherche an damliorer rapidement le choix de laction effectuer au fur et mesure que des simulations supplmentaires sont alloues son calcul. Cest lobjectif vis par les mthodes Focused Reinforcement Learning (Apprentissage par Renforcement Focalis) et Controlled Rollout (Droulement Contrl) proposes dans [?, ?] et que nous prsentons ci-dessous.
10.2. Algorithmes en ligne pour la rsolution dun MDP Nous formalisons ici le problme de la recherche en ligne pour les MDP : le problme peut tre envisag comme la rsolution locale dun MDP sur un certain horizon de raisonnement. Nous recensons ensuite les quelques approches en ligne permettant de rsoudre ce problme. Par rapport aux algorithmes hors ligne, lide matresse est de focaliser les calculs autour dun tat courant. 10.2.1. Algorithmes hors ligne, algorithmes en ligne Lusage que nous faisons des termes en ligne et hors ligne mrite dtre prcis. Nous aurions pu utiliser pour distinguer les mthodes classiques de rsolution prsentes dans les chapitres prcdents et celles dveloppes ici les termes non focalises et focalises ou globales et locales. Nous avons choisi hors ligne et en ligne car ces termes retent bien la succession de deux phases de rsolution qui caractrise cette approche. Nous devons toutefois prciser que nombre dalgorithmes dA/R que nous classons dans la catgorie des algorithmes hors ligne se rclament souvent au contraire dune approche en ligne [?, RUM 94]. Ces algorithmes, bien que relevant dune rsolution globale, nenvisagent quune unique phase doptimisation alors gnralement appele phase dapprentissage. Cette unique phase est qualie den ligne car elle peut tre mise en uvre directement en situation relle, par exemple pour contrler les actions dun robot sadaptant son environnement [?]. En effet, les algorithmes de lA/R effectuent typiquement une succession de mises jour lmentaires compatibles avec des contraintes temps-rel fortes ou des ressources en calcul limites. Lintrt de lexistence dune phase en ligne est au contraire deffectuer un calcul non trivial pour chaque tat rencontr. Nous nous intresserons donc dans cette partie aux algorithmes se focalisant sur le calcul dune action optimale pour un tat courant donn. 10.2.2. Formalisation du problme Nous formalisons dans cette section le problme local de la dtermination de la meilleure action pour un tat courant sur un certain horizon de raisonnement H . Nous prsentons un algorithme simple par recherche avant qui examine toutes les squences
304
PDM en IA
dactions possibles sur cet horizon H . Cet algorithme lmentaire mais lourd permet de quantier le gain obtenu pour un horizon de raisonnement donn. Nous dvelopperons dans les sections suivantes les algorithmes permettant de rsoudre efcacement ce problme local. 10.2.2.1. Recherche avant sur un horizon de raisonnement Le problme de la dtermination de la meilleure action pour ltat courant st peut tre formul comme la rsolution dun MDP local restreint lensemble SH (st ) S des tats pouvant tre atteints depuis st en au plus H transitions. A ce MDP local est associ le graphe ET/OU GH (st ), tel que les tats sont des nuds OU dont sont issus |A| arcs ; chaque arc est connect un nud action ; un nud tat est associ un oprateur de minimisation ; les actions sont des nuds ET dont sont issus |S (s, a)| arcs ; chaque arc est connect un nud tat s et valu par une probabilit de transition p(s | s, a) ; un nud action est associ un oprateur desprance. approximant V Nous supposons que nous disposons dune fonction de valeur V pour tout tat s. Cette fonction de valeur est utilise ici pour valuer les tats st+H situs la frontire de SH (st ) (voir gure 10.1).
S(s) H t
~ V ~ V
a1 st a2
~ V ~ V ~ V ~ V ~ V ~ V ~ V ~ V
Etape min
Etape Etape min Etape esprance esprance
Figure 10.1. Recherche avant sur un horizon H . Les cercles blancs reprsentent les nuds tat et les cercles gris les nuds action.
305
est borne par un rel : Nous supposerons que lerreur dapproximation sur V > 0 tel que V V
(10.1)
Le moyen le plus direct de rsoudre le MDP local associ st consiste effectuer une recherche avant exhaustive sur lhorizon de raisonnement H considr. Une nouvelle fonction de valeur VH est alors calcule en ligne. Lensemble SH (st ) est explicit rcursivement depuis st et VH est calcule suivant le principe doptimalit de Bellman selon lquation (10.2) de lalgorithme 10.1. Algorithme 10.1 : Algorithme par recherche avant sur un horizon de raisonnement Entres : tat courant st , p, c, horizon H (st ) si H = 0 V minaA QH (st , a) sinon VH (st ) = o QH (st , a) = c(st , a) + retourner at = argminaA QH (st , a)
s S (st ,a)
p(s | st , a)VH 1 (s ) (10.2)
10.2.2.2. Arbre ou graphe ? Comme pour les algorithmes classiques de recherche dans les graphes, il est possible de simplier le graphe markovien en un arbre. Dans ce cas, lorsquun nouvel tat est explicit, on le relie simplement la paire tat/action dont il est issu, sans faire de test doccurrence. Cette simplication, couramment utilise dans les programmes de jeux, prsente lavantage de la rapidit. La contrepartie est un cot en mmoire plus important lorsque des tats sont dupliqus (voir [?], pages 212-213). La reprsentation en arbre est privilgie lorsque le risque de voir un tat dupliqu est faible. Nous verrons que les deux reprsentations sont utilises dans le cadre des MDP : les approches heuristiques en ligne dcrites section 10.2.3 comme lalgorithme LAO utilisent une reprsentation par graphe tandis que lalgorithme de Kearns et al. dcrit section 10.2.4 se base sur une reprsentation en arbre. 10.2.2.3. Complexit et efcacit de la recherche avant La complexit de lalgorithme 10.1 par recherche avant, exponentielle en H , est en O((Smax |A|)H ) o Smax = maxsSH (st ) maxaA |S (s, a)| est le nombre maximal dtats successeurs pour une paire tat/action. Comme pour lalgorithme ditration sur les valeurs, on montre alors la proposition suivante :
306
PDM en IA
P ROPOSITION 10.1 [?]. Erreur pour la recherche avant : VH V H .
Cette proposition tablit que VH converge gomtriquement vers V . De ce fait, sera si lhorizon de raisonnement est assez long, lerreur due limprcision de V signicativement rduite. Dans le cas dun problme de plus court chemin stochastique avec = 1, il est ncessaire que = H diminue lorsque H augmente pour rendre la recherche avant bnque. En dautres termes, lerreur doit tre plus petite pour les tats feuille que pour ltat racine. Comme dans le cas des jeux deux joueurs, cette proprit est valable si la fonction de valeur approximative satisfait une proprit de visibilit augmente lorsque lon approche dun tat but. accrue : la prcision de V Ainsi, cet algorithme simple justie la rsolution en ligne de MDP : leffort consenti en explicitant le graphe markovien sur un horizon H permet dobtenir une fonction de , et par consquent la politique en ligne arb qui en est valeur en ligne amliorant V dduite. En pratique, cet algorithme est lourd mettre en uvre en raison de sa complexit exponentielle et parce quil requiert de manipuler les distributions de probabilit p en extension. Nous allons voir dans la section suivante comment des algorithmes de recherche heuristique pour les MDP proposent une alternative cette rsolution exhaustive, bien queux aussi manipulent les distributions de probabilit p en extension.
10.2.3. Algorithmes heuristiques de recherche en ligne pour les MDP Depuis le milieu des annes 90, des chercheurs, issus notamment de la communaut de la planication, ont propos diffrents algorithmes en ligne pour exploiter efcacement linformation apporte par ltat courant dont les principaux sont lalgorithme RTDP (Real-Time Dynamic Programming) [?], lalgorithme de lenveloppe [?], et plus rcemment lalgorithme LAO [HAN 01]. 10.2.3.1. Principes gnraux Ces algorithmes explicitent progressivement un sous-ensemble dtats contenant les tats pouvant tre atteints depuis ltat courant sans spcier dhorizon de raisonnement. Ce sous-ensemble appel enveloppe dans [?] ne contient initialement que ltat courant. Les tats situs la frontire de lenveloppe peuvent tre valus par . Le schma gnral de fonctionneune fonction de valeur pr-calcule hors ligne V ment de ces algorithmes est une alternance de phases dexpansion et de phases de mises jour :
307
1) phase dexpansion : un tat s est choisi la frontire de lenveloppe et sa nouvelle valeur est calcule : V (s) min c(s, a) +
aA s S
(s ) p(s |s, a) V
2) phase de mise jour des tats pres : la valeur des tats pres de ltat nouvellement dvelopp est mise jour selon le principe doptimalit de Bellman. Il faut noter toutefois que leur problmatique nest pas exactement lamlioration dune politique a priori pour un MDP de trs grande taille et quils ne se basent pas sur la simulation. Leur objectif est plutt de proposer une alternative efcace des algorithmes comme litration sur les valeurs pour des MDP raisonnablement complexes comportant quelques dizaines de milliers dtats typiquement des problmes de navigation de type plus court chemin stochastique. Ainsi, ils permettent de calculer beaucoup plus rapidement une action optimale pour ltat courant quun algorithme hors ligne qui ne converge que lorsquune politique optimale sur S tout entier est calcule. Par exemple, RTDP (Real-Time Dynamic Programming) [?] ralise la phase dexpansion par trajectoires successives gnres depuis ltat courant jusqu un tat but. Ces trajectoires sont dtermines en choisissant pour chaque tat s rencontr laction a dont la valeur est la meilleure. Ltat s suivant s est dni comme le successeur de s via la transition stochastique simule (s, a, s ). La valeur dun tat est mise jour chaque fois quil est rencontr. La stratgie dexpansion de RTDP tend favoriser les trajectoires les plus probables et permet dobtenir rapidement une politique de bonne qualit. La contrepartie est une convergence lente, les tats peu probables tant rarement rencontrs (cf. [BON 03]). Ce fonctionnement gnral qui explicite progressivement le graphe markovien associ au MDP depuis ltat courant a inspir certains travaux ultrieurs sur la rsolution en ligne de MDP et nous prsentons ci-dessous en dtail un de ces algorithmes en ligne, lalgorithme LAO propos par Hansen et Zilberstein [HAN 01]. 10.2.3.2. Lalgorithme LAO Nous avons vu quun MDP peut tre envisag comme un graphe ET/OU avec deux types de nuds : les nuds min et les nuds esprance. Lalgorithme AO [?] est un algorithme de recherche heuristique couramment utilis pour ce type de problme lorsque le graphe considr est acyclique. Lalgorithme LAO dHansen et Zilberstein gnralise AO aux MDP qui sont des graphes comportant des cycles ou boucles2. Lalgorithme explicite progressivement le graphe markovien initialement rduit ltat courant st . La version originale de lalgorithme a t dveloppe dans le cadre dun plus court chemin stochastique, supposant lexistence dtats but.
2. Le L de LAO signie loop.
308
PDM en IA
Par analogie avec les algorithmes de recherche heuristique, Hansen et Zilberstein distinguent 3 graphes : le graphe implicite G associ au MDP entier ; le graphe explicite G G : il contient tous les tats dvelopps depuis ltat courant st ; G : cest la restriction du graphe explicite la meilleure le graphe solution G politique partielle courante : en st , on slectionne laction a dont lvaluation courante est la meilleure ; on se restreint alors aux tats successeurs de st obtenus par excution en itrant rcursivement ce processus sur les tats successeurs. de a ; on obtient G Les tats non dvelopps sont ceux situs la frontire du graphe explicite et sont . Si s est un tat but, alors V (s) = 0. valus par V Nous donnons ci-dessous (algorithme 10.2, gures 10.2, 10.3 et 10.4) la version de LAO base sur litration sur les politiques3. Algorithme 10.2 : Algorithme LAO Entres : A,p,c, tat courant st , fonction de valeur V /* G est le graphe explicite */ G {st } tant que G contient un tat non dvelopp qui nest pas un tat but faire (1) Dveloppement du graphe solution G (a) Choisir s dans le graphe solution qui ne soit pas un tat but (s )] (b) V (s) minaA [c(s, a) + s S (s,a) p(s |s, a) V (c) G G aA(s) S (s, a) (2) Mise jour des valeurs des actions et du graphe solution G - Dterminer lensemble Z contenant s et tous ses anctres dans le graphe explicite G selon les arcs correspondant aux meilleures actions courantes, cest--dire uniquement les anctres permettant datteindre s selon la meilleure politique partielle courante - Excuter lalgorithme 1.5 ditration sur les politiques sur lensemble Z et dterminer les nouvelles meilleures actions courantes retourner le graphe solution G
Convergence et efcacit de LAO est admissible cest--dire si V V alors : Si V (s) V (s) pour chaque tat s dvelopp quand ltape (ii) est acheve ; V
3. Une version similaire base sur litration sur les valeurs a galement t dveloppe.
309
a st
0.8
5.0
4.0
0.2
3.0
0.0
0.4
5.0
0.5 0.1
10.0 0.0
a
Etape min
Etape esprance
Figure 10.2. Algorithme LAO - Etape (1 a) : choix dun nud dvelopper.
a
0.8
0.7
4.0
4.3
0.3
5.0
a st
4.3
0.4 0.2
0.0 6.1
10.0 2.0 5.0
0.3 0.3
0.4
5.0
0.5 0.1
10.0 0.0
Figure 10.3. Algorithme LAO - Etapes (1 b) et (1 c) : phase dexpansion.
(s) = V (s) lorsque LAO se termine ; V LAO se termine aprs un nombre ni ditrations. Comme les algorithmes apparents que sont RTDP et lalgorithme de lenveloppe, LAO se rvle particulirement efcace lorsque la politique optimale ne visite quune faible fraction de lespace dtats [HAN 01]. Le calcul dune politique optimale depuis ltat courant se fait alors beaucoup plus rapidement que par itration sur les valeurs ou itration sur les politiques. Lun des avantages majeurs de LAO et des algorithmes apparents est leur bon prol anytime : ils produisent une politique partielle ventuellement sous-optimale mais qui sapproche rapidement de la politique optimale au fur et mesure que des tats supplmentaires sont dvelopps [BON 03]. De plus, Thibaux et al. [?] notent avec justesse quils peuvent tre utiliss aussi bien hors ligne quen ligne.
310
PDM en IA
a
0.8
0.7
4.0
4.3
0.3
5.0
a st
3.44
4.3
0.4 0.2
0.0 6.1
10.0 2.0 5.0
3.44
0.3 0.3
0.4
5.0
0.5 0.1
10.0 0.0
Figure 10.4. Algorithme LAO - Etape (2) : phase de rvision des cots.
Si ces algorithmes permettent de calculer efcacement une politique partielle, ils ne sont pas directement applicables des MDP de trs grande taille. Ainsi, Dean et al. [?] supposent que le nombre dtats successeurs dune paire tat/action reste rai est issue dun sonnable pour le MDP trait par leur algorithme. De plus, lorsque V algorithme comme litration sur les politiques avec approximation, elle ne satisfait pas en gnral les proprits dsirables pour les fonctions heuristiques comme ladmissibilit. Nous allons voir maintenant comment la simulation peut tre utilise en ligne pour dpasser ces limites.
10.2.4. Lalgorithme par simulation de Kearns, Mansour et Ng Les approches prcdentes ne sont exploitables que tant que les distributions de probabilit p(s |s, a) sont connues et que le nombre dtats successeurs dune paire tat/action reste raisonnable. Comme pour les mthodes hors-ligne, lapproche par simulation permet de surmonter ces difcults. Ainsi, pour chaque paire tat/action (s, a), la distribution de probabilit sur les tats successeurs est implicitement4 approxime en gnrant un chantillon de ces tats. Un algorithme simple, propos par Kearns et al. [?], consiste essayer chaque action N fois depuis chaque tat : N fois depuis ltat courant st et rcursivement N fois depuis chaque tat qui a t gnr depuis st sur un horizon de raisonnement H (voir lalgorithme 10.3 et la gure 10.5). Une nouvelle fonction de valeur est ainsi dnie en ligne par les paramtres N et H . Notons que lorsque N +, on retrouve lalgorithme 10.1. Aprs que cet arbre a t dvelopp, laction courante at est directement dduite par application de largmin aux valeurs des actions la racine de larbre. Cet algorithme dnit ainsi une politique stochastique arb .
4. Comme pour les mthodes directes de type Q-learning, on nestime pas explicitement les probabilits de transition.
311
Algorithme 10.3 : Algorithme par simulation de Kearns, Ng et Mansour Entres : tat courant st , simulateur markovien du systme, horizon de raisonnement H , largeur N 0 si H = 0 min aA QH,N (st , a) sinon VH,N (st ) = o QH,N (st , a) = [c(st , a)+ 1 V (s )]
N s S (st ,a,N ) H 1,N
(10.3)
o S (s, a, N ) est lensemble des N tats qui ont t chantillonns depuis la paire tat/action (s, a) retourner at = argminaA QH (st , a)
... ... ...
a st
... ... ... ... ... ...
...
a
Etape min
...
Etape min Etape destimation de lesprance
Etape destimation de lesprance
H
Figure 10.5. Algorithme de Kearns, Mansour et al. avec deux actions et N = 3.
10.2.4.1. Complexit et convergence de lalgorithme de Kearns et al. La complexit en ligne du calcul de VH,N (st ) est en O((|A| N )H ). Le rsultat thorique tabli par Kearns et al. quantie lcart |Varb (st ) V (st )| en fonction de N et H : cet cart peut tre rendu arbitrairement petit pour des valeurs de N et H sufsamment grandes et indpendantes de la taille de lespace dtats. En dautres termes, la recherche en ligne par simulation stochastique peut thoriquement permettre dapproximer une politique optimale aussi nement que voulu avec la seule donne dun simulateur markovien.
312
PDM en IA
Malheureusement, les valeurs requises pour N et H an dobtenir une garantie de convergence sont extrmement grandes et inutilisables en pratique compte tenu de la complexit en O((|A| N )H ) de lalgorithme. 10.2.4.2. Efcacit et considrations pratiques Kearns et al. voquent quelques pistes pouvant amliorer lefcacit de leur algorithme : pour va une premire amlioration consiste utiliser une fonction de valeur V luer les feuilles de larbre ; une deuxime amlioration consiste privilgier les nuds proches de la racine en leur allouant plus de simulations qu ceux situs prs des feuilles : la largeur N devient variable avec le niveau de larbre considr h , 1 h H ; comme pour les algorithmes classiques de recherche arborescente, des techniques dlagage5 peuvent tre envisages [?]. Rcemment, Chang et al. [?] ont propos une autre amlioration de lalgorithme de Kearns et al. Il sagit dune variante en deux passes, base sur la thorie des bandits manchots multi-bras [?]. Aprs une phase initiale destimation, des simulations additionnelles sont distribues en prenant en compte lestimation initiale de la moyenne et de la variance de la valeur des actions et des tats. La complexit de lalgorithme reste toutefois en O((|A| N )H ). Le rsultat de Kearns et al. prouve le bien-fond thorique de la recherche en ligne par simulation. Il tablit que, pour tout MDP, on peut dduire une politique arbitrairement proche dune politique optimale par construction dun arbre stochastique de largeur N et sur un horizon de raisonnement H . Toutefois, lalgorithme thorique nest pas applicable tel quel en raison des valeurs trs leves quil requiert pour N et H et de sa complexit exponentielle en H . Nous verrons dans la section suivante comment dvelopper efcacement un arbre de recherche avec des ressources de calcul raisonnables.
10.2.5. Lalgorithme Rollout de Tesauro et Galperin Lalgorithme Rollout propos par Tesauro et Galperin [?] permet damliorer toute politique par lutilisation en ligne dun simulateur. Le principe de lalgorithme est simple : il consiste estimer par simulation sur N trajectoires les valeurs Q (st , a) i.e. lesprance de laction a suivie par lapplication de la politique sur un horizon de H coups. Laction at de meilleure valeur est alors choisie et excute en ligne. De mme que pour lalgorithme de Kearns et al., une politique stochastique RO est ainsi dnie partir de .
5. Pruning.
313
Algorithme 10.4 : Algorithme Rollout Entres : tat courant st , simulateur markovien du systme, politique a amliorer , horizon de raisonnement H , largeur N a A
Q H,N (st , a) c(st , a) +
1 N
N H 1
l cl i
i=1 l=1
(10.4)
partir des tats successeurs obtenus o les cots cl i sont gnrs en suivant en excutant a en st retourner at = argminaA Q (st , a)
Lalgorithme Rollout peut tre envisag comme une tape focalise sur st de litration sur les politiques avec approximation. 10.2.5.1. Complexit et convergence de lalgorithme Rollout La complexit de lalgorithme, linaire en N et en H , est en O(|A|N H ). Chang [?] montre quun nombre sufsant de trajectoires N garantit que VRO V . Mme si ce nombre peut tre lev, la complexit linaire de lalgorithme le rend viable dans la plupart des applications. 10.2.5.2. Efcacit de lalgorithme Rollout Remarquons que lalgorithme Rollout ne remet en cause la politique que sur la premire des H transitions simules en ligne. Pour des problmes complexes, il est ainsi bien sr prfrable que la politique de base soit dj de bonne qualit pour que la politique RO puisse galement donner de bons rsultats. Pour limiter le nombre de simulations, Tesauro et Galperin suggrent de contrler continuellement lallocation des simulations en liminant les actions dont les valeurs estimes sont sufsamment loignes de la valeur de la meilleure action courante. En maintenant un intervalle de conance pour chaque action, on peut ainsi carter les actions qui sont probablement sous-optimales la probabilit tant spcie par lutilisateur dans la dnition de lintervalle de conance. Bertsekas [?] propose une autre amlioration intressante consistant estimer les diffrences entre actions plutt que les valeurs des actions elles-mmes. Chang [?] propose une version baptise parallel Rollout, qui se base sur plusieurs politiques pour dnir une politique en ligne. Sous certaines conditions, cette politique nest pas moins bonne que la meilleure des diffrentes politiques pour chaque tat rencontr en ligne. Contrairement lalgorithme de Kearns et al., lalgorithme Rollout a t mis en uvre avec succs pour diffrents MDP de grande taille : problme dordonnancement de lignes de code pour un simulateur de compilateur [?], amlioration du niveau de
314
PDM en IA
jeu du programme de backgammon TD-Gammon alors quil rivalisait dj avec les meilleurs joueurs humains [?, ?]. Lalgorithme Rollout de Tesauro et Galperin propose ainsi une alternative simple la recherche arborescente pour amliorer en ligne une politique a priori sur la base de trajectoires simules. Cette approche est dun usage trs gnral mais requiert une bonne politique a priori. De plus, lalgorithme Rollout savre souvent trs coteux en calculs. La section suivante dcrit une stratgie optimisant lallocation des simulations pour lalgorithme Rollout. Notons enn que quelques autres approches en ligne ont t dveloppes, mais dans le cadre des MDP dterministes. Ainsi, lalgorithme TD-Leaf, combine le principe de TD() avec une recherche arborescente conue pour le jeu dchecs [?]. Citons galement les travaux de Davies et al. [?] qui dveloppent dans un cadre dterministe une approche en ligne reposant sur un algorithme de recherche de type A .
10.3. Contrler la recherche Les approches en ligne par simulation que nous venons de dcrire savrent en pratique assez lourdes utiliser. En particulier, les temps de calcul pour lvaluation dune politique amliore en ligne sont gnralement trs longs. En effet, obtenir des statistiques ables sur une politique ncessite de simuler des centaines de trajectoires, soit typiquement des dizaines de milliers de transitions. Lorsque pour chaque transition simule le calcul de laction entreprendre est non trivial, le temps dvaluation dune politique peut alors tre de lordre du jour ou de la semaine. Dans les approches en ligne par simulation, le contrle de la recherche consiste dterminer un ordre de dveloppement des nuds du graphe markovien, le but poursuivi tant de slectionner rapidement une action de bonne qualit pour ltat courant. Par rapport aux algorithmes heuristiques de recherche pour les MDP prsents plus haut, ce problme du contrle de la recherche est beaucoup plus complexe en raison de lusage de la simulation. En effet, chaque tat dj explicit peut tre de nouveau choisi an damliorer la prcision avec laquelle sa valeur est estime. De ce fait, de nouvelles simulations peuvent tre alloues non seulement aux tats situs la frontire du graphe mais galement tous les autres tats dj explicits. Dans cette section, nous prsentons tout dabord une analyse du problme de contrle de la recherche par simulation dans le cas de lalgorithme de Kearns et al. o un arbre est dvelopp uniformment sur un horizon H , et dans le cas o la recherche seffectue sur un horizon de 1. Cette analyse permet alors dintroduire naturellement les deux algorithmes Focused Reinforcement Learning et Controlled Rollout proposs dans [?].
315
10.3.1. Bornes sur lerreur et pathologie de la recherche avant Lutilisation pratique de lalgorithme de Kearns et al. rend ncessaire le choix de valeurs raisonnables pour lhorizon H et la largeur N , en sacriant les garanties doptimalit. Se pose alors la question des principes devant guider le choix de H et de N pour obtenir de bonnes performances tout en conservant un budget de calcul raisonnable rappelons que la complexit de lalgorithme de Kearns et al. est exponentielle en H . vriant lquaNous supposons que nous disposons dune fonction de valeur V tion (10.1) qui sera utilise pour valuer les feuilles de larbre. Du rsultat de Kearns et al., nous pouvons driver une borne probablement approximativement correcte6 sur |VH,N (st ) V (st )|, qui lie la probabilit de faire une erreur lamplitude de cette erreur : P ROPOSITION 10.2 [?]. Erreur pour lalgorithme de Kearns et al. : |VH,N (st ) V (st )| cmax (1 )2 (|A| N )H 1 . log + H N
avec une probabilit au moins 1 , o cmax = max(s,a)S A |c(s, a)| est le cot instantan maximal. Pour un horizon x H , si N , le premier terme de lerreur tend vers 0 et lon retrouve alors le rsultat tabli par Hernandez et Lasserre [?] pour lalgorithme 10.1 dans la proposition 10.1 et une erreur en H . 10.3.1.1. Pathologie de la recherche avant par simulation Une stratgie naturelle de dveloppement de larbre consiste augmenter progressivement la longueur de lhorizon de raisonnement H tant que les ressources en calcul le permettent. Cest le principe des approches par approfondissement itratif7 [?] couramment mises en uvre dans les programmes de jeux pour exploiter efcacement le temps en ligne : lhorizon de raisonnement est incrment progressivement tant que du temps est disponible. De manire assez surprenante, accrotre lhorizon H avec une largeur N xe nit par augmenter lerreur sur VH,N pour lalgorithme de Kearns et al. : le premier terme derreur li lapproximation par chantillonnage crot en effet avec H . Pour une largeur N donne, il existe ainsi une valeur optimale pour H au-del de laquelle lerreur augmente, dgradant la qualit de laction at choisie (voir gure 10.6). Ce phnomne est connu sous le nom de pathologie de la recherche dans le domaine des jeux deux joueurs, pour les algorithmes de recherche arborescente bass sur le principe minimax [?]. Le coup choisi est celui qui assure la meilleure position contre toute dfense de ladversaire, la force dune position tant estime par
6. Probably approximately correct bound. 7. Iterative deepening.
316
PDM en IA
Erreur
2
1.8
1.6
1.4
1.2
0.8
0.6 0 5 10
N (x102)
15
10
Figure 10.6. Borne sur lerreur |VH,C (st )V (st )| en fonction de lhorizon H et de la largeur N - = 0.1, = 1.0, cmax = 0.1, |A| = 2, = 0.8.
une fonction de valeur heuristique. Ce schma est rpt sur un certain horizon de raisonnement, la fonction de valeur estimant alors les nuds feuille de larbre dvelopp. Sil est gnralement admis quune recherche plus profonde i.e. sur un horizon de raisonnement plus long amliore la qualit du coup choisi, divers travaux thoriques [?, ?, ?, ?] ont mis en vidence, quau contraire, une recherche plus profonde est susceptible de dgrader la qualit du coup choisi. Par exemple, dans le modle simple dvelopp par Pearl [?], une fonction de valeur prdit si une position sera gagnante avec un certain taux derreur. Cette fonction possde une proprit de visibilit accrue qui diminue le taux derreur lorsque lon cherche plus profondment. Pearl montre alors que, mme avec un fort accroissement de la visibilit, la qualit de la dcision prise la racine de larbre se dgrade rapidement lorsque la profondeur de la recherche augmente. Les principales raisons expliquant la pathologie de la recherche dans ces modles de jeux deux joueurs sont lindpendance des valeurs heuristiques aux feuilles de larbre et un fort facteur de branchement. En pratique, le phnomne na jamais t observ pour des jeux classiques comme les checs. Diverses caractristiques des jeux rels ont t avances pour expliquer cette divergence entre thorie et pratique [?] : existence dtats piges correspondant des positions terminales, dpendance des valeurs heuristiques aux feuilles de larbre. Plus rcemment, Bulitko et al. [?] ont galement dmontr lexistence de pathologies dans le cas mono-agent. Le problme classique considr assimilable un MDP dterministe est celui de la recherche dun plus court chemin. Bulitko et al. prouvent que la pathologie de la recherche peut survenir mme lorsque la fonction de valeur heuristique est admissible. Leur dmonstration reste toutefois limite des problmes lmentaires trs particuliers pour lesquels les valeurs heuristiques aux feuilles
317
de larbre sont trs proches. Pret et Garcia [?] ont en revanche mis en vidence la pathologie de la recherche pour un MDP de taille moyenne de type plus court chemin stochastique. La pathologie de la recherche ainsi mise en vidence dans le cadre des MDP est due lexistence dune erreur dchantillonnage en chaque nud de larbre. Dans le cas des jeux deux joueurs, elle est inhrente aux proprits de la fonction heuristique utilise. La nature de lerreur dapproximation est ainsi diffrente mais dans les deux cas, une recherche plus profonde lamplie. 10.3.1.2. A la recherche dun bon compromis entre profondeur et largeur La pathologie de la recherche nous indique quune recherche de type approfondissement itratif avec une largeur xe nest pas able dans la mesure o, au-del dun certain horizon, les nouveaux nuds dvelopps dgraderont la qualit de laction at . La borne sur lerreur tablie par la proposition 10.2 peut galement tre interprte et en termes de compromis entre biais et variance. Le biais provient de lerreur sur V est attnu par H tandis que la variance provient du premier terme et dcrot suivant logN/N . En raisonnant avec un nombre de simulations x, ce compromis se formule en termes de choix pour la longueur de lhorizon de raisonnement H et la largeur N . La gure 10.7 trace la borne sur lerreur tablie par la proposition 10.2 en fonction de H pour diffrents budgets de calcul. Le budget de calcul correspond au nombre de simulations alloues pour dvelopper larbre pour H et N donns et vaut :
H
(|A|N )h =
h=1
(|A|N )H +1 |A|N |A|N 1
(|A|N )H .
Ces courbes font apparatre que lhorizon optimal dpend du budget allou. Si lon sait de quel budget en ligne on dispose, on peut ainsi spcier lavance les valeurs de H et N . En pratique toutefois, comme cest le cas dans les algorithmes Focused Reinforcement Learning et Controlled Rollout, il peut tre plus judicieux de dnir une largeur locale pour chaque paire tat/action, et dincrmenter progressivement horizon et largeurs, avec le souci de conserver un bon compromis pour viter les phnomnes pathologiques. 10.3.2. Allocation itrative des simulations Nous venons de voir que le dveloppement ncessite ltablissement dun bon compromis global entre profondeur et largeur. Nous allons prsent nous intresser au problme local de lallocation des simulations entre les diffrentes actions pour une paire tat/action donne. Il est possible damliorer lallocation uniforme telle quelle est dnie par lalgorithme de Kearns et al. par une approche itrative prenant en compte les informations disponibles pour les nuds dj dvelopps moyennes et variances, par exemple.
318
PDM en IA
1.5
Erreur
1.4 103 simulations 106 simulations 109 simulations 1012 simulations
1.3
1.2
1.1
0.9
0.8
0.7
0.6
0.5
Figure 10.7. Borne sur lerreur |VH,C (st ) V (st )| en fonction de lhorizon H pour diffrents budgets de calcul. = 0.1, = 1.0, cmax = 0.1, |A| = 3, = 0.8.
Lobjectif est de privilgier au cours du dveloppement de larbre les rgions les plus prometteuses. Ce problme est li celui du dilemme classique entre exploitation et exploration, en particulier tel quil apparat en A/R.
10.3.2.1. Bandits multi-bras et exploration dans les MDP Nous avons vu prcdemment que les algorithmes dA/R ne considrent quune unique phase doptimisation, habituellement qualie den ligne. Ces diffrents algorithmes requirent pour converger lors de cette phase que chaque paire tat/action soit excute inniment souvent. Avec un temps ni, on doit la fois explorer sufsamment pour assurer la convergence et exploiter la politique estime comme optimale pour minimiser les cots reus. Les politiques dexploration dnissant le choix de laction excuter au cours de loptimisation doivent faire face ce dilemme entre exploration et exploitation. La thorie des bandits multi-bras [?] propose une solution ce dilemme. Un bandit k bras est une machine sous pour laquelle on a le choix entre k bras, chaque essai ncessitant lintroduction dune pice dans la machine. Chaque bras dlivre un revenu alatoire ; les revenus dlivrs par les diffrents bras sont supposs tre des variables alatoires indpendantes dont lesprance est inconnue. Le problme consiste alors slectionner rapidement le bras dont le revenu espr est le plus haut. Plus prcisment, il sagit de dterminer une politique spciant quel sera le prochain bras essay compte tenu des statistiques accumules sur tous les bras. Divers critres doptimisation peuvent tre dnis pour dterminer cette politique. Un critre classiquement
319
considr est le suivant :

T
max E
t=1
t rt ,
(10.5)
o rt est le revenu reu lors de lessai t, T est le nombre dessais et un facteur dactualisation. Lexploitation consiste choisir le bras dont lestimation courante est la meilleure tandis que lexploration consiste choisir un autre bras, peut-tre sousestim. Une politique dexploration optimale vis--vis dun critre tel que celui formul par lquation (10.5) peut tre calcule sous diverses hypothses concernant les distributions de probabilit des revenus et dans diffrents cadres formels baysien, non baysien. Le livre de Berry et Fristedt [?] compile les rsultats classiques obtenus sur le sujet. Quelques travaux [?, ?] ont tudi la possibilit de transposer la thorie des bandits multi-bras aux MDP pour concevoir des politiques dexploration efcaces en A/R. Chang et al. [?] ont rcemment propos de lappliquer lalgorithme de Kearns (voir section 10.2.4). Lide est de considrer un MDP comme un ensemble de |S | bandits |A| bras, le revenu dlivr tant le critre long terme pour chaque tat considr. Meuleau et Bourgine [?] dmontrent que certaines des hypothses requises pour obtenir une exploration optimale indpendance de chaque bras pour un bandit donn, stationnarit de chaque bandit et indpendance de chaque bandit ne sont pas satisfaites par les |S | bandits interdpendants associs un MDP. Nanmoins des politiques dexploration heuristiques efcaces sont dduites du cadre des bandits multibras. Ces politiques sont bases sur la propagation de lincertitude associe chaque paire tat/action. Toutefois, le problme de lexploration pour le dveloppement en ligne dun arbre se formule diffremment de celui habituellement rencontr en A/R. En effet, nous ne devons pas perdre de vue que seule laction at induit un cot rel. Ce cot est induit une fois que larbre a t dvelopp et laction at excute. Les cots induits lors du dveloppement de larbre ne sont que simuls et un critre comme celui formul par lquation (10.5) nest donc pas appropri pour dnir une politique dexploration en ligne. Issu du domaine de loptimisation stochastique, ou optimisation par simulation [?], le cadre de loptimisation ordinale propose par contre un critre doptimisation plus adapt notre problme dexploration en ligne. Loptimisation ordinale est dnie par la donne de k candidats 1 , ..., k , avec E [J (i , )] la performance moyenne de chacun des candidats. Il sagit de trouver : i = argmin E [J (i , )].
i
320
PDM en IA
La performance J (i , ) est le rsultat dune simulation, et E [J (i , )] est typiquement estim par la moyenne : i = 1 J Ni
Ni
J (i , ij )
j =1
sur Ni ralisations pour le candidat i . Pour un nombre total N = N1 + + Nk de simulations alloues la rsolution du problme, le meilleur systme est alors estim par i , avec i . i = argmin J
i
Un critre classiquement considr pour valuer des rgles dallocation des simulations est alors dni par P (SC ), la probabilit de slection correcte du systme optimal parmi les k candidats : P (SC ) = P (b = i ). Le rsultat principal tabli ce jour pour loptimisation ordinale est quil est possible de construire des rgles simples de contrle pour distribuer N selon N1 , N2 , qui assurent une convergence exponentiellement rapide en N de P (SC ) vers 1, malgr le i vers J (i ) ne peut se faire au mieux quen 1/ N . Le fait que la convergence des J principe de loptimisation ordinale repose ainsi sur ce rsultat, savoir quil est bien plus simple de classer les candidats que destimer prcisment leur valeur. Diffrentes rgles de contrle ont t proposes dans la littrature, depuis la rgle dallocation uniforme Ni = N/k jusquaux rgles dallocation optimale proposes par Chen et al., dont OCBA (optimal computing budget allocation) [?, ?], qui reposent sur une approximation du critre P (SC ) dans un cadre baysien et sous des hypothses de normalit des sorties de simulation J (i , ). Le problme de lexploration pour le dveloppement en ligne dun arbre peut ainsi tre abord comme un problme dexploration ordinale, un candidat tant une action. Dans le cas particulier o larbre ne comporte quun unique tat autrement dit lorsque lon considre un arbre de profondeur 1 les deux types de problmes sont quivalents. Des exprimentations numriques menes dans [?] montre en particulier sur quelques problmes simples la supriorit de la mthode OCBA sur les mthodes dexploration issues de lA/R. On peut galement citer les travaux de Wang et al. [?] qui proposent une mthode baysienne pour la slection des actions lors du dveloppement de larbre. Cette mthode fait preuve dune grande efcacit exprimentale sur quelques problmes simples. 10.3.3. Focused Reinforcement Learning Comme pour les algorithmes heuristiques de recherche dcrits la section 10.2.3, le schma gnral de lalgorithme Focused Reinforcement Learning (FRL) [?] est une alternance de phases dexpansion de larbre et de phases de mises jour.
321
La stratgie de contrle consiste suivre rptitivement des trajectoires de longueur H depuis ltat courant st jusqu un tat feuille st+H . Contrairement lalgorithme de Kearns et al., la largeur globale N nest plus spcie mais dpend de la paire tat/action considre. Contrairement lalgorithme Rollout, lexploration nest pas limite au premier coup, mais tout lhorizon H puisque les trajectoires sont guides suivant une certaine politique dexploration. De plus, an de maintenir un bon compromis global entre profondeur et largeur, lhorizon H est contrl dynamiquement sur la base de lestimation de lerreur due la simulation. Cette estimation est une heuristique indiquant si certaines paires tat/action requirent davantage de simulations. Lide est dincrmenter H lorsque cette estimation de lerreur est stabilise. 10.3.3.1. Estimation dune erreur dchantillonnage globale Nous avons vu que la recherche avant pouvait tre pathologique en raison de lamplication de lerreur due la simulation. An de contrler laugmentation de H , FRL estime cette erreur selon une approche heuristique dcentralise. Une telle approche consistant propager une erreur travers un graphe markovien a t propose par Meuleau et Bourgine [MEU 99b] an de concevoir des politiques dexploration en A/R. Pour une paire tat/action donne, lerreur dchantillonnage peut tre estime en utilisant un intervalle de conance. Les intervalles de conance sont un outil statistique lmentaire couramment utiliss pour quantier lincertitude, notamment lorsque des mthodes par simulation de type Monte-Carlo sont mises en uvre. Pour toute paire tat action (s, a) de largeur locale N , on dnit ainsi lerreur locale e(s, a) comme :
1 tN \2 e(s, a) = , N
o 2 = N 1 est la variance empirique s S (s,a,N ) Q(s, a) [c(s, a) + V (s )] 1 1 de V (s ), qui est lestimation de la valeur de ltat successeur s . tN \2 est la fonction de Student avec N 1 degrs de libert pour un niveau de conance asymptotique 2 (par exemple = 0.05). Linterprtation de cette erreur est la suivante : si V (s ) est une variable alatoire stationnaire normalement distribue desprance v alors : Q(s, a) [c(s, a) + v e(s, a), c(s, a) + v + e(s, a)] avec une probabilit 1 . La variable V (s ) nest pas suppose normale. De plus, comme V (s ) est une estimation, elle nest pas stationnaire son esprance volue lorsque des nuds supplmentaires sont dvelopps. FRL utilise toutefois e(s, a) pour estimer cette erreur
322
PDM en IA
locale. Notons que cette expression quantie uniquement lerreur locale dchantillon ni les erreurs dchantillonnage associes aux nage et nintgre ni lerreur due V tats successeurs de la paire tat/action (s, a). Cette erreur est alors propage travers larbre, de la mme manire que les valeurs des tats et des actions sont propages dans lquation (10.6). Ainsi, une erreur globale dchantillonnage E est dnie par : init si H = 0 min aA FH (st , a) sinon, EH,C (st ) = (10.6) o FH (s, a) = [e(st , a)+ 1 E (s )]
C s S (st ,a,C ) H 1,C
o init est une constante estimant lerreur
VV
10.3.3.2. Organiser la recherche en trajectoires successives Lalgorithme FRL suit depuis st des trajectoires successives de longueur H , o H est progressivement incrment. La politique guidant ces trajectoires est une certaine politique dexploration, conformment au schma adopt par les mthodes de lA/R. Le choix du prochain tat dvelopp ou r-estim est ainsi dtermin par la politique dexploration et la dynamique propre du systme. Par rapport aux algorithmes classiques dA/R, lalgorithme FRL se distingue sur trois points : le graphe markovien est explicit progressivement ; lide est de considrer un chantillon dtats de taille sufsante mais nanmoins raisonnable puisquil est mmoris en extension, cest--dire sans structure paramtrique8 ; les trajectoires ont une longueur spcie par un horizon de raisonnement, lequel est incrment progressivement ; les politiques dexploration les mieux fondes thoriquement sont diffrentes de celles considres habituellement. Comme les algorithmes de recherche heuristique dcrits section 10.2.3, lalgorithme FRL alterne des phases dexpansion du graphe et des phases de mise jour des valeurs des tats. Comme le suggrent les auteurs des algorithmes AO et LAO , il est en gnral plus efcace deffectuer de multiples expansions avant de faire une mise jour. De manire similaire, FRL effectue M trajectoires entre chaque mise jour. La procdure GnrerTrajectoires(st ,exp ,H ,M ) gnre M trajectoires de longueur H en suivant la politique exp depuis st . La procdure MettreAJourValeursEtats
utilise la frontire du graphe peut bien sr tre dnie par une 8. La fonction de valeur V structure paramtrique. Lobjectif de la recherche en ligne est prcisment de rduire lapproximation induite par cette structure paramtrique en la repoussant H transitions plus loin.
323
Algorithme 10.5 : Algorithme Focused Reinforcement Learning Entres : tat courant st , simulateur markovien du systme, politique dexploration exp , tolrance , taille de lchantillon de trajectoires M H1 OldE + rpter tant que |EH (st ) OldE| > faire GnrerTrajectoires(st ,exp ,H ,M ) OldE EH (st ) MettreAJourValeursEtats() H H +1 jusqu condition darrt retourner at = argminaA QH (st , a)
met jour les valeurs et les erreurs des tats dvelopps et de leurs anctres suivant les quations (10.3) et (10.6). La politique exploratoire exp peut tre choisie parmi les mthodes doptimisation ordinale, lesquels spcient pour chaque action a un ratio 0 a 1 pour distribuer N simulations parmi les A actions. Une manire naturelle de dnir une politique dexploration consiste alors considrer la politique stochastique o chaque action a est choisie avec une probabilit a . Ce procd permet de distribuer progressivement les simulations suivant les ratios a au fur et mesure que de nouvelles trajectoires sont gnres. Cette politique dexploration ne saurait toutefois bncier des garanties de convergence tablies pour les algorithmes doptimisation ordinale : pour un MDP quelconque, les valeurs des actions ne sont pas normalement distribues. De plus, elles sont non stationnaires, les valeurs estimes des actions voluant au fur et mesure que des simulations supplmentaires sont alloues parmi les tats successeurs de ltat considr. 10.3.3.3. Convergence et considrations pratiques La convergence de lalgorithme FRL peut tre tablie pour un horizon H x. Le mcanisme dincrment de lhorizon de FRL est lui dessence heuristique, lide tant dattendre davoir sufsamment de simulations pour lhorizon courant avant de lincrmenter. Il est toutefois possible de dduire du rsultat de Kearns et al. le nombre de trajectoires ncessaire pour obtenir une certaine borne sur lerreur sur la fonction de valeur avec un horizon H donn (cette borne est ncessairement minore par H ).
f rl P ROPOSITION 10.3 [?]. Convergence de FRL avec un horizon H x : soit VH la fonction de valeur dduite du graphe dvelopp par M trajectoires de longueur H en suivant une politique dexploration stochastique exp . Si pour toute paire tat/action (s, a) exp (s, a) > 0 alors : f rl VH (st ) VH (st ) presque srement quand M +,
324
PDM en IA
o VH est la fonction de valeur dduite de lalgorithme 10.1 de recherche avant. La reprsentation utilise par lalgorithme de Kearns et al. est un arbre, aucun test doccurrence ntant jamais effectu voir gure 10.8 (a). Si elle permet de dvelopper rapidement larbre, cette simplication savre en gnral peu efcace pour estimer les probabilits de transition en raison des redondances. Il est ainsi prfrable deffectuer un test doccurrence pour les tats issus dune paire tat/action donne an destimer les probabilits de transition qui lui sont attaches. Selon le principe qui est le gnralement utilis en A/R, on estime p(s | s, a) par p (s | s, a) = Ns,a s,a rapport entre le nombre de fois o ltat s a t observ comme rsultant de la paire tat/action (s, a) et le nombre de fois o cette paire (s, a) a t excute. Chaque arc issu du nud action associ a est valu par p (s | s, a), la structure darbre tant alors conserve voir gure 10.8 (b). On peut galement faire des tests doccurrence parmi tous les tats issus dun tat s donn. Larbre devient alors un graphe, un nud tat pouvant avoir de multiples pres voir gure 10.8 (c). En allant jusquau bout de cette dmarche, on peut galement faire des tests doccurrence parmi tous les tats dj dvelopps. Il convient de choisir la reprsentation la mieux adapte en fonction des caractristiques de lapplication vise : la probabilit quun tat soit dupliqu, le cot dun test doccurrence et la taille des chantillons dtats manipuls en ligne doivent guider ce choix.
a1 st
Ns
a st
0.67
a st
0.67
0.33 0.33
0.33 0.33
a2 (a)
0.67
0.67
(b)
(c)
Figure 10.8. Diffrentes reprsentations du graphe markovien explicit en ligne
Comme Kearns et al. le relvent, les erreurs survenant sur les nuds situs une faible profondeur dans larbre ont une plus forte incidence que ceux situs plus profondment. En consquence, ils suggrent que la rpartition des simulations doit dcrotre avec la profondeur, par exemple proportionnellement 2i , o i, 1 i H est la profondeur du nud considr. La stratgie par trajectoire suivie dans FRL tend rpartir les simulations proportionnellement (|A||S 1 (s,a)|)i . Ceci tend favoriser trs fortement les nuds les plus proches de la racine. On peut compenser ce phnomne en choisissant comme tat initial dune trajectoire un tat situ une profondeur i > 1. Une manire pertinente de choisir un tel tat est de parcourir une trajectoire de longueur i depuis st : le rle des i premires transitions simules nest alors plus tant damliorer la prcision avec laquelle les nuds proches de la racine sont estims que
325
de permettre la slection de nuds prometteurs situs plus profondment. Au bilan, suivre continuellement des trajectoires depuis st permet de rpartir efcacement les simulations dans larbre. Nous avons vu que la valeur dun tat du graphe est estime par Vn (s) = minaA QNs,a (s, a) o n = aA Ns,a . Lorsque les valeurs de n considres sont faibles, la variance de cet estimateur est forte. Il peut ainsi tre protable dintroduire une pondration et de dnir une rgle de mise jour incluant un taux dapprenavec la fonction V + (1 tissage n . Lquation prcdente est alors remplace par Vn (s) = n .V n ). minaA QNs,a (s, a) o 0 < n < 1 dcrot avec n. On obtient l une rgle de mise jour similaire celles dnissant les algorithmes de type Q-learning. pour lenLalgorithme FRL nambitionne pas damliorer la fonction de valeur V semble des tats S travers une structure paramtrique comme le font gnralement les algorithmes dA/R : les calculs sont effectus dans le seul but de slectionner une bonne action pour ltat courant st . Il est toutefois possible de rutiliser le graphe GH (st ) dj dvelopp pour slectionner une bonne action pour st+1 . Aprs lexcution relle de la transition st , at , st+1 , si st+1 appartient lensemble SH (st ) des tats explicits dans GH (st ), alors le graphe GH (st+1 ) nest plus initialement rduit st+1 et contient tous les tats successeurs de st+1 dans Gt . En pratique, on peut restreindre le test dappartenance lensemble aA S (st , a, Nst ,a ) des tats successeurs de st dans GH (st ). Ce principe a t appliqu divers algorithmes de recherche de type A , en particulier pour des problmes de replanication en temps rel voir par exemple les travaux de Koenig et al. [?, ?] ou ceux de Garcia [?].
10.3.4. Controlled Rollout Nous terminons ce chapitre par la prsentation dune version amliore de lalgorithme Rollout baptise Controlled Rollout [?]. 10.3.4.1. Choix de lhorizon Comme pour lalgorithme de Kearns et al., la question du choix de lhorizon dans lalgorithme Rollout vise tablir un bon compromis entre biais et variance. Le problme considr est toutefois diffrent, puisquune seule politique est value audel de la premire transition simule (rappelons que la complexit de lalgorithme Rollout est linaire en H ). Le rsultat gnral suivant propose une borne probablement approximativement correcte sur lerreur dvaluation dune politique par N trajectoires simules sur un horizon H . Ce rsultat est formul pour le critre -pondr en horizon inni.
1 t n Proposition 1 Soit VH,N (s) = N n=1 t=0 ct lestimation de V (s) obtenue en simulant une politique sur N trajectoires de longueur H depuis s.
H 1
326
PDM en IA
Avec une probabilit au moins gale 1 :

|V (s) VH,N (s)|
cmax H + (1 H ) 1
2 ln( ) , 2N
o cmax est le cot instantan maximal. Il suft ainsi pour obtenir lhorizon optimal H de minimiser numriquement (la rsolution analytique dbouche sur une quation du cinquime degr) cette quantit pour une largeur N donne. La tolrance peut tre choisie comme gale 0.05 par exemple. Ce rsultat est valable au-del de lalgorithme Rollout pour valuer une politique par simulation depuis un tat donn. Un rsultat analogue est tabli par Kearns et Singh [?] pour lalgorithme TD-. Il est bas sur la thorie de lanalyse des grandes dviations. Toutefois, leur dmonstration suppose que la politique considre est value pour chaque tat de S , ce qui en limite la porte des MDP de taille raisonnable. 10.3.4.2. Allocation itrative des simulations Pour chaque tat courant, lalgorithme Rollout a pour but de dterminer la meilleure des |A| actions par simulation. Les mthodes doptimisation ordinale sont directement applicables pour effectuer une allocation informe et incrmentale des simulations par un algorithme comme OCBA. Par rapport une allocation uniforme de N simulations pour chaque action, elles permettent damliorer le choix de laction courante, au prix de calculs supplmentaires chaque itration (voir algorithme 10.6 ci-dessous). Algorithme 10.6 : Algorithme Controlled Rollout Entres : tat courant st , simulateur markovien du systme, politique amliorer , nombre total de simulations C , nombre de simulations alloues chaque itration n, tolrance . C Calculer H minimisant lerreur de la proposition 1 en posant N = |A |H pour l1 rpter Calculer les ratios a pour chaque action a selon la mthode OCBA Pour chaque action a, effectuer n.a trajectoires supplmentaires de longueur H pour calculer Q (st , a) l l+1 jusqu nl > C retourner at = argminaA Q (st , a)
Lalgorithme Controlled Rollout propose ainsi une amlioration de lalgorithme Rollout en optimisant dune part la longueur des trajectoires simules, et dautre part
327
en contrlant lallocation des simulations par une mthode doptimisation ordinale (OCBA). 10.4. Conclusion Nous avons vu dans ce chapitre les possibilits offertes par la recherche en ligne pour aborder des MDP de grande taille, en particulier par lemploi de la simulation stochastique. Ainsi, la recherche en ligne permet de dterminer rapidement une action courante de bonne qualit et damliorer ce choix au fur et mesure que des simulations supplmentaires sont alloues. La cl dune recherche en ligne efcace rside dans la stratgie dallocation des simulations qui doit raliser de bons compromis entre profondeur et largeur dune part, et entre exploitation et exploration dautre part. En dpit de lintrt quelles prsentent, et bien que naturellement utilises par presque tous les programmes de jeux deux joueurs, les techniques de recherche en ligne sont encore relativement peu exploites dans le cadre des MDP. Ainsi, la grande majorit des travaux sur la rsolution des MDP de grande taille se concentre sur le calcul hors ligne dune politique ou une dune fonction de valeur approximative. La recherche en ligne peut pourtant permettre damliorer signicativement la performance dune politique, au prix dun effort calculatoire certes important. Si les travaux de Tesauro [?] ont ouvert la voie, peu de chercheurs lont emprunte. Outre les travaux prsents ci-dessus, on peut toutefois noter un rcent regain dintrt pour les mthodes en ligne pour les MDP, et en particulier pour les mthodes de recherche bases sur la simulation stochastique par exemple les travaux de Chang [?, ?] ou de Bent et Van Hentenryck [?] appliqus au routage de paquets dans les rseaux de tlcommunications. Citons enn lalgorithme UCT de Kocsis et Szepesvari [?] fond sur la thorie des bandits manchots et qui sest avr exprimentalement sur diffrents problmes incluant le jeu de Go [?].
Chapitre 11
Programmation dynamique avec approximation de la fonction de valeur
Lutilisation doutils pour lapproximation de la fonction de valeur est essentielle pour pouvoir traiter des problmes de prise de dcisions squentielles de grande taille. Les mthodes de programmation dynamique (PD) et dapprentissage par renforcement (A/R) introduites aux chapitres 1 et 2 supposent que la fonction de valeur peut tre reprsente (mmorise) en attribuant une valeur chaque tat (dont le nombre est suppos ni), par exemple sous la forme dun tableau. Ces mthodes de rsolution, dites exactes , permettent de dterminer la solution optimale du problme considr (ou tout au moins de converger vers cette solution optimale). Cependant, elles ne sappliquent souvent qu des problmes jouets, car pour la plupart des applications intressantes, le nombre dtats possibles est si grand (voire inni dans le cas despaces continus) quune reprsentation exacte de la fonction ne peut tre parfaitement mmorise. Il devient alors ncessaire de reprsenter la fonction de valeur, de manire approche, laide dun nombre modr de coefcients, et de rednir et analyser des mthodes de rsolution, dites approches pour la PD et lA/R, an de prendre en compte les consquences de lutilisation de telles approximations dans les problmes de prise de dcisions squentielles. E XEMPLE. Revenons, une fois de plus, au cas de la voiture dont on veut optimiser les oprations dentretien (voir tome 1, section 1.1). Nous avons vu que le nombre dtats possibles de la voiture pouvait tre trs grand, bien quil puisse parfois tre factoris (voir chapitre 9, page 275). Mais, mme si on sintresse un seul lment de la voiture, les freins par exemple, le nombre dtats peut tre inni : il suft de caractriser ltat dusure des freins par lpaisseur des plaquettes de frein. Ltat de
Chapitre rdig par Rmi M UNOS.
330
PDM en IA
la voiture peut varier de faon continue dans un intervalle donn et toutes les mthodes vues prcdemment sont alors inutiles car elles font lhypothse que lespace dtat est ni. Les formalismes abords dans ce chapitre permettent de prendre en compte cette problmatique dtat continu (comme le montre explicitement lexemple de la section 11.2.3) et, par la mme, de grer des problmes avec un grand nombre dtat. Dans ce chapitre, nous tudions lutilisation doutils dapproximation de fonctions (domaine appel apprentissage supervis, apprentissage statistique, ou encore thorie de lapproximation, selon diverses communauts scientiques) pour la reprsentation de la fonction de valeur et gnralisons les mthodes de PD et dA/R prcdemment tudies dans ce cadre de rsolution approche. Des bornes sur la perte en performance rsultante de lutilisation de reprsentations approches sont tablies en fonction de la capacit et la richesse dapproximation des espace dapproximation considrs.
11.1. Introduction Le dsir dutiliser des fonctions approches en programmation dynamique (PD) remonte aux origines mmes de ce domaine. Par exemple Samuel [SAM 67] a utilis des approximations linaires de la fonction de valeur pour le jeu de dames, Bellman et Dreyfus [BEL 59] des polynmes an dacclrer la PD. Une premire analyse thorique est entreprise dans [REE 77]. Plus rcemment, lapprentissage par renforcement (A/R) et la PD combins des reprsentations de fonctions ont permis de rsoudre avec succs plusieurs applications de taille relle ; par exemple le programme TD-Gammon [TES 95] utilisant une reprsentation laide dun rseau de neurones, a produit un programme champion du monde de backgammon. Dautres exemples dapplications concernent la recherche oprationnelle et lordonnancement de tches [ZHA 95], le contrle dune batterie dascenseurs [CRI 97], la maintenance de machines en usine [MAH 97], la rpartition dynamique de canaux tlphoniques [SIN 97], lallocation de siges dans les avions [GOS 04]. Quelques applications spciques sont dcrites plus prcisment dans les parties 2 et 4 de cet ouvrage. Lobjet de ce chapitre est de prsenter de manire succincte les problmatiques nouvelles dune rsolution approche de problmes de PD et dA/R ainsi que des bornes sur la perte en performance lorsque lon utilise une approximation de la fonction de valeur. Par souci de simplicit de la prsentation, nous considrons ici uniquement le cas dun critre actualis (ou -pondr) sur un horizon temporel inni. Ainsi, pour une politique stationnaire xe (fonction qui associe une action chaque tat), la fonction de valeur V est dnie par lesprance de la somme des rcompenses actualises venir : V (s) = E
t0 def
t r(st , (st ))|s0 = s, .
(11.1)
Programmation dynamique avec approximation
331
Dautres critres (horizon temporel ni ou problmes non actualiss) font lobjet dune analyse conceptuelle similaire, mais prsentent des diffrences dans le formalisme mathmatique. Pour ces extensions, nous renvoyons le lecteur au travail de synthse de Bertsekas et Tsitsiklis [BER 96]. Lapproche suivie dans ce chapitre consiste dterminer une approximation de la fonction de valeur optimale, avec lespoir que la performance de la politique gloutonne dduite dune telle approximation soit proche de la performance optimale. Cet espoir est justi par le fait que si V est une bonne approximation de la fonction de valeur optimale V , alors la performance V de la politique gloutonne par rapport V est proche de loptimum V . Rappelons que lon dit quune politique est gloutonne par rapport V (on dit aussi que est dduite de V ) si, en tout tat s S , laction (s) est une action qui maximise la rcompense immdiate plus lesprance (actualise) de V ltat suivant, cest--dire, (s) arg max r(s, a) +
aA s S
p(s |s, a)V (s ) .
En effet, on a le rsultat suivant [BER 96] (p.262) : P ROPOSITION 11.1. Soit V une fonction valeurs relles dnie sur S et une politique gloutonne par rapport V . Alors la perte en performance rsultante de lutilisation de la politique (au lieu de la politique optimale), cart entre la fonction de valeur V et la fonction de valeur optimale V , est majore selon 2 ||V V || ||V V || , (11.2) 1 o |||| est la norme sup, note L (i.e. ||f || = maxsS |f (s)|), et le coefcient dactualisation. Remarquons que, pour toute fonction V , la fonction de valeur V na aucune raison dtre gale V . Cette majoration donne une justication notre approche qui consiste chercher une bonne approximation de la fonction de valeur optimale (||V V || petit) an den dduire une politique dont la performance est proche de loptimum (||V V || petit). La preuve tant lmentaire, on linclut maintenant. P REUVE. On rappelle la dnition des oprateurs de Bellman L et L (dnis au chapitre 1, section 1.5.2) : pour toute fonction W valeurs relles dnie sur S , LW (s) L W (s)
def def
max r(s, a) +
aA s S
p(s |s, a)W (s ) , p(s |s, (s))W (s ).
def
r(s, (s)) +
s S
L peut aussi scrire (en notation vectorielle) L W = r + P W , o P est la matrice de transition pour la politique , dont les lments (s, s ) sont p(s |s, (s)), et r le vecteur de composantes r(s, (s)).
332
PDM en IA
Une proprit des oprateurs L et L est quils sont des contractions en norme L avec un coefcient de contraction . Cela signie que, pour tout couple de fonctions W1 et W2 dnies sur S , on a ||LW1 LW2 || ||W1 W2 || et de mme pour loprateur L . Nous laissons la dmonstration (simple) de cette proprit au lecteur. Du fait que V et V sont respectivement les points xes des oprateurs L et L (i.e. V = LV et V = L V ), en utilisant lingalit triangulaire, il vient : ||V V || ||LV L V || + ||L V L V ||
= ||LV LV || + ||V V || ||V V || + (||V V || + ||V V || ), o la seconde ligne utilise la dnition que est gloutonne par rapport V , i.e. LV = L V . On en dduit la majoration sur lcart entre la performance V de la politique gloutonne par rapport V , et la performance optimale V : ||V V || 2 ||V V || . 1
An de construire une bonne approximation de la fonction de valeur optimale, nous gnralisons les algorithmes de PD et dA/R vus aux chapitres prcdents. Nous commenons par prsenter lalgorithme ditrations sur les valeurs lorsque lon utilise une reprsentation approche de la fonction de valeur. Nous abordons ensuite dans les sections 11.3 et 11.4 lalgorithme ditrations sur les politiques et les mthodes de minimisation du rsidu de Bellman. Puis, la section 11.5, nous expliquons les limites de lanalyse en norme L de la programmation dynamique et explorons une extension une analyse en norme Lp (pour p 1) an dtablir des premiers liens avec le domaine de lapprentissage statistique et de fournir des bornes en fonction de la capacit et la richesse des espaces dapproximation considrs. 11.2. Itrations sur les valeurs avec approximation (IVA) A nouveau, nous considrons la rsolution dun processus dcisionnel de Markov (MDP) [PUT 94] utilisant un critre actualis avec horizon temporel inni. Lespace des tats est suppos grand (mais ni pour linstant, an de simplier les notations). Comme on la vu au chapitre 1, lalgorithme ditrations sur les valeurs consiste calculer la fonction de valeur optimale V par valuation successive de fonctions Vn selon le schma ditrations Vn+1 = LVn , o L est loprateur de Bellman dni prcdemment. Grce la proprit de contraction (en norme L ) de loprateur L, les itrs Vn convergent vers V (le point xe de L) lorsque n (car on a ||Vn+1 V || = ||T Vn T V || ||Vn V || n ||V1 V || ).
333
Lorsque le nombre dtats est tel quune reprsentation exacte des fonctions Vn est impossible mmoriser, nous devons considrer une mthode de rsolution utilisant des reprsentations approches des Vn ; ce qui nous mne dnir lalgorithme ditrations sur les valeurs avec approximation (IVA). IVA est trs populaire et est depuis longtemps implment de diverses manires en programmation dynamique [SAM 59, BEL 59] et plus rcemment dans le contexte de lapprentissage par renforcement [BER 96, SUT 98], par exemple le tted Q-iteration [ERN 05] qui construit une approximation de la fonction de valeur daction optimale, partir dobservations de transitions. Notons F lespace des fonctions reprsentables considr. Par exemple, F peut tre un sous-espace vectoriel engendr par un ensemble ni de fonctions gnratrices (appeles features). Toute fonction de F se dnit alors par un nombre ni de coefcients, comme la combinaison linaire des fonctions gnratrices pondres par ces coefcients. On parle alors dapproximation linaire. Lalgorithme IVA construit une squence de reprsentations Vn F calcules selon les itrations : Vn+1 = ALVn , (11.3)
o L est loprateur de Bellman et A un oprateur dapproximation par des fonctions de F . Par exemple, dans le cas de lapproximation linaire, A est un oprateur de projection orthogonale sur F , cest dire : Af F est la fonction de F qui ralise la distance minimale f : ||Af f || = inf gF ||g f || (pour une certaine norme issue dun produit scalaire). Ainsi, IVA consiste en une squence ditrations o chaque tape, une nouvelle reprsentation Vn+1 F sobtient en projetant sur F limage par loprateur de Bellman L de lestimation prcdente Vn . Litration (11.3) est illustre sur la gure 11.1. Lorsque lopration dapproximation est ralise partir de donnes (chantillons) (par exemple pour une projection minimisant une erreur empirique), on parle alors dapprentissage supervis ou de rgression (voir par exemple [HAS 01]) ; ce cas est illustr au paragraphe suivant.
11.2.1. Implmentation partir dchantillons et apprentissage supervis A titre dillustration, IVA utilisant une version chantillonne pour ltape de projection est dnie de la manire suivante : ltape n, on choisit K tats (sk )1kK tirs de manire indpendante selon une certaine distribution sur lespace dtats S . On calcule limage, par loprateur de Bellman, de Vn en ces tats, dnissant def ainsi les valeurs {vk = LVn (sk )}. Puis on fait appel un algorithme dapprentissage supervis avec pour donnes dapprentissage les couples (entres, sorties dsires) :
334
PDM en IA
L L Vn A
V*
F L Vn+1 Vn
Figure 11.1. Reprsentation schmatique dune itration de lalgorithme IVA : lespace dapproximation F est un sous-espace vectoriel de dimension nie. Vn F reprsente lapproximation linstant n. Loprateur de Bellman L est appliqu Vn (LVn na pas de raison dappartenir F , cest dire dtre reprsentable dans cette architecture dapproximation) puis la projection A sur F dnit la reprsentation suivante Vn+1 = ALVn . La fonction de valeur optimale V (point xe de L) est aussi reprsente.
{(sk , vk )}1kK . Ce dernier retourne une fonction Vn+1 F qui minimise une erreur empirique, par exemple : Vn+1 = arg min
f F
1 K
f (sk ) vk .
1kK
(11.4)
Cette fonctionnelle utilise une norme quadratique L2 , comme cela est le cas pour les mthodes de moindres carrs, la rgression linaire locale, les rseaux de neurones, et bien dautres algorithmes dapprentissage supervis. Bien entendu, dautres fonctionnelles utilisant dautres normes, comme la norme L1 (valeur absolue) ou des variantes (par exemple la norme L1 -insensible utilise dans les SVM [VAP 98]) ainsi que des fonctionnelles pnalises sont souvent utilises. Ce problme de rgression est un cas particulier dapprentissage supervis (ou apprentissage statistique). Nous nabordons pas dans ce chapitre les enjeux importants de ce domaine, et renvoyons le lecteur intress aux rfrences usuelles, par exemple [HAS 01]. Mentionnons seulement que lapproximation linaire consiste raliser une projection sur un espace vectoriel engendr par une famille nie de fonctions donnes, et
335
inclut les dcompositions sur des splines, fonctions radiales, bases de Fourier ou ondelettes. Cependant, une meilleure rgression est souvent obtenue lorsque la famille de fonctions engendrant lespace sur laquelle est faite la projection est choisie en fonction des rgularits de la fonction approcher. On parle alors dapproximation nonlinaire, celle-ci pouvant tre particulirement efcace quand la fonction recherche possde des rgularits locales (par exemple, dans des bases dondelettes adaptatives [MAL 97], de telles fonctions peuvent tre reprsentes de manire compacte avec peu de coefcients non-nuls). Des algorithmes gloutons, comme le matching pursuit et diverses variantes [DAV 97] slectionnent les meilleures fonctions de base dans un dictionnaire donn. La thorie de lapproximation tudie les erreurs dapproximation en fonction des rgularits de la fonction cible [DEV 97]. En apprentissage statistique, dautres outils dapproximation non-linaire trs souvent utiliss sont les rseaux de neurones, la rgression linaire locale [ATK 97], les machines vecteurs de support et les mthodes noyaux dans les espaces de Hilbert noyaux reproduisant [VAP 97, VAP 98]. 11.2.2. Analyse de lalgorithme IVA Considrons lalgorithme IVA dni par litration (11.3) et dnissons n = LVn Vn+1
def
(11.5)
lerreur dapproximation ltape n. En gnral, IVA ne converge pas vers la fonction de valeur optimale V (contrairement lalgorithme ditrations sur les valeurs) car V na a priori aucune raison dappartenir lespace de reprsentation F . De plus, mme si V F , on ne dispose en gnral daucune garantie que les itrs Vn convergent vers V . En ralit, IVA peut osciller voire diverger, comme cela est illustr sur des exemples simples dcrits dans [BAI 95, TSI 96a] et [BER 96] (p. 334). Pourtant, cet algorithme est trs populaire car il a souvent produit de bons rsultats dun point de vue exprimental. Pour comprendre les raisons qui mnent des comportements si varis selon les applications, on dsire analyser le comportement de IVA et tablir des bornes sur la performance de cet algorithme. Un premier rsultat tablit une majoration sur la perte en performance (par rapport la performance optimale) rsultante de lutilisation de la politique n gloutonne par rapport Vn , en fonction des erreurs dapproximation n commises chaque tape. P ROPOSITION 11.2 [BER 96]. En notant n la politique gloutonne par rapport lapproximation Vn , et V n la fonction de valeur associe cette politique, on a : lim sup ||V V n ||
n
2 lim sup ||n || . (1 )2 n
(11.6)
336
PDM en IA
P REUVE. Daprs (11.2) appliqu Vn , nous dduisons ||V V n || De plus, ||V Vn+1 || ||LV LVn || + ||LVn Vn+1 || 2 ||V Vn || . 1 (11.7)
||V Vn || + ||n || . Maintenant, en passant la limite suprieure, il vient lim sup ||V Vn ||
n
1 lim sup ||n || , 1 n
ce qui, combin (11.7), mne (11.6). Remarquons que cette borne sexprime en fonction de la norme L des erreurs dapproximation n , cest--dire quelle dpend de la plus grande erreur n (s) sur tout le domaine (lorsque s parcourt S ). Cette erreur uniforme est en gnral difcile matriser, particulirement pour des problmes de grande taille. De plus, elle nest pas trs utile en pratique puisque la plupart des mthodes dapproximation de fonction et algorithmes dapprentissage supervis rsolvent, comme on la illustr au paragraphe 11.2.1, un problme de minimisation empirique en norme L2 ou L1 . Nous verrons la section 11.5 une extension de la proposition 11.2 des normes Lp (pour p 1). Mentionnons toutefois lexistence de travaux [GOR 95, GUE 01a] portant sur des approximations de fonction utilisant la norme L tels les averagers (implments par exemple par la mthode des k -plus proches voisins) dans le cadre de la PD. 11.2.3. Illustration numrique Dans cette partie nous illustrons le fonctionnement de lalgorithme IVA pour un problme de remplacement optimal, inspir de [RUS 96]. Nous montrons aussi sur cet exemple le fait que les rsultats prcdents se gnralisent naturellement au cas o lespace dtats est continu. Une variable mono-dimensionnelle st S = [0, smax ] mesure lutilisation accumule dun certain produit (par exemple le compteur kilomtrique dune voiture mesure ltat dusure de celle-ci). st = 0 dsigne un produit tout neuf. A chaque instant discret t (par exemple tous les ans), il y a deux dcisions possibles : soit conserver (at = C), soit remplacer (at = R) le produit, auquel cas, un cot supplmentaire Cremplace (de vente du produit courant suivi du rachat dun nouveau bien) est peru. On suppose que les transitions suivent une loi exponentielle de paramtre avec une queue tronque : si ltat suivant y est plus grand quune valeur maximale xe
def

70 70
337
Cot dentretien
60 60 50 50 40 40 30 30 20
Fonction valeur
20 10
usure
0 0 1 2 3 4 5 6 7 8 9 10
C
10 0 1 2 3 4
R
5 6
C
7
RC
8
R
9 10
Figure 11.2. Fonctions cot dentretien immdiat c et fonction de valeur optimale V . Lindication R et C sur la gure de droite indique la politique optimale (gloutonne par rapport V ) en fonction de ltat.
smax (par exemple un tat critique dusure de la voiture) alors un nouvel tat est immdiatement tir et une pnalit Cmort > Cremplace est reue. Ainsi, en notant p(|s, a), la densit de probabilit de ltat suivant sachant que ltat courant est s et laction choisie est a {C, R} (cest--dire que pour tout ensemble B S , la probabilit dtre dans B linstant suivant est B p(ds |s, a)), on dnit :
p(s |s, R)
def
q (s ) 0
si s [0, smax ] sinon. si s [s, smax ] si s [0, s) sinon.
p(s |s, C)
def
q (s s) q (s s + smax ) 0
avec q (s) = es /(1 esmax ) (densit exponentielle tronque). Le cot immdiat (oppos dune rcompense) c(s) est la somme dune fonction monotone lentement croissante (qui correspond par exemple des cots de maintenance) et dune fonction cot ponctuellement discontinue (par exemple les cots de rvision). Le cot immdiat et la fonction de valeur optimale (calcule de manire analytique) sont reprsentes sur la gure 11.2 pour les valeurs numriques suivantes : = 0.6, = 0.6, Cremplace = 50, Cmort = 70 et smax = 10. Nous considrons limplmentation de lalgorithme IVA base dchantillons ddef crite au paragraphe 11.2.1. Les tats considrs {sk = ksmax /K }0k<K (avec K = 200) sont uniformment rpartis sur le domaine S . Lespace fonctionnel dapproximation considr F est lespace vectoriel de dimension M = 20 engendr par
def
338
PDM en IA
une famille de cosinus :

M
F =
def
V (s) =
def m=1
m cos(m
s ) smax
IRM
Ainsi, chaque itration n, la nouvelle approximation Vn+1 F est obtenue en rsolvant le problme de rgression quadratique : Vn+1 = arg min
f F
1 K
f (sk ) LVn (sk ) .

k=1
Nous commenons avec une fonction de valeur initiale V0 = 0. La gure 11.3 reprsente la premire itration : les valeurs itres {LV0 (sk )}1kK par loprateur de Bellman (indiques par les croix sur la gure de gauche) et la rgression correspondante V1 F (meilleure approximation de LV0 dans lespace F ). La gure 11.4 illustre de manire analogue la seconde itration. La gure 11.5 montre la fonction de valeur approche V20 F obtenue aprs 20 itrations. Dans cette simulation, lalgorithme IVA fonctionne bien et une bonne approximation de la fonction de valeur optimale V est obtenue dans F .
70 70
60
60
50
++
++++ ++ ++ ++ ++ ++ ++ + ++ ++ ++ ++ ++ ++ ++
++
++
50
40
++ ++ ++
40
30
++ ++ ++ + + ++ ++ ++ ++ ++ ++ +
++
+ ++
30
20
++ + ++ ++ ++ ++
++
20
10
+ ++ ++ ++ ++ ++
++
++
10
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Figure 11.3. Valeurs itres {LV0 (sk )}1kK (gure de gauche), meilleure approximation V1 F de LV0 , ainsi que la fonction de valeur optimale (gure de droite).
11.3. Itrations sur les politiques avec approximation (IPA) Nous considrons maintenant lalgorithme ditrations sur les politiques avec approximation (IPA) [BER 96] gnralisant lalgorithme ditrations sur les politiques vu au chapitre 1 au cas o la fonction de valeur est reprsente de manire approche. Cet algorithme est dni par la rptition des deux tapes suivantes : valuation approche de la politique : pour une politique n , on calcule une approximation Vn de la fonction de valeur V n ;

70 70
339
60
++++ ++ ++ ++ +
+++++++++++++++++++++++++
60
50
++ ++ + ++ +
++
++
+ ++
++
50
40
++
++ ++ ++ ++
++
++
++
40
30
++ ++ ++ ++
+ ++
30
20
++ ++ ++ ++
++
++
+ ++
20
10
++
10
0 0 1 2 3 4 5 6 7 8 9 10
0 0 1 2 3 4 5 6 7 8 9 10
Figure 11.4. Valeurs itres {LV1 (sk )}1kK (gure de gauche), meilleure approximation V2 F de LV1 , ainsi que la fonction de valeur optimale (gure de droite).
70
60
50
40
30
20
10 0 1 2 3 4 5 6 7 8 9 10
Figure 11.5. Approximation V20 F obtenue la 20e itration et la fonction de valeur optimale.
Amlioration de la politique : on gnre une nouvelle politique n+1 gloutonne par rapport Vn , cest--dire telle que, en tout s S , n+1 (s) arg max r(s, a) +
aA s S
p(s |s, a)Vn (s) .
(11.8)
La section 11.3.1 fournit un rsultat de majoration sur la perte en performance ||V n V || rsultant de lutilisation des politiques gnres par IPA au lieu de la politique optimale, en fonction des erreurs dapproximation des fonctions de valeur ||Vn V n || . La section 11.3.2 dcrit ltape dvaluation approche des politiques et la section 11.3.3 dtaille le cas de lapproximation linaire avec une extension de
340
PDM en IA
lalgorithme TD(), des mthodes de type moindres carrs et enn une implmentation en termes de fonction de valeur daction ne ncessitant pas la connaissance a priori des probabilits de transition. 11.3.1. Analyse de lalgorithme IPA en norme L Notons n la politique obtenue par lalgorithme IPA litration n. Soit Vn une approximation de la fonction de valeur V n et n+1 une politique gloutonne par rapport Vn , au sens dni par (11.8). Le rsultat suivant (voir par exemple [BER 96], p. 276) fournit une majoration derreur en norme L sur la perte V V n rsultant de lutilisation de la politique n au lieu de la politique optimale, en fonction des erreurs dapproximation Vn V n . P ROPOSITION 11.3. Nous avons : lim sup ||V V n ||
n
2 lim sup ||Vn V n || . (1 )2 n
(11.9)
P REUVE. Dnissons en = Vn V n lerreur dapproximation de V n par Vn , def def gn = V n+1 V n le gain en performance dune itration lautre et ln = V V n la perte en performance due lutilisation de la politique n au lieu de (quantit que lon dsire majorer). Si lerreur dapproximation est faible, alors la performance de la politique suivante ne peut pas tre bien pire que celle de la politique courante. En effet, en utilisant une notation vectorielle, on a les ingalits suivantes, composante par composante : gn = V n+1 V n = Ln+1 V n+1 Ln+1 V n + Ln+1 V n Ln+1 Vn +Ln+1 Vn Ln Vn + Ln Vn Ln V n Pn+1 gn (Pn+1 Pn ) en (o lon a utilis les dnitions des oprateurs de Bellman et le fait que la politique n+1 est gloutonne par rapport Vn , donc que Ln+1 Vn = LVn Ln Vn ), donc (I Pn+1 )gn (Pn+1 Pn )en . De plus, la matrice Pn+1 est une matrice stochastique donc na que des valeurs propres de module infrieur ou gale un. Et puisque < 1, la matrice I Pn+1 na pas de valeur propre nulle, donc elle est inversible. Et puisque son inverse (I Pn+1 )1 , qui peut se rcrire t0 (Pn+1 )t , ne contient que des lments positifs, on en dduit : gn (I Pn+1 )1 (Pn+1 Pn ) en . (11.10)
def
341
Maintenant, nous pouvons majorer la perte ln+1 litration suivante en fonction de la perte courante ln : puisque L Vn Ln+1 Vn , on a : ln+1 = V V n+1 = L V L V n + L V n L Vn + L Vn Ln+1 Vn +Ln+1 Vn Ln+1 V n + Ln+1 V n Ln+1 V n+1 [P ln Pn+1 gn + (Pn+1 P )en ].
Do lon dduit, en utilisant (11.10), que ln+1 P ln + [Pn+1 (I Pn+1 )1 (Pn+1 Pn ) + Pn+1 P ]en P ln + [Pn+1 (I Pn+1 )1 (I Pn ) P ]en .
En notant fn = [Pn+1 (I Pn+1 )1 (I Pn ) P ]en , cette dernire ingalit peut se rcrire ln+1 P ln + fn . En passant la limite suprieure, il vient (I P ) lim sup ln lim sup fn ,
n n
def
et en utilisant le mme argument que prcdemment, on dduit lim sup ln (I P )1 lim sup fn .
n n
(11.11)
Lingalit ne contenant que des termes positifs se prserve en norme :

lim sup ||ln ||
n
lim sup ||Pn+1 (I Pn+1 )1 (I + Pn ) + P || ||en || 1 n 1+ 2 ( + 1) lim sup ||en || = lim sup ||en || 1 1 (1 )2 n n
(o lon a utilis le fait que toute matrice stochastique P a une norme ||P || = 1).
342
PDM en IA
11.3.2. valuation approche dune politique Nous approfondissons maintenant la premire tape de lalgorithme IPA, cest-dire lvaluation approche de la politique. Ainsi, pour une politique donne, nous souhaitons dterminer une bonne approximation de la fonction de valeur V . Rappelons que la fonction de valeur V est dnie par lesprance de la somme des rcompenses actualises lorsque la politique est suivie (11.1) et que V satisfait lquation de Bellman : V = L V , o L est loprateur de Bellman dni par def L W = r + P W , pour tout vecteur W . Plusieurs types de mthodes permettent de dterminer une approximation de V : Mthodes itratives, similaires lalgorithme IVA, o loprateur L combin un oprateur dapproximation A est itr selon : Vn+1 = AL Vn . Un rsultat similaire la proposition 11.2 se dduit facilement. Mthodes de rsolution de systmes linaires, puisque loprateur de Bellman L est afne, V est solution du systme linaire : (I P )V = r , et des mthodes usuelles pour la rsolution (approche) de systme linaire peuvent sappliquer. Linconvnient majeur de ces mthodes est leur lourdeur computationnelle lorsque le nombre dtats est grand. Mthodes de type Monte-Carlo (MC). En reprenant la dnition mme de la fonction de valeur donne par (11.1), un estimateur non-biais de V (s) est obtenu en lanant M 1 trajectoires partant de ltat initial s, gnres en suivant la politique , et en effectuant la moyenne sur ces M trajectoires de la somme des rcompenses actualises recueillies au cours de chaque trajectoire. La variance dun tel estimateur est alors en O(1/M ). Si lon rpte ce procd partir dtats initiaux {sk }1kK rpartis selon une distribution sur S , an dobtenir les estimations {vk } de {V (sk )}, alors la meilleure fonction de F rendant compte de ces valeurs peut tre obtenue par rgression, par exemple en minimisant lerreur empirique quadratique arg min
f F
1 K
(f (sk ) vk )2 .
k=1
Il sagit de la projection (au sens de la minimisation de la norme L2 empirique base sur les donnes) de V sur F . Il existe plusieurs mthodes de rduction de variance permettant damliorer la prcision des estims. Par exemple, partir dune premire approximation grossire de la fonction de valeur, on utilise une mthode de MC sur le rsidu pour estimer une correction permettant dafner lapproximation courante, puis lon ritre ce processus (mthodes de Monte-Carlo rcursives [MUN 06]). Algorithmes de type TD(). Il sagit dalgorithmes dapproximation stochastiques [KUS 97] permettant de dterminer le point xe dun oprateur contractant. La gnralisation de ces mthodes des fonctions approches nest pas vidente dans le cas gnral (pas de preuve de convergence pour < 1) mais elles ont t appliques avec grand succs, par exemple dans la programmation du jeu de backgammon
343
[TES 95]. Cependant, dans le cas de lapproximation linaire (mthode dtaille au paragraphe suivant), des rsultats de majoration de lerreur dapproximation existent [TSI 96b]. Mthodes des moindres carrs. Dans le cas de lapproximation linaire, on peut aussi utiliser les mthodes trs efcaces de type moindres carrs, tudies au paragraphe suivant. 11.3.3. Approximation linaire et mthode des moindres carrs Dans cette section, nous considrons le cas particulier de lapproximation linaire. Ce cas a souvent t utilis en combinaison avec des algorithmes de type TD() [TSI 96b] (voir section 2.4) ou des mthodes de type moindres carrs Least Squares Temporal Differences LSTD(0) [BRA 96], LSTD() [BOY 99] et appliqu, avec succs, des problmes de contrle en grande dimension [LAG 03]. La fonction de valeur est approche par une combinaison linaire de K fonctions de bases (appels features) (k )1kK , cest--dire que lespace dapproximation F est lespace vectoriel engendr par ces features :
K
F = {V (s) =
def
def k=1
k k (s), IRK }.
Notre objectif est ainsi de dterminer un paramtre IRK tel que V soit proche de V . Commenons par tudier lextension directe de lalgorithme TD() vu au chapitre 2 au cas dune telle reprsentation de fonctions. 11.3.3.1. TD() Par soucis de simplicit de la prsentation, nous supposons ni le nombre dtats de S . Lalgorithme TD() est dni de la mme manire quau chapitre 2. On utilise un vecteur trace z IRK de mme dimension (K ) que le paramtre , initialis zro. A partir dun tat initial quelconque, on gnre une trajectoire (s0 , s1 , s2 , . . . ) en suivant la politique . A chaque instant t, on calcule la diffrence temporelle pour lapproximation V courante : dt = r(st , (st )) + V (st+1 ) V (st ) et lon met jour, la fois le paramtre et la trace z , selon t+1 zt+1 = t + t dt zt , = zt + (st+1 ),
def
o t est un pas dapprentissage et : S IRK la fonction ayant pour composantes les k .
344
PDM en IA
Cet algorithme fournit une squence dapproximations Vt qui converge, sous une hypothse dergodicit de la chane de Markov et une hypothse sur la dcroissance des pas dapprentisage t , vers une fonction dont lerreur dapproximation (par rapport V ) est majore en fonction de la meilleure approximation possible dans F . P ROPOSITION 11.4 [TSI 96 B ]. Supposons que les pas vrient t0 t = 2 et t0 t < , quil existe une distribution sur S telle que s, s S , limt P (st = s |s0 = s) = (s ) et que les vecteurs (k )1kK soient linairement indpendants. Alors t converge. Notons sa limite. On a alors ||V V || 1 inf ||V V || , 1 (11.12)
def
o || || dsigne la norme L2 pondre par la distribution , cest--dire ||f || =

sS
f (s)2 (s)
1 /2
Lorsque = 1, on retrouve le rsultat que lestimateur Monte-Carlo donne la meilleure approximation de V dans F , cest--dire la projection de V sur F . Maintenant si < 1, la qualit dapproximation se dtriore (introduction dun biais), mais la variance de lestimateur est plus faible, donc sa dtermination une prcision donne peut tre plus rapide. De part sa nature dalgorithme dapproximation stochastique, TD() est trs coteux en quantit de donnes exprimentales, au sens o il ncessite lobservation dun grand nombre de transitions st , at st+1 pour que le paramtre converge. Il faut plusieurs observations des mmes transitions pour que la valeur du paramtre se stabilise. Ce problme a motiv lintroduction de mthodes de type moindres carrs dcrites maintenant, qui sont beaucoup plus conomes en termes de donnes exprimentales. 11.3.3.2. Mthodes des moindres carrs Les mthodes de type moindres carrs Least Squares Temporal Differences [BRA 96, BOY 99, LAG 03] partent du constat que, puisque la fonction de valeur approche V est linaire en , et que loprateur L est afne, alors lapplication du def rsidu de Bellman : R = L V V est afne. Puisque la fonction de valeur recherche V a un rsidu de Bellman nul, i.e. L V V = 0, il parat naturel de chercher un paramtre tel que le rsidu de Bellman R soit le plus proche possible de 0. Deux approches sont gnralement considres (voir [SCH 02b, MUN 03]) : la solution du rsidu quadratique (RQ) : le paramtre RQ est celui qui minimise la norme du rsidu de Bellman R (voir illustration sur la gure 11.6) : RQ = arg min ||R || ,
IRK
pour une certaine norme || || ; la solution des diffrences temporelles (TD) : le paramtre TD est tel que le rsidu RTD est orthogonal tous les features k , donc F (voir gure 11.6). Ainsi,
345
VTD est le point xe de loprateur de Bellman L combin loprateur de projection orthogonale A sur F (selon la norme L2 pondre par une distribution ). Il sagit de la mme solution que celle obtenue ( la limite) par lalgorithme TD() pour = 0 (ce qui justie son nom).
A A L V F
TD
L V AV
|| residu || minimale
RQ
Figure 11.6. Approximation de la fonction de valeur V dans F . La meilleure approximation possible AV est la projection de V sur F . La solution du rsidu quadratique VRQ est celle qui minimise (dans F ) la norme ||L V V ||. La solution des diffrences temporelles VTD est telle que AL VTD = VTD
Dans les deux cas, le paramtre est obtenu en rsolvant un systme linaire de taille K (le nombre de paramtres). Ces mthodes sont appeles mthodes de projection [JUD 98] car on cherche tel que le rsidu est orthogonal un ensemble de fonctions test (les fonctions de base k dans le cas TD, les drives k R dans le cas RQ). Etudions les systmes linaires correspondants. Solution du rsidu quadratique : Puisque lapplication R est afne, la 2 fonction ||R ||2 (pour une norme L pondre par ) est quadratique. Son point de minimum (obtenu en crivant que le gradient de cette fonction est nul) est donc la solution dun systme linaire qui peut scrire A = b, avec la matrice carre A et le vecteur b (de taille K ) dnis par : Aij bi
def
i P i , j P j i P i , r
,
pour 1 i, j K pour 1 i K
def
(11.13)
346
PDM en IA
o le produit scalaire u, v u, v
def
de deux fonctions u et v (dnies sur S ) est dni selon
sS
u(s)v (s)(s).
Ce systme possde toujours une solution lorsque > 0 et la famille des k est libre (puisqualors la matrice A est symtrique dnie positive). Remarquons que ce problme peut tre considr comme un problme de rgression linaire avec un def ensemble de fonctions de base {i = i P i }i=1..K o il sagit de dterminer qui minimise || r || . Les mthodes usuelles en apprentissage supervis peuvent alors tre utilises. Lorsque est la distribution stationnaire associe la politique (i.e. satisfait la relation P = , cest dire (s) = s p(s|s , (s ))(s ) pour tout s S ), on peut obtenir une borne sur lerreur dapproximation V VRQ en fonction du rsidu minimis ou de la distance entre V et F (en norme L2 avec poids ) : P ROPOSITION 11.5. On a : ||V VRQ || 1 1 ||RRQ || = inf ||L V V || (11.14) 1 1 V F 1+ inf ||V V || . 1 V F (11.15)
P REUVE. Puisque est la distribution stationnaire associe , on a la proprit que ||P || = 1 (voir par exemple [TSI 96b]). De plus, pour tout , on a R = L V V = (I P )(V V ), (11.16)
donc en considrant RQ , nous dduisons que V VRQ = (I P )1 RRQ . Donc en norme : ||V VRQ ||
t0
||(I P )1 || ||RRQ || t ||P ||t ||RRQ || 1 ||RRQ || , 1
ce qui prouve (11.14). De plus, en prenant la norme de (11.16), il vient ||R || (1 + )||V V || et (11.15) sen dduit. Solution des diffrences temporelles : La solution des diffrences temporelles, cest--dire le point xe de loprateur de Bellman L suivi de loprateur de projection A sur F (selon la norme || || ), est obtenue en rsolvant le systme linaire A = b avec la matrice A et le vecteur b dnis selon : Aij bi
def
i , j P j i , r
,
pour 1 i, j K, pour 1 i K.
def
(11.17)
347
Il faut faire attention, car selon la distribution considre, la matrice A nest pas toujours inversible. Elle lest cependant lorsque les features (i ) forment une famille libre et que est la distribution stationnaire associe la politique [MUN 03]. Dans ce cas, la solution obtenue est celle vers laquelle converge lalgorithme TD(0) [SCH 02b]. Une consquence de la proposition 11.4 est la borne sur lerreur dapproximation en fonction de la distance entre V et F (en norme L2 pondre par ) : ||V VTD || 1 inf ||V V || . 1 V F
La gnralisation des mthodes de moindres carrs des systmes de type TD() avec > 0 (i.e. fournissant la solution de TD()) se trouve dans [BOY 99]. Remarquons que la taille du systme linaire rsoudre est K , le nombre de coefcients de lapproximation linaire (nombre de features), qui en gnral est trs infrieur au nombre dtats du systme (ce dernier pouvant mme tre inni). Cependant, pour tre applicable telle quelle, la mthode des moindres carrs ncessite de savoir calculer le rsultat de loprateur P appliqu aux fonctions de base k , ainsi que les produits scalaires (qui consistent en une somme pondre sur tous les tats pour lesquels > 0). Ce problme est dautant plus dlicat lorsque lon se situe dans un cadre apprentissage par renforcement o les probabilits de transition sont a priori inconnues de lagent dcisionnel. De plus, lorsque cette procdure dvaluation de la politique courante est mise en uvre dans un algorithme IPA, cette mconnaissance des probabilits rend problmatique ltape damlioration de la politique, qui ncessite le calcul de la politique gloutonne, selon (11.8). Ces problmes sont rsolus en introduisant, comme dans le chapitre 2, une approximation des fonctions de valeur daction Q. Cette implmentation est explicite maintenant. 11.3.3.3. Approximation linaire de la fonction de valeur daction Ici nous ne faisons plus lhypothse que les probabilits de transition p(s |s, a) sont connues de lagent dcisionnel. Par contre, nous supposons que lagent dispose dun modle gnratif [KAK 03] qui permet de gnrer un tat successeur s p(|s, a) lorsque lon se situe en un tat s et choisit une action a, et ainsi de gnrer des trajectoires en suivant une certaine politique. Lapproche suivie ici consiste approcher la fonction de valeur daction Q [WAT 89, SUT 98] au lieu de la fonction de valeur V . Nous rappelons que la fonction Q est dnie, pour tout couple tat-action (s, a), par la rcompense immdiate lorsque laction a est choisie en s plus lesprance de la somme des rcompenses actualises lorsquensuite lagent utilise la politique , cest--dire, en utilisant la dnition de V , Q (s, a) = r(s, a) +
s S def
p(s |s, a)V (s ).
348
PDM en IA
Les reprsentations en termes de fonction de valeur et fonction de valeur daction sont quivalentes : Q sexprime en fonction de V comme le montre la relation prcdente, et rciproquement, V se dnit partir de Q selon : V (s) = Q (s, (s)). Cependant, un intrt de la reprsentation en valeurs daction est que la politique gloutonne se calcule trs simplement : en tout s S , la politique gloutonne par rapport V en s est arg maxaA Q (s, a). De manire analogue lapproche suivie au paragraphe prcdent, nous considrons un espace dapproximation linaire pour la fonction Q de type :
K
F =
def
Q (s, a) =
def k=1
k k (x, a), IRK ,
o les fonctions de base k sont dsormais dnies sur lespace produit S A. Lalgorithme IPA utilisant les reprsentations sous forme de valeurs daction se dnit ainsi : litration n, ltape dvaluation approche de la politique n dtermine une approximation Qn de la fonction Qn . Ltape damlioration de la politique dnit la politique suivante n+1 selon : n+1 (s) = arg max Qn (s, a).
aA def
Les deux mthodes de type moindres carrs pour lvaluation de la politique dcrites prcdemment sappliquent immdiatement. De plus, la matrice A et le vecteur b des systmes linaires dnis par (11.13) et (11.17) peuvent tre estims partir de donnes observes, comme cela est expliqu dans [LAG 03] : une base de donnes D est construite partir de squences de trajectoires. A chaque transition (tat s, action a) vers tat s p(|s, a) avec rcompense correspondante r, on ajoute la base D, la donne (s, a, s , r). Les donnes exprimentales sur les transitions sont obtenues de manire incrmentale [BOY 99] ou partir de lobservation de trajectoires induites par diffrentes politiques [LAG 03], ou encore partir de donnes provenant de connaissances a priori sur les dynamiques dtat. A partir de cette base dexpriences D, chaque tape n de lalgorithme IPA, lorsque lon dsire valuer une politique n , nous slectionnons dans D les donnes {(sm , am , sm , rm )}1mM telles que laction choisie corresponde la politique value (i.e. am = n (sm )). A partir de cette slection de donnes, nous formulons un estimateur non-biais de A et b pour le systme des diffrences temporelles (11.17) selon : pour 1 i, j K , Aij bi
def
def
1 M 1 M
M m=1 M m=1
i (sm , am )[j (sm , am ) j (sm , n (sm ))], i (sm , am )rm .
En effet, puisque les tats suivants s sont gnrs selon p(|s, a), on a la proprit que j (s , n (s )) est un estimateur non biais de loprateur Pn appliqu j en
349
s, cest--dire s S p(s |s, a)j (s , n (s )). De plus, par la loi des grands nombres, lorsque le nombre de donnes M est grand, les moyennes ralises sur les M chantillons approchent les produits scalaires dans (11.17). Ainsi A et b sont des estimateurs non-biaiss et consistants de A et b ayant une variance en O(1/M ). Lorsque le systme (11.17) admet une solution, la solution du systme approch A = b tend vers la solution TD du systme des diffrences temporelles (11.17) lorsque M . De manire analogue, nous pourrions penser que 1 M
M
i (sm , am ) i (sm , n (sm )) j (sm , am ) j (sm , n (sm ))

m=1
(11.18) fournisse un estimateur non-biais de llment Aij pour le systme du rsidu quadratique (11.13). Or, cela est faux (voir [SUT 98], p. 220 ou [MUN 03, LAG 03]). Cet estimateur mnerait en effet une paramtrisation qui chercherait rduire la variance de la fonction de valeur daction aux tats successeurs. Le problme vient du fait que les variables alatoires i (s , n (s )) et j (s , n (s )) sont corrles. Plusieurs possibilits pour retrouver un estimateur non biais de A et b sont : Pour chaque couple tat-action (sm , am ), utiliser deux chantillons indpendants sm et sm tirs selon p(|s, a) en utilisant le modle gnratif, an de dcorrler i (s , n (s )) et j (s , n (s )). Alors, un estimateur non-biais de A et b pour le systme du rsidu quadratique (11.13) est Aij bi
def
1 M 1 M
M m=1 M m=1
i (sm , am ) i (sm , n (sm )) j (sm , am ) j (sm , n (sm )) , i (sm , am ) i (sm , n (sm )) rm .
def
Si nous ne disposons que dun seul chantillon sm par couple tat-action (sm , am ) (par exemple parce que les donnes ont t gnres en suivant des trajectoires) nous pouvons considrer le plus proche voisin sm de sm tel que (sm , am , sm , rm ) soit dans la base D. A lintroduction dun biais prs (qui provient de la distance entre sm et sm ) qui dpend de la rgularit des probabilits de transition et de la densit de donnes, ceci fournit nouveau deux chantillons dcorrls et un estimateur de A et b pour le systme (11.13) se dduit de la mme faon. Une troisime approche, tudie dans [?], consiste modier la fonction mi2 nimiser en soustrayant du rsidu (||L Qn Qn ||2 ) un terme (||AL Qn L Qn || o AL Qn est la projection sur F de L Qn ) dont lestimation ( partir des donnes) possde le mme biais que celui du rsidu (11.18), annulant ainsi le biais de lestimateur rsultant. Nous ne dtaillons pas ici cette approche mais mentionnons le fait que cette approche se gnralise des approximations non-linaires, et que dans le cas particulier de lapproximation linaire, la solution du systme correspondant se ramne celle des diffrences temporelles.
350
PDM en IA
Les algorithmes prsents dans cette section sont efcaces en termes dutilisation des donnes exprimentales, puisque les donnes dobservation des transitions s, a s , r sont mmorises et permettent de dterminer directement le paramtre par la rsolution dun systme linaire. Des versions incrmentales pour la rsolution de ces systmes sont bien entendu possibles. 11.4. Minimisation directe du rsidu de Bellman En plus des mthodes usuelles ditrations sur les valeurs et ditrations sur les politiques tudies aux sections prcdentes, nous prsentons ici une mthode qui consiste chercher directement minimiser la norme du rsidu de Bellman (pour loprateur L). Lide est trs simple : puisque la fonction de valeur optimale V est le point xe de loprateur L, cest--dire que la norme de son rsidu ||LV V || est nulle, nous pouvons chercher dterminer le minimum dans F de la norme du rsidu :
V F
inf ||LV V ||,
(11.19)
o || || est une certaine norme. Nous avons le rsultat suivant, en norme L , qui nous indique que si le rsidu est bien minimis, alors la performance de la politique rsultante est proche de loptimum. P ROPOSITION 11.6 [WIL 93]. Soit V une fonction dnie sur S et une politique gloutonne par rapport V . La perte en performance rsultant de lutilisation de la politique au lieu de la politique optimale est majore en fonction du rsidu de Bellman de V selon : ||V V || 2 ||LV V || . 1 (11.20)
P REUVE. Puisque L V = LV L V , on a VV = L V L V + L V LV + L V L V P (V V + V V ) + P (V V ). Donc (I P )(V V ) (P P )(V V ), et en utilisant la relation V V = (I P )1 (LV V ), il vient VV (I P )1 (P P )(I P )1 (LV V ) = (I P )1 (I P )1 (LV V ), (11.21)
351
donc en norme L , ||V V || ||(I P )1 || + ||(I P )1 || ||LV V || 2 ||LV V || . 1
Ainsi nous avons une bonne garantie de performance des politiques gloutonnes par rapport des fonctions V minimisant bien la norme du rsidu. Cependant, le problme de minimisation (11.19) peut tre difcile rsoudre, mme dans le cas dune paramtrisation linaire, car loprateur L nest pas afne (contrairement loprateur L ) cause de lvaluation du maximum sur toutes les actions. Il nexiste pas de mthode simple pour dterminer le minimum global (contrairement au cas vu prcdemment utilisant loprateur L et une approximation linaire o le rsidu minimiser ||L V V || tait une fonction quadratique en ) mais des mthodes locales de type gradient (o la direction oppose au gradient ||LV V ||2 est suivie), par exemple dans des rseaux de neurones, sont largement employes dans la pratique pour minimiser la norme L2 du rsidu, bien quil ny ait pas de garantie de convergence vers un minimum global. 11.5. Vers une analyse de la programmation dynamique en norme Lp Nous avons donn plusieurs rsultats de majoration ((11.6) et (11.9) respectivement pour les algorithmes IVA et IPA) de la perte en performance en fonction des erreurs dapproximation, en norme L , commises chaque tape. Cependant, comme illustr la section 11.2.1, les algorithmes usuels en apprentissage supervis ralisent un problme de minimisation en norme Lp (avec p = 1 ou 2). Ainsi, les bornes sur lerreur dapproximation (par exemple (11.12) ou (11.15)) sont de nature Lp alors que celles sur la propagation derreur en programmation dynamique sont de nature L . Le problme fondamental de lanalyse de la programmation dynamique (PD) avec approximation de fonctions rside dans lutilisation doutils diffrents en programmation dynamique et en thorie de lapproximation : Lanalyse usuelle en PD utilise la norme L , qui est trs naturelle car les oprateurs de Bellman L et L sont des contractions en norme L . Les algorithmes ditration sur les valeurs, itration sur les politiques et leurs variantes en A/R sont bass sur cette proprit. Lapproximation de fonction utilise trs majoritairement les normes Lp : par exemple, les mthodes de type moindres carrs, les rseaux de neurones, les mthodes noyaux, etc. Cette diffrence de norme complique lanalyse des mthodes de PD combines des fonctions approches. Par exemple si lon considre lalgorithme IVA, dni par (11.3), loprateur de Bellman L est une contraction en norme L , loprateur
352
PDM en IA
dapproximation A est une non-expansion en norme L2 (dans le cas dune projection orthogonale sur F ), mais on ne peut rien dire de loprateur compos AL. Lanalyse L de cet algorithme, illustre par le rsultat (11.6), tablit une majoration sur la performance en fonction de lerreur dapproximation uniforme ||n || , quantit quil est trs difcile destimer, surtout pour des problmes de grande taille. Ce rsultat est difcilement exploitable dun point de vue pratique. De plus, la plupart des oprateurs dapproximation et algorithmes dapprentissage supervis rsolvent un problme de minimisation empirique en norme L1 ou L2 , par exemple (11.4). Lerreur uniforme ||n || se contrle difcilement par lerreur rellement minimise par le problme Lp empirique (11.4). Une analyse Lp de lalgorithme IVA qui prendrait en compte les erreurs dapproximation en norme Lp permettrait dvaluer la performance des algorithmes en fonction des erreurs empiriques rellement commises ainsi que dun terme de capacit (de type dimension de Vapnik-Chervonenkis ou nombre de couverture [POL 84, VAP 98]) de lespace fonctionnel F considr. En effet, en utilisant les rsultats rcents en apprentissage statistique, lerreur dapproximation en norme Lp (appele erreur en gnralisation selon la terminologie apprentissage supervis) peut tre majore par lerreur empirique (ou erreur en apprentissage ) rellement minimise plus un terme de capacit de F . De plus, puisque la plupart des oprateurs dapproximation et algorithmes dapprentissage supervis fournissent de bonnes rgressions en minimisant une norme Lp , il apparat donc essentiel de pouvoir analyser la performance des algorithmes de PD en utilisant cette mme norme. Des premiers travaux dans cette direction [MUN 07b, MUN 07a] sont brivement dcrits dans les deux sections suivantes.
11.5.1. Intuition dune analyse Lp en programmation dynamique Rappelons tout dabord la dnition de la norme Lp pondre par une distribudef p 1/p tion sur S : ||f ||p, = . Lorsque p = 2, nous utilisons la sS (s)|f (s)| notation allge ||f || . Lintuition sous-jacente une analyse en norme Lp de la PD est simple et passe par la dduction de bornes composante par composante. En effet, soient f et g dnies sur S , valeurs positives, telles que f P g , avec P une matrice stochastique. Bien sr, ceci implique que ||f || ||g || (puisque ||P || = 1), mais de plus, si et sont des distributions sur S telles que P C, (il faut comprendre la notation P au sens matriciel comme le produit du vecteur ligne par la matrice P ) avec C 1 une constante, alors nous dduisons aussi que ||f ||p, C 1/p ||g ||p, .
353
En effet, nous avons ||f ||p p, =

sS
(s)|f (s)|p
sS
(s)
s S
P (s |s)g (s )
sS
(s)
s S
P (s |s)|g (s )|p
C
s S
(s )|g (s )|p = C ||g ||p p, ,
o lon a utilis lingalit de Jensen (convexit de x |x|p ) la seconde ligne. Par exemple, la borne composante par composante (11.21) permet de dduire la majoration (11.20) en fonction de la norme L du rsidu de Bellman. De cette mme borne (11.21), nous pouvons aussi dduire une majoration en fonction de la norme Lp du rsidu de Bellman : 2 C (, )1/p ||LV V ||p, , (11.22) ||V V ||p, 1 o et sont deux distributions sur S et C (, ) une constante qui mesure la concentration (relativement ) de la rpartition dtats futurs (sachant que ltat initial est tir selon ) du MDP (voir [MUN 07b, MUN 07a] pour une dnition prcise et le lien avec les exposants de Lyapunov dans les systmes dynamiques). Cette majoration est plus ne que la borne L puisque, lorsque p , on retrouve la borne (11.20). Il en va de mme pour les majorations des algorithmes IVA et IPA. A titre dillustration, pour lalgorithme IVA, on peut montrer la borne composante par composante suivante : lim sup V V n lim sup(I Pn )1
n n n1
nk (P )nk + Pn Pn1 . . . Pk+2 Pk+1 |k | ,

k=0
avec k = LVk Vk+1 (lerreur dapproximation ltape k ). Prise en norme L , cette borne mne (11.6). Mais on en dduit aussi la borne Lp : lim sup ||V V n ||p,
n
2 C (, )1/p lim sup ||n ||p, . (1 )2 n
(11.23)
De mme pour lalgorithme IPA, la borne composante par composante (11.11) permet de montrer le rsultat en norme L (11.9) comme cela a t dmontr prcdemment, mais aussi de dduire la borne Lp suivante : lim sup ||V V n ||p,
n
2 C (, )1/p lim sup ||Vn V n ||p, . (11.24) (1 )2 n
354
PDM en IA
Cette analyse Lp en PD permet dtablir un lien avec lapprentissage statistique et de dduire des bornes PAC (Probablement Approximativement Correctes) [VAL 84, BOU 92] pour des algorithmes dA/R. 11.5.2. Bornes PAC pour des algorithmes dA/R Nous donnons ici un rsultat (explicit dans [MUN 07a]) de borne PAC pour un algorithme dA/R bas sur la mthode dIVA. On se place dans le cas dun espace dtat S trs grand, par exemple continu. A chaque itration, loprateur dapproximation consiste en une rgression empirique ralise partir dun nombre ni N dtats o, en chacun de ces tats, loprateur de Bellman est estim laide dun nombre M dtats successeurs obtenus en faisant appel au modle gnratif. Plus prcisment, on rpte K tapes ditration sur les valeurs avec approximation (11.3). A ltape 1 k < K , on dispose dune reprsentation courante Vk F de la fonction de valeur et on calcule une nouvelle approximation Vk+1 de la manire suivante. On tire N tats {sn }1nN S selon une distribution sur S . Pour chaque tat sn et chaque action a A, on gnre M successeurs {sn,a,m p(|sn , a)}1mM et on calcule une estimation empirique de loprateur de Bellman appliqu Vk en sn : vn = max r(sn , a) +
aA def
1 M
Vk (sn,a,m ) ,
m=1
et lon dduit Vn+1 en rsolvant le problme de rgression en norme Lp : Vn+1 = arg min
f F def
1 N
f (sn ) vn .
n=1
A ltape K , on note K une politique gloutonne par rapport VK et on souhaite valuer sa performance (par rapport la performance optimale) en fonction du nombre ditrations K , du nombre dtats N , du nombre de successeurs M , de la capacit de lespace fonctionnel F , de la rgularit du MDP (en termes de la constante C (, ) apparaissant dans (11.23)), et du rsidu de Bellman d(LF , F ) inhrent F . On a le rsultat suivant. P ROPOSITION 1 , on a : 11.7 [MUN 07 A ]. Pour tout > 0, avec probabilit au moins
||V V K ||p,
2 C (, )1/p d(LF , F ) + O( K ) (1 )2 +O VF + log(1/ ) N

1 /2 p
(11.25)
1 /2
log(1/ ) M

def
355
o d(LF , F ) = supgF inf f F ||Lg f ||p, est le rsidu de Bellman inhrent lespace F , et VF + une mesure de capacit (la pseudo-dimension) de F [HAU 95]. Les quatre termes de cette borne expriment respectivement : le rsidu de Bellman d(LF , F ), qui gnralise la notion de rsidu de Bellman un espace fonctionnel. Il mesure de combien on peut approcher les fonctions Lg , images par loprateur de Bellman de fonctions g F , par des fonctions de F . Ce terme est analogue la notion de distance F de la fonction apprendre dans le cas de la rgression, part quici il ne sagit pas dapprocher ( laide de fonctions de F ) une fonction cible donne, mais de dterminer le point xe dun oprateur de Bellman laide de fonctions de F . Lorsque le MDP est rgulier (par exemple si les probabilits de transition p(s |, a) et la fonction rcompense r(, a) sont lipschitziennes), on peut montrer (rsultat non vident !) que ce terme dcrot lorsque lespace dapproximation F grossit (car alors loprateur de Bellman a un effet rgularisant, et lespace LF reste inclus dans un espace de fonctions lipschitziennes dont le coefcient est indpendant de F , voir [MUN 07a]) ; le terme d au nombre ni K ditrations ralises, qui tend vers 0 rapidement ; deux termes en O((VF + /N )1/2p )+ O(1/ M ) qui bornent lerreur destimation en fonction du nombre dchantillons N et M utiliss. Le rsultat obtenu exprime que, si lon utilise sufsamment de ressources computationnelles (N , M , K ), la performance de cet algorithme peut tre rendue arbitrairement proche ( une constante prs) du rsidu de Bellman inhrent F , qui lui-mme peut tre rendu petit en utilisant une architecture dapproximation sufsamment riche. Ce type de majoration est analogue aux bornes obtenues en apprentissage supervis [GY 02] et permet danalyser la stabilit et la vitesse de convergence de IVA partir dchantillons, en particulier, de comprendre le compromis biais-variance en programmation dynamique avec approximation. En effet, la borne (11.25) sur la perte en performance contient un terme de biais, le rsidu de Bellman d(LF , F ), qui dcrot lorsque F grossit, et un terme de variance, d la capacit VF + de F , qui crot avec la richesse de F , mais qui peut tre attnu en utilisant un plus grand nombre dchantillons N (pour viter le sur-apprentissage) ; de rendre compte des contre-exemples (de divergence de lalgorithme IVA) mentionns dans la littrature (en particulier, le rsidu de Bellman d(LF , F ) inhrent aux espaces utiliss dans [BAI 95, TSI 96a] est inni) et de pouvoir prdire le comportement de ce type dalgorithmes en fonction des caractristiques du MDP, de la capacit et richesse de lespace F et de la quantit de ressources computationnelles utilises. 11.6. Conclusion et perspectives Les rsultats dcrits au paragraphe prcdent dcoulent directement de la combinaison doutils dapprentissage statistique lanalyse en norme Lp en programmation
356
PDM en IA
dynamique qui a t brivement prsente. De nombreuses extensions sont bien entendu possibles, par exemple pour des mthodes dA/R bases sur lalgorithme IPA (tel que LSPI de [LAG 03]) et mme lorsque les chantillons sont obtenus par lobservation dune unique trajectoire [?]. En parallle de ces travaux thoriques, mentionnons la diversit et la quantit des travaux portant sur lutilisation de reprsentations approches de la fonction valeur pour la prise de dcisions. Les mthodes noyaux [SCH 01] ont t appliques la PD et lA/R [ORM 02, RAS 04], ainsi que les arbres de dcision [WAN 99, ERN 05], les rseaux de neurones [BER 96, COU 02], les approches baysiennes [DEA 98], les reprsentations factorises [GUE 01a, KOL 00, DEG 06] (voir chapitre 9) pour ne citer que quelques travaux. Ce chapitre sest consacr la reprsentation approche de la fonction valeur. Cependant, une tout autre approche, quelque peut orthogonale celle-ci, consiste reprsenter de manire approche la politique, et rsoudre un problme doptimisation paramtrique (maximisation de la performance de la politique paramtre). Alors que lapproche dapproximation de la fonction valeur est base sur la mthode de la programmation dynamique, initie par Bellman [BEL 57], lapproche de recherche dune politique paramtre localement optimale sinspire des travaux de Pontryagin [PON 62] sur la dtermination de conditions ncessaires doptimalit et lanalyse de sensibilit (estimation du gradient de la performance par rapport au paramtre de la politique) en contrle et dans les MDP. Il sagit de lobjet du chapitre suivant.
Chapitre 12
Mthodes de gradient pour la recherche de politiques paramtres
La plupart des approches de rsolution de MDP passe par lvaluation dune fonction de valeur, laquelle permet de dterminer les actions optimales dans chaque tat. Une premire difcult pour ces approches est de traiter des problmes de grande taille. Comme la montr le chapitre 11, une solution est de passer par des mthodes dapproximation de la fonction de valeur, mais lamlioration monotone de la politique nest alors plus garantie. Une deuxime difcult est la gestion dobservations partielles, cadre dans lequel la proprit de Markov nest plus vrie. Une approche tout fait diffrente est deffectuer une recherche directe de politique, celle-ci prenant la forme dun contrleur paramtr. Le choix de ce contrleur permet de sadapter au type de problme considr et de faire un compromis entre la possibilit dexprimer une grande varit de politiques dune part et une taille mmoire rduite dautre part. On se retrouve avec un problme doptimisation de paramtres pour lequel des algorithmes existent qui garantissent une amlioration monotone de la politique vers un optimum local, y compris, dans certains cas, si lobservabilit est partielle. E XEMPLE. Et pour les voitures1 quil faut entretenir alors ? Un parallle possible est de considrer un garagiste qui, bien que cherchant minimiser le cot dentretien, dcide de ne rparer une voiture que si le temps de la rparation est infrieur un certain seuil, disons 5 heures. Avec le temps et lexprience, en fonction du cot long terme de cette stratgie, le garagiste sera sans doute amen modier son seuil de travail de
Chapitre rdig par Olivier B UFFET. 1. voir dtails tome 1, section 1.1
358
PDM en IA
manire diminuer le cot. Les approches par monte de gradient fonctionnent selon ce principe. Plutt que de chercher estimer la valeur long terme de chaque action dans chaque tat, on cherche plutt modier les paramtres dune politique (ici le temps de travail maximum) pour diminuer le cot long terme. On pourrait envisager dadapter divers types dalgorithmes doptimisation. Ce chapitre se concentre sur les mthodes de gradient, lesquelles ont t particulirement tudies. Aprs de brefs rappels sur la notion de gradient (section 12.1), nous prsentons ici deux types dapproches : lutilisation directe de mthodes de gradient en section 12.2 et les mthodes de gradient acteur-critique en section 12.3. 12.1. Rappels sur la notion de gradient Nous revenons ici sur la notion gnrale de gradient et doptimisation par mthode de gradient avant dintroduire le cas des MDP. 12.1.1. Gradient dune fonction Le gradient est un oprateur vectoriel qui, une fonction diffrentiable f : IRn IR, associe f : IRn IRn dnie par : f (x1 , . . . , xn ) =
f x1 (x1 , . . . , xn )
(12.1)
. . . f ( x , . . . , x ) 1 n xn
Le gradient dune fonction f en un point x est un vecteur perpendiculaire la surface dgale valeur f (x), vecteur orient dans la direction selon laquelle la fonction crot et dont la norme indique la vitesse de variation de f dans cette direction.
1
0.5
f (x1 , x2 ) =
2x1 8x2
x2
-0.5
-1 -1 -0.5 0 x1 0.5 1
2 Figure 12.1. Lignes quipotentielles de la fonction f (x1 , x2 ) = x2 1 + 4x2 et le champ de vecteurs gradient associ
Mthodes de gradient
359
12.1.2. Descente de gradient La descente de gradient est un algorithme itratif permettant de trouver un minimum local dune fonction f dont le gradient existe et est connu. Le principe est de construire une suite de points (xn )nIN en suivant en chaque point la direction oppose au gradient, de manire descendre au point suivant. Lalgorithme 12.1 donne le dtail de lalgorithme, lequel requiert : une fonction diffrentiable f , un point de dpart x0 , un pas > 0, coefcient multiplicateur permettant dajuster la taille des pas de la descente de gradient ; et souvent un seuil > 0 utilis par un critre darrt de lalgorithme (ici fonction des deux derniers points visits). Le critre darrt peut par exemple tre ( xn xn1 ) ou ( f (xn )f (xn1 ) ). Par la suite on ludera ce problme en considrant une boucle innie.
Algorithme 12.1 : Descente de gradient(f, x0 , , ) Initialisation : n0 rpter nn+1 xn xn1 f (xn1 ) jusqu critre_darrt(xn , xn1 , ) retourner xn
La gure 12.2 montre deux squences de points obtenues par ce mme algorithme mais avec des points de dpart diffrents et, surtout, des pas diffrents. Si ce pas est trop grand, il provoque des oscillations ; sil est trop petit, lalgorithme se rapproche trop lentement du minimum chaque itration. Dans les deux cas, la convergence est ralentie. Trouver un bon pas est un problme en soi, en particulier parce que le pas peut voluer. Des recherches spciques se concentrent sur ce problme, mais nous le laisserons de ct. N OTE. Pour un problme de maximisation, comme ce sera le cas par la suite, on parlera de monte de gradient, lalgorithme employ ntant modi quau niveau du signe prcdant le pas .
360
PDM en IA
1
0.5
-0.5
-1 -1 -0.5 0 x1 0.5 1
gauche droite x0 [.9, .8] [+.5, +.5] .1 .2 .005 Les deux squences de point convergent vers le minimum (0, 0) mais avec des comportements trs diffrents lis leurs pas dapprentissage.
2 Figure 12.2. Lignes quipotentielles de la fonction f (x1 , x2 ) = x2 1 + 4x2 et deux squences de points obtenues par descente de gradient depuis des origines diffrentes et avec des pas diffrents
12.2. Optimisation dune politique paramtre par mthode de gradient Historiquement, lalgorithme de rfrence dans les recherches directes de politique par mthode de gradient est REINFORCE de Williams [WIL 87, WIL 92]. Ces travaux ont ensuite t gnraliss et amliors par Baird et Moore [BAI 99a, BAI 99b], comme par Baxter et Bartlett [BAX 01a, BAX 01b]. 12.2.1. Application aux MDP : aperu Dans le cas dun MDP, on cherche maximiser une mesure de performance dpendant de la politique (stochastique) applique. Notons par exemple g ( ) un critre tel que ceux introduits en section 1.2.3. Pour pouvoir employer une monte de gradient, on crit la politique comme une fonction dun vecteur de paramtres : = h(), de manire ce que la mesure de performance soit une fonction f () = g h(). Si cette fonction est diffrentiable, les conditions sont runies pour appliquer une mthode de gradient. Exemple de dnition dune politique paramtre Considrons que, pour chaque paire tat-action (s, a), on dispose dun vecteur s,a de caractristiques. Dans chaque tat s, la politique doit fournir une distribution de probabilit sur les actions a en fonction des vecteurs s,a , ce que lon peut faire en deux tapes : 1) calculer une grandeur scalaire Ks (a) pour tout a (mesurant limportance de a dans la situation courante) et 2) transformer ces grandeurs en une distribution de probabilit sur les actions. Exemple 1 Un exemple type dune telle dnition de politique paramtre est alors de prendre : pour Ks (a) une combinaison linaire des caractristiques de (s, a) un produit scalaire entre s,a et un vecteur de paramtres : Ks (a) = T s,a et
x2
Mthodes de gradient
361
den tirer des probabilits daction laide dune distribution de Gibbs, comme suit : eKs (a) , (12.2) q (a|s) = q (a|s; ) = Ks (b) bA e o q (a|s) est la probabilit dexcuter laction a dans ltat s sous la politique stochastique . En prcisant la forme prise par les vecteurs caractristiques, lexemple 1 conduit aux deux formulations courantes suivantes : Exemple 2 si ltat s est connu, dnissons les vecteurs s,a comme tant tous de taille |S | |A|, chaque composante s,a (s , a ) correspondant une paire tataction et tant nulle, sauf pour celle de la paire (s, a) qui vaut 1 ; on a ainsi un paramtre s,a par paire tat-action, do : q (a|s; ) = es,a ; et s,b bA e (12.3)
Exemple 3 si ltat est connu travers un vecteur caractristique s (dpendant des observations, pas des actions), on peut dcomposer en un vecteur a par action et rcrire : T ea s q (a|s; ) = . (12.4) T b s bA e Le second cas (exemple 3) pose problme sil existe un tat s tel que s = 0, puisquon a alors q (a|s) = 1/|A| pour tout a A. Il est usuel de rsoudre ce problme en ajoutant une caractristique constante non nulle2 (un bit 1) . Mais dautres paramtrisations que celles-ci sont envisageables : laide de perceptrons multi-couches, darbres de dcision, de modles graphiques, etc. Remarques Le choix de lcriture paramtre de q (a|s) dnit un sous-espace de lespace des politiques stochastiques. Idalement, il faut que ce sous-espace soit le plus petit possible, mais quil contienne les meilleures politiques. Dans ce sous-espace, il nexiste plus ncessairement de politique optimale dterministe et une recherche peut tomber dans un optimum local. Le gradient de f en un point reprsente la sensibilit de la mesure de performance f par rapport ces paramtres de contrle. Si un modle du MDP est connu, il est envisageable de faire un calcul exact de ce gradient (voir lalgorithme GAMP
2. Cest tout fait quivalent au paramtre seuil dans un neurone selon le modle de McCulloch et Pitts.
362
PDM en IA
[ABE 03]). Mais souvent on lestime par lexprience, soit parce quaucun modle nest disponible, soit parce quune mthode exacte serait trop coteuse (requrant de dvelopper lespace des tats et des actions). Dans les sections qui suivent, nous allons voir comment peut tre faite lestimation de ce gradient dans diffrentes situations. 12.2.2. Estimation du gradient de f dans un MDP, cas de lhorizon temporel ni 12.2.2.1. Horizon temporel 1 Considrons dabord un MDP horizon temporel ni de longueur 1 et dont ltat initial est tir au hasard selon une distribution de probabilit d. On cherche alors optimiser J ( ) = E [r] =
(s,a,s )S AS
d(s)q (a|s)p(s |s, a) r(s, a, s ).

P (s,a,s )
Avec la paramtrisation par , cette mesure de performance se rcrit : f () =

s,a,s
d(s)q (a|s; )p(s |s, a)r(s, a, s ).
On voit immdiatement que lapplication dune monte de gradient ncessite que, pour toute paire (s, a), la fonction qui associe q (a|s; ) soit diffrentiable. En supposant que les rapports de vraisemblance gradient de f scrit alors :3 E [r(s, a, s )] =
s,a,s q (a|s; ) q (a|s; )
existent (et sont borns), le
d(s)q (a|s; )p(s |s, a)r(s, a, s ) d(s) q (a|s; ) p(s |s, a)r(s, a, s )
=
s,a,s
=
s,a,s
d(s)
q (a|s; ) q (a|s; )
q (a|s; ) p(s |s, a)r(s, a, s )
= E
q (a|s; ) q (a|s; )
r(s, a, s ) .
3. Les gradients sont toujours pris par rapport au vecteur .
Mthodes de gradient
363
Ce rsultat permet, avec N chantillons (si , ai , si ) indpendants et identiquement distribus selon les distributions d, q et p, destimer le gradient de f au point par : f () 1 N
N
q (ai |si ; ) q (ai |si ; )
r(si , ai , si ).
i=1
Pour exploiter ce rsultat dans un algorithme de monte de gradient, il faut donc ajouter lalgorithme 12.1 une boucle produisant ces N chantillons pour estimer le gradient pour le vecteur de paramtres courant.4 Mais il faut aussi pouvoir calq (a|s; ) culer (appel parfois log-gradient de la politique parce quil peut scrire q (a|s; ) log q (a|s; )). Dans le cas de la formulation (12.2) par exemple, on a : q (a|s; ) i q (a|s; ) 1 1 q (a|s; ) e e
T
s,a
s,a,i
T
a A s,a T s,a 2
T s,a
s,b,i e
bA
s,b
a A
= s,a,i
bA
s,b,i q (b|s; ),
ce qui permet dcrire : q (a|s; ) q (a|s; ) = s,a

bA
q (b|s; ) s,b .
(12.5)
12.2.2.2. Horizon temporel T N OTE. Un procd estimant une grandeur par chantillonnage est en gnral appel mthode de Monte-Carlo. Dans le cas prsent, on simule des trajectoires sur une chane de Markov sur les tats du MDP et dont la probabilit de transiter de s s est P (s |s) = aA p(s |s, a)q (a|s; ). On parle alors de mthode de Monte-Carlo par chane de Markov (MCMC) [MAC 03]. Dans la section prcdente, nous avons montr comment est calcul un estimateur du gradient de f dans le cas dun MDP horizon temporel ni de longueur 1. Nous tendons maintenant ce calcul au cas dun MDP horizon temporel ni de longueur T .
4. Sans oublier de changer le signe devant puisquon passe dune descente une monte de gradient.
364
PDM en IA
La mesure de performance considre est lesprance de rcompense actualise avec ]0, 1]. Soit Vt (st ) lesprance de rcompense actualise de t T en partant de ltat s. On a, pour tout s S et tout t {1, . . . , T 1} : f () Vt (s) = E [V0 (s0 )] =
s
d(s)V0 (s),
= E [r(st , at , st+1 ) + Vt+1 (st+1 )|st = s] =

a,s
q (a|s; )p(s |s, a) (r(s, a, s ) + Vt+1 (s )) et 0.
VT (s)
Le gradient de f peut alors se calculer par : f () Vt (s) =

s
d(s)V0 (s) = E V0 (s0 ) , q (a|s; )p(s |s, a) (r(s, a, s ) + Vt+1 (s ))

a,s
=
a,s
q (a|s; )p(s |s, a) + Vt+1 (s )
q (a|s; ) q (a|s; )
(r(s, a, s ) + Vt+1 (s ))
= E
q (at |st ; ) q (at |st ; )
(rt + Vt+1 (st+1 )) + Vt+1 (st+1 )|st = s ,
o rt = r(st , at , st+1 ) et VT (s) = 0.
En dveloppant le calcul de f () et en factorisant les termes associs chaque rcompense, on obtient :

T 1 t1
f ()
= E
t=0
rt
t =0
q (at |st ; ) q (at |st ; )
Comme dans le cas horizon 1, on va pouvoir estimer le gradient par chantillonnage. Lors de lacquisition dun chantillon s0 , a0 , . . . , sT , on calcule un estimateur
Mthodes de gradient
365
non biais g de f () en itrant : q (at |st ; ) q (at |st ; )
zt+1 gt+1
= zt + =
et
gt + t rt zt ,
o z est une trace dligibilit (estimation locale du log-gradient de la politique) et les deux suites sont initialises avec le vecteur nul. On obtient un meilleur estimateur (de plus faible variance) en calculant la moyenne de N estimateurs g calculs indpendamment les uns des autres. Lalgorithme 12.2 rcapitule les oprations raliser pour effectuer une monte de gradient dans un MDP horizon ni. La rcompense instantane r et le prochain tat s sont obtenus par interaction avec un environnement rel ou un simulateur. Quelques remarques sur cet algorithme : Le vecteur initial doit idalement permettre une bonne exploration. Un vecteur nul est souvent une bonne solution, sauf par exemple quand on utilise un perceptron multi-couches, puisque = 0 correspond alors un point de gradient nul. On prfre alors un vecteur alatoire de petite norme. Le choix de N est important : trop petit, lestimation du gradient sera mauvaise ; trop grand, le temps de calcul dune estimation sera trop long. Un problme intressant est de trouver un estimateur dont la variance soit plus faible nombre dchantillons gal. Intuitivement, il sagit de trouver un estimateur dont la probabilit de fournir une estimation proche de la vraie valeur est plus grande. Une caractristique intressante de lestimation du gradient est que, supposer que lon utilise un simulateur, elle est trs facilement paralllisable : N processeurs peuvent effectuer les N simulations en parallle (gain linaire). 12.2.3. Extension au cas de lhorizon temporel inni : critre actualis, critre moyen Dans une mthode MCMC, il faut sassurer que la frquence de visite des tats rete la probabilit relle dtre dans ces tats. Dans le cas horizon temporel ni, il a suf pour cela de commencer les simulations dans les tats initiaux possibles en les tirant au sort selon la distribution d(), puis dexcuter la politique et les transitions selon le modle, jusqu un redmarrage. De cette manire, tout tat est visit avec une frquence reprsentative de la probabilit dtre dans cet tat un instant quelconque. Si lhorizon temporel est inni, on ne peut plus travailler sur des trajectoires compltes puisque les trajectoires sont sans n et les tats ne sont visits avec une frquence reprsentative quaprs un temps de simulation sufsamment long. Dans le cas de la chane de Markov reprsente par la gure 12.3 par exemple, le temps dattente
366
PDM en IA
Algorithme 12.2 : Monte de gradient pour MDP horizon ni (, , N ) Initialisation : 0 i0 /* Boucle de la monte de gradient. */ pour toujours faire ii+1 f 0 /* Boucle recueillant N chantillons pour estimer le gradient. */ pour n = 1, . . . , N faire z0 g0 ReoitEtatInitial(s) /* Boucle simulant le MDP pour obtenir un chantillon. */ pour t = 0, . . . , T 1 faire Echantillonne(a, q (|s; )) Excute(a) Reoit(s , r) zz+ g g + rz ss f f + 1 g N f i i1 + retourner xn
q (a|s; ) q (a|s; ) t
moyen avant darriver dans ltat s2 est dautant plus long que est petit. Pourtant, une fois le rgime permanent atteint, la distribution de probabilit sur les tats possibles est toujours donne par P (s0 ) = P (s1 ) = 0 et P (s2 ) = 1, quel que soit ]0, 1]. Pour pouvoir tendre les algorithmes de gradient au cas de lhorizon temporel inni, il est usuel de sassurer quun tel rgime permanent existe. Il faut ainsi que soit vrie lhypothse que, pour un vecteur de paramtres donn, la chane de Markov induite est ergodique (voir gure 12.4), ce qui garantit quil existe une unique distribution Pstat sur les tats telle que : s S, Pstat (s) =
s S aA
p(s|a, s )q (a|s , )Pstat (s ).
A titre dexemple, la gure 12.4 montre deux cas types de chanes non-ergodiques.
Mthodes de gradient
367
s0
1.
s1
s2
1.
Figure 12.3. Chane de Markov dont le temps dtablissement du rgime permanent est dautant plus long que est petit
s1 s0
s0
s1
s2
Figure 12.4. Deux principales raisons pour quune chane de Markov ne soit pas ergodique : gauche une chane priodique, droite une chane avec deux sous-graphes absorbants (deux classes rcurrentes, chacune rduite un tat)
On considre ici uniquement le cas = 1.
12.2.3.1. Cas dun processus rgnratif Le problme qui se pose est destimer le gradient. Une premire approche peut tre employe quand un tat rcurrent sr existe, cest--dire un tat dans lequel le systme revient ncessairement. On parle alors de processus rgnratif. Dans un tel cas de gure, les chantillons employs sont les squences dtats entre deux passages par ltat sr et lestimation (non biaise) du gradient se fait de manire trs comparable au cas de lhorizon temporel T (section 12.2.2.2). Toutefois, il est difcile de garantir quun processus est rgnratif et de spcier un tat rcurrent sr utiliser. On va donc chercher dautres moyens destimer le gradient. Si on prend pour chantillons des squences innies, il nest plus possible de recueillir des chantillons un par un pour faire des mises jour de lestimation du gradient. Il faut donc trouver un autre moyen de faire une estimation du gradient, laide dchantillons partiels.
368
PDM en IA
12.2.3.2. Utilisation dune fentre ottante Une deuxime approche consiste prendre pour chantillons des squences dtats de longueur xe n. Plus prcisment, linstant t, la trace dligibilit est calcule sur la base des n derniers instants :
t
zt (n)
=
t =tn+1
q (at |st ; ) q (at |st ; ) q (at |st ; ) q (at |st ; ) q (atn |stn ; ) q (atn |stn ; ) .
= zt1 (n) +
La trace dligibilit peut toujours se calculer de manire itrative, mais il faut pour cela mmoriser les n + 1 dernires tapes. De l, lestimation du gradient aprs T tapes est donne par : 1 zt (n)rt . T n + 1 t=n1
T 1
f ()
Cette estimation est biaise. Mais si le biais diminue quand n grandit, cest aux dpens de la variance qui, elle, diverge. Le choix de n correspond donc un compromis entre biais et variance. 12.2.3.3. Utilisation dun coefcient dattnuation Une troisime approche existe qui permet de ne pas avoir mmoriser n tapes. Il sagit de calculer une trace dligibilit attnue et non tronque, comme suit : q (at+1 |st+1 ; ) q (at+1 |st+1 ; )
zt+1
= zt +
o z0 = 0 et [0, 1[ est un coefcient dattnuation. Aprs T pas de temps, lestimation (biaise) du gradient est alors donne par : 1 T
T 1
f ()
zt ( )rt .
t=0
Le compromis entre biais et variance est toujours prsent, dpendant ici du paramtre : le biais tend vers 0 quand tend vers 1, mais alors la variance diverge. Sur cette base, on peut proposer un algorithme de monte de gradient qui, comme les prcdents algorithmes rencontrs, alternera une phase destimation du gradient avec un pas de suivi du gradient. Mais on peut aussi proposer un algorithme de monte
Mthodes de gradient
369
de gradient en ligne , cest--dire qui suit la direction du gradient chaque nouvelle exprience. Il ny a pas de calcul dune estimation du gradient, puisquun gradient instantan est utilis la place (zt ( )rt ). Cet algorithme est connu sous le nom de OLpomdp ( OL pour on-line et pomdp parce que cet algorithme reste valide dans un cadre partiellement observable5) et dcrit dans lalgorithme 12.3. Algorithme 12.3 : OLpomdp(, , ) Monte de gradient en ligne pour MDP (PO) horizon inni Initialisation : 0 z0 g0 ReoitEtatInitial(s) pour toujours faire Echantillonne(a, q (|s; )) Excute(a) Reoit(s , r) z z +
q (a|s; ) q (a|s; )
+ rz ss retourner
Cet algorithme a lavantage dtre trs simple mettre en uvre, et sest avr efcace dans diverses applications (voir chapitre 15). 12.2.4. Cas partiellement observable Intressons-nous un instant lutilisation de telles montes de gradient pour des partiellement observables (avec un ensemble dobservations ni). Diverses options soffrent nous, parmi lesquelles on peut citer : comme au chapitre 3, se ramener un MDP sur les tats de croyance et
MDP
optimiser une politique dont lentre dpend de lhistorique des observations et actions passes. Si lhorizon temporel est ni, alors ces deux options sont envisageables en se ramenant un nouveau MDP espace dtats ni. Si lhorizon temporel est inni, la premire option requiert la connaissance dun modle pour estimer ltat de croyance chaque instant et suppose que lon sache
5. Nous revenons sur lobservabilit partielle dans la section suivante.
370
PDM en IA
tendre les algorithmes de monte de gradient des MDP sur des espaces dtat continus. Nous allons prfrer la seconde option, en limitant lentre la dernire observation o perue. Pour voir comment traiter le cas POMDP, notons que lobservabilit partielle recouvre deux aspects : 1) le fait que linformation reue sur ltat est incomplte et 2) le fait que cette information est bruite. Or le bruit peut tre extrait de la fonction dobservation et mis dans ltat : si ltat est dni par un ensemble de variables alatoires, le bruit nest quune variable supplmentaire (non observe) B , indpendante du pass et des autres variables. Ceci fait, la fonction dobservation devient dterministe ; tout tat s correspond une unique observation o = O(s). De l, la composition de O() et q (a|o; ) permet de se ramener au cas dun MDP, la perte dinformation due lobservation partielle entrant dans la fonction dapproximation qui dnit la politique : q (a|s; ) =
o
q (a|o ; )O(o |s)
= q (a|O(s); ). La gure 12.5 prsente un POMDP (et le contrleur associ) de manire schmatique en mettant en vidence les composantes bruit et perception incomplte . La gure 12.6 montre le mme problme sous la forme dun MDP et dun contrleur modi. Cette interprtation explique comment les algorithmes de monte de gradient stendent dans un certain nombre de cas aux POMDP. Cest en particulier le cas dOLpomdp (algorithme 12.3) en remplaant toute occurrence de ltat s par lobservation o. Mais ce nest pas le cas par exemple des algorithmes pour processus rgnratifs puisque lobservabilit partielle peut empcher lidentication dun tat rcurrent. 12.3. Mthodes "Acteur-Critique" Les mthodes "Acteur-Critique" effectuent elles aussi une recherche dans lespace des politiques, mais elles font en plus usage dune reprsentation de la fonction de valeur. Les algorithmes vus dans la section prcdente se basent sur une estimation du gradient dont la variance peut tre importante, ce qui rend loptimisation des paramtres difcile. Un objectif essentiel est donc de rduire cette variance, objectif qui peut tre atteint par exemple grce des estimations bases sur la fonction de valeur (ou une approximation de celle-ci). Cest ainsi quont t introduits lalgorithme VAPS (Value and Policy Search) [BAI 99a, BAI 99b] et ses descendants (on citera par exemple
Mthodes de gradient
371
q (a|o; )
o O(o|s) h(s, B )
s p(st+1 |st , at )
B a
Figure 12.5. Schma de principe dun MDP partiellement observable et de son contrleur
= (s, b) q (a|h( ); ) = q (a| ; ) p(st+1 |st , at )
B a
Figure 12.6. Schma de principe du mme problme, lobservabilit partielle tant intgre dans le contrleur
[SUT 00]). Ils combinent une monte de gradient et lapproximation de la fonction de valeur, ce qui les fait entrer dans la famille des architectures acteur-critique prsentes en section 2.4.5. Nous revenons ici dans le cadre dun MDP horizon temporel ni, avec un facteur dactualisation . 12.3.1. Estimateur du gradient utilisant les Q-valeurs Avant toute chose, introduisons d (s) ( ne pas confondre avec d(s)), qui reprsente le poids de ltat s tant donns 1) la probabilit de le retrouver dans le futur et 2) le coefcient dattnuation : d (s) = t=0 t P r(st = s|d(); ). Pour calculer un estimateur du gradient utilisant la fonction des Q-valeurs Q(s, a), partons de lquation de Bellman : V (s) =
aA
q (a|s; )
s S
p(s |s, a) r(s, a, s ) + V (s)
372
PDM en IA
et drivons son gradient : V (s) =

aA
q (a|s; )
s S
p(s |s, a) r(s, a, s ) + V (s) p(s |s, a) r(s, a, s ) + V (s)

s S
+
aA
q (a|s; ) q (a|s; )
=
aA
p(s |s, a)
s S
q (a|s; ) q (a|s; ) =
aA
[r(s, a, s ) + V (s)] + V (s) q (a|s; ) q (a|s; )
q (a|s; )
s S
p(s |s, a)
Q (s, a) + V (s) .
On reconnat en cette dernire quation une quation de Bellman dnissant le q (a|s; ) gradient de la fonction de valeur laide de Q (s, a) (au lieu de r(s, a, s ) q (a|s; ) dans la dnition de la fonction de valeur). De l, on dduit que ce gradient scrit aussi : q (at |st ; ) V (s) = E t Q (s, a)|s0 = s; , q (at |st ; ) t=0 ce qui nous amne lestimateur du gradient de f : f () =
sS
d(s)V (s), qui peut aussi scrire q (at |st ; ) q (at |st ; )
=
sS
d (s)
aA
q (at |st ; )
Q (s, a) (12.6)
=
sS
d (s)
aA
q (at |st ; )Q (s, a).
N OTE. Les mmes rsultats peuvent tre obtenus avec comme critre la rcompense moyenne par pas de temps [SUT 00]. 12.3.2. Compatibilit avec lapproximation dune fonction de valeur Une des motivations pour employer des mthodes de recherche directe de politique est de rduire les besoins en mmoire et en temps de calcul en limitant lespace de
Mthodes de gradient
373
recherche un sous-espace des politiques possibles. Dans le cas des mthodes acteurcritique, on va donc naturellement sintresser approximer la fonction Q (s, a) plutt que de faire un calcul exact. Une question qui se pose en particulier est de savoir si lestimateur vu prcdemment reste valide. 12.3.2.1. Approximation de Q Soit Qw : S A IR cette approximation de Q . Lapprentissage des paramtres w peut se faire en parcourant les paires tat-action (s, a) et en mettant jour w en suivant la direction w (s, a) Qw (s, a)]2 [Q (s, a) Qw (s, a)]Qw (s, a), [Q
(s, a) est un estimateur non-biais de Q (s, a) et est le symbole proporo Q tionnel . Une fois un optimum local atteint, on a : d (s)
sS aA
q (a|s; )[Q (s, a) Qw (s, a)]Qw (s, a) = 0.
(12.7)
12.3.2.2. Compatibilit des approximateurs On peut retrouver le gradient de f de lquation (12.6) dans lquation (12.7) cidessus, sil est vri que : q (a|s; ) q (a|s; )
Qw (s, a)
(12.8)
T HORME 12.1 [SUT 00]. Si cette condition, dite de compatibilit, est vrie, alors le gradient de f scrit : f () =
sS
d (s)
aA
q (at |st ; )Qw (s, a).
P REUVE. De (12.7) et (12.8), on tire : d (s)

sS aA
q (a|s; )[Q (s, a) Qw (s, a)] = 0.
374
PDM en IA
En soustrayant cette expression (de valeur nulle) (12.6), on obtient : f () =

sS
d (s)
aA
q (at |st ; )Q (s, a) q (a|s; )[Q (s, a) Qw (s, a)]

aA
sS
d (s) d (s)
=
sS
q (at |st ; )Qw (s, a).

aA
Le thorme 12.1 permet de trouver une paramtrisation de la fonction de valeur qui, tant donne la forme choisie pour la politique, garantit que lestimation du gradient de la politique nest pas biaise. Avec lexemple de lquation (12.2) (page 361), en reprenant le log-gradient (12.5) (page 363) on a immdiatement une paramtrisation possible :
Qw (s, a)
= wT s,a
bA
q (b|s; ) s,b .
(12.9)
Qw doit donc tre linaire en les mmes caractristiques que la politique, avec une normalisation une moyenne nulle pour chaque tat. En observant que q (a|s; )Qw (s, a) = 0,
aA
il apparat que cest plutt la fonction avantage A (s, a) = Q (s, a) V (s) [BAI 93] qui est approche par Qw (s, a). Cela nest pas surprenant puisque, dans un tat s donn, cest la diffrence relative de valeur entre les actions qui informe rellement de leurs intrts relatifs. 12.3.2.3. Algorithme acteur-critique Comme on peut le voir dans lalgorithme 12.4, le principe de lalgorithme de monte de gradient utilisant une approximation de la fonction de valeur est simple. Si la procdure calculant wk est itrative, on peut linitialiser avec la solution wk1 , la fonction approcher ne changeant souvent que peu pendant un pas de gradient. T HORME. Si q et Qw sont deux approximateurs de fonction diffrentiables, sa2 q (a|s; ) tisfaisant la condition de compatibilit (12.8) et tels que max,s,a,i,j | | < i j B < . Soit (k ) une suite de tailles de pas telle que lim = 0 et k k k=0 = . Alors, pour tout MDP avec des rcompenses bornes, la suite ( ) k k k=0 k=0 calcule par lalgorithme 12.4 converge telle que limk f (k ) = 0.
Mthodes de gradient
375
Algorithme 12.4 : Monte de gradient avec approximation de la fonction de valeur (algorithme acteur-critique) (, (k ) k=0 ) Initialisation : i0 0 rpter k k+1 wk solutionDe( k w w k aA q (a|s; k )[Q (s, a) Q (s, a)]Q (s, a) = 0 sS d ) k+1 k + k sS dk (s) aA q (a|s; k )Qwk (s, a) jusqu faux retourner k
12.4. Complments Ces mthodes de gradient (avec ou sans approximation de la fonction de valeur) posent des problmes varis dont les solutions permettraient damliorer les algorithmes existants. Nous abordons ici brivement quelques-uns de ces problmes. Rduction de la variance Dans une mthode de gradient stochastique, un premier problme est de trouver un bon estimateur du gradient, ce qui veut dire quon cherche un estimateur : de faible biais, cest--dire qui, quand on cherche x, estime x + x avec |x| petit ; et de faible variance, cest--dire trs stable (renvoyant une valeur proche de x avec une grande probabilit). Lexistence dun biais nempche pas le bon fonctionnement de lalgorithme : limportant est de suivre une direction de monte (dans notre cadre de maximisation), pas ncessairement celle du gradient. Et il est parfois prfrable dintroduire un biais dans un estimateur pour en rduire la variance. Cela peut permettre dutiliser moins dchantillons. Nous avons dj voqu le fait que lutilisation dune approximation de la fonction de valeur a pour but de rduire la variance de lestimation du gradient. Dans ce mme but, il est aussi courant dans les algorithmes directs de soustraire toutes les rcompenses une ligne de base (baseline), en gnral la rcompense moyenne estime. Greensmith et al. [GRE 01] ont toutefois prouv que la rcompense moyenne nest pas toujours le meilleur choix. [MUN 06] discute plus particulirement le problme de la rduction de variance dans le cas des algorithmes acteur-critique.
376
PDM en IA
Gradient naturel Nous abordons ici une difcult particulire : le fait que le gradient ne donne pas ncessairement la direction de plus grande pente. Nous dcrivons trs intuitivement cette difcult et une faon de la contourner. De plus amples dtails peuvent tre trouvs dans [AMA 98, KAK 02, BAG 03, PET 05], un algorithme actuellement populaire tant NAC (Natural Actor-Critic). En choisissant une paramtrisation de la politique, on dnit en fait 1) un sousensemble de lensemble des politiques stochastiques et 2) une faon de le parcourir. En mathmatiques, un tel objet est appel une varit. Des varits typiques en trois dimensions sont la sphre, le tore ou la bouteille de Klein, exemples sur lesquels on peut observer que nombre de varits ne forment pas des espaces euclidiens. Et cest justement parce quon nest plus dans un espace euclidien que le gradient f en un point nest pas ncessairement la direction de plus grande pente. Une paramtrisation diffrente du mme espace de politiques aurait donn une direction diffrente. Dans une varit dote dune structure mtrique riemanienne, la direction de plus grande pente est le gradient naturel, lequel est obtenu en corrigeant le gradient laide dune matrice reprsentant la dformation locale de lespace en le point . Cette matrice est la matrice dinformation de Fischer, et est donne dans notre cas par : Fs () = Eq(a|s;) log q (a|s; ) log q (a|s; ) . i j (12.10)
La direction de plus grande pente est alors : f () = F ()1 f (). (12.11)
En pratique Lutilisation du gradient naturel ou dune approximation de la fonction de valeur (et donc des deux ensembles) peut alourdir considrablement les calculs effectus pour chaque chantillon. Dans un problme pour lequel 1) le cot dobtention de nouveaux chantillons est important ou 2) le temps de calcul reste ngligeable par rapport au temps dobtention des chantillons, ces mthodes plus complexes sont prfrer pour quune bonne solution soit trouve avec peu dchantillons. Si, par contre, on peut chantillonner trs vite et faible cot, par exemple quand un simulateur rapide du systme est disponible, il est alors probable quun algorithme plus simple (tel que OLpomdp) savre plus rapide pour trouver une bonne solution (cf. chapitre 15). Adaptation du pas dapprentissage, critre darrt Toute amlioration qui peut tre apporte une mthode de gradient gnrique est candidate pour amliorer les mthodes de gradient pour MDP. On peut citer ce titre le problme de ladaptation du pas dapprentissage. Le pas peut tre adapt au fur et mesure de lapprentissage, par exemple en effectuant une recherche linaire pour trouver un optimum local dans la direction du vecteur gradient. Le pas peut aussi tre diffrent dune dimension lautre (parce que lon peut vouloir acclrer selon
Mthodes de gradient
377
une dimension et ralentir selon lautre). Pour avoir un bon aperu de ce sujet, voir [SCH 05b]. De manire gnrale, les questions qui se posent lors de lutilisation dun algorithme doptimisation se posent ici aussi. Voici deux exemples que nous napprofondirons pas ici : comment dnir un critre darrt, deux alternatives classiques ayant t dcrites en section 12.1.2 ; et quel est le comportement anytime de lalgorithme, cest--dire quelle est sa capacit fournir une bonne solution tt et lamliorer progressivement. Utilisation dune mmoire On a vu que certains algorithmes permettent doptimiser un contrleur prenant des dcisions en fonction de lobservation courante, ce qui stend naturellement tout historique dhorizon ni. Dans le cas o un modle du systme est connu, on peut calculer ltat de croyance courant (la distribution de probabilit sur les tats possibles) et prendre une dcision en fonction de celui-ci, avec parfois la ncessit de travailler dans un espace dtats continu. Une autre approche possible est dajouter une mmoire au contrleur. Il peut sagir dune variable dtat interne, dune boucle rcurrente dans un rseau de neurones, ou dun automate tats. Lusage de cette mmoire nest pas prdni : cest pendant lapprentissage que cet usage prend forme (mmoriser un vnement particulier...). Dans le cadre de mthodes de gradient, les deux travaux suivants emploient des automates tats nis en guise de mmoire : dans [MEU 99b], cet automate est un automate de contrle, la mme structure contient donc mmoire et contrleur, cette structure (donc la quantit de mmoire disponible) tant xe lavance ; et dans [ABE 02, ABE 03], un automate indpendant sert contrler une mmoire ( grer un tat interne), un second contrleur utilisant ltat interne courant et lobservation courante pour dcider de laction effectuer. Si lutilisation dune telle mmoire peut tre indispensable pour rsoudre efcacement certains problmes, ces approches restent peu courantes et dusage difcile. En effet, non seulement ajouter une mmoire contribue lexplosion de lespace de recherche, mais en plus il ny a au dpart aucun indice sur le moyen dutiliser cette mmoire (les informations utiles retenir). Guidage Dans certains cas, un bon contrleur est connu qui peut servir de guide lors de lapprentissage. On peut alors distinguer au moins trois utilisations de ce guide : imitation : seules les dcisions du guide sont observes ; on ne peut alors pas exprimenter et valuer les autres dcisions ; le seul apprentissage possible est une imitation simple du guide : un apprentissage supervis ;
378
PDM en IA
imitation+exploration : les dcisions du guide sont mlanges avec une politique exploratoire, de manire exprimenter toutes les dcisions possibles ; il faut alors que lalgorithme dapprentissage tienne compte de ce que la politique apprise nest pas celle utilise lors de lexploration, ce qui se fait laide de mthodes dchantillonnage selon limportance [GLY 89, SHE 01, MEU 01, UCH 04] ; biais : la politique paramtre peut inclure ce guide (qui sert donc de biais), loptimisation ne faisant quapprendre le corriger l o ses dcisions ne sont pas les meilleures. Contrle multi-agents Un systme multi-agents (chapitre ??) purement collaboratif (tous les agents partagent une fonction de rcompense) peut tre vu comme une entit prenant des dcisions de manire rpartie entre ses diffrents corps. On reste donc dans le cadre dun problme doptimisation classique dans lequel on cherche la meilleure politique pour les diffrents agents (que les agents aient une politique commune ou pas). Parce que le cadre multi-agent amne vite une explosion combinatoire, parce que chaque agent doit avoir son propre contrleur et parce que les agents nont chacun quune observation partielle de leur environnement, il est naturel de faire une recherche directe de politique paramtre en factorisant la politique du groupe en une politique par agent. Sur ce sujet, voir par exemple [DUT 01, PES 00]. 12.5. Conclusion Ce chapitre a prsent les mthodes de gradient pour la rsolution de MDP. Cette approche est possible aussi bien avec ou sans modle disponible, et permet de contrler lespace de recherche puisquune premire tape est de choisir la forme de la politique paramtre optimiser. On peut rduire de manire comparable la taille de lespace de recherche en calculant une fonction de valeur approche, mais il ny a pas de garantie de qualit dune politique gourmande par rapport cette fonction. Les recherches directes de politique ont alors lavantage de travailler dans un espace de politiques stochastiques. Un point important de ce chapitre est de rappeler le fait que la rsolution de MDP est un problme doptimisation qui peut tre abord par diverses techniques. La programmation dynamique est lapproche la plus courante, mais les mthodes de gradient, la programmation linaire (chapitre 9, section ??), les algorithmes volutionnaires [SCH 94, MAR 07] ou les mthodes dentropie croise [SZI 06] peuvent tre plus appropris dans certaines situations. Les lecteurs intresss par la mise en pratique des mthodes de gradient pourront se rfrer par exemple : au chapitre 15 pour une utilisation avec grandeurs discrtes en planication, ou [KIM 98, PET 03] pour des mises en uvres avec grandeurs continues en robotique.
Q UATRIME PARTIE
Exemples dapplication des (PO)MDP (suite)
Chapitre 13
Recherche dune zone datterrissage en environnement incertain par un hlicoptre autonome
Ce chapitre prsente une utilisation des MDP sur support rel pour la recherche dune zone datterrissage en environnement incertain par un hlicoptre autonome. Nous montrons quelles sont les contraintes thoriques et pratiques qui doivent tre prises en compte an dembarquer un algorithme doptimisation en-ligne et en temps contraint de MDP bord de drones hlicoptres. Lapplication prsente dans ce chapitre est issue du projet R E SSAC de lONERA1 (voir [FAB 07] pour de plus amples informations sur ce projet). La gure 13.1 montre une photo prise lors dune mission de recherche de zones datterrissage dans un environnement inconnu et articiellement encombr par des cartons. La reconnaissance de zones datterrissage possibles et la stratgie daction globale sont totalement autonomes : le rle de loprateur humain visible sur la photo est uniquement de reprendre en main lhlicoptre au cas o les logiciels embarqus venaient dfaillir durant les tests. 13.1. Introduction Dans les systmes autonomes robotiques, les processus de dcision se doivent dtre anytime , cest--dire quils doivent fournir une solution, ventuellement non optimale, tout moment en temps born. De nombreuses approches ractives de la planication dterministe [CHA 05, DAM 05] rpondent ce problme : un plan daction est construit le plus rapidement possible sur un horizon born dpendant du
Chapitre rdig par Patrick FABIANI et Florent T EICHTEIL -KNIGSBUCH. 1. Ofce National dtudes et de Recherches Arospatiales : http ://www.onera.fr/
382
PDM en IA
Figure 13.1. Mission de recherche de zones datterrissage par un hlicoptre autonome embarquant des algorithmes de dcision bass sur les MDP
temps disponible pour construire le plan et ce plan est rafn si le temps est disponible, voire reconstruit au fur et mesure de lvolution de lenvironnement. Cependant, ces approches ne sont pas optimales lorsque lenvironnement est incertain (tat partiellement observable, effets incertains des actions) et que ses incertitudes sont quantiables, puisque la construction du plan suppose de manire optimiste que le systme est dans la situation la plus probable.
Hlicoptre autonome
383
Au contraire, les approches de planication probabiliste comme les MDP construisent des plans conditionnels dpendant de ltat courant du systme, et qui sont optimiss sur la moyenne de toutes les situations probables. Si ces approches ont le mrite dtre moins optimistes que les approches de planication dterministe, elles ont le dsavantage dtre plus coteuses en temps de calcul et en mmoire utilise. De plus, loptimisation dun plan conditionnel sur lensemble des tats possibles du systme a orient la recherche en planication probabiliste vers des algorithmes hors-ligne dnis sur lespace dtats tout entier. Il existe bien entendu des modles permettant de structurer lespace dtats (voir chapitre 9) et des algorithmes conus pour guider la recherche dune solution laide dheuristiques (voir chapitre 12 et [FEN 02, TEI 05a]). Cependant, ces approches modernes sont bases essentiellement sur des optimisations hors-ligne o limplmentation sur systme robotique rel nest pas la proccupation principale. Dans ce chapitre, nous prsentons une architecture de dcision probabiliste, ainsi quun algorithme de planication probabiliste anytime, mi-chemin entre la planication dterministe ractive et la planication probabiliste heuristique. Larchitecture de dcision utilise les threads du systme dexploitation embarqu an de parallliser la lecture de la politique et lamlioration de la politique en tche de fond. Lalgorithme dveloppe un sous-espace dtats atteignables lintrieur duquel une premire politique non optimise mais faisable est obtenue trs rapidement, puis cette politique est optimise et rafne en tche de fond dans un sous-espace dtats atteignables grandissant progressivement. Il sagit ainsi dune approche par programmation dynamique incrmentale dont la variable dincrment est la taille du sous-espace dtats atteignables en suivant la politique courante. Dans une premire section, nous prsentons le scnario de recherche de zone datterrissage dans un environnement mal connu et hostile. La deuxime section met laccent sur larchitecture embarque et, notamment, sur linteraction entre le module dcisionnel et les autres modules de larchitecture. Dans une troisime partie, nous prsentons un cadre et un algorithme qui permettent doptimiser en-ligne des MDP de manire incrmentale et locale. Enn, avant de conclure ce chapitre, nous montrons lintrt dune telle approche robotique par des rsultats obtenus au cours de tests sur un drone hlicoptre autonome rel.
13.2. Prsentation du scnario Deux drones hlicoptres RMAX de marque Yamaha ont t quips par lONERA dune architecture de contrle an de remplir une mission autonome de recherche de zone datterrissage dans un environnement mal connu et hostile (cf. gure 13.1). Grce aux capteurs embarqus et aux algorithmes dvelopps pour traiter les donnes issues de ces capteurs, le vol, la navigation, lexploration de zones, le dcollage et latterrissage dans des zones inconnues ont t automatiss.
384
PDM en IA
(a)
(b)
Figure 13.2. (a) Exemple de scnario (b) Sous-zones extraites du traitement dimages (fonc=encombr, clair=libre)
Le scnario qui a t expriment (cf. gure 13.2.a) consiste secourir un rescap dans une zone o on ne connat pas a priori les sous-zones datterrissage possibles. En revanche, la position du rescap et les dimensions de la zone sont connues. Une premire exploration de la zone est effectue 50 mtres de hauteur, an de lmer lenvironnement et dextraire par analyse de texture des sous-zones peu encombres o il sera peut-tre possible datterrir (cf. gure 13.2.b). Une exploration plus ne de ces sous-zones 20 mtres permet de conrmer leurs posabilits , cest--dire le fait que le drone puisse sy poser effectivement. Nanmoins, lautonomie de vol est borne, si bien quil nest pas souhaitable dexplorer toutes les sous-zones dans nimporte quel ordre. Ainsi, lissue du traitement dimages, une planication de lordre dexploration des sous-zones, de leur exploration elle-mme, des actions de dplacement entre zones, datterrissage, de redcollage et de retour la base est lance. 13.2.1. Problme de planication Le problme de planication commence lorsque le drone survole le rescap 20 mtres et que le superviseur a envoy au planicateur une liste de sous-zones datterrissage possibles. Cette information est transmise sous la forme suivante (pour chaque zone : identiant, coordonnes 2D, dimensions 2D, probabilit que la sous-zone soit atterrissable aprs exploration plus ne, nombre de points de passage de litinraire dexploration de la sous-zone) :
(zones (Z1 3153.65 -1348.34 30.9898 56.726 0.731584 6) ...)

partir de cette liste de sous-zones, le planicateur gnre un chier reprsentant le problme de planication rsoudre. Le langage choisi est PPDDL (Probabilistic Planning Domain Denition Language, voir chapitre 15) [YOU 04b], o les tats, les prconditions et les effets des actions sont dcrits laide de la logique du premier
Hlicoptre autonome
385
ordre. Lintrt principal de PPDDL rside dans la description par intention du problme : les formules boolennes sont paramtres par des objets du domaine de planication. Dans le cas prsent, les objets sont les sous-zones explorer, ce qui permet de dcrire une seule fois de manire gnrique les actions goto(zone), land et takeoff. De plus, les oprateurs de la logique du premier ordre permettent de dnir le domaine de manire intuitive et compacte et de le lire aisment.
13.2.2. tats et actions Les composantes dtat du problme de planication sont : human-rescued : boolen qui indique si le rescap a t secouru ; on-ground : boolen qui indique si le drone est au sol ; explored(zone) : boolen (un par sous-zone) qui indique si une sous-zone a t explore ( 20 mtres) ; landable(zone) : boolen (un par sous-zone) qui indique aprs exploration ( 20 mtres) si une sous-zone est atterrissable ; where : entier qui indique au-dessus de quelle zone se trouve le drone (y compris la verticale du rescap) ; flight-autonomy : rel qui indique le temps de vol restant. La taille de lespace dtat est donc 22(n+1) (n +1)d, o n est le nombre de sous-zones extraites de lexploration globale de la zone et d est le nombre de points de discrtisation de la composante dtat reprsentant le temps de vol restant. Les algorithmes de planication qui ont t utiliss dans cette application (cf. section 13.4) ncessitent des variables denvironnement discrtes. Toutefois, des approches de planication relativement rcentes permettent de raisonner directement avec des tats hybrides, comme dans [GUE 04] par exemple, et auraient pu tre implmentes. Nous considrons n + 6 actions : goto(zone) : dplacement vers la sous-zone zone ; explore : exploration de la sous-zone survole ; land : atterrissage dans la sous-zone (zone) survole, si landable(zone) est vrai ; takeoff : dcollage depuis la sous-zone o le drone est pos ; fail-safe : retour de scurit la base lorsque le temps de vol restant est infrieur 10 minutes ; end-mission : n de la mission, lorsque le drone est revenu la base, soit aprs avoir secouru le rescap, soit aprs un retour de scurit.
386
PDM en IA
13.2.3. Incertitudes Parmi les incertitudes de lenvironnement, trois types dincertitudes ont t retenues, qui inuencent sensiblement loptimisation de la stratgie : probabilit Pa quune zone soit posable aprs exploration locale (cf. gure 13.2.b) : Pa = nombre de pixels clairs nombre de pixels foncs [pixels issus dune analyse de texture] ;
probabilit Ps de secourir le rescap si le drone atterrit une distance dz du rescap dans la sous-zone z : 40 Ps = ; 40 + dz densit de probabilit f quune action dure secondes (a et a dpendent de laction a) : ( a )2 1 f = e 22 . a 2 13.2.4. Critre optimiser Le planicateur doit optimiser un critre additif, gal la somme des rcompenses ou des pnalits reues aprs chaque action. Une rcompense de +1000 est associe au sauvetage du rescap (reue lorsque le rescap est secouru et que lhlicoptre est pos). Une pnalit de 1000 correspond au retour la base sans avoir secouru le rescap (reue lorsque lhlicoptre revient la base sans que le rescap soit secouru). La stratgie produite est ainsi cense indiquer un ordre dexploration locale des souszones qui ralise un compromis entre trois types dvnements : la possibilit quune sous-zone soit qualie datterrissable aprs exploration, la possibilit de secourir le rescap si le drone atterrit dans cette sous-zone et la possibilit de rentrer la base (temps de vol restant) aprs avoir survol cette sous-zone. 13.2.5. Modle formel de dcision La spcication du problme de planication prsente ci-avant se prte tout fait une modlisation sous forme de FMDP (cf. chapitre 9) : le modle de transition est stochastique markovien ; les rcompenses sont rattaches aux effets des actions ; le critre doptimisation est additif ; lespace dtats est factoris par variables. De plus, le problme spci en langage PPDDL est automatiquement traduit en comme indiqu dans [YOU 04b]. Les DBN obtenus sont ensuite cods sous forme dADD pour une meilleure efcacit du traitement des donnes (cf. sous-section
DBN ,
Hlicoptre autonome
387
Figure 13.3. Vue globale et synthtique de larchitecture embarque
9.3.2). Nanmoins, les algorithmes doptimisation des FMDP bass sur les diagrammes de dcision y compris les plus rcents ne sont pas rellement conus pour une application anytime dans des conditions robotiques relles. Ainsi, nous montrons dans la suite de ce chapitre un cadre algorithmique permettant une utilisation anytime dalgorithmes doptimisation locaux et heuristiques des FMDP.
13.3. Architecture de dcision embarque 13.3.1. Vue globale Comme le montre la gure 13.3, larchitecture embarque sur les drones est divise en deux parties : la couche ractive pour des traitements quasiment immdiats et la couche dlibrative pour des traitements plus longs qui ne sont pas ncessairement borns dans le temps. Chaque couche logicielle est affecte un processeur ddi. Les deux couches interagissent essentiellement par change de donnes binaires. Les fonctions de contrle du vol sont excutes dans la couche ractive sous des contraintes temps-rel strictes : elles ont t valides sparment et doivent pouvoir tre excutes indpendamment de la couche dlibrative an dassurer la scurit permanente des vols. Les fonctions de la couche dlibrative sont alors autorises consommer plus de ressources de mmoire et de temps de calcul, sans pnaliser les fonctions temps-rel qui sont vitales pour maintenir lhlicoptre en vol. En dautres termes, la diffrence principale entre les deux couches et la raison pour laquelle il est prfrable de les sparer clairement est le fait quelles nont pas du tout les mmes contraintes temporelles : une telle sparation est vivement recommande an dimplmenter des algorithmes embarqus efcaces pour la dcision autonome.
388
PDM en IA
Figure 13.4. Architecture de dcision : la planication est un service multi-tche sollicit par le superviseur
La couche dlibrative est compose de trois modules principaux permettant de raliser le cycle classique perception - dcision - action : imageur : ralise le traitement des images enregistrs par les capteurs ; planicateur : optimise le FMDP dont le modle est issu du traitement dimages ; superviseur : machine tats qui droule le scnario (prprogramm), coordonne limageur et le planicateur et envoie les actions de bas niveau la couche ractive. Limageur et le planicateur sont des serveurs qui sont activs la demande par le superviseur. Ceci permet de lancer plusieurs processus de traitement dimages ou de planication en parallle. Par exemple, un deuxime sous-problme de planication pourrait tre lanc en complment du premier problme de planication (mentionn plus haut) an doptimiser plus nement les actions de lhlicoptre lintrieur de chaque zone candidate latterrissage.
13.3.2. Planication multi-tche sur requte du superviseur La gure 13.4 reprsente linteraction entre le planicateur et le superviseur. Ds que le superviseur reoit de limageur le rsultat du traitement dimages de la zone globale (extraction de zones datterrissage candidates), il se connecte au serveur de planication (le planicateur) et lui envoie le problme rsoudre. Le planicateur lance alors deux tches en parallle : une tche doptimisation de la politique et une tche de dialogue avec le superviseur. 13.3.2.1. Optimisation de la politique La politique est gnre de manire incrmentale laide dun algorithme que nous prsentons dans la section suivante. chaque incrment de lalgorithme, la politique est localement amliore : sa valeur augmente lintrieur dun sous-espace dtats qui englobe un minimum dtats atteignables, dont ltat courant et les tats buts. Entre deux incrments, la politique et lespace dtats atteignables sont copis dans une
Hlicoptre autonome
389
place mmoire sre, cest--dire protge en lecture et criture par mutex. Ceci permet de modier la politique tout en ayant constamment accs une politique applicable. De cette faon, le planicateur fournit une politique ds la n du premier incrment, ce qui permet denvoyer au superviseur une premire action raliser, sans attendre que lalgorithme doptimisation termine compltement. Le planicateur peut ainsi tre quali d anytime condition, comme nous le verrons plus loin, que le temps de calcul du premier incrment soit faible. 13.3.2.2. Dialogue avec le superviseur Le dialogue avec le superviseur nest pas aussi simple que le lecteur pourrait le croire, car les donnes sont changes dans le socket en ASCII alors quelles sont codes sous forme de BDD et dADD dans le planicateur. Il est en effet inutile denvoyer des diagrammes de dcision binaires dans le socket, puisque le superviseur ne dispose pas de la connaissance sufsante pour dduire la smantique de ces diagrammes de dcision [YOU 04b]. Aussi, le processus de dialogue avec le superviseur ncessite un calcul de conversion des diagrammes de dcision vers des actions reprsentes en ASCII (par exemple (goto (Z0))). Inversement, les tats cods en ASCII doivent tre convertis en diagrammes de dcision. Enn, la lecture dune action optimale dans ltat courant ncessite de bloquer le mutex associ la lecture ou lcriture de la politique courante. Si ltat courant nest pas dans le sous-espace dtats atteignables, ou si ses effets en sont en-dehors, la tche doptimisation de la politique est interrompue puis relance depuis le nouvel tat initial. Les cas de replanication sont arguments dans la section suivante.
13.4. Programmation dynamique stochastique, incrmentale et locale La dcision embarque sur des hlicoptres autonomes doit tre assez ractive, cest--dire quelle doit produire des dcisions en un temps comparable la ralisation dune action de haut niveau. Si tel ntait pas le cas, les dcisions seraient dphases avec lenvironnement, au point quelles risqueraient de conduire lhlicoptre dans des situations dangereuses. De plus, lautonomie de vol est limite, si bien quil nest pas envisageable de consommer tout le temps disponible pour produire une dcision. Par consquent, une application robotique relle qui plus est critique des ncessite une adaptation des algorithmes doptimisation an de produire des politiques en ligne anytime . Dans le contexte de lapplication prsente dans ce chapitre, anytime signie quune action automatiquement calcule par le planicateur est disponible en un temps comparable la ralisation dune action de haut niveau. Ce nest pas, en gnral, le cas des algorithmes doptimisation des MDP, y compris sous-optimaux ou heuristiques.
MDP
390
PDM en IA
Le cadre algorithmique choisi dans notre application repose sur loptimisation incrmentale dune politique locale, connaissant ltat courant du systme et une condition but satisfaire : at(base) (human_rescued (f light_autonomy 10 mn))
Un sous-espace dtats atteignables est calcul en appliquant la politique courante depuis ltat courant jusquaux tats qui satisfont la condition but. Une fois ce sousespace dtats calcul, la politique est localement r-optimise lintrieur de ce sousespace dtats et ainsi de suite. Lalgorithme alterne donc deux phases : une phase de gnration des tats atteignables sur la base de la politique courante et une phase doptimisation de la politique lintrieur du sous-espace dtats atteignables. La variable dincrment de lalgorithme est la taille du sous-espace dtats atteignables. Entre chaque incrment, la politique locale obtenue peut-tre applique par le superviseur sans attendre quelle soit totalement optimise. Dans cette application, lalgorithme incrmental choisi est sfDP (Stochastic Focused Dynamic Programming), car il prend en compte la fois un tat initial et des tats buts dans loptimisation du MDP (voir [TEI 05a, TEI 05b]). Dautres algorithmes incrmentaux auraient pu tre utiliss, comme sLAO* [FEN 02], ou sRTDP [FEN 03]. 13.4.1. Obtention dune premire politique non optimise An dobtenir rapidement une premire politique applicable, lalgorithme sfDP calcule un plus court chemin logique menant de ltat initial courant aux tats buts et ceci sans aucune optimisation numrique. Le systme rcursif suivant permet de calculer itrativement la politique initiale laide de la logique du premier ordre : {actions dnies dans les tats buts} si e buts, ; sinon
0 (e) = i+1 (e) =
(13.1)
{a : e , T (e | a, e) > 0 et i (e ) = } i (e)
si i (e) = , . (13.2) sinon
La deuxime ligne de lquation (13.2) vrie la proprit de plus court chemin car elle empche, dans un tat donn, de remettre en question une action qui a t dj calcule. Comme cette action a t obtenue dans une itration prcdente, elle correspond un nombre dtapes moindre pour atteindre un tat but. Litration sarrte lorsque la politique est dnie dans ltat initial e0 , cest--dire : i > 0, i (e0 ) = . Remarquons enn que lexcution de cette politique initiale est stochastique puisque, pour tout tat e et toute tape i, i (e) est un ensemble dactions menant un tat but en i tapes depuis e.
Hlicoptre autonome
391
en avant Ft+1 = Tdet (Ft , )
en arrire t1 = T 1 (F t , ) Ft F B det (a)
programmation dynamique dans F (b)
Figure 13.5. SFDP : (a) expansion du sous-espace dtats atteignables F en suivant la politique courante des tats initiaux I aux tats buts B, puis (b) optimisation de . (T : transitions)
13.4.2. Gnration du sous-espace dtats atteignables Connaissant la politique courante , le sous-espace des tats atteignables F est calcul en deux passes, une avant et une arrire (cf. gure 13.5). Le systme rcursif suivant, encod sous forme de BDD , propage les tats atteignables en avant depuis les tats initiaux I jusqu ce quau moins un tat atteignable satisfasse la condition de but B : F0 = I , Fi+1 = Fi {e : T (e | (e), e) > 0, e Fi } . (13.3) (13.4)
Ensuite, le systme rcursif suivant propage les tats atteignables en arrire depuis les tats buts B jusqu ce quau moins un tat atteignable soit dans lensemble I , en ne gardant que les tats qui sont dans lensemble F prcdemment calcul : 0 = B F , F i+1 = F i F i F . e : T (e | (e), e) > 0, e F (13.5) (13.6)
est nalement mis dans F : F F . Le sous-espace dtats atteignables restreint F
13.4.3. Optimisation locale de la politique Aprs chaque gnration du sous-espace dtats atteignables F , la politique courante est mise jour laide de lquation de Bellman classique, mais calcule
392
PDM en IA
uniquement dans F : V0 (e) = 0, Vi+1 (e) = 1F (e) max

a e
(13.7) T (e | a, e) (Vi (e ) + R(e | a, e)) . (13.8)
La nouvelle politique locale est alors obtenue en appliquant une fois de plus loprateur de Bellman, en nvaluant que les tats qui sont dans F : (e) = 1F (e) argmax
a e
T (e | a, e) (V (e ) + R(e | a, e)) .
(13.9)
Cette nouvelle politique locale est immdiatement copie dans un espace mmoire sr protg par mutex. Elle est immdiatement applicable par le superviseur, tandis que le planicateur gnre de nouveau le sous-espace dtats atteignables en suivant cette nouvelle politique. 13.4.4. Replanications locales Lavantage de sfDP sur dautres mthodes incrmentales est la connaissance dtats buts, ce qui rduit le nombre dtats explorer durant la phase doptimisation locale. Cependant, son dsavantage est la perte de garantie doptimalit car tous les tats atteignables depuis les tats initiaux ne sont pas explors, mais uniquement ceux qui mnent aux tats buts. En particulier, il ny a aucune garantie que, en partant dun tat initial, chaque trajectoire possible de la politique locale courante mne aux tats buts : la gnration du sous-espace dtats atteignables sarrte en effet ds quau moins une telle trajectoire est trouve (et non toutes). Ainsi, le planicateur doit lancer un processus de replanication dans les deux cas suivants (cf. gure 13.6) : (a) une transition de faible probabilit survient durant lexcution de la politique, si bien que le nouvel tat courant est lextrieur du sous-espace dtats atteignables ; (b) aucune transition nest dnie dans ltat courant, lorsque tous les effets stochastiques de la politique courante dans cet tat sont lextrieur du sous-espace dtats atteignables. Le temps de replanication dcrot gnralement chaque replanication, car les nouveaux tats initiaux de chaque processus de replanication sont sans cesse plus proches des tats buts. 13.5. Tests en vol et retour dexprience Dans cette section, nous prsentons des rsultats obtenus sur support rel (hlicoptres RMAX) sur le terrain daviation dEsperce dans le Sud-Ouest de la France.
Hlicoptre autonome
393
Figure 13.6. Cas de replanication : (a) ltat courant est lextrieur du sous-espace atteignable ; (b) la politique nest pas dnie dans ltat courant
Nous comparons les performances entre lalgorithme de planication anytime multi-tche prsent dans ce chapitre et des approches mono-tche. Lalgorithme doptimisation incrmentale est sfDP, tel que prsent dans la section prcdente. Nous nous focalisons sur quatre critres de comparaison : temps total doptimisation : somme des temps doptimisation des processus de planication et de replanication ; nombre de replanications ; temps de rponse maximum : temps maximum ncessaire pour renvoyer une action au superviseur aprs rception de ltat courant ; zone datterrissage : obtenue en appliquant la politique courante depuis la base o est stationn lhlicoptre. Dans le but de comparer ces critres sur une base commune, nous avons enregistr sur disque une liste de 10 zones qui ont t extraites du traitement dimages durant un vol dessai. An de coder le problme de planication sous forme de BDD et dADD , la variable continue flight-autonomy a t divise en 288 intervalles de 12,5 secondes chacun. La taille de lespace dtats est donc : 2 2 210 210 11 288 = 13 287 555 072 tats. Le tableau 13.1 reprsente la comparaison entre la version mono-tche de sfDP et sa version multi-tche. Toutes les actions ont t simules en laboratoire aprs le vol dessai, y compris leurs dures, an de mettre en vidence le processus doptimisation en tche de fond (en mode multi-tche) et les processus de replanication. Les actions durent en moyenne 50 secondes. Tous les tests ont t effectus sur le processeur embarqu bord du drone et ddi aux processus dlibratifs (Pentium 1 GHz). La dernire colonne reproduit les rsultats obtenus durant le vol rel. La deuxime colonne correspond un algorithme doptimisation optimal comme SPUDD, qui travaille la politique sur lespace dtats tout entier. Cet algorithme optimal donne une ide de la complexit du problme de planication et il permet de comparer la zone datterrissage optimale et celles obtenues par les diffrentes versions de sfDP. Notons que
394
PDM en IA nb de zones 5 5 5 7 7 10 10 algorithme optimal ST MT ST MT ST MT temps total optimisation 1358 2,58 2,8 13,76 13,6 308,29 258,57 nb replanications 0 0 1 0 1 3 4 temps rponse max 1358 2,58 0,21 13,76 0,29 308,22 5,75 zone atterrissage Z1 Z1 Z0 Z5 Z0 Z0 Z1 Tableau 13.1. Comparaison entre sfDP single-thread (ST) et sfDP multi-thread (MT) le temps est donn en secondes
lalgorithme optimal est incapable, ds 5 zones, de calculer une politique en moins dune heure, qui est la dure maximale dune mission ! Ces tests nvaluent pas lefcacit dalgorithmes de planication stochastiques heuristiques et locaux tels sLAO* ou sfDP. Le lecteur intress pourra trouver une discussion sur lintrt de tels algorithmes dans [TEI 05b, FEN 03]. Nous souhaitons plutt montrer dans ce chapitre quil est possible de modier lgrement un algorithme dvelopp en laboratoire sur des problmes acadmiques, an de ladapter des conditions relles dutilisation robotique. Dans le cas prsent, une approche anytime multi-tche produit des politiques applicables et non stupides en un temps trs court, ce qui est une contrainte oprationnelle des algorithmes de dcision embarqus bord dhlicoptres autonomes. Le tableau 13.1 montre que le temps de rponse maximum de la version multi-tche de sfDP est ngligeable par rapport la dure moyenne des actions ( 50 secondes). Le temps de rponse maximum de la version mono-tche est signicativement plus grand. Avec 10 zones, en mode mono-tche, ltat courant nest quasiment jamais inclus dans le sous-espace dtats atteignables lors des replanications successives, car la variable dtat flight-autonomy dcrot autant que le temps de replanication, lui-mme suprieur au temps autoris pour appliquer la politique roptimise dans ltat courant. Ainsi, de nombreuses replanications sont ncessaires pour appliquer une seule action. Ce phnomne ne survient pas en mode multi-tche, bien que cela ne soit pas visible dans le tableau prsent : dans ce mode, toutes les replanications ont eu lieu individuellement aprs la ralisation dactions diffrentes.
13.6. Conclusion Dans ce chapitre, nous avons prsent une architecture de dcision multi-tche pour la planication dans lincertain en temps rel. Nous avons montr que les algorithmes doptimisation des MDP, y compris heuristiques, ne peuvent pas tre utiliss tels quels dans des applications ralistes qui ncessitent des calculs en ligne contraints par le temps. En effet, le temps de calcul de ces algorithmes excde le temps limite entre le planicateur et les senseurs de lagent autonome. En revanche, nous avons montr quil est possible de les adapter un cadre anytime permettant de rsoudre en temps rel des problmes de planication stochastique.
Hlicoptre autonome
395
Le processus de planication est divis en deux threads communicants, synchroniss sur la politique courante applicable. Une premire politique stochastique est rapidement obtenue en calculant au moins une trajectoire qui mne de ltat initial vers les tats buts. Les tests sur support rel justient les modications apportes aux algorithmes thoriques : non seulement le temps de rponse du planicateur est signicativement rduit, mais des politiques optimises peuvent ds lors tre appliques par le superviseur en un temps compatible avec la dure des actions. Une autre faon de produire des stratgies anytime pourrait consister dcouper un algorithme doptimisation incrmentale en de petits processus de calcul indpendants, lancs successivement lintrieur dune seule tche (voir [VER 07] pour un exemple darchitecture de dcision relle base sur ce principe). Chaque nouveau processus de calcul amliorerait dun incrment la politique locale renvoye par le processus de calcul prcdent. Nanmoins, une telle implmentation serait sans doute pnible, car elle ncessiterait de programmer des protocoles dchanges de donnes entre les diffrents processus de calcul, an de transmettre linformation ncessaire la construction de la politique courante entre deux processus de calcul successifs.
Chapitre 14
Contrle dune mission dexploration
Ce chapitre prsente une application robotique relle pour laquelle le contrle se base sur les processus dcisionnels de Markov. Un robot explorateur autonome est charg de rcolter des informations sur diffrents sites inaccessibles avant de renvoyer le rsultat de ses analyses. Dans ce contexte, les ressources de ce systme embarqu sont limites. Les tches que le robot effectuera sont constitues de plusieurs tapes. Le systme de contrle haut niveau qui est prsent dans ce chapitre permet de slectionner quelles tches et quelles tapes devront tre effectues en tenant compte chaque instant des ressources disponibles (nergtiques par exemple) et de limportance des diffrentes tches de la mission.
14.1. La mission du robot explorateur Un robot explorateur autonome a pour mission de rcolter des informations sur un terrain o ltre humain ne peut pas saventurer. Cela peut tre sur Mars, une grande profondeur sous leau ou encore sous les dcombres aprs un tremblement de terre par exemple. Ce robot dispose dune palette doutils embarqus qui lui permettent de faire des relevs qui pourront ensuite tre analyss par des scientiques. De plus ce robot ne dispose pas forcment dune quantit sufsante de ressources pour effectuer toutes les oprations de la mission. La mission du robot est dcoupe en plusieurs tches indpendantes. Le robot dispose dun plan dexploration avant de commencer la mission, comme celui de la gure 14.1. Le robot devra alors visiter certains sites pour y effectuer des prlvements (atmosphriques, de minerai au sol, prise de photographie, etc...).
Chapitre rdig par Simon L E G LOANNEC et Abdel-Illah M OUADDIB.
398
PDM en IA
Site B
Site E
Site A Site D Site C

scnario issu du projet NASA
Site F
Analyse atmosphrique Photographie Analyse de minerai
Figure 14.1. Le robot a une mission : explorer certains sites (nuds) de ce graphe acyclique, dans un ordre impos. Il partira du site de dpart marqu dun D et arrivera, si le temps le lui permet, au site darrive marqu dun A. Il passera plus ou moins de temps sur chaque site pour rcolter des informations. Le robot va adapter le temps pass sur chaque site en fonction de la description quil aura pralablement reu pour celui-ci. Le temps disponible pour effectuer chaque mission est limit.
Chaque opration peut prendre plus ou moins de temps, consommer plus ou moins de ressources. En effet, puisque le robot possde une palette doutils importante, il existe plusieurs faons daccomplir chaque tche. Certains outils possdent mme plusieurs modes de fonctionnement : haute qualit, qualit moyenne et basse qualit. Comme la quantit de ressource embarque est limite, il faut que le robot puisse adapter sa consommation de faon ce quil lui reste sufsamment de ressources pour effectuer les tches les plus pertinentes. Le contrle de la consommation des ressources consommables est le premier aspect original de ce chapitre. Nous prsentons ici non pas une mthode pour planier ou ordonner les diffrentes tches, mais un systme de contrle haut niveau qui permet de grer le mieux possible la consommation de ressources pour la mission. [BRE 02, ?] proposent une approche pour planier une mission en tenant compte de la consommation de ressources. La structure des tches qui constituent la mission est le deuxime point original de ce chapitre. Une tche de rcolte dinformations est une suite dactions lmentaires qui sont cette fois-ci dpendantes les unes des autres : elles doivent tre effectues dans un ordre bien prcis. La gure 14.2 illustre une tche correspondant une photographie. La construction du modle des tches est pralablement ncessaire pour crire une mission. Sur un site donn, le robot peut effectuer une ou plusieurs tches. Ces tches sont hirarchiques, comme le montre la gure 14.2. Le robot va pouvoir lexcuter tape
Robotique mobile
399
Niveau 3
Pr Pr
basse comp
0.5 0.4 0.3 0.2 0.1 R
haute comp
0.5 0.4 0.3 0.2 0.1 R
Pr
10
0.5 0.4
Niveau 2
Pr 0.5 Pr Pr
basse res
0.4 0.3 0.2 0.1
1
R
moy res
0.5 0.4 0.3 0.2 0.1 R
haute res
0.5 0.4 0.3 0.2 0.1
6
R
0.3 0.2
Niveau 1
Pr
0.1
0.5 0.4 0.3 0.2 0.1 R
diriger la camera
0
PRU p
Qualit du module
R 3 4 5 6 Distribution de probabilit de consommation de ressources
Figure 14.2. Le robot explorateur rcolte des informations un site : la partie gauche de la gure reprsente la modlisation dune tche de rcolte dinformation. Sur un site donn, le robot va devoir prendre une photo puis lenregistrer. Cela se fait en trois tapes : diriger la camra, choisir la dnition de limage, puis enregistrer cette image sur le disque. A chaque tape ou niveau, le robot peut choisir une et une seule option parmi les modules qui lui sont proposs.
par tape. Aprs chaque tape, il pourra dcider de linterrompre pour passer une autre tche sur un autre site. Cette interruption peut faire conomiser des ressources au robot pour plus tard, mais le robot ne pourra pas revenir sur cette tche par la suite. A chaque tape, le robot dispose de plusieurs choix (comme basse rsolution ou haute rsolution sur la gure 14.2). Un choix implique une consommation plus ou moins forte de ressources, mais aussi un rsultat plus ou moins bon pour la tche globale. Dautres travaux sont consacrs la dcomposition hirarchique des tches [?, ?, ?]. Le systme de contrle prsent dans ce chapitre permet justement de trouver le meilleur compromis entre les ressources utilises et la qualit globale des tches effectues. Comme les tches de rcolte dinformations sont ralisables progressivement, on parle de raisonnement progressif. Une tche sera appele unit de raisonnement progressif (PRU). Le raisonnement progressif a t utilis pour modliser des missions dexploration dans [CAR 01, ZIL 02]. La premire partie de ce chapitre constitue une introduction au formalisme. Nous prsenterons ensuite comment contrler la consommation de ressources avec un processus dcisionnel de Markov en exploitant la structure hirarchique propre au raisonnement progressif. Nous nirons par illustrer cette approche par une implmentation sur un robot autonome.
14.2. Formalisme dune mission constitue de tches progressives Une mission est ici une suite nie de tches reprsentes sous forme dunits de raisonnement progressif (notes PRU). Nous attribuons un indice unique p chaque prup , p [1, . . . , P] (voir gure 14.1).
400
PDM en IA
N OTE. Nous pourrions tendre la dnition de mission un graphe acyclique de PRU . Une suite de PRU est un chemin possible dans un graphe acyclique de PRU (par exemple les PRU A, B, E, F de la gure 14.1). Nous simplions le problme pour des raisons de clart, car les indices utiliss pour dcrire le modle sont nombreux. Dans la mission dexploration, la ralisation dune tche suit lexcution dune
PRU . Cette dernire est compose dune suite nie de N niveaux . la n dun niveau
lagent peut dcider dexcuter ou non le niveau suivant. Par contre, le robot ne peut pas sauter directement de niveau : il ne peut pas enregistrer la photo sans lavoir prise. Quand le robot dcide dexcuter un niveau, plusieurs mthodes soffrent lui. Il peut dans cet exemple prendre une photo de bonne ou de mauvaise qualit. Chaque niveau est donc reprsent par un ou plusieurs modules qui sont des faons de lexcuter. Lagent ne peut excuter quun seul module par niveau. chaque module est associe une qualit Q et une distribution de probabilit sur la consommation de ressource possible P r. Nous notons mp,n,m le module m du niveau Np,n et Qp,n,m sa qualit. Cette qualit Q est un rel positif qui reprsente numriquement la qualit de lexcution du module. La qualit dexcution dune PRU est gale la somme de toutes les qualits des modules excuts dans celle-ci. Cette qualit totale nest gagne par le robot (par le biais dune fonction de rcompense) que si celui-ci excute la PRU en entier. Une excution inacheve de PRU ne rapporte rien. La distribution de probabilit sur la consommation de ressource P rp,n,m de chaque module reprsente lincertitude qui existe dans notre modle. Cest une fonction P r : R [0, 1] qui donne la probabilit de consommer une quantit de ressources quand lagent excute le module mp,n,m (R reprsente lespace des ressources consommables). Les ressources consommables sont des quantits mesurables et dcroissantes. Les quantits de ces ressources consommables diminuent au fur et mesure que la mission se poursuit, aprs chaque module, sans jamais augmenter pendant la mission. Parmi celles-ci on peut citer par exemple : le temps restant pour effectuer la mission, lnergie dans les batteries ou lespace mmoire restant sur le disque de donnes. N OTE. Dans ce chapitre, nous nous limitons une seule ressource consommable, lnergie par exemple. La gestion de plusieurs ressources consommables est possible. Ce problme a t trait dans [?]. Nous avons maintenant entre les mains toutes les informations ncessaires la construction de la politique qui permettra au robot dexcuter sa mission. Nous allons donc prsenter le mcanisme de contrle du raisonnement progressif.
14.3. Modlisation MDP / PRU Le mcanisme de contrle de la mission se fait en plusieurs tapes : la formalisation dun processus dcisionnel de Markov partir de la mission ;
Robotique mobile
401
le calcul dune politique globale partir du processus dcisionnel de Markov obtenu ; lexcution de la mission en suivant cette politique. Le mcanisme de contrle global prvoit un contrle total de la mission, cest-dire que la politique globale est calcule avant dexcuter cette mission.
14.3.1. Les tats de lagent Ltat de lagent dpend entre autres de la PRU quil excute et du niveau quil a atteint dans celle-ci. On accumule dans ltat la qualit de tous les modules qui ont t excuts dans cette PRU, cest pourquoi la qualit accumule Q est un paramtre de ltat. De plus, la dcision prendre par lagent dpend des tches venir donc des ressources consommables restantes et des tches effectuer pour le reste de la mission. Ltat de lagent va tre dcrit par quatre variables : les ressources restantes, la qualit accumule dans la PRU courante, lunit de raisonnement progressif courante et son indice p puis lindice n du dernier niveau excut dans cette PRU. Si, par exemple, le robot vient de terminer le 2me niveau de la PRU numro 5, que les modules prcdemment excuts lui ont rapport une qualit de 15 et quil lui reste 153 units de temps, ltat sera not s = 153, 15, 2, 5 . Il peut arriver que lagent commence une tche qui va consommer plus de ressources quil nen avait au dpart ; on regroupe donc tous les tats dont la ressource restante serait ngative dans un tat dchec sechec . Formellement, on crira que : S = { r, Q, p, n , r R} {sechec }. De plus, on cre un ensemble dtats pour un niveau 0 ctif qui correspond pour chaque PRU aux tats initiaux de cette PRU. Dans cet ensemble dtats, la qualit est toujours nulle, puisque lagent na encore excut aucun module de cette PRU.
14.3.2. Les actions de lagent Seulement deux types dactions sont possibles A = {Em , M} (voir gure 14.3) : une action Em permet dexcuter le module m parmi les modules du niveau suivant de la PRU courante ; laction M permet de changer de PRU. Lagent va donc avoir aprs chaque niveau le choix entre lamlioration de la tche courante (la PRU courante) ou labandon de la PRU pour la suivante. Le robot ne peut pas sauter de niveau. Cependant, si pour une raison bien dnie un niveau est optionnel, on introduira un module vide (skip) dans les niveaux concerns. Ce module produira une qualit nulle et ne consommera pas de ressource.
402
PDM en IA
Niveau 3 m 3, 1
Niveau 3
E1
s
m 2, 2
m 3, 2
E2 M
m 2, 3 Niveau 2
Niveau 2 m 2, 1
Niveau 1 m 1, 1
Niveau 1 m 1, 1 PRU suivante
PRU courante
Figure 14.3. Lagent a ralis le niveau 2 de la tche (PRU) courante (il a pris la photo). Deux types dactions peuvent tre entreprises : excuter un des modules du niveau suivant (enregistrer cette photo, en effectuant un traitement ou pas), E1 ou E2 cest--dire poursuivre cette tche, ou alors commencer la tche suivante.
Quand lagent choisit dexcuter un niveau, il doit choisir parmi un des modules disponibles de ce niveau. Si le dernier niveau est atteint, plus aucun niveau nest disponible. Si lagent dcide darrter damliorer la PRU courante, il choisit laction M. Il va alors se trouver immdiatement au dbut1 de la PRU suivante o il pourra choisir, une fois de plus, entre lune des actions Em et laction m. Par exemple, notre robot peut avoir repr une roche, mais se rendre compte que, sil la ramasse, il va perdre un temps prcieux pour plus tard. Il peut donc dcider darrter la tche courante, cest--dire ne pas ramasser cette roche puis passer directement un autre site, pour reprer une autre roche, ou encore continuer vers un deuxime site sans rien faire sur le premier. Le robot ne pourra par contre jamais revenir sur ses pas pour reprendre un site abandonn. 14.3.3. La fonction de transition La fonction de transition P r : S A S [0, 1] modlise lincertitude sur la dynamique du systme. Laction M est dterministe. Si lagent choisit de changer dunit de raisonnement progressif, il garde toutes ses ressources restantes. Ainsi
P r( r, Q, p, n , M, r, 0, p + 1, 0 ) = 1.
(14.1)
1. Cest dire la n dun niveau 0 ctif.
Robotique mobile
403
La qualit accumule dans la nouvelle PRU devient nulle. Le deuxime zro reprsente le fait que lagent est plac juste avant le premier niveau de la prup+1 . Toute action Em est probabiliste. La distribution de probabilit est dcrite dans le module excuter (exemple sur la gure 14.2). Ainsi
P r( r, Q, p, n , Em , r r, Q + Qp,n,m , p, n + 1 ) = P r(r|mp,n,m ). (14.2)
14.3.4. La fonction de rcompense Dans notre application robotique, le mcanisme de contrle du robot, tel quil a t pens dans [ZIL 02], prvoit de rcompenser le robot aprs chaque PRU pour ce quil a fait. Nous pouvons ds prsent justier le fait de garder la qualit dans ltat : ceci permet de ne rcompenser le robot que si la PRU a t entirement effectue.
R( r, Q, p, Np ) R( r, Q, p, n < Np )
= Q, = 0.
(14.3) (14.4)
Il ny a pas pnaliser le robot pour avoir consomm des ressources dans une PRU donne : en effet la consommation locale entrane une possible perte de valeur pour le futur, puisque ce qui est dpens maintenant ne sera plus disponible plus tard dans la mission.
14.4. Calcul de la politique de contrle Le mcanisme de contrle global se base sur un calcul a priori de la politique pour lensemble de la mission. La valeur dun tat ne dpend que de la valeur des tats des niveaux suivants et des suivantes (voir lquation 14.8). La valeur en sortie dune PRU ne dpend que de la qualit qui y a t accumule et du temps restant aprs lobtention du rsultat. Pour contrler la prup , il suft de connatre la fonction de valeur lie laction dexcution des modules E.
PRU
La valeur dun tat avant le dernier niveau dpend de la valeur espre en excutant les niveaux suprieurs, et en choisissant le meilleur module.
404
PDM en IA
0 si r < 0 (chec), sinon : R( r, Q, p, Np ) V ( r, Q, p, n ) = + max(Q(s, M), maxm Q(s, Em )) Q( r, Q, p, n , M) = 0 si p = P, sinon : V ( r, 0, p + 1, 0 ) 0

r
(14.5)
(14.6)
si n = Np (dernier niveau), sinon : P r(r|mp,n,m ).V ( r , Q , p, n + 1 ), o Q = Q + Qp,n,m , et r = r r. (14.7)
Q( r, Q, p, n , Em ) =
V ( r, Q, p, n ) =
0 si r < 0 (chec) ou p = P + 1, max(Q(s, M), maxm Q(s, Em ));
sinon :
(14.8) (14.9)
Q( r, Q, p, n , M) = R( r, Q, p, n ) + V ( r, 0, p + 1, 0 ); Q( r, Q, p, n , Em ) = R( r, Q, p, n ) + P r(r|mp,n,m ) V ( r , Q , p, n + 1 ),
r
(14.10)
Q = Q + Qp,n,m
et r = r r.
N OTE. attention ne pas confondre la qualit Q du module excut (propre ce chapitre) avec la fonction de Q-valeur Q(s, a) introduite dans le chapitre 1. On dtermine une politique optimale avec lquation suivante : ( r, Q, p, n ) = argmax(Q( r, Q, p, n , M), Q( r, Q, p, n , Em ))(14.11) .
E m ,M
Ce MDP est sans cycle et horizon ni. Lalgorithme qui permet de calculer la fonction de valeur est donc linaire en la taille de lespace dtats. Un tat ne devra tre valu quune seule fois, et il suft dappliquer un algorithme de chanage avant arrire (en partant dun tat initial) ou par chanage arrire (en partant de tous les tats terminaux possibles). Un algorithme de chanage avant-arrire fonctionne sur le principe suivant : partir dun tat initial, on gnre les tats que lon peut atteindre avec les actions disponibles cet instant. On procde ainsi rcursivement jusqu ce que plus aucun tat nait de successeur possible. Ces tats terminaux sont ltat dchec et les tats de n de la dernire PRU. On value ensuite chaque tat par chainage arrire, en calculant la valeur du dernier tat puis en propageant cette valeur en arrire. On
Robotique mobile
405
obtient nalement une valeur pour ltat initial. La valeur de chaque tat est dnitive, donc la politique est dtermine en mme temps que lvaluation. Une fois la politique calcule, on charge celle-ci sur le robot qui peut ensuite effectuer la mission. 14.5. Modliser concrtement une mission Ce contrle de consommation de ressources pour un robot explorateur autonome suppose que le graphe acyclique de la mission est connu ; les PRU sont dj modlises. Pour cela, il faut connatre pralablement la distribution de probabilit sur la consommation dune ressource possible pour chaque module qui conpose les PRU. Pour linstant, ces distributions sont values exprimentalement avant la conception de la mission. On rpte une srie des tests pour chaque module excutable par le robot pour obtenir une estimation du montant de ressources qui seront consommes dans chaque module. La gure 14.4 est un exemple dapplication qui utilise le raisonnement progressif.
v v r
A lle
site 4
r
dtecter une quiller
site 1 v
quilles
v r
2 points 100 points
sit e
ra
v
Pousser la quille
r v v
v r v r site 3 site 2 v v r v v
Figure 14.4. Exemple dapplication illustr : un robot est charg de renverser un ensemble de quilles disposes sur le sol. Le temps imparti pour la mission est infrieur celui ncessaire pour renverser toutes les quilles. Chaque quille rapporte un nombre de points diffrents, le robot doit dcider chaque instant sil renverse la quille ou sil passe la suivante. La tche "renverser une quille" a t modlise sous forme dune unit de raisonnement progressif. Les deux photos montrent le robot en action : il dtecte les quilles sur le site, puis renverse la quille rouge, qui rapporte plus de points.
406
PDM en IA
14.6. Extensions possibles Une extension du contrle de la consommation dune ressource unique plusieurs ressources est propose [GLO 07]. Une structure agrge de lespace dtats permet de limiter sa taille, qui augmente exponentiellement avec le nombre de ressources grer. Une autre extension permet de calculer ou de recalculer une politique de contrle pendant la mission [GLO 07]. Ceci est ncessaire quand lenvironnement dans lequel volue le robot change. En effet, si des tches apparaissent au cours de la mission, il faut pouvoir dcider rapidement combien de ressources doivent tre alloues pour la tche courante, toujours dans loptique de maximiser la somme des qualits obtenues sur le long terme. La politique de contrle ainsi calcule nest plus optimale, mais permet au robot de prendre des dcisions dans la PRU courante qui sont souvent optimales. 14.7. Conclusion Nous venons de prsenter une mthode pour contrler la consommation de ressources dun robot explorateur autonome. Cette mthode se base sur le raisonnement progressif, qui permet deffectuer pas pas une mission compose de tches hirarchises. Il permet galement dadapter la consommation de ressources pour chaque tche en choisissant le bon module chaque niveau dexcution ou en interrompant directement la tche en cours. Le contrle de la mission est obtenu en rsolvant un MDP avant celle-ci. La modlisation des distributions de probabilit sur la consommation de ressources se fait exprimentalement avant la conception de la mission. Deux extensions ont t mentionnes, lune pour rajouter diffrents types de ressources consommables, lautre pour calculer une politique de contrle pendant la mission, au dtriment de loptimalit.
Chapitre 15
Planication doprations
15.1. Planication doprations Ce chapitre aborde lapplication des MDP aux problmes de planication doprations1 tels quon les trouve dans des domaines aussi varis que lexploration spatiale (rovers, satellites, tlescopes), les oprations militaires et la gestion de projets. La planication automatise [GHA 04] est une branche de lintelligence articielle ; elle vise construire des systmes gnriques capables de choisir et dorganiser les oprations entreprendre, de manire atteindre des objectifs donns moindre cot. Ici, nous examinons des problmes de planication complexes qui requirent non seulement lexcution parallle doprations, la prise en compte explicite du temps (dure des oprations, instants auxquels les oprations affectent ltat de lenvironnement), mais aussi la gestion de lincertitude lie aux effets des oprations, aux instants auxquels ils se produisent et la dure des oprations. Il sagit de problmes de planication temporelle probabiliste [LIT 05, MAU 05, ABE 05]. Nous dnissons ces problmes de faon intuitive puis formelle avant de montrer dans la section 15.2 comment ils se modlisent par des MDP et dans les sections 15.3 et 15.4 comment ils se rsolvent en adaptant des algorithmes discuts au cours des chapitres prcdents. 15.1.1. Intuition Nous donnons tout dabord une prsentation intuitive du problme, illustre par un exemple dexploration spatiale, scnario dans lequel un rover voluant sur Mars
Chapitre rdig par Sylvie T HIBAUX et Olivier B UFFET. 1. Nous utilisons le terme opration de prfrence tche ou action . Nous vitons en particulier ce dernier pour distinguer une action dun problme de planication dune action au sein dun MDP.
408
PDM en IA
doit effectuer plusieurs expriences sur certains sites et acqurir ainsi des donnes scientiques quil transmet la Terre [BRE 02]. 15.1.1.1. Caractristiques du problme Un problme de planication doprations se caractrise par : Un environnement/systme dcrit par un ensemble de variables dtat (binaires ou multivalues), par exemple la position et lorientation du rover, lnergie et la mmoire disponibles, ltat de ses instruments (calibrs, en marche, etc.). La donne de ltat initial du systme. Des oprations, sous le contrle du planicateur, qui permettent dagir sur le systme par exemple naviguer dun point un autre, effectuer une exprience, transmettre des donnes, initialiser un instrument. Plusieurs oprations peuvent tre dclenches en mme temps, ou encore, une opration peut tre dclenche alors que dautres sont en cours dexcution par exemple, le rover peut devoir utiliser certains instruments en parallle pour mener bien sa mission. Une opration ne peut tre dclenche que si certaines prconditions sont satisfaites. On dira que lopration est alors ligible par exemple, pour quune exprience soit ralisable, certains instruments doivent tre en marche, initialiss et calibrs. Certaines conditions doivent aussi tre maintenues invariantes pendant un intervalle donn pour garantir la bonne excution de lopration. Une opration a un ou plusieurs effets qui se caractrisent par des changements de valeur des variables dtat. Par exemple, les effets dune opration de navigation incluent le changement de position du robot et la quantit dnergie consomme. Ici, nous considrons que loccurrence de ces effets et les dures aprs lesquelles ils se produisent sont rgies par un modle probabiliste. Par exemple, les effets dune opration de navigation ainsi que la dure de lopration dpendent de caractristiques trs prcises du terrain qui ne peuvent gnralement pas tre modlises explicitement, de sorte que lon peut considrer que lopration rsulte en deux positions possibles avec une certaine probabilit : soit le rover est arriv destination, soit il na pu y parvenir et est retourn sa position dorigine ; dans les deux cas, on peut par exemple considrer que la consommation dnergie et la dure du dplacement suivent une distribution normale. Des objectifs : en planication, on cherche classiquement atteindre un tat but, dcrit par une affectation de valeurs certaines des variables dtats dans notre exemple, le but du rover est davoir acquis et transmis certaines donnes. Plusieurs critres de qualit dun plan solution peuvent tre utiliss. Dans ce chapitre nous considrons essentiellement : - maximiser la probabilit datteindre le but et, - si le but est toujours atteignable, minimiser le temps ou les ressources utiliss. Des situations plus complexes pourront par exemple affecter des rcompenses diffrentes chacun des sous-buts typiquement, dans notre scnario, les donnes acqurir par le rover ont des priorits diffrentes et le rover na pas les ressources ncessaires pour les acqurir toutes.
409
Un tel problme peut tre spci dans une variante probabiliste du langage PDDL (Planning Domain Denition Language, [FOX 03, YOU 04b]), voir par exemple [LIT 05], ou par le biais dune interface graphique telle que Brazil (voir gure 15.1).
Figure 15.1. Spcication, laide de linterface Brazil, dune opration danalyse dun soussol avant travaux de construction. Aprs environ 10 units de temps, on sait si le btiment reposera sur un sous-sol rigide ( bedrock ) ou pas ( soft-soil ). Selon le cas, la dure du reste de lopration suit une distribution uniforme ou normale.
15.1.1.2. Plans Il existe plusieurs attitudes possibles face lincertitude, attitudes qui dterminent le type de plan solution gnr pour rsoudre un problme de planication. Plans temporels classiques. Face des problmes de planication pour lesquels les risques lis lincertitude sont minimes, il est courant dutiliser un planicateur dterministe qui ignore lincertitude du modle. On gnre alors un simple plan temporel, reprsentable sous la forme dun diagramme de Gantt (comme au bas de la gure 15.2) qui spcie les intervalles dexcution des oprations choisies par le planicateur pour atteindre le but. Si, lexcution, un vnement inattendu survient, on doit replanier. Une telle approche ne garantit videmment pas loptimalit du rsultat ni que le but soit atteint, mais permet de bncier dalgorithmes de planication trs efcaces. Supposons que notre rover doive naviguer jusqu un site, y prendre un panorama complet du paysage, puis dterminer la composition du sol. Si la planication ignore lincertitude quant la dure et la consommation dnergie de lopration de navigation, il est possible que, suite la prise de panorama, le rover constate quil na plus assez de temps ou dnergie pour complter lexcution du plan et doive replanier ou mme ajourner la mission. Plans temporels robustes. Si les risques sont plus importants, il est prfrable de tenir compte de lincertitude. Si les cots lis une attitude conservatrice (pertes dopportunits) sont acceptables, on peut se contenter de gnrer des plans temporels robustes [SCH 05a]. Il peut sagir de plans conformants dont la bonne excution est garantie quelles que soient les circonstances ou, de faon plus raliste, de plans exibles temporellement ou robustes en terme de consommation de ressources. Un
410
PDM en IA
plan robuste pour lexemple ci-dessus omettrait lopration de prise de panorama au prot de lanalyse (prioritaire) de la composition du sol si la probabilit dune insufsance des ressources de temps ou dnergie nest pas ngligeable. Ici encore, cette approche nest pas optimale. Plans temporels contingents. Enn, dans le cas gnral, on gnre des plans temporels contingents [ABE 04, MAU 05, LIT 05, ABE 05, DEA 03] qui prescrivent, chaque instant dintrt, diffrentes oprations dclencher selon ltat de lexcution. Pour notre exemple, un plan contingent pourrait examiner les ressources disponibles aprs lopration de navigation et, selon le cas, prescrire un panorama complet, un demi panorama, ou passer directement lanalyse de la composition du sol. La gure 15.2 illustre le concept de plan temporel contingent travers une interface de visualisation. Le haut de la gure montre larbre2 des contingences (excutions possibles) couvertes par le plan. A la racine de larbre, on dclenche une ou plusieurs oprations. Puis le prochain vnement qui se produit (un effet dune opration en cours dexcution) dtermine la branche de larbre que lon prend. Arriv au nud suivant, le plan peut encore prescrire le dclenchement de nouvelles oprations et ainsi de suite. Une feuille de larbre reprsente soit une situation de succs (le but est atteint), soit un chec du plan (situation partir de laquelle le but ne peut plus tre atteint, par manque de ressource par exemple). Chaque branche de larbre correspond un plan temporel reprsentable par un diagramme de Gantt comme celui en bas de la gure. Dans ce chapitre, nous nous intressons la gnration de plans temporels contingents. 15.1.2. Dnitions formelles Nous dnissons maintenant les notions de problme et de plan de manire formelle, mais dans un cadre qui nest pas celui des MDP.3 Nous effectuons plusieurs simplications par rapport la prsentation intuitive. La premire est de ne considrer que des variables boolennes. La seconde est lhypothse que les oprations nont pas de conditions invariantes des conditions devant tre vries pendant toute lexcution de laction, mais seulement des prconditions. La plupart des travaux que nous dcrivons se gnralisent trivialement au cas multivalu et aux conditions invariantes. La troisime hypothse concerne les instants de prise de dcision des oprations dclencher, que nous limitons aux instants o un effet dune opration en cours dexcution peut se produire, ceci de manire limiter la combinatoire. Bien que des travaux soient actuellement en cours pour lever cette restriction, celle-ci est
2. Pour des problmes horizon inni, on pourra considrer un graphe cyclique plutt quun arbre. Il devient particulirement difcile de visualiser un tel plan sil y a une incertitude sur des quantits continues comme la dure des oprations ou les ressources consommes. 3. Nous reviendrons au cadre des MDP en section 15.2
411
Figure 15.2. Une interface de visualisation de plans temporels contingents. Dans ce cas particulier, les vnements alatoires sont des ns de tches qui peuvent dboucher soit sur un chec ( gauche), soit sur un succs ( droite).
notre connaissance utilise dans tous les planicateurs temporels probabilistes existants. La dernire hypothse est labsence de distributions continues. Elle sera leve en section 15.4. 15.1.2.1. Problme de planication, oprations D FINITION. Un problme de planication doprations est ici dni par un quadruplet B, m0 , Op, o : B = {b1 , . . . , b|B | } est un ensemble de variables boolennes ; m0 est ltat initial du systme, dni par une affectation des variables de B ; Op= {op1 , . . . , op|Op| } est un ensemble doprations (description ci-dessous) ; est une formule boolenne sur B dcrivant les situations de succs. Cette dnition est incomplte, non seulement parce que la notion dopration nest pas dcrite (voir ci-dessous), mais aussi parce quelle ne spcie pas prcisment lobjectif de ce problme de planication (le critre doptimisation). Ce point est discut plus loin. D FINITION. Une opration op est dnie par un triplet P re(op), c(op), A(op) : P re(op) : une formule boolenne sur B dcrivant les prconditions de op, c(op) R : le cot de lexcution de op, et
412
PDM en IA
A(op) : un arbre dnissant ses effets possibles, et dcrit par : - des arcs reprsentant une progression temporelle : chaque arc est associe une distribution de probabilit Pd (sur R) dcrivant la dure incertaine entre un nud et son successeur ; - des nuds internes conjonctions (nots par un & ) : si un tel nud est atteint, tous ses descendants doivent tre excuts ; - des nuds internes hasards (nots par un ? ) et accompagns chacun dune distribution de probabilit P? sur ses descendants : si un tel nud est atteint, un seul de ses descendants doit tre excut, lequel est choisi au hasard en utilisant la distribution P? ; - des feuilles effets chacune accompagne dun couple (b, vb ) B {0, 1} : si une telle feuille est atteinte, la variable b prend la valeur vb . Quand une opration est dclenche, ce qui nest possible que si P re(op) est vrie, son arbre A(op) est excut en partant de sa racine. Cet arbre dcrit les effets de cette opration, en modlisant aussi bien leur incertitude que les possibles ractions en chane et lcoulement du temps entre deux vnements. La gure 15.3 montre larbre associ lopration danalyse du sous-sol.
&
fixe(10)
?
25% fixe(0) 75% fixe(0)
&
uniforme(0,10) fixe(0) fixe(0)
&
normale(8,2)
e
Soil Test Done
e
Soft Soil Found
e
Need Blast Permit
e
Soil Test Done
Figure 15.3. Arbre spciant les effets de lopration danalyse du sous-sol de la gure 15.1
N OTE. Sauf indication contraire, on va considrer uniquement des dures dterministes, la distribution de probabilit Pd tant remplace par une dure xe d.
413
15.1.2.2. Excution Plusieurs oprations peuvent tre en cours dexcution simultanment. Cette excution peut tre gre laide dune le dvnements dans laquelle chaque vnement correspond un nud dun arbre dune des oprations en cours. Cette le est ordonne selon la date des vnements. Le processus dexcution prend ainsi tous les vnements venir au prochain pas de temps t : e1 , . . . , en , les groupes en E&/? et Ee (ensembles regroupant les nuds conjonction et hasard dun ct, et les feuilles (effets) de lautre), puis : 1) Pour tout e E&/? , on retire e de E&/? et : - si e est un nud conjonction, on ajoute tous ses ls la le ou (pour ceux qui doivent tre excuts immdiatement) dans lun des deux ensembles E&/? ou Ee ; - si e est un nud hasard, on tire au sort lun de ses ls conformment la distribution associe au nud et ajoute ce ls soit la le, soit E&/? ou Ee . 2) Une fois E&/? vide, on teste si les effets prsents dans Ee ne sont pas en conits, i.e. ne disent pas de mettre la mme variable la fois vrai et faux. Un tel conit entrane un chec de lexcution. 3) Sil ny a pas de conit, on excute chacun de ces effets (on met les variables boolennes aux valeurs spcies). Ce processus est incomplet sans dcrire le dclenchement de nouvelles oprations un instant donn. Chaque opration ne peut tre dclenche que si ses prconditions sont vries. Pour que ces oprations puissent tre inities en parallle, leurs effets immdiats doivent tre compatibles et ne pas violer une des prconditions. Ce modle du paralllisme est bas sur la notion dindpendance [GHA 04, pp. 119120] par laquelle plusieurs oprations peuvent avoir lieu en parallle si et seulement si leur excution dans nimporte quel ordre est possible et donne lieu un rsultat (ici immdiat) unique. Le dclenchement dun ensemble doprations peut donc tre effectu comme suit : 1) On teste si les prconditions de toutes les oprations dclencher sont vries. 2) On ajoute les racines des arbres de ces oprations la le dvnements et on traite les vnements immdiats comme dcrit prcdemment. 3) On teste nouveau si les prconditions des oprations ci-dessus sont vries. On dira que deux oprations sont mutuellement exclusives (mutex) ssi elles ne sont pas indpendantes, cest--dire, ssi leurs prconditions sont incompatibles ou aucune excution de leurs vnements immdiats ne peut russir. Dautres dnitions de lexclusion mutuelle proposes dans la littrature tiennent compte de lexcution complte des oprations et interdisent tout conit potentiel avec lun des effets (pas seulement les effets immdiats) des oprations dclencher ou en cours dexcution [MAU 05]. On ne peut alors pas combiner des oprations ayant une probabilit extrmement faible dentrer en conit, mme si cest la seule faon dobtenir un plan adquat.
414
PDM en IA
15.1.2.3. Instants de prise de dcision, tats, plans Dans notre cadre, une dcision ne peut tre prise quaux instants o des vnements de la le doivent tre traits. On dclenche alors un ensemble doprations (ventuellement vide) et il faut attendre un instant de prise de dcision futur pour tout nouveau dclenchement. Comme nous lavons dit plus haut, cette hypothse est restrictive. Mme en labsence dvnement probabiliste, elle mne en gnral une perte doptimalit et de compltude du planicateur [CUS 07]. Il existe cependant certains cas intressants o loptimalit est prserve, par exemple pour des oprations dont les prconditions sont aussi des invariants sur lintervalle dexcution de lopration et dont les effets ne se produisent qu la n de lintervalle [MAU 06]. D FINITION. Un tat s S est dcrit non seulement par laffectation des variables boolennes, mais aussi par la le dvnements venir aux instants de prise de dcision. Ltat initial est s0 = m0 , . On peut se passer dinclure le temps dans la description des tats sil ny a pas de rfrence dans le problme une date absolue (temps limite pour atteindre le but, vnement extrieur devant arriver un instant prcis). De la sorte, on va pouvoir assimiler les tats qui sont identiques cette donne prs, ce qui peut rduire la taille de lespace dtats de manire dramatique (en introduisant des boucles). Cest ce qui peut amener une reprsentation dun plan sous la forme dun graphe avec cycles. D FINITION. Un plan : S 2Op est une application qui, chaque tat rencontr lors de son excution, associe un ensemble doprations. Il est trs courant que le nombre dtats qui peuvent tre rencontrs soit bien plus petit que le nombre dtats possibles. Le domaine de dnition dun plan dpend donc du plan lui-mme, et se construit en partant de s0 . 15.1.2.4. Objectif La planication consiste chercher un plan optimisant un critre donn. Diffrents critres doptimisation peuvent tre employs, utilisant diverses quantits apparaissant dans les dnitions qui viennent dtre donnes. Probabilit de succs : un premier problme est de maximiser la probabilit datteindre un tat but (tat vriant et, si on le souhaite, avec une le dvnements vide), cest--dire viter les checs dexcution et les boucles innies. A probabilit de succs gale, on va pouvoir distinguer deux plans suivant dautres critres tels que ceux dcrits ci-dessous. Cot dexcution : un critre supplmentaire est la minimisation de lesprance du cot dexcution des tches. Dure du plan : un dernier critre classique est la minimisation de lesprance de la dure du plan, laquelle dpend de la dure dexcution des oprations utilises. Ce critre incite exploiter le paralllisme possible lors de lexcution des oprations.
415
On peut aussi combiner cot dexcution et dure du plan, voire probabilit de succs. Il faut pour cela que ces diffrentes grandeurs soient compatibles, ce qui requiert : de remplacer la probabilit de succs par une probabilit dchec (P (chec) = 1 P (Succs)) pour ne considrer que des problmes de minimisation, et de faire en sorte que toutes les units soient homognes, ce qui requiert de choisir un taux de change entre cot des oprations, temps et probabilit dchec. Dans certains problmes, il nest pas possible deffectuer une telle opration. Mais nous ne considrerons ici que le cas simple dans lequel cest possible. 15.2. MDP Le problme de planication peut tre modlis sous la forme dun MDP dont les tats sont ceux du problme et dont les actions correspondent aux dcisions des ensembles doprations dclencher. Puisque les nombres de points de dcision et de dcisions possibles croissent tous deux de manire exponentielle avec le nombre doprations ligibles, la difcult principale est de matriser la taille du MDP obtenu. Pour ce faire, les travaux se sont orients vers lutilisation et lextension dalgorithmes de recherche heuristique qui explorent une fraction du MDP par essais successifs, tels que lalgorithme (L)RTDP prsent au chapitre 10 et vers la cration dheuristiques appropries. Ces algorithmes et heuristiques visent rsoudre le MDP de manire optimale, ou proche de loptimale. Cette section dtaille tour tour ces trois points : modlisation, algorithmes et heuristiques. Nous terminons par un aperu de travaux en planication automatise, qui, bien que connexes, ne sappuient pas directement sur un modle en termes de MDP. 15.2.1. Modlisation sous la forme dun CoMDP 15.2.1.1. Etats, actions, transitions Pour transformer un problme de planication doprations en un MDP, nous commenons par assimiler les tats de lun ceux de lautre ; un tat du MDP consistera donc en une affectation des variables boolennes, une le dvnements, et ventuellement un instant courant. Une action est simplement la dcision, dans un tat donn, de dclencher un ensemble (ventuellement vide) doprations ligibles et non mutuellement exclusives. Pour cette raison, on parle souvent de CoMDP (MDP concurrents) [MAU 04, MAU 05]. Connaissant tats et actions de notre problme, on peut calculer les probabilits de transition associes [ABE 04, MAU 05]. En pratique, tant donns un tat et une action, ceci ncessite : 1) dincrmenter le temps jusqu la date du prochain vnement de la le ; 2) de simuler le dclenchement de laction comme dcrit au paragraphe 15.1.2.2, de manire numrer tous les tats successeurs possibles ; 3) de calculer la probabilit datteindre chaque tat successeur, qui, pour un tat donn, est le produit des probabilits des ls des nuds hasard que lon insre dans
416
PDM en IA
la le de cet tat ; il convient aussi de fusionner les tats identiques et de sommer leur probabilits si plusieurs excutions peuvent y aboutir. 15.2.1.2. Rcompenses, cots La fonction de rcompense dpend du critre choisi. Nous en discutons ici en mme temps que du type dalgorithme de rsolution appropri : Probabilit de succs : on donne une rcompense nulle par dfaut, et unitaire quand un tat succs est atteint. La valeur dun couple tat-action s a est la probabilit de succs si lon effectue laction a dans ltat s, puis on suit la politique optimale. En considrant tout tat succs comme absorbant (sans rcompense une fois dans un tel tat), on obtient un MDP horizon inni pour lequel lalgorithme ditration sur les valeurs peut tre employ avec le critre total ( = 1). On peut toutefois restreindre les tats considrs aux tats atteignables depuis s0 . Plutt que dutiliser une fonction de rcompense, il peut tre avantageux de se ramener un problme de plus court chemin stochastique, o lon cherche minimiser lesprance du cot pour atteindre un tat terminal (succs ou chec). On affecte alors un cot nul par dfaut et unitaire lorsquun tat chec est atteint. Si lon inclut le temps dans ltat, il est toujours possible de garantir que lon atteindra un tat terminal en imposant une borne suprieure sur la dure du plan et en considrant tout tat la dpassant comme un chec. On peut donc appliquer les algorithmes classiques de rsolution des problmes de plus court chemin stochastique tels que (L)RTDP [BAR 95, BON 03] et LAO* [HAN 01]. Cot dexcution, dure du plan : avec ces deux critres, on se situe aussi dans le cadre dun problme de minimisation des cots. Pour une transition s a s , le cot c(s, a, s ) est dans un cas la somme des cots des oprations dclenches par laction a et dans lautre cas le temps coul entre s et s . Si, quel que soit ltat atteint, il est toujours possible datteindre un tat terminal, le MDP obtenu est encore un problme de plus court chemin stochastique, auquel les algorithmes mentionns ci-dessus sappliquent. Combinaison de critres : idalement, on souhaite combiner ces critres en privilgiant la minimisation de la probabilit dchouer. Les algorithmes adverses aux risques [GEI 01], qui optimisent plusieurs critres ordonns pourraient tre tendus dans cette direction. Une alternative beaucoup moins coteuse mais qui noffre pas de garantie en gnral est de combiner les critres via une fonction de cot donnant un poids exponentiellement plus important aux critres privilgis : sil y a n critres et ci (s, a, s ) est la fonction de cot relative au critre i, la fonction de cot globale est n c(s, a, s ) = i=1 ci (s, a, s ) i , avec sufsamment large [ABE 04].
417
15.3. Algorithmes 15.3.1. Rsolution exacte 15.3.1.1. (L)RTDP Les approches prsentes dans la littrature se situent toutes dans le cadre de problmes de plus court chemin stochastique quelles rsolvent en utilisant des variantes de (L)RTDP. Ceci contribue grer lexplosion de la taille du CoMDP en le construisant et lexplorant la vole, guid par une heuristique. On a vu au chapitre 10 que RTDP est une version asynchrone de lalgorithme ditration sur les valeurs qui met jour les valeurs des tats la frquence laquelle ils sont visits par la politique gloutonne [BAR 95]. Ceci permet de se concentrer en priorit sur les tats probables et dobtenir rapidement une politique de qualit, ainsi que dignorer totalement les tats non-atteignables partir de s0 . La valeur de chaque tat est initialise de faon heuristique la premire rencontre. RTDP parcourt lespace dtats par essai successifs, explorant chaque essai le chemin dict par la politique gloutonne, et mettant jour les valeurs des tats rencontrs sur le chemin. Le chemin sarrte lorsquun tat terminal est atteint (ou lorsque le nombre de mises jours excde un seuil donn). Le parcours sarrte lorsque la valeur des tats explors a converg un prs. La convergence en temps ni nest pas garantie et peut tre lente si lheuristique nest pas sufsamment informative, car il est possible que des tats importants mais relativement peu probables ne soient pas visits sufsamment souvent. LRTDP [BON 03] remdie ces problmes de convergence en tiquetant les tats comme ayant converg ou non et en concentrant ses efforts sur les rgions du MDP nayant pas dj converg. Si lheuristique utilise est admissible (ses valeurs sous-estiment le cot des tats), LRTDP converge en temps ni vers la politique optimale.
15.3.1.2. Gestion de la mmoire La taille des CoMDP obtenus pour des problmes de planication doprations rels est telle quil est ncessaire de modier (L)RTDP pour le rendre plus efcace, au prix dune perte doptimalit et de convergence. En effet, mme si la majorit des tats nest pas visite, des scnarios assez bnins nimpliquant quune vingtaine doprations ncessitent dj lexploration de millions dtats. En particulier, des mesures supplmentaires sont ncessaires pour limiter la consommation de mmoire de lalgorithme. Lorsquune valeur Q(s, a) indique quune action est trop coteuse, les tats correspondants ne feront pas partie de la solution nale. De tels tats constituent la majorit des tats en mmoire et sont obsoltes, mme sils peuvent tre ponctuellement revisits par la politique courante. Ceci motive donc la politique de gestion de la mmoire suivante : on enlve de la table mmorisant les tats tout tat ntant pas atteignable via la politique courante et dont la frquence dapparition rcente est en dessous dun certain seuil [ABE 04]. Si un tel tat est revisit par la suite, il conviendra alors de rapprendre sa valeur.
418
PDM en IA
15.3.1.3. Rduction du nombre de mises jour Il convient aussi de limiter le temps de calcul qui est domin par le fait que le nombre de mises jour effectuer4 pour chaque tat visit est linaire en le nombre dactions du MDP et donc exponentiel en le nombre doprations du problme de planication. Pour rduire le temps de calcul, on neffectue pour chaque tat quun ensemble alatoire de mises jour, partir dune distribution qui favorise les combinaisons doprations les plus importantes [MAU 04]. Cette distribution est gnre : (1) en mmorisant et utilisant les combinaisons pour lesquelles on a dj dcouvert des Q-valeurs faibles, et (2) en calculant les Q-valeurs de toutes les actions correspondant une opration unique et en biaisant la distribution en faveur des combinaisons contenant des oprations faible Q-valeurs. 15.3.1.4. Algorithmes hybrides La rsolution de problmes de planication doprations a aussi motiv lutilisation dalgorithmes hybrides qui emploient un algorithme optimal pour les tats frquemment visits et un algorithme rapide mais sous-optimal pour les autres tats [MAU 05]. Par exemple, on peut hybrider lalgorithme RTDP oprant dans le CoMDP dnit ci-dessus et une version de RTDP oprant dans un CoMDP align dans lequel on ne peut prendre de nouvelle dcision quune fois que toutes les oprations dernirement dclenches ont termin. La gure 15.4 illustre ce concept de CoMDP align. Celui-ci est beaucoup plus simple que notre CoMDP imbriqu car les tats nont plus besoin de maintenir une le dvnements.
dcisions imbriques
dcisions alignes
Figure 15.4. Dcisions imbriques et alignes. Dans le cas align, les dcisions nont lieu quaux instants matrialiss par les lignes verticales.
Avec le CoMDP align, RTDP converge rapidement car lespace dtats est plus petit, mais il produit une politique sous-optimale pour le problme initial. Avec le CoMDP imbriqu, RTDP gnre la politique optimale, mais la convergence est trs lente. Lalgorithme hybride utilise donc RTDP dans le CoMDP imbriqu assez longtemps pour quil gnre une bonne politique pour les tats frquents mais linterrompt bien avant quil converge pour les tats moins frquents ; partir de chaque tat dont la frquence des visites par la politique imbrique est insufsante, on cre une politique aligne en laissant RTDP converger sur le CoMDP align. La politique hybride retourne consiste en la politique imbrique pour les tats frquents et la politique aligne
4. Le calcul du min, dans la ligne L(s) minaA Q(s, a) de lalgorithme RTDP.
419
pour les autres. De plus, pour garantir que lon atteindra toujours un tat terminal, on cre aussi une politique aligne pour tout tat prcdant un tat puits atteint par la politique imbrique, ainsi que pour tout tat faisant partie dun cycle de la politique imbrique. Lalgorithme hybride alterne donc k essais RTDP sur le CoMDP imbriqu et des excutions de RTDP jusqu convergence sur le CoMDP align pour les tats peu frquents, les tats puits et les cycles. Lalternance sarrte lorsque le cot de la politique hybride approche celui de la politique optimale. Ceci peut tre implment de la faon suivante [MAU 05, gure 4]. On remarque que lestimation Ci (s0 ) du cot de ltat initial fourni par RTDP dans le CoMDP imbriqu est toujours infrieure au cot de la politique optimale (moyennant lutilisation dheuristiques admissibles) et que le cot rel Ch (s0 ) de la politique hybride (que lon peut valuer par simulation), est toujours suprieur celui de la politique optimale. On peut donc sarrter lorsque Ch (s0 )Ci (s0 ) < r pour un r donn. C i ( s0 ) 15.3.2. Rsolution heuristique Les algorithmes de recherche tels que (L)RTDP initialisent de manire heuristique lestimation du cot dun tat leur premire rencontre. Une heuristique est une fonction h(s) 0 estimant le cot optimal C (s) pour atteindre un tat terminal partir de ltat s. Pour garantir la convergence de LRTDP vers la politique optimale, il suft que h soit admissible : h(s) C (s) pour tout tat s. Nous dtaillons maintenant certaines des heuristiques utilises dans le cadre de la planication doprations. Les deux premires sous-sections font lhypothse que tous les effets des oprations se produisent la n de leurs intervalles dexcution respectifs. La dure de lopration op est note (op). Toutes les heuristiques prsentes font lhypothse que le but du problme est une conjonction, cest--dire un ensemble de sous-buts. 15.3.2.1. Heuristiques lmentaires Le systme MOP [ABE 04] implmente plusieurs heuristiques admissibles simples et extrmement rapides calculer, estimant respectivement la probabilit dchec du plan, lesprance de sa dure totale et lesprance du cot des oprations quil prescrit. Nous dcrivons les deux dernires ci-dessous. Ces heuristiques sont ensuite combines pour estimer le cot total comme dcrit au paragraphe 15.2.1.2 via une pondration exponentielle. Dans la suite, on note buts(, s) lensemble des sous-buts de qui ne sont pas encore satisfaits dans ltat s et prod() lensemble des oprations ayant le sous-but parmi leurs effets possibles. Nous commenons par exprimer une borne infrieure de la dure du plan : le maximum de toutes les dures requises pour tablir chacun des sous-buts. La dure requise pour tablir un sous-but donn est le minimum des dures des oprations pouvant produire le sous-but. Ceci donne : hel (s) =
buts(,s) opprod()
max
min
(op) C (s)
420
PDM en IA
Il sagit bien dune borne infrieure puisque 1) on ne considre que le cot de la production du sous-but le plus critique, 2) on ignore le fait que produire un sousbut peut en dtruire un autre et 3) on fait lhypothse que lon contrle le rsultat probabiliste des oprations. On peut construire une borne infrieure du cot du plan (e.g. sa consommation de ressources) de faon similaire, en sommant les cots minimaux ncessaires la production de chaque sous-but, mais il faut faire attention ne pas sommer plusieurs fois le cot dune opration pouvant produire plusieurs sous-buts. Le calcul exact de lensemble doprations de moindre cot produisant tous les sous-buts est un problme NP-difcile, mais lon peut construire une sous-approximation en divisant le cot dune opration par le nombre de sous-buts quelle produit. Ainsi, si une opration a le cot le plus faible pour tous les sous-buts quelle produit, lopration contribuera pour son cot exact la somme. Si elle na le cot le plus faible que pour un sousensemble des sous-buts produits, alors sa contribution sera infrieure au cot exact : hel c (s) =
buts(,s)
opprod()
min
c(op) Cc (s) |{ buts(, s) : op prod( )}|
15.3.2.2. Heuristiques obtenues par relaxation du CoMDP Des heuristiques plus informatives peuvent tre obtenues en rsolvant de faon optimale une relaxation du CoMDP initial, i.e. un problme plus simple. Une telle relaxation est plus facile rsoudre et produit une politique optimale moins coteuse que loriginale qui peut donc servir dheuristique admissible. Le systme DUR [MAU 05] met en uvre par exemple deux heuristiques obtenues par relaxation pour estimer lesprance de la dure du plan. La premire, lheuristique de concurrence maximale , est base sur lobservation que la dure moyenne de la politique optimale pour le MDP squentiel (aucun paralllisme permis), divise par le nombre maximal doprations pouvant avoir lieu en parallle tout instant, est une borne infrieure de la dure moyenne optimale du CoMDP. On calcule donc cette heuristique de la faon suivante. On rsout le MDP squentiel dont les tats consistent seulement en une affectation des variables boolennes, dont les actions sont les oprations du problme et pour lequel le cot dune transition est la dure de lopration implique. On obtient une politique optimale de cot Cseq (m) pour chaque tat m du MDP squentiel. On rsout alors le C o MDP initial avec lheuristique : hmc (s) =
Cseq (m(s)) C (s) maxconc
o m(s) est laffectation des variables boolennes de ltat s et maxconc est le nombre maximal doprations pouvant sexcuter en parallle tout instant. La deuxime heuristique mise en uvre dans le systme DUR est lheuristique dite de lanticipation des effets . Lide est de prtendre que lon connat tous les effets des oprations dernirement dclenches sans attendre, cest--dire ds le prochain
421
instant de dcision. Ltat du CoMDP rsultant est reprsent par un couple (m, ), ou m est ltat du systme qui tient compte des effets que lon connat par anticipation et est la dure jusqu la date de terminaison la plus tardive des oprations en cours dexcution. Intuitivement, ceci signie que lon atteindra ltat m aprs une dure . La gure 15.5 donne un exemple dans lequel, partir de ltat m du systme, on dclenche 3 oprations se terminant respectivement aprs 2, 4 et 8 units de temps et dont les effets cumuls nous mnent ltat m du systme. Ltat rsultant du CoMDP relax est (m , 6), car les effets sont connus ds la terminaison de lopration b aprs deux units de temps et il reste 6 units jusqu terminaison de la dernire opration (a). Le cot dune transition du CoMDP relax reprsente la dure de laquelle le temps avance entre deux tats. Elle correspond la dure jusqu la prochaine terminaison dune action en cours dexcution.
a m b 2 c 4
8 m (m,6)
Figure 15.5. Anticipation deffets.
Le CoMDP rsultant est bien dune relaxation car (1) on a davantage dinformation plus tt sur ce qui va se produire et (2) on a perdu la trace des instants auxquels les diffrentes actions se terminent et on autorisera par consquent le dclenchement doprations dont les prconditions ne sont pas forcment vries. A partir dune solution optimale, de cot Cee ( ) pour chaque tat = m, du CoMDP relax, on obtient une heuristique pour le MDP original de la faon suivante : hee (s) =
m 2B p(m | m(s), ex(s))Cee ( m , last(s) ) C (s)
o ex(s) est lensemble des oprations en cours dexcution dans ltat s et last(s) est la dure jusqu la terminaison la plus tardive dune action de ex(s). On se rfrera [MAU 06] pour une extension de ce type dheuristiques et des algorithmes hybrides au cas de dures stochastiques. 15.3.2.3. Heuristiques bases sur le graphe de planication Le graphe de planication est une structure de donnes souvent utilise pour construire des heuristiques [BRY 06]. Il peut tre vu comme une approximation de lespace dtat du problme. Lorigine de ce graphe est le planicateur atemporel et dterministe Graphplan [BLU 97], qui lutilise pour dterminer sil est possible, partir de ltat initial, datteindre un tat but en moins de n tapes chaque tape, on autorise lexcution parallle dun ensemble doprations non-mutex qui sont toutes supposes se terminer avant ltape suivante. Le graphe fournit, en temps polynomial,
422
PDM en IA
une condition ncessaire mais insufsante latteignabilit. Une extension du graphe de planication permet dobtenir une borne infrieure de la probabilit dchec pour des problmes de planication temporels probabilistes tels que nous les avons dnis [LIT 05]. Dans ce cadre, lestimation consiste en trois tapes : (1) construction du graphe, (2) association de bornes infrieures aux nuds du graphe, puis (3) combinaison de ces bornes pour arriver une estimation heuristique de la probabilit dchec dun tat donn du CoMDP. Nous considrons chacune de ces tapes tour tour. tape 1 : le graphe et sa construction Le graphe de planication traditionnel (dterministe, a-temporel) consiste en une alternance de niveaux dont chacun est constitu soit de nuds reprsentant des propositions (variables boolennes), soit de nuds reprsentant des oprations. Il se construit partir de la description des oprations, en partant de ltat initial du problme de planication. Les successeurs dun nud opration dun niveau donn sont les propositions du niveau suivant reprsentant les effets positifs de lopration (les variables que lopration met la valeur 1) et ses prdcesseurs sont les propositions du niveau prcdent reprsentant ses prconditions.5 On se rfrera [GHA 04, chap. 5] pour les dtails de la construction du graphe et de ses proprits. Nous mentionnons simplement ici que le graphe est de taille polynomiale en la taille du problme et que la prsence dun fait ou dune opration un niveau n donn indique quil nest pas impossible que le fait soit atteignable ou que lopration soit excutable aprs n tapes. Par rapport au graphe traditionnel, le graphe de planication temporel probabiliste contient un type de nud supplmentaire : les nuds hasard. Ceux-ci correspondent aux nuds hasard des arbres dnissant les effets des oprations. Avec cette extension, les nuds opration sont maintenant relis des nuds hasard, les nuds hasard des nuds proposition ou dautres nuds hasard et les nuds proposition des nuds opration. An de traiter les aspects temporels du problme, chaque niveau est associ une date. Les successeurs dun nud hasard ne se trouvent pas ncessairement au niveau suivant , mais au niveau dont la date est approprie. tape 2 : Calcul du cot des nuds du graphe On gnre le graphe partir de ltat initial du problme jusqu un horizon temporel (une date donne). On calcule ensuite, par propagation arrire, pour chaque nud n du graphe, un vecteur de cots cn [i], qui rete la capacit du nud contribuer latteignabilit du iime sous-but i . Un cot nul signie que le nud (ventuellement en combinaison avec dautres) est capable de rendre le sous-but invitable, alors quun cot de 1 signie que le nud nest pas pertinent latteignabilit du sous-but. Les vecteurs de cots des nuds du dernier niveau du graphe, qui sont des nuds proposition, sont initialiss de la faon suivante : cn [i] = 0 si n = i et cn [i] = 0 sinon. Puis les cots sont propags en arrire, selon des rgles qui garantissent ladmissibilit et
5. On suppose que P re(op) est une conjonction de propositions atomiques.
423
qui dpendent du type de nud, hasard (h), oprations (o), ou proposition (p) : ch n [i] := co n [i] := cp n [i] :=
p,h n Succ(n) cn [i]
Pr(n ) ch n [i] o c [ i ] n Succ(n) n

n Succ(n)
o Succ(n) est lensemble des successeurs du nud n du graphe. tape 3 : Estimation du cot dun tat du CoMDP Enn, les composants des vecteurs de cot sont combins, toujours de manire admissible, pour estimer le cot dun tat donn du CoMDP. On considre pour cela les nuds du graphe qui sont pertinents pour ltat. Il sagit des nuds propositions ou hasard du graphe (au niveau dont la date est approprie) qui reprsentent les variables boolennes vrai dans ltat, ainsi que les effets et les nuds hasard de la le dvnements [LIT 05]. On fait ensuite le produit des vecteurs de cots des nuds pertinents et on retient comme estimation nale la composante maximale du produit. Celle-ci reprsente la valeur associe au sous-but le plus difcile atteindre :
hgp Pr (s) = max npertinents(s) cn [i] CPr (s) i||
Pour nir, notons que le graphe de planication nest pas limit lestimation de latteignabilit et de la probabilit dchec, mais est souvent utilis pour estimer la dure ou le cot dun plan [BRY 06]. 15.3.3. Autres approches base de modles Outre lapproche MDP, les recherches en planication automatise tudient une multitude dautres modlisations et algorithmes. Ceux-ci vont de reprsentations base de systmes de transitions et dalgorithmes de recherche heuristique, aux reprsentations logiques ou base de contraintes et dalgorithmes de statisabilit, modelchecking, de dmonstration de thorme et de propagation de contraintes, en passant par des reprsentations et algorithmes bass sur les graphes [GHA 04]. Nous donnons ici un aperu des travaux les plus pertinents en planication temporelle probabiliste. 15.3.3.1. Recherche heuristique dans un graphe ET-OU Prottle [LIT 05] est un systme de planication temporelle probabiliste utilisant une modlisation base de systmes de transition reprsent par un graphe ET-OU et un algorithme de recherche heuristique inspir la fois par LRTDP et AO*. Les tats du systmes de transition sont les tats du problme de planication comme dnis prcdemment. Les transitions correspondent au choix dune opration dclencher linstant courant, lavancement du temps jusqu linstant du prochain vnement de la le et au traitement dun vnement de la le. Une diffrence, par rapport la modlisation en terme de CoMDP, est donc que lon dcompose une transition du MDP en autant de transitions que doprations dclenches ou dvnements traits. De plus, un tat du systme est un tat OU si lon y choisit une opration dclencher
424
PDM en IA
ou un vnement dterministe traiter et un tat ET si lon y traite un vnement probabiliste. Lalgorithme de recherche opre par essais successifs comme (L)RTDP, et utilise non seulement une borne infrieure L(s) sur le cot de chaque tat s, mais aussi une borne suprieure U (s). La borne infrieure est initialise par lheuristique base sur le graphe de planication discute la sous-section prcdente. Le cot dun tat converge lorsque U (s) L(s) . Lalgorithme met jour les bornes et les labels ( converg ) des tats du chemin uniquement lorsque la n du chemin (un tat terminal succs ou chec) est atteint. Les formules de mise jour des bornes dun tat en fonction de celles de ses successeurs Succ(s) dpendent du type de borne (L-U ) et du type dtat (ET-OU) considrs : LOU (s) := max(L(s), mins Succ(s) L(s )) UOU (s) := min(U (s), mins Succ(s) U (s )) LET (s) := max(L(s), s Succ(s) Pr(s ) L(s )) UET (s) := min(U (s), s Succ(s) Pr(s ) U (s )) LRTDP slectionne le prochain tat du chemin explorer alatoirement parmi ceux rsultant de lexcution de la politique gloutonne. Lalgorithme de recherche de Prottle slectionne le prochain tat de faon dterministe, implmentant une stratgie qui vise gnrer le plus rapidement possible un chemin vers un tat succs, puis rendre robuste les chemins connus vers le but. Formellement, ltat slectionn est le successeur s (parmi ceux nayant pas encore converg) maximisant Pr(s)U (s) et rsultat gal, celui maximisant Pr(s)L(s). De part son algorithme de recherche qui implmente une stratgie de planication intressante et qui exploite la fois borne infrieure et suprieure, Prottle constitue une alternative intressante aux modlisations et algorithmes bass sur les MDP. 15.3.3.2. Algorithmes bass sur le graphe de planication Le graphe de planication voqu dans la sous-section prcdente nest pas seulement une source de gnration dheuristiques, mais aussi un espace qui peut tre explor (traditionnellement par recherche arrire) pour gnrer un plan concurrent [GHA 04, pp. 125-129]. Graphplan [BLU 97] a t le premier exploiter cette ide qui est maintenant prsente dans de nombreux planicateurs. Paragraph [LIT 06] est une extension de Graphplan pour les systmes probabilistes quivalents aux CoMDP. Paragraph forme un plan contingent optimal en concatnant des sous-trajectoires gnres par Graphplan. Cette ide de concatner des trajectoires est aussi prsente dans des travaux sur la gnration incrmentale de plans contingents [DEA 03]. Ici, le but nest pas de gnrer un plan optimal, mais un plan couvrant les contingences les plus utiles. Lidentication de ces contingences, i.e., lestimation de leur utilit, sappuie sur une propagation arrire des fonctions dutilit dans le graphe de planication.
425
Paragraph est un planicateur probabiliste concurrent, mais non-temporel. Des travaux sont en cours pour ltendre au cas temporel, en compilant les oprations temporelles en oprations instantanes que Paragraph sait dj traiter et en grant les contraintes de temps entre ces dernires oprations via un algorithme de programmation linaire. Cette faon de combiner graphe de planication et programmation linaire est inspire par le planicateur temporel dterministe LPGP [LON 03] et constitue une voie extrmement prometteuse pour la planication temporelle probabiliste. 15.3.3.3. GSMDP Le processus de dcision semi-Markovien gnralis (GSMDP) [MAT 62] est un formalisme puissant pour dcrire des systmes vnements discrets composs de processus asynchrones oprant en temps continu ou discret et en prsence dincertitude. Comme son nom lindique, un GSMDP est une gnralisation des processus de dcision semi-Markovien (SMDP), qui permet de modliser des dures dont les distributions de probabilit (qui peuvent avoir recours une mmoire, comme dans les SMDP ) ne dpendent pas seulement de ltat courant, mais de la trajectoire suivie par le systme. Un GSMDP peut tre vu comme la composition de SMDP concurrents. Les GSMDP permettent de modliser des problmes de planication doprations plus gnraux que ceux que nous avons considrs dans cette section [YOU 03a]. En particulier, le temps continu, les vnements hors du contrle du planicateur, les distributions gnralises qui requirent une mmoire (par exemple Weibul) sont facilement modliss, tout en permettant des vnements et actions concurrents. Les techniques pour rsoudre ces problmes de planication trs gnraux incluent des mthodes gnre-teste-rpare, fondes sur une valuation par chantillonnage probabiliste de la politique courante [YOU 03b], ou encore lapproximation du GSMDP par un MDP sappuyant sur lapproximation des distributions gnralises par des lois phase type [YOU 04a]. Bien que ces techniques noffrent pas de garantie doptimalit, le formalisme GSMDP constitue une avenue de recherche prometteuse pour la planication temporelle probabiliste.
15.4. Apprentissage par renforcement : FPG 15.4.1. Employer des mthodes approches Tous les algorithmes prsents jusquici pour rsoudre des problmes de planication doprations passent par lestimation de lutilit de couples tat-action. Comme dans la majorit des approches de rsolution de MDP, cela permet de dterminer la meilleure action effectuer dans chaque tat, ou au moins dans chaque tat visit par la politique optimale trouve. Mais le nombre dtats concerns est souvent trs grand, ce qui rend de tels algorithmes trs gourmands en mmoire, mme si de bonnes heuristisques sont employes
426
PDM en IA
pour limiter leur exploration. Certains pallient la croissance exponentielle de ces besoins en mmoire en faisant des approximations, comme on la vu dans le cas dalgorithmes hybrides en section 15.3.1.4. Mais une approche qui na t propose que rcemment est dutiliser des fonctions dapproximation, que ce soit pour approcher une fonction de valeur (chapitre 11) ou pour dnir une politique (chapitre 12). Lalgorithme FPG (Factored Policy-Gradient) [ABE 05] propose ainsi demployer une des mthodes de gradient stochastiques vues au chapitre 12 pour rsoudre des problmes de planication doprations. Le principe est de faire fonctionner un de ces algorithmes dapprentissage par renforcement en interaction avec un simulateur du problme de planication (on suppose un tel simulateur disponible). Pour rappel, dans ce cadre une politique est vue comme une fonction paramtre, lapprentissage correspondant loptimisation des paramtres. Pour prsenter FPG plus en dtails, nous allons principalement discuter de deux points importants dans sa conception : 1) le choix de la forme de la politique paramtre, et 2) le choix de lalgorithme doptimisation le plus appropri. 15.4.2. Politique paramtre Pour faire le choix de la forme de la politique paramtre, nous partons des contraintes que posent les entres et sorties requises. Lobjectif est de trouver un bon compromis pour que la forme dpende dun petit nombre de paramtres mais puisse toujours reprsenter des politiques efcaces. 15.4.2.1. Entres Parce quun problme de planication doprations est dot au dpart dune certaine structure, il est naturel de prendre comme entres de lapproximateur de fonction non un simple numro identiant ltat courant, mais un vecteur dpendant de cet tat courant. Dans notre cadre de travail, une information complte est donne par 1) les variables boolennes du modle et 2) la le des vnements venir prvus. Du fait de sa longueur variable, une le dvnements se prte mal une reprsentation sous la forme dun vecteur, moins de ne garder quun nombre rduit dvnements (les plus proches dans le temps par exemple). Dans le planicateur FPG, le choix fait est de restreindre le vecteur dentre o aux variables boolennes. 15.4.2.2. Sorties A chaque instant de prise de dcision, il faut dterminer pour chaque opration ligible si elle doit tre excute ou pas. Mais, idalement, une politique paramtre renvoie une distribution de probabilit sur les actions possibles, une action correspondant au dclenchement dun ensemble doprations ligibles. Cela pose un problme parce que : le nombre dactions possibles crot de manire exponentielle avec le nombre doprations ligibles et une distribution de probabilit sur un nombre dactions variable parat difcile reprsenter avec une fonction dapproximation.
427
Pour rsoudre ce problme, FPG emploie un contrleur factoris en un sous-contrleur par opration. Pour lentre o courante, FPG calcule ainsi pour chaque opration ligible op une probabilit de lexcuter P (op|o; op ), puis chantillonne un sousensemble de ces oprations. Mais encore faut-il ne pas dclencher des oprations mutex. Pour cela, la solution employe par FPG consiste simplement identier les oprations en conit et en retirer alatoirement jusqu ce que tous les conits soient rsolus. 15.4.2.3. Fonction dapproximation Ayant dni entres et sorties, divers approximateurs de fonction peuvent encore tre employs. En pratique, les implmentations de FPG ont utilis jusquici des arbres de dcision et, surtout, des rseaux de neurones de type perceptron. Les meilleurs rsultats ont t obtenus avec des perceptrons sans couche cache, aussi appels rseaux linaires (voir quation (12.4)). La gure 15.6 montre un tel contrleur bas sur des rseaux linaires. Dans ce cas particulier, un tat contient non seulement une le dvnements et des variables boolennes (appeles prdicats ), mais aussi le temps et des ressources. Le contrleur est ici vu en interaction avec un simulateur via la fonction chercheSuccesseur(st , at ) qui chantillonne ltat suivant st+1 en fonction de ltat courant st et du vecteur action choisi at .
Op erateur 1
P [op1 |ot , 1 ] = 0.1
ot
Etat courant Op erateur 2 Temps Pr edicats Ressources File d ev enements
P [op1 |ot , 1 ] = 0.9
Non eligible P [op2 |ot , 2 ] = 1 Choix interdit
at
chercheSuccesseur(st, at )
ot
Op erateur N
Etat suivant
P [opN |ot , N ] = 0.5
Temps Pr edicats Ressources File d ev enements
P [opN |ot , N ] = 0.5
Figure 15.6. Schma de principe du contrleur FPG
428
PDM en IA
On notera que les mthodes de gradient peuvent au besoin grer des entres et des sorties continues. On peut donc en thorie aborder des problmes plus complexes que ceux prsents ici. Un exemple type est la gestion de projets dans lesquels les dures des tches sont incertaines. 15.4.3. Mthodes de gradient 15.4.3.1. Terminaison dune excution De tels problmes de planication doprations se terminent quand un tat terminal est atteint, quil sagisse dun succs ou dun chec. Mais il est aussi possible que des excutions de politique ne se terminent jamais. En particulier, il est possible de se trouver dans une partie de lespace dtats sans issue, quelle que soit la politique. Pour viter quun algorithme dapprentissage se retrouve ainsi bloqu, il faut dnir une dure maximale Tmax au bout de laquelle tout tat est considr comme un chec. Cette dure peut tre mesure en units de temps (secondes, heures, jours...) ou en nombre de points de dcisions. 15.4.3.2. Choix dOLpomdp Parce que lon garantit ici la terminaison de toute excution, on peut adopter une mthode de gradient pour processus rgnratif (voir section 12.2.3.1). Les implmentations actuelles de FPG utilisent toutefois lalgorithme OLpomdp (algorithme 12.3, page 369) pour bncier de lefcacit de son apprentissage en ligne. On prfre aussi OLpomdp dautres algorithmes plus coteux en temps de calcul, telles que les mthodes Acteur-Critique vues en section 12.3, parce que lon bncie ici dchantillons trs faible cot si un simulateur rapide existe. 15.4.3.3. Critre optimis Tel quil a t dcrit, OLpomdp optimise la rcompense moyenne par pas de simulation. Or, dans le cas de la planication doprations, le critre quil faudrait employer est la rcompense moyenne par excution complte (par chemin dun tat initial un tat terminal). Au lieu de maximiser par exemple la probabilit de succs, OLpomdp va maximiser la frquence laquelle des succs sont rencontrs, faisant un compromis entre probabilit de succs et excutions courtes. Pour corriger ce phnomne, on peut modier OLpomdp comme suit : effacer la trace dligibilit chaque fois que lon repart de ltat initial ; et ajouter des tapes de dcision ctives an que toutes les excutions soient de mme longueur ; et accumuler les rcompenses pendant une excution pour ne les consommmer quune fois un tat terminal atteint. En pratique, OLpomdp a principalement t utilis sans effectuer ces corrections. Une raison cela est que lapprentissage est plus difcile quand les excutions sont longues. On prfre ne pas ajouter des pas de dcision ctifs si cela permet dapprendre des politiques favorisant des excutions courtes.
429
15.4.4. Amliorations de FPG Parce quil est bas sur une mthode de gradient, FPG peut bncier de quelques amliorations. Dabord, FPG souffre du fait que son exploration initiale est alatoire, assimilable un mouvement brownien. Prenons le clbre monde des blocs [SLA 01] dans lequel des blocs numrots doivent tre empils selon une conguration donne. On observe que, si une politique alatoire est suivie, la frquence laquelle la conguration but est rencontre dcrot de manire exponentielle quand le nombre de blocs considrs augmente. Il serait donc utile dorienter les recherches de FPG. Deux approches envisageables sont : utiliser un estimateur de progrs : il sagit de donner chaque dcision une rcompense indiquant si lon semble stre rapproch ou loign du but ; une difcult est destimer la distance au but ; mais un estimateur simple sest dj montr trs efcace [BUF 06] ; et suivre les dcisions dune heuristique : au lieu de commencer avec une politique alatoire, il est envisageable de bncier de rgles de dcisions rputes efcaces, telles que celles dveloppes dans le domaine de la planication classique (dterministe). Dautre part, les calculs effectus par OLpomdp restent en gnral assez coteux. Or dans de nombreux problmes de planication doprations, la rcompense reue est la plupart du temps nulle. Il est alors possible 1) de ne modier le vecteur que quand une rcompense est prsente et 2) de ne faire dcrotre la trace dligibilit lie une opration que quand une rcompense est reue ou quand cette opration est utilise. 15.5. Exprimentations Ces exprimentations, reprises de [ABE 07a], comparent MOP, Prottle et FPG. Nous prsentons des rsultats selon trois critres : la probabilit datteindre un tat but, la longueur moyenne dexcution (que le rsultat soit un succs ou un chec), et la rcompense moyenne long terme (pour FPG). Les problmes considrs sont : Probabilistic Machine Shop (MS) (un problme de gestion de machines dans un atelier) [MAU 05], Maze (MZ) (un labyrinthe), Teleport (TP) (un scnario de science-ction dans lequel la tlportation lente est plus sre que la rapide) [LIT 05], et PitStop (une course de voitures avec gestion des arrts au stand et dures daction incertaines) [ABE 07a] Pour les trois premiers problmes, on utilise ici les versions donnes dans [LIT 05]. Les exprimentations utilisent : FPG avec des rseaux linaires, MOP, Prottle, une
430
PDM en IA
politique alatoire dclenchant les actions au hasard et une politique nave qui tente dexcuter toutes les actions ligibles. Ces deux derniers algorithmes permettent de vrier quune optimisation est ncessaire pour obtenir de bons rsultats. Toutes les exprimentations ont une dure maximale de 600 secondes. Dautres paramtres sont dcrits dans le tableau 15.2. En particulier, le pas de gradient constant a t choisi comme la plus grande valeur garantissant une convergence sre sur 100 excutions sur tous les domaines. Les exprimentations ont t effectues sur un Pentium IV 2.4GHz avec 1Go de mmoire vive. Les rsultats sont rsums dans le tableau 15.1. A part pour Prottle, les probabilits dchec et longueurs moyennes dexcution ont t estimes partir de 100 000 excutions simules du plan optimis. Les rsultats de Prottle viennent de [LIT 05], en citant les plus petits rsultats de probabilit dchec. Les exprimentations avec FPG et MOP ont t rptes 100 fois pour tenir compte de la nature stochastique de loptimisation. Les exprimentations rptes avec FPG sont importantes pour mesurer leffet des minima locaux. Pour FPG et MOP sont prsents les rsultats moyens sur 100 optimisations et, entre parenthses, la meilleure optimisation parmi les 100 (en prenant la probabilit dchec comme critre). Les petites diffrences entre rsultats moyens et meilleurs rsultats indiquent que les optima locaux nont pas t trop svres. En gnral, le tableau 15.1 montre que FPG est au moins comparable avec Prottle et MOP, et meilleur sur le problme le plus difcile : Machine Shop. Les mauvaises performances de Prottle dans le problme Teleport 79,8% dchec par rapport aux 34,4% de FPG viennent de ce quil considre ici des longueurs dexcution de 20 units de temps au plus. Le tableau 15.1 montre que Prottle obtient de bons rsultats plus vite sur Maze et Machine Shop. Loptimisation apparemment plus lente chez FPG ou MOP est due leur convergence asymptotique. Pour FPG, le critre est doptimiser jusqu ce que la rcompense moyenne long terme ne samliore plus pendant 5 estimations de suite (de 10 000 pas chacune). En pratique, de bonnes politiques sont trouves bien avant la convergence de ce critre [ABE 07a]. Les rsultats exprimentaux pour le problme temps continu PitStop montre la capacit doptimisation de FPG dans un cadre o les variables alatoires sont aussi bien discrtes que continues.
15.6. Conclusion et perspectives Ce chapitre a prsent une application particulire des processus de dcision markoviens : la planication doprations. Dans ces problmes, les espaces dtat et daction (une action tant un ensemble doprations) sont trs structurs. On cherche donc exploiter cette structure pour pallier lexplosion combinatoire de la taille de ces espaces. Les algorithmes prsents passent en gnral par une valuation de la fonction de valeur, lun dentre eux (FPG) prfrant cela une optimisation par mthode de gradient. Ces algorithmes sont rendus plus efcaces en exploitant des mthodes classiques telles que :
Planication doprations Prob. MS MS MS MS MS MS MZ MZ MZ MZ MZ MZ MZ TP TP TP TP TP TP PitStop PitStop PitStop Opt. FPG FPG Prottle MOP alatoire nave FPG FPG Prottle MOP MOP alatoire nave FPG FPG Prottle MOP alatoire nave FPG alatoire nave % chec 1,33 (0,02) 0,02 2,9 LP R Temps 6,6 (5,5) 118 (166) 532 (600) 5,5 166 600 272 dbordement mmoire 99,3 18 0,1 100 20 0,0 19,1 (14,7) 5,5 (6,9) 134 (130) 371 (440) 14,7 6,9 130 440 17,8 10 7,92 (7,15) 8,0 (8,2) 71 (72) 7,15 8,2 72 76,5 13 16,4 90,8 16 8,6 34,4 (33,3) 18 (18) 298 (305) 340 (600) 33,3 18 305 600 79,8 442 dbordement mmoire 99,6 15 1,0 100 19 0,0 0,0 20180 142 41 29,0 12649 41,0 100 66776 0,0
431
Tableau 15.1. Rsultats sur 3 domaines dessai. Les exprimentations pour MOP et FPG ont t rptes 100 fois. La colonne Opt. donne le moteur doptimisation utilis. % chec=pourcentage dexcutions choues, LP=longueur du plan, R est la rcompense moyenne long terme, et Temps est le temps doptimisation en secondes.
Paramtre Valeur init 0 1 105 0,95 1 0,0 0,6
Opt. FPG FPG FPG MOP Prottle
Tableau 15.2. Rglages de paramtres non discuts dans le texte.
utiliser une heuristique rpute indiquer souvent la bonne direction suivre ; rsoudre dabord un problme simpli avant de rsoudre le problme original (on parle de relaxation de contraintes) ; ou restreindre lespace des solutions explores (au risque de perdre en optimalit).
432
PDM en IA
Planication probabiliste non-temporelle non-concurrente Les travaux prsents ici sont tous rcents parce quils sont parmi les premiers sattaquer au problme difcile de la planication doprations. Mais ils ont t prcds par des recherches dans des cas plus simples de planication probabiliste, cas dans lesquels les oprations ne peuvent tre concurrentes et le temps napparat pas. Un bon endroit pour trouver des rfrences sur ce sujet est la comptition internationale de planication (IPC), au cours de laquelle une catgorie planication probabiliste a dj t organise en 2004 et 2006.
Bibliographie
[ABE 02] A BERDEEN D., BAXTER J., Scaling Internal-State Policy-Gradient Methods for POMDPs , Proceedings of the Nineteenth International Conference on Machine Learning (ICML02), July 2002. [ABE 03] A BERDEEN D., Policy-Gradient Algorithms for Partially Observable Markov Decision Processes, PhD thesis, The Australian National University, Canberra, Australia, March 2003. [ABE 04] A BERDEEN D., T HIBAUX S., Z HANG L., Decision-Theoretic Military Operations Planning , Proceedings of the Fourteenth International Conference on Automated Planning and Scheduling (ICAPS04), June 2004. [ABE 05] A BERDEEN D., Policy-Gradient Methods for Planning , Advances in Neural Information Processing Systems 19 (NIPS05), 2005. [ABE 07a] A BERDEEN D., B UFFET O., Temporal Probabilistic Planning with PolicyGradients , Proceedings of the Seventeenth International Conference on Automated Planning and Scheduling (ICAPS07), September 2007. [ABE 07b] A BERDEEN D., B UFFET O., T HOMAS O., Policy-Gradient for PSRs and POMDPs , Proceedings of the Eleventh International Conference on Articial Intelligence and Statistics (AISTATS07), 2007. [ADD 05] A DDA C., L AURENT G. J., L E F ORT-P IAT N., Learning to control a real micropositioning system in the STM-Q framework , Proceedings of the IEEE International Conference on Robotics and Automation (ICRA05), Barcelone, Spain, p. 45804585, April 1822 2005. [AMA 98] ICHI A MARI S., Natural Gradient Works Efciently in Learning , Neural Computation, vol. 10, n2, p. 251276, February 1998. [ANO 07] A NONYMOUS, IUCN cat projects database , October 2007, Zoological Society of London, (ZSL). [ANT 07] A NTOS A., S ZEPESVRI C., M UNOS R., Learning Near-Optimal Policies with Bellman-Residual Minimization Based Fitted Policy Iteration and a Single Sample Path , To appear in Machine Learning Journal, 2007.
434
PDM en IA
[ARA 07] A RAS R., D UTECH A., C HARPILLET F., Mixed integer linear programming for exact nite-horizon planning in decentralized POMDPs , Proceedings of the International Conference on Automated Planning and Scheduling (ICAPS07), 2007. [AST 65] A STRM K., Optimal control of markov decision processes with incomplete state estimation , Journal of Mathematical Analysis and Applications, vol. 10, p. 174205, 1965. [ATK 97] ATKESON C. G., M OORE A. W., S CHAAL S. A., Locally Weighted Learning , AI Review, vol. 11, 1997. [AUE 95] AUER P., C ESA -B IANCHI N., F REUND Y., S CHAPIRE R., Gambling in a Rigged Casino : The Adversarial Multi-Armed Bandit Problem , Proceedings of the 36th Annual Symposium on Foundations of Computer Science, p. 322331, 1995. [AUM 02] AUMANN R. J., H ART S., Eds., Handbook of Game Theory with Economic Applications, Elsevier Science, volume 3, 2002. [BAG 01] BAGNELL J., N G A. Y., S CHNEIDER J., Solving Uncertain Markov Decision Problems, Rapport nCMU-RI-TR-01-25, Robotics Institute, Carnegie Mellon University, Pittsburgh, PA, August 2001. [BAG 03] BAGNELL J., S CHNEIDER J., Covariant Policy Search , Proceedings of the Eighteenth International Joint Conference on Articial Intelligence (IJCAI03), 2003. [BAH 93] BAHAR R., F ROHM E., G AONA C., H ACHTEL G., M ACII E., PARDO A., S O MENZI F., Algebraic Decision Diagrams and their Applications , IEEE/ACM International Conference on CAD, Santa Clara, California, p. 188191, 1993. [BAI 93] BAIRD L., Advantage Updating, Rapport nWL-TR-93-1146, Wright-Patterson Air Force Base Ohio : Wright Laboratory, 1993. [BAI 95] BAIRD L. C., Residual Algorithms : Reinforcement Learning with Function Approximation , Proceedings of the Twelfth International Conference in Machine Learning (ICML95), San Francisco, CA, Morgan Kaufman Publishers, 1995. [BAI 99a] BAIRD L., Reinforcement Learning Through Gradient Descent, PhD thesis, Carnegie Mellon University, Pittsburgh, PA 15213, 1999. [BAI 99b] BAIRD L., M OORE A., Gradient Descent for General Reinforcement Learning , Advances in Neural Information Processing Systems 11 (NIPS99), The MIT Press, 1999. [BAR 83] BARTO A., S UTTON R., A NDERSON C. W., Neuron-like Adaptive Elements That Can Solve Difcult Learning Control Problems , IEEE Transactions on Systems, Man, and Cybernetics, vol. SMC-13, n5, p. 834846, 1983. [BAR 95] BARTO A., B RADTKE S., S INGH S., Learning to Act Using Real-time Dynamic Programming , Articial Intelligence, vol. 72, p. 81138, 1995. [BAR 06] BARDOS D. C., DAY R. W., L AWSON N. T., L INACRE N. A., Dynamical Response to Fishing Varies with Compensatory Mechanism : An Abalone Population Model , Ecological Modelling, vol. 192, n3-4, p. 523542, 2006.
Bibliographie
435
[BAU 98] BAUR C., B UGACOV A., KOEL B., M ADHUKAR A., M ONTOYA N., R AMACHAN DRAN T., R EQUICHA A., R ESCH R., W ILL P., Nanoparticle Manipulation by Mechanical Pushing : Underlying Phenomena and Real-Time Monitoring , Nanotechnology, vol. 9, p. 360364, 1998. [BAX 00] BAXTER J., BARTLETT P., Reinforcement Learning in POMDPs via Direct Gradient Ascent , In Proceedings of the 17th International Conference on Machine Learning (ICML00), 2000. [BAX 01a] BAXTER J., BARTLETT P., Innite-Horizon Policy-Gradient Estimation , Journal of Articial Intelligence Research, vol. 15, p. 319350, 2001. [BAX 01b] BAXTER J., BARTLETT P., W EAVER L., Experiments with Innite-Horizon, Policy-Gradient Estimation , Journal of Articial Intelligence Research, vol. 15, p. 351 381, 2001. [BEC 03] B ECKER R., Z ILBERSTEIN S., L ESSER V., G OLDMAN C., TransitionIndependent Decentralized Markov Decision Processes , Proceedings of the Second International Joint Conference on Autonomous Agents and Multi Agent Systems (AAMAS03), Melbourne, Australia, ACM Press, p. 41-48, July 2003. [BEC 04a] B ECKER R., L ESSER V., Z ILBERSTEIN S., Decentralized Markov Decision Processes with Event-Driven Interactions , Proceedings of the Third International Joint Conference on Autonomous Agents and Multi Agent Systems (AAMAS04), New-York, USA, p. 302-309, 2004. [BEC 04b] B ECKER R., Z ILBERSTEIN S., L ESSER V., G OLDMAN C., Solving Transition Independent Decentralized Markov Decision Processes , Journal of Articial Intelligence Research, vol. 22, p. 423-455, Morgan Kaufmann Publishers, December 2004. [BEL 57] B ELLMAN R. E., Dynamic Programming, Princeton University Press, 1957. [BEL 59] B ELLMAN R., D REYFUS S., Functional Approximation and Dynamic Programming , Math. Tables and other Aids Comp., vol. 13, p. 247251, 1959. [BEL 63] B ELLMAN R., K ALABA R., KOTKIN B., Polynomial Approximation - a New Computational Technique in Dynamic Programming , Math. Comp., vol. 17, n8, p. 155 161, 1963. [BEL 04] B ELLOSTA M., B RIGUI I., KORNMAN S., P INSON S., VANDERPOOTEN D., Un mcanisme de ngociation multicritre pour le commerce lectronique , Reconnaissance des Formes et Intelligence Articielle (RFIA04), Toulouse, p. 10091016, Janvier 2004. [BEN 02] B ENFERHAT S., D UBOIS D., G ARCIA L., P RADE H., On the Transformation between Possibilistic Logic Bases and Possibilistic Causal Networks , International Journal of Approximate Reasoning, vol. 29, p. 135173, 2002. [BER 87] B ERTSEKAS D. P., Dynamic Programming : Deterministic and Stochastic Models, Prentice-Hall, 1987. [BER 89] B ERTSEKAS D. P., T SITSIKLIS J. N., Parallel and Distributed Computation : Numerical Methods, Prentice-Hall, 1989. [BER 95] B ERTSEKAS D., Dynamic programming and optimal control, Athena Scientic, Belmont, MA, 1995.
436
PDM en IA
[BER 96] B ERTSEKAS D., T SITSIKLIS J., Neuro-Dynamic Programming, Athena Scientic, Belmont, MA, 1996. [BER 02] B ERNSTEIN D., G IVAN R., I MMERMAN N., Z ILBERSTEIN S., The Complexity of Decentralized Control of Markov Decision Processes , Mathematics of Operations Research, vol. 27, n4, p. 819840, JSTOR, 2002. [BER 05] B ERNSTEIN D., H ANSEN E.A., Z ILBERSTEIN S., Bounded Policy Iteration for Decentralized POMDPs , Proceedings of the Nineteenth International Joint Conference on Articial Intelligence (IJCAI05), Edinburgh, Scotland, 2005. [BEY 04] B EYNIER A., M OUADDIB A.I., A Decentralized MultiAgent Decision Approach for Handling Temporal and Resource Constraints : preliminary report , Proceedings of the AAAI Symposium on Bridging the Multi-Agent and Multi-Robotic Research Gap, 2004. [BEY 05] B EYNIER A., M OUADDIB A.I., A polynomial algorithm for Decentralized Markov Decision Processes with temporal constraints , Proceedings of the Fourth International Joint Conference on Autonomous Agents and MultiAgent Systems (AAMAS05), p. 963-969, 2005. [BEY 06] B EYNIER A., M OUADDIB A.I., An iterative algorithm for solving Constrained Decentralized Markov Decision Processes , Proceedings of the Twenty-First National Conference on Articial Intelligence (AAAI06), 2006. [BLU 97] B LUM A., F URST M., Fast Planning Through Planning Graph Analysis , Articial Intelligence, vol. 90, p. 281300, 1997. [BON 00] B ONET B., G EFFNER H., Planning with Incomplete Information as Heuristic Search in Belief Space , Proceedings of the 5th International Conference on Articial Intelligence Planning Systems (AIPS00), 2000. [BON 02] B ONET B., P EARL J., Qualitative MDPs and POMDPs : An order-of-magnitude approximation , Proceedings of the Annual Conference on Uncertainty in Articial Intelligence (UAI02), vol. 18, p. 61-68, 2002. [BON 03] B ONET B., G EFFNER H., Labeled RTDP : Improving the Convergence of RealTime Dynamic Programming , Proceedings of the Thirteenth International Conference on Automated Planning and Scheduling (ICAPS03), 2003. [BOU 92] B OUCHERON S., Thorie de lApprentissage : de lapproche formelle aux enjeux cognitifs, Herms, 1992. [BOU 94] B OUTILIER C., Toward a logic for qualitative decision theory , Proceedings of the Fourth International Conference on Principles of Knowledge Representation and Reasoning (KR94), Bonn, Allemagne, p. 7586, 1994. [BOU 95] B OUTILIER C., D EARDEN R., G OLDSZMIDT M., Exploiting Structure in Policy Construction , Proceedings of the Fourteenth International Joint Conference on Articial Intelligence (IJCAI95), Montreal, p. 11041111, 1995. [BOU 96a] B OUTILIER C., Planning, Learning and Coordination in Multiagent Decision Processes , Proceedings of the 6th Conference on Theoretical Aspects of Rationality and Knowledge (TARK96), p. 195-201, 1996.
Bibliographie
437
[BOU 96b] B OUTILIER C., G OLDSZMIDT M., The Frame Problem and Bayesian Network Action Representations , Proceedings of the Eleventh Biennial Canadian Conference on Articial Intelligence (AI 96), Toronto, CA, p. 6983, 1996. [BOU 99a] B OUTILIER C., D EAN T., H ANKS S., Decision-Theoretic Planning : Structural Assumptions and Computational Leverage , Journal of Articial Intelligence Research (JAIR), vol. 11, p. 194, 1999. [BOU 99b] B OUTILIER C., T. D., H ANKS S., Decision-Theoretic Planning : Structural Assumptions and Computational Leverage , Journal of Articial Intelligence Research, vol. 11, p. 194, 1999. [BOU 99c] B OUTILIER G., Sequential Optimality and Coordination in MultiAgent Systems , Proceedings of the Sixteenth International Joint Conference on Articial Intelligence (IJCAI99), p. 478-485, 1999. [BOU 00a] B OUTILIER C., D EARDEN R., G OLDSZMIDT M., Stochastic Dynamic Programming with Factored Representations , Articial Intelligence, vol. 121, n1, p. 49107, 2000. [BOU 00b] B OUYSSOU D., M ARCHANT T., P ERNY P., P IRLOT M., T SOUKIS A., V INCKE P., Evaluation and decision models : a critical perspective, Kluwer, 2000. [BOU 07] B OUSSARD M., B OUZID M., M OUADDIB A.-I., Multi-Criteria Decision Making for local Coordination in Multi-Agent Systems , Proceedings of the International Conference on Tools with Articial Intelligence (ICTAI07), Octobre 2007. [BOW 02a] B OWLING M., V ELOSO M., Multiagent Learning using a Variable Learning Rate , Articial Intelligence, vol. 136, n2, p. 215250, 2002. [BOW 02b] B OWLING M., V ELOSO M., Scalable Learning in Stochastic Games , AAAI Workshop on Game Theoretic and Decision Theoretic Agents, 2002. [BOW 03a] B OWLING M., Multiagent Learning in the Presence of Agents with Limitations, PhD thesis, University of Toronto, 2003. [BOW 03b] B OWLING M., V ELOSO M., Simultaneous Adversarial Multirobot Learning , Proceedings of the Eighteenth International Joint Conference on Articial Intelligence (IJCAI03), 2003. [BOW 04] B OWLING M., Convergence and No-Regret in Multiagent Learning , Advances in Neural Information Processing Systems 17 (NIPS04), p. 209216, 2004. [BOY 99] B OYAN J., Least-Squares Temporal Difference Learning , Proceedings of the 16th International Conference on Machine Learning (ICML99), p. 49-56, 1999. [BRA 96] B RADTKE S., BARTO A., Linear Least-Squares Algorithms for Temporal Difference Learning , Journal of Machine Learning, vol. 22, p. 33-57, 1996. [BRA 01] B RAFMAN R. I., T ENNENHOLTZ M., R-max : a General Polynomial Time Algorithm for Near-optimal Reinforcement Learning , Proceedings of the Seventeenth International Joint Conference on Articial Intelligence (IJCAI01), p. 953958, 2001. [BRA 03] B RAFMAN R. I., T ENNENHOLTZ M., Learning to Coordinate Efciently : A Model Based Approach , Journal of Articial Intelligence Research, vol. 19, p. 1123, 2003.
438
PDM en IA
[BRE 02] B RESINA J., D EARDEN R., M EULEAU N., R AMAKRISHNAN S., S MITH D., WA SHINGTON R., Planning Under Continuous Time and Resource Uncertainty : A Challenge for AI , Proceedings of the Eighteenth Conference on Uncertainty in Articial Intelligence (UAI02), 2002. [BRO 51] B ROWN G., Iterative solution of games by ctitious play , Activity Analysis of Production and Allocation, vol. 13, p. 374376, Wiley, 1951. [BRY 86] B RYANT R. E., Graph-Based Algorithms for Boolean Function Manipulation , IEEE Transactions on Computers, vol. C-35, n8, p. 677691, 1986. [BRY 06] B RYCE D., K AMBHAMPATI S., A Tutorial on Planning Graph Based Reachability Heuristics , AI Magazine, vol. 27, n4, 2006. [BUF 05] B UFFET O., A BERDEEN D., A Two-Teams Approach for Robust Probabilistic Temporal Planning , Proceedings of the ECML05 workshop on Reinforcement Learning in Non-Stationary Environments, 2005. [BUF 06] B UFFET O., A BERDEEN D., The Factored Policy Gradient planner (IPC06 Version) , Proceedings of the Fifth International Planning Competition (IPC-5), 2006. [BUR 07] B URKOV A., C HAIB - DRAA B., Multiagent Learning in Adaptive Dynamic Systems , Proceedings of the International Joint Conference on Autonomous Agents and Multiagent Systems (AAMAS07), Honolulu, Hawaii, 2007. [CAR 01] C ARDON S., M OUADDIB A. I., Z ILBERSTEIN S., WASHINGTON R., Adaptive Control of Acyclic Progressive Processing task Structures , Proceedings of the Seventeenth International Joint Conference on Articial Intelligence (IJCAI01), Seattle, WA, USA, p. 701706, 2001. [CAS 94] C ASSANDRA A., K AELBLING L., L ITTMAN M., Acting Optimally in Partially Observable Stochastic Domains , Proceedings of the Twelfth National Conference on Articial Intelligence (AAAI94), Seattle, WA, 1994. [CAS 98] C ASSANDRA A., Exact and Approximate Algorithms for Partially Observable Markov Decision Processes, PhD thesis, Brown University, 1998. [CAS 05] C ASSANDRA A., pomdp-solve : POMDP solver software , 2005. [CHA 01] C HANG Y., K AELBLING L., Playing is Believing : The Role of Beliefs in MultiAgent Learning , Advances in Neural Information Processing Systems (NIPS01), Canada, 2001. [CHA 02] C HADS I., S CHERRER B., C HARPILLET F., A Heuristic Approach for Solving Decentralized-POMDP : Assessment on the Pursuit Problem , Proceedings of the Sixteenth ACM Symposium on Applied Computing (SAC02), 2002. [CHA 05] C HANTHERY E., BARBIER M., FARGES J.-L., Planning Algorithms for an Autonomous Aerial Vehicle , 16th IFAC World Congress, Prague, Rpublique Tchque, 2005. [CHA 08] C HADES I., M C D ONALD -M ADDEN E., M C C ARTHY M., L INKIE M., P OSSIN GHAM H., Save, Survey or Surrender : Optimal Management of Threatened Species , Submitted, 2008.
Bibliographie
439
[CHE 88] C HENG H.-T., Algorithms for Partially Observable Markov Decision Processes, PhD thesis, University of British Columbia, Canada, 1988. [CHU 03] C HU F., H ALPERN J., Great Expectations. Part I : On the Customizability of Generalized Expected Utility , Proceedings of the Eighteenth International Joint Conference in Articial Intelligence (IJCAI03), p. 291296, 2003. [CIC 95] C ICHOSZ P., Truncating Temporal Differences : On the Efcient Implementation of TD() for Reinforcement Learning , Journal of Articial Intelligence Research, vol. 2, p. 287318, 1995. [CIT 07] CITES, Appendices I, II, and III. , August 2007. [CLA 98] C LAUS C., B OUTILIER C., The Dynamics of Reinforcement Learning in Cooperative Multiagent Systems , Proceedings of the Fifteenth National Conference on Articial Intelligence (AAAI98), Menlo Park, CA, AAAI Press, p. 746752, 1998. [COU 02] C OULOM R., Reinforcement Learning using Neural Networks, with Applications to Motor Control, PhD thesis, Institut National Polytechnique de Grenoble, 2002. [CRI 97] C RITES R., BARTO A., Improving Elevator Performance using Reinforcement Learning , Advances in Neural Information Processing Systems 9 (NIPS97), 1997. [CUS 07] C USHING W., K AMBHAMPATI S., M AUSAM, W ELD D. S., When is Temporal Planning Really Temporal ? , Proceedings of the Twentieth International Joint Conference on Articial Intelligence (IJCAI-07), 2007. [DAM 05] DAMIANI S., V ERFAILLIE G., C HARMEAU M.-C., A Continuous Anytime Planning Module for an Autonomous Earth Watching Satellite , ICAPS05 Workshop on Planning and Scheduling for Autonomous Systems, Monterey, CA, USA, p. 1928, 2005. [DAR 92] DARWICHE A., G INSBERG M., A Symbolic Generalization of Probability Theory , Proceedings of the National Conference on Articial Intelligence (AAAI92), p. 622627, 1992. [DAR 94] DARWICHE A., G OLDSZMIDT M., On the Relation Between Kappa Calculus and Probabilistic Reasoning , Proceedings of the Tenth Conference on Uncertainty in Articial International (UAI94), Seattle, WA, Morgan Kaufmann, p. 145153, 1994. [DAV 97] DAVIES G., M ALLAT S., AVELLANEDA M., Adaptive Greedy Approximations , Journal of Constructive Approximation, vol. 13, p. 5798, 1997. [DAY 94] DAYAN P., S EJNOWSKI T. J., TD() Converges with Probability 1 , Machine Learning, vol. 14, n3, p. 295301, 1994. [DE 63] DE PENOUX F., A probabilistic production and inventory problem , Management Science, vol. 10, p. 98108, 1963. [DEA 89] D EAN T., K ANAZAWA K., A Model for Reasoning about Persistence and Causation , Computational Intelligence, vol. 5, p. 142150, 1989. [DEA 98] D EARDEN R., F RIEDMAN N., RUSSELL S., Bayesian Q-learning , Proceedings of the National Conference on Articial Intelligence (AAAI98), 1998.
440
PDM en IA
[DEA 03] D EARDEN R., M EULEAU N., R AMAKRISHNAN S., S MITH D., WASHINGTON R., Incremental Contingency Planning , Proceedings of the ICAPS-03 Workshop on Planning under Uncertainty, 2003. [DEC 93] D ECKER K., L ESSER V., Quanititative Modeling of Complex Computational Task Environnement , Proceedings of the Eleventh National Conference on Articial Intelligence (AAAI93), p. 217224, January 1993. [DEG 06] D EGRIS T., S IGAUD O., W UILLEMIN P.-H., Learning the Structure of Factored Markov Decision Processes in Reinforcement Learning Problems , Proceedings of the International Conference on Machine Learning (ICML06), 2006. [DEG 07] D EGRIS T., Apprentissage par renforcement dans les processus de dcision markoviens factoriss, PhD thesis, Universit Pierre et Marie Curie - Paris 6, 2007. [DEM 67] D EMPSTER A., Upper and Lower Probabilities Induced by a Multivalued Mapping , Annals of Mathematical Statistics, vol. 38, p. 325-339, 1967. [DEV 97] D E VORE R., Nonlinear Approximation, Acta Numerica, 1997. [DUB 88] D UBOIS D., P RADE H., Possibility theory, Plenum Press, 1988. [DUB 93] D UBOIS D., P RADE H., S ANDRI S., Fuzzy Logic : State of the Art , Chapitre On Possibility/Probability Transformations, p. 103112, Kluwer Academic Publishers, 1993. [DUB 94] D UBOIS D., P RADE H., A Survey of Belief Revision and Updating Rules in Various Uncertainty Models , International Journal of Intelligent Systems, vol. 9, p. 61100, 1994. [DUB 95] D UBOIS D., P RADE H., Possibility Theory as a Basis for Qualitative Decision Theory , Proceedings of the Fourteenth International Joint Conference on Articial Intelligence (IJCAI95), Montreal, Canada, p. 19251930, 20-25 aot 1995. [DUB 96] D UBOIS D., FARGIER H., P RADE H., Possibility Theory in Constraint Satisfaction Problems , Applied Intelligence, vol. 6, n4, p. 287309, 1996. [DUB 98] D UBOIS D., P RADE H., S ABBADIN R., Qualitative Decision Theory with Sugeno Integrals , C OOPER G. F., M ORAL S., Eds., Proceedings of the Fourteenth Conference on Uncertainty in Articial Intelligence (UAI98), Madison, WI, Morgan Kaufmann, p. 121 128, 24-26 Juillet 1998. [DUT 00] D UTECH A., Solving POMDP using Selected Past-Events , Proceedings of the Fourteenth European Conference on Articial Intelligence (ECAI00), 2000. [DUT 01] D UTECH A., B UFFET O., C HARPILLET F., Multi-Agent Systems by Incremental Gradient Reinforcement Learning , Proceedings of the Seventeenth International Joint Conference on Articial Intelligence (IJCAI01), 2001. [DUT 06] D UTECH A., A RAS R., C HARPILLET F., Apprentissage par renforcement et thorie des jeux pour la coordination des systmes multi-agents , Colloque africain pour la recherche en informatique (CARI06), Cotonou, Bnin, 2006. [EHR 03] E HRGOTT M., T ENFELDE -P ODEHL D., Computation of Ideal and Nadir Values and Implications for their Use in MCDM Methods. , European Journal of Operational Research, vol. 151, n1, p. 119139, 2003.
Bibliographie
441
[EME 04] E MERY-M ONTEMERLO R., G ORDON G., S CHNEIDER J., T HRUN S., Approximate Solutions for Partially Observable Stochastic Games with Common Payoffs , Proceedings of the Third Joint Conference on Autonomous Agents and MultiAgent Systems (AAMAS04), 2004. [ERK 98] E RKUT E., V ERTER V., Modeling of Transport Risk for Hazardous Materials , Operations Research, vol. 48, p. 624642, 1998. [ERN 05] E RNST D., G EURTS P., W EHENKEL L., Tree-Based Batch Mode Reinforcement Learning , Journal of Machine Learning Research, vol. 6, p. 503556, 2005. [FAB 07] FABIANI P., F UERTES V., B ESNERAIS G. L., M AMPEY R., P IQUEREAU A., T EICHTEIL F., The ReSSAC Autonomous Helicopter : Flying in a Non-Cooperative Uncertain World with embedded Vision and Decision Making , A.H.S. Forum, 2007. [FAR 98] FARGIER H., L ANG J., S ABBADIN R., Towards Qualitative Approaches to MultiStage Decision Making , International Journal of Approximate Reasoning, vol. 19, p. 441 471, 1998. [FAR 01] DE FARIAS D., VAN ROY B., The Linear Programming Approach to Approximate Dynamic Programming , Operations Research, vol. 51, n6, p. 850856, 2001. [FAR 03] FARGIER H., S ABBADIN R., Qualitative Decision under Uncertainty : Back to Expected Utility , Proceedings of the Eighteenth International Joint Conference on Articial Intelligence (IJCAI03), Acapulco, Mexique, p. 303308, 9-15 Aot 2003. [FAR 05] FARGIER H., S ABBADIN R., Qualitative decision under uncertainty : back to expected utility , Articial Intelligence, vol. 164, p. 245-280, 2005. [FEN 02] F ENG Z., H ANSEN E., Symbolic Heuristic Search for Factored Markov Decision Processes , Proceedings of the Eighteenth National Conference on Articial Intelligence (AAAI02), Edmonton, Alberta, Canada, p. 455460, 2002. [FEN 03] F ENG Z., H ANSEN E., Z ILBERSTEIN S., Symbolic Generalization for On-line Planning , Proceedings of the 19th Annual Conference on Uncertainty in Articial Intelligence (UAI03), Morgan Kaufmann, 2003. [FER 95] F ERBER J., Les Systmes multi-agents : Vers une intelligence collective, Inter Editions, 1995. [FIN 64] F INK A., Equilibrium in a Stochastic n-Person Game , Journal of Science in Hiroshima University Series, vol. 28, p. 8993, 1964. [FOX 03] F OX M., L ONG D., PDDL2.1 : An Extension to PDDL for Expressing Temporal Planning Domains , Journal of Articial Intelligence Research, vol. 20, p. 61124, 2003. [FRE 99] F REUND Y., S CHAPIRE R., Adaptive Game Playing using Multiplicative Weights , Games and Economic Behavior, vol. 29, n79103, page336, 1999. [FRI 95] F RIEDMAN N., H ALPERN J., Plausibility Measures : A Users Guide , Proceedings of the Eleventh International Conference on Uncertainty in Articial Intelligence (UAI95), p. 175184, 1995. [FUD 91] F UDENBERG D., T IROLE J., Game Theory, Mit Press, 1991.
442
PDM en IA
[FUD 99] F UDENBERG D., L EVINE D. K., The Theory of Learning in Games, MIT Press 1999. [GAL 06] G ALAND L., P ERNY P., Search for Compromise Solutions in Multiobjective State Space Graphs , Proceedings of the Seventeenth European Conference on Articial Intelligence, p. 9397, 2006. [GAR 98] G ARCIA F., N DIAYE S., A Learning Rate Analysis of Reinforcement-Learning Algorithms in Finite-Horizon , Proceedings of the Fifteenth International Conference on Machine Learning (ICML98), Madison, USA, Morgan Kaufmann, p. 215223, 1998. [GAR 06] G ARCIA L., S ABBADIN R., Possibilistic Inuence Diagrams , Proceedings of the European Conference on Articial Intelligence (ECAI06), p. 372376, 2006. [GAR 07] G ARCIA L., S ABBADIN R., Diagrammes dinuence possibilistes , Revue dIntelligence Articielle, vol. 21, n4, p. 521554, 2007. [GAR 08] G ARCIA L., S ABBADIN R., Complexity results and algorithms for possibilistic inuence diagrams , Articial Intelligence, page27 pages, 2008, To appear. [GEF 98] G EFFNER H., B ONET B., Solving Large POMDPs by Real Time Dynamic Programming , Working Notes Fall AAAI Symposium on POMDPs, 1998. [GEI 01] G EIBEL P., Reinforcement Learning with Bounded Risk , Proceedings of the Eighteenth International Conference on Machine Learning (ICML01), 2001. [GEN 00] G ENTIS H., Ed., Game Theory Evolving : A Problem-Centered Introduction to Modeling Strategic Interaction, Princeton University Press, 2000. [GER 04] G ERBER L. R., K ATE E. B., G LENN V., Density Dependence and Risk of Extinction in a Small Population of Sea Otters , Biodiversity and Conservation, vol. 13, p. 27412757, 2004. [GHA 04] G HALLAB M., NAU D., T RAVERSO P., Automated Planning : Theory and Practice, Morgan Kauffmann Publishers, 2004. [GIA 99] G IANG P. H., S HENOY P. P., On Transformations between Probability and Spohnian Disbelief Functions , P RADE H., Ed., Proceedings of the Fifteenth Conference on Uncertainty in Articial Intelligence (UAI99), Stockholm, Sweden, Morgan Kaufmann, p. 236244, 1999. [GIA 01] G IANG P., S HENOY P., A Comparison of Axiomatic Approaches to Qualitative Decision Making Using Possibility Theory , Proceedings of the International Conference on Uncertainty in Articial Intelligence (UAI01), vol. 17, p. 162170, 2001. [GIE 06] G IES O., C HAIB - DRAA B., Apprentissage de la coordination multiagent : une mthode base sur le Q-learning par jeu adaptatif , Revue dIntelligence Articielle, vol. 20, n2-3, p. 385412, 2006. [GLO 07] G LOANNEC S. L., Contrle adaptatif dun agent rationnel ressources limites dans un environnement dynamique et incertain, PhD thesis, Univ. Caen Basse Normandie, 2007. [GLY 89] G LYNN P., I GLEHART D., Importance Sampling for Stochastic Simulations , Management Science, vol. 35, n11, p. 13671392, 1989.
Bibliographie
443
[GOL 03] G OLDMAN C., Z ILBERSTEIN S., Optimizing Information Exchange in Cooperative MultiAgent Systems , International Joint Conference on Autonomous Agents and Multi Agent Systems (AAMAS03), p. 137144, 2003. [GOL 04] G OLDMAN C., Z ILBERSTEIN S., Decentralized Control of Cooperative Systems : Categorization and Complexity Analysis , Journal of Articial Intelligence Research, vol. 22, p. 143174, 2004. [GON 01] G ONDRAN M., M INOUX M., Graphes, dioides et semi-anneaux, Editions Technique et Documentation, 2001. [GOR 95] G ORDON G., Stable Function Approximation in Dynamic Programming , P RIE DITIS A., RUSSELL S., Eds., Proceedings of the Twelfth International Conference on Machine Learning (ICML95), San Francisco, CA, Morgan Kaufmann, p. 261268, 1995. [GOS 04] G OSAVI A., A Reinforcement Learning Algorithm Based on Policy Iteration for Average Reward : Empirical Results with Yield Management and Convergence Analysis , Machine Learning, vol. 55, p. 529, 2004. [GRA 02a] G RABISCH M., P ERNY P., Agrgation multicritre , Logique oue, principes, aide la dcision, p. 81120, Hermes, 2002. [GR 02b] G RDEL E., T HOMAS W., W ILKE T., Eds., Automata, Logics and Innite Games, Springer-Verlag, vol. 2500 of LNCS, 2002. [GRE 01] G REENSMITH E., BARTLETT P., BAXTER J., Variance Reduction Techniques for Gradient Estimates in Reinforcement Learning , Advances in Neural Information Processing Systems 14 (NIPS01), 2001. [GRO 91] G ROSOF B., Generalizing prioritization , Proceedings of the Second International Conference on Principles of Knowledge Representation and Reasoning (KR91), p. 289 300, 1991. [GUE 01a] G UESTRIN C., KOLLER D., PARR R., Max-norm Projections for Factored MDPs , Proceedings of the SevenTeenth International Joint Conference on Articial Intelligence (IJCAI01), p. 673680, 2001. [GUE 01b] G UESTRIN C., KOLLER D., PARR R., Solving factored POMDPs with linear value functions , Proceedings of the IJCAI-01 Workshop on Planning under Uncertainty and Incomplete Information, Seattle, WA, 2001. [GUE 03a] G UESTRIN C., Planning Under Uncertainty in Complex Structured Environments, PhD thesis, Computer Science Department, Stanford University, USA, 2003. [GUE 03b] G UESTRIN C., KOLLER D., PARR R., V ENKATARAMAN S., Efcient Solution Algorithms for Factored MDPs , Journal of Articial Intelligence Research, vol. 19, p. 399468, 2003. [GUE 04] G UESTRIN C., H AUSKRECHT M., K VETON B., Solving Factored MDPs with Continuous and Discrete Variables , Proceedings Proceedings of the Twentieth Annual Conference on Uncertainty in Articial Intelligence (UAI04), Banff, Canada, 2004.
[GY 02] G YRFI L., KOHLER M., K RZY ZAK A., WALK H., A Distribution-Free Theory of Nonparametric Regression, Springer-Verlag, 2002.
444
PDM en IA
[HAL 01] H ALPERN J., Conditional Plausibility Measures and Bayesian Networks , Journal of Articial Intelligence Research, vol. 14, p. 359389, 2001. [HAN 98a] H ANSEN E., Finite-Memory Control of Partially Observable Systems, PhD thesis, Dept. of Computer Science, University of Massachussets at Amherst, 1998. [HAN 98b] H ANSEN E., An Improved Policy Iteration Algorithm for Partially Observable MDPs , Advances in Neural Information Processing Systems 10 (NIPS), 1998. [HAN 98c] H ANSEN T., K HLE A., S ORENSEN A., B OHR J., L INDELOF P., A Technique for Positioning Nanoparticles using an Atomic Force Microscope , Nanotechnology, vol. 9, p. 337342, 1998. [HAN 01] H ANSEN E., Z ILBERSTEIN S., LAO* : A Heuristic Search Algorithm that Finds Solutions with Loops , Articial Intelligence, vol. 129, p. 3562, 2001. [HAN 04] H ANSEN E., B ERNSTEIN D., Z ILBERSTEIN S., Dynamic Programming for Partially Observable Stochastic Games , Proceedings of the Nineteenth National Conference on Articial Intelligence (AAAI04), p. 709715, 2004. [HAR 00] H ART S., M AS -C OLELL A., A Simple Adaptive Procedure Leading to Correlated Equilibrium , Econometrica, vol. 68, n5, p. 11271150, Blackwell Synergy, 2000. [HAS 01] H ASTIE T., T IBSHIRANI R., F RIEDMAN J., The Elements of Statistical Learning, Springer Series in Statistics, 2001. [HAU 95] H AUSSLER D., Sphere Packing Numbers for Subsets of the Boolean n-Cube with Bounded Vapnik-Chervonenkis Dimension , Journal of Combinatorial Theory Series A, vol. 69, p. 217232, 1995. [HAU 98] H AURIE A., K RAWCZYK J. B., An Introduction to Dynamic Games, Faculty of Economics and Social Sciences, University of Geneva, Geneva, Switzerland, 1998, Handouts. [HAU 00] H AUSKRECHT M., Value-Function Approximations for Partially Observable Markov Decision Processes , Journal of Articial Intelligence Research, vol. 13, p. 3394, 2000. [HEN 99] H ENRION M., P ROVAN G., D EL FAVEROL B., S ANDERS G., An Experimental Comparison of Numerical and Qualitative Probabilistic Reasoning , Proceedings of the Tenth Annual Conference on Uncertainty in Articial Intelligence (UAI94), Seattle, WA, Morgan Kaufmann, p. 319326, 1999. [HIS 78] H ISDAL E., Conditional PossibilitiesIndependence and Non-Interactivity , Fuzzy Sets and Systems, vol. 1, p. 283297, 1978. [HOE 99] H OEY J., S T-AUBIN R., H U A., B OUTILIER C., SPUDD : Stochastic Planning using Decision Diagrams , Proceedings of the Fifteenth Conference on Uncertainty in Articial Intelligence (UAI99), Morgan Kaufmann, p. 279288, 1999. [HOE 00] H OEY J., S T-AUBIN R., H U A., B OUTILIER C., Optimal and Approximate Stochastic Planning using Decision Diagrams, Rapport nTR-00-05, University of British Columbia, 2000.
Bibliographie
445
[HOF 66] H OFFMAN A., K ARP R., On Nonterminating Stochastic Games , Management Science, vol. 12, n5, p. 359370, JSTOR, 1966. [HU 03] H U J., W ELLMAN M., Nash Q-learning for General-Sum Stochastic Games , Journal of Machine Learning Research, vol. 4, p. 10391069, MIT Press, 2003. [JAA 94a] JAAKKOLA T., J ORDAN M. I., S INGH S. P., On the Convergence of Stochastic Iterative Dynamic Programming Algorithms , Neural Computation, vol. 6, p. 11851201, 1994. [JAA 94b] JAAKKOLA T., S INGH S., J ORDAN M., Reinforcement learning algorithm for partially observable Markov decision problems. , Advances in Neural Information Processing Systems 7 (NIPS94), Cambridge, MA, MIT Press, 1994. [JAL 89] JALALI A., F ERGUSON M., Computationally Efcient Adaptative Control Algorithms for Markov Chains , Proceedings of the IEEE Conference on Decision and Control (CDC89), vol. 28, p. 12831288, 1989. [JON 06] J ONSSON A., BARTO A., Causal Graph Based Decomposition of Factored MDPs , Journal of Machine Learning Research, vol. 7, p. 22592301, 2006. [JOZ 01] J OZEFOWIEZ J., Conditionnement oprant et Problmes dcisionnels de Markov, Thse de doctorat de lUniversit Lille III, Lille, 2001. [JUD 98] J UDD K., Numerical Methods in Economics, MIT Press, 1998. [JUN 02] J UNKER U., Preference-Based Search and Multi-Criteria Optimization , Proceedings of the Eighteenth National Conference on Articial Intelligence (AAAI02), p. 3440, 2002. [KAE 93] K AELBLING L. P., Learning in Embedded Systems, MIT Press, Cambridge, MA, USA, 1993. [KAE 96] K AELBLING L. P., L ITTMAN M. L., M OORE A. W., Reinforcement Learning : A Survey , Journal of Articial Intelligence Research, vol. 4, p. 237285, 1996. [KAE 98] K AELBLING L., L ITTMAN M., C ASSANDRA A., Planning and Acting in Partially Observable Stochastic Domains , Articial Intelligence, vol. 101, p. 99134, 1998. [KAK 02] K AKADE S., A Natural Policy Gradient , Advances in Neural Information Processing Systems 14 (NIPS02), 2002. [KAK 03] K AKADE S., On the Sample Complexity of Reinforcement Learning, PhD thesis, Gatsby Computationel Neuroscience Unit, University College London, 2003. [KEA 98] K EARNS M., S INGH S., Near-Optimal Reinforcement Learning in Polynomial Time , Machine Learning, vol. 49, 1998. [KEA 99] K EARNS M., KOLLER D., Efcient Reinforcement Learning in Factored MDPs , Proceedings of the Sixteenth International Joint Conference on Articial Intelligence (IJCAI99), 1999. [KEA 00] K EARNS M., M ANSOUR Y., S INGH S., Fast Planning in Stochastic Games , Proceedings of the Sixteenth Conference on Uncertainty in Articial Intelligence (UAI00), 2000.
446
PDM en IA
[KEA 02] K EARNS M., M ANSOUR Y., N G A. Y., A sparse Sampling Algorithm for NearOptimal Planning in large Markov Decision Processes , Machine Learning, vol. 49, p. 193 208, 2002. [KEE 76] K EENEY R., R AIFFA H., Decisions with Multiple Objectives : Preferences and Value Tradeoffs, J. Wiley, New York, 1976. [KIM 98] K IMURA H., KOBAYASHI S., Reinforcement Learning for Continuous Action using Stochastic Gradient Ascent , Proceedings of the Fifth International Conference on Intelligent Autonomous Systems (IAS98), p. 288295, 1998. [KIT 97] K ITANO H., A SADA M., K UNIYOSHI Y., N ODA I., O SAWA E., RoboCup : The Robot World Cup Initiative , Proceedings of the First International Conference on Autonomous Agents (Agents97), New York, NY, USA, ACM Press, p. 340347, 1997. [KLO 72] K LOPF H. A., Brain Function and Adaptive Systems, A Heterostatic Theory, Rapport nTechnical Report AFCRL-72-0164, Air Force Cambridge Research Laboratories, 1972. [KLO 75] K LOPF H. A., A Comparison of Natural and Articial Intelligence , SIGART newsletter, vol. 53, p. 1113, 1975. [KOE 96] KOENIG S., S IMMONS R. G., The Effect of Representation and Knowledge on Goal-Directed Exploration with Reinforcement-Learning Algorithms , Machine Learning, vol. 22, p. 227250, 1996. [KOL 94] KOLLER D., M EGIDDO N., VON S TENGEL B., Fast Algorithms for Finding Randomized Strategies in Game Trees , Proceedings of the 26th ACM Symposium on Theory of Computing (STOC 94), p. 750759, 1994. [KOL 99] KOLLER D., PARR R., Computing Factored Value Functions for Policies in Structured MDPs , Proceedings Sixteenth International Joint Conference on Articial Intelligence (IJCAI99), p. 13321339, 1999. [KOL 00] KOLLER D., PARR R., Policy Iteration for Factored MDPs , Proceedings of the Sixteenth Conference on Uncertainty in Articial Intelligence (UAI00), p. 326334, 2000. [KUS 97] K USHNER H., Y IN G., Stochastic Approximation Algorithms and Applications, Springer-Verlag, New York, 1997. [KUV 96] K UVAYEV L., S UTTON R. S., Model-Based Reinforcement Learning with an Approximate, Learned Model , Proceedings of the Ninth Yale Workshop on Adaptive and Learning Systems, New Haven, CT, Yale University Press, p. 101105, 1996. [LAG 03] L AGOUDAKIS M., PARR R., Least-Squares Policy Iteration , Journal of Machine Learning Research, vol. 4, p. 11071149, 2003. [LAU 02] L AURENT G., Synthse de comportements par apprentissages par renforcement parallles : application la commande dun micromanipulateur plan, Thse de doctorat, Universit de Franche-Comt, Besanon, France, 2002. [LIB 02] L IBERATORE P., The size of MDP factored policies , Proceedings of the Eighteenth National Conference on Articial Intelligence (AAAI02), p. 267272, 2002.
Bibliographie
447
[LIN 93] L IN L.-J., Scaling Up Reinforcement Learning for Robot Control , Proceedings of the Tenth International Conference on Machine Learning (ICML93), Amherst, MA, Morgan Kaufmann, p. 182-189, 1993. [LIN 06] L INKIE M., C HAPRON G., M ARTYR D. J., H OLDEN J., L EADER -W ILLIAMS N., Assessing the Viability of Tiger Subpopulations in a Fragmented Landscape , Journal of Applied Ecology, vol. 43, n3, p. 576586, 2006. [LIT 94] L ITTMAN M., Markov Games as a Framework for Multi-Agent Reinforcement Learning , Proceedings of the Eleventh International Conference on Machine Learning (ICML94), 1994. [LIT 95a] L ITTMAN M., C ASSANDRA A., K AELBLING L., Efcient Dynamic Programming Updates in Partially Observable Markov Decision Processes, Rapport nCS-95-19, Brown University, 1995. [LIT 95b] L ITTMAN M. L., C ASSANDRA A. R., K AELBLING L. P., Learning Policies for Partially Observable Environments : Scaling Up , Proceedings of the Twelfth International Conference on Machine Learning (ICML95), 1995. [LIT 95c] L ITTMAN M., D EAN T., K AELBLING L., On the Complexity of Solving Markov Decision Problems , Proceedings of the Eleventh Annual Conference on Uncertainty in Articial Intelligence (UAI95), Montreal, Qubec, Canada, 1995. [LIT 96] L ITTMAN M. L., Algorithms for Sequential Decision Making, PhD thesis, Computer Science Department, Brown University, 1996. [LIT 01] L ITTMAN M., S TONE P., Leading Best-Response Strategies in Repeated Games , Seventeenth Annual International Joint Conference on Articial Intelligence Workshop on Economic Agents, Models, and Mechanisms, 2001. [LIT 02] L ITTMAN M., S UTTON R., S INGH S., Predictive Representation of State , Advances in Neural Information Processing Systems 16 (NIPS02), 2002. [LIT 05] L ITTLE I., A BERDEEN D., T HIBAUX S., Prottle : A Probabilistic Temporal Planner , Proceedings of the Twentieth American National Conference on Articial Intelligence (AAAI05), 2005. [LIT 06] L ITTLE I., T HIBAUX S., Concurrent Probabilistic Planning in the Graphplan Framework , Proceedings of the Sixteenth International Conference on Automated Planning and Scheduling (ICAPS06), 2006. [LON 03] L ONG D., F OX M., Exploiting a Graphplan Framework in Temporal Planning , Proceedings of the Thirteenth International Conference on Automated Planning and Scheduling (ICAPS03), p. 5162, 2003. [LUC 03] L UCE R., Increasing Increment Generalizations Of Rank-Dependent Theories , Theory and Decision, vol. 55, n2, p. 87146, 2003. [MAC 03] M AC K AY D., Information Theory, Inference, and Learning Algorithms, Cambridge University Press, 2003. [MAH 96a] M AHADEVAN S., An Average-Reward Reinforcement Learning Algorithm for Computing Bias-Optimal Policies , Proceedings of the National Conference on Articial Intelligence (AAAI96), vol. 13, 1996.
448
PDM en IA
[MAH 96b] M AHADEVAN S., Average Reward Reinforcement Learning : Foundations, Algorithms and Empirical Results , Machine Learning, vol. 22, p. 159196, 1996. [MAH 97] M AHADEVAN S., M ARCHALLECK N., DAS T., G OSAVI A., Self-Improving Factory Simulation using Continuous-Time Average-Reward Reinforcement Learning , Proceedings of the Fourteenth International Conference on Machine Learning (ICML97), 1997. [MAL 88] M ALONE T.W., What is coordination theory , National Science Foundation Coordination Theory Workshop, 1988. [MAL 97] M ALLAT S., A Wavelet Tour of Signal Processing, Academic Press, 1997. [MAN 60] M ANNE A. S., Linear Programming and Sequential Decisions, Cowles Foundation for Research in Economics at Yale University, 1960. [MAR 75] M ARTIN D. A., Borel determinacy , Annals of Mathematics, vol. 102, p. 363 371, 1975. [MAR 07] DE M ARGERIE E., M OURET J.-B., D ONCIEUX S., M EYER J.-A., Articial Evolution of the Morphology and Kinematics in a Flapping-Wing Mini UAV , Bioinspir. Biomim., vol. 2, p. 6582, 2007. [MAT 62] M ATTHES K., Zut Theorie der Bedienungsprozesse , Transactions of the Third Prague Conference on Information Theory, Satatistical Decision Functions, Random Processes, Publishing House of the Czechoslovak Academy of Sciences, 1962. [MAU 04] M AUSAM, W ELD D., Solving Concurrent Markov Decision Processes , Proceedings of the Nineteenth National Conference on Articial Intelligence (AAAI04), 2004. [MAU 05] M AUSAM, W ELD D., Concurrent Probabilistic Temporal Planning , Proceedings of the Fifteenth International Conference on Planning and Scheduling (ICAPS05), 2005. [MAU 06] M AUSAM, W ELD D., Probabilistic Temporal Planning with Uncertain Durations , Proceedings of the Twenty-First National Conference on Articial Intelligence (AAAI06), 2006. [MAY 73] M AY R. M., Stability and complexity in model ecosystems, Monographs in population biology ; 6., Princeton University Press, Princeton, N.J., 1973, Robert M. May. Model ecosystems ill. ; 23 cm. [MCC 95] M C C ALLUM A., Reinforcement Learning with Selective Perception and Hidden State, PhD thesis, Dept. of Computer Science, University of Rochester, Rochester, NY, 1995. [MCD 08] M C D ONALD -M ADDEN E., C HADES I., M C C ARTHY M., L INKIE M., P OSSIN GHAM H., ? ? ? , Proceedings of the International Congress on Modelling and Simulation (MODSIM08), 2008. [MEU 96] M EULEAU N., Le dilemme entre exploration et exploitation dans lapprentissage par renforcement, Cemagref, Thse de doctorat de lUniversit de Caen, 1996. [MEU 99a] M EULEAU N., B OURGINE P., Exploration of Multi-State Environments : Local Measures and Back-Propagation of Uncertainty , Machine Learning, vol. 35, n2, p. 117 154, 1999.
Bibliographie
449
[MEU 99b] M EULEAU N., P ESHKIN L., K IM K.-E., K AELBLING L., Learning Finite-State Controllers for Partially Observable Environments , Proceedings of the Fifteenth Conference on Uncertainty in Articial Intelligence (UAI99), p. 427436, 1999. [MEU 01] M EULEAU N., P ESHKIN L., K IM K., Exploration in Gradient-Based Reinforcement Learning, Rapport nAI Memo 2001-003, MIT - AI lab, 2001. [MIC 61] M ICHIE D., Trial and Error , Science Survey, vol. 2, p. 129145, 1961. [MIC 68] M ICHIE D., C HAMBERS R., BOXES : An Experiment in Adaptive Control , Machine Intelligence, vol. 2, p. 137152, 1968. [MIN 77] M INOUX M., Generalized Path Algebra , Surveys of Mathematical Programming, Publishing House of the Hungarian Academy of Sciences, p. 359364, 1977. [MON 82] M ONAHAN G. E., A Survey of Partially Observable Markov Decison Processes : Theory, Models and Algorithms , Management Science, vol. 28, n1, p. 116, 1982. [MOO 93] M OORE A., ATKESON C., Prioritized Sweeping : Reinforcement Learning with Less Data and Less Real Time , Machine Learning, vol. 13, p. 103130, 1993. [MOU 04] M OUADDIB A. I., Multi-Objective Decision-Theoretic Path Planning , IEEE International Conference on Robotics and Automaton (ICRA04), 2004. [MUN 00] M UNDHENK M., G OLDSMITH J., L USENA C., A LLENDER E., Complexity of Finite-Horizon Markov Decision Process Problems , Journal of the ACM (JACM), vol. 47, n4, p. 681720, ACM Press New York, NY, USA, 2000. [MUN 03] M UNOS R., Error Bounds for Approximate Policy Iteration , Proceedings of the Nineteenth International Conference on Machine Learning (ICML03), 2003. [MUN 06] M UNOS R., Geometric Variance Reduction in Markov chains. Application to Value Function and Gradient Estimation , Journal of Machine Learning Research, vol. 7, p. 413427, 2006. [MUN 07a] M UNOS R., S ZEPESVRI C., Finite Time Bounds for Sampling Based Fitted Value Iteration , To appear in Journal of Machine Learning Research, 2007. [MUN 07b] M UNOS R., Performance Bounds in Lp norms for Approximate Value Iteration , SIAM Journal on Control and Optimization, vol. 46, 2007. [MYE 97] M YERSON R. B., Ed., Game Theory : Analysis of Conict, Harvard University Press, 1997. [NAI 03] NAIR R., TAMBE M., YOKOO M., M ARSELLA S., P YNADATH D.V., Taming Decentralized POMDPs : Towards Efcient Policy Computation for Multiagent Settings , Proceedings of the International Joint Conference on Articial Intelligence (IJCAI03), p. 705-711, 2003. [NAI 05] NAIR R., P RADEEP V., M ILIND T., M AKOTO Y., Networked Distributed POMDPs : A Synthesis of Distributed Constraint Optimization and POMDPs , Proceedings of the Twentieth National Conference on Articial Intelligence (AAAI05), 2005. [NAS 51] NASH J. F., Non-cooperative games , Annals of Mathematics, vol. 54, p. 286 295, 1951.
450
PDM en IA
[NDI 99] N DIAYE S., Apprentissage par renforcement en horizon ni : application la gnration de rgles pour la Conduite de Culture, Thse de doctorat de lUniversite Paul Sabatier, Toulouse, fvrier 1999. [NEU 28] VON N EUMANN J., Zur Theorie der Gesellschaftsspiele , Mathematische Annalen, vol. 100, n1928, p. 295320, 1928. [NIL 04] N ILIM A., G HAOUI L. E., Robustness in Markov Decision Problems with Uncertain Transition Matrices , Advances in Neural Information Processing Systems 16 (NIPS03), 2004. [NIL 05] N ILIM A., G HAOUI L. E., Robust Solutions to Markov Decision Problems with Uncertain Transition Matrices , Operation Research, vol. 53, n5, 2005. [ORM 02] O RMONEIT D., S EN S., Kernel-Based Reinforcement Learning , Machine Learning, vol. 49, p. 161178, 2002. [OSB 04] O SBORNE M. J., Ed., An Introduction to Game Theory, Oxford University Press, 2004. [PAP 87] PAPADIMITRIOU C. H., T SITSIKLIS J. N., The Complexity of Markov Decision Processes , Journal of Mathematics of Operations Research, vol. 12, n3, p. 441450, 1987. [PAP 95] PAPADIMITRIOU C. H., Algorithms, Games, and the Internet , Proceedings of the Annual ACM Symposium on Theory of Computing (STOC91), ACM Press, p. 749753, 1995. [PAR 02] PARSONS S., G MYTRASIEWICZ P., W OOLWRIDGE M., Eds., Game Theory and Decision Theory in Agent-Based Systems, Springer Verlag, 2002. [PEA 88] P EARL J., Probabilistic Reasoning in Intelligent Systems : Networks of Plausible Inference, Morgan Kaufmann, San Mateo, 1988. [PEN 92] P ENG J., W ILLIAMS R., Efcient Learning and Planning within the DYNA framework , M EYER J.-A., ROITBLAT H. L., W ILSON S. W., Eds., Proceedings of the Second International Conference on Simulation of Adaptive Behavior (SAB92), Cambridge, MA, MIT Press, p. 281290, 1992. [PEN 93] P ENG J., W ILLIAMS R. J., Efcient Learning and Planning within the Dyna Framework , Adaptive Behavior, vol. 1, n4, p. 437454, 1993. [PEN 94] P ENG J., W ILLIAMS R. J., Incremental Multi-Step Q-Learning , Proceedings of the International Conference on Machine Learning (ICML94), vol. 11, p. 226232, 1994. [PEN 96] P ENG J., W ILLIAMS R. J., Incremental Multi-Step Q-learning , Machine Learning, vol. 22, p. 283290, Elsevier, 1996. [PER 04] P ERET L., G ARCIA F., On-line Search for Solving MDPs via Heuristic Sampling , Proceedings of the European Conference on Articial Intelligence (ECAI04), 2004. [PER 05] P ERNY P., S PANJAARD O., W ENG P., Algebraic Markov Decision Processes , Proceedings of the International Joint Conference in Articial Intelligence, vol. 19, p. 13721377, 2005.
Bibliographie
451
[PES 88] P ESHKIN M., S ANDERSON A., The Motion of a Pushed, Sliding Workpiece , IEEE Journal on Robotics and Automation, vol. 4, n6, p. 569598, 1988. [PES 00] P ESHKIN L., K IM K., M EULEAU N., K AELBLING L., Learning to Cooperate via Policy Search , Proceedings of the Sixteenth Conference on Uncertainty in Articial Intelligence (UAI00), p. 489496, 2000. [PET 03] P ETERS J., V IJAYAKUMAR S., S CHAAL S., Policy Gradient Methods for Robot Control, Rapport nCS-03-787, University of Southern California, 2003. [PET 05] P ETERS J., V IJAYAKUMAR S., S CHAAL S., Natural Actor-Critic , G AMA J., C AMACHO R., B RAZDIL P., J ORGE A., T ORGO L., Eds., Proceedings of the Sixteenth European Conference on Machine Learning (ECML05), vol. 3720 de Lecture Notes in Computer Science, Springer-Verlag, October 2005. [PIN 03] P INEAU J., G ORDON G., T HRUN S., Point-based value iteration : An anytime algorithm for POMDPs , Proceedings of the International Joint Conference on Articial Intelligence (IJCAI03), p. 10251032, 2003. [POL 69] P OLLATSCHEK M., AVI -I TZHAK B., Algorithms for Stochastic Games with Geometrical Interpretation , Management Science, vol. 15, n7, p. 399415, JSTOR, 1969. [POL 84] P OLLARD D., Convergence of Stochastic Processes, Springer Verlag, New York, 1984. [PON 62] P ONTRYAGIN L., B OLTYANSKII V., G AMKRILEDZE R., M ISCHENKO E., The Mathematical Theory of Optimal Processes, Interscience, New York, 1962. [POO 97] P OOLE D., The Independent Choice Logic for Modelling Multiple Agents under Uncertainty , Articial Intelligence, vol. 94, n1-2, p. 756, 1997. [POS 01] P OSSINGHAM H. P., A NDELMAN S. J., N OON B. R., S. T., P ULLIAM H. R., Making Smart Conservation Decisions , S OULE M. E., O RIANS G. H., Eds., Conservation Biology : Research Priorities for the Next Decade, Island Press, Washington, 2001. [POW 05a] P OWERS R., S HOHAM Y., Learning Against Opponents with Bounded Memory , Proceedings of the Nineteenth International Joint Conference on Articial Intelligence (IJCAI05), 2005. [POW 05b] P OWERS R., S HOHAM Y., New Criteria and a New Algorithm for Learning in Multi-Agent Systems , S AUL L. K., W EISS Y., B OTTOU L., Eds., Advances in Neural Information Processing Systems 17 (NIPS05), MIT Press, 2005. [PRA 06] P RALET C., V ERFAILLIE G., S CHIEX T., Decision with Uncertainties, Feasibilities and Utilities : Towards a Unied Algebraic Framework , Proceedings of the European Conference on Articial Intelligence (ECAI06), p. 427431, 2006. [PUT 94] P UTERMAN M., Markov Decision Processes : Discrete Stochastic Dynamic Programming, John Wiley & Sons, Inc., New York, USA, 1994. [PYN 02] P YNADATH D. V., TAMBE M., The Communicative Multiagent Team Decision Problem : Analyzing Teamwork Theories and Models , Journal of Articial Intelligence Research, vol. 16, p. 389423, 2002.
452
PDM en IA
[QUI 93] Q UINLAN J. R., C4.5 : Programs for Machine Learning, Morgan Kaufmann, San Mateo, 1993. [RAS 04] R ASMUSSEN C., K USS M., Gaussian Processes in Reinforcement Learning , T HRUN S., S AUL L., S CHLKOPF B., Eds., Advances in Neural Information Processing Systems 16 (NIPS04), MIT Press, p. 751759, 2004. [REE 77] R EETZ D., Approximate Solutions of a Discounted Markovian Decision Problem , Bonner Mathematischer Schriften, vol. 98 : Dynamische Optimierungen, p. 7792, 1977. [RES 72] R ESCORLA R. A., WAGNER A. R., A Theory of Pavlovian Conditioning : Variations in the Effectiveness of Reinforcement and Nonreinforcement , B LACK A. H., P ROKAZY W. F., Eds., Classical Conditioning II, p. 6499, Appleton Century Croft, New York, NY, 1972. [RES 00] R ESCH R., L EWIS D., M ELTZER S., M ONTOYA N., KOEL B., M ADHUKAR A., R EQUICHA A., W ILL P., Manipulation of Gold Nanoparticles in Liquid Environnements using Scanning Force Microscopy , Ultramicroscopy, vol. 82, p. 135139, 2000. [RIV 87] R IVEST R. L., Learning Decision Lists , Machine Learning, vol. 2, p. 229246, 1987. [RUM 94] RUMMERY G. A., N IRANJAN M., On-Line Q-learning using Connectionist Systems, Rapport, Cambridge University Engineering Department, Cambridge, England, 1994. [RUS 96] RUST J., Numerical Dynamic Programming in Economics , A MMAN H., K EN DRICK D., RUST J., Eds., Handbook of Computational Economics, Elsevier, North Holland, 1996. [RUS 03] RUSSEL S., N ORVIG P., Eds., Articial Intelligence : A Modern Approach, Prentice Hall Series, 2003. [SAB 98] S ABBADIN R., Une approche ordinale de la dcision dans lincertain : axiomatisation, reprsentation logique et application la dcision squentielle, PhD thesis, Universit Paul Sabatier de Toulouse, 1998. [SAB 99] S ABBADIN R., A Possibilistic Model for Qualitative Sequential Decision Problems under Uncertainty in Partially Observable Environments , L ASKEY K., P RADE H., Eds., Proceedings of the Fifteenth Conference Uncertainty in Articial Intelligence (UAI99), Stockholm, Sweden, Morgan Kaufmann, p. 567574, Jul. 30-Aug. 1 1999. [SAB 01a] S ABBADIN R., Possibilistic Markov Decision Processes , Engineering Applications of Articial Intelligence, vol. 14, p. 287300, Elsevier, 2001. [SAB 01b] S ABBADIN R., Towards Possibilistic Reinforcement Learning Algorithms , Proceedings of the Tenth IEEE International Conference on Fuzzy Systems (FUZZ-IEEE01), vol. 1, Melbourne, p. 404407, 2-5 Dcembre 2001. [SAM 59] S AMUEL A., Some Studies in Machine Learning using the Game of Checkers , IBM Journal of Research Development, vol. 3, n3, p. 210229, 1959. [SAM 67] S AMUEL A., Some Studies in Machine Learning using the Game of Checkers, II Recent Progress , IBM Journal on Research and Development, vol. 11, n6, p. 601617, 1967.
Bibliographie
453
[SAV 54] S AVAGE L. J., The Foundations of Statistics, J. Wiley and Sons, New York, 1954. [SCH 85] S CHWEITZER P., S EIDMANN A., Generalized Polynomial Approximations in Markovian Decision Processes , Journal of Mathematical Analysis and Applications, vol. 110, p. 568582, 1985. [SCH 93] S CHWARTZ A., A Reinforcement Learning Method for Maximizing Undiscounted Rewards , Proceedings of the Tenth International Conference on Machine Learning (ICML93), 1993. [SCH 94] S CHOENAUER M., RONALD E., Neuro-Genetic Truck Backer-Upper Controller , Proceedings of the First International Conference on Evolutionary Computation (ICEC94), June 1994. [SCH 01] S CHOLKOPF B., S MOLA A. J., Learning with Kernels : Support Vector Machines, Regularization, Optimization and Beyond, MIT Press, 2001. [SCH 02a] S CHERRER B., C HARPILLET F., Cooperative Co-Learning : A Model-Based Approach for Solving Multi Agent Reinforcement Problems , Proceedings of the International Conference on Tools with Articial Intelligence (ICTAI02), 2002. [SCH 02b] S CHOKNECHT R., Optimality of Reinforcement Learning Algorithms with Linear Function Approximation , Advances in Neural Information Processing Systems (NIPS02), 2002. [SCH 05a] S CHAEFFER S., C LEMENT B., C HIEN S., Probabilistic Reasoning for Plan Robustness , Proceedings of the Nineteenth International Joint Conference on Articial Intelligence (IJCAI05), 2005. [SCH 05b] S CHRAUDOLPH N., Y U J., A BERDEEN D., Fast Online Policy-Gradient Learning With SMD Gain Vector Adaptation , Advances in Neural Information Processing Systems 19 (NIPS05), 2005. [SER 06] S ERAFINI P., Dynamic Programming and Minimum Risk Paths , European Journal of Operational Research, vol. 175, p. 224237, 2006. [SEU 05] S EUKEN S., Z ILBERSTEIN S., Formal Models and Algorithms for Decentralized Control of Multiple Agents, Rapport, Computer Science Department, University of Massachusetts, Amherst, 2005. [SEU 07] S EUKEN S., Z ILBERSTEIN S., Memory-Bounded Dynamic Programming for DEC-POMDPs , Proceedings of the Twentieth International Joint Conference on Articial Intelligence (IJCAI07), 2007. [SHA 53] S HAPLEY L.S.., Stochastic Games , Proceedings of the National Academy of Sciences of the United States of America (PNAS), vol. 39, p. 10951100, 1953. [SHA 76] S HAFER G., A Mathematical Theory of Evidence, Princeton University Press, 1976. [SHE 01] S HELTON C., Importance Sampling for Reinforcement Learning with Multiple Objectives, Rapport nAI Memo 2001-003, MIT AI Lab, 2001. [SHO 04] S HOHAM Y., P OWERS R., G RENAGER T., Multi-Agent Reinforcement Learning : a Critical Survey , Proceedings of the AAAI Fall Symposium on Articial Multi-Agent Learning, 2004.
454
PDM en IA
[SIG 04] S IGAUD O., Comportements adaptatifs pour les agents dans des environnements informatiques complexes, Mmoire dHabilitation Diriger des Recherches de lUniversit PARIS VI, 2004. [SIN 94a] S INGH S., JAAKKOLA T., J ORDAN M., Learning without State Estimation in Partially Observable Markovian Decision Processes , Proceedings of the Eleventh International Conference on Machine Learning (ICML94), 1994. [SIN 94b] S INGH S., K EARNS M., M ANSOUR Y., Nash Convergence of Gradient Dynamics in General-Sum Games , Proceedings of the Sixteenth Conference on Uncertainty in Articial Intelligence (UAI94), San Francisco, CA, Morgan Kaufman, p. 541548, 1994. [SIN 96] S INGH S. P., S UTTON R. S., Reinforcement Learning with Replacing Eligibility Traces , Machine Learning, vol. 22, n1, p. 123158, 1996. [SIN 97] S INGH S., B ERTSEKAS D., Reinforcement Learning for Dynamic Channel Allocation in Cellular Telephone Systems , Advances in Neural Information Processing Systems 9 (NIPS97), 1997. [SIN 00] S INGH S. P., JAAKKOLA T., L ITTMAN M. L., S ZEPESVARI C., Convergence Results for Single-Step On-Policy Reinforcement Learning Algorithms , Machine Learning, vol. 38, n3, p. 287308, 2000. [SIN 03] S INGH S., L ITTMAN M., J ONG N., PARDOE D., S TONE P., Learning Predictive State Representations , Proceedings of the Twentieth International Conference of Machine Learning (ICML03), 2003. [SLA 01] S LANEY J., T HIBAUX S., Blocks World Revisited , Articial Intelligence, vol. 125, p. 119153, 2001. [SMA 73] S MALLWOOD R. D., S ONDIK E. J., The Optimal Control of Partially Observable Markov Processes over a Finite Horizon , Operations Research, vol. 21, p. 10711088, 1973. [SMI 02] S MITH J. M., Ed., Evolution and the Theory of Games, Cambridge University Press, 2002. [SON 71] S ONDIK E., The Optimal Control of Partially Observable Markov Decision Processes, PhD thesis, Stanford University, California, 1971. [SON 78] S ONDIK E., The Optimal Control of Partially Observable Markov Processes over the Innite Horizon : Discounted Costs , Operations Research, vol. 26, n2, p. 282304, 1978. [SPA 05] S PAAN M., V LASSIS N., Perseus : Randomized Point-based Value Iteration for POMDPs , Journal of Articial Intelligence Research, vol. 24, p. 195220, 2005. [STA 00] S T-AUBIN R., H OEY J., B OUTILIER C., APRICODD : Approximate Policy Construction Using Decision Diagrams , Advances in Neural Information Processing Systems 13 (NIPS00), p. 10891095, 2000. [STO 00] S TONE P., V ELOSO M., Multiagent Systems : A Survey from a Machine Learning Perspective , Autonomous Robots, vol. 8, n3, p. 345383, Springer, 2000.
Bibliographie
455
[STR 07] S TREHL A., D IUK C., L ITTMAN M. L., Efcient Structure Learning in Factoredstate MDPs , Proceedings of the Twenty-Second National Conference on Articial Intelligence (AAAI07), 2007. [SUT 81] S UTTON R., BARTO A., Toward a Modern Theory of Adaptive Network : Expectation and Prediction , Psychological Review, vol. 88, n2, p. 135170, 1981. [SUT 88] S UTTON R., Learning to Predict by the Method of Temporal Differences , Machine Learning, vol. 3, n1, p. 944, 1988. [SUT 90a] S UTTON R. S., Integrated Architectures for Learning, Planning and Reacting Based on Approximating Dynamic Programming , Proceedings of the Seventh International Conference on Machine Learning (ICML90), p. 216224, 1990. [SUT 90b] S UTTON R. S., Planning by Incremental Dynamic Programming , Proceedings of the Eighth International Conference on Machine Learning (ICML91), San Mateo, CA, Morgan Kaufmann, p. 353-357, 1990. [SUT 90c] S UTTON R., Integrating Architectures for Learning, Planning, and Reacting Based on Approximating Dynamic Programming , Proceedings of the Seventh International Conference on Machine Learning (ICML90), San Mateo, CA, Morgan Kaufmann, p. 216 224, 1990. [SUT 98] S UTTON R. S., BARTO A. G., Reinforcement Learning : An Introduction, Bradford Book, MIT Press, Cambridge, MA, 1998. [SUT 00] S UTTON R., M C A LLESTER D., S INGH S., M ANSOUR Y., Policy Gradient Methods for Reinforcement Learning with Function Approximation , Advances in Neural Information Processing Systems 12 (NIPS99), MIT Press, p. 10571063, 2000. [SZE 05] S ZER D., C HARPILLET F., Z ILBERSTEIN S., MAA* : A Heuristic Search Algorithm for Solving Decentralized POMDPs , Proceedings of the 21st Conference on Uncertainty in Articial Intelligence (UAI05), 2005. [SZI 06] S ZITA I., L RINCZ A., Learning Tetris Using the Noisy Cross-Entropy Method , Neural Computation, vol. 18, p. 29362941, 2006. [TEI 05a] T EICHTEIL -KNIGSBUCH F., Approche Symbolique et Heuristique de la Planication en Environnement Incertain, PhD thesis, cole Nationale Suprieure de lAronautique et de lEspace, 2005. [TEI 05b] T EICHTEIL -KNIGSBUCH F., FABIANI P., Symbolic Heuristic Policy Iteration Algorithms for Structured Decision-theoretic Exploration Problems , ICAPS International Workshop on Planning under Uncertainty for Autonomous Systems, 2005. [TEI 05c] T EICHTEIL -KONIGSBUSCH F., Stratgie dexploration pour un aronef autonome, PhD thesis, Ecole Nationale Suprieure dAronautique et de lEspace, 2005. [TES 95] T ESAURO G., Temporal Difference Learning and TD-Gammon , Communication of the ACM, vol. 38, p. 5868, 1995. [TES 04] T ESAURO G., Extending Q-Learning to General Adaptive Multi-Agent Systems , T HRUN S., S AUL L., S CHOLKOPF B., Eds., Advances in Neural Information Processing Systems 16 (NIPS04), Cambridge, MA, MIT Press, 2004.
456
PDM en IA
[THI 04] T HISSE J.-F., Thorie des jeux : une introduction, Universit catholique de Louvain, Dpartement des sciences conomiques, 2004, Notes de cours. [THR 92] T HRUN S., The Role of Exploration in Learning Control , W HITE D., S OFGE D., Eds., Handbook for Intelligent Control : Neural, Fuzzy and Adaptive Approaches, Van Nostrand Reinhold, Florence, Kentucky 41022, 1992. [TSI 96a] T SITSIKLIS J. N., VAN ROY B., Feature-Based Methods for Large Scale Dynamic Programming , Machine Learning, vol. 22, p. 5994, 1996. [TSI 96b] T SITSIKLIS J., ROY B. V., An Analysis of Temporal Difference Learning with Function Approximation, Rapport nLIDS-P-2322, MIT, 1996. [UCH 04] U CHIBE E., D OYA K., Competitive-Cooperative-Concurrent Reinforcement Learning with Importance Sampling , From Animals to Animats 8 : Proceedings of the Eighth International Conference on Simulation of Adaptive Behavior (SAB04), p. 287296, 2004. [UTH 03] U THER W., V ELOSO M., Adversarial reinforcement learning, Rapport nCMUCS-03-107, School of Computer Science, Carnegie Mellon University, 2003. [VAL 84] VALIANT L. G., A Theory of the Learnable , Communications of the ACM, vol. 27, n11, p. 11341142, November 1984. [VAP 97] VAPNIK V., G OLOWICH S. E., S MOLA A., Support Vector Method for Function Approximation, Regression Estimation and Signal Processing , Advances in Neural Information Processing Systems (NIPS97), p. 281287, 1997. [VAP 98] VAPNIK V., Statistical Learning Theory, John Wiley & Sons, New York, 1998. [VER 07] V ERFAILLIE G., L EMATRE M., A Generic Modular Architectural Framework for the Closed-Loop Control of a System , Proceedings of the 2nd National Workshop on Control Architectures of Robots, p. 1931, 2007. [VIN 89] V INCKE P., Laide multicritre la dcision, Statistique et mathmatiques appliques, Edition de luniversit de bruxelles, edition ellipses dition, 1989. [VRI 87] V RIEZE O., Stochastic Games with Finite State and Action Spaces, Centrum voor wiskunde en informatica, 1987. [WAN 99] WANG X., D IETTERICH T., Efcient Value Function Approximation Using Regression Trees , Proceedings of the IJCAI Workshop on Statistical Machine Learning for Large-Scale Optimization, Stockholm, Sweden, 1999. [WAS 96] WASHINGTON R., Incremental Markov-Model Planning , Proceedings of the Eighth International Conference on Tools with Articial Intelligence (ICTAI96), 1996. [WAT 89] WATKINS C., Learning from Delayed Rewards, PhD thesis, Cambridge University, Cambridge, UK, 1989. [WAT 92] WATKINS C., DAYAN P., Q-learning , Machine Learning, vol. 8, n3, p. 279292, Elsevier, 1992. [WAT 00] WATSON J. C., The Effects of Sea Otters (Enhydra Lutris) on Abalone (Haliotis spp.) Populations , C AMPBELL A., Ed., Workshop on Rebuilding Abalone Stocks in British Columbia, vol. 130, Can. Spec. Publ. Fish. Aquat. Sci., p. 123132, 2000.
Bibliographie
457
[WEN 06a] W ENG P., Axiomatic Foundations for a Class of Generalized Expected Utility : Algebraic Expected Utility , Proceedings of the International Conference on Uncertainty in Articial Intelligence (UAI06), p. 520527, 2006. [WEN 06b] W ENG P., Modles qualitatifs et approches algbriques pour la dcision dans lincertain : fondements axiomatiques et application la dcision squentielle, PhD thesis, Universit Paris VI, Dcembre 2006. [WHI 91] W HITE C. C., Partially Observed Markov Decision Processes : A Survey , Annals of Operational Research, vol. 32, 1991. [WIL 87] W ILLIAMS R., A Class of Gradient-Estimating Algorithms for Reinforcement Learning in Neural Networks , Proceedings of the First International Conference on Neural Networks (ICNN87), 1987. [WIL 92] W ILLIAMS R., Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning , Machine Learning, vol. 8, n3, p. 229256, Kluwer Academic Publishers, 1992. [WIL 93] W ILLIAMS R. J., BAIRD III L. C., Tight Performance Bounds on Greedy Policies Based on Imperfect Value Functions, Rapport nNU-CCS-93-14, Northeastern University, College of Computer Science, Boston, MA, November 1993. [WIL 06] W ILSON K. A., M C B RIDE M. F., B ODE M., P OSSINGHAM H. P., Prioritizing Global Conservation Efforts , Nature, vol. 440, n7082, p. 337340, 2006. [WIT 77] W ITTEN I. H., An Adaptive Optimal Controller for Discrete-Time Markov Environments , Information and Control, vol. 34, p. 286295, 1977. [XUA 01] X UAN P., L ESSER V., Z ILBERSTEIN S., Communication Decisions in MultiAgent Cooperation : Model and Experiments , Proceedings of the Fifth International Conference on Autonomous Agents (Agents01), Montreal, p. 616623, 2001. [YIL 03] Y ILDIZOGLU M., Ed., Introduction la thorie des jeux, Dunod, Paris, 2003. [YOU 93] YOUNG H., The Evolution of Conventions , Econometrica, vol. 61, n1, p. 57 84, 1993. [YOU 98] YOUNG H., Individual Strategy and Social Structure : An Evolutionary Theory of Institutions, Princeton University Press, Princeton, New Jersey, 1998. [YOU 03a] YOUNES H., Extending PDDL to Model Stochastic Decision Processes , Proceedings of the ICAPS-03 Workshop on PDDL, 2003. [YOU 03b] YOUNES H., S IMMONS R., A Framework for Planning in Continuous-time Stochastic Domains , Proceedings of the Thirteenth International Conference on Automated Planning and Scheduling (ICAPS03), 2003. [YOU 04a] YOUNES H. L. S., S IMMONS R. G., Solving Generalized Semi-Markov Decision Processes Using Continuous Phase-Type Distributions. , Proceedings of the Nineteenth National Conference on Articial Intelligence (AAAI04), 2004. [YOU 04b] YOUNES H., L ITTMAN M. L., PPDDL1.0 : An Extension to PDDL for Expressing Planning Domains with Probabilistic Effects, Rapport nCMU-CS-04-167, Carnegie Mellon University, October 2004.
458
PDM en IA
[ZAN 96] Z ANG N., L IO W., Planning in Stochastic Domains : Problem Characteristics and Approximation, Rapport nHKUST-CS96-31, Honk-Kong University of Science and Technology, 1996. [ZES 98] Z ESCH W., S.F EARING R., Alignment of Microparts Using Force Controlled Pushing , Proceedings of the SPIE Conference on Microrobotics and Micromanipulation, vol. 3519, Boston, Massachusetts, p. 148156, november 1998. [ZHA 95] Z HANG W., D IETTERICH T., A Reinforcement Learning Approach to Job-Shop Scheduling , Proceedings of the Fourteenth International Joint Conference on Articial Intelligence (IJCAI95), 1995. [ZHA 99] Z HANG T., P OOLE D., On the Role of Context-specic Independence in Probabilistic Reasoning , Proceedings of the Sixteenth International Joint Conference on Articial Intelligence (IJCAI99), Stockholm, p. 12881293, 1999. [ZIL 02] Z ILBERSTEIN S., WASHINGTON R., B ERSTEIN D., M OUADDIB A., DecisionTheoretic Control of Planetary Rovers , LNAI, vol. 2466, n1, p. 270289, 2002. [ZIN 03] Z INKEVICH M., Online Convex Programming and Generalized Innitesimal Gradient Ascent , Proceedings of the Twentieth International Conference on Machine Learning (ICML03), 2003. [Zyv 06] Z YVEX C OMPANY, http ://www.zyvex.com. S100 Nanomanipulator System Datasheet , 2006,
Index
A abalone 222 acteur-critique 53, 370 action 86 action 17 adapt(e) 95 fonction de valeur 97 politique 96 Q-learning 100 agent -joueur 128 agent 17 algorithme ADL 158 de Shapley 146 du jeu adaptatif 151 du jeu ctif 149 lagage itratif 120 GIGA 160 Hyper-Q 158 IGA 151 iterative pruning 120 JALs 151 Minimax-Q 148 Nash-Q 148 PHC 153 PHC-Exploiter 158 Q-learning adapt 100 W ITNESS 117, 118 WoLF 154 apprentissage supervis 333 51 apprentissage par renforcement (application) 221
possibiliste 184 approximation de fonctions 329 arbre de dcision 284 arcs synchrones 279 B balayage prioritaire 80 belief state 90 bias optimality 40 biodiversit 215 bonus dexploration 57 C capacit dapproximation 330 chane de Markov 27 de Markov value 27 ergodique 366 coalition 129 co-volution 264 C o MDP 415 compromis biais-variance 317, 355, 368 critre de performance 22 ni 22 -pondr 22 moyen 22 total 22 critre de performance moyen adapt 100 D dcomposition additive 282 Dec-POMDP-COM 267
460
PDM en IA
diagramme de dcision algbrique 290 diagramme dinuence 19 possibiliste 187 dilemme du prisonnier 133 dimension de VC 352 distribution de probabilit conditionnelle 280 DP-JESP 265 E chantillonnage heuristique 82 chantillonnage selon limportance 378 ED-Dec-MDP 250 environnement stochastique 17 quation de Bellman POMDP 94 quations de Bellman algbrique 192, 193 possibilistes 180 quilibre 133 de Nash 134, 144 en stratgies dominantes 134 en stratgies mixtes 137 erreur empirique 334 en apprentissage 352 en gnralisation 352 tat 87 de croyance 90 dinformation 88 dinformation complet 89 prdictif 126 tat 17 exclusion mutuelle 413 extensibilit 155 F facteur dactualisation 24 Factored Policy Gradient (FPG) 426 feature 333 fonction de rcompense localise 282 fonction de valeur 23, 93 adapte 97 -optimale 102 linaire par morceau 103 POMDP 93 relative 37 vecteur reprsentatif 106
GH gain escompt 141 gain espr 136 gloutonne (politique) 331 gradient ascent innitesimal 151 naturel 376 gradient 358 graphe de planication 421 heuristique 267 historique du jeu 138 horizon ni 19, 102 inni 19, 102 IJK Induction arrire algbrique 193 itrations sur les politiques 123 POMDP 123 itrations sur les politiques avec approximation 338 itrations sur les valeurs 332 avec approximation 332 itration sur les politiques possibiliste 183 itration sur les valeurs possibiliste 180 Iterative Pruning 120 JESP 265 jeu 128 coopratif 129 de pile ou face 135 du dilemme du prisonnier 140 dynamique 133, 137 efcace 158 en forme extensive 129 en forme stratgique 129, 130 en information parfaite 138 ni 130 non-coopratif 129 rpt 138, 140 statique 133 stochastique 143 L loutre 221 M machines vecteurs de support 335
Index
461
matrice de dviation 38 limite 37 stochastique 19 mesure de plausibilit 189 dcomposable 189 utilit espre gnralise 189 mesure invariante 37 mthodes noyaux 335 mthodes de rsolution approche 330 exacte 329 minimax 131 MMDP 265 modle gnratif 347 moindres carrs (mthode) 344 mutex 413 NO Natural Actor-Critic 376 niveaux de scurit 131 nombre de couverture 352 norme Lp 351 max 29 quadratique 334 semi-norme span 46 observabilit 236 observation 87 OLpomdp 369 oprateur dapproximation 333 de Bellman 331 opration 411 P Pareto dominance au sens de 137 optimum de 137 Pareto-dominance algbrique 192 plan conditionnel 92 plan 414 planication 17 planning graph 421 plus court chemin 17 point selle 133 politique 18, 92, 130 adapte 96 arbre de 92 automate tats ni 93 cyclique 93
daction 20 optimale 23 paramtre 360 POMDP 85, 86 transitoire 92 pomdp application 216 Incremental Pruning 217 multi-agent 220 possibilit distribution 175 126 prioritized sweeping possibiliste 184 probablement approximativement correct 315, 354 problme dcisionnel de Markov 17 problme de planication doprations 411 processus markovien 27 markovien valu 27 rgnratif 367 stationnaire 20 stochastique contrl 18 17, 190 processus dcisionnel de Markov algbrique 187 multicritre 191, 194 multicritre possibiliste 194 partiellement observable 86 partiellement observable possibiliste 185 possibiliste 175, 191, 195 possibiliste (itration sur les politiques) 183 possibiliste (itration sur les valeurs) 180 qualitatif 191 robuste 172 subjectif 266 processus dcisionnels de Markov factoriss 275 programmation linaire 41 neurodynamique 53 programmation dynamique 31 avec approximation 329 POMDP 102 possibiliste 178 proie-predateur 221 Prottle 423 PSR 126
462
PDM en IA
Q QH-learning 226 Q-learning adapt 100 Q-learning 66 R rcompense 18 rgression 333 regret 159 algorithme GIGA 160 no-regret 159 relaxation 420 rseaux baysiens 279 dynamiques 279 rseaux de neurones 335 revenu 18 RH-learning 226 richesse dapproximation 330 S scalability 155 scope 282 semi-anneau idempotent 188 prordre canonique 188 semi-anneau 188
statistiques exhaustives 89 statistiques sufsantes 89 stratgie 129 de la meilleure rponse 135 grim trigger 140 markovienne 145 mixte 130, 141 pure 130 stationnaire 145 TU W ITNESS 117, 118 thorie de lapproximation 335 thorie des jeux 127 trace dligibilit 68 utilit espre gnralise 189 qualitative binaire possibiliste 195 qualitative optimiste 177, 191, 194 qualitative pessimiste 177, 191, 194 V variance 312 vecteur domin 106, 113 fonction de valeur 106 utile 106 voisinage 117

Bouquin PD Mia

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Bouquin PD Mia

Încărcat de

Drepturi de autor:

Formate disponibile

Processus Dcisionnels de Markov en Intelligence Articielle

Groupe PDMIA 27 fvrier 2008

Table des matires

Table des matires

107 107 110 117 120 123 125

8.1. Introduction gnrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

Table des matires

310 312 314 315 317 320 325 327

Table des matires

Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459

Processus Dcisionnels de Markov

Chapitre rdig par Frdrick G ARCIA. 1. Pour Markov Decision Problem

Processus Dcisionnels de Markov

Figure 1.1. Processus dcisionnel de Markov.

Figure 1.2. Relations entre les diffrentes familles de politiques

Processus Dcisionnels de Markov

2. discount factor en anglais

Processus Dcisionnels de Markov

D FINITION 1.4. Fonction de valeur pour le critre total

P (st1 = i, at1 = a | s0 = x)p(s | i, a) P (st1 = i, at1 = a | s0 = x)p(s | i, a)

Processus Dcisionnels de Markov

r(s, a)P (st = s, at = a | s0 = x).

(a, s)p(s | s, a).

sajouter celles quil a dj perues. On a ainsi :

et V1 (s) = max rN 1 (s, a)

et V2 (s) = max{rN 2 (s, a) +

pN 2 (s |s, a)V1 (s )}.

Processus Dcisionnels de Markov

q (a, s )P (st = s | s0 = s)r(s , a)

Processus Dcisionnels de Markov

soit en notation vectorielle V V LV = max (r + P V )

P REUVE. Montrons que V et pour 0 1 LV = max (r + P V ) = max (r + P V )

(a, s) max r(s, a ) +

(a, s)LV (s)

Ainsi, pour tout DA r + P V max (r + P V )

Soit = (0 , 1 , . . .) M A . Pour tout t, t DA , do V r0 + P0 V r0 + P0 (r1 + P1 V )

V V 0 Cela tant vrai pour toute politique M A , on a donc V max V = max V = V

Processus Dcisionnels de Markov

p(s | s, a s )(V (s ) U (s )) p(s | s, a s)

LV LU = max | LV (s) LU (s) |

Processus Dcisionnels de Markov

On appelle alors respectivement V + et V lensemble des fonctions positives et ngatives de V

V (s) = V+ (s) V (s).

N 4) si argmaxD (r + P V ) et si limN P V (s) = 0 pour tout s S , alors est optimale.

Processus Dcisionnels de Markov

Sous forme matricielle, on a ainsi = lim 1 N N

D FINITION 1.10. Fonction de valeur relative pour le critre moyen

En termes vectoriels, on a ainsi

1 On note HP = (I P + P ) (I P ) la matrice de dviation de P , qui est donc telle que U = H P r .

Processus Dcisionnels de Markov

U (s) + (s) = max avec Bs = On a alors = . aA|

p(s | s, a)(s ) = (s)

Processus Dcisionnels de Markov

avec V (s) r(s, a) +

pour s S faire (s) argmaxaA {r(s, a) + retourner V ,

p(s |s, a)V (s )}

On montre alors que

(voir chapitre 11).

Processus Dcisionnels de Markov

p(sj | s, a)Vn+1 (sj ) +

p(sj | s, a)Vn (sj )

p(s |s, a)Vn (s )}

vrie V V avec V = V = . P REUVE. On a r+ + P+ V = max{r + P V }