Sunteți pe pagina 1din 28

Chapitre III :

Les problmes inverses

Le formalisme et les mthodes des problmes inverses ont largement t dvelopps par les gophysiciens de la Terre interne. Pour eux, il est impossible de faire des mesures directes de lintrieur de la Terre. Les informations quils obtiennent sont donc toujours indirectes, par lintermdiaire de phnomnes physiques. Par exemple, pour mesurer la densit lintrieur de la Terre (ou tout du moins dans la crote terrestre), ils nont accs quau champ de gravit que lon peut mesurer en surface ou dans lespace. Le but est alors de retrouver la densit de lintrieur de la Terre qui induit le champ de gravit en surface. Dans notre contexte paloclimatique, outre lapplication la datation qui est un peu particulire, citons lexemple de la reconstruction des variations passes de temprature de surface partir des mesures de temprature dans le trou de forage. Le sens physique consiste calculer, laide dun modle de diffusion/convection de la chaleur dans la glace et partir dun scnario de temprature de surface, la temprature qui en rsulte dans le trou de forage. La dduction que nous voulons faire est donc linverse du modle physique : quel est le scnario de temprature de surface qui induit la temprature que nous mesurons actuellement ? Lide gnrale des mthodes inverses est donc simple : un modle physique peut tre vu comme une bote qui, partir de paramtres dentre, renvoie des donnes de sortie. Nous possdons des informations (une mesure) sur les donnes de sortie, et nous voulons en dduire une valuation des paramtres dentre, do la dnomination de problmes inverses . Les problmes inverses sont en fait trs rpandus, ds lors quil y a de la modlisation physique. En effet, aucune mesure nest vraiment directe. Elle se fait toujours par lintermdiaire dun dispositif physique, qui nous donne une information indirecte sur le paramtre que lon veut observer. Nous utiliserons ici le point de vue probabiliste des problmes inverses. Nous nous sommes largement inspirs du cours et des ouvrages dAlbert Tarantola [Tarantola, 1987 ; Mosegaard and Tarantola, 2002], que nous remercions pour les discussions que nous avons eues avec lui. Toutefois, comme nous le disions quelques lignes plus haut, la thorie des problmes inverses a largement t dveloppe par des gophysiciens de la Terre interne, qui sintressent uniquement la reconstruction des paramtres dentre des modles quils utilisent. En revanche, dans le cas de la datation, nous nous intressons en grande partie aux donnes de sortie du modle (cest dire aux datations). Nous avons donc dvelopper certains nouveaux aspects lis la reconstruction a posteriori des donnes de sortie, qui ntaient pas ou peu prsents dans la thorie.

91

III.1.

Elments de probabilit

La thorie des probabilits est essentielle pour la formulation thorique des problmes inverses. Dans cette section, nous faisons donc un rappel des lments importants de cette thorie que nous utiliserons par la suite. Une diffrence notable avec la thorie mathmatique des probabilits est lintroduction des notions de probabilit homogne et conjonction de probabilits. Cest en quelque sorte une adaptation da la thorie mathmatique aux problmes de la physique.

III.1.1.

Distance, volume, et densit de probabilit homogne

Considrons un espace abstrait X de vecteurs x= x 1 , x 2 , (nous parlerons aussi de points) composs de variables physiques x 1 , x 2 , , qui peuvent tre de natures diffrentes (elles nont pas forcment la mme unit). Une notion fondamentale pour dfinir des probabilits sur ces variables physiques sera la notion de distance. Supposons quil existe une mtrique g = g i j telle que la distance ds entre un point x de coordonnes x i et un point voisin de coordonnes x i d x i soit donne par ds 2= g i j x d x i d x j .
ij

Nous dfinirons donc llment de volume d V x dun cube de ct d x 1 , d x 2 , ... centr autour de x par d V x =v x d x , o d x= d x 1 d x 2 , et o v x est donn par v x = dt g x . Nous dfinirons alors la densit de probabilit homogne ou densit de probabilit non informative x x , comme tant proportionnelle v x : x x = k v x . Cest la distribution de probabilit qui, une rgion A de lespace, assigne une probabilit proportionnelle au volume V A de cette rgion :

V A =A v x d x .

92

Cette densit homogne correspond donc ltat de connaissance zro dune variable physique. Imaginons que nous nayons aucune connaissance sur une variable. Cette densit rpond la question Choisissez au hasard une valeur pour cette variable . Cette notion, base sur la dfinition dune distance, est plus complique quelle nen a lair. En effet, cette densit homogne doit tre stable par changement de variable. Par exemple, cela doit revenir au mme de choisir une priode T ou une frquence =1 T , qui reprsente en fait la mme grandeur physique. On doit donc dfinir une distance pour notre grandeur physique, qui soit indpendante de la variable choisie pour la reprsenter. Pour la suite, nous ferons le postulat que toute information sur une variable physique peut se dcrire mathmatiquement par une densit de probabilit f x , telle que la probabilit P A dune rgion A X soit donne par : P A =A f x d x . En termes mathmatiques, nous supposons donc que toute probabilit est absolument continue par rapport la probabilit homogne.

III.1.2.

Variables cartsiennes

La distance la plus classique est sans aucun doute la distance cartsienne :


2 2 D x , y = x i y i . i

Cette distance convient bien par exemple pour les variables de position dun point dans lespace x , y , z . Nous parlerons alors de variables cartsiennes. En outre, cette distance possde une proprit dinvariance dorigine, i.e. quelque soit le repre considr, la distance est toujours la mme. La densit de probabilit homogne dune variable cartsienne u est alors constante : u u = k . Nous avons de plus les proprits suivantes : la somme de deux variables cartsiennes est une variable cartsienne, une variable cartsienne plus une constante quelconque est une variable cartsienne, i.e. si u est une variable cartsienne, k u est une variable cartsienne,

93

une variable cartsienne multiplie par une constante quelconque est une variable cartsienne, i.e. si u est une variable cartsienne, k u est une variable cartsienne.

III.1.3.

Variables de Jeffreys

Il existe toute une classe de grandeurs physiques reprsentes par des couples de variables positives mutuellement inverses, appeles par Tarantola [2002] variables de Jeffreys. En voici quelques exemples : Priode Rsistivit Temprature Densit de masse T T Frquence Conductivit Paramtre thermodynamique. Lgret =1 T =1 =1 k T l =1

Prenons lexemple du couple priodefrquence. Une distance intrinsque doit tre indpendante de la variable que lon choisit pour reprsenter cette grandeur. Il est vident que la distance cartsienne classique ne fonctionne pas : T 2 T 1 2 1 . Considrons par contre la dfinition de distance suivante entre deux valeurs G1 et G2 dune grandeur physique D G1 , G2 = log T2 T1 = log 2 1 .

Daprs Tarantola [2002] cest la seule dfinition qui (i) traite de manire quivalente les variables T et , (ii) a une invariance dchelle (Si lon considre la temprature exprime non pas en degrs Kelvin, mais en millime de degrs Kelvin, le rsultat sera le mme), et (iii) est additive, i.e. D G1 , G2 D G2 , G3 = D G1 , G3 si G1 , G2 et G3 sont ordonns (de manire croissante ou

dcroissante). Cette distance semble donc tre canonique pour une variable de Jeffreys. La densit de probabilit homogne pour une variable de Jeffreys u est alors donne par f u =k u . En outre, nous avons les proprits suivante : le produit de deux variables de Jeffreys est une variable de Jeffreys, si u est une variable de Jeffreys, k u est une variable de Jeffreys, si u est une variable de Jeffreys et un rel, u est une variable de Jeffreys.

94

Les variables de Jeffreys et les variables cartsiennes sont lies par les proprits suivantes : si u est une variable de Jeffreys, log u est une variable cartsienne, si u est une variable de cartsienne, exp u est une variable de Jeffreys.

III.1.4.

Conjonction de probabilits
et q x sur lespace X, muni dune densit

Soient deux densits de probabilit p x

homogne de probabilit x . Alors le produit ou la conjonction de ces deux densits de probabilit, not p q , est la densit de probabilit p q x dfinie par : p q x =k o k est une constante de normalisation. Plus gnralement, on peut dfinir la conjonction de plusieurs densits de probabilit p1 x , p2 x , ... , pn x , par : p x q x . x

p1 p2 pn x = k x

p1 x p2 x x x

pn x x

III.1.5.

Les densits de probabilit classiques

On limite trs souvent une information sur une variable une estimation de la valeur de variable munie dune barre derreur. Nous nous demandons dans ce cas trs naturellement quelle densit de probabilit nous devons utiliser. Cela dpend du type de variable que lon tudie : variable de Jeffreys ou variable cartsienne.

III.1.5.1. Cas des variables cartsiennes


Dans le cas dune variable cartsienne x, Tarantola [1987] montre qutant donn un estimateur x 0 et une barre derreur , il existe une classe de densits de probabilit contenant le minimum dinformation selon une certaine dfinition. Ces densits sont appeles Gaussiennes gnralises, et elles sont donnes par : 95

fp x =

p exp 2 1 p

1 1 p

x x0 p
p

o reprsente la fonction Gamma, et p est un rel suprieur ou gal 1.

1/21 p=1

1/21

0 1/21.5

-1

1 p=1.5

0 1/21.5

0 1/22

-1.5

1.5 p=2

0 1/22

0 1/23

-2

2 p=3

0 1/23

0 1/210

-3

3 p=10

0 1/210

0 1/2

-10

10 p=

0 1/2

Illustration III.1 Gaussienne gnralise dordre p. La valeur p=1 donne une double exponentielle, p=2 donne une gaussienne classique, et p= une fonction crneau.

96

Par exemple, nous avons (cf. Illustration III.1) :

f1 x =

1 exp 2
1

x x0
2

f2 x = 1 x = 2 0

2 si

exp

x x0 2
2

x 0 x x 0

sinon

Le cas p=2 est le plus souvent utilis pour dcrire une incertitude, notamment parce quil possde des proprits mathmatiques que les autres nont pas. Il correspond sans doute la distribution derreur la plus rgulire , qui ne possde pas de cassure importante, ni au centre de la distribution ( x 0 ), ni sur les bords ( x 0 ). Mais en pratique, ce cas p=2 ne correspond pas toujours au type dinformation que nous possdons sur notre variable. Il se peut que nous localisions strictement la valeur de notre variable dans un intervalle donn, mais que toutes les valeurs dans cet intervalle soient quiprobables. Dans ce cas, cest plutt le paramtre p= qui conviendra.

III.1.5.2. Gnralisation n dimensions


Considrons maintenant un espace X de vecteurs x= x 1 , x 2, , x n densits de probabilit gaussiennes sur lespace X sont du type : f x = 2 n dt C exp 1 x x0 t C 2
1

n coordonnes. Les

x x0

o x0 est le centre de la gaussienne, et C est la matrice de covariance des variables x 1 , x 2 ,, x n . Nous avons donc gnralis la notion classique de gaussienne ( p=2 ) un espace plusieurs dimensions, mais nous ne parlerons pas ici de gaussiennes gnralises (p quelconque) en dimensions multiples.

III.1.5.3. Cas des variables de Jeffreys


Dans le cas dune variable de Jeffreys x, il est clair que les densits gaussiennes ne sont pas

97

appropries. En effet, ces densits gaussiennes sont dfinies pour des valeurs positives ou ngatives, alors que les variables de Jeffreys sont par essence toujours positives.

4 0.1 3

3.2 2 0.2 0.4 1.6 0.8

0,5

1,5

Illustration III.2 Densits de probabilit lognormales, dordre 2 et de facteur dincertitude s gal 0.1, 0.2, 0.4, 0.8, 1.6 et 3.2.

Pour une variable de Jeffreys, une estimation classique consistera en une valeur munie dun rapport dincertitude. En effet, cela na pas de sens de dfinir une barre derreur dans le cas dune variable de Jeffreys. Prenons un exemple. Il serait absurde dvaluer une temprature 5 K 10K, alors quune temprature ne peut tre ngative. Une information plus rigoureuse serait par exemple dvaluer la temprature 5K un facteur 3 prs. Le pendant des densits de probabilit gaussiennes pour les variables gaussiennes sont les densits lognormales pour les variables de Jeffreys, et elles sont donnes par (densit lognormale de paramtre p) : p1 1 p 1 x= exp 2 s 1 p x
p

fp

x log p x0 ps

o x 0 est lestimation, exp s est le rapport dincertitude et reprsente la fonction Gamma. En particulier, nous avons : 98

f1 x =

1 1 exp 2s x

1 x log s x0 x log 2 x0 2s 1

,
2

1 f2 x = exp 2s x
Et pour p : f 1 x = 2sx 0 si sinon

x 0 e s x x 0 e s

99

3 2 1 0 0 3 2 1 0 0 3 2 1 0 3 2 1 0 0 3 2 1 0 0 3 2 1 0 0 x0exp(-s) x0 x0exp(s) 2 x0exp(-s) x0 x0exp(s) p= 2 x0exp(-s) x0 x0exp(s) p=20 2 0 x0exp(-s) x0 x0exp(s) p=10 2 x0exp(-s) x0 x0exp(s) p=5 2 x0exp(-s) x0 x0exp(s) p=2 2 p=1

Illustration III.3 Fonctions lognormales gnralises dordre p, pour p gal 1, 2, 5, 10, 20 et . La valeur du rapport dincertitude est exp(s)=1.5.

100

LIllustration III.2 montre quelques exemples de fonction lognormales pour p=2 , x 0 =1 et s respectivement gal 0.1, 0.2, 0.4, 0.8, 1.6, et 3.2, tandis que lIllustration III.3 montre des fonctions lognormales gnralises pour s =0.4 , et p respectivement gal 1, 2, 5, 10, 20 et .

III.2.
III.2.1.

Mthodes de Monte Carlo


Concept gnral

Une densit de probabilit p x ayant t dfinie, nous devons en prciser lutilisation. Si elle a t dfinie sur un espace de dimension faible (infrieur 3 ou 4), la mthode qui vient directement lesprit est dtablir une grille suffisamment fine des vecteurs x possibles, et de calculer les quantits qui nous intressent sur cette grille, comme la moyenne, la mdiane, ou plus gnralement lesprance de nimporte quelle fonction f x . Nous avons ainsi une vision globale de notre fonction. Cependant, plusieurs problmes se posent car il faut dfinir : un domaine dintrt (le plus souvent un cube n dimensions), cest dire quon va reprsenter nos diffrentes fonctions (comme f x ) sur ce domaine, et quon suppose que ce qui se passe lextrieur est ngligeable . Ce nest pas facile de dfinir a priori quel sera ce domaine dintrt alors quon ne connat pas encore la fonction tudie. une grille suffisamment fine, pour que les dtails (comme les maximums) des fonctions qui nous intressent ne nous chappent pas. Pourtant, si la grille est trop fine, le nombre de points (et donc le temps de calcul pour les applications concrtes) explose rapidement. Une bonne manire dexplorer lespace des vecteurs x est de crer un chantillonnage de Monte Carlo de notre densit de probabilit p x , cest dire de crer une suite de points x1, x 2, qui suit la loi de probabilit p x (cf. Illustration III.4). Cette dmarche a de nombreux avantages : nous navons plus besoin de dfinir un domaine dintrt et la taille de la grille, plus une rgion a une densit de probabilit importante, plus la densit de points sur cette rgion est importante (et donc plus nous avons une vision dtaille de cette rgion), le calcul de nimporte quel estimateur statistique (comme lesprance dune fonction f x ) se fait trs simplement par un calcul statistique sur la suite x1, x 2, . La cration dun chantillon est faite classiquement grce une marche alatoire (cest dire 101

Illustration III.4 Reprsentation dune densit de probabilit 2D. En haut gauche, reprsentation exhaustive de la densit. Au milieu, chantillonnage de Monte Carlo de cette densit de probabilit. En bas droite, mme chose avec une marche alatoire, o un nouveau point est dtermin en fonction du prcdent.

quun nouveau point est gnr dans le voisinage du prcdent). Cette dmarche est base sur le concept mathmatique de Chane de Markov. Une chane de Markov est une suite dont le (i+1)me lment xi
1

dpend du ime lment xi , mais pas des prcdents. Un thorme classique de

statistique nonce quune chane de Markov positive et homogne converge vers une distribution de probabilit limite. La suite ainsi cre sera donc un chantillon de la densit de probabilit limite. Une chane de Markov est homogne si la loi utilise pour choisir xi
1

partir de xi ne dpend pas

de litration i. La chane est positive si toute valeur x appartenant au domaine de variation peut toujours tre atteinte la boucle suivante, quelle que soit la valeur de dpart. Les algorithmes que nous allons dcrire sont bass sur ce concept de chanes de Markov homognes et positives. Nous avons trouv sous le nom d algorithme de Metropolis deux algorithmes diffrents, que nous choisirons ici dappeler algorithme de Metropolis absolu (ou algorithme de MetropolisHastings) et algorithme de Metropolis relatif. En effet, le premier nous permet de crer un chantillon dune probabilit quelconque en partant de rien, alors que le deuxime nous permet de crer un chantillon dune densit de probabilit chantillon dune densit de probabilit connue f x . Pour les deux algorithmes, un candidat est propos chaque itration pour tre le point suivant, et une loi dacceptationrejet (identique pour les deux algorithmes) dcide si le candidat est accept ou non. Mais le choix des candidats pour lalgorithme relatif ou absolu est diffrent. Nous ne parlerons pas ici de lchantillonnage de Gibbs [Geman and Geman, 1984], car il 102 f g x partir dun

semble que celuici soit plus efficace que lalgorithme de Metropolis seulement dans les problmes faibles dimensions.

III.2.2.

Lalgorithme de Metropolis absolu ou algorithme de

MetropolisHastings
Nous cherchons ici chantillonner une densit de probabilit donne f x . Supposons que lalgorithme ait gnr un point xi la ime itration. A litration suivante, un candidat xcand est i 1 choisi partir dune densit de probabilit S x xi (en gnral dans le voisinage de xi ), avec S une densit de probabilit (fonction saut) qui doit tre : strictement positive, pour que la chane de Markov soit homogne (tous les points peuvent tre atteints), symtrique (i.e. S x y = S y x ), pour que la transition x y ait la mme probabilit que la transition y x . Nous verrons dans la section III.2.3 comment, en pratique, nous dfinirons cette fonction saut S. La loi dacceptationrejet est la suivante : si f xi
cand 1 cand 1

f xi , alors on accepte la transition xi

cand 1

propose : xi 1= xi

cand 1

si f xi

cand < f xi , alors on dcide au hasard daccepter la transition xi 1 ou de rester xi , cand 1

avec la probabilit suivante daccepter la transition xi

P=

f xcand i 1 f xi

Exemple 1 : Nous avons pris une densit f x sur une variable dfinie par :

103

0 f x= exp 3 x x x0 2 2
2

si si si

x <0 0 x 1
.

x >1

104

3,5 3 2,5 2 1,5 1 0,5 0 -2 3,5 3 2,5 2 1,5 1 0,5 0 -2 3,5 3 2,5 2 1,5 1 0,5 0 -2 -1 0 1 2 3 4 5 100 000 itrations -1 0 1 2 3 4 5 10 000 itrations -1 0 1 2 3 4 5 1000 itrations

100 80 60 40 20 0 1000 800 600 400 200 0 10000 8000 6000 4000 2000 0

Illustration III.5 Convergence de lalgorithme de Metropolis appliqu une densit test (ligne grise en pointill), pour un nombre ditrations gal 1 000, 10 000 et 100 000.

avec =1 et x 0 =1 . Nous avons alors appliqu lalgorithme de Metropolis absolu, avec une fonction de saut gaussienne, dcart type S=1 . Nous pouvons nous rendre compte de la 105

convergence de lalgorithme sur lIllustration III.5, qui montre les histogrammes de la suite construite, pour un nombre ditrations gal respectivement 1 000, 10 000, et 100 000.

III.2.3.

Choix de la fonction saut

Comme nous lavons dit, la fonction saut doit tre symtrique et strictement positive. Le but est ensuite de choisir une fonction saut qui produise une suite rapidement convergente vers la solution. Il nest pas question ici dnoncer des thormes mathmatiques pour dterminer ce choix (le choix optimal dpend certainement de la densit limite), mais dexpliquer comment nous pouvons faire ce choix en pratique, les solutions nonces tant bases sur lexprience. Les densits de probabilit positives qui viennent directement lesprit sont les densits gaussiennes. Il sagit alors de dterminer quelle gaussienne sera approprie pour notre problme.

III.2.3.1. Le mode marche alatoire


Lorsque lon na pas dinformation prcise sur la densit que lon cherche chantillonner, la solution la plus simple est de choisir une gaussienne de matrice de covariance D diagonale (pas de corrlation entre les diffrentes variables). Il reste alors choisir les dviations standards 1 ,, n pour chaque variable x 1 ,, x n (dont les carrs forment les lments diagonaux de la matrice)
2 1

D= 2 n sachant que :

si on choisit une dviation standard trop importante par rapport au domaine dintrt de la densit limite (le domaine o la densit nest pas ngligeable), nous risquons de choisir des candidats qui sont trop systmatiquement rejets ; si on choisit une dviation standard trop faible par rapport ce domaine dintrt, la marche risque de faire des trs petits sauts, et elle mettra donc longtemps pour couvrir entirement le domaine dintrt. Pour viter que les covariances sur les paramtres aient une valeur trop grande ou trop petite par rapport au domaine dintrt, on utilise une facteur dchelle adaptatif s, et la matrice de

106

covariance utilise est sD . Lajustement de ce facteur dchelle sera dtaill dans la section III.2.3.3.

III.2.3.2. Le mode marche force


Lapplication du mode marche alatoire peut tre trs lente. En effet, le domaine dintrt de la densit que lon cherche reconstruire ressemble souvent une pseudovarit dans un espace de dimension n, qui prsente une forte corrlation entre les diffrentes variables. Il faut imaginer par exemple une ligne floue dans un espace de dimension 3. Lespace que nous cherchons chantillonner est donc essentiellement vide, et dautant plus vide que la dimension de lespace est grande. Lide du mode marche force est donc de choisir une fonction saut gaussienne avec une direction prfrentielle, cest dire de matrice de covariance non diagonale. En fait, cette matrice de covariance C sera dtermine partir de la matrice de covariance C obs des prcdents lments de la suite. Les candidats seront donc choisis dans la direction moyenne des anciens termes de la suite. Bien que les rsultats thoriques de convergence aient t dmontrs pour une chane de Markov homogne, lalgorithme est priodiquement mis jour aprs un nombre fix de boucles (typiquement quelques centaines). La variance du saut est donc rgulirement mise jour selon les rsultats prcdents, ajustant par consquent la direction de recherche. Comme dans le mode marche alatoire , lutilisation dun facteur dchelle s pour ajuster la longueur de lexploration est approprie. Nous prendrons donc C = sC obs , et s sera ajust comme indiqu dans la section suivante. Pour initialiser le mode marche force , nous dmarrerons en pratique par le mode marche alatoire , qui nous donnera une vision globale mais peu raffine du domaine dintrt de la densit de probabilit limite. Puis le mode marche force utilisera la covariance des points slectionns par le mode marche alatoire , et il permettra une convergence plus rapide de lalgorithme.

III.2.3.3. Ajustement du facteur dchelle


Lajustement du facteur dchelle dpend trs certainement de la densit limite que lon cherche reconstruire. Nanmoins, des tests peuvent tre ralis sur des densits mathmatiques

107

bien connues. Gelman et al. [1995] basent leur rponse en appliquant lalgorithme de Metropolis Hastings des densit gaussiennes incluant de 1 50 variables. Ils concluent que le critre principal pour dterminer une valeur efficace du facteur dchelle est le taux dacceptation de lalgorithme calcul aprs un nombre donn ditrations. Ainsi, un taux dacceptation trop lev signifie des sauts trop petits autour dun point et induira une surestimation de la densit de cette rgion. Au contraire, un taux dacceptation trop bas quivaut des sauts trop grands et une convergence trs lente de lalgorithme. Gelman et al. [1995] montrent ainsi que le facteur dchelle doit tre modifi pour contraindre le taux dacceptation entre 0.23 (nombre de variables suprieur 5) et 0.44 (nombre de variables gal 1).

III.2.3.4. Comment gnrer une suite alatoire qui suit une loi gaussienne ?
Lalgorithme de Metropolis nous amne donc choisir alatoirement des nombres : un nombre entre 0 et 1 pour la loi dacceptationrejet, un vecteur qui suit une loi gaussienne pour la fonction saut. Les ordinateurs peuvent classiquement nous fournir des nombres pseudoalatoires compris entre 0 et 1. Le premier point ne pose donc pas de problme. Le deuxime point ncessite par contre deux tapes : construire des nombres qui suivent une loi gaussienne dfinie, puis construire des vecteurs qui suivent une loi gaussienne de matrice de covariance dfinie.

Thorme 1 Soient u et v deux variables alatoires indpendantes suivant des densits de probabilit constantes sur 0 ; 1 . Alors les suites : x= y= 2 ln u cos 2 v 2 ln u sin 2 v

sont indpendantes et suivent des lois gaussiennes centres en 0 et dcart type =1 .

108

4 3 1 2 1

y
0 1

0 -1

v
0

-2 -3

-4 -4

-3

-2

-1

Supposons maintenant que nous soyons dans un espace n dimensions de vecteurs x= x 1 ,, x n , et que nous voulions crer une suite alatoire x1 , x 2 , qui suive une loi gaussienne de matrice de covariance C symtrique et dfinie positive. Cela peut tre fait grce aux tapes suivantes : diagonalisation de la matrice : C = P D t P : P matrice orthogonale (i.e. P matrice inversible et P 1=t P ) et D matrice diagonale dfinie positive : 1 D= n Cration dune suite de vecteurs alatoires y 1 , y 2 , suivant une loi gaussienne de matrice de covariance D. Chaque vecteur est compos de n variables alatoires indpendantes y 1 ,, y n qui suivent une loi de probabilit gaussienne dcarts types respectifs 1 ,, n ; obtentions des vecteurs alatoires x1 , x2 , en transformant les vecteurs y 1 , y 2 , daprs la formule : x= P y . Justification : soit X un vecteur alatoire de moyenne nulle, et C X sa matrice de covariance : CX =X tX . 109
2 2

Soit P une matrice de changement de base orthogonale et soit le changement de variable Y = P 1 X . Alors : CX =X tX = P Y tY t P
t t =P Y Y P

=P CY t P

III.2.4.

Lalgorithme de Metropolis relatif

Soit un espace X et la densit homogne x qui lui est associe. Considrons la situation suivante. Soit une loi alatoire qui dfinit une marche alatoire y 1, y 2, qui chantillonne la densit de probabilit f x . Soit une autre densit de probabilit g x . Nous cherchons construire une suite x1 , x 2, qui chantillonne la densit de probabilit h x , conjonction des densits de probabilit f x et g x . A une tape donne, nous sommes au point xi . Le candidat pour tre le
cand point suivant sera dtermin par la premire suite : x i 1 = y i 1

. La loi dacceptationrejet sera

similaire celle de lalgorithme de Metropolis absolu : si g xi


cand 1

x i

cand 1

g x i x i , alors la transition propose xi

cand 1

est accepte : xi 1= xi

cand 1

si g xcand x cand < g x i x i , alors nous dcidons au hasard daccepter la transition xcand i 1 i 1 i 1 ( xi 1= xcand ) ou de rester xi ( xi 1= xi ), avec la probabilit suivante daccepter la transition i 1

xi

cand 1

: P= g xcand xcand i 1 i 1 g x i xi .

Dans ce cas, la marche alatoire chantillonne la conjonction h x des densits de probabilit f x et g x : h x =k f x g x . x

Une dmonstration de cette proprit est donne dans Mosegaard and Tarantola [2002, appendice

110

O]. Pour rsumer, lalgorithme de Metropolis relatif, partir dun chantillon donn dune densit de probabilit f x et dune densit de probabilit donne g x , cre un chantillon de la densit de probabilit f g x . nest pas ncessaire dans cet

Remarquons que la prsence de la densit homogne x

algorithme. Nous aurions pu noncer un algorithme similaire pour construire un chantillon de la x = f x g x . Nous avons utilis cette formulation car elle correspond plus aux densit produit h applications physiques. Remarquons galement que cet algorithme ne ncessite pas de pouvoir calculer explicitement la densit f x pour tout point x, mais simplement davoir un chantillon de cette densit. Notons galement que cet algorithme ncessite de pouvoir valuer la densit de probabilit g x tout point x une constante prs seulement, cette constante se simplifiant de toute manire dans le rapport g x i g x j . Ceci sera trs important quand g scrit comme conjonction de deux probabilits g 1 et g 2 , car alors une constante k de renormalisation apparat, que lon peut pas calculer directement. Une application particulire de lalgorithme de Metropolis, si on choisit f x = x , est de crer, partir dun chantillon de la densit homogne x , un chantillon de nimporte quelle densit de probabilit donne g x .

III.2.5.

Lalgorithme de Metropolis en cascade

Lalgorithme de Metropolis en cascade est une gnralisation de lalgorithme de Metropolis relatif avec n distributions f 1 x , f 2 x ,, f n x . Supposons que nous avons une suite y 1 , y 2 , qui chantillonne la densit f 1 x . Notre algorithme va crer une suite x1 , x2 , qui chantillonne la densit de probabilit h x = f 1 f 2 f n x , conjonction des densits de probabilit

f 1 x , f 2 x ,, f n x . Voici comment il procde.


A une tape donne, la marche alatoire se trouve au point x i . Le candidat suivant est tir de
cand la suite y : x i 1 = y i 1

. Ce candidat est accept sil passe les tapes suivantes :

111

1. si f 2 xcand xcand f 2 xi x i , allons au point 2. Sinon, dcidons alatoirement daller au i 1 i 1 point 2 ou de rester au point x i ( xi 1= xi ), avec la probabilit suivante daller au point 2 : P= f 2 xcand x cand f 2 xi xi i 1 i 1 ;

cand cand 2. si f 3 xi 1 x i 1 f 3 x i xi , allons au point 3. Sinon, dcidons alatoirement daller au

point 3 ou de rester au point x i ( xi 1= xi ), avec la probabilit suivante daller au point 3 : P= f 3 xcand xcand f 3 x i xi i 1 i 1 ... ... (n1). si f n xcand x cand f n x i xi , acceptons la transition propose x cand ( xi 1= x cand ). i 1 i 1 i 1 i 1 Sinon, dcidons alatoirement daccepter la transition x i
cand 1

ou de rester au point x i ( x i 1= xi ), ;

cand cand cand avec la probabilit suivante daller x i 1 : P= f n xi 1 x i 1 f n xi x i

La suite x1 , x 2 , ainsi cre chantillonnera la densit de probabilit h x , conjonction des densits f 1 x , f 2 x ,, f n x . Ceci se dmontre de manire vidente partir de lalgorithme de Metropolis relatif.

III.2.6.

Arrt de la marche alatoire

Quand une marche alatoire atelle visit suffisamment de points dans lespace pour quune densit de probabilit soit chantillonne de manire fine ? Cest un problme complexe, mais trs important dans la pratique. Il ny a pas de loi gnrale : chaque problme a sa propre physique, et lexprience est ici cruciale. En pratique, nous dmarrerons plusieurs marches alatoires, que nous arrterons lorsque les rsultats donnes par cellesci sont suffisamment proches.

112

III.3.
III.3.1.

Formulation du problme inverse


Cadre gnral

Imaginons que nous avons un modle physique. Ce modle possde des paramtres dentre, et des donnes de sortie. Soit m = m 1 , m 2 ,, m NM M le vecteur regroupant ces paramtres dentre. Soit d = d 1 , d 2 ,, d NM D le vecteur des paramtres de sortie. Mathmatiquement, un modle peut donc tre vu comme une application G : M D , qui, un ensemble de paramtres dentre, associe un ensemble de donnes de sortie. Bien que, dans certains problmes subtils, il soit parfois artificiel de sparer ces deux types de variables, nous utiliserons ici cette formulation qui est la plus simple et qui permet dapprhender un grand nombre de problmes. Il est possible que nous possdions dores et dj une information a priori sur les paramtres dentre du modle. Ce peut tre une estimation, mme large, de ces paramtres. Pour reprendre notre exemple de larchivage de la temprature de surface dans le trou de forage, nous savons que la temprature du glaciaire tait plus froide que lactuel, mais que le changement ne peut pas excder quelques dizaines de degrs. Nous avons galement dautres estimations de ce changement de temprature, par exemple par lintermdiaire des isotopes mesurs dans le nv, ou grce aux modles de distillation de Rayleigh estimant la relation isotope temprature de surface. Mathmatiquement, nous traduirons cette information a priori sur les paramtres du modle par une densit de probabilit M m . Nous avons par ailleurs dans notre problme des informations sur les donnes de sortie de notre modle, issues par exemple de mesures physiques. Dans notre application sur les tempratures dans la calotte polaire, ce sera la mesure de temprature dans le trou de forage. Cette mesure ne se rduit jamais un seul chiffre : cest en gnral une valuation dune variable, avec une barre derreur associe. Plus gnralement, nous dirons que nous avons une information a priori sur les donnes de sortie du modle, que nous traduirons mathmatiquement par une densit de probabilit

D d .
Soit X = M , D lensemble des variables du modle (paramtres dentre et donnes de

sortie) et soit m , d la densit de probabilit homogne sur cet espace. Les informations a priori que nous possdons sur ces variables peuvent donc se rsumer une densit de probabilit sur lespace X : 113

x = m , d = M m D d Bien que nous ayons introduit sparment M m et D d , en supposant que ces deux

ensembles de variables taient bien disjoints et que les a priori que nous avions sur chacun deux taient bien indpendants, la notation introduite cidessus permet une situation plus gnrale o les variables ne sont pas spares en deux groupes. Bien que nous ayons dfini notre modle comme une application G : M D , les choses sont en fait un peu plus complexes. En ralit, tout modle physique est imparfait et possde des incertitudes. Par exemple, il y a toujours des phnomnes physiques que lon ne prend pas en compte, et nos thories physiques ne sont peuttre que des approximations de thories plus gnrales (par exemple, la mcanique newtonienne est une approximation de la mcanique relativiste). Un modle ne doit donc pas tre simplement reprsent par une application G: M D , mais par une densit de probabilit sur lespace X : m , d .

Illustration III.6 Figures illustrant la conjonction de linformation issue de la thorie (figure de gauche) et de linformation a priori (figure du milieu) pour donner linformation a posteriori (figure de droite).

Pour rsumer nous avons deux sources dinformation diffrentes sur lensemble des variables de notre modle : les informations a priori (ou exprimentales) m , d et les informations issues de la modlisation (ou informations thoriques) m , d . Finalement, ce qui nous intresse est la conjonction de ces deux informations, qui, si elles sont indpendantes, sexprime comme (voir Illustration III.6) m , d =k m,d m,d m,d (conjonction dinformations)

114

avec des probabilits marginales donnes par : m m = m , d d d ;


D

d d = m , d d m
M

Pour la plupart des applications, les donnes de sortie et les paramtres dentre sont indpendants, et nous avons

m , d =m m d d
et il sensuit :

; m , d =m m d d

m m =k

m m m m

d d m , d d d

dd.

Nous pouvons alors faire lhypothse suivante sur linformation apporte par le modle physique m , d = d|m d|m m m . III.1

Cette hypothse revient supposer que la thorie physique napporte aucune information directe sur les paramtres dentre (ce qui parat normal), mais quelle apporte une information sur les donnes de sortie connaissant les paramtres dentre (ce qui parat l aussi raisonnable). Remarquons tout de mme que la symtrie entre m et d est rompue dans cette formule. Avec cette hypothse, la densit de probabilit a posteriori sur m est donne par m m = k m m

d d d|m d|m d d

dd.

(III.2)

Quant la densit de probabilit a posteriori sur les donnes d (calcul non prsent dans louvrage de Mosegaard et Tarantola [soumis]), nous trouvons d d =k d d d d

m
D

m d|m d|m d m .

(III.3)

III.3.2.

Cas dincertitudes ngligeables sur la modlisation

Dans le cas dune modlisation parfaite , cest dire avec des incertitudes ngligeables (en fait ces incertitudes devront tre ngligeables par rapport aux incertitudes des a priori m m et

115

d d ), cette modlisation se rduit une application G: M D ; on prendra alors d|m d|m = d G m , o est la fonction de Dirac. Les quations III.2 et III.3 deviennent alors : m m = k m m d G m d G m , (III.4)

d d =k

d d d d

m
M

m d G m dm.

(III.5)

Concernant la rsolution pratique de ces dernires quations, nous pouvons rsoudre analytiquement ce problme seulement dans des cas spciaux. Le cas le plus clbre est le problme linaire avec des incertitudes gaussiennes, qui a t largement tudi [voir par exemple Tarantola, 1987], ce problme pouvant mme inclure des incertitudes gaussiennes sur la modlisation. Mais dans un cas plus gnral avec un modle non linaire ou des incertitudes non gaussiennes, il faudra effectuer une exploration de lespace des paramtres, grce une mthode de Monte Carlo.

III.4.

Rsolution des problmes inverses par mthode

de Monte Carlo
III.4.1. Cadre gnral

Nous reprenons ici le mme contexte que dans la section prcdente : nous cherchons rsoudre un problme inverse, et nous considrons que les incertitudes du modle sont ngligeables. Quand le modle est non linaire, la rsolution pratique ncessite une exploration de lespace des paramtres du modle M, de type Monte Carlo, que nous avons dtaille dans la section III.2. Pour m m , le problme est assez simple, puisque la formule III.4 nous permet de construire un chantillon de cette densit grce lalgorithme de MetropolisHastings. En effet, pour tout ensemble de paramtres dentre m, on peut calculer m m (a priori sur les paramtres dentre), puis G m (rsultat du modle) et donc d G m d G m (a priori sur les donnes

de sortie). On peut donc calculer m m une constante prs (k), ce qui est suffisant pour appliquer lalgorithme. 116

Pour d d , nous utiliserons le thorme suivant (nous navons pas trouv ce thorme dans les ouvrages de M. Tarantola, et nous en donnons une dmonstration en annexe) :

Thorme 2 Soit une suite G mi mi qui chantillonne la densit m m donne en III.4. Alors la suite

chantillonne la densit de probabilit d d donne en III.1.

Pour les applications des mthodes inverses, ce thorme est tout fait fondamental. En effet, il nous suffit de crer une suite m i qui chantillonne la densit m m grce lalgorithme de MtropolisHastings, et la densit d d est directement chantillonne par la suite des sorties du modle. Il ne nous reste alors plus qu faire des statistiques (moyennes, carts types, ...) sur les scnarios qui ont t slectionns par lalgorithme.

III.4.2.

Utilisation de lalgorithme de Metropolis relatif

En gnral, les informations a priori sur les modles et les donnes scrivent comme une
p conjonction dinformations indpendantes : M =1 et D =1 . Ainsi, 2 2 M q M D M D D

la densit a posteriori sur les paramtres dentre M m conjonction de densits f 1

peut se dcomposer comme une

f 2 f m (qui ncessite ventuellement le calcul des donnes d). Par

consquent, il est lgitime de vouloir utiliser lalgorithme de Metropolis relatif (ventuellement en cascade). Aprs avoir chantillonn la densit f 1 , celuici nous permet, grce (m1) lois dacceptationrejet, de crer un chantillon de la densit f 1 f 2 f m (cf. section III.2.5). A priori, lutilisation de cet algorithme ralentit la convergence, puisquil augmente le nombre de scnarios rejets. Il parat donc plus intressant dchantillonner directement la densit f 1 f2

par lalgorithme de Metropolis absolu, que de le faire en deux tapes en utilisant lalgorithme de Metropolis relatif. Toutefois, lapplication lalgorithme relatif peut devenir intressante si les densits f 1 , f 2 ,, f m correspondent des tapes de calcul de notre modle qui sont coteuses en temps. Imaginons par exemple que le calcul des estimations f 1 m et f 2 m se fasse aprs deux

117

tapes conscutives de calcul E1 et E2 : f1 m m f2 m

E1

E2
(moins de f 2 , nous

Imaginons alors que ltape de calcul E2 est beaucoup plus coteuse en temps que ltape E1, mais que lestimation f 2 m est beaucoup moins restrictive que lestimation f 1 m

scnarios rejets). Ainsi, en appliquant lalgorithme de Metropolis absolu la densit f 1

procdons systmatiquement ltape E2, alors quelle est peu discriminante par rapport lestimation. Une application de lalgorithme de Metropolis relatif nous fera alors gagner beaucoup de temps de calcul. En effet, nous chantillonnons tout dabord indpendamment la densit f 1 m , puis nous procdons ltape E2 seulement pour les scnarios qui ont t slectionns. Nous navons pas fait lors de notre travail une tude suffisamment pousse pour donner des principes quantitatifs pour optimiser le temps de convergence, en fonction du cot de calcul et de la slectivit des tapes. Nous noncerons donc seulement quelques principes qualitatifs : en gnral, fractionner le moins possible lalgorithme, car chaque utilisation de lalgorithme de Metropolis relatif mne un rejet de certains scnarios et donc un ralentissement de la convergence de la suite ; procder dabord aux tapes restrictives mais peu coteuses en temps de calcul. Lexprience du programmeur sera alors dterminante pour trouver la configuration qui donnera la meilleure convergence temps de calcul gal.

118

S-ar putea să vă placă și