Documente Academic
Documente Profesional
Documente Cultură
Springer
Paris
Berlin
Heidelberg
New York
Hong Kong
Londres
Milan
Tokyo
Jean-Jacques Boreux
"
Eric
Parent
Jacques Bernier
~ Springer
Jean-Jacques Boreux
Eric Parent
AgroParisTech
16, rue Claude-Bernard
75231 Paris Cedex 05
Jacques Bernier
Le Pech-de-Biaud
24250 Saint-Martial-de-Nabirat
Imprime en France
Collection
Comlte editorial :
Christian Genest
Stephan Morgenthaler
Departement de Mathematiques
et de statistique
UniversiteLaval
Quebec GIK 7P4
Canada
Marc Hallin
Gilbert Saporta
Conservatoire national
des arts et metiers
292, rue Saint-Martin
75141 Paris Cedex 3
France
Ludovic Lebart
Telecom-Paris'Iech
46, rue Barrault
75634 Paris Cedex 13
France
Preface
Le troisicme millenaire sera, dit-on, celui de l'information. Aussi la statistique y sera-t-elle appelee a jouer un role important et le paradigme bayesien
plus que tout autre, puisqu'il offre un cadre de raisonnement bien adapte a
I'integration des opinions et des faits de toutes provenances qui interviennent
dans la gestion des risques et la prise de decision en contexte d'incertitude.
De la collecte de donnees a la prevision, l'analyse statistique pose plusieurs
defis. L'elaboration du modele rcprcsentc sans doute la phase la plus delicate
de l'exercice, car elle doit repondre a un double imperatif de realisme et de
parcimonie. Hormis quelques cas de figure, une demarche bayesienne n'est envisageable qu'a charge de disposer d'outils efficaces pour la quantification et la
mise a jour de l'information.
Jouissant d'une expertise considerable dans le dornaine, les auteurs avaient
deja brosse un tableau du Traitement bauesien de l'incertitude en sciences de
l'environnement dans un ouvrage paru en 2000. Six ans plus tard, Christian Robert publiait chez Springer Le choix bayesien - Principes et pratique, expose
des fondements de la theorie qu'Eric Parent et Jacques Bernier completaient
plaisamment en 2007 avec Le raisonnement btnjesien - Modelisatiori et inference, paru dans la meme collection.
Aujourd'hui, pour notre plus grand plaisir, Jean-Jacques Boreux, Eric Parent et Jacques Bernier joignent a nouveau leurs forces pour nous instruire
dans la Pratique du calcul bayesien. A l'aide d'exemples concrets, nombreux et
varies, ils nous initient a la construction de modeles bayesiens et au maniement
de l'imposant arsenal de calcul necessaire a leur mise en oeuvre. Au passage, ils
s'efforcent aussi d'aiguiser notre esprit critique!
De l'halieutique a l'hydrometeorologie, en passant par la mesure des risques
d 'avalanche, de pneumoconiose ou de pollution en milieu clos, les auteurs decortiquent et analysent pour nous divers jeux de donnees issus de la pratique.
Partant de series temporelles, de valeurs extremes ou d'effectifs de capturerecapture, ils nous montrent tantot comment decrire des relations entre plusieurs variables au moyen de graphes acycliques orientes, tant6t comment batir ou affiner des modeles lineaires, generalises ou hierarchiques definis par
conditionnements successifs. A l'occasion, ils font aussi appel au logiciel WinBUGS pour illustrer le calcul de lois a posteriori au moyen de l'algorithme de
Metropolis-Hastings ou de techniques particulaires dernier cri.
Vlll
Dans un souci didactique evident, les auteurs ont menage une gradation
dans le degre de complexite des problemes etudies, Les premiers chapitres
abordent des cas relativement simples, faciles a resoudre et bien adaptes a
l'apprentissage des rudiments; les enseignants s'en inspireront avec bonheur.
Les applications grandeur nature presentees en seconde partie font quant
a elles un abondant usage de structures hierarchiques, de variables latentes et
autres savantes constructions; le savoir-faire statistique et le genie du calcul
numerique y apparaissent ici dans toute leur splendeur. Pour reprendre l'aimable locution des auteurs, le lecteur est ainsi progressivement amene de la
plume a la souris et il en ressort ebloui et grandi.
Gageons que specialistes et utilisateurs de la statistique s'approprieront
rapidement ce beau livre et qu'ils reconnaitront en lui un guide sur et accessible
des principes modernes du calcul bayesian.
Bonne lecture!
Christian Genest, professeur
Universite Laval, Quebec
President sortant de la Societe statistique du Canada
et de l' Association des statisticiennes et statisticiens du Quebec
Avant-propos
L'anticipation est une composante essentielle des capacites d'adaptation
d 'une societe et la statistique peut etre definie comme l' art de raisonner de
facon quantitative en avenir incertain . Elle intervient dans toutes les disciplines scientifiques OU se melent savoir et donnees. Elle est done utilisee par
les physiciens, les economistes, les ingenieurs, les geographes, les biologistes, les
assureurs, les psychologues, les metcorologues, les gestionnaires d'entreprises,
etc., bref, par tous les praticiens soucieux de batir sur des fondations solides
un pont entre theorie et donnees experimentales.
Comme dans toutes les disciplines scientifiques, il faut d'emblee fixer le
niveau qu'on se propose d'atteindre. II nous semble que quatre niveaux suffisent
a preciser les compctcnces.
- Comme son qualificatif l'indique, le niveau elementaire est une prise de
contact avec la discipline en question. S'agissant de la statistique, l'etudiant saisit le sens general de la modelisation probabiliste, connait les
distributions de base et est autonome dans des situations simples.
- Le niveau suivant vise une qualification operationnelle, Ici I'etudiant est
capable de construire un modele qui repond a un questionnement. II manie
les outils modernes de l'inference statistique, interprete et critique lcs
resultats obtenus.
- Le niveau suivant est la maitrise des concepts mathematiqucs qui justifient les procedures utilisees, A ce niveau, le statisticien fait preuve d'une
tres grande creativite, comprend pourquoi une procedure faillit et sait y
remedier.
- Enfin, le quatrieme niveau est celui de la recherche fondamentale qui,
par definition, introduit des nouvelles idees et./ou generalise des concepts
existants sans avoir neccssaircmcnt de visec operationnelle au moment
des travaux.
Bien sur, il n'existe pas de separation nette entre ces niveaux mais, pour
cet ouvrage, notre ambition est clairement une qualification operaiumnelle en
statistique baueeiemic avec, peut-etre, quelques incursions au niveau maitrise.
Avant de preciser cette ambition, il nous semble utile de remonter aux origines
de ce livre.
Construire un modele statistique paromeirique a des fins decisionncllcs,
c 'est oser avoir tort en maximisant ses chances d'avoir raison! Cette repartie
Avant-propos
Xl
et utiles,
Notre ambition est que ce livre apporte aux etudiants et aux praticiens
synthese et savoir-faire. Pour les fondements plus theoriques, nous renvoyons Ie
lecteur a des ouvrages specialises, notamment celui d'Eric Parent et de Jacques
Bernier, Le raisonnement bayesien - Modelisaiion et inference et a celui de
Christian Robert, Le choix bayesien - Principes et pratique, tous deux publics
dans cette meme collection.
Pratique du calcul bayesien suit un fil conducteur qui pourrait etre resume
par la locution De la plume. . . a la souris. La premiere partie, De la plume,
decrit des cas reels relativement simples pour lesquels l'approche bayesienne
peut etre monee a la main, sans recours a l'ordinateur. La seconde partie, a
la souris, presente des modeles statistiques parametriques plus elabores, impliquant souvent des variables latentes dans une structure hierarchique, Ici,
l'inference bayesienne est difficile, voire impossible, sans recours a l'ordinateur.
Les reseaux bayesiens et les techniques les plus utiles de Monte-Carlo (avec
dependance ou independance) font lc lien entre ces deux parties.
Remerciements
L'idee de cet ouvrage est nee de l'experience acquise au cours de Statistique Pratique de la collecte et du traitement de l'information environnementale : traitement
bayesien de l'incertitude dispense au departement des Sciences et Gestion de 1'Environnement de l'universite de Liege, site d'Arlon (ex-FUL). Sur cette base vinrent
s'appuyer les cas reels d'etudes provenant de stagiaires, dingenieurs ou de candidats
au doctorat de nos institutions. Un merci tout special a Etienne Prevost (INRA) et a
Etienne Rivot (Agrocampus Rennes) qui nous ont permis d'utiliser leurs donnees et
travaux pour la realisation des chapitres huit et douze Iondes sur la vie des saumons.
Dans Ie me me etat d'esprit, le chapitre dix doit beaucoup aux investigations de M.
Philippe Girard, aujourd'hui en poste chez Nestle.
Cependant, sans l'appui de nos institutions respectives, I'universite de Liege et
l'Ecole nationale du genie rural des eaux et des forets (aujourd'hui AgroParisTech),
nous n' aurions pu mener cette tache a bien. Nous tenons a les en remercier.
Enfin, Mme Germaine Gazano no us a permis de nous isoler dans son petit paradis
Corse, a l'abri des derangements de toute sorte, pour le sprint final ayant construit cet
ouvrage dans sa version definitive. Mme Catherine Heyman, secretaire au departement
des Sciences et Gestion de l'Environnement de l'universite de Liege, a bien voulu
assumer la lourde tache de relire ce livre en no us indiquant les fautes que nous ne
voyions plus. M. Jean-Yves Catheland a peint le tableau reproduit en couverture. Nous
pensons que l'Art non figuratif illustre bien l'abstraction des concepts mathematiques
qui, a l'image des traits et des couleurs, conduisent a une certaine comprehension
du monde qui no us entoure. Que toutes ces personnes veuillent bien trouver ici un
ternoignage de notre reconnaissance et de notre amitie.
Arlon, septembre 2009, Jean-Jacques Boreux, Eric Parent et Jacques Bernier
Sommaire
vii
Preface
ix
Avant-propos
xix
xxiii
De la plume...
3
3
5
7
9
11
12
12
15
16
16
17
18
Le processus de Bernoulli
2.2.2
21
21
21
22
22
23
24
24
25
XIV
2.3
Inference bayesienne
.
2.3.1 Le modele beta-binomial
2.3.2 Le modele gamma-Poisson
27
27
30
33
33
34
49
49
52
a posteriori
.
Fondements de ces approximations . . . . .
Estimation asymptotique des parametres d'une
population gamma . . . . . . . . . . . . . . . . . . . . .
4.2.4 Estimation asymptotique des parametres d'une regression Iineaire . . . . . . .
. . . . . .
.....
4.2.5 On retiendra . . . . . ..
Methodes de Monte-Carlo par
chaines de Markov . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Mise en contexte
.
4.3.2 Algorithme (general) de Metropolis-Hastings (MH)
4.3.3 Echantillonnage de Gibbs . . . . . . . . . . . .
Methodes de Monte-Carlo. . . . . . . . . . . . . . . . . . .
4.4.1 Simulation par la methode d'acceptation-rejet . . . .
4.4.2 L'echantillonnage et le re-echantillonnage ponderes .
4.4.3 Vers les methodes particulaires . . . . . . . . . . . .
4.2.2
4.2.3
4.3
4.4
36
36
38
40
41
41
41
45
53
57
59
61
65
66
66
66
69
72
73
76
81
85
85
87
87
88
Sommaire
xv
97
98
100
103
104
105
106
108
108
110
110
111
112
113
115
115
116
118
121
127
127
128
130
131
131
132
132
134
134
135
136
136
136
139
XVI
II
...
a la souris
145
169
185
169
170
172
173
175
176
176
177
178
181
182
186
188
189
189
191
192
192
193
193
Sommaire
10.4.1 Formulation du modele M2 . . . . . .
10.4.2 Les conditionnelles completes . . . . . . . . . . . . .
10.5 Modele lineaire a residus autocorreles (M3)
10.5.1 Formulation du modele M3 . . . . . .
10.5.2 Prior des parametres du modele M3 . . . . .
10.5.3 Conditionnelles completes du modele M3
10.5.4 Specification des priors du modele M3 . . . . . . . . ..
10.5.5 Applications
10.6 Modele avec erreur sur variables explicatives (M4)
10.6.1 Formulation du modele M4 . . . . . . . . . . . . .
10.6.2 Specification du parametre . . . . . . . .
10.6.3 Influence de l'erreur sur la temperature . . .
10.7 Une brique de LEGO supplementaire d'expression multinomiale
10.7.1 Formulation du modele M5 . . . . . . . . . . . . . .
10.7.2 Conditionnelles completes du modele probit (M5) . .
10.7.3 Application du modele multinomial probit (M5)
XVll
194
194
195
195
196
196
197
198
200
200
202
202
202
203
206
207
211
11 Evaluation de la pollution indoor
11.1 Introduction . . . . . . . . . . .
212
11.2 Experimentation et approche classique
212
11.2.1 Modelisation du taux d'emission . . . . . . . . . .
213
11.2.2 Modelisation du changement de masse du polluant
213
11.2.3 Breve etude critique du travail public
214
215
11.2.4 Discussion. . . . . . . . . . . . . . . . . . . . . .
216
11.3 Bruiter Ie modele deterministe . . . . . . . . . . . . . .
11.3.1 Une strategic de modelisation des incertitudes. .
216
11.3.2 Application de la regle de Bayes
. . . . . . .. 217
11.3.3 Hesultats . . . . . . . . . . . . . . . ..
.....
218
12 Les avantages de la modelisation hierarchique
12.1 Donnees. . . . . . . . . . . . . . . . . . . . . . . . . . .
12.2 Modele de capture-marquage-recapture . . . . . . . . .
12.2.1 Modele Bernoulli d'alea pour la premiere phase
12.2.2 Modele Bernoulli d'alea pour la seconde phase
12.3 Modele bayesien hierarchique echangeable . . . . . . . .
12.4 Modele bayesien annuel . . . . . . . . . . . . . . . . . .
12.5 Choix des distributions a priori et analyse de sensibilite . .
12.5.1 Priors du modele avec independance annuelle
12.5.2 Priors a deux etagcs du modele hierarchique .
12.6 Resultats . . . . . . . . . . . . . . . . . . . . . . . .
221
222
222
223
224
225
228
229
229
230
231
237
238
239
240
xviii
13.3
13.4
13.5
13.6
13.7
13.8
14 Conclusion
240
241
243
243
244
246
247
249
250
250
250
251
251
252
253
253
254
256
258
260
263
Annexes
265
A Annexe du chapitre 1
267
B Annexe du chapitre 2
273
C Annexe du chapitre 6
279
D Annexe du chapitre 9
287
E Annexe du chapitre 10
293
F Annexe du chapitre 11
305
G Annexe du chapitre 12
307
H Annexe du chapitre 13
313
Bibliographie
325
Index
331
5
7
10
11
13
14
15
17
2.1
2.2
2.3
Modele beta-binomial. .
Distribution de Polya. . .
. . . . . .
Avalanche de Montroc : regle de decision.
28
30
31
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
34
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
56
Approximation asymptotique du posterior.
Operation Sources: DAG.
60
Operation Sources : estimation asymptotique.
62
Le modele lineaire simple. . . . . . . . . . . . . .
63
64
Le modele Iineaire. . . . . . . . . . . . . . . . ..
Approximation asymptotique des parametres du modele lineaire. 65
68
Algorithme de Metropolis-Hastings.
Echantillonnage de Gibbs.
. . . . . .
71
73
Utilisation d'une grille.
35
35
37
37
38
38
39
40
45
xx
Methode d'acceptation-rejet. .
.
Echantillonnage ponder e. . . . . . . . . . .
Distribution cumulative empirique de T . .
Resultat de l'importance sampling. . . . .
Resultat de l'importance sampling-resampling.
Efficacite de l'importance sampling.
. ....
5.1
5.2
5.3
5.4
5.5
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
6.10
6.11
6.12
6.13
6.14
7.1
7.2
76
79
80
82
83
83
.
.
. . . . .
.
.
8.2
9.1
9.2
9.3
9.4
89
91
93
94
95
104
106
116
117
118
119
120
120
121
122
123
124
124
125
139
142
149
153
154
156
157
159
163
164
166
167
171
177
180
182
XXI
9.5
9.6
9.7
chenille du tabac.
IC95 a posteriori pour les parametres du modele de Finney.
Probabilite de mort. . . . . . . . . . . . . .
183
184
184
10.1
10.2
10.3
10.4
10.5
10.6
10.7
10.8
10.9
. . . . .
Schema de fabrication du LCS. . .
150 fournees de fabrication. . ..
La loi a priori pour le lait concentre . .
Lois marginales a posteriori pour la fabrication du LCS
Posterior du modele lineaire a residus autocorreles.
Variables explicatives et variable categorielle a expliquer.
Mecanisme aleatoire de reponse categorielle ordonnee.
Posterior avec et sans autoregression des residus
Verification du caractere de bruit blanc. . . .
187
188
198
199
203
204
205
208
209
11.1
11.2
11.3
11.4
11.5
213
215
218
219
220
12.1
12.2
12.3
12.4
12.5
224
226
228
233
234
13.1
13.2
13.3
13.4
13.5
13.6
13.7
13.8
13.9
13.10
13.11
13.12
13.13
13.14
13.15
Simulation de ruptures. . . . . . . . . . . . . .
Debit maximal annuel de la Dordogne a Cenac.
Debits moyens annuels du Senegal a Bakel.
Apports energetiques du Saint-Laurent. .
.
Ruptures et changements de regime
.
Explicitation des conventions cl'ecriture. . .
Senegal: chronologie a posteriori des sauts. . .
Senegal: distribution a posteriori de la date de changement. .
Distributions a posteriori des deux dates.
.
Chronologie des apports moyens..
Distribution a posteriori de T. . . . . . .
. . . . . .
Ddistribution a posteriori de <.p. . . .
Dordogne a Cenac : distribution cumulee des ponderations,
Dordogne a Cenac : distribution de la date du changement.
Dordogne a Cenac : visualisation de /11,/12,/13 dans Ie cas M 2 .
238
239
240
241
242
248
254
255
256
257
258
259
260
261
262
C.1
C.2
284
285
G.1
309
13
2.1
23
3.1
3.2
3.3
3.4
3.5
3.6
3.7
36
44
44
46
46
47
47
4.1
4.2
4.3
4.4
4.5
4.6
64
67
69
71
76
81
5.1
5.2
5.3
5.4
6.1
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
.
10 ans.
. .....
. . . . . .
intervalle de credibilite,
86
88
92
94
116
117
117
119
119
121
122
122
123
xxiv
125
179
179
181
214
218
223
252
253
a Port
modele GEV. . . . . .
E.1 Modele M1 : resume.
E.2 Modele M2 : resume. .
E.3 Modele M3 : resume. .
285
296
298
301
Premiere partie
De la plume...
Chapitre 1
La Statistique :
son objet, ses outils
Prologue
L'homme est curieux et c'est sans doute ce qui explique le mieux son cheminement depuis Ie debut de l'humanite jusqu'a nos jours. Ce besoin de comprendre les phenomenes observes et le desir de les anticiper est au CCBur de ses
preoccupations. C'est ce qui explique l'emergence et le succes de la statistique,
une discipline scientifique en plein essor. Pour definir son objet, on ne saurait
mieux faire que Christian Robert (Robert, 2006) : L 'objet principal de la
statistique est de mener, grace a l' observation d 'un phenomcne aleaioire, une
inference sur la distribution probabiliste a l' origine de ce phenomene, c'est-adire de fournir une analyse (ou une description) d 'un phenomene passe, au une
prediction d 'un phenomene a venir de nature similaire ,
Ce premier chapitre introduit les notions fondamentales de la modelisation statistique parametrique sous le paradigme bayesien.
1.1
Le travail du statisticien
peut raisonnablement postuler une relation lineaire entre celle-ci et la taille (la
moyenne des y pour un age donne).
Conditionnellement au parametre 0 == (a, {3, T) et a la transformation donnee de I'age, la taille Y d'un sujet d'age t* - t x* est incertaine, mais cette
incertitude est quantifiee par une distribution de probabilite, en l'occurrence
une loi normale de precision T, localisee sur J1 * == a + {3x* OU x* est fixee :
YIO, j, t*
rv
dnorm (J1*, T)
(1.2)
Remarque 1.1 Dans cet ouvrage, nous privilegierons les notations du logiciel
libre WinBUGS (Spiegelhalter et al., 1996b) qui sont generalement identiques
a celles du logiciellibre R (R Development Core Team, 2009) interfacable avec
WinBUGS. Par exemple, la fonction de densite de probabilite d'une loi normale,
traditionnellement notee N, est notee dnorm sous R. En general, Ie nom de la
distribution apparait dans sa notation R, ce qui enleve toute ambiguite. Dans
le cas contraire, nous donnerons les indications ncccssaires.
Exemple 1.3 On dispose de la taille et de l'age de 292 garcons frcquentant
les eccles primaires de la province de Luxembourg (source: Observatoire de
la sante de la province du Luxembourg (Belgique)). La transformation simple/
1
2
(n = 292)
0.07
1 70 ,-----~------,
160
, ----
,---~-~-~----,
0.06
0.05
150 .
0'
-;; 0.04
..'""
'
~
'iii
0.03
!::.
0.02
O
O: j
0.9
iige I (1+iige)
0.95
120
~
130
140
150
160
Taille (em)
Figur e 1.1 - Echantillon et dist ribution predict ive a post eriori de la taille d 'un garcon
age de 10 ans .
1.2
Note 1.1 Dans la plupart des ouvrages de statist ique, les variables aleatoires
sont representees par les dernieres lettres de l'alphabet latin ecrites en maju s-
[yIO].
On dispose d'un modele statistique parametrique des qu'on pose qu'une observable Y est distribuee selon un modele ti'echomiillonnaqe [yIO] OU seulement
le parameire 0 est inconnu, mais appartient a un espace 8, de dimension finie,
que la Iitterature scientifique appelle souvent ensemble des etats de la nature.
Toute conclusion sur une population statistique y implique d'une facon ou d'une
autre le parametre du modele d'echantillonnage choisi pour la representor.
Exemple 1.4 Si y est la concentration d'une substance indesirable dans un
milieu donne. On dit qu'une norme Yo est respectee si la probabilite de depassement est infcrieurc a une tolerance fixec. Un modele statistique pararnetrique
tres souple est la loi gamma (voir annexe B) dont la densite [yla,;3] implique un
parametre de forme, a > 0, et un parametre d'echelle, ;3 > o. La probabilite de
depasser la norme Yo est conditionnelle aux valeurs prises par ces parametres :
Pr (y
ou
r ;3et
(0:)
00
Yo
(1.3)
() == (G, (3) reste inconnu. Bien sur on peut, a l'aide d'une methode appropriee,
estimer une partie du plan IR 2 dans laquelle la vraie valeur de 0 a toutes les
chances de se trouver. Evidemment, plus on restreint ce domaine, plus lc risque
d'exclure la vraie valeur de 0 est grand (fig. 1.2). A contrario, plus on l'agrandit,
plus on a d'incertitude, car on a une valeur de la probabilite de depassement
pour chaque valeur de e. Certaines seront sous le seuil de tolerance admis, les
autres seront au-dess us. Finalement, comment decider ?
(0 ,0)
Figure 1.2 - Le par am et re d'un modele statistique bayesien est inconnu et incertain.
Pend ant un e bonne partie du XX e siecle, deux eccles de pe nsee se sont
opposees.
1.2 .1
L'ecole classique
e.
Pr fl -
OU
Zl-a /2
Zl -a /2
Z l -a /2
vna) = 1 -
0:
(1.4)
C 'est-a- d ire une fonction d es d onnees qu 'on ap pe lle encore un esti mateur .
T'heorerne central limite . To ute somme de n variables a leatoires in dependantes est un e
va riable a leat oire asymptotiquement norm al e.
3
4
(1.5)
ICa
= [V -
t(1-a/2),(n-l)
5n, V+
t(1-a/2),(n-l)
5nJ
(1.6)
an -
Exemple 1.5 Soit /1 la valeur attendue de la taille d'une jeune fille agee de
10 ans. Un echantillon de 54 eleves dans la classe d'agc [9.5,10.5] donne x ==
5 Un intervalle de tolerance porte sur une observable; un intervalle de confiance porte sur
un parametre,
6 SeE pour "L,(Yi - y)2, la somme des carres des ecarts a la moyenne.
1.2.2
L'ecole bayesienne
Exemple 1.6 D'apres une seric d'cnquetes, on estime a 39 Bq/rn'I la concentration moyenne en radon dans l'air intcrieur des habitations, avec des variations marquees d'une region a l'autre quand les maisons sont construites sur
des sols tres riches en uranium et/ou tres perrneables (source: Organisation
mondiale de la sante (OMS)). De nombreux pays ont fixe a 200-400 Bq/rn'I
la valeur a partir de laquelle des mesures doivent etre prises pour diminuer la
concentration en radon dans l'air a l'interieur des habitations. La concentration
ambiante peut varier fortement d'un jour a l'autre. C'est pourquoi il faut laisser
le detecteur sur place durant de 2 a 3 mois! Sans parler du cout, repeter dans
10
les memes condit ions une experience qui dure 3 mois n'est pas chose aisee ! II
est done plus qu 'int eressan t d'inclure de I'expertise dans Ie modele en postulant une distribution a priori pour Ie parametr e du modele d'echantillonnage
retenu .
On fait tourner la roue et on demand e a I'expert s' il prefere parier sur la valeur B :::; B1 plutot que sur la possibilit e que l'index fixe indique la partie ornbree
a l'arret de la roue. S'il prefere Ie premier pari (B :::; Bd on augmente l'angle au
centre a , sinon on Ie reduit . On repete l'operati on aut ant de fois qu 'il Ie faut
jusqu 'au moment OU les deux paris sont indifferents aux yeux de I'expe rt . Ace
moment , la probabili te qu 'il accorde a I'evenement B :::; B1 est exactement egale
au rapp ort cq. On recommence les operati ons avec B2 > B1 et B3 < B1 . Disposant des tro is couples (Bk ,pk = ak/2Jr ), I'an alyste peut deja essayer d'aj uster
une courbe pour tradu ire la fonct ion de reparti tion cumulee des probabilites en
fonct ion de B. Quelques valeurs suppl ementaires de B peuvent l'y aider. Enfin,
la derivee de cette courbe est le prior recherche [B].
Remarque 1.3 La construction du prior de I'expert a l'aide de la roue de
la fortune, c'est-a-dire une loterie, est appelee elicitation. Cette operation
11
n'est pas triviale, surtout si dim > 1, par exemple si == (/-l, (J") est Ie parametre d'une loi normale. Nous verrons bientot que d'autres representations,
plus commodes, mais sans doute moins riches, sont possibles. Dans tous les cas,
il faut interpreter le prior en termes de pari.
1.3
L' analyse statistique bayesienne se ramene fondamentalement a une inversion (Robert, 2006). En effet, elle vise a determiner les causes a partir des
effets. II faut bien comprendre que les causes sont reduites aux parametres du
mecanisme probabiliste generateur des donnees imagine par l'homme d'etude et
que les effets sont resumes par les observations disponibles. En d'autres mots,
le modelisateur voit les observations comme des tirages dans une loi statistique controlee par le parametre inconnu e. Une methode statistique permet
de deduire de ces observations une inference sur e. A l'issue de cette inference,
l'incertitude sur est quantifiee et la prevision des observations futures consiste
alors a utiliser Ie mecanisme generateur de donnees conditionnellement a e.
La figure 1.4 synthetise ce qui vient d' etre dit. Elle represente de trois
facons differentes la probabilite conjointe du parametre et de l'echantillon
Y == (Yl' ... ,Yn) avant son observation. A gauche, on a une representation du
prior qui peut etre interprete en termes causaux : la cause produit l'effet Y
(fleche vers le bas). A droite, on a une representation du posterior : disposant
de l'effet Y on infere la cause (fleche vers le haut).
000
[YIO][O]
[Y,O]
[0 I Y][Y]
12
1.3.1
La regle de Bayes
(1.7)
[y] =
Ie
[y, 0] dO
Ie
[yIO] [0] dO
(1.8)
Vne fois que l'on dispose des donnees, l'integrale (eq, 1.8) fournit un nombre
reel, la constante de normalisation, qui garantit que le posterior [ely] est bien
une distribution de probabilite.
1.3.2
[y*ly]
[y*, Bly] dB
(1.9)
Note 1.2 L'independance se notant avec le signe 1.-, l'independance conditionnelle entre y* et y est notee y* Ie 1.- y Ie ou y* l.-e y.
Exemple 1.7 Le tableau 1.1 donne la concentration en radon (Bq/rnd) dans
treize maisons du comte de Goodhue (Minnesota, Etats-Unis). Toutes les mesures ont ete enregistrees dans la cave, sauf celles indiquees par un asterisque
qui ont ete enregistrees au rez-de-chaussee ((Gelman et al., 2004), p. 195). Ce
qui interesse le decideur c'est la probabilite qu'une observation future, c'est-adire la concentration en radon dans une maison non encore visitee, depasse une
valeur guide fixec,
13
(1.10)
OU /-1 et T represent ant respectivement la moyenne et la precision.
Inferer Ie paramet re = (/-1, T) d'un e loi normale it partir d 'un echantillon
independant et identiquement distribue (hypothese iid est un probleme basique de la statistique. La figure 1.5 Ie resume bien. Les fleches rouges (trait
continu) indiquent Ie lien causal entre Ie parametr e = (/-1, T) et les observations Zl, , Zi, , Zn : chaque observation est vue comme Ie result at d'un
tirage aleatoire dans N (/-1, T) . L'inference renverse Ie lien causal et c'est ce
qu'ind iquent les fleches vert es (tir ets ). A la difference du stat ist icien classique,
Ie statisticien bayesien admet que = (/-1, T) est incertain. II y a done un sens
it lui attribuer une distribution de probabilite a priori, que la regle de Bayes
reactu alise it partir des observation s disponibles. La distribution a posteriori
de = (/-1, T) quant ifie cette mise it jour des connaissances.
Prior
14
adopte dans les calculs ci-apres est detaillee dans l'annexe A. Pour la moyenne
f-l sachant la precision T , on choisit un prior normal, localise sur m et de precision
kr , avec 0 < k < 1, car il est prudent de degrader la precision. Pour Ie parametre
de precision T , le prior tres flexible communement adopte est une dist ribution
gamma, de parametre de forme a > 0 et de parametre d 'inverse echelle b > O.
Les hyperparametres m , k, a et b sont a determiner de telle facon que le prior
conjoint reflete le savoir de l'expert , ici l'OMS .
La figure 1.6 represente le modele normal sous la forme d'un reseau bayesien
ou DA G (directed acyclic graph) . Nous aurons l'occasion de preciser cette notion
dans les prochains chapitres. Les donnees apparaissent dans des carres (ou
rectangles) alors que les quantites incertaines (parametres, observables) dans
des cercles (ou ellipses). L'empilement de feuilles symbolise l'echantillon : une
valeur par feuille. Dans un reseau bayesien, les fieches indiquent des relations
causales.
Le mecanisme generateur des donnees est done celui-ci :
- fournir a > 0, b > 0, k E ]0, 1[ et mE lR (expertise) ;
- tirer T dans Ga (a, b) puis tirer f-l dans N (m , kT) ;
- pour i allant de 1 a n , tirer Zi dans N (f-l , T) .
~
k
[TI/
D'un point de vue analytique, les calculs de la loi a posteriori sont relativement simples (voir annexe A, p. 267 et suiv.). En effet, a partir du modele
(1.10), la vraisemblance d' un n-echantillon iid normal est triviale et l'app lication de la regle de Bayes conduit aux resultats suivants OU Z et s2 representent
respectivement la moyenne et la variance empirique des observations. RappeIons l'essentiel des result at s donnes en ann exe A :
- le posterior marginal de Test une loi gamma, de par ametre de forme a' =
[n s 2 + 2b +
15
n'tk
(z - m)2 ] ;
le post erior marginal de J.L est une loi de Student a u' = 2a' degres de
liberte, localisee sur m' = (nz + km) / (n + k) et de parametre d'echelle
(J' = J b'/((n +k)a') ;
- la distribution predictive a posteriori de l'observable est une loi de Student
a v' degres de liberte, localisee sur m' et de para metre d'eche lle (J"
(J\ /n + k + 1.
1.3.3
Application numerique
2
-
Predictive : [z I y]
1\
1.8
J\
J \
- - - Posterior : [Il l yJ
1.6
) l
J I
I I
1.4
I
I
f
I
I
I
I
1.2
:;
a0.8
J
J
J
0.6
0.4
0.2
0
.J
0
!
I
!
f
45
\
I
I
l
I
I
I
1
I
l
)
\
\
6
16
1.3.4
Nous avons vu que la roue de la fortune permet d'illustrer le travail d'elicitation d'un prior. Sur de nombreux modeles et exemples, le chapitre 7 developpera les outils d'encodage du savoir de l'expert sous forme d'une distribution
de probabilite. Les deux proprietes statistiques suivantes sont regulierement
invoquees pour en faciliter la mise en ceuvre.
Quel que soit le moyen utilise pour construire le prior, il doit etre interprete
comme une succession de paris sur les valeurs du parametre, bien sur sans
mobiliser les donnees impliquees dans la vraisemblance.
1.4
Le choix bayesian
17
Model. SIal
d 'Occ urren ces
[yle]
Connaissance a priori
Connaissan ce mi se it
jo ur
(Exp erti )
Formule d. Bay
[e]
~
L_"'-
-"-_.
[B] [Y IB]
[BIY ] = J[B][Y IB]dB
e
....
I'~I
Mei lleure
prec ision sur
les
phenome nes
mconnus
donnees
Experime nt ales ,
Y~
{Y I' Y, . . . Y k }
1.4.1
18
du risque auquel s'expose l'usager. Chaque niveau de risque est defini par une
evaluation de la stabilite du manteau neigeux fondee sur une seric de criteres
et des consequences a assumer en cas d'avalanches. L'expert peut attribuer a
priori une probabilite Pk a l'indice k. Ce n'est pas plus arbitraire que de combiner des informations pour construire une telle echelle et la faire accepter par
les pays concemcs ; ce n'est pas plus arbitraire que de selectionner quelques indicateurs parmi les dizaines qui auraient pu etre choisis. L' activite scientifique
ne nie pas la subjectivite, mais elle vise son controls. Par consequent, tous les
resultats generes par une demarche scientifique sont toujours conditionnels aux
differents choix qui ont ete faits, qu'ils soient d'ailleurs peu ou prou justifies. Les
statisticiens bayesiens se distinguent par leur volonte de les decrire clairement.
1.4.2
Avantages
19
Epilogue
Ce premier chapitre a introduit l'idee que construire un modele statistique
parametrique revient a imaginer un mecanisme probabiliste susceptible de reproduire les observations. L'observable est une variable aleatoire pour laquelle
on postule une distribution de probabilite souvent nommee modele de connaissance. II s'agit en fait d'une famille de lois de probabilite indexee par un parametre inconnu de dimension finie. On le notera souvent B. Le choix d'un
modele de connaissanee est done une affaire dexperience matinee d'imagination et d'audace. Sous le paradigme bayesien, () est incertain mais prend ses
valeurs dans un espace de dimension finie, 8, appele ensemble des ciats de la
nature. Avant de disposer de l'echantillon de donnees, un specialiste du probleme etudie pourra souvent dire quelque chose sur (). II pariera plus volontiers
sur telle plage de valeurs que sur telle autre. Ainsi, l'incertitude sur () peut
etre decrite par une distribution de probobilite a priori ou prior. La regle de
Bayes reactualise cette expertise en multipliant le prior par la vraisemblance
de l'echantillon. Apres normalisation, le resultat obtenu est la distribution a
posteriori de B (ou posterior). Toute utilisation ulterieure, notamment l' aide a
la decision, sera fondee sur la distribution a posteriori de B.
Le fil conducteur de cet ouvrage pourrait se resumer par l'aphorisme de la
plume ala souris. En effet, naguere le modelisateur ne disposait que de ses idees,
d'un porte-plume et d'une feuille blanche. Aujourd'hui, l'ordinateur personnel
a remplace le porte-plume et demultiplie les capacites de traitement. Toutefois
qu'on ne s'y trompe pas! L'imagination et la creativite constituent toujours
les pierres angulaires du raisonnement conditionnel bayesien. Sans modele, le
stockage des donnees dans un ordinateur, meme performant, est improductif!
20
A contrario, l'art de la construction de modeles probabilistes ressemble a l'apprentissage de la musique : il faut commencer par le solfege. La premiere partie
de cet ouvrage propose l'etude des gammes, la seconde nous entraine vers des
partitions plus evoluees. Le chapitre 2 presente un probleme decisionnel complet, fonde sur un fait reel et tragique : I'avalanche de Montroc. Les modeles
sous-jacents - Ie modele beta-binomial et le modele gamma-Poisson - sont
calculables a la plume ,
Chapitre 2
Prologue
Quand on s'interesse a une experience aleatoire dichotomique, l'hypothese
que les observations successives constituent un processus de Bernoulli peut
etre justifiee, tantot par la nature de l'experience aleatoire (p. ex. jeu de pile
ou face), tantot constituer une hypothese de pure commodite pour voir.
Dans tous les cas, elle conduit au modele beta-binomial et, quand l'evenement
d'interet est rare, au modele gamma-Poisson. Ces modeles, tres simples, nous
permettent de construire un probleme fictif d'aide a la decision, fonde sur un
drame reel ayant fait la une des journaux : A urions-nous pu eoiier La catastrophe
de Montroc?
2.1
2.1.1
L'avalanche de Montroc
Les faits
a 3 mois
22
2.1.2
Mise en situation
2.1.3
Un probleme de decision
d2
p(h) X C 1
(1 - p (h))
(2.1)
X
C2
(2.2)
d1
d2
23
Etat de la nature ()
p (h)
01
0
1-p(h)
0
C1
Remarque 2.1 II n'est pas necessaire d'estimer ces couts avec une grande
precision. D'une part, le bon sens permet de soutenir que la destruction d'un
site habite coute plus cher que les non-recettes : C1 > C 2 . D'autre part, il est
recornmande de batir divers scenarii C 1/C2 et de considerer divers horizons
de prevision
h.
(h, g~)
10. Si,
a l'issue d'un raisonnement coherent, vous trouviez p (30) ~ 0.08 alors vous
devriez recommander la decision d 1 , car r ~ 0.87 < 1 (eq. 2.4). Et si l'an-
nee suivante une coulee de neige rasait le site, auriez-vous pour autant mal
travaille ? La reponse est categorique : non, car la probabilite est un concept
previsionnel, ante evenement. Si l'evenement rare se realise, vous n'avez tout
simplement pas eu de chance et il faut l'accepter. De telles situations se presentent dans la vie de tous les jours. Par exemple, la perte des quatre moteurs
d'un avion est un evcnement qui a une probabilite tres faible, mais cet evenement s'est produit et des gens sont morts. Bien entendu, le taux d'echec a
l'issue de demarches folkloriques est incomparablement plus eleve.
Remarque 2.2 Bien sur, il est possible de discuter la valeur du rapport C 1/C2 ,
car r augmente avec lui. Ainsi, sous les memes hypotheses, des que le rapport
des couts vaut 12 il faut recommander d 2 . On peut d'ailleurs faire une analyse
de sensibilite sur ce rapport.
2.1.4
24
(code 0) dans le cas contraire. A Montroc, on a releve six annees noires sur
la periods 1843-1992.
Le choix d'un modele d'echam.illonnagc (on dit aussi modele de population) fait partie des hypotheses de la modelisation, Entrent dans les raisons
de ce choix des considerations de cornmodite mathematique, de realisme et
de parcimonie des parametres. Tous les resultats obtenus sont necessairement
conditionnels a l'adoption de ce modele. Ce chapitre se limite aux modeles de
connaissance suivants : Ie modele binomial et le modele de Poisson.
2.2
2.2.1
x ==
LYt
t=l
25
est une variable aleatoire binomiale, de parametres n, 1T, dont la densite s'ecrit :
(2.5)
ou
n!
(~)==-(n - x)!x!
2.2.2
Le processus ponctuel de Poisson (voir annexe C) est un modele, un processus sans memoire, qui interdit les simultaneites et qui considere que les
occurrences apparaissant dans des intervalles de temps disjoints sont independantes.
a l. A chaque
[xln,1T]
(1Tn)X
x!
(1 _ ~) ... (1 _ ~) (1 n
1T)n
(1 - 7f)X
1T ----t
O.
26
AX
(2.6)
x.
En effet :
lim
n-+oo
(1 - ~) ... (1 - ~) == 1
n
lim (1 - 7f) X == 1
7r-+O
lim
n-+oo
(1- ~)n
n
=exp(-A)
AX
AX
L , {:} x=o
L ,x.
x=o x.
00
00
== exp (A)
L ,x.
x=l
No s'ecrit :
[xIA] ==
AX
-;y -ex-p-(A-)---1
r-;
dpois (yIAl)
(2.7)
~~
2.3
27
Inference bayesienne
2.3.1
Le modele beta-binomial
La vraisemblance
Rappelons que la vraisemblance mesure les chances d'observer I'echantillon
conditionnellement au parametrc. Pour l'avalanche de Montroc, le modele d'observation est la loi binomiale (eq, 2.5). La vraisemblance est donc immediate
(2.8)
Choix du prior et application de la regie de Bayes
Quand on regarde la vraisemblance (eq. 2.8), on reconnait immediatement la
signature fonctionncllc/ d'une densite de probabilite beta. On dit qu'un prior
beta est conjugue a une vraisemblance binomiale. La conjugaison a deja ete
abordee au chapitre 1 (p. 16) et sera davantage explicitee au chapitre 7.
Bien sur, il faut preciser les parametres du prior beta, disons a > 0 et b > 0 :
[Bla, b]
ex ga-l
(1 _
(})b-l
(2.9)
28
Comment determiner les hyperpararnetres d 'un prior beta? RappeIons que le parametre 8 (eq. 2.8) represente la probabilite qu'une annee calendaire, choisie au hasard, voit au moins une avalanche debouler sur le site de
Montroc . Ces annees noires sont plut6t rares, sinon Ie probleme de decision
n'aurait aucun sens. Pour l'exemple , imaginons qu'un specialiste des avalanches
accorde une chance sur dix a 8 de depasser la valeur 0.05 et cinq chances sur
cent, d'etre inferieure a la valeur 0.01. Ces paris lui sont propres et temoignent
de son savoir. Pour l'analyste, l'expert a fourni les quantiles 8go ~ 0.05 et
85 ~ 0.01. A partir de ceux-ci, une methode numerique lui permet de determiner les hyperparametres a et b: a ~ 3.82 et b ~ 124.1 (voir chapitre 7, p. 135).
Ces valeurs ne varient que si l'expert change d'avis, ce qui est son droit. Tant
qu'il ne Ie fait pas, elles sont connues sans incertitude.
La regle de Bayes reactualise cette expertise en tenant compte des donnees :
x = 6 pour n = 150. La distribution a posteriori de 8 est encore une densite
beta (interet de la conjugaison) , dont les parametres integrent l'expertise et les
observations, c'est-a-dire toute l'information disponible :
81k, n, a, b rv dbeta (81x + a, n - x
+ b)
(2.10)
40,---
-,----
---,---
----,-
0.01
0.02
0.Q3
----,-
,------
-,----
---,---
----,-
0.06
0.07
0.08
----,-
---.,
35
30
:B
25
~ 20
2
.~
~ 15
10
0.04
0.05
0.09
0.1
29
Je
(2.11)
(2.12)
Remarque 2.6 II est important de noter que la calcul de la distribution predictive a posteriori est realise en integrant un produit de distributions de probabilite, En d'autres mots, il faut tenir compte des constantes de normalisation.
p (h)
[Y 2 1Ih,a,b,n,x]
1 - [Y == Olh, a, b, n, x]
1- B(x+a,h+n-x+b)
B(x+a,n-x+b)
(2.13)
30
h = 5 ans
08
0.6
~ 0.6
:c
m
0.4
0.4
0.2
0.2
4
1
2
3
Nombre d'arneesnoires :y
h = 20 ans
0.5
0.4
9 10
h =30ans
0.3
'"
z 0.3
02
02
o,
0.1
0.1
0
1 2 3 4 5 6 7 8
Nombre d'arneesnoires : y
0.4
.QJ
h = 10 ans
0.8
5
10
15
Nombre d'aonees noires : y
20
5
10
15
20
25
Nombre d'annees noires: y
30
Figur e 2.2 - Avalanche de Montr oc : dist ribut ion de Polya pour quatre horizons de
prevision.
D iscussion
2.3. 2
La distribution a posteriori
Si on considere que la periode 1843-1992 est la periode unite (150 ans), alors
l = 1 (eq. 2.7) et la vraisemblance s'ecrit (eq. 2.6) :
[X = XIA] ex AXexp (- A)
(2.14)
20.----
- .-
,...---
- .-
,...---
31
-,
18
16
14
10
15
20
25
(2.15)
32
(2.17)
ou
7r
== h~1~b'
r == x
+a
(2.18)
Dans le cas de Montroc, meme avec des priors non informatifs, les modeles
beta-binomial et gamma-Poisson produisent une aide a la decision vraiment
similaire a celIe montree a la figure 2.3.
Epilogue
Dans un contexte decisionnel, lorsque les enjeux sont importants, la quantification du risque attachee a chacune des decisions en competition est une
etape obligatoire. Dans cette perspective, la modelisation statistique bayesienne
mobilise les donnees disponibles et l'expertise reconnue pour fournir une information utile au decideur. La credibilite du paradigme bayesien reside dans sa
transparence et dans la rigueur de la demarche. Les hypotheses sont sur la
table et la regle de Bayes assure la coherence du raisonnement. La puissance
de cette approche est renforcee par la distribution predictive a posteriori qui
n'a pas d'equivalent classique. Ainsi, la distribution de Polya est la distribution
predictive a posteriori du modele beta-binomial. Ce dernier permet de traiter
des problemes OU l'observable est une variable aleatoire dichotomique : I'evenement d'interet se realise ou ne se realise pas. Ce modele est approprie quand
la succession des observations constitue un processus de Bernoulli, le nombre
d'essais etant fixe. La loi de Poisson etant un cas limite de la loi binomiale, le
modele gamma-Poisson s'applique quand l'evenement dichotomique d'interet
est rare. Sa distribution predictive a posteriori est la loi binomiale negative.
Meme si l'hypothese processus de Bernoulli n'est pas toujours facile a justifier, ces modeles simples (mais pas simplistes!) sont utiles. Ainsi, la tragedie
de Montroc nous a permis de batir un contexte decisionnel, certes fictif, mais
riche d'enseignements. Bien que critiquable, la quantification du risque realisee
ci-dessus a du sens. En tout cas, elle aurait pu alimenter les debats et influer
sur la decision finale.
Une decision est rationnelle s'il est clairement etabli qu'elle participe a la
satisfaction de l'objectif declare en respectant un certain nombre de principes
juges essentiels. Ainsi, la clarte du dialogue entre l'analyste et le decideur ; la
pertinence des informations et le respect du cahier des charges sont des exigences qui nous semblent incontournables (Bernier et al., 2000). L'acceptation
de la methode par toutes les parties n'est pas la moindre des difficultes, Elle
repose en partie sur la comprehension qu'elles en ont et la representation graphique du modele va dans ce sens, C'est ainsi que Ie chapitre 3 precise la notion
de reseau bayesian et introduit les variables latentes et la modelisation hierarchique.
Chapitre 3
Introduction a la
modelisation graphique
Ie modele de
capture-recapture
Prologue
Les modeles graphiques associent la theorie des graphes, qui modelise des
reseaux, a la theorie des probabilites, qui quantifie l'incertitude. L'idee fondamentale est la modularite : un modele complexe est construit en combinant
des modeles simples. Les modeles graphiques eclairent parfaitement la notion
dindependance conditionnelle. Le modele dit de capture-marquage-recapture
constitue un exemple pedagogique d'autant plus intercssant qu'il recoit de nombreuses applications pratiques dans les sciences naturelles et humaines.
3.1
Introduction
34
des cercles ou des ellipses. La fleche indique une relation de filiation . En vocabul air e graphique, 8 est le nceud parent et Y est le nceud enf ant. Des que l'on
fixe 8 on peut generer des valeurs y de l'observable Y . C'est en ce sens que 8
joue le role d'une cause et que l'observation y joue Ie role d 'un effet ,
Apprendre quelque chose sur 8 revient a cherch er la loi conditionnelle de 8 sachant l'observation y en mobilisant eventuellernent une certaine expertise sur
8. Cela revient a invers er Ie sens de la fleche pui squ 'on remonte de l'effet vers
la cause (fig. 3.1).
Parame trc
Modele
Observ able
Inference
Observ ation
'* E(Y) =
1/8
(3.1)
La figure 3.2 montre un DAG plus sophistique. Les fleches doubles indiquent
des operations logiques. Par exemple, p~ = P2 - m 2, r/ = T"J - ml . Les valeurs
fixees son t representees par des carte s ou des rect angles. Ainsi , P2 est une
const ante.
3.1.1
Dans la section 1.4 nous avons justifie Ie choix bayesi en , mais nous ne nous
sommes pas encore vraiment interreges sur la pertinence de l' approche probabilist e. En fait , si la st at ist ique permet d 'interpret er un phenomene naturel,
elle ne l'explique pas (Robert , 2006)! L'exemple suivant va nous permettre
d'illustrer le propos.
3. Introduction
a la modelisation graphique
35
100
satcme
Jupiter .
10
ars +
Venus .
Mercu re
10
36
ln c, == In17+jJlnTi +ci,
e,
rv
iid
dnorm(O,a)
ic
jJ
17
a
2.5
0.650
0.976
0.014
50
0.665
1.003
0.025
97.5
0.681
1.032
0.065
3.2
Le lecteur interesse trouvera dans (Cowell, 1998) une excellente introduction a la modelisation graphique, notamment l'exemple 3.3 dont sont issues les
figures 3.7 a 3.9.
3.2.1
L'independance conditionnelle
La figure 3.4 illustre la notion tres importante d'independance conditionnelle. Pour apprendre quelque chose sur Z, il n'est pas necessaire de considerer
Y si on dispose de X.
On notera
(ZIX == x) .L (YIX == x)
ou, plus simplement
(3.2)
(Z 1. Y)
IX
37
(3.3)
[ZIY == y, X == x] == [ZIX == x]
(3.4)
A contrario, la figure 3.5 montre que pour apprendre quelque chose sur Z
il faut considerer les noeuds X et Y.
38
3.2.2
Du reseau bayesien
a la
loi conjointe
(3.5)
Pr(U)
==
IIpr(Xlpa(X))
x
(3.6)
3. Introduction
a la
modelisation graphique
39
(3.7)
II est interessant de noter que la marginalisation sur un nceud sans descendant revient a enlever ce nceud du reseau ainsi que tous les liens y aboutissant.
Par exemple en marginalisant sur le nceud H (fig. 3.8) :
Pr (A, B, G, D, E, F, G, I) ==
:L Pr (U)
(3.8)
(3.9)
En d'autres mots, disposant de l'information pa (E), un apport d'information sur nd (E) ne modifie pas l'incertitude sur E.
40
= PI' (EIA, B , D , G)
(3.10)
00 0
r!J t5'(j
K
~
\8
3 .2.3
Un modele st atisti que bayesien est utilement represent e par un DAG . Les
qu ant ites incert ain es constituent des noeuds stochas tiques. Les parametres du
mo dele sont des nceuds san s par ent et les observables sont des nceuds sa ns
enfant . Tout nceud stochastique qui n 'est ni un par am etre ni une obser vable
est une vari able lat ente. Ainsi, dan s la sect ion suivante, nous verr ons qu e le
cardinal! d 'un ensemble qu 'on ne peu t recenser apparait comme une varia ble
latent e dan s le mod ele dit de copture-m arquaqe-recopture. Le plu s souvent, l'int roduct ion de ce ty pe de variable dans le modele est justifiee pa r le souci de
prendr e en compte des influences cachees qui affectent l'observable (voir chap.
8). Quan d on le peut (c'est une question de clarte du DAG ), les paramet res
du mod ele forment la couche super ieure du DAG et les observa bles, la couche
inferieure, Les variables latentes constit uent une couche interrnedi aire, pri se en
sa ndwich ent re les par am etres et les observables, qui confere au modele une
st ructure hierarchique.
1
3.3
41
Le modele de capture-recapture
Remarque 3.1 Bien que nous soyons encore formellement dans la premiere
partie de cet ouvrage, nous devrons utiliser l'ordinateur pour resoudre le modele
de capture-marquage-recapture. Que le lecteur veuille bien ne pas trouver la
une incoherence de notre part. La locution de la plume a la souris doit
etre comprise comme un cheminement et non comme une separation nette.
Le recours a l'ordinateur est done preponderant dans la seconde partie de cet
ouvrage sans etre completement exclu de la premiere.
3.3.1
Mise en situation
Le recensement est une operation statistique de denombrement d'une population generalement realise a des fins decisionnelles. Les premiers recensements
connus ont eu lieu des l'Antiquite, notamment a Rome, dans le but de connaitrc
la richesse du pays, afin de repartir l'impot. Mais une telle operation exige du
temps et consomme des moyens importants quand elle n'est pas tout simplement impraticable. Uno alternative au recensement consiste a estimer la taille
de la population d'interet a partir d'un double echantillonnage. On preleve au
hasard, c'est-a-dire on peche'', un certain nombre d'individus que l'on remet
dans leur milieu apres les avoir marques d'une manierc quelconque. Apres brassage, un second echantillonnage fournit un lot d'individus dont certains sont
marques - ils sont recaptures - d'ou la denomination du modele. Sous certaines conditions, les effectifs des deux peches et les recaptures suffisent pour
obtenir la distribution a posteriori de la taille de la population rl'interet. Ce
3.3.2
La modelisation
Soit a estimer la taille, 1], d'une population donnee. II peut s'agir du nombre
de poissons dans un lineaire de riviere, du nombre de sans-abri dans une ville,
du nombre de chenes dans une foret, du nombre de declarations suspectes dans
le ressort d'un percepteur, etc. En d'autres mots, 1] est le cardinal inconnu d'un
ensemble bien defini qu'on veut inferer.
Une premiere peche fournit un certain nombre d'individus que l'on
marque d'une maniere quelconque avant de les relacher dans leur milieu.
Soit ml ce nombre. Lors d'une seconde peche on prend P2 individus dont
m2 sont marques, c'est-a-dire recaptures.
2 Ce modele est tres utilise en pisciculture, notamment pour contr6ler des peuplements ou
s'assurer de I'efficacite des mesures de repeuplement.
42
Hypotheses
7T
(3.11)
a la
3. Introduction
modelisation graphique
43
Le DAG montre a la figure 3.2 (p. 35) representait, sans le dire, ce modele
dans lequel TJ I == TJ - m1 et P2' == P2 - m2
Puisque la distribution conjointe d'un reseau bayesien est egale au produit
des distributions de chaque nceud stochastique sachant ses noeuds parents, on
a:
En posant"
(3.18)
la vraisemblance s'ecrit :
\]
TJ!
S (
[S, C I1f, A,
TJ ex: (TJ _ c)! 1f 1 -
1f
)2TJ -
(3.19)
Un prior non informatif pour nest uniforme sur [0,1] et un prior non informatif pour A est proportionnel a A-1. Enfin, TJ est tire dans une loi de Poisson
de parametre A. En substituant dans 3.17, il vient :
[TJ, n , AIs, ]
c
ex:
A17-1exp(-A) S(
(TJ _ c)!
1f
1-
()
)217-s
1f
1'12C
TJ
(3.20)
Une double integration par rapport aux parametres n et A fournit la marginale a posteriori de TJ :
1
f(TJ)
(3.21 )
a N,
repeter :
+ 1, 2TJ - s + 1) ;
44
Remarque 3.2 La fonction factorielle rend l'infini pour les grands entiers naturels (sur mon ordinateur, x! E N {:} x ~ 170). Un changement d'unite est
possible (par exemple, travailler en dizaine d'individus) a condition de remplacer la fonction factorielle par l'integrale d'Euler.
- La constante de normalisation s'ecrit :
K = B (8 + 1, 2c _ 8 + 1) +
LJ
1]=c+l
B (8 + 1, 21] - 8 + 1)
(17 - c) B (c, 17 - c)
(3.22)
[1]18, c] =
-k B (s + 1, 2c - s + 1) {:} 17 ==
K(~-c) B (8 + 1, 21] -
8 + 1) / B (c, 1] - c) {:} 1]
>c
(3.23)
m2
ml-m2
ill
P2 -m2
Total
P2
Total
17 - ml - P2 + m2
17 - P2
ml
17 - m.;
17
c
1r'2
(1 - 1r) 1r
m
1r (1 - 1r)
(1-1r)'2
Des lors, les effectifs du tableau 3.2 sont vus comme le resultat de 17 tirages
independants dans une loi multinomiale de parametre
La figure 3.10 montre Ie DAG dans lequel y represente Ie vecteur des effectifs. Clairement, 1r .L A. Le prior de 1r est une distribution beta de parametres
a et b et celui de A est une distribution gamma de parametrc p et q. Ils sont
non informatifs en posant p == q == 0 et a == b == 1.
3. Introduction
a la modelisation graphique
45
La vraisemblance s'ecrit :
[yl1T,7]J
ex:
7]!
1T s (1_1T)2 rJ(1] - s + m2)!
(3.24)
3.3.3
Applications
1. les DO enregistrees dans les directions departementales des affaires sanitaires et sociales (DDASS) des trois departements de la Basse-Normandie;
2. les enregistrements d'isolement de Mycobacterium tuberculosis (MT) sur
l'ensemble des laboratoires d'analyse medicale (LAM) de Basse-Normandie.
Cette enquete, du type retrospectif, est fondee sur les cas pediatriques identifies entre le 1er janvier 1992 et le 30 juin 1993.
Les resultats sont les suivants (tableau 3.4) OU :
- R == 6 est le nombre de cas diagnostiques selon la source 1 (DO);
- S == 8 est le nombre de cas diagnostiques selon la source 2 (LAM) ;
- C == 4 est Ie nombre de doublons.
Pour estimer le nombre de cas, N, les auteurs utilisent les formules elaborees
par Chapman et Seber en 1949 :
46
LAM
LAM
Total
DO
DO
Total
N2
N1
ic...;
N ZI-a/2VVar (N)
(8+1)(R+1)
-1
C+ 1
(8 + 1) (R + 1) N 1N2
(C+1)2(C+2)
Var (N)
(3.25)
(3.26)
(3.27)
Les resultats sont les suivants: N == 11.6, Var (N) == 3.36 et les bornes d'un
intervalle de confiance a 90 % sont respectivement 8.6 et 14.6 cas. Notons que
les auteurs les presentent de facon un peu plus optimiste puisqu'ils concluent :
par la methode capture-recapture, le chiffre des tuberculoses pediatriques
est cstime a 11, le calcul de la variance donne un ecart de ce chiffre de plus ou
moins 3 (11 3) .
Avec prior non informatif, le modele de capture-recapture developpe donne
les resultats suivants :
a == 0.1
N
1T
Pa/2
10
0.30
Pso
13
0.55
Pl-a/2
20
0.75
1994
Cette etude (Deparis et al., 1997) est fondee sur deux systemes reglementaires de surveillance epidemiologique :
- le recueil et l'exploitation des donnees epidemiologique des arrnees (REDEA);
- la surveillance epidemiologique specifique du pal udisme (SESP).
Ces deux sources de donnees sont supposees independantes (tableau 3.6).
Pour estimer Ie nombre de cas, X, les auteurs utilisent les formules elaborees
par Chapman et Seber en 1949. Soit a le nombre de cas declares dans les
3. Introduction
REDEA
REDEA
Total
a la
modelisation graphique
SESP
SESP
Total
238
186
424
242
480
47
(a+b+1)(a+c+1) -1
a+1
(a + b + +1) (a + c + 1) bc
(a+1)2(a+2)
Un intervalle de confiance
mateur X) :
a 95 % suit
(3.28)
(3.29)
le95 == x 1.96sx
Sur cette base, l'incidence annuelle du paludisme s'eleve
intervalle de confiance a 95% egal a [803, 905].
X
7r
q5
Q50
Q95
750
0.42
860
0.52
1030
0.63
(3.30)
a 853 cas
avec un
Epilogue
Un modele statistique bayesien mime la nature en ce sens qu'il vise a genercr
des donnees similaires aux observations reelles. Ce faisant, il permet d'interpret.er le phenomene d'interet, souvent dans une perspective decisionnelle. Un
roseau bayesien ou DAG est une representation graphique astucieuse du modele.
D'une part, il aide a sa conception: d'autre part, il favorise la multidisciplinarite, car le dessin est un langage accessible a tous. Dans le DAG, un parametre
est un nceud stochastique sans parent et une observable, un nceud stochastique
sans enfant. Les variables latentes sont des quantites incertaines, qui ne sont ni
l'un ni l'autre. Elles constituent une couche interrnediaire, prise en sandwich,
entre les parametres et les observables. Une Heche indique un lien causal entre
48
Chapitre 4
Pratique du calcul
des lois a posteriori
Prologue
Qui dit modeles rcalistes, dit aussi difficultes calculatoires. Le but de ce quatrieme chapitre est de donner un apercu des principales familles de methodes
d'approximation des distributions a posteriori. Dans lc cas tres particulier OU
le prior est non informatif et que la taille de l'echantillon est grande, la densite a posteriori peut etre approchee par une loi normale multidimensionnelle.
Cette approximation asymptotique repose sur les proprietes des estimateurs
du maximum de vraisemblance (section 4.2). A l'erc des ordinateurs personnels
puissants, cette approximation - fondee sur des hypotheses assez restrictives est avantageusement abandonnee au profit des methodes numeriques stochastiques. Ce sont d'abord les methodes de Monte-Carlo par chaines de Markov
(MCMC). Ces techniques de simulation avec dependance sont presentees en
section 4.3, notamment l'algorithme general de Metropolis-Hastings et Vechantillonnage de Gibbs. Ces deux algorithmes sont d'ailleurs implantes dans Ie
logiciel WinBUGS. Les techniques classiques de simulation avec independance
ou methodes de Monte-Carlo (MC), issues de l' echantillonnage potidere, avec ou
sans re-echantillonnage, ont eu plus rccemment des developpements importants
sous le nom generique de methodes des particules (section 4.4).
4.1
Introduction
50
Wly]
l WIB]
[Bly] dB
(4.1)
Je h (B) [Bly] dB =
a calculer
(4.2)
~ Lh (B i )
i=l
~ ~ h (B i ) ~ E (h (B) Iy) =
---+ 00
h (B) [Bly] de
(4.3)
1 La convergence presque sure est analogue a la convergence simple de l'analyse mathematique, sauf en quelques points. Elle entraine la convergence en loi.
51
Remarque 4.1 Les processus stochastiques sont des modeles permettant d'etudier les phenomenes aleatoires evoluant au cours du temps. Parmi ceux-ci, les
chaines de Markov sont les modeles (a temps discret) les plus simples, lorsqu'on
abandonne l'hypothese dindependance. Pour plus de details, on consultera avec
profit (Foata et Fuchs, 1998).
Remarque 4.2 II importe de remarquer que la formule 4.3 s'applique tout
aussi bien au calcul d'une probabilite P(A) == Prob(() E A) par Ie biais d'une
c
.
. di
. h(O) == I A (0) == 01 si
.
tonction
In
icatrice
si e
eE
t/:. A A
' puisque
:
Prob(B E A)
IA(B) [Bly] dB
(4.5)
52
vers sa cible. Par exemple, l'histogramme marginal normalise de chaque composante de () approche d'aussi pres que l'on veut (en augmentant Ie nombre de
simulations N) la loi marginale a posteriori de cette composante.
WinBUGS est donc un excellent outil pedagogique qui peut certainement
resoudre pas mal de vrais problemes. Mais, comme ses concepteurs, nous defendons l'idee que l'emploi intelligent de la souris demande un minimum de
comprehension des methodes sous-jacentes. Elles sont indispensables a l'etudiantjchercheur qui souhaite ecrire ses propres codes, par exemple en R (R
Development Core Team, 2009).
Le lecteur interesse par lcs fondements theoriques et les subtilites des methodes de calcul bayesien consultera avec profit les ouvrages specialises, notamment : (Tanner, 1996), (Robert et Casella, 1999), (Chen et al., 2000), (Gelman
et al., 2004), (Robert, 2006), (Parent et Bernier, 2007).
4.2
[yl()]
[()Iy, a, b] ex
()n+a-l exp (-
(ny + b)B)
53
[OIY, a, b] ex [yIO]
=?
In [OIY, a, b] == In [yIO]
+ cte
Exemple 4.2 Dans l'exemple 4.1, un prior vague est obtenu en faisant
tendre les parametres a et b vers o. La forme analytique de la densite a
posteriori devient
[Oly] ex on-l exp (-nyO)
Quand nest assez grand, alors n et n - 1 possedent le meme ordre de
grandeur : on retrouve alors Ie lien Iineaire approximatif entre la log
densite a posteriori et la log-vraisemblance.
4.2.1
a posteriori
Dans un probleme realiste, la quantite de donnees n'est jamais infinie. Dire
que la taille n de I'echantillon est grande est une assertion reposant sur les proprietes asymptotiques du modele en main. Ces proprietes ont ete utilisees tres
tot en Statistique. Le premier utilisateur en a ete Laplace qui, independamrnent
de son auteur historique, a retrouve la formule de Bayes et utilise les principes
dinference bayesiens (Sivia, 1996). L'interet de ces proprietes asymptotiques
est d'etablir une relation lineaire approchee entre la Iog-densitc a posteriori
et la log-vraisemblance. Cette relation Iineairc est fondee sur des hypotheses
generales concernant cette vraisemblance lorsque n est grand. Nous en faisons
une presentation heuristique avant de preciser les conditions theoriques qui en
assurent la validite pratique. Pour simplifier, nous ne traiterons ici que le cas
d'un echantillon d'observations suppose iid. Nous le noterons y == (Yl, ,Yn).
54
[y] =
[yle] [e] de
+ In [e] + cte
(4.6)
e;,
e;
In[ely]
In [yle~] + (e -
~ (e _ e*) 2 8 In [yle]
+2
-l-In
8e
8 In [e] I
+ 8e 2 ()=::()Z
[e;] + cte
"-v--'
cte
e;, sa derivee
e; :
1 ( e- e
Ay ) 2 8
In[ely] ~ In [yleAy ] + 2
ae 2 In[yle] Io=iJ + cte
y
vraisemblance
0) .
En posant
55
on obtient
(4.7)
Remarque 4.3 Le terme P
script en le notant
(By)
Py .
[ely]
(4.8)
By et de precision P (By) :
Exemple 4.3 On verifie sans peine que l'estimateur du maximum de vraisemblance d'un echantillonnage exponentiel iid est {) ~ l/Y. Un developpement de
Taylor jusqu'a l'ordre 2 de la log-vraisemblance autour de {) s'ecrit
In [yle] =In
OU
[YIB] - 2~2
(e-ef +o(h)
h---+O
(4.9)
(4.10)
56
15 r---,-------.------.---,--,r==
-
10
II
c::
= = =======n
1-
Posterior gamma
- Approximation normale
\~
5
b
/
0.05
3 ,----,-
0.1
------.-
2
(r)
II
c::
0 ---
0.15
-----.--
0.2
0.25
0.3
0.35
0.4
0.45
- ,-
- ,-
-,--
--,--
---,---
---,------,
/ - --- ./
0.5
.........
---"-=~-
- - - Posterior gamma
- - Approximation normale
0.05
01
0.15
0.2
0.25
0.3
035
0.4
0.45
0.5
+ cte
(4.11)
Dans cet te expression, P est une matrice sym etrique definie positive, dite
matrice de precision . Son terme genera l s'ecrit :
P' 'J -- _ aaoIn[y
ao,OI I
2
o=O y
(4.12)
(4.13)
57
au Ip I est
le determinant de Ia matrice
p.
Exemple 4.4 Soit un n-echantillon iid selon une loi normale de parametrc
n In T
In [yIO] == 2"
nr
2
2+ (fj - J-L) 2)
( Sy
Le mode
By est
==
.!!:- _
2T
!!
2
solution du systeme
La matrice de precision
Py
suit
4.2.2
Preambule
- La recherche des extrema est fondamentale en statistique.
Definition 4.1 Soit f une application de classe C2 definie sur JRd a valeurs dans]R et soit x == (Xl, ... ,Xd) E ]Rd. On appelle matrice hessienne
de f en x la matrice des derivees partielles secondes, c 'est-a-dire la matrice H (x) de terme general :
(H (x )) ij --
8 f(x)
8Xi8xj'
.. -
'l,
J -
1 2
d
, ,"',
58
e,
I (e) == -E {H (e)}
oii l' esperance est prise par rapport
a l' observable Y.
Fondements Les formules heuristiques precedentes sont fondees sur la theorie asymptotique du maximum de vraisemblance (Berger, 1985).
8 In [yle]
8e
== 0
qui converge en probabilit vers 00 quand n ---+ 00. De plus, le vecteur By-Oo
converge en loi vers une distribution normale multivariee, localisee sur 0 et de
matrice de precision eqale a la matrice d'information de Fisher I (eo) .
Complements
- En suivant (Berger, 1985), la matrice de precision P (eq, 4.12) est appelee matrice d'information empirique. Elle peut etre utilisee comme approximation asymptotique de la matrice de Fisher dans une expression
approchce de la distribution a posteriori des parametres.
- L'information de Fisher d'un n-echantillon iid est simplement
(4.15)
1 2
/
(4.16)
a une
59
-n
fL - Y
j.L-Y]
2~2
== n
[~
1],
27 2
[j.L, T]
VT
On remarquera que ce n'est pas Ie prior obtenu quand on fait tendre les parametres d'une loi gamma vers zero.
En fait, les composantes du vecteur () apparaissant dans la matrice de Fisher
sont inconnues. Aussi, on peut remplacer () par son mode O.
e= (fJ, l/s~)
Ie
n [1/;~
SD2]
4.2.3
Exemple 4.6 Operation Sources", Soit un n-echantillon iid issu d'une population gamma, de parametre de forme a > 0 et de parametre d'echelle inverse
(3 > o. II s'agit ici de la concentration en nitrates relevee dans n == 94 points
d'eau repartis sur le territoire belgc en mars 1994. Les moyennes geornetrique et
arithmetique des observations etaient respectivement 9 == 25.4 mg/I, fj == 39.3
mg/I. On demande d'estimer lc posterior par une loi normale bivariee ainsi que
la probabilite 1r qu'une nouvelle observation depassc la norme Yo == 50 mg/I
(fig. 4.2).
L'operation Sources , initiee par le Pr Louis De Backer (DeL), consiste a evaluer la
qualite des eaux souterraines belges par un test colorimetrique realise par les enfants des
eccles primaires. La fiabilite du test est controlee par un titrage des nitrates au laboratoire.
3
60
r>.
Figur e 4.2 - Op eration Sources : un mod ele gamma pour la concent ration en nitrates.
Soit y , un n-echa nt illon iid issu d 'une population ga mma de par am etre de
form e 0: > 0 et de param etre d 'echelle fJ > o.
Posons e = (o:, fJ). La vraisemblance s'ecrit :
[yle]
gr
n
fJD:
a;~Ii) = n ln fJ + n ln g - mp (0:);
= n o:fJ- l - ny ;
a;~ )
61
ou rljJ (a) et rljJ' (a) sont respectivement les fonctions digamma et trigamma (disponibles dans R). Rappelons qu'elles sont definies comme :
(4.17)
La matrice hessienne s' ecrit :
He == -n ( rljJ'
(a)
_(3-1
Le mode {} =
== In g
3
e ~ 10
0,11
-2.87
-2.87)
112.83
0=
(a, i3) et
4.2.4
7f
S 0.36) == 0.95
62
0.045
14
12
0.04
10
0.D35
c::l.
0.03
4
0025
2
002
0.8
1.2
1.4
0
01
1.6
02
a.
0.3
0.4
Pr(y > Yo)
0.5
"2n In 7
"27 ,,",
~ (Yi
- a - ,8Xi )
+ cte
i= l
~~X2
x2
~ (Yi - a - ,8xi)2
1 n
(Xi - x)2
sce( a , ,8)
:; : L
s;
i=l
-n L (Xi - x) (Yi - Y)
S xy
i= l
= 7~ (Yi - a - ,8xi )
o~~) = 7~ (Yi
0(1I)
oinT
4
- a - ,8Xi) Xi
2 sce
!l _ I.
63
o, =
( "
0:,
(3, T' ) =
( _
' _ Sx y
Y - (3x
,- 2 '
Sx
n
"
see(o:,(3)
La matrice hessienne
-nTX
-nTx 2
TE (Yi -
(3Xi ) Xi
0: -
1(0) = - E (H o) = tir
(X
= :2
o o
~)
1/2T
P_
n2
- see(& , S)
(1
xx2
0
'C<l~'P)
On peut par exemple t irer N valeurs au hasard seion la commande WinBUGS dmnorm (0 ,
dont les histo grammes norm alises peuvent et re compares avec les densites margin ales a posteriori que l'on connait ici exactement
grace aux proprietes de conjug aison :
p)
64
a v = n - 2 degres de liberte,
centree sur ~ et dont le parametre d'echelle est c =
(nvs~) ;
- a est distribue selon une loi de Student a v degres de liberte, centres sur
Vsee/
cJ ~L,XT ;
see.
Exemple 4.7 La distance lineaire entre deux points d'une carte (variab le x)
permet d'estimer la longueur du trajet reel (variable y) (tableau 4.1, figure 4.5).
x
y
x
y
9.5
10.7
9.8
11.7
5.0
6.5
19.0
25.6
23.0
29.4
14.6
16.3
15.2
17.2
8.3
9.5
11.4
18.4
21.6
28.8
11.8
19.7
26.5
31.2
12.1
16.6
4.8
6.5
22.0
29.0
21.7
25.7
28.2
40.5
18.0
26.5
12.1
14.2
28.0
33.1
/
/
40
/
/
35
/
,+
30
ur
25
Jij
o'"
/
/
20
15
+
+
/
+
+/
10
o"'-----"-o 5
c'::-----" c------,-'=----,:'::----::"::--,':--'-----'
10
15
20
25
30
35
40
45
Distance lineaire
Figure 4.5 - Le mod ele lineaire : distance par la route, Y , et distan ce sur la carte, x .
65
e~
P ~ 3.37
1
16.13
16.13 311.32
2~7
p)
::f ~~
, J
!
-4
-3
-2
-1
a.
':[, : ~ :
08
0.9
1.1
1.2
1.3
1.4
1.5
J
1.6
R>
1~=:::
o
01
02
0.3
0.4
0.5
0.6
0.7
4.2.5
On retiendra
66
4.3
4.3.1
Mise en contexte
4.3.2
Soit 0== (01 , ... ,Od)T E e le parametre d'un modele statistique parametrique (dim e == d) et soit y un n-cchantillon. appelons f (0) le produit non
normalise de la vraisemblance par lc prior :
des sauts aleatoires dans e a partir d'un point initial, 0, choisi arbitrairement.
Soit Oi-l la valeur retenue a l'etape i-I. A l'etape i, a partir du point Oi-l,
on fait un nouveau saut aleatoire J, qui propose le candidat 0*. La procedure
de selection est la suivante.
1. On calcule le rapport
(4.20)
2. On realise un tirage aleatoire dans une loi uniforme
valeur u.
3. Si r 2: u alors Oi
+-
0* sinon Oi
+- Oi-l.
U[O,l]
qui donne la
67
Remarque 4.4 Si la loi instrumentale est symetrique, c'est le cas d'une loi
normale multivariee, le second facteur du rapport rest toujours egal a l'unite.
Dans ce cas, puisque la fonction logarithme est strictement monotone, la regle
de decision devient :
3'. Si In r == In f ((}*) - In f
((}i-l) ~
In u alors
(}i
f--
(}* sinon
(}i
f--
e':',
Reglages
1. Pour ce qui concerne le point initial, en theorie, n'importe quel point de
8 convient. En pratique, il est judicieux de choisir un point qui favorise
une convergence rapide de la marche aleatoire. Partir du mode de la logdensite s'il est facilement accessible est une option tres pragmatique.
2. La force des sauts aleatoires est reglee par la variance de la loi instrumentale. Une loi normale multivariee, localisee sur le mode et de variance
connue, permet d'explorer 8. On pourrait prendre l'inverse de la matrice
de precision de la methode asymptotique ~ == p-l. En fait, il est prudent
de degrader quelque peu cette matrice de precision afin de bien explorer
l'espace 8. (Gelman et al., 2004) proposent de prendre:
Vd p
:E- 1 =
(4.21 )
2.4
3. Enfin, ces memes auteurs proposent de juger la performance d'un algorithme MH en regardant le taux d'acceptation des candidats. Avec une
loi instrumentale d-normale (c'est-a-dire multivariee de dimension d) ce
taux devrait etre de l'ordre de 0.44 si d == 1 et dccroitre avec d jusqu'a
atteindre ~ 0.23 pour les grandes valeurs de d (disons d > 5).
Exemple 4.8 La taille y de 15 garcons ages de 10 ans est vue comme un nechantillon iid normal, de moyenne M et de precision T (tableau 4.2). Le prior
suivant est informatif mais ne permet pas une solution analytique : M .L T,
M r-; dnorm (m, c), T
dgamma (a, b) au m == 140, c == 0.25, a == 0.002 et
b == 0.04.
r-;
133.2
135.6
141.7
137.1
145.7
154.1
138.1
146.5
140.4
131.1
131.8
146.1
152.6
131.2
124.4
+a
1) In T
2tir
Sy
+ (M -
Y) 2) - "2C (M - m) 2 - br
+ cte
68
e = lR x lRt
() rv
OU e = (y,l/s~)T, P
precision (k ;:::; 0.5) :
dmnorm ((),
kP)
82
P =n
('~)' )
Posons
La figure 4.7 et Ie tableau 4.3 mont rent les resultats obtenus par un algorithme de Metropolis-Hastings apres N = 2 X 103 cycles et une periode de
chauffe de N /5 .
145
0.4
0.3
140
0.2
135
130
10
0.1
2
10
140
10
20
145
IJ.
IJ.
0.4
0.3
0.1
15
(J
20
(J
a 90%.
J1
a
()5
()50
()95
138
6.8
140
8.5
142
11.3
69
sionnelle comme loi instrumentale. En effet, cette loi est disponible dans la
plupart des logiciels. Mais pour que la marche aleatoire dans e soit efficace, il
faut que les parametres de la loi instrumentale soient bien regles. Sa matrice de
variance-covariance peut etre l'inverse de la quantite d'information de Fisher
dans laquelle on remplace les parametres par leur estimation obtenue via la
methode du maximum de vraisemblance.
Comme cette distribution approximative peut etre sous-dispcrsec, il est recommando d'appliquer un coefficient multiplicateur (de l'ordre de 2) a la variance instrumentale ainsi calculee. Cependant ce pro cede ne garantit pas qu'au
cours de la marche aleatoire dans e, les valeurs de certains parametres par nature positifs (p. ex. une precision) ne puissent etre negatives puisque le domaine
d'une loi normale n'est pas borne inferieurernent. II est alors necessaire soit :
- d'eliminer les valeurs negatives ainsi simulees jusqu'a ce qu'on obtienne
des valeurs positives; ce pro cede peut etre utilise si la probabilite de
telles valeurs negatives est faible, ce qui est le cas des applications OU
I'hypothese asymptotique a un sens;
- de remplacer le tirage dans une loi normale de fonction de repartition G(())
de domaine indefini par un tirage dans la meme distribution tronquce
inferieurement a 0 dont la fonction de repartition est gi~j, sans changer
les distributions des autres parametres.
Pour la distribution instrumentale, on sait que Ie choix est assez ouvert, il est
donc possible d'utiliser une autre forme de lois, comme les distributions gamma,
calees de telle sorte qu'elles possedent les memes esperances et variances que
l'approximation asymptotique normale.
Pour ce qui concerne les parametres positifs par nature, une precision par
exemple, on pourrait penser a travailler avec leur logarithme puisque cette
transformation les envoie dans IR. Cependant, en simulation, l'utilisation d'une
distribution log-normale approchee peut entrainer la generation de valeurs irrealistes, extremement surdispersees vers les extremes et notamment au voisinage de o. Ce comportement implique des difficultes dans la mise en ceuvre
d'un algorithme MH, tres sensible par sa structure en chaine aux simulations
de valeurs aberrantes.
4.3.3
Echantillonnage de Gibbs
Soit () == (()1, ,()d)T E e le parametre d'un modele statistique parametrique (dim e == d) et soit y un n-echantillcn. La regle de Bayes s'ecrit :
70
n; (s; +
(J-l-
En partant d'un point arbitraire ()o == (J-L 0 , TO) E JR x JRt == 8, on tire J-L1
dans J-LITO,y puis T 1 dans TIJ-L 1, y . A l'issue de ce premier cycle on a le point
1, 1) a partir duquel on tire J-l2 dans J-lIT 1, y puis T2 dans TIJ-l 2, Y et
()1 == (J-L T
ainsi de suite N fois. La suite (()k E
k == 1, ... ,N) constitue une chaine de
Markov, car un point ne depend que de son antecedent. Si on oublie la periode
de chauffe, cette chaine converge en distribution vers la densite a posteriori
de (). Notons qu'on aurait pu inverser l'ordre des tirages aleatoires, c'est-a-dire
tirer T puis u. En fait on choisit l'ordre que l'on veut, mais on s'y tient. Tres
souvent on exprime les resultats en transformant la precision T en ecart-type :
e:
(J
==
1/vIT.
La figure 4.8 montre les resultats obtenus apres 1000 cycles avec les donnees
numeriques suivantes : n == 18, Y == 0.52, By == 0.13, m == 1, C == 1, a == 2, b == 1.
On est volontairement parti d'un point eloigne de la solution. Les histogrammes
ignorent les 200 premiers cycles.
5 En general, no us rr'ecrivons pas Ie conditionnement sur les hypotheses pour ne pas alourdir
les ecritures,
150
100
50
"I'
PI ,
oU
_,It
71
04
03
II
0.2
0.1
0
0
10
10
10
0
130
135
140
20
150
15
20
04
:~
0 0
10
145
IJ.
IJ.
10
0.3
0.2
0.1
4
10
10
e=
th etas,
J.l
(J
137
6.4
theta 50
140
8.6
t het a95
142
12.2
e.
eo,eo
eo
,eo
72
(4.24)
Pour tirer de facon approximative une valeur B* dans P (B), il suffit de tirer
u r-; dunif (0,1) et de considerer le point de grille, Bi == B*, tel que P (B i ) ~
u. Dans la Iitterature statistique, cette methode est dite methode d'inversion
lorsqu'on sait exprimer p- 1 sous forme analytique (B == p-l(u)) comme par
exemple la loi generalisee des extremes presentee au chapitre 6.
Exemple 4.10 Soit y un echantillon iid gamma de taille n, de parametre
de forme A et de parametre d'echelle unite. Le prior est A rv dgamma(a, b)
et un dialogue avec un expert aboutit aux resultats suivants : E (A) == m ==
alb et Var (A) == 8 2 == alb 2 . Enfin, la moyenne geometriquc des observations
disponibles est g. La densite a posteriori n'est pas integrable:
Methodes de Monte-Carlo
4.4
Tout comme les methodes MCMC, les methodes MC sont des techniques
d' echantillonnage, c'est-a-dire des simulations de sequences de realisations de
la distribution a posteriori, connue a un facteur de proportionnalite pres:
[Bly]
0:.
[yIB] [B] .
73
0.4
0.3
02
-.
<,
/'
/'
0.1
/'
"- .
/'
0
16
---
24
22
20
18
26
28
0.8
0.6
0.4
0.2
16
18
20
22
24
26
28
Figure 4.9 - Uti lisat ion d'une grille quand la conditionnelle complete n'est pas
standard.
rv
E (em)
4.4.1
N ote 4 .1 Dans cette section, nous noterons 1(B) la distribution cible [e ly] pour
marquer la symetrie avec la distribution instrumentale notee g(B) .
La premiere technique de simulation generale , connue depuis J . von Neumann dans les annees 1940, est la methode d'acceptation-rejet. Soit f (e) une
densite de probabilite de support e difficile it simuler et soit 9 (B) une densite
de probabilite de meme support aisement simulable. En d'autres mots, il est
74
Soit M
(4.26)
2. generer
3. si u;
u;
a partir de 9 (e) ;
a partir d'une distribution uniforme sur [0,1];
So = {(u,B)IB < Bo et u
En termes de probabilites on a :
i
,,) _
Pr ( Bg ~ BalBg accepte -
JJ Iso(e,u)g(e)dude
J8
~g(e)de
Mg(8)
-00
J+OO ~dude
Mg(8)
-00
J~~ f (e) de
J~: f (e) de
80
-00
f (B) de
C'est dire que e~ accepte est distribue selon f (e), ce qu'il fallait demontrcr.
Un sous-produit de ce raisonnement concerne Ie denominateur dont le calcul
montre que:
Prob(B acceptc]
-00
75
L'independance a priori des parametres J.L et T interdit une solution purement analytique. La regle de Bayes et quelques manipulations algebriques
permettent d'ecrire la distribution conjointe a posteriori comme suit
ex
T n / 2+ a - 1
[-~2 (ns
exp
x exp [_ nT
+ 2b + nh (m -
y)2)]
nr s- h.
h(M _
mil +
tit
hm) 2]
-r ]:
MIT, Y
rv
dnorm (
n:~ : ~m .tir + h)
[Tly]
2+ 1 [T ( 2
T-/iiT+li
exp - - ns + 2b + nh (m - fJ)2)]
h
n
0:
a J.L
nr + h
n 2a 1
T-/iiT+li
[T (
(m - f))2)]
/ + exp - - ns 2 + 2b + nh
h
nr
+h
(4.28)
nr +
Ce n'est pas une loi standard, mais des que l'on a une valeur de
valeur de J.L via (4.27).
Posons
f (T) =
(4.27)
nr
on a une
(4.29)
[TI0.05] == 20 x
1]0,0.05]
(T)
76
La constante M > 1 doit verifier la condit ion (4.26). Dans Ie cas present
elle s'ecrit :
"iT E [0,0 .05] : m ax {f (T )} ::; 20M
Pour eviter tr op de rejets, on a interet
a choisir
M ,::: 1.91. Apres 104 essais, avec un taux d'acceptation de 30%, on obtient les
resultats donnes dans Ie tableau (4.5).
/ C90
T
a
f-l
fh
0.017
5.2
10.9
fh o
0.025
6.3
12.5
B95
0.037
7.7
14.0
40
M X 9(1-)
35
30
25
;?
9(1-)
=U[O,005)
20
15
10
5
OL--_'--~"'--_'------.J'------.J'------.J'------.J'------...l_----...l-==='
0.005
0025
003
0.035
0.04
0.045
0.05
1-
4.4.2
G ponderations
77
f(e~)
g(e~)'
Wi-
qj -
(4.30)
",NG
Dj=l Wj
Ces ponderations jouent un role important dans l'estimation directe d'integrales telles que 4.3; c'est la technique d'integration numerique par echantillonnage potulere. Elles permettent aussi de construire un echantillon approximativement distribue selon f(()) en pratiquant un re-echantillonnage dans la
distribution finie des G valeurs
L: ui,
i=l
2. Considerons la sequence de meme longueur w~, w~, ... ,w; ou les Wj sont
les poids Wj == f(()~)/g(()~). On les norme pour en faire des probabilites
(4.30).
3. Tirer un echantillon ()1, ()2,
distribution finie sur ()~, ()~,
,()G
Pr (() < () ) ==
-
1.. "'C:
W .I
(()j)
G DJ=l J A o 9
1
G
G
j = l Wj
L:
Si maintenant G ---+ 00, selon un theoreme classique du calcul des probabilites, le rapport des sommes tend en loi vers :
78
Notons immediatement que la convergence est asymptotique, done la simulation n'est valable que quand G est assez grand.
Remarquons le trait essentiel de cette methode, utile pour le calcul bayesien
des distributions a posteriori: la densite f(e) peut ri'etre connue qu'a une
constante pres! En effet, les tirages dans la distribution discrete qui simulent
les ej sont determines par les poids normes qj independants de cette constante.
Pour le calcul d'integrales telles que 4.3, le re-echantillonnage de I'etape 3
n'est plus necessaire, La relation 4.2 s'ecrit ici :
E(h(e) Iy) =
h(e)
~~~jg(e)de ~ {;h(e;)qi
(4.31 )
1
e
h (e) [ely] de -
L h(e;)qi
rv
(4.32)
i=l
e a gauche est
(4.33)
79
11/ 8
"'8) =f{8J
YV\ r
g(8)
r
'\ s
)=f (8)
(~)
On obtient des valeurs de T par la methode inverse (fig. 4.12) et des valeurs
de J.L via sa conditionnelle complet e (4.27). On retrouve evidemrnent les IC du
tableau (4.5). On peut aussi calculer une fonction reelle de T (respectivement
/L) par (4.31).
metres se trouvent a priori bornes) . Pour les gros modeles cela ent raine
un effort de calcul explosif. Par exemple si on souhaite echa nt illonner
un hypercube avec une resolution moyenne d 'un dixieme de l'etendue de
chaq ue parametre, pour un modele it dix parametres (y compris les variables lat entes), il faudr ait de I'ordre de 1010 echant illons Monte-Carlo !
L'impossibilit e de maint enir une densit e adequate d 'echantillonnage peut
ent rainer un sous-echa nt illonnage des regions prob ables de l'esp ace des
par ametres, ce qui aura pour effet de generer un petit nombre de poid s
d'import ance eleves, et ce t rop peti t nombr e d'indi vidus vraiment representatifs domin era l'echantillon genere,
2. Le second choix classique est de s'appuyer sur un melange multinormal
80
0.9
0.8
0.7
0.6
0.4
0.3
0.2
0.1
00
0.005
0.01
0.015 002
002 5
surdisperse
ou p, est choisi pro che de la valeur la plus credible du pararnetre B (maximum de vrai semb lance quand il est possible d 'en avoir un e idee) et E
correspond a la matrice de vari ance-covariance pour B. On pr end generalement A de I'ordre de 3 afin de surdisp erser la fonction d 'importan ce.
Le poids a (a < 1) etend la portee de la distribution d 'importance pour
echant illonner des regions de f (B) qui ne sont pas adequatement approchees par l'approximat ion norm ale asymptot ique N(p" E ). Pour A grand
et a petit , la distribution normale surdispersee se comporte ra comme une
distribution uniforme.
Exemple 4.14 Reprenon s I'exemple prece dent de la vraisemblan ce gamma
avec prio r exponent iel. lei , on recherche Ie posterior soit
f (e) ex
avec les memes donnees n
g(lJ- l ) )
(
r (e)
exp ( -be )
= 14, g = 25.4, m = 20 et
(o_ I) n
= 3. Le maximum de
la vr aisemblan ce [yle] ex ( ~
est donn e par la solut ion de l'equ ation qui
annule la derivee de la log-vraisemblance (voir sect ion et ude asy mptotique des
par am etres d 'une distribution gamma) :
* log g -
mjJ(e) = 0
81
g(()i)
r(())
ex (_(e-O i).2)
p
Avar(B)
4.4.3
82
00
r::
.0
1ic..J
.!!!
<D
.g
r::
.
r::
-ed
l.L
6
'"
<>
6
20
22
24
26
2B
30
32
t b et a
iU
Ol
83
posterior
0
0
It')
n
c:
c:
,g
s:
0
:~
0
0
0
""
.~
0-
iU
~en
0
0
It')
$l
Vl
:.E
20
26
24
22
28
thet a
a l'echant illonnage
""
VI
:tl
0
co
a.
VI
-8
c
11
co
't:
l':l
a.
.~
III
"0
'<t
.~"
tE" '"0
0
0
0
2000
4000
6000
80 00
100 00
poids
Figure 4.15 - Fonct ion de repartition des poids selon diverses fonctions d'importance.
D'autres extensions de ces techniques, les algorithmes part icul aires (Doucet
et al., 2001), prop osent de faire suivre l'et ap e de re-echan till onnage par une
84
Epilogue
Ce chapitre d'initiation au calcul numerique stochastique est forcement incomplet! II faudrait plusieurs livres pour faire le panorama detaille des methodes de Monte-Carlo, avec ou sans dependance, qui ont libere le modelisateur d'une tres grosse partie des soucis calculatoires (Brooks, 1998), (Robert et
Casella, 1999). Certaines de ces methodes datent de I'epoque des gros ordinateurs centralises (Metropolis et al., 1953) mais elles ont veritablement pris leur
essor grace aux PC rapides. Bien evidemment, la maitrise de ces algorithmes
s'acquiert par la pratique. Pour I'etudiant.rchercheur dont la preoccupation essentielle est, au moins dans un premier temps, de consacrer son temps a creer
des modeles, nous affirmons que WinBUGS est un outil tres performant pour
faire ses premiers pas sans se soucier immediatement de l'ecriture des algorithmes d'estimation bayesienne.
L'association DAG - calcul tiumerique stochastique recule nos horizons. II
semble que tout soit permis! Ce serait une erreur de Ie croire. L'utilisateur
neophyte de WinBUGS se rend vite compte que tout n'est pas permis, que
WinBUGS se plante. Nous ne parlons pas ici des erreurs d'utilisation (p.
ex. faute de syntaxe, mauvaise declaration d'un nceud, etc.), mais bien des erreurs de conception. Par exemple, l'inflation des parametres rend lc modele non
identifiable (violation du principe de parcimonie des parametres). Cependant,
un modele qui marche mal est pire qu'un modele qui ne marche pas
(Spiegelhalter et al., 2003). Dans le chapitre 5 nous montrons une utilisation
astucieuse de WinBUGS pour estimer la distribution du cardinal d'un ensemble
fini qu'on ne peut recenser.
Chapitre 5
Prologue
Sous ce titre quelque peu humoristique, nous nous interessons a un problerne
generique qui a de nombreuses applications pratiques : connaissant le rang
d'un element d'un ensemble fini ordonne E, on se propose d'inferer le nombre
d'elcments de E. En fait, c'est la generalisation de ce probleme a une collection
d'ensembles finis ordonnes qui nous interesse. Sous le paradigme bayesien, le
recours aux variables latentes (voir chap 3, p. 3.2.3) permet d'introduire un
second niveau de variation entre les ensembles, ce qui confere au modele une
structure hierarchique. Mais un modele n'est utile que s'il est calculable et
c'est pourquoi les modeles hierarchiques et les methodes de Monte-Carlo sont
indissociables.
5.1
Introduction
86
Exemple 5.2 (Le tramway) Une personne arrive dans une ville qui lui est
parfaitement inconnue. En particulier, elle en ignore la taille. La premiere chose
qu'elle y voit est un tramway portant le numero r. Sous l'hypothese que les
tramways sont numerotes en ordre croissant a partir de 1, que peut-elle en
deduire sur le nombre de tramways circulant dans la ville?
L'exemple des rangs de naissance pourrait trouver une application interessante en planetologie, En date du 19 octobre 2007, on dispose d'un catalogue
de 209 etoiles autour desquelles gravitent une ou plusieurs exoplanetes (tableau
5.1)2. La derniere planete decouverte autour d'une etoile-hate definit le rang a
partir duquel on peut inferer la taille d'un systeme planetaire type.
87
de Coree, les americains se sont appuyes sur les memes idees pour estimer la
quantite de divers materiels militaires sovietiques,
Modelisation hierarchique
5.2
5.2.1
Le problema du tramway
Soit Z le nombre inconnu de tramways circulant dans la ville et R l'observable, c'est-a-dire leur numero etant entendu qu'ils sont numerotes en ordre
croissant a partir de 1. Soit r le numero observe.
- La vraisemblance de l'information R == rest conditionnelle a Z :
[R
== r IZ] ==
i,
,Z
r == 1, 2, . ..
(5.1)
A posteriori3
[Zlr] ex i21n(Z),
(5.3)
O=={r,r+l,.}
P r (Z > Zo I)
r -
L: 1/j2
j=zo
fliP
r--:
Joo
d j 2
Zo X X
Ir
00
dxlx
(5.4)
Zo
j=r
zp
Signalons que le traitement de ce probleme artificiel est extremement senet une seule donnec,
sible au choix du prior: avec le prior non informatif en
vraisemblance et prior apportent exactement la meme quantite d'information.
Avec un autre prior, par exemple N1k ,k ~ 1, la solution de l'equation 5.4 serait
-k
(zp)k
3
= r kIp soit
In (Z)
ZO.5
= (2*) r !
88
5.2.2
Le modele
Pour gcnerer des rangs de naissance on peut pro ceder de la facon suivante.
Soit "i le rang de naissance de l'etudiant j et soit Zj le nombre de ses freres
et sceurs, j == 1,2, ... ,k == 1800.
1. Tirer A dans une loi gamma : A rv dgamma (a, b)
2. Pour j == 1,2, ... ,k :
(a) tirer lc nombre de freres et soeurs dans une loi de Poisson :
dpois (A) ;
Zj
(b) tirer le rang de naissance r j dans une loi discrete uniforme definie
sur 0 Z j == {I, . .. ,Zj + I}.
Clairement, le parametre A est la valeur attendue du nombre de freres et
sceurs d'un etudiant quelconque lui-meme n'etant pas compris.
Le DAG (fig. 5.1) represente ce mecanisme generateur pour deux sujets
distincts j et k :
- les neeuds stochastiques Zj et Zk sont conditionnellement independants
sachant A;
- les nceuds stochastiques rj et rk sont independants, mais ne sont pas
identiquement distribues,
(5.5)
(5.6)
(5.7)
89
[rjIA] ==
00
[rj,ZjIA] ==
Zj=O
[rjlzj] [ZjIA]
Zj=O
[Air] ex A
exp (- (k + b)A)
AZ
II L ( + 1)
k
00
.
)=1 z=rj-1
Z.
(5.10)
90
[Air] ex
a 1
A - exp
(- (k + b) A)
(5.11 )
Developpernents theoriques
La log-densite a posteriori est la transformce logarithmique de la relation
(5.11). Pour ecrire un algorithme de Metropolis-Hastings, ecrivons-Ia comme
suit:
In [Air] ~
f (A) + cte
ou
f (A) = (a -
1) In A- (k + b),\ + ~ n; In
(00
A
Z~l (z + 1) z!
Z
On souhaite utiliser la loi normale comme distribution instrumentale, c'esta-dire que la marche aleatoire se fait dans IR, mais on revient dans IR+ a chaque
iteration:
In Ai dnorm (In Ai-I, o ) --+ Ai ~ exp (In Ai)
r-;
91
clear all;
close all;
% Donnees
n=[797,455,265,125,68,37,26,8,l,9,5,3,l];
k=1800;
% Prior non infonmatif
a=O;b=O;
% log-densite a posteriori : appel a la fonction SumRank
f= .(x) (a-1)*10g(x)-(k+b)*x+SumRank(x,n);
% Algorithme MH : la loi instrumentale est nonmale
Counter=O;
lambda(1)=4;
sigma=.06;
for i=2:4000
cand=nonmrnd(10g(lambda(i-1)),sigma);
cand-expfcand) ;
u-urrifrndfu 1);
test=f(cand~-f(lambda(i-1));
if test>log(u)
Counter=Counter+1;
1ambda (i) =cand;
else
lambda(i)=lambda(i-1);
end
end.
'
Rat~=counter/4000
LAMBDA=lambda(100l:4000);
% Predicti ve
PRED=~oissrnd(LAMBDA)+l;
Resultats Apres 4000 iterations dont 1000 pour la periode de chauffe, avec
un taux d'acceptation de 0.45, on obtient les resultats suivants (tableau 5.3 ,
fig. 5.3).
Inference bayesienne sous WinBUGS
La relation (5.8) donne la contribution du rang de naissance rj a la vraisemblance. Si n; etudiants declarent le rang de naissance r, sous l'hypothese
92
1090
A
Taille
50
2.57
3
5
2.47
1
95
2.68
6
a la vraisemblance
(5.12)
Cette distribution n'est pas disponible dans WinBUGS mais l'astuce suivante permet de s'en sortir.
Le zero trick
Soit [yIO] la contribution de l'observation y a la vraisemblance pour un modele d'observable parametre par O. On sait que si une variable aleatoire x est
distribuee selon une loi de Poisson de paramctre a > 0, la probabilite qu'elle
prenne la valeur zero est exp (-a). Maintenant, si on identifie a a l'oppose du
logarithme de la vraisemblance, on a :
(5.13)
In [riA, nr]
AZ
II suffit donc de tirer des zeros dans une loi de Poisson de parametre
TJr == -In [riA, n r ] + 0
5. Le cardinal sort du ra ng
93
3.5
K
3
2.5
2 L..-.............~~.L...-~~~'-'--~~~.LI...----'- -'--'-~u.J
10
10
10
10
10
March e aleatoire
0.4
Q)
0.3
.~
tl
"D
0.2
'~
0...
0.1
0
I---
I--
Il---t
6
10
Nombre d'enfants
Figure 5.3 - Le problems des rangs de naissan ce. Profi l d 'une mar che aleatoire et
distribution predictive a posteriori de la t aille de la fratrie type.
1?r:::; z + 1
= step (z + 1 - r) = { 0 ? r > z + 1
(5.14)
= r (z + 2) = (z + 1) z!
(5.15)
Les figures (5.4) et(5 .5) mont rent respectivement le DAG et Ie code WinBUGS. Apres 4000 iterat ions dont 1000 pour la periode de chauffe, le tableau
(5.4) donne un intervalle de credibilite a 90 % pour >. et T . On retrouve (evidemment) les memes resultat s que ceux obt enus sous R.
94
A
Ta ille
5
2.47
1
50
2.57
95
2.69
7
eta [r]
Figure 5.4 - Le problerne des rangs de naissance. Representat ion du modele hierarchique par un DAG sous WinBUGS.
Epilogue
Inferer le cardinal type d'une collect ion d'ensembles ordonnes a partir de la
seule connaissan ce du rang d'un de leurs elements est un probleme generique
qui a des applicati ons pra tiques. Le modele du tramway voit le nombre de tramways circulant en ville comme un par ametre et c'est pourquoi on peut postul er
un prior , en l'occurrence un prior non informatif de la forme [N] ex. N - 1 , car
Nest vu comme un parame tre rl'echelle. Ce modele simple n'introduit pas de
variable latente. Il exploit e direct ement tou te l'information disponible : conditionnellement a N , le ra ng du tramway observe est vu comme un tirage aleat oire
dans une loi discrete uniforrne prenant ses valeurs dans n = {I , 2, ' " ,N}. On
pourrait etre tente de s'en servir pour le probl eme des ra ngs de naissance :
une fratri e = une ville et le rang de naissance de l'etudiant = Ie numero du
tramway. Mais la generalisat ion de ce modele, pris tel quel, a plus d'une fratri e n'est pas simple. Le modele des rangs de naissance impliqu e des variables
95
Utilisation du "zerotrick"
Lavariable latente. 2, representele nombre defreres et sceurs (hors I'etudiant)
~ Elleasttiree dans une loidePois$onparametree parlambda :> 0
L'observable asile rang denaissance, r, deretudiant
~ II esttiredans une loidiscrete unifarme. denoie sur1,2,
z+1
Enpredictif, N:: zet lataille delafratne, T,estdone egale aN+1
Notana que t ::: Z + 1
modet
(
lambda .... dgamma(a,b)
for(rin 1: m ) (
zero(r] <-0
for(tin 1 ,31) {
temp[r t] <- (pow(lambda,t - 1) * step(t - r) I expOoggam(t + 1
}
}
fiOata
list(n:: cfl97,455,265,125,68,37,26,8.1,9,5,3.1), a:: 0,001, b= 0.001, C:::10000, m:: 13)
Mnit
list(lambda :::3 N;: 6)
list(fambda =1. N=9)
j
Chapitre 6
Initiation a la modelisation
des valeurs extremes :
les modeles GEV et POT
Prologue
Dans un contexte decisionnel, la modelisation des valeurs extremes est du
plus grand interet puisqu'une protection qui fonctionne pour des evenements
extremes pare aussi des evenements de moindre ampleur. Ainsi, la determination de la hauteur d'une digue prend en compte les crues extremes du cours
d'eau, y compris celles qui n'ont jamais ete observees, A l'exclusion notable
des distributions discretes (processus de comptage) , la theorie des valeurs extremes considere un rz-echantillon iid et s'interroge sur la distribution de la
plus grande ou de la plus petite valeur de cet echantillon lorsque sa taille tend
vers l'infini. L'article fondateur implique l'un des plus grands statisticiens classiques (Fisher et Tippett, 1928) dont les travaux furent valides et completes
par d'autres personnalites (Gnedenko, 1943), (Jenkinson, 1955). Cependant,
certains s'interrogent encore sur le sens memc du concept de probabilite quand
on l'applique a des evencmcnts exceptionnels (Bouleau, 1991). Effectivement, lc
frequentisme radical est, ici, a bout de souffle. Dans ce meme contexte, Ie paradigme bayesien trouve une nouvelle justification. Ce domaine de la recherche est
en plein essor, notamment pour prendre en compte les depcndanccs spatiales
et./ou temporelles entre les valeurs extremes (Drees, 2008). Dans ce chapitre
d'introduction, nous nous limiterons au cas OU il est raisonnable de postuler
l'independance entre les extremes. Cette hypothese fonde les modeles GEV (generalized extremes values) et POT (peak over threshold), modeles qui sont en
fait deux expressions differentes d'une meme realite, Leurs nombreuses applications dans les sciences experimentales, notamment en genie civil, temoignent
de leur interet.
98
6.1
Introduction
.p == Pr (X
X -J-L
Pr ( -(J-
> k ) ==
1 - <I> (k)
==
n D x,
l~
j=l
(J
Vii
=Pr ( Zn=
x;
- J-L >k ) ':::'l-<i>(k)
a/Vii
:Tn ,Sn
Z -
n-
Vii (Xn Sn
Xn)
n-+oo
1 La lame d'eau journaliere en un lieu donne est I'equivalent en eau liquide du cumul de toutes
les precipitations recues par un metre carre de terrain en vingt-quatre heures (lmm = ll/m 2 ) .
2 Lorsque n tend vers l'infini, la fonction de repartition empirique de X est egale a <I> en tout
point Z ou <I> est continue (IR) .
99
A l'image de ce que nous avons fait ci-dessus, c'est le comportement asyrnptotique du maximum qui nous interesse. Ici, il y a un ecueil. F etant une fonction
de repartition, l'hypothese iid entraine
Pr (M n :::; z) == (F (z))n
Soit z+ la plus petite valeur z pour laquelle on a F (z)
Iimite'' donne une distribution degenerce
Vz < z+:
1. Le passage
a la
lim [F (z)]n == 0
n~oo
La theorie donne une reponsc affirmative a cette question et precise la distribution de Z. Le comportement asymptotique de la loi du maximum M n
depend de la fonction de repartition initiale F. (Fisher et Tippett, 1928) ont
etabli qu'il n'y a que trois types de lois limites possibles: Frechet, Weibull 4 et
Gumbel.
La majorite des lois de probabilite usuelles appartiennent a l'un des trois
domaines dattraction''. Par exemple, les distributions gamma et log-normale
appartiennent au domaine d'attraction de Gumbel regroupant la majorite des
distributions a queue fine; les distributions de Pareto, log-gamma et de Student
appartiennent au domaine d'attraction de Frechet regroupant la majorite des
distributions a queue lour de ; la distribution uniforme appartient au domaine
d'attraction de Weibull regroupant la majorite des distributions sans queue.
On suppose que la limite existe.
pas confondre avec la loi de Weibull utilisee dans Ie domaine de la fiabilite.
5 On appelle domaine d'attraction d'une loi H l'ensemble des lois F pour lesquelles Ie maximum d'un echantillon, M n , converge en loi vers la loi des extremes du type H.
3
A ne
100
En fait, on peut caracteriser ces trois types de distribution par une distribution unique, la loi qeneralieee des valeurs extremes ou modele GEV (generalized
extremes values) (Gnedenko, 1943), (Jenkinson, 1955).
Le modele GEV est coherent avec lc modele POT (peak over threshold) qui
voit les valeurs extremes d'une observable comme les depassements d'un seuil
fixe assez haute Ces depassements constituent un processus de Poisson marque,
les excedents etant distribues selon une loi de Pareto qeneralisec qui n'est rien
d'autre que l'oppose du logarithme du modele GEV. Ainsi, les modeles GEV
et POT sont en quelque sorte les deux faces d'une meme medaille. Ils sont
d'application dans les situations OU il est raisonnable de postuler que les evenements extremes sont independants. Dans le cas contraire, des modeles plus
sophistiques existent (Drees, 2008).
Les modeles GEV et POT sont caracterises par un parametre tridimenConduire une inference baycsienne sur
implique de recourir aux
sionnel
methodes speciales du chapitre 4. Pour le modele GEV, aucune des trois conditionnelles completes n'est standard, mais un algorithme de Metropolis-Hastings
sequentiel est relativement facile a regler. Pour le modele POT, deux des trois
conditionnelles completes sont standards et l'utilisation d'une grille pour la
troisieme permet de programmer facilement un echantillonnage de Gibbs.
Le lecteur interesse trouvera dans (Coles, 2001) un excellent ouvrage d'introduction a la modelisation statistique des valeurs extremes traitee essentiellement sous le paradigme classique (Coles donne un exemple d'inference bayesienne dans la premiere section de son dernier chapitre).
e.
6.2
Le modele GEV
Soit {X t } un processus stochastique a temps discret". Soit Xl, ... ,Xn une
serie de n v. a. r. iid de fonction de repartition F. On peut ordonner cet
echantillon par ordre croissant: X(l) < X(2) < ... < X(n). Intuitivement, on
comprend que le maximum Mn == X(n) est une valeur extreme si nest assez
grand. La probabilite que ce maximum soit inferieur a une valeur z don nee est
triviale
Pr (Mn < z) == (F (z))n
Lorsque n tend vers l'infini, cette distribution est nulle en tout point z < z.,
ou z., est la plus petite valeur de la v. a. r. M n pour laquelle F == 1. On
dit d'une telle distribution qu'elle est degeneree. L'idee est d'appliquer une
6 Sous Ie nom de processus stochastique it temps discret, on entend un modele permettant de
decrire un phenornene aleatoire evoluant au cours du temps, OU les observations sont realisees
en des instants t ETC Z.
101
Theorems 6.1 (Fisher et Tippett, 1928). S'il existe des suites normalisantes
{an} et {b n > O} telles que
Pr (Zn = M nb- an
n
<
z) == (F (an + bnz))n
----+
G (z)
n~oo
Theoreme 6.2 ((Gnedenko, 1943), (Jenkinson, 1955)). S'il existe des suites
normalisantes {an} et {bn > O} telles que
(6.1)
l+~z-~>O
a
(6.2)
avec
(6.3)
Remarque 6.1 La difficulte posee par la determination des coefficients an et
bn > 0 n'est qu'apparente car
entraine
Pr (M n ~ an + bnz) ~ G (an
+ bnz) == G* (z)
102
A partir de [eq.
(6.5)
M)-l/e
JL) )
1+~-a-
(1 (
M))
. 1 (
M) = = -M
-
Z lim - In 1 + ~-a
e~o~
Z -
Par consequent
lim
e~o
M) -lie
1 + ~-a
Z -
== exp
(z
- M)
--a
(6.6)
6.2.1
103
La valeur de projet
La modelisation des valeurs extremes est du plus grand interet pour les
sciences appliquees, notamment pour dimensionner les ouvrages de protection (digues, reseaux devacuat.ion des eaux de ruissellement, barrieres antiavalanche, etc.). En general, les dommages seront une fonction croissante de
la difference positive entre I'intensite de I'evenement redoute et le niveau de
protection.
On appelle valeur de projet la valeur zp qui ala probabilite p d'etrc depassee
p == Pr (Z
> zplB)
(6.7)
= -In (1 -
p)
~~
si p est petit
(6.8)
En general, la probabilite pest fixce par le decideur qui veut, par exemple,
se proteger contre une crue qui revient tous les 100 ans, c'est-a-dirc qui a la
probabilite p == 0.01 de se produire chaque annee,
On deduit la valeur de projet zp associee a p en distinguant le cas OU ~ i=- 0
du cas OU ~ == o. Apres quelques manipulations elernentaires, on trouve :
o =?
zp
== J-L -
In x p
(6.9)
(6.10)
Dans un repere cartesien, les couples (zp, -In x p) dessinent une droite si
~ < 0 (Weibull) ou concave si ~ > 0
(Frechet) 7 . On peut en effet montrer que Ie ratio
zlO-2
zlO-2 -
ZlO-l
104
C>
'<i
LO
Q)
Vl
'"c:
C
Q)
C>
::;
8
LO
Q)
Q)
sc.
C>
c;;
Q
12
13
14
15
16
17
18
19
va leu r d e p rojet
Ce graphe (fig. 6.1) appele gmph e des niveaux de retour perm et une est imation pon ctuelle des parametres /1 et (1 . En efIet , une regression lineaire
de Z p sur X p , don e un modele qui postule ~ = 0, fournit une est imation
pon ctu elle du couple (0-, {L) . Cette estimation est d 'au tant meilleur e que Ie
nuage de points montre une direction bien marquee. Une seconde est imat ion
ponctu elle, independante de la forme du graph e, est obtenue en maximi san t
la log-vraisemblance via une methode numerique . Celle-ci fournit un triplet
{} = ({L ,0-, pouvant servir de point de depart it l'inference bayesienne it par-
6.2.2
105
these fondatrice du modele GEV est rarement respectee, Par exemple, les precipitations journalieres montrent souvent une dependance a court terme et
aussi un effet saisonnier. Selon (Coles, 2001), c'est l'independance des maxima
Zl,'" ,Zk,'" qui compte. Les praticiens appliquent ce modele et verifient a
posteriori l'hypothese iid des maxima. De plus, dans un contexte decisionnel,
on a grand interet a disposer d'un echantillon de maxima observes de bonne
taille, surtout dans le cas d'un prior non informatif (peu ou pas d'expertise sur
le phcnomene etudie). Par consequent, si les maxima sont dependants, l'information apportee par I'echantillon en main est moindre, parfois bien moindre.
La modelisation des extremes dependants exige des modeles plus complexes
(voir p. ex. (Leadbetter, 1983)). Cela depasse le cadre de ce livre.
6.3
Le modele POT
Definir une valeur extreme comme une observation qui depasse un seuil fixe
assez haut est une idee tres naturelle. Bien sur, quand on considere une longue
chronique du signal d'interet, le nombre de valeurs extremes depend du seuil
choisi. La distribution des depassements du seuil tend vers une loi limite connue
sous le nom de loi de Pareto qeneralisee ou modele GPD (generalized Pareto
distribution). Pour que cette approximation asymptotique tienne, il faut que
Ie seuil soit choisi assez haut. D'un autre cote, plus le seuil est bas, plus on
dispose de donnees extremes et plus on reduit l'incertitude par ignorance. Un
compromis doit etre fait.
Exemple 6.1 La figure 6.2 montre la lame d'eau joumaliere a Uccle (Belgique)
entre le 1er janvier 1880 et le 31 decembre 2002 (donnees fournies gracieusement
par l'Institut royal meteorologique de Belgique (IRM) que nous remercions).
Sur cette pcriode de 123 ans, il y a 273 depassernents du seuil c == 23 mm contre
123 maxima annuels.
106
70
~
~
:~
60
50
rn
E
[ 40
::>
'"
Q)
'0
30
Q)
..'3
20
10
90
00
10
20
30
40
50
60
70
80
90
00
10
Figure 6.2 - Chronique de la lame d'eau journa liere a Uccle (Belgique). Source : IR M.
6.3.1
On s' inte resse a la probabil ite qu 'une var iable aleatoire elementaire qu elconque, X , de fonction de repartition F , depasse un certain niveau y > 0
qu and on sai t qu 'elle depasse Ie seuil c fixe
P r (X> y
+ clX > c) =
1 -F (y + c)
1 _ F (c)
(6.11)
On sait qu e la dist ribu t ion du maximum des observat ions element aires te nd
asy mptotiquement vers la dist ribution GEV (eq. 6.4). En prenan t Ie logari thme
des deux membres, on obtient :
1- F (z) :::: ~ (1 + ~ ( z
iT
JL) ) - li e
(6.12)
Si cette rela tion t ient pour un seuil c > 0 suffisamment hau t , elle tiendra
aussi pour tout niveau qui Ie depasse, par exemple Ie niveau y + c.
107
ou on a pose
(6.14)
La condition
1+
~y > 0
TJ
lisee
Pr(X::; y+c!X
> c) c:::' 1-
( 1+
~) -1/~
-:;/
==
GPD(yIC,TJ,~)
(6.15)
Sa densite suit
(6.16)
108
6.3.2
Le modele POT
[kl"\, L]
== exp (-"\L)
("\L)k
k!
(6.17)
k == 0,1,
(6.18)
Pr(U::; u)
==
LPr(U::; ulk)Pr(K
==
kl"\,L)
(6.19)
k=O
[ (
~) -1/~]
(6.20)
6.4
U + c =} Pr (Z
< z) =
exp [->..L (1
+ ~z ~ c) -liE]
(6.21)
109
Pr (Z
< z) =
~ ~ c) -1/ E]
exp [_ A ( 1 + z
(6.22)
L'experience montre qu'un reparametrage des deux modeles facilite les demonstrations et l'ecriture des programmes informatiques. Plus important encore, un tel reparametrage permet de simplifier l'echantillonnage de Gibbs dans
le cas du modele POT (Parent et Bernier, 2003). Pour bien distinguer les developpements, nous affecterons les parametres du modele GEV de l'indice o.
Po == a-I> 0,
f30 == -Po~o,
P ==
1]-1
> 0, f3 ==
-P~
(6.23)
Le seuil c etant convenablement fixe, les modeles POT (eq. 6.22) et GEV
(eq. 6.1) deviennent respectivement
< zl,8, A, p) =
POT:
Pr (Z
GEV:
exp
[-A (1 - ,8 (z - c))P/,6]
= exp
[- (1 - ,80 (z - J-t))p0/,6o]
(6.24)
(6.25)
Cette limite inferieure tend vers -00 dans le cas Gumbel. Au-dela de
cette limite technique, la v. a. r. Z peut prendre n'importe quelle valeur
superieurc.
- Dans le cas du modele POT, la loi du maximum est une distribution
censuree dans le sens OU elle depend d'un seuil c. Au-dela de ce seuil,
les observations sont marquees (depassetnents), en deca de ce seuil, les
observations n'interviennent que par le processus de Poisson
Pr(X ~ ciA, L == 1) == exp (-A)
110
1 - p = Pr (Z
exp [-
1( (1
zp=c+j3 1- ->:In(l-p)
)(3/P)
(6.26)
(6.27)
On comparera ce resultat avec la relation (eq. 6.9) rappelee ei-dessous
6.5
6.5.1
Le modele GEV (eq, 6.25) est done caracterise par Ie parametre () == (!3o, f-L, Po)
et Ia densite de probabilite eorrespondante s'ecrit
lRt, !3o
v:
(30-
G (zIB)
(6.28)
111
[Zl, .. ,zkIB]
P~
i=l
[0]
== [130]
[pola, b] ex
---t
1
Po
a,b---+O
/10-
G (Zi IB) }
(6.29)
i=l
La normalisation par calcul integral n'est pas possible et aucune conditionnelle n'est standard. L'inference peut se faire via un algorithme de MetropolisHastings.
6.5.2
p~-l
JL)]p01/10-1 G (ziIB)}
i=l
== In Po {:} Po == e
La transformation logarithmique donne
= (k - 1) + (;: - 1)
i=l
< 1;
i == 1, . . . ,k
112
L'algorithme
Soit une marche aleatoire realisee dans JR3
(138,JLo,0) .
initial
()o ==
Pour loi instrumentale, nous avons choisi le produit de trois densites normales unidimensionnelles independantes :
130
r-v
dnorm (13~-l,vf3o);
JL*
r-;
dnorm (JLi-1,vM)
ou les variances instrumentales v<jJ, vf30 et vM reglent la force des sauts respectifs.
Soit ()i-l == (13~-1, JL i-1, i-l) la valeur du triplet a l'iteration i-I.
A l'iteration i on realise les trois sequences suivantes :
1. (13~-l,JLi-l,*) ~ (13~-l,JLi-l,i);
2. sous la condition
3.
6.6
113
6.6.1
>0
(6.32)
Le respect de la condition (eq. 6.32) fait que la densite (6.31) peut se mettre
sous la forme suivante
[Yt 17],,8]
~ In (1 -
,8Yt))
S (,8)
= fJ I: In (1 - ,8Yt)
k
(6.34)
t=l
[Y1
== ui.:': ,Yk ==
Yk, K == k] == [K == k]
II [yt == Yt]
t=l
c'est-A-dire
(AL)k k
[Yl, ,Yk,kIA,p,(3,L] ==exp(-AL)~p exp{(p-(3)S((3)}
(6.36)
114
0:.
Alk, L
r-;
dgamma (Alk, L)
0:.
[fJIYl"",Yk, ,]ex
[(S(fJ))k
[jJlx, k, c, T]
dgamma(Alk, L)
Seule la simulation initiale de jJ dont la densite n'est pas de forme analytique connue peut etre delicate. On peut soit remplacer cette distribution
par une repartition discrete sur une grille de valeurs de (3, soit utiliser les
methodes de particules a partir d'une loi instrumentale.
115
6.6.2
Echantillonnage de Gibbs
Alk,L
pIYl,' .. ,Yk, k, {3
ex
6.7
POT (A, p ==
Tj-l,
==
-~(J-l)
{3 == _~Tj-l)
116
6.7.1
Le niveau de la mer
a Port
Pirie (Australie)
Cet exemple est t ire de (Coles, 2001). Les donnees couvrent la period e 19231987 et peuvent et re obtenues sur le site:
http :/ /www.maths.bris.ac.uk;-masgc/ismev/ summary.ht ml
La figure 6.3 montre Ie profil du maximum annuel et Ie gra phe des niveaux
de retour. La variabilite du signal semble stationnaire et il est done raisonnable
de postul er que les maxima sont ii d.
o
o
cD
0:>
o
o
00
0 <:>
00
1930
1940
00
OO?
000
o
o
1950
1960
1970
00
1980
1990
4.8
46
~~ 4.4
4.2
Figure 6.3 - Port Pirie : maxima annuels et graphe des niveaux de retour.
Les tableaux 6.1 et 6.2 don nent respecti vement :
- les esti mations ponctuelles des parametres et de la valeur cente nale ;
- les reglages de la marche aleatoire et les taux d 'acceptat ion.
Methode
Graphique
Numerique
Tableau 6.1 - Por t P irie
GEV .
fJ
0.2
0.2
~
0
-0.05
/1
3.9
3.9
R2
0.99
-
ZO.O l
4.8
4.7
Apr es une marche aleatoi re de N = 2000 pas, Ie tableau 6.3 donn e les
inte rvalles de credibilite a 90 % obt enus en ecartant les 500 premieres valeurs .
Les figures 6.4 et 6.5 montrent respect ivement Ie profil des chaines de Markov et les distributions marginales a posteriori de chacun des par ametres. On
= lnp
1
f3
117
J.L
-0.5
4.5
(0 .23)~
(1. 5) ~
(0.06)~
0.44
0.44
0.45
Q
5
50
95
a
0.17
0.20
0.24
~
-0.16
-0.03
+0.15
J.L
ZO.Ol
3.83
3.87
3.91
4.5
4.7
5.1
remarquera que ~ n'est pas significat ivement different de zero (cas Gumb el) et
que l'estim ation ponctuelle de la valeur centennale du niveau journalier de la
mer (~ 4 .7m) est la mediane de sa distribution marginale a posteriori .
118
30 ,---
--,---
----,-
-----;,------
-.----
---,--
----,-
-.----
---,--
----,
20
10
0.16
0
-0.3
0.26
0.28
0.2
0.3
0.3
0.32
0.4
20
15
10
0
3.78
3.8
3.94
3.96
3.98
Figure 6.5 - Port Pirie: marginales a posteriori des parametres du modele GEV .
6.7 .2
a Tunis (Tunisie)
Les donnees couvrent la periode 1971-1990 et proviennent de l'etude generale pour la protection du lit toral tunisien (rapport 2, volume 1) elaboree
par Ie bureau d'etude HP en 1995 et ayant pour source l'Institut national de
meteorologic de Tunisie.
La figure 6.6 montre le profil du maximum an nuel de la vitesse du vent
(rn /s}, toute direction confondue, it Tunis-Carthage ainsi que le graphe des
niveaux de retour. Bien que la taille de la chronique soit modeste (20 ans) ,
on peut soupconner une tendance auquel cas, ces maxima annuels ne peuvent
pas et re consideres comme des tirages independants dans un e urne reglee par
le modele GEV. Cependant, par commodite, nous postulerons que ces maxima
sont iid.
22 ,---
,------
,------
,------
,------
.--0
3:l 18
~
:5
.---
.-------<r --
.-------,
,0
o
o
00
16
119
11~'::70,------:-::
19'=
72,------:-::19'::74--:-::19'=76--:-::
19'=78--,-:
19't:80--:-::
19'=82--:-::
19'::84--:-::
19'=
86--:-::19'=88--:-::'1990
26 ,---,-----~--~
_ _.---,_____~-_.-----,_
_____,
24
~ 22
:;c. 20
18
Le t ableau 6.4 donn e les est imations pon ctuelles des par ametres et de la
valeur cente nnale.
Methode
Graphique
Numerique
(j
1.8
2.2
~
0
-0.3
R2
17
20 .01
0.92
17
25
23
fl
Tableau 6.4 - Tuni s : estimations pon ctuelles des par ametres du mod ele GEV .
Le tableau 6.5 donne les reglages de la marche aleatoire et les t aux d'acceptation. Apres une marche aleato ire de N = 2000 pas, les figur es 6.7 et 6.8
mont rent respectivement le profil des chaines de Markov et les distributions
marginales a posteriori obtenues en ecartant les 500 premieres valeur s.
Reglages
Point initial
Var iances
Taux
1>
0.1
(3
(0.45)~
(0 .4) ~
( 1.3 )~
0.44
0.45
0.44
-0.2
J.l
15
120
.:C;;;;'~~
1
10
10
10
10'
10
~.~~
":r
-0.5
10'
10'
10'
10'
10'
10
10'
10'
10
20
16
"16
14
10
0.5
1.5
2.5
3.5
4.5
5.5
1.5
0.5
0
-1.5
-1
0.5
0.6
0.6
0.4
0.2
0
15
15.5
16
16.5
17
17.5
16
16.5
19
19.5
Figure 6.8 - Tunis : marginales a posteriori des par ametres du mod ele GEV.
(J
5
50
95
1.7
2.3
3.2
~
-0.6
-0.2
+0.2
/-l
16
17
18
121
ZO.Ol
22
23
34
6.7.3
La lame d'eau
a Uccle (Belgique)
60 r---,---,---,---,---,---~------,
50
~ 40
:I:
o
0
30
00
o
0
o
o
o
o
0
00
1995
0
0
2000
2005
60
~ 50
::;0. 40
30
122
07.7
6.2
0
0.27
fl
29
28
R2
0.97
-
zom
65
85
Tableau 6.7 - Uccle : est imations pon ctu elles des para met res du modele GEV .
Reglages
Point initial
Vari ances
Taux
- 0.2
f3
-0.1
J-l
25
(0.35)~
( 3)~
(2.6 )~
0.41
0.48
0.41
-1.5
..
-21 --
-----1
-2.5
_3 '::_~~~~'::_~~~~'::_~~~~'_:_~~~---.......J
10
10'
-0.1
-0.2
123
0.4
0.3
0.2
0.1
0
10
12
14
16
1.5
0.5
0
-0.5
1.5
0.4
0.3
0.2
0.1
0
22
24
28
30
32
34
36
Q
5
50
95
(J'
4.9
6.7
9.2
-0.07
0.25
0.67
J-l
26.3
28.4
30.8
ZO.Ol
58
86
231
124
10.5
10
9.5
i
~
8.5
::;;
7.5
6.5
35
a Uccle (Belgique)
: choix du seuil u
= 23 mm .
La figure 6.13 montr e une marche aleatoire de 5000 pas, la periode de chauffe
etant const it uee des 2000 premiers. La figure 6.14 donne les distributions obtenues.
125
0.4
2.5
0.3
0.2
1.5
0.1
0.5
0
2
10
12
0.5
1.5
1]
1.5
0.01
0.5
0
1.5
zp
200
250
Figure 6.14 - Lame d'eau journaliere a Uccle (Belgique) : marginales a posteriori des
parametres du modele POT et marginale a posteriori de la valeur centennale.
Le tableau 6.10 donne les intervalles de credibilite
Q
5
50
95
TJ
4.3
5.9
8.0
~
- 0.02
0.24
0.56
x
1.90
2.30
2.74
a 90%.
ZO.Ol
60
87
192
Epilogue
La deman de de protection de la societe face aux evenernents extremes, par
nature incert ains et souvent tres dommageables, est legitime. Que les ingenieurs tentent d'y repondre au mieux est une obligation deontologique rationnellement fondee , Refuser d'appliquer le concept de probabilite aux evenements
exceptionnels, c'est se condamner a ne rien faire. En revanche, la conception
bayesienne de la probabilite a - avec les Laplace , Borel, de Finetti, Savage et
bien d'autres - pro duit des outils statistiques qui approchent rationnellement
l'incertain, meme lorsque l'evenernent est rare.
126
C'est ainsi que trois exemples numeriques nous ont permis de montrer qu'un
algorithme de Metropolis-Hastings sequentiel est relativement facile a mettre
en ceuvre pour determiner la valeur de projet a partir d'un modele GEV. Une
estimation ponctuelle des parametres est certainement tres utile pour initier la
marche aleatoire, De meme, un taux d'acceptation des candidats de l'ordre de
45 % permet de regler les variances de la loi normale unidimensionnelle choisie
comme loi instrumentale.
Les donnees journalieres pour la lame d'eau a Uccle (mises gracieusement
a notre disposition par l'Institut royal meteorologique de Belgique que nous
remercions) nous ont permis de calibrer un modele POT, via un cchantillonnage de Gibbs, et de comparer la valeur centennale, ainsi obtenue, avec celIe
deduite d'un modele GEV calibre sur la meme periodc (1970-2002). Un simple
graphique seuil versus moyenne des depassements , comme celui de la figure
6.12, permet d'orienter le choix du seuil qui reste malgre tout une operation
delicate. Dans le doute, remonter un peu le seuil est certainement une bonne
idee.
Enfin, les modeles GEV et POT sont fondes sur l'hypothese que le processus
stochastique a temps discret sous-jacent est constitue de populations iid. C'est
une hypothese forte et critiquable dans bon nombre de situations reelles ou les
effets saisonniers sont difficilement contestables. Ainsi, la lame d'eau journaliere a Uccle depend de la carte du temps et, en situation cyclonique, les jours
pluvieux se suivent. Tant que le processus stochastique sous-jacent est stationnaire, les modeles GEV et POT sont relativement peu sensibles a la dependance
des populations elementaires, Pour les processus non stationnaires, une modelisation hierarchique s'impose, modelisation dans laquelle Ie modele GEV (ou
le modele POT) constituerait une couche. Cela depassc le cadre de cet ouvrage.
Enfin pour Ie lecteur plus familier de considerations mathomatiques, l'annexe a
ce chapitre montre comment la theorie des processus de Poisson marques donne
un cadre mathematique unique a tous ces modeles dextremes et permet d'en
construire des extensions utiles, telle la loi des fuites. On y trouvera aussi dans
cette annexe des astuces pour I'implementation des modeles d'cxtremcs sous
WinBUGS.
Le paradigme bayesian permet d'encoder le savoir de l'expert dans le prior.
Par expert nous entendons une personne physique ou morale, qualifiee pour
emettre des avis sur la problematiquc en cours. Son savoir est son etat de
connaissance a un moment donne. II peut done evoluer, L'idee centrale est
que l'expert parie plus volontiers sur certaines valeurs du parametre que sur
d'autres. Dans cette optique, I'cquiprobabilite traduit l'absence d'un savoir et
Le prior est dit non informatif . Pour l'analyste, il s'agit de traduire les
paris de l'expert dans une distribution de probabilite dans laquelle l'expert se
reconnait. L'elicitation du prior est donc une tache delicate, mais importante,
que nous abordons dans le prochain chapitre.
Chapitre 7
Construire le prior :
de I'astuce mathematique
au dialogue avec I'expert
Prologue
On appelle expertise le savoir deja connu en dehors des informations apportees par les resultats experimentaux. Les experts detiennent ce savoir en tout
ou en partie. Le modellsateur veut utiliser ce savoir pour construire une distribution a priori sur les parametres du modele de connaissance en main. Parce
qu'ils sont experts, on s'attend a ce que ces gens chevronnes parient volontiers
sur les memes plages de valeurs. Reconnaltre la qualification de l'expert, c'est
prendre acte que ces paris ne sont pas arbitraires et des methodes ont ete developpees pour les traduire du mieux possible sous la forme d'une distribution
de probabilite, Dans ce chapitre, nous en exposons quelques-unes.
7.1
Introduction
Sans entrer dans les developpements philosophiques sur le sujet, il est utile
de preciser quelques aspects de la portee et des limites de la notion de prior
dans la mise en ceuvre de la regle de Bayes :
jugement a posteriori
128
l'ecole classique et l'ecole bayesienne (voir les propos critiques de Renyi, p. 17).
Effectivement, le statisticien classique pose le principe que seules les donnees
doivent etre utilisees pour l'inference sur le parametre B. C'est-a-dire qu'il utilise
l'information y pour ameliorer sa connaissance de B, souvent pour estimer un
evenement futur dont les chances de survenance dependent de B. Or il faut
bien reconnaitre que la pratique va a l'encontre de ce point de vue. Ainsi, Ie
chef de projet, qui a deja mene plusieurs chantiers de construction sur des
terrains varies, ne se fie pas aveuglement aux seules analyses de resistance du
sol pour edifier les fondations d'un nouvel immeuble. Le chimiste qui etudie
les proprietes d'une nouvelle molecule s'appuie autant sur les nouveaux tests
experimentaux que sur son experience passec des caracteristiques de la famille
de cette molecule, etc.
Le paradigme classique refute l'introduction de l'expertise au nom d'une
pretendue objectivite necessaire a la procedure d'inference sur le parametre B.
En fait, la subjectivite est inevitable dans la modelisation probabiliste, depuis
la selection des variables surveillees jusqu'aux conclusions-recommandations en
passant par le choix du modele de connaissance. La demarche scientifique ne
consiste donc pas a nier la subjectivite mais bien a la controler.
A contrario, la theorie bayesienne de la decision statistique a developpe un
cadre formel pour traduire de facon quantitative l'expertise via des distributions
probabilite a priori ou priors. Fondamentalement, il s'agit d'affecter des indices
de credibilite aux elements de l'ensemble des valeurs possibles du paramctre B.
Nous empruntons a l'anglais Ie terme elicitation pour designer cette tache du
modelisateur.
Dans ce chapitre, nous presentons une synthese des methodes permettant de
coder l'information a priori entrant dans la regie de Bayes. Le lecteur interesse
lira avec profit le chapitre 2 de (Parent et Bernier, 2007) et le chapitre 3 de
(Robert, 2006) dont le titre n'est rien d'autre que la question posee ci-dessus.
En pratique, il y a essentiellement quatre Iacons de coder l'information a
priori:
1. prendre un prior vague, c'est-A-dire non informatif;
2. choisir un prior conjugue a la vraisemblance (commodite mathematique] ;
3. pro ceder par analogie, c'est-a-dirc que le prior pour le probleme en main
est le posterior d'une ou plusieurs situations analogues;
4. la methode par introspections successives fondee sur la notion de loterie.
Passons brievement ces quatre methodes en revue en rappelant qu'un parametre est souvent multidimensionnel : B == (B 1 , ,Bd ) E 8. Par abus de
langage, on parlera des parametres.
7.1.1
Au chapitre 4, nous avons vu un moyen pour construire un prior non informatif : c' est le prior de Jeffrey fonde sur la quantite d'information de Fisher
7. Construire Ie prior
129
(voir p. 58). En resume, un prior non informatif pour un parametre de localisation, une moyenne par exemple, pose l'equiprobabilite de toutes les valeurs
possibles. Un prior non informatif pour un parametre d'echelle, un ecart-type
par exemple, est obtenu en posant l'equiprobabilite de toutes les valeurs de son
logarithme.
En d'autres mots, par prior vague ou non informatif il faut comprendre :
1. que Ie savoir de l'expert sur le probleme en main ne lui permet pas de
lier les parametres
d
01 1- O2
...
II [OJ]
(7.1)
j=l
2. que toutes les plages de valeurs de OJ 1 sont, aux yeux de l'expert, equiprobables, c'est-a-dire qu'il ne pariera pas davantage sur une valeur que
sur une autre. C'est cette equiprobabilite qui traduit son ignorance et./ou
sa prudence.
Remarque 7.1 Un prior non informatif ne signifie pas que l'on ne sait absolument rien sur la distribution statistique du parametre, En effet, on connait au
moins son domaine de variation, c'cst-a-dire l'ensemble des etats de la nature,
8, et le role de chaque composante du pararnetre sur les observables (parametre
de localisation, d'echelle, etc.). C'est pourquoi certains auteurs preferent parler
de prior vague ou peu informatif.
Complement sur les distributions a priori non informatives
L'equiprobabilite traduit la symctrie, l'ignorance ou la prudence.
La difficulte commence des que l'on veut appliquer ces concepts au cas OU
le parametre du modele, 0, est reel ou est un vecteur de parametres continuo
En effet, l'equiprobabilite ne peut etre appliquee qu'a des classes de valeurs de
o (par exemple des intervalles) telles que l'expert considere que les valeurs qui
y sont incluses sont pour lui equivalentes, L'extension au cas continu depend
alors de la nature du modele en jeu et de ses parametres (Bernier et al., 2000)
(chap. 7, p. 140).
Les distributions non informatives sont souvent impropres ou degenerees
car leur integration sur le domaine de () n' est pas definie (c'est-a-dire n' est
1
130
pas un nombre reel). Toutefois, introduites dans la formule de Bayes avec une
vraisemblance definie, elles fournissent des distributions a posteriori propres
parfaitement licites. En revanche, le facteur de Bayes qui fait intervenir la
distribution predictive a posteriori n'est pas defini quand on utilise des priors
impropres. Cette propriete est une pierre d'achoppement des priors impropres
dans les methodes bayesiennes de selection de modeles OU intervient ce facteur
de Bayes (voir 13, p. 250).
Les distributions a priori non informatives sont utilisees a plusieurs reprises
dans ce livre dans les cas OU les parametres ont des interpretations simples en
termes de parametres de localisation ou d'echelle, Mais il existe de nombreux
cas OU la recherche de transformations distribuees uniformement n'est pas si
evidentc. Un certain nombre de modeles non informatifs a priori ont ete proposes, reposant sur des principes et des criteres divers. On a deja vu les priors
de Jeffreys au chapitre 4. On peut citer par ailleurs et entre autres les priors
localement uniformes de (Box et Tiao, 1973) et les priors dits de reference de
(Bernardo et Smith, 1994).
Quand le parametre du modele de connaissance est vectoriel, il semble
evident qu'un prior non informatif implique I'indcpendancc de ses composantes
car un expert ne va pas lier des composantes quand il ne sait rien ou pas
grand-chose sur le probleme a resoudre. Cependant, s'il est vrai que cette hypothese d'indcpcndance est souvent postulee, elle peut etre mise en defaut
lorsque le prior non informatif est obtenu par un raisonnement mathematique,
par exemple le prior de Jeffrey. Si on considere cette hypothese a priori comme
souhaitable, c'est la une difliculte de ces methodes constructives de priors.
7.1.2
La conjugaison
La forme analytique du modele dechantillonnage retenu presente des caracteristiques mathematiques que l'on s'efforce de retrouver dans la forme analytique du prior. C'est d'ailleurs pour cette raison que lc statisticien bayesien
designe certains modeles en juxtaposant le nom du modele de prior au nom
du modele d'echantillonnage. Ainsi il parle du modele beta-binomial, gammaPoisson, gamma-normal-normal, etc. Les parametres du prior sont appeles hyperparameites.
k;
(f.l-
m)2)
7. Construire Ie prior
131
[tt, T]
0:
~ -=
/1l-T
{
[In T] 0: de
[/1] ex cte
7.1.3
L'analogie
(7.2)
Si l'analyste accorde moins de confiance aux donnees provenant des observations realisees sur la riviere B, il augmentera quelque peu la variance du
posterior obtenu sur la rivierc B avant de s'en servir comme prior pour la riviere
A. Cette analogie peut etre etendue a plusieurs rivieres de regimes voisins. Le
concept dechangoabilite, defini dans (Parent et Bernier, 2007), generalise ce
procede de recours aux voisins pour tirer parti de ressemblances.
Remarque 7.2 II va de soi qu'un meme jeu de donnees ne peut pas servir a la
fois dans la vraisemblance et pour construire le prior. En effet, ce serait alors la
meme source d'information qui alimenterait les deux composantes de la regle
de Bayes, ce qui est contraire a son principe fondamental.
7.1.4
132
7.1.5
Quelle que soit la methode utilisee, il ne faut jamais oublier que le prior
est propre a l'expert. Bien sur, il faut s'entendre sur la notion d'expert. Pensons, par exemple, a l'evaluation du prix d'une ceuvre d'art chez Drouot. Ainsi,
Claude Monet, Chemin boise, effet de neige, est une huile sur toile de 58 x 63
cm realises vers 1869. Le 18 decembre 2006, les experts estimaient son prix
de vente entre huit cent mille et un million d'euros. Cette fourchette n'est pas
choquante et s'interprete comme une zone de paris gagnants pour l'expert. II
est expert justement parce que, la plupart du temps, il gagne ses paris. Cela
dit, on s'interrogerait certainement sur les capacites d'un expert qui regulierement annoncerait des prix dix fois moindre ou dix fois superieurs a ceux de
ses collegues. Maintenant, imaginons que ce tableau soit effectivement vendu
dix fois le prix annonce. Serait-ce disqualifiant pour les experts ? Non, si cette
situation est l'exception plutot que la regle. Ce serait simplement une nouvelle
donnee qui, a l'avenir, aurait son poids.
Au Cafe du commerce, il est possible de rencontrer des gens qui cmettent
des avis sur tout avec un certain aplomb. A l'occasion, ils peuvent avoir raison
comme, par ailleurs, de veritables experts peuvent se tromper lourdement. La
certitude ignorante s'oppose a l'incertitude reflcchie et c'est cette derniere qui
caracterise un expert. Il va de soi que, dans l'esprit du statisticien bayesien,
l'expert est qualifie pour donner un avis pertinent sur la problenuiiique en cours.
7.2
a un ensemble referential
7. Construire Ie prior
133
- al
0> 00 ;
== participer a la lot erie etalon Up avec le gain C EUR si la boule tiree
- a2
II est clair que le respect de ces conditions demande une formation et done
une discussion prealable avec l'expert. Le lecteur interesse par les principes de
la construction des probabilites subjectives trouvera davantage de details dans
Ie chapitre 5 de (Bernier et al., 2000).
D'un point de vue operationnel, la mise en ceuvre de cette procedure depend de la dimension de l'ensemble des etats de la nature, 8. Elle devient vite
tres et trop complexe des que dim 8 depasse quelques unites. Neanmoins, elle
peut permettre un etalonnage prealable de l'expert avant que celui-ci ne soit
capable d'eliciter directement des probabilites - ou, a 1'inverse, des valeurs
() de probabilites fixees comme les quantiles - par introspection directe en
134
7.3
Caler un prior beta sur deux quantiles elicites du parametre d'un modele d'observable
binomial
7.3.1
1r
et une in-
sur cette valeur, soit c > O. Trouver les deux hyperparametres, disons r > 0
et s > 0, de la distribution beta qui reflete ce savoir est un petit probleme de
mathematique facile a resoudre.
A partir des deux premiers moments d'une loi beta, on a :
r
r+s
E (n)
m==--
V (1r)
kc 2
rs
(r+s)2(r+s+l)
== -------,-----
(7.3)
(7.4)
7. Construire Ie prior
Si on voit que
E (IT) (1 - E (IT)) ==
rs
(r + s)
135
==
m(l-m)
r
+s+1
{=}
+ s ==
m(l-m)
kc 2
- 1>0
(7.5)
r==m(r+s),
s==(l-m)(r+s)
(7.6)
7.3.2
7f
:
p - pbeta (ITp , r, s) == 0
{ q - pbeta (ITp , r, s) == 0
(7.7)
Exemple 7.3 Une machine de production est en cours de reglage. Le parametre IT est la probabilite qu'une piece choisie au hasard soit conforme au
cahier des charges. Selon l'operateur, il y a 95 chances sur 100 que IT excede
0.5 et 10 chances sur 100 qu'il excede 0.9.
IT q == 0.5 donne r
136
7.4
t"'V
t"'V
7.4.1
(7.8)
On comprend que pour l'expert, il soit plus aise de donner un avis sur un
quantile marginal, par exemple la medians de (J2, que sur un quantile conditionnel, par exemple la mediane de ()2 quand il dispose de l'information ()3'
Nous reviendrons bientot sur cette difficulte en illustrant la procedure avec le
modele d'observable normal.
En general, l'expert n'est pas convie a proceder a une introspection detaillec
pour elicitor toutes les caracteristiques d'un prior. Comme indique ci-dessous,
il est en effet beaucoup plus courant de lc limiter a fournir quelques valeurs
typiques : mediane (J50, quartile (()75 ou (J25), decile (B go ou (JIO), etc. Ces caracteristiques peuvent suffire a caler des distributions de probabilite de forme
analytique connue a un nombre de parametres indetermines pres si ce nombre
est egal au nombre de caracteristiques elicitees, C'est la methode dite des quan-
tiles.
Remarque 7.3 Les parametres du prior sont souvent appeles hyperparametres
pour les distinguer des parametres du modele d'observable.
7.4.2
Le parametre
a eliciter est
unidimensionnel
C'est, par exemple, le parametre de localisation du modele normal de variance unitaire : E (Y) == B.
Les premieres questions a poser a l'expert doivent concerner le support de
B, c'est-a-dire l'etendue de l'intervalle [()min, ()sup]. Bien souvent l'expert sera
7. Construire le prior
137
dans l'incapacite d'evaluer precisement ces limites, auquel cas il est preferable
d'utiliser des distributions a priori dont les bornes sont mathematiquement infinies et de lui soumettre la tache d'eliciter des quantiles, grandeurs statistiques
plus aisernent interpretables. C'est le cas notamment de la mediane (}50 de ().
Si meme l'intervalle [(}min, (}sup] est indeterrnine, l'expert peut etre capable de
repondre a la question suivante : Quelle est pour vous la valeur M telle que
Pr(() < M) == Pr((} 2:: M) ? La valeur M qu'il donne est la mediane (}50. Ensuite, on peut lui poser la question suivante : Quelle est maintenant, selon uous,
la valeur Q de () telle que Pr(M ~ () ~ Q) == Pr((} 2:: Q) ? Puisque M est la
mediane, Q est necessairement le troisicme quartile, c'est-a-dire (}75 == Q. En
poursuivant ces questions sur des segmentations d'intervalles en probabilites
egales on peut atteindre toute proximite d'un quantile (}p quelconque.
Certaines de ces questions peuvent etre un controle de coherence. Ainsi apres
une premiere elicitation du troisieme quartile (}75, l'expert peut etre amene a
repondre a : Quelle est la valeur Q telle que Pr( Q ~ () ~ (}75) == Pr(() ~ Q) ?
Si Q est differente de la mediane M trouvee precedemment, alors l'expert doit
etre confronte avec cette incoherence et doit la resoudre.
Si la notion de quantile devient plus precise dans l'esprit de l'expert, on
peut lui demander de repondrc a des questions plus elaborees concernant des
fonctions simples, comme des ecarts ou des rapports de quantiles :
- Quelle est la valeur la plus probable de X90 - X50 d'une grandeur oleatoire
X eiudiee ?
- Quelle est la valeur la plus probable de X90 / X50 ?
138
!-Le
(7.9)
== B50
50
ae == -p - -
(7.10)
zp
=}
[Ola, (3]
~:) 0
exp (-(30)
/{3
rv
== 0
(7.11)
Bp
1) = qgamma(q,&, 1)
Bq
(7.12)
139
Om ,
0m -{ (3 =
a -I
j3
qgam~: (p,a , l)
x (0: - 1) -
Om X
et pn termine par
qgamma (p , 0:, 1)
= 0 ~ 0:
0: - 1
(3 = A
Om
Exemple 7.4 Pour l'expert , la duree de vie mediane d'un compose electro
nique vaut 15 unites de temps et Ie nonanti erne percentile en vaut 25.
A partir des relation s 7.9 et 7.10, un prior normal sera localise sur /-lo = 15
avec un ecart-ty pe (TO ~ 7.80. Apart ir des relations 7.11 et 7.12 et du graphique
(fig. 7.1) un prior gamma aura les param etr es suivants : 0: ~ 5.55 et (3 ~ 0.35.
(0) ~ 6.8.
L'esperance et l'ecart-type de 0 suivent : E (0) ~ 15.9 et
/v
0.7,-------,-
----,-
----,--
----,--
---,--
-,--
-,--
--.--
--.-----,
06
0.5
0.4
0.3
: : 0.2
0.1
-0. 1
Fig ure 7.1 - Det ermination graphique du par am etre de form e d 'un prior gamma .
7.4.3
Le parametre
140
Soit l'observable Y supposec distribuee selon une loi normale N(jJ;, T). On
l'a deja dit, le prior conjoint peut toujours s'ecrire comme le produit d'une
distribution conditionnelle par une distribution marginale :
(7.13)
L'elicitation d'un quantile d'une distribution conditionnelle comme [jJ;IT] est
beaucoup moins aisee que l'elicitation d'un quantile d'une distribution marginale comme [jJ;]. Notons que l'expert peut n'avoir aucune raison de lier jJ; a T
soit parce qu'il sait que ces deux parametres sont independants (jJ; 1- T), soit
parce que son savoir est tellement reduit qu'il ne saurait defendre un lien et
donc, par defaut, il postule leur independance :
(7.14)
- Le calage d'un modele gamma a partir de la mediane de T et d'un quantile
d'ordre p signifiant pour l'expert (par exemple Q7,0.90) se fait selon la
methode decrite ci-dessus.
- Pour u, l'elicitation de la mediane M~ et d'un quantile Q~,p se fait sans
reference a T. Ensuite, le calage d'une loi standard depend du lien entre
jJ; et T. Si l'hypothese dindependance est retenue, le calage d'une loi
normale sur jJ; est chose aisee. Dans le cas contraire, il s' agit de caler une
loi de Student sur u selon une procedure un peu plus subtile.
Pour le parametre u, lc chercheur a l'INRA s'est appuye sur les observations des 35 sites restants. Sur ces 35 jeux de donnees, il a calcule 35 moyennes
empiriques. A la vue de leur histogramme, il a propose un prior normal, centre
sur m == 100 cm avec un facteur d'echelle de 8 == 10 cm. Quant a la precision, les statistiques de dispersion empiriques ont conduit a une loi gamma de
parametres a == 3.4 et b == 250 => E (T) ~ 10- 2 , V (T) ~ 5.44 X 10- 5 .
Le prior conjoint suit :
1 (1
[jJ;, T] == - - exp
~8
--(jJ;
- m)
2
28
2) x -bT
a
r(a)
a-I
exp (-bT)
(7.15)
7. Construire Ie prior
141
Imaginons que l'expert ait donne Qp"O.90 == 115 cm en lieu et place de s. Les
proprietes de la loi normale permettent imrnediatement de trouver la valeur s
correspondante (eq. 7.10). On trouve s ~ 11.7 cm.
L'hypothese d'independance entre J-L et T, effectivement commode pour l'elicitation, implique que la distribution conjointe a priori n'est pas un conjugue
naturel du modele normal.
rv
dgamma(a, b)
(7.16)
J-LIT
rv
dnorm(m, kT)
(7.17)
Theoreme 7.2 A partir des relations 7.13, 7.16 et 7.17, la distribution marginale de J-L est une loi de Student, a v == 2a deqres de liberte, localisec sur m
et de pararnetre d'echelle O"p, == Jb/ak.
Corollaire 7.2 La variable oleaioire t == (J-L - m) /0" est distribuee selon une
loi de Student standard,
a v == 2a
deqres de liberu:
Mp, == m
QI",P = m +
(7.18)
(7.19)
OU tinv (p, 2a) donne le quantile d'ordre p d'une loi de Student standard a
2a degres de liberte.
En resolvant ce systeme par rapport a m et k, on trouve
k ==
~ (tinv(p, 2a)) 2
a
Qp"p -
Mp,
(7.20)
142
Epilogue
Nous avons pose et surtout rapp ele un certain nombre de prin cipes et de precaut ions a prendr e pour conduire Ie necessaire dialogue expert-statisticien dans
cette tac he commune d 'elicitation. II s'agit d'obtenir de l'expert des evaluat ions
quantitatives permet t ant de parier sur les valeurs possibles des inconnues, les
par ametr es du modele.
7. Construire Ie prior
143
Deuxieme partie
... a la souris
Chapitre 8
Modele de capture-recapture
par assemblage de modules
fonctionnels binomiaux :
application au cas des
saumons
Prologue
La modelisation statistique bayesienne revient a imaginer un modele probabiliste, susceptible de reproduire les observations (chap. 1), souvent pour
fournir une aide a la decision en avenir incertain (chap. 2). Ce modele est avantageusement represente par un DAG (chap. 3). D'un point de vue operationnel,
il faut eliciter le prior (chap. 7) et inferer ses parametres par application de la
regle de Bayes (chap. 1). La determination des distributions a posteriori peut
ncccssiter un recours aux methodes de Monte-Carlo (chap. 4). C'est notamment
le cas pour les modeles realistes, lesquels impliquent souvent des variables latentes (chap. 3). Leur DAG montre une structure hierarchique et modulaire.
Cette modularite confere une grande souplesse au modele comme le montre ce
chapitre dedie a l'evaluation des stocks de saumons.
8.1
Introduction
Le modele d'evaluation des stocks de saumons presente ici ne repose que sur
des equations de bilans, des tirages binomiaux et des priors sous forme de lois
beta. Le DAG est une representation conceptuelle des differents evenernents
148
qui peuvent se produire dans une population de saumons qui remontent la rimere Scorff, utilisee comme cas ri'etudc (Parent et Prevost, 2003). Ces donnees
reelles proviennent d'un projet commun entre l'Institut de recherche agronomique (INRA), le Conseil superieur de la peche, et la Federation de peche et
de protection des ccosystemes aquatiques du Morbihan". Les scientifiques et les
gestionnaires de la rivierc ont besoin non seulement de l'estimation de la taille
de la population de saumons (la valeur la plus probable), mais aussi de l'estimation de l'incertitude la concernant (Clobert et Pradel, 1993). Trois types
de quantites incertaines apparaitront dans le DAG : les observables (notees
Yindice) , les variables latentes (notees Xindice) - ou variables phenomenologiques auxiliaires non observees - et les parametres (dcsignes par des lettres
grecques). Les lois a priori seront construites a dire d'expert (chap. 7). Enfin,
nous realiserons l'inference par echantillonnage de Gibbs (chap. 4).
Remarque 8.1 Dans un souci pcdagogique, nous faisons ici une exception a
notre parti pris de depart et nous utiliserons done une lettre latine majuscule,
par exemple Y, pour designer une observable ou une variable latente, et la
minuscule correspondante, soit y, pour designer une valeur particuliere. On ne
peut evidemment pas respecter une telle convention pour les parametres (c'est
ce qui ad'ailleurs justifie notre convention initiale).
8.2
8.2.1
Presentation du probleme
Les trois dernieres etapes du cycle de vie du saumon : remonter la r ivlerc, echappcr aux pecheurs a
la ligne et survivre jusqu'a la saison du frai
Les saumons atlantiques (SaZmo saZar), qui reviennent adultes dans les rivieres de Bretagne (France), sont repartis en deux categories : le saumon de
printemps qui a passe deux annees en mer (exceptionnellement trois) et les
castillons qui reviennent dans leur riviere natale l'annee qui suit leur migration vers la mer. Les castillons constituent l'essentiel des adultes (r-v 90 %) qui
reviennent dans la riviere, principalement de la fin du printemps a la premiere
moitie de l'ete, Sur la riviere Scorff, un dispositif experimental de controle des
migrations a ete installe, et les adultes de retour sont denombres par la technique du marquage-recapture. Le rnarquage est opere dans un dispositif de
piegeage situe a l'embouchure de la riviere. L'efficacite du piege varie selon le
debit de la riviere,
L'etude de cas presentee ici ne traite que du retour des castillons. La figure 8.1 decrit le sort d'un saumon rentrant dans sa riviere d'origine apres
1 La collecte des informations sur le terrain a ete effectuee par les techniciens de la station
experimentale du Moulin des Princes, Nicolas Jeannot et Francois Burban, aides de Jean-Yves
Moelo.
149
2. Ensuite, une certaine quantite d 'individus - marques ou non - sera prelevee par les pecheurs a la ligne. La loi francaise exige que la prise de
saumon soit officiellement declares, mais cette obligation legale n'est pas
toujours respectee . Une et ude locale supp lementaire permet de completer
ces renseignements. Ces deux sources permettent d'obtenir une premiere
evaluation du nombre de saumons reellement captures, et un certain
nombre de saumons preleves est apporte aux techniciens de l'INRA pour
identification du marquage.
3. Enfin, le poisson qui a echappe a la peche a la ligne devra survivre jusqu'a la saison de reproduction. Pendant le frai hivernal, les chercheurs se
rendent sur les sites de reproduction et completent les et udes statistiques
par une phase de recapture.
Environnement
naturel
Non Marque
recapture Y6
Marque
Recapture
Y,
Pieges et
Marques
Y1
x",f
Xur
Libres
Marque Vu
pour sur
Marque et
peche
............ ..
(Pecheurs
Non marque
et pechex"c
Declare
r
Iarque
Declare
Y~
Y4
')
;:::::.:..~ ::::::
150
8.2.2
Variables observees
Les donnees du tableau 8.1 concernent six variables (en colonnes) suivies
pendant six annees consccutives. Les donnees de la premiere annee (1994) sont
exclues de l'etude, car elles sont significativement differentes des autres. La
procedure u'etait pas completement rodee et l'efficacite du piege et la recapture
au moment du frai ont ete moins bonnes.
Les variables observees portent les informations suivantes :
- Y1 : nombre d'individus captures, marques et relaches :
- Y2 : nombre de poissons marques, peches a la ligne et rapportes par les
pecheurs pour la detection du marquage;
- Y 3 : idem pour les poissons non marques;
- Y4 : total des poissons provenant d'observations sur les sites de peche
(Y4 > Y2 + Y3 ) ;
- Ys : nombre de poissons marques, recaptures pendant ou apres Ie frai ;
- Y 6 : idem pour les poissons non marques.
Annee
1994
1995
1996
1997
1998
Y1
156
500
502
320
442
1999
167
Y2
3
39
25
17
50
16
Y3
14
10
8
7
5
Y4
42
75
87
33
66
24
Ys
4
31
45
19
56
16
Y6
14
28
14
9
13
11
8.2.3
5.
151
6. 6 : probabilite qu'un saumon peche et enregistre soit declare et Ie marquage verifie par les techniciens;
7.
1r :
152
a dire d'expert
La figure 8.2 montre une loi de probabilite discrete de forme acceptable pour
representer l'expertise H sur le parametre . Cette distribution a ete obtenue
par une discretisation d'une distribution gamma avec un parametre de forme
egale a 2.4 et un parametre d'echelle egale a 5002 (voir chap. 7, p. 138). Cette
distribution est tronquee a l'intervalle [0,4000] en raison des ressources limitees
de la rivicre. Tronquer au-dela de 4000 permet aussi un calcul d'integration plus
commode, mais une analyse de sensibilite montre que c'est largement justifie.
Cette distribution presente un mode aux environs de f\; ~ 700 et met 90 % de
la masse de probabilite dans l'intervalle [100, 3000].
(8.1)
Les six autres parametres (), Q, {3, 7, b, 7r sont des probabilites, Leur prior
est donc avantageusement represente par une distribution beta sur l'intervalle
reel [0.1] (voir annexe B). Pour chacun d'entre eux, il faut donc fixer deux
coefficients, an et bu, de sorte que cette distribution reflete bien l'expertise.
La figure 8.3 et le tableau 8.2 montrent les resultats de l'elicitation de la
loi de probabilite beta(aH,b H ) pour traduire l'expertise a propos des differents
parametres techniques. Cette elicitation a ete conduite a partir de techniques
presentees au chapitre 7 a partir des equations 7.3 a 7.5.
Comme la connaissance a priori de chaque parametrc est etablie independamment, le prior conjoint est le produit de tous les priors.
Interpretation
Efficacite du picge
Taux de survie
Taux de capture
Suivi sur site
Suivi techniciens
7r
Taux de recapture
()
Q
(3
7
Expertise H
()0.05 == 0.1; ()0.95 == 0.9
M a ~ 0.95; QO.l == 0.75
M(3 ~ 0.2; (30.9 == 0.7
M T ~ 0.9; 70.05 ~ 0.5
b O.0 5 == 0.1; bO.95 == 0.9
M 1r ~ 0.2;
7r0.99 == 1/2
[0.25 < 7r < 0.5] == 0.09
7r0.9 == 1/4
aH
1.53
10
1.3
5.5
1.53
bH
1.53
1.5
2.2
1.5
1.53
1.6
11
Tableau 8.2 - L'expertise a priori H est encodee via des distributions beta.
Remarque 8.3 L'expertise sur 1f implique quatre conditions. La determination des parametres de la loi beta implique de resoudre un probleme d'optimisation sous contraintes.
2
10
153
-4
7 ['--'-'-----,---,-----,----,--
-r--
,.---
---,-
--,
Mode=700
Intervalle de credibilre a 90 %
500
1000
1500
2000
2500
3000
3500
4000
Tattle du stock '0(
8.2.4
Les paramet res inconnus et les variables observees ne sont pas suffisants
pour decrire les peregrinations d'un saumon. Des variables non observees, mais
ayant une signification physiqu e, sont alors introduites. Elles sont utiles pour
aider a comprendre les etapes int ermediaires de la modelisation condit ionnelle.
Evid emment , le modele doit et re complete ment defini ce qui exige que les distribution s conditionnelles des variables latentes sacha nt les par ametres et les
observabl es doivent et re precisees. Les vari ables lat entes suivant es presentent
un interet particuli er pour la modelisation :
- X u u == saumons non captures, par consequent non marques (indice uu
pour unmarked, uncaptured) ;
- X m c == individus marques peches a la ligne ;
- X u c == individus non marques peches a la ligne (unmarked, captured) ;
- X m j == individus marqu es rest es libres pendant la period e de peche (marked, free) ;
- X uj == individus non marques testes libres pendant la period e de peche ;
- X m r == individus marques enregistres comme reellement at tra pes (marked, registered) ;
154
1.5
1.5
3
2
0.5
0
0.5
0.5
\,
0
0.5
Ct.
1.5
1( \
1
2
0.5
T
0.5
0.5
\
0
0.5
11
Y1
~ dbinom(~,
155
0)
X uu == ~ - Y1
X mc ~ dbinom(Y1 , (3), X uc ~ dbinom(Xuu, (3)
Xmj == Y1 - X mc, X uj == X uu - X uc
Y4 ~ dbinom(Xuc + X mc, T), X mr ~ dbinom(Xmc, T)
Y4 == X ur + X mr
Y2 ~ dbinom(Xmr, 6), Y3
(8.2)
dbinom(Xur, 6)
8.3
Inference bayesienne
Toutes les etapes decrites ci-apres ne sont que des applications des principes
et methodes apprises dans les chapitres precedents. Cependant, il nous semble
utile de les appliquer a partir du DAG et explicitant les proprietes dindependance conditionnelle et de modularite,
La densite conjointe a priori des parametres s'ecrit
[~, (),
Q,
{3, T, 6,1rIH]
156
ProbabilitedesruviE
Probabilitede recapture
Variable latente
Inlenntidiaim
dlitenRiniste
Figure 8.4 - La vie d 'un sau mon apres sa remont ee dan s le Scarff sous la forme d'un
di a gram me d ' influence.
au la
lettre H rapp elle que l'on conditi onne sur un savoir initial et des hypotheses de const ruction.
On le sait , l'inferen ce bayesienn e consist e a met tre cette loi a jour en impliquant les observations disponibles :
ou
On s'en dou t e, la septuple int egration n'est pas possible
8.3.1
a la
plume .
Soit un poin t initial, arbit ra irement choisi dans l'espace des par ametres.
En t irant to ur a tour dans chac une des sept cond itionnelles complete s, et en
repet an t ce cycle un grand nombre de fois, on peut obtenir un echa nti llon de
7-uplet s provenant de la loi a posteriori conjointe des par ametres.
157
ProbabiIitededirlaration
Yariable /mente
Fi gure 8.5 - La vie d 'un sa umon a pres sa rernont ee dans Ie Sca rff sous la form e d 'un
DAG.
8.3.2
Le tableau 8.3 donne pour chaque variable d'interet de l'inference bayesienne (c'est-a-dire par ametre ou variable latente stochastique), l'ensemble des
variables condit ionna ntes associees. Ce tableau se const ruit a partir de la figure
8.5 ou chaque noeud a ete relie a ses nceuds parent s, fils ou coparents de ses
enfants.
Dans la sect ion suivante, nous verrons que certains nceuds ont une loi conditionnelle dont la st ruct ure est connue (par conjugaison); en revanche, pour
d'autres nceuds, la forme de leur conditionnelle complete ne sera pas dans la
bibliotheque des dist ribut ions de probabilite standa rds et il faudra l'expliciter.
8.3.3
On remarquera que seuls les nceuds stochastiques (a l'exception des observables qui sont des nceuds terminaux) peuvent et re mis a jour par le t heoreme
158
(3
T
<5
7r
0:
x.;
x.;
r:
x.;
(Xmc,X uc]
x.;
X uc
Variables impliquees
n, Y1
n, Y1 , X mc, x.;
De cet echantillon, on extraira simplement les valeurs des parametres interessants (et on oubliera celles des variables latentes) afin d'obtenir un echantillon issu de
(8.4)
[~, (), 0:, (3, T, <5, 7rIH, y]
159
...
...
...
11! . . . ....
tt
."
Les variables aleatoires binomiales Y5, Y6 sont conditionnellement independantes sachant 7[, Leur vraisemblance conjointe s'ecrit :
[Y5 ' Y6IJr , X m s , xusl
=r
+ I) r ( x us + 1) JrYS+ Y6 (1 - Jrt
+ 1) r (Y6 + I) r (x m s - Y5 + 1) r
(x m s
(Y5
m s + Xu s -YS -Y6
( x us - Y6
+ 1)
(8.5)
D'apres le theorems de Bayes, la conditionnelle complete a posteriori de Jr
peut s'ecrir e :
[JrIY5, Y6, X m s , X us , H] ex [Y5' Y6IJr , X m s , x us] [JrIH]
ex JrYs +Y6+aH-l (1 - Jrtm s+ Xu s-YS-Y6+bH-l
(8.6)
(8.7)
e,
160
ou
4000
D~==
Mise a jour des variables latentes L'evaluation de la conditionnelle complete des variables latentes s'effectue selon la memo demarche. Par exemple, le
tableau 8.3 nous dit que seulement ({3, Yl,~, X us, X ms, Y4, X mr, T) vont intervenir dans la conditionnelle complete du couple (X mc, X uc). Ainsi la mise a
jour de X mc implique ses nceuds parents {3 et Y1 aussi bien que ses nceuds
descendants X mr et X ms (via le ncoud de bilan deterrniniste X mj == Y1 - X mc)
ainsi que T qui, avec X mc, est coparent de X mr. Le lecteur verifiera que l'on
obtient facilement la conditionnelle complete de X mc en recherchant quels sont
les morceaux de la loi jointe de (X mc, T, 0, (3, Y1 , X mr, X ms) qui dependent explicitement de X mc :
ou
161
[xmslx ms-]
1 (
Q
)xms
D x m s (1 - Q) (1 - 7r)
f(l
+ Xmf
1
- x ms)f(l
+ Xms -
Ys)
ou
Min(Ymc,X4- X3)
n=Max(x4 -Yuc,X2)
8.4
8.4.1
Resultats numeriques
Annee 1995
Calcul MCMC
L'echantillonneur de Gibbs it ere dans les lois conditionnelles pour effectuer
la mise a jour des parametres et des variables latentes selon des lois beta et
des lois discretes. Trois chaines de lOs valeurs sont generees par l'algorithme
de Gibbs mais seules les 5000 dernieres valeurs sont conservees, Le diagnostic
de (Gelman et Rubin, 1992), fonde sur une analyse classique de variance pour
comparer les variances inter- et intra-chaines est satisfait pour tous les parametres. Cependant, l'autocorrelation reste particulierement forte parmi les
echantillons pour {3,7r et T, ce qui indique que l'exploration MCMC de leur
domaine est lente, mais le melange correct entre les trois chaines permet de
conclure qu'une exploration adequate du domaine a posteriori a ete realisee
d'apres ce grand nombre d'iterations, Les estimations empiriques de probabilite donnees dans les figures 8.7 et 8.8 et l'intervalle de credibilite a 90% du
tableau 8.4 proviennent directement de cet echantillonnage MCMC.
L'Inference bayesienne
Un simple coup d'oeil au prior et a la probabilite a posteriori pour chacun
des parametres basiques (fig. 8.7 et 8.8) montre que, pour la majorite d'entre
eux, l'incertitude initiale est considerablcment reduite. L'efficacite du piege ()
est superieure a 0.5. Le dispositif de capture cree un fort courant qui attire
les castillons de retour. La proportion prelevee par les pecheurs a la ligne est
d'environ 10 %. Seuls le taux de survivants Q et l'efficacite de l'enregistrement
T restent tres imprecis, La probabilite a posteriori Q est semblable a son prior.
162
Moyenne
0.67
0.81
0.11
0.89
0.65
0.11
747
85
534
Parametre
()
Q
/3
7
<5
1[
f\;
Xmc+Xuc
Xms+Xus
ecart-type
0.04
0.10
0.02
0.09
0.06
0.02
41
12
70
95 % quantile
0.74
0.95
0.15
0.99
0.73
0.15
816
109
640
5 % quantile
0.61
0.62
0.09
0.70
0.56
0.08
680
75
410
1[.
Comme on
peut s'y attendre, l'influence de l'action des pechcurs /3 et la probabilite d'enregistrement 7 sont partiellement confondues : leur correlation vaut en moyenne
-0.7. Elle est negative car l'essentiel de l'information est apporte par Y1 et
Y4 : a Yl et Y4 connus, Yl renseigne fortement sur r: et si on fait le pari que
/3 est grand, il faut alors en meme temps faire le pari que 7 est petit car
E (Y4 f\; ) == /37. La relation entre () et f\; est issue de I 'hypothese binomiale
E (Y11 (), f\;) == f\;().
1
f\;
/3
<5
7
1[
()
f\;
1
-0.21
-0.28
0.00
-0.06
-0.15
-0.91
1
0.08
0.01
0.02
-0.67
0.19
/3
<5
1[
()
1
-0.01
-0.70
0.11
0.26
1
0.01
0.03
0.00
1
-0.09
0.05
1
0.14
0.01 2 , - - - , --
, --
-,--
, - - - - , - --
, --
---,--
163
-----,
0.01
0.008
0.006
/ pos,e,io'
0.004
prior
0.002
1500
2000
2500
3500
4000
Taille du stock 1C
8.4.2
Les figures 8.9 et 8.10 ra pportent les resultats des calculs bayesiens tenant
compte des cinq dernieres annees de donnees du tableau 8.1 selon le modele
interannuel. En compara nt les tableaux 8.4 et 8.6, on s'a percoit que les ecartstyp es se reduisent quand on integre plus d'information dans l'analyse. Cela
est du a un effet boule de neige : l'in formation supplementaire est vehiculee d'une annee sur l'autre par l'mterrnediaire des par ametres communs
(7r, 0, 0:, (3, T , 8) jusqu'a diminuer le domaine d'incertitude attache aux valeurs
plausibles de la taille de chacun des sto cks annuels. Notons que les ecarts-types
se reduisent tous quand on passe au modele sur 5 ans sauf la probabilite de
recapture 7r qui, meme si elle est en moyenn e plus elevee, se retrouve bien plus
mal deterrninee. L'intervalle de credibilite est d 'un e longueur deux fois plus
importante et disjoint de celui obte nu en 1995. Cela est l'ind ication d'une variabilite int erannuelle de la peche de recapture qu 'on retrouve dans les faits :
aux alentours de Noel, apres la periode de frai, les reproducteurs meur ent . La
peche de recap ture de ces poissons moribonds s'effectue la nuit (ou l'on repere
mieux a la lampe torc he le ventre des poissons epuises). Par consequent la proportion de capt ures est tres fortement influencee par la date de la peche et les
condit ions hydr ometeoclimatiques (l'eau est glacee). Si le courant est fort ou
164
10
25
20
posterior
15
10
2 prior
0.5
prior et posteriore
0
0
0.5
prior et posterior
Q.
0.5
prior et posterio r Il
25
10
20
posterior
15
10
prior
<,
0.5
prioret posterio r t
0.5
prior et posterior S
0.5
prior et posterior :t
Figure 8.8 - Inference des paramet res de comport ement (pour l'ann ee 1995).
que les techniciens interviennent trap longtemps apres le fra i, la plupart des
reproducteurs sont morts et ont disparu. Le mod ele interannuel est don e peu
realiste a l'egard de la non-stationn arite de ce parametre tt .
8.5
8.5 .1
Discussion
Le role du prior
{3
T
6
Jr
~1995
~1996
~1997
~1998
~1999
Moyenne
0.72
0.41
0.11
0.99
0.63
0.27
700
695
430
590
235
ecart-type
0.02
0.11
0.01
0.01
0.03
0.08
25
26
17
21
11
95
% quantile
0.76
0.58
0.13
1.00
0.68
0.32
740
740
460
625
250
165
% quantile
0.69
0.24
0.10
0.90
0.59
0.16
660
650
400
560
220
Tableau 8.6 - Intervalles de credibilite pour les parametres (prise en compte des
cinq annees de donnees).
entre le prior et la loi a posteriori. Cette discordance apporte au statisticien
des elements de modification. Deux diagnostics sont possibles: (i) le prior issu
des connaissances locales n'est pas representatif de la situation a la lumiere des
donnees; (ii) le modele est mal determine a certains egards, Ces alternatives
devront etre verifiees et pourront servir de point de depart a une analyse plus
fine et plus poussce.
8.5.2
Le choix du modele
L'hypothese de stationnarite des parametres (Jr,(),Q,{3,T,6) du modele interannuel est tres discutable. On surestime sans doute la precision des estimateurs du nombre de geniteurs qui remontent la riviere. Faire l'hypothese
d'un comportement interannuel stationnaire est certes commode et parcimonieux, mais c'est une simplification bien osee du monde reel. .. que nous faisons
quand meme car ce modele, meme rudimentaire, apporte un grand benefice
en termes de qualite de l'estimation, de comprehension des sources d'incertitudes et dinterpretation ecologique, Nous verrons dans les chapitres qui suivent
des structures plus complexes, comme une construction d'effets aleatoires (voir
chap. 12).
8.5.3
Pour sur, le modele decrit par le systeme d'equation 8.2 est surparametre
puisque aucune information (a part les priors) ne permet de faire l'inference
separee de Q et de Jr a partir des donnees: c'est seulement le produit Q Jr qui
compte pour expliquer les donnees. Plus generalement, la matrice de variancecovariance entre les parametres permet de detecter quels parametres produisent
des effets confondus, mais meme une severe confusion comme ci-dessus, n'est
166
1200
800
1200
1000
1000
600
800
600
400
400
200
200
0
0.6
0.7
0.8
0.5
0.1
8
2500
2000
1200
1400
1000
1200
1000
800
1500
800
600
1000
0
0.85
600
400
500
400
200
0.9
0.95
0
0.4
0.15
200
0.6
0.8
pas un pro blerne pour conduire l'inference bayesienne. La modelisation en ecologie repose d'ailleurs en equilibre inst able entre des modeles realistes mais
souvent surparametres et des modeles parcimonieux trop rustiques ou avec des
coefficients de reglage dont les valeurs ont ete imposees par la litterature sans
possibilite de validation reelle. Dans le cadre bayesien, s'appuyer sur des priors
fondes sur l'experti se du praticien fournit un moyen coherent de sortir du dilemme precedent .
Epilogue
Le cas du Scorff est traite plus completernent dans l'article de (Parent et
Prevost, 2003) . Ce cas illustre comment la perspective bayesienne tire parti
de structures conditionnelles representees par un modele graphique (graphe
acyclique oriente). La modelisation conditionnelle se deroule tres simplement
apres que les variables latentes, les parametres modeles et les variables observees
ont ete identifies. Ces trois elements constituants donnent beaucoup de liberte
pour creer les rnode les de representation d 'un probleme reel. Les techniques
d'estimations bayes iennes par MCMC (Kass et al., 1996), et particulierement
'200
12:00
'000
' 000
' 200
BOO
BOO
'000
...
600
600
200
0
200
j
400
600
BOO
'000
400
0
200
200
400
600
BOO
1000
K (1996}
1200
1200
1000
1000
BOO
0
200
400
600
BOO
'000
K119 9 7 )
BOO
...
600
600
40 0
200
200
400
600
IC(' OOB)
Figure 8.10 -
BOO
200
ICI1905)
0
200
'400
600
400
167
BOO
'000
0
200
400
600
BOO
' 000
K (19 S9}
Ii-
(periode
1995-1999).
l'echanti llonneur de Gibbs, sont les out ils appropries pour realiser l'inference
avec les mode les conditionnels graphiques.
Pour un praticien, il est naturel d'introduire dans Ie modele des variables
qu'on peut inte rpreter, meme si elles sont cachees (variables late ntes) . L' approche bayesienne peut et re utile pour resserre r les liens entre t heoriciens et
scientifiques de te rrain : la modelisat ion gra phique est un outi l de communicat ion pour discuter et se mettre d'accord sur la st ructure d' un modele.
Chapitre 9
9.1
Introduction
Quand la reponse a une serie de stimuli est une variable aleatoire reelle, il
n'est pas rare que son image par une transformation adequate - eventuellement
la transformation identite - puisse etre vue comme un tirage aleatoire dans une
loi normale de precision invariante, et le modele de regression lineaire est alors
d'application. Mais il existe de nombreux problernes OU la reponse a une serie de
stimuli n'est pas reelle : une tumeur est presente ou absente; un consommateur
prefere un emballage cadeau vert, rose, orange ou jaune; le nombre de jours
de brouillard sur une pcriode donnee est un entier naturel. II est evident que
les reponses categorielles ou discretes ne peuvent pas etre gaussiennes. II en va
de memo pour les rcponses reelles intrinsequement positives etjou fortement
asymetriques ou, manifestement, l'alea naturel ne peut pas etre modelise par
une loi normale. Pour toutes ces situations, il faut adapter le modele Iineaire
standard. Ce sont les modeles Iineaires generalises parmi lesquels on peut citer :
170
9.2
Remarque 9.1 Ce modele - evoque des le chapitre 1 (p. 5) - fait partie des
prerequis, Pour une approche classique, on consultera avec profit le chapitre 11
de (Lejeune, 2005) et l'ouvrage de (Cornillon et Matzner-Lober, 2007), publies
dans la meme collection. Pour une approche bayesienne, nous renvoyons le
lecteur interesse au chapitre 9 de notre precedent ouvrage (Bernier et al., 2000)
et au chapitre 3 de (Marin et Robert, 2007).
Cette section, completee par l'annexe D (p. 289), est un bref rappel de ce
modele statistique parametrique tres populaire. Nous en profiterons pour distinguer l'incertitude par ignorance de l'incertitude par essence ou alea naturel.
Nous terminerons cette section par deux remarques importantes.
Si deux populations statistiques x et y sont liees, l'esprit humain peut se
rcprescntcr ces deux populations par un nuage de points dans le plan cartesien.
S'il pouvait recllcmcnt l'observer, la forme de ce nuage renseignerait it coup
sur l'analyste sur la nature de la relation entre Ie stimulus x et la reponse y.
Mais il n'en n'observe qu'un echantillon, c'est-a-dire un ensemble fini de couples
(Xi, Yi)' Postuler une relation lineaire, c'est parier sur le fait que ce nuage de
points, s'il etait observable, montrerait une direction bien marquee dans le plan
cartesicn. A contrario, l'independance des deux populations statistiques peut
etre figurec par un nuage de points en forme de boule. Bien sur, l'analyste qui
parie sur une relation lineaire entre les populations statistiques x et Y peut
perdre son pari.
Nous illustrons ces propos par un exemple simple: l'age des parents des
enfants actuellement it l'ecole primaire en Belgique (fig. 9.1). Nous avons simule
une population de 8000 couples it partir d'un echantillon reel de 663 enfants
frequent ant les ecoles primaires de la province de Luxembourg. Les couples
formes par l'age de la mere et l'age du perc, ici notes (x, y), dessinent un nuage
de points qui presente une direction principale bien marquee fig. 9.1.a). Le
modele lineaire est une representation simplifiee, mais ici pertinente, de cette
population (fig. 9.1.b). Meme si on disposait de la droite montree it la figure
9.1.b (on ne l'a jamais puisque la population est inaccessible), l'estimation de
l'age d'un parent connaissant l'age de l'autre serait presque toujours entachee
d'erreur (sauf pour les couples qui sont rcellcmcnt confondus avec cette droite).
L'erreur commise en substituant le modele it la population est appelee aloa
naturel , souvent represente par la lettre grecque c.
L'echantillon (fig. 9.1.c) est une infime partie de la population. La droite
de regression calculec it partir des seules donnees rccllemcnt disponibles (15
couples extraits au hasard dans la population) est representee it la figure 9.1.d.
171
Elle peut etre assez eloignee du modele (fig. 9.1.b). On comprend que la qual ite
essentie lle de l'echantillon est sa represeniatioite de la population sous-jacente.
Un echantillon de petite taille sans biais vaut mieux qu'un echantillon de gra nde
taille montrant un biais important. Bien sur, un echantillon de grande taille et
sans biais est l'ideal l Malheureusement, un te l ideal a un cout difficile, voire
impossible , a supporter en pratique.
60
(a) Population
60
50
50
.g 40
40
.0.>
Q..
0.>
30
~30
20
20 30 40 50 60
60
e 50
. 0)
Q..
.g 40
(b) Modele
(e) Eehantillon
.
;:: .
0.>
20
20 30 40 50 60
(d) Droite de regression
60
50
40
30
~30
20
20 30 40 50 60
Age de la mere
20
20 30 40 50
60
Age de la mere
Figure 9.1 - La population statistique des couples (x,y) (a) est rep resentee par un
modele (b) . L'echantillon disponible (c) permet de calculer une droite de regression
(d) plus ou moins proche du modele.
Remarque 9.2
traction qui
lineaire tant
En d'autres
au stimulus
172
9.3
e,
r-;
iid
dnorm(O,r)
(9.1)
+ e,
E (Y) == X(3
(9.2)
OU Yest le vecteur (n, 1) des reponses, X est la matrice (n, p) des predicteurs
et (3 est le vecteur (p, 1) des coefficients de la combinaison lineaire X(3. On
n'exclut pas le cas OU la premiere colonne de X est un vecteur de n valeurs 1,
1 On pourrait par exemple penser que les fiIles sont matures avant les garcons et que c'est
pour cette raison qu'elles preferent un conjoint plus age.
173
ce qui revient a dire que le premier predicteur est une constante inconnue (Ie
terme independant.).
Comme tout modele, le LM a des limitations.
- La reponse Y doit etre une variable aleatoire reelle (continue) ;
- La normalite de la reponse et l'invariance de sa precision ne sont pas garanties. Certes, on peut essayer de transformer Y, par exemple a l'aide de
la transformation de Box-Coxf, de sorte que Z == T (Y) ait une distribution normale de precision invariante. Mais il n'y a aucune raison qu'une
telle transformation T existe.
- Si la reponse Y est intrinsequemcnt positive, un lien fonctionnel entre sa
moyenne J-l et sa precision T n'est pas rare, c'est-a-dire J-l --t 0 =} T --t 00
(pensons a une concentration en polluant).
- L'additivite des effets (c'est-a-dire E (Y) == Xf3) peut etre irrealiste, Supposons, par exemple, que la reponse soit le volume utile d'un arbre sur
pied, V, et que les predicteurs soient la hauteur cstimce de son tronc, H,
et sa circonferencc mesuree a hauteur de poitrine, C. Personne n'ecrira
E (V) == a + f3H + TC car il est clair que ces deux prcdicteurs ne s'additionnent pas mais se multiplient et on cherchera plutot une relation de
la forme E (V) == >..Hf3Cr ou bien additive en logarithme.
9.3.1
Le GLM s'appuie sur une famille de modeles dont la loi normale est un cas
particulier. Les hypotheses de normalite, invariance de la precision et additivite
des effets sont levees et remplacees par la seule exigence suivante : la reponse
- ou une transforrnee de cette reponse - notee Y est un membre de la famille
exponentielle' des distributions statistiques a deux parametres (, 0) definie
comme suit:
[yIB, ] = exp {
yO- b(0)
a ()
+ c (y, )
(9.3)
ou
1. 0 est le parametre canonique et
> 0 est
le parametre d'cchelle ;
a l'avance
qui doivent
II s'agit de trouver A > 0 tel que x == Y .A-I ait une distribution normale.
3 A titre de contre-exemple classique, la distribution de Cauchy (rapport de deux lois
dnorm (0,1) independantes qui s'identifie a une loi de Student de degre 1), qui n'admet
aucun moment fini, n'est pas un membre de la famille exponentielle.
2
174
(J2
(9.4)
Rappel. Vne fonction f peut avoir comme exposant une autre fonction g. Si
f arrive dans
c'est-a-dire Vx : f (x) > 0, alors on peut ecrirc :
ffi.t,
f9 == exp (g x lnf) == e9 1n j
Exemple 9.1 Montrons que y
exponentielle.
If
r-;
exp (
exp { 0.5In
-~ (y -
JL)2)
2YJL) }
+ In ;7f) }
[yIA]
rv
b" (B) == 1
(J2
== l/T
AY
exp(-A) y!
exp (-A) exp (y In A) exp (-In y!)
exp{ylnA - A -lny!}
Posons
a () == 1,
0 == In A
c (y, ) == - In y!
II vient
bl(B)
== exp(B) ==
J-L ==
b" (B) =*
175
a 2 ==)...
[yl7r]
rv
== 7rY
[y 17r]
exp {y In 7r + (1 - y) In (1 - 7r)}
exp
{y In _7r_
+ In (1 1-7r
7r)}
Posons
7r
() == In - - {:}
I - t:
7r
e8
== - 1 + e8
Par consequent
1
In (1 - 7r) == In - - 8 == -In (1 + e8 )
l+e
+ e8 )
et c (y, ) == O. La
9.3.2
II est important de retenir qu'un modele GLM verifie les deux proprietes
suivantes :
1. la distribution de I'observable est cornpletement specifiee par son esperance et sa variance theorique ;
2. il y a un lien fonctionnel entre I'esperance et la ou les covariables expli-
catives.
176
9.4
La regression logistique
Exemple 9.4 Les prothesistes dentaires inhalent des poussieres toxiques et, a
la longue, sont susceptibles de developper differentes pathologies pulmonaires
regroupees sous le nom de pneumoconiose. A chaque prothesiste, on peut associer une variable aleatoire de Bernoulli Xj qui prend la valeur 1 avec la
probabilite 1rj si le sujet j montre une pneumoconiose. Sous I'hypothcse (peu
realiste) que la suite Xl, ... ,X n constitue un processus de Bernoulli, le nombre
de pneumoconioses dans un laboratoire d'effectif nest une variable aleatoire
binomiale, disons y, de parametre 1r et d'ordre n. Si on dispose d'une enquete
realises dans k laboratoires, sous l'hypothese (peu realiste) que les variables
aleatoires discretes YI, ... ,Yk sont iid, elles constituent un processus binomial
dont la vraisemblance s'ecrit
1r
Exemple 9.5 On peut vouloir verifier que la probabilite qu'un fumeur presente une pneumoconiose depende de la severite de son tabagisme. Ici, la probabilite de succes varie avec la consommation de tabac et done d'un patient
a l'autre (dans ce cas, on n'a pas un processus de Bernoulli).
Exemple 9.6 Dans un vivarium, on soumet des insectes ravageurs a une meme
dose de toxique durant un temps predefini, Si on prend soin de debuter l'experience avec des insectes sains et de mcme maturite, la probabilite de mort (qui
depend de la dose) est la meme pour tous les individus, et c'est un processus de
Bernoulli. Si on repete cette experience dans les memes conditions (nouveaux
individus sains et de meme maturite, meme dose du meme toxique, meme temperature et humidite dans le vivarium), alors c'est un processus binomial. Ce
n'est plus le cas si on repete l'experience en variant la dose.
9.4.1
La transformation logit
177
Parmi les choix possibles, la transformat ion logit est un lien tres utilise (fig. 9.2) :
logit (1T')
= In -1
De ] ,
1r
-1r
1T'
]0, 1[
Remarque 9.3 L'image de 1T' = 0 ou 1T' = 1 par la transformation logit n' est
pas un nombre reel mais ce n'est pas genant puisque cela correspond a des
evenernents irrealist es en pratique.
15
10
-5
-: ------
---------
-10
-15
04
0.2
06
08
== In _1T'_
1-
1T'
1T' =}
1-
1T'
exp(u)
l+ exp (u )
= l+e~p(u)
9.4.2
La regression logistique
A chaque individu
Yi
dbern (1T'i)
(9.5)
178
Un n-echantillon independant
9.4.3
L'enquete
Durant Ie mois de decembre 2006, un medecin du travail a realise une enquete aupres de 68 prothesistes dentaires repartis dans 10 laboratoires grandsducaux (Marion, 2007). Finalement, l'expert a retenu 8 variables exogenes pour
expliquer l'etat du prothesiste que nous appellerons Y. Y == 1 ou Y == 0 selon
que le sujet montre ou non une pneumoconiose.
1. Le labo.
2. L'age (annees},
3. Le sexe.
4. La duree de service au laboratoire (annees).
5. Le tabagisme (paqucts-annccs}.
- Si on compte 20 cigarettes dans 1 paquet, m cigarettes par jour pendant t annees equivaut a m x t/20 paquets-annees, Par exemple, une
consommation journaliere de 8 cigarettes pendant 12 ans est equivalente a 1 paquet par jour durant 4.8 ans ou 4.8 paquets-annees,
6. L'exposition
a l'alliage Cr-Co-Mo.
a la silice.
Labo
9
1
3
7
179
Age
56
40
Sexe
M
M
Duree
40
24
Tabac
7.5
6
CrCoMo
3
1
Corin.
2
1
Silice
0
0
47
50
M
M
29
30
3.7
1
3
2
3
0
3
0
1
0
0
1
Tableau 9.1 - Enquete aupres des laboratoires de protheses dentaires au GrandDuche de Luxembourg.
Y/EXP
0
1
Total
0
31
3
34
1
21
13
34
Total
52
16
68
(Xl, annees), le tabagisme (X2' paquets-annees) et l'exposition glob ale aux trois
toxiques (X3, 0 OU 1).
Le modele
Le modele de regression logistique s'ecrit (Y
== y) :
180
logit (1fi) ==
/30 + E
/3j Xij,
Yi
rv
dbern (1fi )
j=l
Enfin, la probabilite 1fo de diagnostiquer une pneumoconiose chez un Luxembourgeois non fumeur, qui n'exerce pas la profession de prothesiste dentaire
(Xl == 0, X2 == 0, X3 == 0) , est donnee par logit (1fo) == BO. L'intervalle de credibilite a 90 % est [0.02, 0.24] et la mediane est 0.08.
1090
Q5
Q50
Q95
B1
-0.07
-0.02
0.04
B2
0.00
0.08
0.17
B3
0.53
1.72
3.12
181
RR
1.5
4.1
13.9
fumeur).
9.4.4
Exemple 9.7 Pour tuer un insecte ravageur on utilise soit l'insecticide A, soit
l'insecticide B, soit un melange des deux produits. Le melange est compose de
x unites de A additionnees a Z unites de B. Si on soumet n insectes au melange
A+B pendant t heures, on observe 0 < Y < n morts.
p==->O
Z
logit (1ri)
cirvN(O,T)
iid
Yi
.L
(9.6)
182
E~t
A
B
Dose
Figure 9.4 - Les relations dose-effet des deux substances sont paralleles,
- si /'l; == 0 alors les deux substances ont des effets simplement additifs;
- si /'l; > 0 alors le melange est une synergie ;
- si r: < 0 alors le melange est antagoniste.
Bien entendu, d'autres modeles sont possibles. Ce serait notamment le cas
si l'expert disposait de connaissances particulieres sur l'action des substances.
Dans le cas contraire, le modele 9.6 fournit une base raisonnable pour ce type
de problema.
Application phytosanitaire
Les donnees de la figure 9.5 resultent d'une experience conduite par (Giltinan et al., 1988). II s'agit cl'etudicr l'activite conjointe de deux insecticides
contre la phalene verdoyante (Heliothis virescens) qui affecte les feuilles de tabac. Des etudes anterieures ont montre que les relations dose-reponse des deux
insecticides, denommes A et B, sont quasi paralleles. Les melanges ont ete realises dans les proportions 0 :100, 25 :75, 50 :50, 75 :25 et 100 :0. A chaque
experience, 1J.LL de produit etait directement applique sur chaque chenille. La
variable d'interet est le taux de mortalite 96 heures apres le traitement.
9.4.5
183
non inform atif pour le par ametre K, est aussi une loi uniforme sur l'intervalle
reel [-a, a] avec a assez gra nd. Finalement , le prior conjoint non informatif se
resume a
[0] 0:
Epilogue
Nous avons present e le modele lineaire generalise comme une ext ension du
modele lineaire. La regression logistiqu e est certainement une de ses applic at ions les plus utilisees. Nous verrons sur le cas d'etude du cha pitre 10 que
d'autres exte nsions int eressant es (residus autoregressifs, erreurs dans les variables explicatives, modele probi t ordonne) se const ruisent sans peine par assemblage de modules a la maniere d'un jeu de LEGO.
184
bela
a~h a
kappa
rho
SIgma
.
~
-2
-,
-,
-6
..
Coaffic"n l
2.5%
97,5%
~ 50% 1
10
A
O.
0.8
01
OB
05
0.'
03
02
0'
00
17
18
13
"
14
10
20
15
Chapitre 10
186
pur d'une part et a un modele autoregressif simple d'autre part. Cette propriete
d'assemblage est inherente a la demarche de modelisation bayesienne par conditionnements. Imaginer ensuite un schema d'erreurs sur les variables se fait sans
douleur pour la modelisation et pour l'inference. De la meme facon, quand
l'observation de certaines sorties du pro cede ne s'effectue plus qu'au travers
de grandeurs catcgoriellcs, on peut aussi s'appuyer sur la structure explicative
precedente, qui devient une couche cachee du modele.
Ce chapitre s'appuie sur une scrie detudes reelles : (Girard et Parent, 2000),
(Girard et Parent, 2001) et (Girard et Parent, 2004). Les observations de viscosite ou de categories de vitesse d'epaississcment du LCS proviennent d'etudes
realisees chez Nestle. Pour des raisons de confidentialite, les series de variables
explicatives ont ete centrees et norrnees.
10.1
Introduction
Un pro cede de fabrication agroalimentaire realise une transformation physique ou chimique des maticres premieres pour genercr un produit final. Pour
piloter ses installations, l'industriel possede une connaissance empirique tres
fine de ses pro cedes de fabrication sans avoir besoin de recourir a un modele
statistique explicite. Ncanmoins, cette maitrise technologique peut diminuer en
raison de modifications techniques importantes et un modele statistique peut
alors devenir un outil precieux. Tel est Ie cas, par exemple, du precede de fabrication du lait coticenire sucre (LCS) qui est un produit phare de la societe
Nestle. En effet, d'une part Ic LCS est du au fondateur de la societe, Henri
Nestle (1868), d'autre part ce produit constitue toujours une image emblematique de qualite. Parmi les caracteristiques du LCS, sa viscosite interesse particulierement le consommateur car elle participe de pres a la facilite d'emploi et
donc a la consommation du produit. Afin de maitriser le pro cede au niveau de
la viscosite, Nestle met en oeuvre tous les moyens de mesure de la viscosite et
enregistre les parametres de fabrication. Ce pro cede consiste schematiquement
a chauffer et a deshydratcr le lait.
Le tableau 10.1 liste les quatre variables du probleme : une variable endogene, c'est-a-dire la viscosite du LCS a expliquer, et trois variables exogenes,
variables explicatives ou regresseurs.
y
Xl
X2
X3
viscosite du LCS
quantite d'extrait sec en entree du pro cede
pourcentage de matiere grasse du produit fini
temperature de pasteurisation du premier traitement thermique
Tableau 10.1 - Viscosite du LCS : definition des trois variables exogenes retenues.
187
SlOCKAGE
PROCEDE
Lait
.....
I
CONDInONNEMENT
111 111
Concentration
.. ._.........................
-
_;_/
.~
vlscoslte
mesuree
sur Iigne
188
J~
o
50
(b )
: :d
100
150
J~~
:~r S?~
o
50
(c)
100
150
~~o
o
50
100
150
Figure 10.2 - 150 fournees de fabrication (a : extrait sec du lait brut , b : extra it sec
du produit fini , c : temperat ure de pasteurisation, d : viscosit e).
Viscosite y (Pa-s)
Minimum acceptable
Limite haute
Indice de capacite : Cp
Valeur
y20
y+
30
y + -y
6<7,
0.21
10.2
Nous allons pro ceder comme le ferai t peut-etre un st ati sti cien engage par
une ent reprise pour lui fourni r une aide a la decision. Le statist icien arrive
avec ses connaissances de modelisateur et , peti t a petit, apprend le procede
de fab rication du LCS en dialoguant avec les experts de Nestle. Ces derniers
189
10.2.1
Les moyens
a mettre en oeuvre
Au-dela de ce probleme industriel interessant, notre but est aussi de montrer comment on peut construire un modele pas-A-pas, du plus simple au plus
complexe, par conditionnements successifs. A cet egard, realiser l'inference par
echantillonnage de Gibbs est particulierement eclairant. Ce choix nous conduit
a privilegier les priors partiellement conjugues de sorte que les conditionnelles
completes sont toujours des lois standards, disponibles dans la bibliotheque de
R (R Development Core Team, 2009). Cela implique de jongler avec les formes
quadratiques et c'est pourquoi nous detaillons certains calculs pas a pas en
annexe E, a la section E,.
10.2.2
Remarque 10.1 Dans cette section, les hypotheses dindependance sont implicites. Leur justification pour le probleme du LCS sera faite au moment de
leur inference.
Les modeles Ml et M2 sont definis de la memc maniere : au temps d'observation t., l'ecari entre l'observable, soit Yt, et la prediction, soit J-Lt, est un
bruit bloiic: note Et (t == 1,2, ... ,n).
1 Le bruit blanc est le processus stochastique le plus simple. C'est une suite de variables
aleatoires reelles, X (t E Z), telles que "It : E (X t ) == 0 et V (X t ) == 0- 2 , Cov (X t , X t +h ) == 0
pour tout t et h.
190
==
Et
ILt
Et
r-;
iid
dnorm (0, T)
== { (1, Xt) 13 ~ M1
PYt-l ~
(10.1)
M2
Dans cette ecriture, Xt == (Xtl' Xt2, ... ,Xtq-l). Le vecteur (1, x.) est donc
de dimension 1 x q de sorte que 13 == (130, 131, ... ,13q - l )T est de dimension q x 1.
Dans le cas du LCS q == 4 et 13 == (130,131,132, 133)T.
Le modele M3 integre les deux premiers de la maniere suivante : au temps
d 'observation t., l' ecart entre l' observable Yt et la prediction ILt est proportionnel a ce meme ecari observe au temps t - 1, auquel on ajoute un bruit blanc
(t==1,2,"',n):
Yt - ILt
ILt
P (Yt-l - ILt-l)
+ Et
(1, x.) 13
dnorm (0, T)
(10.2)
xi
Yt - ILt
P (Yt-l - f-Lt-l)
+ Et
f-Lt
(1, x.) 13
Et
dnorm (0, T)
Zt
dmnorm (x.: I q -
1)
(10.3)
M3
M2 {:}
M4
M3 {:}
13 == 0 et P -:f 0
~ 00
Enfin le modele M5 imagine que la sortie y du modele M4 n'est pas directement observable: ses effets ne deviennent tangibles qu'a travers un mecanisme
d'observation trinomial. Le modele M4 devient alors une couche latente du
modele M5.
191
Complements
Les modeles M2 et M3 posent le probleme des valeurs initiales, ce qui n'est
pas le cas du modele MI.
- Pour M1 (eq. 10.1) :
M1: () == ({J,T)
- Ecrivons Ie modele M2 (eq. 10.1) en t == 1 : YI == PYo + CI Alors, soit Yo
est fixe par des considerations physiques ou logiques - par exemple, la
premiere fournee de LCS est ralisee dans une cuve toute neuve - soit Yo
est un parametre supplementaire qu'il faut inferer. Ce sera notre choix :
M2 : () == (p, T, Yo)
- Le modele M3 (eq. 10.2) en t == 1 donne YI - XI{J == P(Yo - xo{J) + CI. Si
nous supposons que cette identite est representative de ce qui s'est passe
en t == 0, -1, -2,, nous avons, par exemple: Yo == xo{J+p (Y-I - X-I{J)+
co OU co rv dnorm (0, T). Mais comme Y-I et X-I ne sont pas des quantites connues, il est plus simple d'ecrire Yo == a+co OU a est une fonction de
quantites inobservees, Le parametre a est considere comme un parametre
a part entiere du modele M3; c'est lui qui regle la condition initiale de la
trajectoire des Yt :
M3 : () == ({J, p, T, a)
- Le modele M4 (eq, 10.3) ajoute la precision au parametre du modele
M3 :
() == ({J, p, T a, )
et les quantites inconnues et incertaines sont () et le vecteur latent
10.3
Xt.
La viscosite du LCS est explique par trois variables explicatives parfaitement connues (tableau 10.1).
Remarque 10.2 L'hypothese selon laquelle les variables explicatives sont certaines et connues n'est, ici, pas tres realiste, Cependant, tant que la finalite du
modele est la seule description de donnees deja recueillies, on peut l'accepter, car la regression bayesienne est conditionnelle aux valeurs des predicteurs,
c'est-a-dire au fait que X t k == Xtk (k == 1,2,3). Ce n'est plus la meme chose si la
finalite du modele est predictive. En effet, les valeurs futures des variables explicatives (qui fondent la prevision) ne peuvent pas etre supposees connues. II faut
les considerer comme des realisations de variables aleatoires X t k (k == 1,2,3).
Dans ce cadre, une hypothese importante est I'independance entre celles-ci et
l'erreur de prevision (Vt, Vk : Xtk 1- Ct).
192
10.3.1
Formulation du modele M1
Remarque 10.3 Pour une loi normale, la precision est l'inverse de la varuuice ; pour une loi gamma, le parametre d'echellc inverse est, comme son
nom l'indique, l'inverse du parametre d 'echelle (ce dernier s 'exprime dans les
memes unites que la variable oleoioire}, N ous travaillons avec la precision et le
parameire d'echelle inverse.
Xt == (Xtl, ,Xtq-I) ,
la matrice
est de genre n x q.
Le modele de regression lineaire (eq, 10.1) peut se mettre sous la forme
suivante :
y == Xj3 + E, E dmnorm (0, rIn)
(10.4)
r-;
10.3.2
La vraisemblance s'ecrit
[yl,8, Y] ex
(10.5)
[ria, b]
ex
r a - I exp (-br)
(10.6)
- Pour le vecteur des coefficients j3, une loi normale multivariee, localisee sur le vecteur m,6 (dim m,6 == q x l ) et de matrice de precision P,6
(dim P,6 == q x q) :
[,BIm/3,P/3] ex exp
(-~ (,8 -
(10.7)
193
[;3, T]
==
[;3] [T]
Moyenne
== p;;-l (TXTy
Forme
a* == + a
m;
+ P {Jm{J)
Precision
P; == TXTX + PrJ
Echelle inverse
b* == ~E1 E + b
Definition
E ==
Y - Xf3
10.3.3
II faut bien sur fixer les hyperparametres a, b, m{J et P {J' Pour ce dernier, on postulera souvent l'independance a priori des composantes du vecteur
f3 =} P {J == p{JI q avec la precision PrJ > 0 fixce. Un prior non informatif est
obtenu avec a, b, PrJ ---+ 0 et m{J == O.
10.4
194
10.4.1
Formulation du modele M2
Yt == PYt-l
10.4.2
+ ct,
ct
rv
iid
dnorm (0, T)
(10.8)
[0]
==
[p, T, Yo]
==
[Tla,b]
ex
Ta - 1 exp (-bT)
ex
[plmp,pp]
ex
exp
(_P; (p -
(10.10)
yo)2)
m p )2)
(10.11)
(10.12)
Remarque 10.4 Le prior sur p peut etre tronque sur l'intervalle ]-1,1[. Ceci
n'entraine aucune consequence puisque ce prior est defini a une constante de
proportionnalite pres (independante des parametres).
Avec ces priors, le tableau 10.5 donne les lois conditionnelles a posteriori,
aisees a determiner grace aux conjugaisons partielles. La section E de l'annexe
E fournit plus de details au le lecteur souhaitant suivre pas a pas le schema
d'obtentention de ces lois.
Moyenne
m *p -_
Zo
m;o
Gamma
Forme
a* == ~
+ ppmp)
+ pzom zo)
1 (TZ
. 1 Z-I
P~
p:
==
zo
(TpZI
Precision
* _.1
Pp-TZ_IZ-I
* _
\2
PZo - rp
+ Pp
Definition
+ Pzo
Echelle inverse
b* == ~U1 U + b
+a
195
u ==
Z - PZ-I
10.5
Est-il possible d'avoir le beurre et l'argent du beurre? Vne regression lineaire qui ignore la memoirc de la reponse (modele M1) ou un processus AR1
sans variable explicative (modele M2) sont deux choix assez limites. L'idee est
de faire les deux choses simultanement tout en conservant la commodite de
l'estimation par algorithme de Gibbs.
10.5.1
Formulation du modele M3
y p == X p {3
(10.13)
ou
Vt
y
Xt
,Xtq-I)
(10.14)
(10.15)
(10.16)
, . .. ,( 1, x.,) ) T
(10.17)
(10.18)
Y - PY-1
(10.19)
X-X- 1
(10.20)
La condition intiale, Yo, est une variable latente distribuee selon le modele
suivant
Yo
r-;
dnorm (ex, T)
() == ({3, T, ex, p)
La vraisemblance est immediate
[Yp,Yoll3, T,
Ct, p, X p]
Ct)2))
(10.21)
196
10.5.2
Prealablement au recueil des donnees experimentales, l'homme d'etude possede une connaissance a priori sur les parametres ({3, T) qui est independante
de celIe qu'il a pour le couple (a, p). II semble done raisonnable de continuer a
supposer ici que
[{3, T, A, p]
(10.22)
En procedant ainsi, ce sont les donnees qui etabliront la covariation entre les
parametres relatifs a la partie modele lineaire et ceux caracterisant la partie
autoregressive.
La vraisemblance (10.21) indique que les lois des parametres du modele
appartiennent a la famille exponentielIe, ce qui implique l'existence de lois a
priori conjuguces. Les choix suivants sont logiques et commodes
Tla,b
dgamma (a, b)
plmp,pp
dnorm (mp,pp)
alma,Pa
dnorm (ma,Pa)
(10.23)
10.5.3
Moyenne
m~
a
p
m~
==
m *p -_
Parametre
T
Forme
1+ a
a* ==
1*
Prv
1
P~
a determiner
Precision
(TYO + Pama)
('1
TZ Z-l + ppm pI)
nt
P~ == TX~Xp + Pj3
== T + Pa
*
Pp ==' 1
TZ_1Z-l
P~
+ Pp
Echelle inverse
b* == ~cT c + ~ (Yo - a):l + b
rv
== Y - X{3,
Z-l == Y -1 -X- 1 {3 et c == Y - X p {3 . On trouvera dans la section E de l'annexe
10.5.4
197
a resi-
Yt-l;
(10.24)
- Xt-l,3)
Yt
Ct
==
==
f30
PCt-l
+ Ut
tel que
Ut
f'J
dnorm
(0, a- 2 )
(10.25)
== 1, ... , T == 304
La specification des hyperparametres ressort de la responsabilite du modelisateur. On cherche ici a exploiter les connaissances detenues par les operateurs
de la ligne.
- Pour Ie coefficient dautocorrelation P, les hyperparametres m p et Pp sont
deduits du modele empirique precedent (10.24). Un poids important est
mis autour des valeurs proches de 0.9 pour s'approcher au plus pres du
modele empirique precedent, avec m p == 0.9 et Pp == 1.
- Pour les coefficents des variables explicatives, les hyperparametres ffi,a et
P,a ont ete definis a partir d'une enquete realises aupres de la production.
En pratique, pour l'elicitation, on a plus l'habitude de travailler avec la
matrice de variance :E,a == p~l. Compte tenu de l'etat de notre connaissance sur le phenomene modelise, il est raisonnable de considerer que cette
matrice est diagonale, c'est-a-dire que les variables explicatives n'ont pas
d'interaction entre elles pour le phenomena considere. Les valeurs ffi,a et
les termes de la diagonale de la matrice :E,a sont ensuite evaluees a partir de l'approximation normale realisee sur l'histogramme obtenu pour
chacune des variables considerees independamrnent (fig. 10.3).
Apres approximation normale, nous obtenons :
198
:'1
o. ~
(b)
n8
0.6
I: ~llll~~~IjliD
26
28
0.4
0.2
o --
32
~o
-2
n1Ilk
-1
:r.j
o.s
I~I
0, -
1.5
.8 0.1
a.
o.z
0.5
-1
-4
Figure 10.3 - Encodage de [a loi a priori du para met re (3 : (a) - te rme constant (30 ;
(b) - (31 ; (c) - (32 ; (d) - (33
{3 =
28.43 )
-0.11
0.2
et ~,8
- 1.91
( 3.5
0
0
2.8
o
o
o 2.5
o o
b/
10.5 .5
b2
4( a-I)2(a-2) '
(E(T))2
Applicat ions
199
1:~1
.n
n .t
a. 0 .05
25
Figure 10.4 - Lois marginales a posteriori des param etr es du mod ele lineaire pur en
trait pointil le et du modele lineaire a residu s autocorreles en t rait cont inu : (a) - terme
constant (30; (b) - (31; (c) - (32; (d) - (33 ; (e) - a 2 ; (f) - paramet re d'au to corr elatio n p
La figure 10.4 presents les lois marginales a post eriori (trait pointille) des
par ametres du modele lineaire pur (M1) et les lois mar ginales a posteriori des
parametres du modele M3 obtenues par simulat ion. Rappelons que les deux
premieres vari ables explicatives sont des caracteristiques de la matiere premiere
tandis que la derniere est une temp erature du precede. On constate que la
disp ersion des est imations des par amet res du modele lineaire pur (M1) est
generalement plus pet ite que celle des parametres corres ponda nts du modele
lineaire a residus aut oregressifs (M3). L'homme d'etude qui oublie un possible
effet autoregressif peut ainsi se montr er sur confiant a l'egard de ses estim ations
statistiques de la force des vari ables explicat ives. D'autre par t , l'introduction
d 'un fact eur de memoire (ici la valeur a post eriori de p vaut 0.65 ) change le
mecanisme explicat if : l'effet de X 2 change de signe, l'influence de X3 est sans
doute bien plus forte qu 'on ne le croyait avec le modele lineaire pur.
On peut egalement et udier la covariat ion entre les par ametres du modele M3
(non repr esent ee ici). C'est le coefficient /33 de la temp erature de pro cede qui
est le plus lie aux valeurs possibles de p. Cela illustre les problemes d'inference
rencontr es pour le modele lineaire en cas de depend ance ent re les erreurs. Ce
200
10.6
Le modele lineaire repose sur 1'hypothese implicite que les variables explicatives sont connues avec certitude. Or, il est tres frequent que les variables
explicatives soient entachees d'erreur. Les facteurs de production, comme la
variable X3, sont fixes par un operateur a une valeur de consigne. Or tous
les facteurs de production (temperature, pression, par exemple) sont soumis a
des systemes de regulation qui permettent d'obtenir en moyenne la valeur de
consigne sur un certain pas de temps. II est possible aussi que, compte tenu de la
construction des appareils de fabrication, certains facteurs de production fi uctuent de facon non volontaire en fonction d'autres. Tous ces elements amenent
a penser que le facteur de production considere n'est pas exactement la valeur
de consigne. Dans ce paragraphe, nous supposons que la derniere variable X3 a
ete entachee d'une erreur normale.
10.6.1
Formulation du modele M4
Ce modele a ete defini par la relation (10.3). On peut aussi l'ecrire sous la
forme equivalents suivante
Yt ==
Ut == PUt-1
Zt == Xt
~t.l
+ Et,
+ ~t,
~t
t
Et
r-;
== 1, 2, . . .
rv
iid
,n
(10.26)
dnorm (0, T)
dmnorm (0, I q -
I)
xt.l Et
OU Xt == (Xtl' . .. ,Xtq-I) est le vecteur ligne (1 x q - 1) des variables explicatives non observees,
Tout se passe comme si les observations Zt == (Ztl' ... ,Ztq-I) etaient tirces
dans la loi normale multivariee suivante
Zt
r-
dmnorm (Xt, I q -
I)
[Yt IXt,
Xt
est
201
[a 2] [AJ [p]
(10.27)
De facon analogue au (10.13), le calcul explicite de la loi conjointe a posteriori et de ses marginales n'est pas possible, mais le calcul des conditionnelles
completes est tres facile puisqu'en fait on a simplement attache un etage a la
fusee sans modifier la structure conditionnelle de (10.13). On obtient donc des
lois conditionnelles completes identiques a celles du tableau 10.6 a cela pres
qu'elles sont conditionnees par rapport a X, maintenant inobservable. Ainsi,
pour utiliser l'echantillonnage de Gibbs, nous avons seulement besoin d'expliciter la loi conditionnelle complete de X. En developpant le calcul de (10.27)
(a la maniere de la section E de l'annexe E) et en isolant les termes propres au
vecteur Xt, on retrouve l'exponentielle d'une forme quadratique en Xt, ce qui
montre que
Xt
r-;
N (Xt, ~;tl)
<n
== 7(1 + p2){3T{3 +
= ~:Ei: (
2
(10.28)
(10.29)
et en t == n, il faut prendre :
();, T, et
202
10.6.2
Specification du parametre
Les lois a priori pour les parametres ((3,7, Q, p) du modele (10.27) ont ete
prises identiques a celles de la section precedente. L' application ici ne porte
que sur l'erreur de mesure de la variable explicative X3, la temperature du procede de fabrication. Les autres variables explicatives sont ici supposees connues
sans erreur, de telle sorte que le modele precedent est simplifie car n'est plus
une matrice mais une variance scalaire. Une campagne de mesure a ete realisee pour avoir une premiere evaluation de 7 2, 7 2 == 4/5. Si nous n'avions pas
une bonne connaissance de 7 2 et si l'on veut donner plus de souplesse au modele, il est possible de considerer que 7 2 est un parametre inconnu et d'estimer
alors de facon simultanee tous les parametres a l'aide de I'echantillormage de
Gibbs. On effectuerait pour cela l'ajout d'un niveau de conditionnement supplementaire par rapport a 7 2 en faisant par exemple l'hypothese qu' a priori
T-
r-;
dgamma (
mais la technique d'estimation par simulation MCMC de tirages dans les lois
conditionnelles completes ne change pas.
10.6.3
La figure 10.5 presente les lois marginales des parametres des modeles
(10.25) Iineaires avec residus autocoreles sans erreur dans X3 sous la forme
de trait continu (modele M2) et avec erreur dans la dernierc equation (10.27)
par un trait discontinu, et 7 2 connu valant 4/5 (modele M3).
De facon generale, le fait de considerer que la derniere variable est entachee
d'erreur ameliore la precision de l'estimation de son parametre : ici, la distribution a posteriori de la derniere variable est moins diffuse. Par ailleurs, nous
pouvons observer que:
- tout d'abord, l'alea du modele parametre par (J"2 de la loi normale a fortement diminue. La difference a ete absorbee par l'incertitude 7 2 modelisant
I'erreur dans la derniere variable;
- ensuite, les deux autres variables que nous avons suppose connues avec
certitude ont vu leur influence peu modifiee :
- enfin, le parametre representant la memoire du phenornene semble prendre
une valeur plus forte, compensant en quelque sorte la diminution en
moyenne a posteriori de {33.
10.7
203
(a)
0 .4
:!! 03
i 02
0.5
il
e, 0 .1
0
24
26
32
34
0
-1
(c)
(d)
0 .
ra
0.5
e,
-1
02
~
~
.D
0
-ll
Ie)
8
6
0.1.
0 .1
n, 0.05
0
10
20
40
50
-4
IX
0
0.s
-2
I~
...
0.6
0.7
0.8
0.9
Figure 10.5 - Lois marginales a posteriori des parametres d'un modele lineaire a
residus autocorreles sans erreur (trait continu) et avec erreur sur variable explicative
temperature (trait pointille) : (a) - terme constant f3o ; (b) - f31; (c) - f32 ; (d) - f33;
(e) - (72 ; (f) - pararnetre d'autocorrelation p.
producteur. Les experiences de suivi de la viscosite menees sur plusieurs mois
apres la fabrication d'une foumee montrent que l'on peut classer chaque fournee selon trois categories de vitesses d 'evolut.ion de la viscosite. Dans la suite
de ce chapitre, nous tournons notre interet vers la prevision de cette variable
categorielle, Par tradition, on appellera encore yt cette variable aleatoire qui
prendra la modalite j = 1,2,..J, avec dans notre cas d' etude J = 3. L'objectif
est de relier la categoric de vieillissement du produit au traitement qu 'il a subi.
La figure 10.6 montre sur la meme annee 1997 a l'usine Nestle de Boue un
sous-echantillon de 100 observations. II y a maintement cinq variables explicatives . En plus des trois variables deja utilisees dans les sections precedentes,
on considere aussi la temperature du traitement thermique final X 4 appliquee
au lait concentre et X 5 l'intensite d' un traitement mecanique (brassage) mis en
place avant conditionneme nt .
10.7.1
Formulation du modele M5
L'idee de base du modele est d'imaginer qu 'a chaque pas de temps, il exist e
une quantite exp licative I Lt caracteristique de l'etat du produit qui prend sa
valeur sur des int ervalles delimites par les parametres / 0 = - 00 < / 1 < ... <
/ J - l < / J = + oo. On cherch e a construir e un mecanisme d'affectation probabi-
204
20
00
Time
100
Figure 10.6 - Sous echanti llon de 100 observat ions sur I'annee 1997. Cinq variables
explicatives et une vari able categorielle a expliquer (vit esse d 'epaississement au cours
du vieillissement du produit) .
liste de yt a une categorie tellc que plus J.1t prend des valeurs fortes, plus yt a
de cha nce de prendre une valeur de categoric elevee, Considerons Ie mecanisme
aleatoire decrit par 7rtj, la probabilite que I'observation t soit dans la categoric
j se const ruit par inversion de la fonction de repartition <P de la loi norm ale
N(O,l) .
[yt
= j lJ.1il = 7rt j
avec 7rtj = <P
h'j -
(10.30)
J.1t) - <P
h'j- l -
J.1t)
(j = 0, . .. , J)
[Y 1J.1] =
II (<p (l'y(t) -
t =l
La figur e 10.7 montr e que les prob abilites que I'observation Yt appartienne 11
la categoric j selon la gra ndeur explicative I l t. Pour interpr ete r cette figure, il
fau t imaginer que les I'i sont fixes et que J.1t peut se deplacer, ent rainant avec
elle la courbe de Gauss en cloche.
Considerons maintenant Ie mecanisme aleat oire suivant :
- tir er une gra ndeur aleato ire Z, de loi norm ale cent ree sur J.1t de variance
unite ;
19%
6%
Tr13
205
z
Yo =-00
YI
Y2
Jl,t
Z= "'(j
[z lILt] dz
Z="'(j - l
Z = "'(; _ l
La grandeur Z, normale centree sur ILt est une grandeur lat ent e associee au
phenomena cat egoriel (10.30).
Zt
= IL t + Ut
Ut
rv
ii d
N(O,l)
206
!1 J
T
[Y 1M, /,] =
!1 (it
T
N(Zt
Zt
+ P(Zt-l -
J-lt == Xt{3
Xt-l{3)
Remarquons que cela revient alors a faire l'hypothese d'un modele lineaire
residus autocorreles (10.25) pour modeliser la variable latente Zt.
Zt == Xt{3 + Ct
(10.31)
ct == pct-l + Ut
Ut rv dnorm(O, l )
iid
[Y , Z I r,ZO, P, {3 , X]
== ITT
l['"YYt_l,'"YYt]
2n
t=l
10.7.2
(Zt)
exp
[Zo, , {3, p, Z IY ~ X]
ex
t=l
IT {Ih'_l - . (Zt)}
t=l
207
On prend ainsi :
[Zo]
[/3]
==
== N q
[r]
==
N J - I (r Iro, D) L)/l<...<rJ-l<rJ-l
==
Ici encore la vraisemblance appelle la conjugaison et les conditionnelles completes des parametres Zo, r, /3, P et des variables latentes Zt, sont identifiees a
partir de l'expression (10.33) dans l'annexe E. Les equations a posteriori facilement obtenues (E.10)+(E.11)+(E.12)+(E.13)+(E.14)+(E.15) sont tres simples
a simuler si bien que l'algorithme d'estimation bayesienne MCMC du modele
probit categoriel ne pose pas de problemc. Cet algorithme de Gibbs enchaine
les phases:
simuler [Zo
IZ, r,/3, p, y] ,
,r,/3,p,y] ,
(10.34)
10.7.3
Les priors ont ete fixes de telle sorte que /30 == 0 == rO' On choisit les variances
a priori (J~ et (J; egales a 1, pour mettre a l'echelle toutes les grandeurs latentes.
En ce qui concerne p, on s'inspire des resultats precedents obtenus pour la
viscosite du lait : on se dit qu' a priori la mcmoire de ces phenomenes est sans
doute comparable, de telle sorte que l'on prend Po == 0.65 et (J p == 0.05. Les
parametres du modele (10.30) sont estimes avec les 5000 dernieres iterations
MCMC de 10 000 runs de l'algorithme (10.34).
La figure 10.8 montre les lois a posteriori des cinq parametres relatifs aux
effets des variables X == (x-, X2, ...Xs) avec et sans introduction de l'autocorrelation dans les residua pour lc modele (10.30). On voit que les lois a posteriori
des variables explicatives sont plus diffuses pour le modele le plus complet que
pour celui negligeant les autocorrelations. A partir des resultats des simulations
MCMC, on peut aussi reconstruire une estimation des variables latentes Z; et
par consequent du bruit Ut intervenant dans (10.30).
On a fait l'hypothese que Ut etait un bruit blanc gaussien. La figure 10.9
en donne les caracteristiques statistiques; on peut verifier que les hypotheses
dindependance et de norrnalite sont ici tres acceptables.
208
~l
.~
-0.4""-- 0:":.2""-~--:'=------'~~
o
0.2
0 .4
0. 6
(e)
]~
- 1.5
-1
-0 .5
~l ~
- 0. 8
-0. 6
- 0 .4
~I .:~
(b)
(a)
0. 5
- 0.4
- 0.2
0.2
(d)
]~
-1
- 0. 5
0 .5
0.4
1.5
-0.2
Figur e 10.8 - Dist ribu t ions marginales a posteri ori de {3 (en t raits pleins modele avec
auto regression des residua et en pointilles sans autore gression des residu s)
Epilogue
Le lecteur de ce chapit re t rouvera dans les et udes sur Ie meme sujet publi ees
par Girard et Parent , des reponses aux question s non traitees ici, en parti culier :
- comment fait-on pour choisir un modele ou declarer qu 'un e variable n'est
pas significativement influente 7 Si on considere les 5 variables pot entiellement explicat ives et deux possibilites de depend ance des residus (independan ce ou autoregression d 'ordre 1) du modele (10.30), on peut en effet
const ru ire 62 modeles element aires a 1, 2, 3, 4 ou 5 vari ables explicati ves
(Girard et Parent , 2004) !
- les result ats sont-ils t res sensibles au choix d'un prior (Girard et Parent ,
2000) 7
- comment utili se-t-on en pratique les resultats d'un tel modele pour regler
a de nouvelles valeurs de consignes, les commandes du pro cede (Girard
et Parent , 2001) 7 Peut-on vraiment ameliorer la qualite du produit fini 7
Toutes ces questions sont dignes d 'interet , mais nous avons pluto t voulu
dans ce chap itre attirer l'attentio n du lecteur, a partir d'un cas reel, sur les
aspects de const ruction d'un modele stochastique. A bien des egards, cela
ressemble a un jeu de LEGO et c'est facile ! Le cas de la fabri cation du lait
concent re sucre illustr e premierement la const ruction d'un modele pas a pas,
par conditi onnement s successifs : le modele se complexifie et en meme temps
209
(.:1)
0.999
0.997
0 .5
...-------._---.-
+~.'
0.99
0.98
0.95
0.90
-0.5
0.75
-1
10
15
a:l
,,)
0.50
12
0.25
10
0.10
0.05
0.02
4
0.01
0.003
0
0.1
0.001
02
03
0.4
0 .5
+
~
-1
0
Data
Figure 10.9 - Verification du caractere de bruit blanc Gaussiens des Ut : (a) autocorrelogramme, (b) histogramme, (c) Q-Q plot
s'edifie par une sorte de recul vers les couches profondes de variables latentes,
grandeurs des porteuses de l'explication conceptuelle du precede. Deuxiemement, il est rassurant de constater que l'intendance suit ! L'approche bayesienne
donne les moyens de realiser l'inference de tels mode les de facon tres simple :
calquant la structure conditionnelle de la construction intellectuelle explicative,
l'algorit hme de Gibbs brise un gros calcul difficile en une sequence de simulations plus elernentaires. Au chapitre suivant, ce caractere ludique persiste, mais
le jeu se complique quelque peu : on s'eloigne de la commodite de conjugaison du modele normal tandis que le caractere dynamique du systeme et sa
dimension temporelle deviennent essentiels.
Chapitre 11
dans la fabrication des objets usuels. Cette pollution peut constituer une menace pour la sante. Par consequent, determiner le temps d'activite d'un emetteur de polluants est utile, notamment pour I'elaboration de normes. Nous
traiterons specifiquement Ie cas des formaldehydes emis par certains tapis et
carpettes. II s'agit d'un phenomene intrinsequement non lineaire et lc but est
de determiner le temps au bout duquelle materiau emetteur a perdu l'essentiel
de son activite. La mesure du taux d'emission est indirecte. On la deduit de
la concentration du polluant regulierement mesurce dans une enceinte climatisee et ventilee. En pratique, le dispositif experimental produit peu de donnees.
Typiquement, il faut maintenir la ventilation et les conditions experimentales
rigoureusement constantes durant une dizaine de jours. On comprend qu'une
telle experience n'est pas aisement repetable dans les memes conditions; on
peut meme dire qu'elle est unique! Par consequent, il est essentiel de quantifier
les incertitudes sur les parametres qui regissent le taux d' emission, en particulier pour comparer les effets potentiellement nocifs de produits concurrents.
212
11.1
Introduction
De nombreux materiaux menagers tels que peintures, papiers peints, tapis, etc., peuvent emettre des composes organiques volatiles (COV). Les COY
comprennent des centaines d'especes chimiques, mais possedent tous le point
commun de s'evaporer et de se diffuser a temperature de l'air ambiant (Squinazi, 2002). Le taux cl'emission spccifique (masse/surface/temps) depend de la
temperature et de l'humidite de l'air ambiant (Haghighat et De Bellis, 1998).
Les recherches, realisecs au cours des dernieres decennies, montrent que la pollution de l'air a l'interieur des habitations peut largement exceder les niveaux
releves en plein air et menace done la sante humaine de facon significative
((Wolkoff, 1995), (Samet, 1993)). Comme generalement plusieurs sources de
COY interferant, la plupart des etudes de sante portent sur la totalite des divers composes organiques volatiles (TCOV). Dans tous les cas, caracteriscr la
pollution engendree par le materiau sous investigation passe d'abord par une
estimation du profil temporel d'un taux cl'ernissiou que nous noterons () (t).
L'approche standard fait l'hypothese d'une degradation exponentielle a deux
parametres qu'il faudra estimer, a savoir le taux d'emission initial ()o 2: 0 et un
parametre, A > 0, propre au compose chimique specifique emis par le materiau
etudie (Tichenor, 1989). Malheureusement, on ne peut pas mesurer de facon
directe des observations appariees (()i, t i ) . V ne mesure indirecte est obtenue en
placant un echantillon de l'objet emetteur dans une enceinte climatisee et ventilee appelee chambre d'emission. L'observable est le niveau de concentration
du polluant que l'on mesure regulierement a la sortie de la chambre. C'est a
partir des observations (Ci ,ti) et du modele retenu que l'on derivera le profil
temporel du taux d'emission () (t) ,susceptible de fonder une aide a la decision.
Ce chapitre rep rend des donnees reelles, publiees par (Hayter et Dowling,
1993) qui les ont analysees de facon classique.
11.2
A chaque instant, la concentration du polluant dans la chambre est homogene dans tout lc volume.
213
11.2.1
Pour modeliser Ie taux d'emission du polluant par l'obj et emette ur, une
approche standard consiste a supposer que ce taux , 0, a une decroissance exponentielle avec Ie temps (Tichenor , 1989) :
(11.1)
11.2.2
214
t
C
i
t
C
1
0.5
0.219
2
1.5
0.397
3
2.5
0.410
4
4.5
0.549
8
72.5
0.132
9
144.5
0.019
10
168.5
0.031
11
196.5
0.027
5
8.5
0.333
12
216.5
0.023
6
24.5
0.243
7
48.5
0.163
13
240.5
0.018
dC(t)
dt
A B(t) _ qC(t)
(11.2)
Aeo
C(t) = Co exp (-qt) + V(q _ A) (exp (-At) - exp (-qt))
(11.3)
q1!0)
11.2.3
215
o
0.06
0.5
1:
~ 002
.~
0.04
O.4cP
0.3 f
"-
8 0.2
0.1
co
=>
-o
:~
LJ
0:
o
o
-0.02 .0 0 0 0
.
-0.04
-0.06 ~~'-:--~L............J
1e-3
1e-2
1e-1
1eO
Concentration (~g/m3)
Figure 11.2 - Concentrat ions et residus des estimateurs ponctuels calcules par Hayter
et Dowling.
pour met tre en place l'echantillon du materiau emettant dans la cha mbre
avant de lancer les operations.
11.2.4
Discussion
Dan s les applications, il est preferable de remplacer les valeur s uniques que
fourni t I'estimation classique par des intervalles decrivant toute la gamme de
variati ons des valeurs possibles des par ametres. Ainsi, (Jones, 1999) ra pporte
que les effets nefastes sur la sante de l'exposition aux form aldehydes peuvent
survenir par inhalation ou contact direct . Par exemple, une exposit ion a des
concentr ations situees ent re 0.01 et 25 ppm (1 ppm = 1.2 mg /m 3 ) entraine des
irritations des voies resp irato ires superieures. En ce qui concerne les normes de
securite , aucun fabricant d'obj ets domest iques ne pourrait se satisfaire avec une
cour be de taux d'emission des materiaux fondee sur des esti mations ponctuelles
sans la moindre idee quant aux inte rvalles de variations possibles. En clair , les
est imations avec intervalles surviennent chaqu e fois qu 'une forte sanction penalise un jugement errone. Nous sommes ici, dan s une sit uation ou l'infer ence
classiqu e est particulierement impuissante par ce que, comme nous l'avons vu
ci-dessus, la taille de l'echantillon est par ticulierement petite (et les intervalles
de confiance de la st atistique classique s'appuient sur une persp ective asymptot ique) tandis que la cour be du temps de concentration du pollu ant est intrinsequement non lineaire, si bien que les erreurs d'echantillonnage ne peuvent
pas etre connues. C'es t la raison pour Iaqu elle, nous et udions le probleme de
Hayter et Dowling d'un point de vue bayesien , plus efficace dans ce cas.
216
11.3
11.3.1
(-Ad)
1,
i == 1 2 ...
,
(11.4)
ou
(11.5)
De meme, en reprenant la relation (11.3), on voit que le niveau de concentration dans la chambre au temps t, depend :
1. de sa valeur au temps ti-l ;
A present, nous devons representer les incertitudes car il est clair que la
concentration observee, Yi, n'est pas la vraie valeur du niveau de concentration de polluant dans la chambre au temps t i .
Plusieurs strategies de modelisation des erreurs sont possibles. La plus
simple est la suivante :
1. le taux
(}i est
217
Remarque 11.1 La precision est divisee par n; parce que nous supposons
qu'elle decroit tandis que le laps de temps entre deux observations consecutives augmente. Un tel choix nous a semble raisonnable, mais la discussion est
ouverte.
Ces hypotheses conduisent au modele d'echantlllonnagc suivant :
(11.8)
avec
(11.9)
== (A, 8o, T) ou
== (Co, A, 8o, T)
On sait que cette concentration est tres faible (c'est la quantite de polluant
emise entre le moment OU l'operateur place l'objet dans la chambre et l'instant
OU il lance les operations). Avec les donnees du tableau 11.1, son estimation
ponctuelle est Co ~ 0.05 Mgjm 3 . Bien que le modele a quatre parametres soit
calculable sous WinBUGS, il presente un probleme d'identifiabilite et nous lui
preferons le modele a trois parametres, plus parcimonieux.
11.3.2
C, et d; etant respectivement donnes par les relations 11.9 et 11.5, la vraisemblance du N -echantillon y == {Yi : i == 1,2" .. ,N == 13} (tableau 11.1) est
triviale
(11.10)
[T] ex OaT A
(11.11)
218
11.3.3
R esultats
I Unites
I I C90
eo
I H&D I
-1
p,g/m'2/h
a=l /Vi
Demi-vie T
0.008
1.15
0.017
1.28
0.035
1.42
0.023
0.032
0.048
19
42
93
0.024
1.27
29
350
300
300
250
250
200
200
150
150
100
50
0,075
01
12
1.4
1.6
18
8,
219
18
1.7
1.8
1.5
.0 "
13
1.1
O'~
0.01
o_~
o.m
Q~
x
O~
0.00
0.07
QOO
C ommentaire
On l'a dit, l'analyse bayesienne produit beaucoup plus de resu ltats que les
methodes classiques, surtout en ce qui concerne la quantification des incertitudes. Or celles-ci doivent etre considerees lors de la prise de decision. Par
exemple, on rappelle que le demi -temps de vie d 'un materiau emetteur est Ie
temps necessaire pour qu e son activite diminue de moitie
8(t) = 80 ex p (- >.t ) }
8(t) =0.580
T _ln2
:::}
>.
Imaginons que le legisla teur fixe une norme a quarante-huit heures, c'esta-dire qu'il veut que le demi-temps de vie soit inferie ur a ce delai. Dans ce
cas , si on se contente des estimations ponctuelles (11.2) , Ie tapis a perdu la
moitie de son activite emet t rice apres 29 heures et cette norme est respectee. La
pris e en compte des incertitudes aboutit a la conclusion inverse . Evidemment,
comme toujours, ces resultats dependent de toutes les hypotheses sur lesquelles
l'analyst e s'est appuye.
220
- '"
0"
1.2
'"
-H&D
o.
02
12
15
18
Temps (jour)
21
24
27
30
Figure 11.5 - Profil te mporel des taux d'emission et inter valle de credibilite
a 95 %.
Epilogue
Ce cha pit re illustre les apports de I'an alyse bayesienne pour l'etude des
emissions de formaldehydes d'un echant illon de tapis. Le profil du taux d'ernission au cours du temps du materiau et udie est I'obj ectif de I'experience, mais
il n'est pas dir ect ement observable. On utilise un instrument approprie : un
modele reduit de chambre aeree conte nant l'echantillon polluant . Les donn ees
apparaissent comme des series discretes d'observations appariees, repr esent ant
les niveaux de concent ration de polluant dan s la cha mbre , au cours du temps.
Celles-ci sont utilisees pour modeliser Ie profil du niveau de concentration de
polluan t dans la chambre au cours du temps qui est intrinsequement non lineair e. On peut ensuite I'u tiliser a son tour, pour est imer Ie profil du taux
d'emission au cours du te mps de I'echantillon et udie.
Sous Ie paradigme bayesien, un modele statistique simple nous a permis de
quant ifier les incertitudes at tachees a une estimation pon ctuelle des parametres
du modele. En utilisant un prior joint non informat if, nous avons utilise les
techniqu es de Monte-Carlo par chaine de Markov pour calculer la dist ribu tion
a post eriori mar ginale de chaque par ametre objectif. Prend re en compte les
incertitudes permet des recomma nda tions operationnelles de prudence : par
exemple, au vu des donn ees experiment ales, il est fort plausible que Ie profil du
taux d 'emission au cours du temps ne soit pas nul passe 10 jours, mais on peut
parier avec confiance qu 'il Ie sera au-d ela de 20 jours. De te ls resultats sont
essent iels pou r la prise de decisions dans Ie domaine des normes de securite en
sante publique.
Chapitre 12
Les avantages de la
modelisation hierarchique :
application a la
capture-marquage-recapture
des saumons
Prologue
Voici un modele bayesien hieturchique (MBH) pour l'analyse des donnees de
capture-marquage-recapture de saumons. Ce chapitre se presente comme une
suite au chapitre 8 et s'appuie sur l'etude (Rivot et Prevost, 2002). Chaque
annee i, ces deux chercheurs de l'INRA de Rennes veulent estimer le nombre
inconnu Vi de saumons qui remontent la riviere Oir pour frayer ainsi que la
probabilite de capture ()i du piege utilise pour effectuer ces mesures. Ils disposent d'une seric d'observations allant de 1984 a 2000 collectees sur le terrain
par les techniciens de la station experimentale du Moulin des Princes, Nicolas
Jeannot et Francois Burban, aides de Jean-Yves Moelo. Pour analyser de telles
donnees, on peut vouloir, en premier lieu, faire I'hypothese d'indcpcndance complete entre les annees, c'est-a-dire imaginer que les resultats des experiences de
capture-marquage-recapture d'une annee ne nous amenent aucune information
quant aux resultats possibles des autres annees. A l'oppose, on peut etre tente
d'ignorer la variabilite entre chaque annee en regroupant en un memo echantillon les donnees de toutes les annees comme si elles provenaient du meme
modele d'observation. Le modele hierarchique realise un compromis astucieux
entre ces points de vue extremes. II suppose que les annees ne sont ni completement identiques ni completcment independantes et considere que les ()i et les
222
Vi sont issus d'une memc distribution de probabilite dont les parametres sont
inconnus.
Lorsqu'il y a peu de donnees, un modele qui suppose l'independance entre
les annees menera a des inferences a posteriori pauvres. En effet, pour ces
annees avec un faible effectif mesure, les donnees apportent peu d'information, ce qui produit des distributions a posteriori imprecises et difficilement
exploitables. La superiorite du modele hierarchique vient de ce qu'il organise
le transfert d'information entre les annees puisque ce sont des unites statistiques qui partagent une caracteristique commune. II pallie egalement un autre
inconvenient de I'independance interannuelle qui conduit a des resultats beaucoup plus sensibles au choix des distributions a priori (( Gazey et Staley, 1986),
(Chao, 1989)) que lorsqu'on impose une structure hierarchique.
12.1
Donnees
12.2
Modele de capture-rnarquage-recapture
c,
Xi
mi
r,
Yi
167
264
130
16
226
235
15
44
31
100
32
109
70
56
34
154
53
13
48
37
4
43
36
8
0
11
19
14
7
15
22
4
6
0
154
216
93
12
183
199
7
44
20
81
18
102
55
34
30
148
53
22
25
9
24
12
56
17
24
9
7
5
46
82
15
36
35
37
12
21
5
2
12
56
2
23
4
4
1
39
25
12
6
23
4
223
12.2.1
Sous I'hypothese d'egalite des chances d'etre capture HI, on peut considerer
la migration des saumons Vi comme des experiences de Bernoulli independantes
224
Amont
Recaptures
y = nbde marques
sur r captu res
m =c-x
nb de m arques
Poissons
evitant
le pieg e
~_""'\ - . Piege de
remontee
c = nb de captur es
~
~~
Aval
Stock entrant
'Y =
[C =
~
12.2.2
clv
t
t ,
01.1]
= CC
i (Ol)
Ci (1 _ Ol)!li- ci
Vi
z
Z
(12.1)
M, =
ttu ,
a I'annee i
225
(12.2)
12.3
226
Priors sur
Jet r
hyperparametres
parametres
annee i
[6].
Le MBH decrit a la figure 12.2 traite de facon conjointe les series de chacune des annees i == 1, ... ,I. Les grandeurs (Vi,Oi) ont un statut mixte. Elles
dependent du vecteur des hyperparametres == (r, 6) et sont des variables
aleatoires non observables qui conditionnent les observables (Ci , Ii, R i ) elles
recouvrent alors de ce fait un statut de parametres inconnus. La distribution
a priori conjointe n(v,O,) repose sur deux hypotheses: prcmiercmcnt, I'independance entre (0, r) et (v,6) et deuxiemement I'cchangeabilitc de Oiet de Vi
(Gelman et al., 1995b). La loi a priori sur tous les parametres s'ecrit finalement:
227
La distribution a posteriori conjointe [v, Oldata] est obtenue par la combinaison de la distribution a priori jointe [v, 0, ] et de l'expression de vraisemblance
[datalv, 0, ] puis par elimination sur les hyperparametres :
[v, Bldata]
0:
(12.5)
[datalv, 0, ] == [datalv, 0]
==
II [datailvi,Oi] II t;
==
i=l
i=l
228
[v, eldata]
ex
(12.7)
"
Le MBH permet un transfert d'informations entre unites statistiques echangeables dont Ie mecanisme probabiliste est decrit par les equations donnees dans
l'annexe G.
12.4
rt rs u
P i rs sur v
parametres
v.1
annee i
Figure 12.3 - Le modele annuel avec independance considere chaque annee isolement
par I'interrnediaire des hyperpararnetres ("'(1, .."'(1,61, ..61).
229
12.5
12.5.1
Pour Ie MBA, il faut specifier toutes les distributions a priori [(Ji I/i]et [Vi l<5i].
230
Pour le couple (0:, (3) , on prend souvent (~, ~). En effet, la loi beta (~, ~)
est le prior de Jeffreys pour le parametre d'une distribution binomiale. Elle est
syrnetrique autour de () == 0.5, sans mode ni moment d'ordre deux et charge les
queues de distribution () == 0 ou () == 1.
D'autres valeurs pour (0:, (3) sont possibles, notamment la loi uniforme
(0:,(3) == (1,1). Ces autres priors sont testes dans l'article de (Rivot et Prevost, 2002), ou ces auteurs realisent une etude de sensibilite plus complete.
On a aussi teste des bornes N m ax == 1000, 2000 ou 3000 ainsi que d'autres
formes de distributions et on a ctudie la modification des resultats a l'egard du
choix de ces priors (Rivot et Prevost, 2002).
12.5.2
Priors
a deux et.ages
du modele hierarchique
Pour Ie MBH, il faut specifier toutes lcs distributions a priori [()i Ir] et [Vi 16]
et les hyperdistributions [r] et [6]. Cette fois, on a un etage superieur qui assure
la coherence entre les parametres de chaque annee en les considerant comme
des realisations issues d'une urne regie par les hyperparametres 6 et r.
0:
fJ== 0:+(3
fJ(l-fJ)
(J" 2 == ---
0:+(3+1
(12.10)
231
de telle sorte que se donner une distribution sur (j1, o ) revient a en definir une
sur (a, (3). Le prior [,] presente dans la suite de ce chapitre a ete construit
comme suit.
Pour u, par analogie avec le modele MBA, on prend une loi beta (~, ~) car
j1 s'exprime sur la meme echellc que e.
Pour (]"2 qui est un parametre d'echelle, on tire selon
mais en respectant
la condition (]"2 < j1( 1 - j1) verifiee par les moments de la loi beta. On peut
justifier cette operation par reference au prior de Jeffreys dj1
pour la loi
normale : la transformation choisie revient en effet a prendre ce type de prior
sur la moyenne et la variance de la loi beta. D' autres priors, testes dans (Rivot et
Prevost, 2002) permettraient d'effectuer une etude de sensibilite plus complete.
Une alternative aurait ete par exemple de prendre la distribution prop osee par
(Gelman et al., 1995b). Elle consiste a poser:
;2'
d;
et a prendre une loi uniforme sur le couple (u, v). Le support de la loi uniforme
a ete pris entre - 5 et 10 pour u et pour v car les inferences a posteriori sont
quasi insensibles quand on augmente la gamme de variation au-dela.
12.6
Resultats
232
l'annexe G). Le modele MBA et les variantes hybrides s'ecrivent sans difficulte a
partir du canevas donne par le modele le plus complique. En suivant les recommendations de (Spiegelhalter et al., 2000), trois chaines differentes permettent
de mettre en ceuvre un test pour verifier la convergence de l'algorithme MCMC
(Gelman et Rubin, 1992). La periode de chauffe a ete ici prise a 5000, puis 2000
iterations ont fourni un pseudo echantillon des lois a posteriori utilisees pour
dessiner la figure 12.4.
Les resultats montrent que les inferences obtenues sous Ie MBA peuvent etre
peu fiables et tres sensibles au choix des distributions a priori. La figure 12.4
donne les distributions a posteriori marginales pour l'efficacite de capture O}
(partie a) et les tailles de population Vi (partie b) au cours des annees 1984 a
2000. Ces evolutions ont ete obtenues pour quatre structures de modeles, Dans
cette figure, les traits continus representent les intervalles de credibilites du
modele hierarchique bayesien avec hyperpriors (12.10) et (12.9). La ligne a tirets
est utilisee pour un modele hybride a structure hierarchique sur les O} seulement
avec hyperprior (12.10) et le prior (12.9) sur les Vi, avec N max == 2000 ; la ligne
a tirets pointilles reprcsente, elle, un modele hybride avec structure hierarchique
sur les Vi seulement avec hyperprior (12.9), et le prior (12.8) sur les Oi, tandis
que la ligne pointillee est associee au modele annuel bayesien avec le prior
(12.8) sur les O} et Ie prior (12.9) sur les Vi avec N max == 2000.
Les distributions a posteriori de O} et Vi derivees du MBA - avec des priors
non informatifs - varient beaucoup selon les annces, en termes de centrage et
de dispersion, comme on Ie constate sur la figure 12.4.
Les estimations des distributions a posteriori de Oi sont particulierement
variables selon les annees (fig. 12.4). Mais la grande dispersion de O} observee
sur des annees telles que 1992 et 1993, n'a pas forcement de grandes repercussions sur les Vi (voir partie b de la figure 12.4). Les annces OU peu d'adultes
sont attrapes indiquent une population de faible taille, pour autant que les
autres donnees de recapture permettent ci'ecartcr le fait que cette faible estimation provienne de probabilites de piegeage sous-estimccs. Certaines annees
ont des distributions a posteriori de Vi precises et symetriques, tandis que
d'autres inversement peuvent avoir des distributions a posteriori dispersees et
asymetriques (voir fig. 12.4b). Pour ces dernieres, les limites superieures des
intervalles de credibilite a 95 % bayesiens apparaissent indubitablement trop
larges etant donne la taille de la rivierc Oir, mais aussi d' apres les connaissances
biologiques et ecologiques sur le saumon atlantique. Les inferences sur la taille
de la population Vi proviennent essentiellement des experiences de recapture
binomiales et dependent donc en premier chef de l'echantillonnage de recapture. Des donnees eparses de marquage-recapture (peu de marquages ou peu
de recaptures de poissons deja marques) conduisent a des inferences imprecises
(annees 1987, 1990, 1994). Les inferences a posteriori sous le MBA sont assez
robustes a l'egard du choix de la distribution a priori sur Oi. Au contraire les
inferences a posteriori sur Vi sont tres sensibles au choix du prior. Le changement de la distribution a priori de Vi peut avoir de fortes repercussions sur les
distributions a posteriori, surtout les annees OU les donnees sont pauvres.
233
Nombre de saumons
1eoo
(b)
1eoo
,
,
1 400
1200 -
1000
!: r
eoo
"
!:;
,.
GOO
::00
..
19 8 4
198~
1..:.
11:
IT~i:t'" IIn.l'
t!;:.
.1..
11: ,
TIT'
III: 11 11
Ill.
.1...1. ...
1986 1987 1988 19691990 1991 1992199319941995 1998 1ge7 1998 19992000
234
(b)
Nombre de saumons
0.1 2 r-~-~---~--'
0.10
0.020
0.08
0.015
0.06
0.2
0.4
0.6
0.8
500
1.0
1000
1500 2000
2500
[Bldata]
J
J
[BI,] [r , bldata]d,db
(12.12)
[vlb] b, bldata]d,db
(12.13)
, ,15
[vldata] =
,,15
Ces distributions predictives a posteriori sont calculees a partir du modele hierarchique bayesian. Les hyperpriors utilises sont (12.10) et (12.9). Les
courbes sont estimees par des histogrammes frequentiels issus de l'echantillonnage par chaines de Monte-Carlo Markov . La distribution predictive a posteriori
de l'efficacite moyenne du piegeage sous Ie MBR (fig. 12.5a) parait relativement
peu informative. La transmission d'information entre les annees pour I'efficacite de la capture est faible. Cette observation correspond au peu d 'amelioration
obtenu en imposant une structure hierarchique sur les Bi .
En revanche, la distribution predictive a posteriori de la taille moyenne de
la population est informative avec une valeur moyenne autour de 230 indivi-
235
Epilogue
La modelisation hierarchique rend plus robustes les inferences du modele a
l'egard du choix de prior et de la rarete de donnees. Elle permet le transfert
d'informations entre des unites statistiques au nom de leur ressemblance. Le
concept d'echangeabilite est la facon probabiliste de quantifier precisement cette
ressemblance sous forme d'un modele hierarchique. L'importance relative du
transfert d'information est reglee par la dispersion de la distribution aleatoire
decrivant la ressemblance entre les unites. Cette dispersion est evaluee de facon
quantitative a partir des donnees au cours de la phase dinference.
Chapitre 13
Modeles
de changements caches
Prologue
Parmi tous les problemes cl'actualite, ceux qui ont trait a l'exploitation de
l'environnement naturel permettent de mesurer, mieux que tout autre, la neccssite de s'adapter aux changements climatiques. Ainsi, l'agriculteur en zone
sahelienne comme le producteur ri'hydroelectricite au Quebec ont grand interet
a detecter les changements de regime dans les series chronologiques disponibles.
En effet, s'il est indeniable que la prevision du futur repose sur la connaissance
du passe, on comprend aisement qu'une telle prevision se refere essentiellement
aux informations recueillies depuis que lc systemc est reste dans le meme regime
stationnaire jusqu'a son etat actuel qui persistera. C'est pourquoi, la detection
des changements de regime dans les series chronologiques constitue un theme
de recherche tres important pour l'aide a la decision. Se pose alors immediatement la question des transitions. Sont-elles brutales ou ont-elles une duree
significative par rapport a l'unite de temps?
Classiquement, les modeles non stationnaires supposent que les parametres
sont evolutifs avec le temps. La plupart reposent sur une hypothese de continuite de cette evolution. Les prototypes en sont, par exemple, les modeles de variations saisonnieres en geophysique. Mais on a extrapole l'hypothese de continuite a une cchclle de temps plus grande, comme l'interannuelle. C'est que les
statisticiens, comme de nombreux scientifiques, ont eu historiquement l'habitude de raisonner selon des schemas continus. II n'est cependant pas preuve
que cette vision des choses represente bien la realite. Bien souvent des changements par sauts apparaissent realistcs : sous l'effet d'une contrainte qui
evolue continfunent dans le temps, le systerne passe brutalement d'un eta;
dans un autre (les changements de phase en thermodynamique en fournissent
un exemple patent).
238
Dans ce cha pitre, nous nous interesserons uniquement aux modeles de changement par sauts, souvent appe les ruptures. Nous traiterons surtout de la modelisatio n et de l'inference bayesienne sur leurs parametres. Nous aborderons
succinctement Ie choix entre divers modeles sans oublier bien sur celui qui nous
servira de reference, I ' absence de rupture.
R emarque 13.1 Dans ce chap itre, nous ne traiterons pas Ie cas multisite avec
effet de covariation spatiale tres uti le aux hydro logues (Perreault, 2000). Ce
theme de recherche, plein d'avenir, est une clef pour I'aide a la decision en
avenir incertain, par exemp le pour I'adaptat ion aux changements climatiques.
13 .1
Introduction
II est facile de simuler des ruptures. Par exemple, imaginons une serie de
longueur n divisee en k + 1 ;::: 2 sequences iid selon une loi normale, localisee
sur jlj et de precision h j (j = 1,2, . . . ,k + 1). Le nombre de ruptures est alors
egal a k. La figure 13.1 illustre Ie propos avec une simulation pour laque lle on
a choisi k = 2. Les changements de moyenne et de precision sont simultanes et
ont lieu aux dates 38 et 78. Au seul vu des donnees , ces changements ne sont
pas faciles a detecter directement sur la serie brute. Une eventue lle prevision a
I'horizon 110 implique de postuler Ie maintien du niveau actuel a moins qu 'on
ait de bonnes raisons d'envisager un reto ur vers un regime anterieur (presence
de cycle de longueur plus ou moins bien connue par exemp le).
10
8
6
4
2
0
10
20
30
40
50
60
70
80
90
10
O'---
100
239
13.1.1
2000
1800 ... _-1600
.~.
.......
.. .
1400
..
1200
M ".:': :-1/
...-Y-
1000
......
800
..
------ ......
--........... _-
------
.._--
..
-----..- ] ...
..
~ ..
..
600 .........._-
----
---- . . . .
-IV
I .. .
/\"
..
..
......Q ....
.-........ _--
..
...
..
----.........
.Ii....... ..
---.........
400
200
1900
1920
1940
1960
1980
2000
2020
a Cenac .
Sur ces exemples nous effect uerons a la fois la mod elisation, Ie choix de
mod ele (quel nombre de ruptures adopter?) et l'inference, Les t ravaux de (Per reaul t , 2000) sont a la source de notre inspiration pour ces mod eles, largement
developp es pour le cas norm al en hyd rologie par (Perr eaul t et al., 2000) .
240
1400
r--,----.-----.----r----r--,-----,---,--,
1200
-- ---T - - -- -' --
---- - -.-----
1000
--
------1-----
soo -- -
6:)0
---
400
200 ' - - - - ' - - - - ' - - - ' - - - - - ' - - - - - ' - - - ' - - - - ' - - - ' - - " - - - '
1900
1910
1920
193Q
1940
1S50
1!l6O
1970
198 0
1990
13.2
a Bakel.
13.2.1
Soit une sequence de variables aleatoires reelles YI , Y2 , . .. ,Yi ,.. . ~, observees a intervalles de temps regulier (des annees par exemple), supposees
mu tuellement independantes et distribuees selon le mod ele suivant fonde sur la
distribution norrnale unidimensionnelle :
(13.1)
ou
. {I
z-
-:?
-:?
t
t
=
=
1,+.. .
,T
1, . . . ,n
Remarque 13.2 Ecrire le mod ele 13.1, c'est dire qu e T est la derniere dat e
avant cha ngement du par ametre IL de la distribution par ente, alors qu e l' au tre
pararnetre, la pr ecision h, rest e invariant . Il y a aussi, derri ere ce schem a, l'id ee
que la rupture est unique et don e que le nouvel etat, carac terise par IL2 perdure
au moins jusqu 'a la fin de la period e observee n . C'est bien sur une hypothese
forte .
241
x10
1.6 r--:-::..----.------r---.------,----~--__,
1.5 f-
1.4 l-
..,.
/\
I-\
-1
,.. J v
1.3
1.2
1.1f- : \
1970
1980
1990
2000
Figur e 13.4 - Valeurs annuelles d 'a pports energetiques du Saint-L aurent en 104 x
Gwh entre 1943 et 2000.
13.2.2
Modele Nh : k ruptures
C'est le meme modele que ci-dessus sa uf que l'on suppose ici que k sau t s
existe nt dan s une serie de var iabl es aleat oires indep end antes qu i sont normalement distribuees (la moyenn e J.L cha nge mais la precision h reste invari an te) .
II existe don e k dates de ruptures Tj (j = 1, 2, . . . , k ) et k + 1 param etres J.Lj
(j = 1,2, '" , k + 1) te ls que, par exemple, cha que tLj est assoc ie a la periode
finissant en Ti- Des lar s J.Lk+1 est associe ~l la period e comrne nca nt apres Tk. La
figure 13.5 illustre le propos pour k = 2 (done 3 groupes) .
Discussion
Ce ty pe de mod ele n 'a de sens qu e si k est reduit a quelqu es un ites pui squ e
ce nombre fixe la dim ension du vecteur T = (Tl , '" , Tk) et la dim ension du
vect eur J.L = (J.Ll , , J.Lk+l) :
0 = (T,tL,h) ~dimO =2(k +1 )
Si k est trop grand , l' inflation de par am et res ren d Ie mod ele ste rile. Signalons
qu e, de ce point de vue, (Hubert , 2000) a developpe une methode de segmentat ion recher chant la meilleure partiti on d 'une serie chronologique en k sousperiodes minimisant une dist an ce qu ad ratique globale ent re les k moyenn es
empiriques des sous-periodes , Le choix de k est fonde sur un tes t statistique
242
discutable, meme pour un statist icien classique. Le resultat est que, assez systernat iquement, la meth ode de segmentation surestime le nombr e de da tes de
rup tures sur des series relativement courtes (inferieures a 100 ans par exemple).
Dans un tel contexte, il est difficile d'accorder aux dates detectees le sens de
parametr es fixes qui sera ient , par exemple, associees a des causes precises identifiables. Il nous semble cependa nt que c'est ici une hypot hese sous-jace nt e au
modele M k comme au modele kh : d 'ailleurs.
Cela nous ramene a notr e interrogation de l'intr odu ction qu ant a la possibilite de prevision (au-dela des ti annees) de ce mod ele !'vh . Quelle persistance accorder a la derni ere moyenn e retenue pour l'extr ap oler vel'S le futur ?
On not era que cette hypo these de persist ance predictive peut et re plus fiab le
lorsqu'on suppose l'exist ence d'un seul changement, pour autant que celui-ci
n'intervienn e pas au cours des ultimes dates d 'observation de la periode . Cepend ant le modele de sauts multiples det errninistes perm et la mise en evidence
retro spective (sur les donn ees chronologiques observees) de sauts significat ifs
du point de vue de l'analyse statist ique.
Dans le but de faciliter la comprehension du lecteur , le modele lIh est
detaille dans ce chapitre avec une observable censee suivre la loi norm ale. Bien
ente ndu , d 'autres distributions peuvent et re envisagees, notamment la loi de
Gumbel appreciee des hydrologues pour la representation des debits maximaux,
comme ceux de la Dord ogne a Cenac (fig. 13.2). Le fil conducteur rest e Ie
meme mais les difficultes techniques sont d'un autre niveau . Le lecteur interesse
tro uvera la transpos itio n des mode les de ce chapitre au cas de la distribut ion
13.2.3
243
a la section H.
II peut arriver que les processus observes possedent une mcmoire interne
representee par un modele auioreqressi] markovien du premier ordre :
ct
V'
r-;
iid
dnorm (0, h)
+ <P (Yt-1
- Aj) == Aj (1 - <p)
~
'4Jj
Tj
OU, en posant
TO
== 0, on a
t ==
Tj -1
+ 1, ...
,Tj,
== 1, 2, ... ,k
Ici, on fait ainsi I'hypothese que le changement n'intervient pas sur la memoire du processus representee par le parametre de correlation temporelle ip,
On pourrait, bien sur, envisager d'autres modeles. En fait, celui-ci sera surtout utilise pour donner un exemple de l'effet de la mcmoire sur l'inferencc
concernant Ie changement.
13.3
Dans tous les cas qui nous occupent ici, les dates de changements sont incertaines". A chaque date de la scrie initiale, on va associer une probabilite d'etre
1 Ce ne serait pas le cas si, par exemple eu egard it la crue annuelle d'un fleuve, on disposerait
de l'information que telle annee on a fait d'importants travaux de genie civil en amont de la
station de mesure (betonnage des rives, dragage, etc.).
244
une date de rupture. La specification complete des modelcs de changement necessite la construction des distributions a priori. Cette partie de la modelisation
est capitale. Nous insisterons d'ailleurs sur la sensibilite des resultats aux priors
mal elicites.
II faut souligner dembiee les difficultes liees au choix de priors non informatifs impropres sur les parametres. Ce ne sont pas tant les dates de changements
qui posent probleme, car ces dates ne peuvent prendre leurs valeurs que sur
un ensemble fini et toute distribution sur un tel ensemble ne peut etre que
propre. II n'en est pas de meme pour les autres parametres des modcles. Pour
ces derniers, la structure des modeles conditionnels peut favoriser le choix de
priors adaptes comme les distributions conjuguecs naturelles qui seront generalement assez souples pour les modeles envisages. Nous les adopterons ici. Pour
lc modele normal, on retrouvera des conjugues naturels similaires a ceux deja
rencontres aux annexes A et D. Ils imposent une dependance entre la precision
h et les moyennes f-Lj' A cet egard, rappelons que la section H de l'annexe H
detaille le cas du modele de Gumbel bien plus difficile, car il ne possede pas de
conjugue pour tous ses parametres.
Pour ce qui concerne les modeles M 1 et Alk , il est evident que plus la serie
entre deux dates de rupture consecutives est courte (ou entre l'origine et la
premiere rupture ou entre la derniere rupture et la fin de la serie}, plus le poids
des a priori devient tres grand. La vraisemblance u'et.ant plus preponderante
(quand elle l'est, elle justifie le choix des priors non informatifs), on trouve la
une critique fondee a l'encontre de la methode de (Lee et Heghinian, 1977),
souvent utilisec et que nous verrons plus loin.
13.3.1
Pour les modelcs M 1 , M k et }vIa, des priors non informatifs propres pour
les dates de rupture T1, T2, ... sont possibles.
On postule un seul changement
Dans ce cas, T rcpresentc la date de rupture. Par convention, le changement
de regime debute a la date suivante (fig. 13.2).
Soit un temps initial to == O. La premiere observation a lieu au temps t == 1
et la derniere au temps t == n, En cas d'une seule et unique rupture, les deux
cas extremes sont :
- la rupture arrive en t == 1 et donc le changement de regime debute en
t == 2;
- la rupture arrive en t == n -1 et le changement de regime debute en t == n.
Par consequent, si on choisi au hasard une date de rupture, T, c'est forcement une date comprise entre 1 et ti -1. Le domaine D de Test donc l'ensemble
des entiers {I, 2, ... n - I}. Un prior non informatif est la repartition uniforme
sur D, soit :
(13.2)
245
Remarque 13.4 Si a l'issue de l'inference on trouvait que T == 1 (respectivement T == n - 1) supporte l'essentiel de la masse de probabilite, le pseudochangement de regime debuterait a la date t == 2 (respectivement t == n). II est
evident que ces cas extremes n'ont aucune valeur pratique. Le cas OU T == n
est incompatible avec l'hypothese d'un changement de regime sur la periode
1,2""
.n.
On postule k changements
Selon notre convention, Tj represente la date de rupture, qui debute a la
date tj == Tj+1 (j == 1,2"" ,k). Par la pensee, on place les k dates de ruptures
Tj dans une urne et on effectue k tirages au sort sans remise (car deux dates
ne peuvent etre confondues).
Note 13.1 Pour marquer la difference entre Ie jieme tirage Tj et la jieme date
de rupture dans l'ordre chronologique, on note cette derniere T(j).
Soit Tune date fixee comprise entre 1 et n - k. Quelle est la probabilite Pk
que les k tirages successifs T(1)' T(2) , ... ,T(k) soient tous plus grands que T? Pour
T(1) il y a n - T - 1 positions satisfaisantes sur n -1 positions possibles; pour Ie
deuxierne tirage T(2) , il y a n - T - 2 positions satisfaisantes sur n - 2 positions
possibles; etc. Pour le dernier tirage, il y a n - T - k positions satisfaisantes
sur n - k positions possibles. Des lors :
Pk
n-T-1
n-T-2
n-1
n-2
== - - - - x
x .. x
n-T-k
n-k
(13.3)
Mais Pk c'est aussi, par definition, la probabilite que le minimum des k dates
tirees, c'est-a-dire la premiere date de rupture T1, soit strictement superieur a
T:
Pr (T1 > T) == Pk
Des lors, on obtient la fonction de repartition a priori de T1
Pr (T1 < T) == 1 -
n-T-1
n-1
n-T-2
n-2
n-T-k
x ... x - - n-k
(13.4)
L'echantillon complet des k dates peut etre affecto en iterant k fois cette
formule c'est-a-dire :
- T1 est simule selon la distribution 13.4;
- T2 est simule dans la distribution 13.4 que l'on decale d'un indice; cette
modification s'obtient en remplacant n par n-T1, k par k-1 et l'ensemble
fini {I, 2, ... n - k} par l'ensemble fini {T1 + 1, ... , n - k - I}.
Ainsi, les dates de rupture T == (T1' ... ,Tk) sont indepcndantcs des autres
parametres.
246
Remarque 13.5 Une autre methode, plus brutale, serait de tirer k valeurs
independantes dans l'ensemble fini initial, en eliminant les tirages multiples
montrant des dates confondues. Si les series ne sont pas trop courtes et k pas
trop grand, la proportion de rejets reste raisonnable. Nous preferons la premiere
methode que nous retiendrons pour la suite.
Remarque 13.6 Dans le logiciellibre R, la fonction sample (tirage multiple
fini sans remise) permet de s'affranchir de ces formules.
13.3.2
+ 1 periodes intercalaires
dimB == 2 (k + 1)
(13.5)
== [h]
II [f-Lj Ih]
(13.7)
j=l
Nous adopterons le prior conjuque gamma-normal tres employe dans les applications, mais en nous placant dans un contexte peu informatif. En effet, dans
de nombreux problemes reels, l'information a priori sur les sous-periodes est
tres reduite. C'est pourquoi nous adoptons l'hypothese de prior echangeable :
rv
Le parametre a
r-;
dnorm(m,ah)
(13.8)
[p,lm, h] ex
IP1 1/ 2 exp ( -
(13.9)
247
avec
m == (m1, ,mk+1)T
P ==
ahIk+1
(13.10)
13.4
Etude du modele M k
n1
nj
nk+1
== T1
== Tj == n 1
Yj == -n
J
Yji
Tj-1 OU 2 :S j :::; k
Tk
L
Tj
t=Tj-l
Yt
+1
== Yt OU i == t
- Tj, i
==
1, ...Tj+1
248
X2,6 = XIS
1:1
+1
nj
+ nj (Yj -
Mj)2
i=l
nj
k+1
nj
k+1
j=li=l
j=l
nj
Q == ~ ~(Yji - Yj)2
j=l i=l
(13.11)
Si les dates Tj sont fixecs a l'avance, I'inference sur Ie modele Mi. revient
tout simplement a faire inference sur le modele d'analyse de variance (Box et
Tiao, 1973).
Lois a posteriori pour Ie cas normal
L'annexe 13 de ce chapitre, section H prouve que:
249
m'. ==
J
am+njYj
a+nj'
h ' , == (a + nJ ) h
J
(13.12)
d' ==
- la distribution marginale a posteriori de
proportionnelle a
! (2d + Q + T)
(13.13)
(13.14)
13.5
Methode dinference
C II (a+nj )-1/2
dF!
f( ')
k+1
j=l
250
13.6
Choix de k :
ou selection bayesienne de modeles
13.6.1
Le facteur de Bayes
(13.15)
13.6.2
251
(j
==
(13.17)
(eq. 13.16) nous dit qu'il est equivalent au rapport de vraisemblance classique
[yIMo]
B Ol (y) = [yIM1 ]
(13.18)
Remarque 13.9 La densite predictive (eq. 13.17) montre bien que le prior ne
peut pas etre impropre, sinon le resultat numerique de la relation (eq. 13.18)
serait simplement proportionnel au vrai facteur de Bayes.
13.6.3
Choix de modele
Soit a choisir un modele M j parmi l'ensemble fini M == {Mj : j == 0,1, ... ,k},
chacun d'entre eux etant affecte d'une probabilite a priori, [Mj ] . L'approche
dite des rapports de Bayes utilise la demarche suivante :
- on calcule la distribution a posteriori [() j Iy , M j ] du parametre () j (eventuellement multidimensionnel) du modele M j et la densite predictive
[yIMj ] ;
[Mjly]
= ~YIMj] [Mj ]
E [yIMi ] [Mi ]
i=l
13.6.4
252
Facteur de Bayes
de 0 a 3
de 3 a 20
de 20 a 150
> 150
u; (y)
21n(B i j
:::;2
de 2 a 6
de 6 a 10
> 10
Evidence de M,
Aucune
Positive
Forte
Tres forte
13.6.5
253
est ainsi exprimee en mots: la vraisemblance moyenne inverse est l' esperance
harmonique (esperance de l'inverse) de la vraisemblance par rapport a la distribution a posteriori :
(13.19)
Cette approche est plus precise qu'un calcul par simulation de la moyenne
arithmetiquc par rapport au prior suggeree par l'equation 13.17. II n'en reste
pas moins qu'elle peut donner des ecarts sensibles entre plusieurs echantillonnages.
13.7
Applications
Toutes les applications ont ete obtenues par la methode d'importance sampling (voir chap. 4) sequentielle sur 10000 tirages ce qui semble suffisant d'un
point de vue illustratif. Pour le modele normal, Ie prior a ete cale sur les cinq
premieres valeurs des series du fleuve Senegal (fig. 13.3) et du fleuve SaintLaurent (fig. FigChap12 :04).
13.7.1
21n B k O
1
22.77
8
22.02
2
23.14
9
21.18
3
20.45
10
21.37
4
22.42
...
.. .
22.56
15
21.68
23.61
22.81
20
18.45
. ..
...
Bien entendu memc avec 10000 tirages, les instabilites numeriques du calcul
par echantillonnage de 13.19 restent importantes sur les In B j o . Cependant, il
semble se degagcr la conclusion qu'il existe au moins un changement de regime
a partir d'une date voisine de 1967, car cette annee 1967 apparait dans tous les
modele Mi. du tableau 13.2. En revanche, aucun autre decoupage avec k plus
grand que 1 ne semble ressortir de facon significative par rapport au premier. A
titre de reference pour la discussion finale, la figure 13.7 montre la chronologie a
posteriori des sauts de medianes predictives (en trait fin) et celIe des moyennes
observees pour k == 6. On pourrait s'etonner des ecarts constates entre les deux
courbes, car mcdiane et moyenne normales COIncident si on ne se souvenait qu'il
s'agit d'un cote de moyennes observees et de l'autre des medianes predictives
254
qui integrent toutes les incerti t udes, notamment et surtout celles concernant la
determination des dat es de changement.
1400
1200 ---.-
1000
Il
-----
'~
600 ------
. f..
-..-.
"M----A~
- ...
\~
- VW
400
200
1900
1910
1920
1930
1940
1950
1960
1970
1980
1990
Figure 13.7 - Senegal : chrono logie a post eri ori des sauts pour k
13 .7.2
= 6.
L'application est interessante, car elle montre qu'on peut analyser aussi bien
des series plus courtes.
Pour le Saint-Laurent , toujours avec le modele norm al, nous avons ut ilise
les cinq premieres annees pour eliciter les priors. On rappelle que l'unite des
donnees est le 104 GWh.
La figur e 13.8 montr e la distribution a post eri ori de la dat e de cha ngement
event uelle (k=l) sur la period e [1947, 19991.
On constate un mod e principal en 1970 et un mode secondaire en 1968.
L'apparition de celui-ci est peut-etre due a une inad equation du modele. II se
peut aussi que le changement bru tal en 1970 doive et re rernplace par une
hypo th ese de vari atio n progressive de la moycnne sur 2 ou 3 ans. Un tel modele
pou rr ait et re aisement constr uit (Rena rd et al., 1988).
Comparon s m aint enant M,
a N12
Les graphiques 13.9 et 13.10 montrent les dist ribu tions a post eriori des
dates puis la chro nologie des apports moyens. Par ra pport au cas precedent ,
255
7
6
5
4
3
2
o
o
10
20
30
40
50
00
256
4
3
2
o
o
10
_I
30
40
50
40
50
60
x 10
4
3
2
o
o
10
JI
30
I
60
13.7.3
Le Saint-Laurent est un exut oire du syste me des gra nds lacs nord-americains.
Le desto ckage naturel de cet te reser ve d 'eau tres imp ortan te int roduit une memoire physique naturelie int erannuelle dans la sequence des ecoulements et
qu i retent it sur la produ ction energet ique. Statist iquement , cette memoire peut
etre confondue en partie avec un c non-stationnarite des donn ees. II est done
int eressant de tr ait or Ie problcrne du cha ngement dans Ie cadre d'un modele
aut oregressif M a . La t heorie est une copie quasi conforme de celie du mod ele
257
1.6
x 10
.~ ./ AA
1.4
1.3
1.2
....
t-.
M/IIi
.t,
1.1
IV
.........\1
iiI
V
0.9
1.5
1940
t\
1950
1960
1970
1960
1900
2COO
258
0 .35
0 .3
0.25
0 .2
0 .15
... .
0 .1
0 .05
194 0
1950
))
1960
\
1970
./'
1980
1990
2000
13.7.4
a Cenac
Pour ce modele Gu mbel (voir annexe H), des pri ors gamma pro ches de
distributions non inform ati ves ont ete choisis. La figure 13.13 montre la distribu tion cumulee des pond erations norrn ees ut iles pour Ie re-echantil lonnage.
Ch aque unit e stat ist ique (nombre cumule en abscisse) est une trajectoire
des dat es de changements, c'est- a-d ire un e configuration de decoupage. Leur
prob ab ilit e a post eriori cumulee (en ordonnee) exprime leur contribution a leur
259
700 r----,----,------.-----,------,-----,------,-----,----,------,
600
500
>.. .. ... ;
4 00
r;-: ,-:
300
r;--:,
200
r;:---t--
100 l-
; -
; -
-!- :
o'----'--- --o
0 .1
0 .2
0. 3
-.; -
0 .4
0_5
0 .6
0 .7
0 .8
0 .9
vra isemblance. On voit donc dir ectement la propor tion des t raj ectoires de changement qui ont une probabilite quasi nulle. Le pourcent age des valeurs utilisees
est au mieux 20%. Cela montre que l'information est reellernent det ermin ant e
a l'egard du prior uniforme.
Le logarithme du fact eur de Bayes est de 17.58 pour ce modele M} cont re
Ie modele sans rup ture, ce qui indique une evidence particulierement t res forte
en faveur d'un cha ngement.
La figure 13.14 montre d'une par t la distribution a post eriori de la date de
ce cha ngement suppose uniqu e et d 'autre part la difference la plus prob ab le (en
1944) des debits maximaux annuels medians (voir formule H.12 de l'ann exe H).
La dist ribu tion des dates est par ti culierement concent ree autour de 1944, mais
cette concent ra t ion ne serait pas une preuve d'un changement (dont Ie modele
impliqu e l'existence) si nous n'avions pas Ie rapport de Bayes.
II faut not er que 1944 est au debu t de la periode de const ruction de l'essentiel
du syste me de barrages-reservoirs de la Dordo gne amont (incluant notamment
celui de Bort-Ies-Orgues) et dont Ie cha ntier fut acheve vers 1952. De plus, la
decennie 1940 est reconnue par la communa ute des hydrologues comme une
periode assez longue d'et iages severes dans l'ensemble des rivieres en France
avec Ie record absolu de 193 m 3 / s en 1948 qu 'il n'est pas contradictoire de
retrouver dans la seconde period e plus seche. La rencontre de ces circonstances
explique done assez bien les resultats statistiques.
Ces donnees montrent assez bien les difficultes d'interpretation du rapport
de Bayes lorsque les sous-periodes les plus prob ables concerne nt trop peu d'an-
260
0.8
///
0.6
0.4
0.2
o
o
//
//
)/
..
2000
6000
a Cenac
8000
ioxo
13 .8
Discussion
On pourrait penser que l'hypothese de dates fixes est trop rigide, not amm ent
dans un cont ext e de prevision. Des modeles decr ivant des changements d' au t res
parametres, comme les dispersions, ont ete proposes (Perr eault, 2000). Dan s
une optique de prevision , on pourrait preferer des mode les OU des sequences de
dates de changement et de regimes /--lj sont regis par un mecanisme stochastique de rappel , au moins si ce mecanisme est decrit par un nombre limite de
parametres comme les processus de Markov. Dans cette optique, les modeles
de processus markoviens caches (H M Men anglais) font maintenant l'objet de
developpements particulierement interessants (Robert et Casella, 1999). (Fortin et al., 2004) ont applique un modele de ce typ e, le Shifting level model ,
du a (Salas et Boes, 1980). Ce modele repose sur l'hypothese d'un mecanisme
comp leternent aleatoire du changernent des rnoyennes. Cela irnplique que les
durees des sous-periodes soient distribuees selon une loi geom etrique, C'est une
hypothese de structure a priori tres forte donn ant des dates de rup ture pouvant
etre tres different es de celles obt enues avec notre modele !vh, merne pour des
261
.."
,
.
,
,
0
II
a Cenac
k assez grands . D'autres consequences de ce modele sont importantes, notamment l'existence d'u ne aut ocorrelat ion interannuelle qui peut et re confondue
avec celie d 'un mod ele autoregressif.
La recherche de changements dans les series d'observations naturelles de
longueur s essent iellement limitees rest e un prob leme difficile. II n'est pas sans
interet de rapprocher cette recherche de celie qui a longtemps preoccup e certa ins geophysiciens : la detecti on des periodicit es. Compte tenu de la longueur
limitee des series, de leur s incertitudes et de leur comporte ment aleatoire, les
methodes ut ilisees peuvent generer des periodes ou chan gement s apparents qui
ne sont que des artefacts stoc hastiques. Ces difficultes ne font que croit re si on
y rajoute certaines croyan ces a priori fortes sur l'importance d'effets ant hropiques.
Epilogue
Dan s ce chapit re, nous nous Hommes limites au developp ement de mode les
de cha ngements caches dans les processus temporels avec des ruptures a dates
fixes et en nombre k fixe. Nous avons discut e du choix du nombr e k de ruptures
grace au facteur de Bayes. Ce facteur de Bayes s'inscrit dans un cadre decisionnel, bien approprie aux problemas de validation ou de choix de rnodeles.
L'approche bayesienne met une nouvelle fois l'a ccent sur la form alisation de
toutes les hypo th eses fond ant les modeles. Ainsi en dehors de celles concernant
262
1800
.. ...
1600
1400
..
1200
100J
---_.
..
.. . .
...
---_. f
..1/.
.
~.
.'.
IA \1
..
800 .....-
600
...
.\/ ...
400
200
19:x)
192)
1940
a Cenae:
100)
1930
visualisation de
2020
les distributions, seule l'hypot hese du choix de k est deterrninante . Aucune hypothese n'est faite a priori sur la repartition de ces dates de changement. D'un
certain point de vue , on pourrait dire que la methode present e un certain cote
non parametrique des changements qui se compare avantageusement a la methode de segmentation de (Hubert , 2000). Bien sur , l'existence de changements
sous-jacents ne peut et re dernontree ; changements fixes ou aleatoires sont des
hypotheses de structures a priori qui ne sont pas anodines. Leur validation
prend toute son importance pour la fiabilite des previsions .
Chapitre 14
Conclusion
Dans l'avant-propos, nous avons declare que notre ambition etait une qualification operationnelle en statistique bayesienne avec, pcut-etre, quelques incursions au niveau maitrise. Avons-nous reussi ? Le lecteur serajuge. Bien sur, nous
n'avons jamais dit que ce serait facile, mais avons-nous dit que c'etait utile?
Cette question iconoclaste meritc qu'on s'y attache quelque peu. Avec d'autres
auteurs, par exemple (Bernier et al., 2000)(Robert, 2006) et (Parent et Bernier,
2007), nous avons insiste sur le fait qu'un modele probabiliste ne vise pas l'explication du phenomene dinteret, mais, et plus sobrement, une interpretation
de celui-ci, souvent dans une perspective decisionnelle. Dans cette optique, le
role du statisticien est de fournir une aide it la decision au(x) decideurfs). Cette
idee n'est pas neuve, mais sa mise en oeuvre dans un cadre bayesien est assez
recente, du moins pour les modeles realistes qui impliquent la souris. On
peut en effet affirmer que c'est la mise sur Ie marche d'ordinateurs personnels
puissants (et financierement accessibles) qui a veritablcment donne son essor
aux methodes bayesiennes, Cela etant dit, y a-t-il des decideurs qui fondent leur
choix sur une analyse quantifiee du risque global porte par chacune des decisions en competition? Des evcncmcnts recents comme la creation des produits
toxiques en finance pourraient nous inciter it penser qu'une gestion rationnelle
des risques est une vue de l'esprit reserves it des chercheurs deconnectes du
monde reel. Cependant, nos nombreux collegues et amis qui travaillent dans
les services operationnels de grandes institutions privees ou publiques peuvent
temoigner de l'importance d'une approche rationnelle. Certes, les motivations
different selon le secteur dactivite. mais tous ces services operationnels ont en
commun le souci d'exploiter au mieux l'information disponible pour aider it la
decision en avenir incertain.
A une echelle plus modeste, l'activite de recherche consiste essentiellement
it tester des hypotheses it partir dexperiences ou d'observations plus ou moins
bien controlees, Dans cette perspective, l'apprentissage de la modelisation probabiliste est incontournable. II serait en effet dommage qu'un chercheur ruine
les efforts qu'il a consentis pour recueillir des donnees en ne respectant pas
264
[YnewIx new, Y, x] =
Ynew :
Annexes
Chapitre A
Annexe du chapitre 1
Ie modele normal
[z]
== - 1
y'21r
exp
(Z2)
-2
(A.I)
La combinaison Iineaire, Y == J-L + a Z OU J-L E 1R. et a > 0, est une variable aleatoire reelle, Son esperance et sa variance sont respectivement : J-L ==
E (YIJ-L, a) et 0'2 == V (YIJ-L, a). Sa densite de probabilite est obtenue en substituant y:J-t a z dans la relation (eq. A.l) multipliee par le Jacobien, ici
1/2.
0'-1 == 7
On reconnait la densite de probabilite d'une variable aleatoire
normale, Iocalisee sur J-L et de precision 7 :
Les deux distributions suivantes, fondees sur la loi normale standard, font
partie de la boite a outils du statisticien.
268
Loi du khi-deux
Considerons la suite Zl, ... ,Zk de k variables aleatoires reelles iid selon la
k
i=l
variable aleatoire definie sur les reels positifs. Elle est distribuee selon une loi
du khi-deux a k degres de liberte :
Ulk
r-;
( 1/ 2)k/2 k 2 1
r (k/2) u / - exp (-~)
2
(A.3)
Q
==
k/2
E (Ulk) == k, V (Ulk) == 2k
Loi de Student
Soit Z une variable aleatoire normale standard et U, une variable aleatoire
reelle positive, independante de Z, distribuee selon une loi du khi-deux a k
degres de Iiberte,
La variable aleatoire
T== _Z_
JUjk
est distribuee selon la loi de Student standard
Tlk
rv
dt (tlk)
r-;
[tlk]
=B
(!,~)
ak
degres de liberte :
Vk
(t
+k
2) -
k;l
(A.4)
Son esperance est evidemment nulle (loi syrnetrique centree sur zero) et sa
variance depend de kENo :
Remarque A.I Lorsque k tend vers l'infini, la densite (eq. A.4) tend vers la
loi normale standard.
Si on applique une transformation lineaire a T, par exemple Y == J-l + a'T
ou a > 0, on obtient une loi de Student a v ~ 1 degres de liberte, localisee sur
J-l et de parametre d'echelle a > 0 :
Annexe A
269
a la
Soit YIJL, T ~ dnorm (yIJL, T) l'observable d'interet et soit y == (Yl' ... ,Yn)
un n-cchantillon iid.
On peut construire le prior joint comme suit :
1. la regle des probabilites conditionnelles permet de crcer une dependance
entre JL et T : [JL, T] == [JLIT] [T] ;
2. une loi gamma offre une grande souplesse pour decrire un etat de connaissance sur une precision: Tla, b ~ dgamma (Tla, b);
3. La moyenne JL etant un parametre de localisation, un prior normal est
un choix judicieux : JLlm, k, T ~ dnorm (JLlm, kT); l'hyperparametre k
est compris entre 0 et 1, car il est prudent de degrader quelque peu la
precision.
Cette construction permet de faire tous les calculs a la plume, car toutes
les integrales ont une solution analytique. A contrario, I'independance a priori
des parametres JL et T fait que certaines integrales n'ont pas de solution analytique! II faut alors recourir a l'ordinateur. Nous ne traitons pas ce cas ici.
Y ==
n1 ~
L..J Yi
i=l
== n
En
i=l
_ 2
(Yi - y)
(A.6)
n; (82
[JL,T] ==
1
{f;---T-2-r (a)
ba
21r
2a+l
(T (
2))
(A.8)
Remarque A.2 Pour obtenir la densite marginale a priori de JL, il suffit d'integrer l'expression (eq. A.8) par rapport a T. Apres quelques manipulations
algebriques, on trouve que c'est une loi de Student a 2a degres de Iiberte, 10calisee sur m et de parametre d'echelle c == Jb/(ka).
Posons que H representc toutes les hypotheses, notamment les hyperpara-
metres a, b, m, k.
270
(A.9)
ou
"21 ( tis 2 + 2b + n nk
+ k (jj - m) 2)
b'
v'
(A.I0)
(A.II)
n+2a
ny+km
n+k
m'
(A.12)
D=
J+
n
21f
r (v' /2)
(A.13)
k b'V' /2
a7
conduit au resultat
suivant :
[Mly,H]
= B
IL - m'
2) -(v' +1)/2
(A.14)
ou
c'
b'
(a+n/2)(n+k)
==
(A.15)
On reconnait une densite de Student (eq. A.5), a v' degres de liberte (eq.
A.II), localisee sur m' (eq. A.12) et de pararnetre d'echelle c' (eq. A.I0 et eq.
A.15) :
Parametre
Tly,H
rv
dgamma
(TI~ 'b
l
)
(A.16)
Annexe A
271
Pr (Z > yolY)
(JO [zly] dz
(A.17)
yO
L'astuce consiste a voir que la densite [zly] peut s'ecrire sous la forme d'une
distribution jointe que l'on somme (integre) sur toutes les valeurs possibles du
parametre :
[zly]
[z, ely] de
[zle, y] [ely] de
[zly]
[zle] [ely] de
(A.18)
La densite [zly] est appelee densiie predictive a posteriori. Elle est dite
predictive parce que le point z n'est pas encore observe; elle est dite a posteriori
parce qu'elle fait intervenir la distribution a posteriori de eobtenue par la regle
de Bayes.
Remarque A.3 La distribution predictive n'a pas dequivalent classique. En
effet, pour sommer sur toutes les valeurs possibles du parametre, il faut accepter
qu'il soit incertain.
272
[zly]
= ~Dl TVI/2exP(-T(~+b')
F(T))dT
ou
n +k (
n+k+l
F (7)
1+
00
z-m,)2
exp ((n+k+l)7(
J-L - m ")2)d J-L
(A.20)
-00
m"
(A.19)
(n+ k)m'
n+k+l
(A.21)
ou
[zIY]=B(~,~)a"N ( l+ v' (
a"
==
2) _(v'+1 )/2
z - m"
a"
(A.22)
2b' (n + k + 1)
(n + k) u'
(A.23)
00
yo
1+
(z_m,)2)-(V
v' ---;;>
I+1)/2
dz
(A.24)
Remarque A.4
1. Le prior est non informatif si k, a, b -+ o. Dans ce cas,
[J-L,7] ex 7- 1/2.
- Le posterior marginal de 7 est une loi gamma, de parametre de forme
n/2 et de parametre d'inverse echelle ns 2 /2.
- Le posterior marginal de J-L est une loi de Student a n degres de liberte,
localisee sur z et de parametre d'echelle s/ yTi.
- La distribution predictive a posteriori de l'observable est une loi de
Student a n dogres de liberte, localisee sur z et de parametre d'echelle
sJ(n + 1) In.
2. Pour un prior informatif, le prior marginal de J-L est une loi de Student a
v == 2a degres de liberte, localisee sur m et de parametre cl'echelle a ==
Jb/ (ka). On remarquera la similitude des expressions avec le posterior
marginal de J-L.
Chapitre B
Annexe du chapitre 2 :
les modeles discrets de base
La lecture de cette partie plus technique est indispensable. II vous est fortement conseille de refaire les calculs au moins une fois.
Note B.1 Le sigle v. a. r. signifie variable aleatoire reelle. Le sigle pdf signifie fonction de densite de probabilite (probability density function). Par abus
de langage, on peut l'utiliser pour decrire la distribution de probabilite d'une
variable aleatoire discrete (v. a. d.).
Le processus de Bernoulli
1. Imaginons qu'on dispose d'une serie d'urnes remplies avec un tres grand
nombre de boules identiques sauf leur couleur qui est blanche (code 0) ou
noire (code 1). On attribue un numero a chaque urne et la proportion de
boules noires dans l'urne k est notee 1rk. En general, \:Ik, \:Ij i= k : 1rj i= 1rk,
car chaque urne a une composition qui lui est propre. On extrait une boule
de chaque urne. Les tirages sont indepcndants mais pas identiquement
distribues :
2. Maintenant, imaginons une seule urne dans laquelle on realise des tirages
avec remise mais sans la melanger. Les boules tirees puis remises ant
donc plus de chances d'etre reprises. Les tirages sont dependants mais
identiquement distribues, car la composition de l'urne ne change pas d'un
tirage a l'autre :
274
4. Enfin, on considere une seule urne contenant des boules blanches et noires
en proportion inconnue et on effectue des tirages avec remise en prenant
bien soin de la melanger avant chaque nouveau tirage. II est clair que
nous sommes dans le cas OU les tirages sont uulepeiulants et identiquement
distrioue (hypothese iid) :
(B.1)
Cette derniere procedure dechantillonnage est connue sous Ie nom de processus de Bernoulli.
L'hypot.hese iid
L'hypothese iid est tres importante en statistique. D'une maniere generale, supposer l'echantillon iid revient a admettre que les donnees seront tirees
independamment les unes des autres dans la meme loi de probabilite, Cette
hypothese est done toujours eonditionnelle au modele d'echantillonnagc ehoisi,
lequel est caracterise par un parametrc () (notation generique) de dimension
finie (p. ex. dim () == 2 pour une loi normale).
La distribution gamma
La pdf d'une variable aleatoirc X definie sur l'intervalle reel [0,oc] est une
loi gamma de parametrc de forme a > 0 et de parametre d'echelle b > 0 si et
seulement si :
[xla, b] = r
(~) b x
a
exp ( -~)
(B.2)
1
00
a> 0: r(a) =
u a - 1 exp(-u) du
(B.3)
L'integrale d' Euler (eq. B.3) est dite fonction eulerienne de premiere espece.
(B.4)
Annexe B
275
(B.5)
L'integrale d' Euler n'est rien d'autre qu'une generalisation de la fonction
factorielle :
(B.6)
n!==f(n+l)
Quel que soit le reel positif, a on a :
I' (a + I) == af (a)
(B.7)
La distribution beta
La densite de la distribution de probabilite d'une variable aleatoire X definie
sur l'intervalle reel [0,I] suit une loi Beta de parametres r > 0 et s > 0 si et
seulement si
I
r-1 (
)8-1
(B.8)
[x I
r, ]
S = B (r, s) x
1- x
ou Ie reel B (r, s) est defini par l'integrale d'Euler suivante dite fonction eulerienne de seconde espece :
r, S
> 0 : B (r, s)
II
ur -
(1 -
ur-
du
(B.9)
B( r,s )
== f(r)f(s)
f(r+s)
(B.IO)
[0,1]
E (X) =
II
x [xlr, s] dx
E(X)
B(r+1,s)
B(r,s)
_r_
r+s
(B.II)
276
Var (X)
:=
E (X 2) - [E (X)]2
Par consequent
La variance suit
Var(X)
= B(r+2,s)
B(r,s)
(_r_)2
r+s
Or
B(r+2,s)
B(r,s)
----:=
f(r+2)f(s)
f(r+s)
x--f(r+2+s)
f(r)f(s)
(r+l)rf(r)
f(r+s)
--------- x --(r+s+l)(r+s)f(r+s)
I'{r)
r+l
r
---x--
r+s+l
r+s
Finalement
Var(X) _ _ r_ ( r+ 1 _ _ r_)
r+s r+s+l r+s
:= _r_ ((r+l)(r+S)-r(r+s+l))
r+s
r+s+l
= r:s
C+:+l)
rs
(B.12)
(r+s)(r+s+l)
!(x)=x r - 1 ( 1 - x r - 1
df
dx
=o}X
s+r#2
r-l
+r -
=.M
(B.13)
Annexe B
277
n.,
xl (n - x)!
X!!!
nx
z. )
x-1 (
1 - ;,
Par consequent
Pr (X = xlO, n) =
(nf)) x
ot!!
(1 _ f)) n
--;y- (1-
x -1 (
i )
1-;,
IRt.
lim TI~-=-1
(1 1,-0
n-+oo
lim (1 - f)) -
0-+0
lim
n-+oo
(1 -
i)
== 1
n
== 1
~)n
n
== exp (-A)
AX
== XIA) == -, exp (-A)
x.
(B.14)
Tenant compte de
x! = f (x + 1) = z.F (x),
B (a, b) = r~(2~~~)
278
on a:
1
( y+r- l ) ==
B(y,r)
r-l
x~
y
(B.I6)
[ylh, x, I] =
=
00
y (l
b-1)x+a
~ +
y! r (x + a) Jo
hY (l+b-1)x+a
11
00
),y+x+a-l
f(y+x+a)
(h+l+b-1)y+x+a
r(x+a)
f(y+x+a) hY
(l+b-1)x+a
r (y) r (x + a) (h + l + b-1)y+x+a
B (y, x
1
(l+b-1)x+a
hY
+ a) Y
1 (
= B(y,x+a)y
(h + I + b-1 )y+x+a
I + b:'
h+l+b- 1
) x+a (
h+l+b- 1
) y
(B.17)
Posons
(B.I8)
r==x+a
l + b- 1
7r
==
h + I + b-
{::}
1-
7r
== - - - -1
h+l
+ b-
(B.I9)
II vient
[ylh, x, I]
= B (
) ~1fr (1 -
y,r y
1f)Y
(B.20)
+a
Chapitre C
Annexe du chapitre 6 : le
modele des fuites
et Ie modele GEV sous
WinBUGS
Du processus ponctuel de Poisson au modele des
fuites
On s'interesse a un evenement ponctuel (p. ex. un point sur un axe ou un
pixel sur une surface) marque par une certaine intensite, Sur une fenetre donnee
(p. ex. une periode de temps fixee, un troncon de longueur fixee, une surface
d'aire fixee) , le nombre d'occurrences est note N d'intensite Z == (Zl,'" ,ZN).
Quand on sait que N == n et que Z == z, on dit que l'information est complete.
Cependant, il existe des situations OU on ne dispose que du cumul des intensites,
Dans un tel cas, Nest une variable latente et on dit que l'information est
incomplete. Le modeles des fuites est du a (Morlat, 1968) pour representer les
fuites sur les conduites de gaz. II ignorait leur nombre et done leur intensite
respective, mais il connaissait le cumul des pertes par la difference entre les
debits d'entree et de sortie du troncon d'interet.
280
[N == llA, h] == Ah + 0 (h)
-
[N ~ 21h] == 0 (h)
H3. Les evenements qui se produisent sur des periodes disjointes, soit hI et
h2 , sont independants
Sur cette base on montre que le nombre de tops, N, sur une periode unite,
c'est-a-dire une fenetre dont la longueur est egale a 1 unite de temps (p. ex. le
mois) , est distribue selon une loi de Poisson de parametre A == E (N), d'ou Ie
nom du processus :
An
(C.l)
Vi
Vi, vi
Vi
Conditionnellement
=1=
z, -l N
i: z, -l z,
Zilp
r-;
(C.2)
dgamma (1, p)
a n et a p, Ie cumul H ==
E Z; est
i=l
Hlp, n
0:.
dgamma (n,
p)
distribue selon
Annexe C
281
Soit une periode unite (indice t) sur laquelle on a observe nt tops dont le
cumul des intensites est ht . La vraisemblance de cet echantillon est triviale :
(C.3)
Si ce processus est stationnaire sur T periodes independantes de meme longueur (L == 1), la vraisemblance de I'echantillon d == {(nt, ht ) : t == 1, 2, ... T}
est simplement
(C.4)
ou
Sn ==
L:: tu,
t=1
Sh ==
L:: ht
t=1
+ ap , Sh + bp )
(C.5)
Le modele de depassement
Soit une observable Y qui evolue dans le temps. Un top arrive quand cette
observable depassc un certain seuil u fixe. Le nombre de tops sur une periode
unite, par exemple l' annee, et leur intensite respective (au-dessus du seuil)
constitue un processus de Poissonmarque. Les marques au-dessus du seuil sont
supposees iid selon une certaine loi. Le modele POT du chapitre 6 postule que
si le seuil est assez haut, cette loi est la distribution de Pareto generalisee, Dans
le cas d 'une loi exponentielle, on retrouve les resultats indiques ci-dessus.
plh,N,A
dgamma (SN + ap , Sh + bp )
(C.6)
282
rv
dgamma
(SN
a programmer:
+ a>.., T + b>..)
+ a p , Sh + bp )
Ce n'est pas une densite standard de WinBUGS, mais on s'en sort en utilisant l' astuce zeros trick ,
La densite de Poisson s'ecrit
[yIA]
== exp
AY
(-A) ,
y.
a la vraisem-
Annexe C
283
Choix du prior
En general, le savoir a priori est tres reduit et il n'y a aucune raison de lier
Ie parametre d'echelle, p, au parametre de forme, {3. En revanche, le parametre
de localisation, /1, est lie au parametre de forme a cause de la condition
p~
dgar,nr,na(f,e)
{3 ~ dnormim, t)
Pour p, on obtient un prior non informatif avec f == e ---t o. Pour {3, on
l'obtient avec m == 0 et une precision t ---t 00 (WinBUGS prend par defaut
f == e == 10- 3 , t == 10- 6 ) .
Remarque C.2 Par experience, on sait que 1{31 est inferieur a quelques unites.
Par consequent, t == 10- 3 est suffisant (question de vitesse de convergence).
Remarque C.3 On peut aussi poser == -In pet prendre ~ dnorr,n(O, 10- 6 )
(ce sera notre choix).
Pour [/1113], un prior non informatif est une loi uniforme sur un intervalle
reel dependant de 13: [JL I13] ~ dunif(r,s). En posant a == min {Zk} - 13- 1 et
b == max { Zk} - {3-1, Ic respect de la condition entraine
- 13 > 0 => JL > b (Weibull)
- 13 < 0 => JL < a (Frechet)
Dans WinBUGS, on tire u ~ dunif( -00, a) et v ~ dunif(b,oo) et on
construit le prior sur JL comme suit:
JLI{3, a, b f -
A l'issue
avec
(J
== exp (1))
== - 13 exp ()
284
z == JL p
e#o
~ (1 - x-e) =
~
/3#0
J-l + ~
(3
(1 -
x/3 exP())
p
OU
x p=:-ln(l-p)
Le code WinBUGS est le suivant.
Pour le niveau de la mer a Port Pirie, les resultats du tableau C.1 sont
obtenus apres 40000 iterations dont 20000 pour la pcriode de chauffe. Deux
chaines sont lancees pour controler la convergence. Ainsi le maximum annuel
du niveau de la mer a Port Pirie converge en loi vers la loi des extremes de
Weibull (~ < 0). Chaque annee de la periode 1923-1987, il y a une chance sur
cent (p == 0.01) d'observer une hauteur d'eau superieure a 4.80 m (avec un
risque d'erreur fixe a 5 %).
Annexe C
285
model;
{
a < -zmin-1/beta
b <-zmax-1/beta
u -- dunif(-1 O,a)
v --dunif(b, 10)
mu <- u*step(-beta)+v*step(beta)
phi -.. dnorm(0.O,1.0E-6)
beta--dnorm(O.O, 1.0E-3)
eta <- exp(-phi)/ beta
for( k in 1 : N ) {
c[k] <- (1 - beta * (z[k]- mu))
lambda[k] <- phi + (1-eta) * log(c[k])+pow( c[k], eta) + C
zero[k] <- 0
zero[k] -- dpois(lambda[k])
}
5
50
95
a
0.18
0.21
0.24
modele GEV.
-0.20
-0.10
-0.03
J-l
3.84
3.88
3.93
ZO.Ol
4.5
4.6
4.8
Chapitre D
Annexe du chapitre 9 : la
distribution de Student
et Ie processus de regression
normal
Les deux parties de cette annexe sont utiles pour manier, sans douleur, les
methodes analytiques exactes du modele lineaire normal:
- l'une porte sur l'interpretation bayesienne d'une distribution importante
en statistique : la distribution de Student sous ses formes centree et decentree, La construction de cette distribution presentee ici est tout
a fait
~2)
288
Le changement de variable u, y
densite jointe :
[t, yla]
---+
yIa-
(D.1)
VY
(X
y:
[tla] == const x
1
2a+l
(1 + ~:) - 2 -
i:[t]dt = 1
soit
[tla] =
f( 2a 1 )
V'f(iir
(D.2)
2a+l
a 2a degres de liberte.
[tlv] =
(l1~) y'v (1 + t
2' 2
2
) -
vt
Extension du resultat
Supposons toujours Y distribue comme une dgamma( a, 1) mais U est une
variable normale, non plus independante, mais reliee conditionnellement a Y de
telle sorte que [uly] == dnorm(O, Jy) et recherchons la distribution marginale
de jaU. En ecrivant la reglc des probabilites composees des lois marginales
de y et conditionnelles de u sachant y on voit que les calculs de marginalisation sont complctement paralleles aux calculs precedents, si bien que jaU est
marginalement distribuee selon une loi de Student.
Annexe D
289
x.,
(Xil,Xil, ,Xiq)T
Xi
(3
((31,(32,"
,(3q)T
Ii == xT (3 + e.,
Ci
~d dnorm (0,7)
X ==
(D.3)
1/1,
Ii par une
Ii et soit X la
Y == X(3 + e,
r-;
dmnorm (0, 7I n )
(D.4)
Remarque D.2 II est important de preciser que, dans le present contexte, les
covariates sont connues sans incertitude.
Vraisemblance
La vraisemblance des observations y == (Yl' Y2, ... ,Yn)T est donnce par la
densite d'une loi normale multivariee
[yIX, (3, T]
290
a une seule et unique solution, b, qui est une estimation ponctuelle (au sens
des moindres cartes) du vecteur (3 :
+ ((3 -
So == (y - Xb)T (y - Xb)
(D.6)
La vraisemblance devient
Prior
Le prior conjoint peut se mettre sous la forme d'une probabilite conditionnelle multipliee par une probabilite marginale
(317
rv
dgamma (a, b)
dmnorm (mo,7P o)
[,8, ylH] ex yq/2+a-l exp ( -~ (,8 - rnof Po (,8 - rn o)) exp (-by)
(D.8)
291
Annexe D
Posterior
L'application de la regle de Bayes donne
(D.9)
13 :
5(3
Posons
XTX+P O
Pm
XTXb
+ Porno =} m == p-
(XTXb
+ Porno)
(D.ll)
(D.12)
On a
(D.13)
ou
c
(D.14)
Avec ce choix de prior, ce modele a des solutions analytiques : les calculs sont
faisables a la plume. En particulier la distribution a posteriori de la precision
7 est
[TIX, y, H] ex Tnj2+a-l exp ( -~ (So + 2b + c))
car
IX ,y, H
rv
=
q
qj
(21f) 2 ex _1_
17P1 1 / 2
7 q/ 2
n + 2a So+2b+C)
dgamma ( - 2 - '
2
A7
fixe
/317, X, y, H
!"oJ
(D.16)
292
A {3 fixe
A partir de la conjointe
(eq. D.15), on a :
c'est-a-dire
ou
a*
n+q
--+a
2
b*
2 (So + S/3) + b
Complements
Une propriete caracteristique des lois multinormales est que leurs marges
sont normales. Ainsi, conditionnellement a r, la composante {3j du vecteur {3
est normale unidimensionnelle :
Ir, X, y, H
rv
dnorm (0,1)
D'autres part, en multipliant la densite gamma (eq. D.16) par son parametre
d' echelle (inverse) on a
2b +
So + 2
r n, a rv gamma
(n- 2
+ 2a
1)
-'
Par consequent, en tenant compte de la premiere section (eq, D.1), la variable aleatoire
Chapitre E
Annexe du chapitre 10 :
formes quadratiques
et tutti quanti
Les prerequis
Soit
determinant. On a :
pa+qb)2
pq
2
(p+q) ( y+-(a-b)
p+q
p+q
ex
(p + q) ( y -
pa + qb)2
sachant a, b, p, q
p+q
(y-a)TP(y-a)+(y-b)TQ(y-b)
(yT _ aT) (Py _ Pa) + (yT - b T) (Qy - Qb)
(P + Q)y _
yT
T
yT (P + Q)y _ 2yT (Pa+ Qb) + aTpa+ b Qb
ex
yT (P
+ Q) y -
294
Par consequent
exp
(-~s)
y]a, b, P, Q
(_~yT (P + Q)y -
0:
exp
rv
dmnorm
2y T (Pa+ Qb))
qXl
nxq
nxl
nxl
- Les
-
Xtj
Cl, ,Cn
+ c,
rv
La vraisemblance
ou
Le prior
() ==
13
T
(13, T), 13 1- T
dmnorm (m,a, P,a)
rv
dgamma (a, b)
(E.1)
Annexe E
295
+yTpyy + m~P{3m{3
{3T (XTpyX + P (3) {3 - 2{3T (XTpyy + p (3m(3) + (yTpyy + m~P (3m(3)
H)
[,8IX, y, T, H]
m~
a exp (
C'est done encore une loi normale de dimension q, localisee sur le vecteur
et de matrice de precision p~ :
dmnorm (m~, P~)
{3IX,y,T,H
P*{3
X TP yX+P{3
m*f3
p~-l (XTPYY+Pf3mf3)
Or Py == TIn:
P*e
TXTX + P{3
m*f3
p~-l (TXTY+P{3mf3)
Conditionnelle complete de
TIX,y,{3,H
a*
b*
X(3) (y - X{3) + b
296
Normale
(3
Gamma
Moyenne
m B== P B- 1 (TXTy
+ P/3m/3)
Precision
Definition
Echelle inverse
b* == ~c1 e + b
c == y - X(3
Forme
a* == %+ a
Z-l
== PZ-l + U,
r-;
La vraisemblance
Le prior
p 1-
1-
Zo
dgamma (a, b)
r-;
dnorm (mp,pp)
Zo
dnorm (mzo'pzo)
Tlp,zo,z,H
a*
b*
- +a
2
1
"2uT U + b
(E.2)
Annexe E
297
Conditionnelle complete de Zo
Le developpement des termes intervenant dans l'exponentielle donne
n
slp,7
==
Tp2
ex:
~ ) + PZo (zo -
(zo -
2
(7 p
m zo )2 + cte
7PZl+PzOmzo)2
2
r p + pzo
+ Pzo ) ( Zo -
Par consequent
zolp, 7, Z, H
m *zo
Conditionnelle complete de P
On rappelle que l'estimateur du maximum de vraisemblance donne
n
P==
L: ZtZt-l
t=l
-n---
L: z;-l
t==l
SIZO,7
==
L (Zt -
PZt_l)2
+ Pp (p -
m p)2
t==l
(p -
Pp
Z;-l
(p2 - 2pp)
Pp (p - m p) 2 +7
t==l
L Z;
t=l
'-v--'
cte
ex:
Z;-l
(p - p)2 + Pp (p - m p)2
t=l
n
ex:
L: ZtZt-l + ppm p
t=l
p--n - - - - - 7
L: Zf-l + Pp
t=l
m
p
)2
298
Par consequent
plzo, T,
Z,
dnorm (m;,p;)
m*p
TZ_1z-1
Normale
p
Moyenne
m *p -_ P~1 (,1
TZ Z-l
zo
: == p:
Gamma
T
Forme
a* == ~
zn
+ ppmp)
(TpZ1 + pzom zo)
+ Pp
Precision
* -_ TZ_1
,1 Z-l + Pp
Pp
* -_ r p.'2 + PZo
PZo
Echelle inverse
b* == ~U'l U + b
+a
Definition
==
Z -
PZ-1
y - X(3 == p (y -1
X- 1(3)
+ E,
r-;
(E.3)
XOj
EO
rv
dnorm (0, T)
Mais, comme Xo, Y-1 et X-1 ne sont pas des quantites connues, il est plus
simple d'ecrire
Yo == a
+ EO,
EO
rv
Annexe E
OU
299
y - py -1
== (X - pX- 1 ) 13 + E,
Conditionnellement a p, en posant yp ==
retrouve la formulation du modele Ml :
rv
y-
== X - pX- 1, on
(E.5)
a 13 et Yo connus
y - XfJ == P (Y-1 - X- 1 fJ ) + E
La vraisemblance
Le prior
A priori, les parametres T, p, a et 13 sont independants, de meme que les
composantes du vecteur 13 == (130 ... ,fJq _ 1)T . On choisi des priors conjugues
dans le but de realiser l'inference via un echantillonnage de Gibbs:
Tla,b
plmp,pp
alma,Pa
fJlmj3, pj3I q
dgamma (a, b)
dnorm (mp,pp)
dnorm (ma,Pa)
dmnorm (mj3,pj3Iq )
(E.6)
(E.7)
(E.8)
(E.9)
300
La precision
HO-Tl YP' X p, H]
ex 7(n+l)!2+ a -
x exp ( - 7
exp (
-7
(~ (Yo -
(~ (y p - x p{3 f
a)2 +
(3) ))
(y p - X p
b) )
n+l
2
1
a*
--+a
b*
+b
Le parametre a
dnorm (m:,p:)
--; (TYo
m*a
Pa
T+Pa
+ Pama)
Le coefficient (3
On a fait Ie calcul pour Ml, il suffit de remplacer y par y p et X par X,
dmnorm (m~, p~)
T
m*{3
XJX p
+ p{3Iq
p;-l (7XTyp+Pf3illf3)
Le coefficient de correlation p
On a calcule sa conditionnelle complete dans le cadre du modele M2 OU
Z-l == y-I-X- 1(3 (ce qui implique de fixer le vecteur des
regresseurs en t == 0, xo)
== y-X(3 et
Annexe E
301
dnorm (m;,p;)
m*p
TZ_lZ-l
Moyenne
m~ == p
Parametre
{3
a
; ==
m *p -_
Parametre
Forme
a* ==
e- (TXT Y + P I3ml3)
1*
PO'
1
p~
nt
(TYo + PamoJ
(1
TZ Z-l + ppmpI)
+ Pp
Precision
P~ == TX~Xp
P~ == T + Pa
:1 Z-l
P*p == TZ_
l
+ P 13
+ Pp
Echelle inverse
+a
f"V
[ZoIZ,1,{3,P,Y]
(E.10)
302
[Z IZo, "I,j3,p, y] ex
II {
l)'Yt_l (Zt<)'Yt X
N (Zt IpZt-l
t=1
+ (Xt -
[ZtIZ#t, f, (3, p, y]
ex
xdnorm (pZt
+ (Xt+l -
PXt) (3,1)
X 1)'Yt- 1(Zo<)'Yt
(E.11)
avec
dnorm (pZT-l
+ (XT -
pXT-l) (3,1)
x1')'YT-l~Zt<')'YT
(E.12)
II dit respecter les contraintes fl < "t: < ... < fJ-l. On prend la matrice de variance-covariance de la partie normale du prior, diagonale,
D = diag ((T~j ). On peut raisonner composante par composante "Ij,
j == 1, ... , J - 1.La relation
T
II {l')'Yt-l~Zt<')'Yt}
t=1
Annexe E
303
est equivalente a
h'j IZ, Zo, 1'j+1, I'j-I,,8, p, y]
_IJ-IJ
(E.13)
1, ..., J - 1
pour j
x1"'Vi.nf<"'V.<"'V~up
IJ
dnorm
ex:
avec
,~nf == max {max {Zt : Yt == j}; ,j-I}
et
on obtient :
(E.14)
avec
{ ~p,z
~
==
== X~Xp + ~o
L:- I (X~Zp + L: 0 13o)
1p E1s
t=1
p= V-I
(Zt-I - Xt-I13)
Ct
+ Vo
+ VOPO)
Chapitre F
Annexe du chapitre 11 :
code WinBUGS pour la
pollution indoor
Chambre d'emission (Hayter et Dowling, 1993)
On dispose de N ==1 3 couples (t,C(t)) OU :
t est le temps (heures) compte depuis le lancement des operations;
C(t) est la concentration des formaldehydes au temps t
La concentration initiale, CO == C (t==O), est connue.
Les d[i] mesurent le temps ecoule entre deux mesures consecutives : d[i] ==
t[i]-t[i-l]
a == Aire de l'objet I volume de la chambre (11m)
T est le demi-temps de vie du materiau emetteur
model;
{
tau --dgamma(0.001,O.001)
lambda --dgamma(O.OOl,O.OOl)
thetaO --dgamma(O.OOl,O.OOl)
CO <- 0.05
eta <- a I (q - lambda)
for( i in 1 : N ) {
b[i] <- exp( -q * d[i])
f[i] <- exp(-lambda*t[i])
g[i] <-exp(-lambda*d[i])
h[i] < - tau/ d[i]
306
}
list(t==c(0.5, 1.5, 2.5, 4.5, 8.5, 24.5, 48.5, 72.5, 144.5, 168.5, 196.5, 216.5,
240.5), C==c(0.219, 0.397, 0.41, 0.549, 0.333, 0.243, 0.163, 0.132, 0.019, 0.031,
0.027,0.023, 0.018),d==c(0.5, 1, 1,2,4,16,24,24,72,24,28,20,24), a==0.3962,q==1.01,N==1
list (tau==0.1,lambda==0.01 ,thetaO==1.2)
list(tau==0.5,lambda==0.02,thetaO==1.1)
list(tau==0.7,lambda==0.03,thetaO==1.3)
Chapitre G
Annexe du chapitre 12 :
complements sur les modeles
hierarchiques
Transfert d'inforrnation et modele hierarchique
Comment le MBH transfere-t-il de l'information entre les annees ? Interessonsnous a la loi a posteriori des parametres inconnus population de saumons Vi
et efficacite de la peche OJ pour une annee i donnee, soit [Vi,Oildata]. Dans
la theorie bayesienne, cette loi synthetise tout ce que l'on sait sur ces parametres, une fois prises en compte les donnees observees, Cherchons comment
les donnees data, relatives a l'annee i interviennent dans ce conditionnement.
On note daio.s., les donnees autres que celles de l'annee i, de telle sorte que
data == {datai, data-i}. En appliquant la formule de Bayes, il vient :
(G.l)
308
etait un prior pour Ie couple (Vi,Oi). C'est par cet intermediaire qu'interviennent les autres donnees annuelles pour actualiser la distribution a
priori commune. Ce terme [Vi, ()i Idata-i] s'interprete comme une distribution a priori modifiee sur (Vi,Oi).
Plus la distribution a posteriori [Idata-i] est informative, plus la distribution a priori modifiee concernant la taille de la population et l'efficacitc de la
capture [Vi, ()ildata-i] contrebalance l'effet de l'acquisition des donnees propre
a l'annee i (traduit dans la vraisemblance partielle L i ) . La figure G.l en donne
une interpretation graphique immediate.
Un cas degenere du modele hierarchique supposerait l'egalite de tous les
couples (Vi,Oi). Des lors, on pourrait melosiqer toutes les annees puisqu'elles
Annexe G
.........
309
inftrence
modetisation
IT i ,
x [v,B]
Il faut ici choisir une valeur par ticuli ere pour les hyperparametres 'Yi, 8i . Sous
un tel modele, l'analyste se trouve souvent confronte au dilemme de choisir
'Yi, 8i de sort e que [Vi , Bi h i, 8;] soit non informative et prend le risque d'inferences incert aines dans le cas de donnees insuffisantes, ou de choisir une valeur
qui apporte une information a priori import ant e. Il prend alors le risque d'influencer les inferences par un choix personnel sans rapport avec les donnees
fournies. Face a ce dilemme, le MBR propos e une solution interrnediaire en
attribuant des degree de credibilite aux valeurs des hyperparametres selon les
donn ees disponibles.
310
# Distributions predictives
teta_pred "dbetatalpha.beta},
p_pred -dbeta(alpha_p,beta_p);
lambda_pred -dgamma(mu,nu);
N _pred - dpois(lambda_pred) ;
for (i in 1 :Nyears) {
teta1[i) - dbeta(alpha,beta) ;
#
#
#
#
Annexe G
311
3,
lambda = c(10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10),
lambda pred = 10
);
Chapitre H
Annexe du chapitre 13 :
detection de ruptures,
cas Gumbel
Loi de Gumbel ou loi double exponentielle
Definition et proprictos
Nous completons ici le modele de Gumbel, deja rencontre au chapitre 6
pour la distribution des valeurs extremes. Sa fonction de repartition standard
est definie sur IR par l'identite suivante :
Pr(U S u) == exp(-exp(-u))
(H.I)
(H.2)
== exp ( -u) ~
u ==
- In t
~ T
rv
dexp (til)
314
(H.3)
ou T == 0.57722 ... est la constante d' Euler.
Appliquons une transformation lineaire
==
a la variable aleatoire
U:
A + aU, a > 0, A E IR
(X-A)
--a- exp (-exp (X-A))
--a-
(H.4)
[xIA,a]
(H.6)
II est facile de voir que sous cette forme, la densite de Gumbel est la derivee
(par rapport ax) de la fonction de repartition
Pr(X ~ XIM,P) == exp (-Mexp (-px))
(H.7)
(H.8)
~ (~r
(H.9)
V (XIJ-t,p) =
L'avantage de cette representation prisee des hydroIogues est que l'interpretation de M est reliee directement a la probabilite de valeurs negatives ou
nulles :
(H.lO)
Pr (X :s; DIM, p) == exp (-M)
Annexe H
315
Q=
p
de preference a l' esperance et surtout
moins directe.
(H.ll)
avec
(H.13)
l{:}t==l T
"
k == {
2{:}t==T+l, ,n
Avec cette notation appreciee des hydrologues pour la loi de Gumbel, le parametre JL a une interpretation phenomenoloqique et ses deux premiers moments
s'expriment de facon explicite avec appel a la constante d'Euler (equations H.8
et H.9) .
316
Remarque H.3 Le modele H.13 fait I'hypothese forte que 7 est la derniere
date avant changement du parametre fL de la distribution parente alors que lc
parametre d'echclle P reste invariant. II y a aussi derriere ce schema, l'idee que
la rupture est unique et done que le nouvel etat, caracterise par fL2 perdure au
moins jusqu'a la fin de la pcriode observee n.
Modele M k (k ruptures)
C'est le meme modele que ci-dessus avec k sauts existent dans une serie
de variables aleatoires independantes distribuees selon Gumbel (Ie parametre
fL change mais le pararnetre p reste invariant).
k+1
I1
[ttj] ,
r'V
Vj : ttj
r'V
dgamma (p, q)
j=l
(H.14)
Etude du modele M;
Avec les memes notations que pour le modele normal du chapitre 13, a partir
de la distribution de Gumbel (eq, H.13), la contribution a la vraisemblance de
Xji, la ie-me don nee du groupe j s'ecrit
[XlfL,P,7] ==
j=l i=l
ou
Annexe H
317
1 k+l
X== - Lnjxj
j=1
u,
p] -
rr
k+l
ba
r (a) p
a-I
(b )
q
p-l
(
)
exp - p j=l r (p) J..tj exp -qJ..tj
A partir de l'identite
on trouve
- k
(b + nx) pJ
rr+l
f(n+p)
nj
J
nj+p (H.16)
j=1 (q+Li=l exP(-PXji))
318
00
(b + nx) p]
T :
II
k+l
r(
+)
nj nj P
nj+pdp
o
j=l(Q+Li=leXP(-PXji))
(H.17)
On notera ici que, contrairement au cas normal, la distribution conjointe
[Tlx] des Tj est exprimee par une integrale sur P qui n'a pas de solution analytique.
[Tlx] ex [T]
pn+a-l exp [-
a la vraisemblance s'ecrit
Posons
== {J1j : j == 1, 2, ... ,k + I}
== {Tj : j == 1, 2, . .. ,k}
Annexe H
319
(H.18)
j-lj
et de h
Le prior conjoint (13.8) possede une structure qui ressemble a la vraisemblance conditionnelle a T (eq H.18) que l'on va exploiter pour tirer parti des
proprietes de conjugaison :
h k+1
)
~ (JLj - m)2
2
- a
(H.19)
a T connu donne :
-2"h
2d + Q
f;
k+1
k+1
)
+ a~
(JLj - m)2 +
nj(xj - JLj)2
(H.20)
Or un simple calcul algebrique montre que
a
k+l
k+l
k+l
j=l
j=l
j=l
ou
(H.21)
Le terme T ne depend que des donnees et des informations a priori.
II s'en suit que la distribution conjointe a posteriori des parametres J-L et h
s'ecrit
[JL, hIT,X] ex h(k+l)/2+ n/2+c- 1 exp
ah
k+1
(H.22)
lorsque les temps de
(H.23)
320
ou
hj == (a + nj) h
(H.24)
00 100
1
-00
k+l
-00
j.Lj
donne
21r
ex h-(k+l)/2 (H.25)
h(a+nj)
a chaque
a7
fixe suit :
(H.26)
, n
c==-+c
(H.27)
d' =
~ (2d + Q + T)
(H.28)
T
==
On en deduit
Annexe H
En integrant successivement par rapport
deux cotes, on trouve :
a /1
==
321
(H.29)
ou le prior conjoint [T] est fourni par la procedure decrite ci-avant.
[XtIXt-l]
(H.30)
(H.31)
Vraisemblance et priors
Pour expliciter la vraisemblance, nous utiliserons ici les notations matricielles en posant les vecteurs :
(H.32)
et deux vecteurs instrumentaux de coordonnees
Vlt == 1 si t ~ T , 0 sinon
V2t == 1 si t 2: T + 1 ,0 sinon
- On peut alors poser vraisemblance et priors conjugues conjoints :
322
([f;t
exp[-
h~]
(H.33)
(H.35)
en utilisant la notation de la fonction de Dirac 6
==Jl;1,Jl;2,h
(H.36)
(H.37)
La fonction de Dirac 6[0,1] (yJ) nulle en-dehors de l'intervalle [0,1] au elle est
egale a L, tient compte de la contrainte sur ip,
On remarquera que, sous cette forme la vraisemblance a 7 fixe est celle d'un
modele gaussien lineaire classique.
En ce qui concerne ces priors, on utilisera les conjugues naturels pour
ip, 'l/Jl, 'l/J2 et h ,soit :
- h est distribue comme une gampdf(a, b)
- si h est fixe 'l/Jl, 1/J2, .p sont distribues comme une loi normale a 3 di-
a h,
soit
x,
(H.38)
Distributions a posteriori
On va commencer par transformer la vraisemblance.
Conjointement a (), on utilisera la matrice n x 3: S == {VI;V2;X_}
Soient les valeurs () == {~l; ~2; ~} qui maximisent la vraisemblance (c'est-adire qui minimisent Q). Elles sont les solutions du systems a 3 equations:
(H.39)
vf.(X-'l/JIvI-'l/J2v2-yJX-) == 0
(H.40)
Annexe H
323
(H.41)
Cela etant, on peut decomposer Q en utilisant une identite connue (voir par
exemple Box et Tiao, 1973) :
(H.43)
Compte tenu de ces resultats, on peut aisement determiner les distributions
a posteriori.
On en donne ci-apres la distribution conditionnelle conjointe a posteriori
pour T fixe:
avec:
== 9 + n/2
L; == STS + L
(H.44)
9x
(H.45)
2c
(H.46)
(H.47)
Les densites marginales a posteriori de ~1, ~2, .p sont des dcnsites de Student
(tronquees pour <.p) qui sont aisees a determiner compte tenu de la formule
generale ci-dessus.
- Maintenant on peut obtenir la distribution marginale a posteriori de T
comme nous l'avons fait pour Mk.
(H.48)
324
c: hgxe-~((e-mx)TLx(e-mx))
(H.49)
(H.50)
(H.52)
Remarque H.5 Nous avons discute ce modele en utilisant les notations matricielles. Ce parti a l'interet de montrer la generalisation aisee de la modelisation
des changements a des modeles lineaires generaux avec variables ou processus
explicatifs divers. Les formules precedentes sont tres facilement transposables
dans ce cas. Sur le plan des calculs, la methode EPE que nous avons adoptee se
generalise egalcment sans perte de precision ni augmentation de couts-calculs.
Bibliographie
Bagliniere, J.L., Champigneulle, A. 1986. Population Estimates of Juvenile
Atlantic Salmon,Salmo Salar, as Indices of Smolt Production. Journal
Fish Biol., 29, 467-482.
Berger, J.O. 1985. Statistical Decision Theory and Bayesian Analysis. 2nd edn.
Springer-Verlag.
Bernardo, J.M., Smith, A.F.M. 1994. Bayesian Theory. Wiley and Sons, Chichester, U.K.
Bernier, J., Parent, E., Boreux, JJ. 2000. Statistique Pour L'Environnement .
Traitement Bouesieti de L'incertitude. Tec et Doc, Lavoisier.
Bouleau, N. 1991. Splendeurs et Miseres Des Lois de Valeurs Extremes. Revue
Risques, 4, 85-92.
Box, G. E. P., Tiao, G. T. 1973. Bayesian Inference in Statistical Analysis.
Reading : Addison-Wesley.
Brooks, S.P. 1998. Markov Chain Monte Carlo Method and its Application.
The Statistician, 47(1), 69-100.
Brouard, J., Hoceine, A., Lecoutour, X., Kauffmann, D., Eckart, P., Duhamel,
J.F. 1995. Estimation de l'incidence de la tuberculose pediatrique en BasseNormandie. Med. Mal. Infect., 1345-1347.
Cappe, 0., Guillin, A., Marin, J., Robert, C. 2004. Population Monte Carlo.
J. Comput. Graph. Statist., 13(4),907-929.
Chang, J., Guo, Z. 1998. Emissions of Odorous Aldehydes from Alkyd Paints.
Atmospheric Environnement, 32, 3581-3586.
Chao, A. 1989. Estimating Population Size for Sparse Data in CaptureRecapture Experiments. Biometrics, 45, 427-438.
Chen, M.-H., Shao, Q.-M., Ibrahim, J. G. 2000. Monte Carlo Methods in Bayesian Computation. Springer.
Clobert, J., Pradel, R. 1993. Modelling some Demographic Parameters in Animal Populations Studied by Capture-Mark-Recapture : Review and Perspectives. Pages 151-174 of : Lebreton, J-D., Asselin, B. (eds) , Biometric
et Environnement. Paris : Masson.
326
Bibliographie
327
Girard, P., Parent, E. 2000. Analyse Bayesienne Du Modele Lineaire A Erreur Autocorrelee : Application A la Modelisation D'un Procede AgroAlimentaire A Partir de Donnees Recueillies sur Ligne. Revue de Statistique Appliquee, XLVIII(1-15), 5-34.
Girard, P., Parent, E. 2001. Bayesian Analysis of Autocorrelated Ordered
Categorical Data for Industrial Quality Monitoring. Technometrics, 42(4),
1-12.
Girard, P., Parent, E. 2004. The Deductive Phase Of Statistical Analysis Via
Predictive Simulations : Test, Validation and Control of a Linear Model
with Autocorrelated Errors Representing a Food Process. Journal of Statistical Planning and Inference, 124(1),99-120.
Gnedenko, B. 1943. Sur la Distribution Limite Du Terme Maximum D'une
Serie Aleatoire. The annals of Mathematics, 44, 423-453.
Haghighat, F., De Bellis, L. 1998. Material Emission Rates: Literature Review and the Impact of Indoor Air Pollution Temperature and Relative
Humidity. Building and Environment, 5, 261-277.
Hand, D.J., Daly, F., Lunn, A.D., McConway, K.J., Ostrowski, E. 1993. A
Handbook of Small Data Sets. Chapman and Hall, London, 458 p.
Hayter, T., Dowling, M. 1993. Experimental Designs and Emission Rate Modelling for Chamber Experiments. Atmospheric Environment, 27 A(14),
2225-2234.
Hubert, P. 2000. The segmentation procedure as a tool for discrete modeling
of hydrometeorological regimes. Stochastic Environmental Research and
Risk Assessment, 14(4), 297-304.
Jeffreys, H. 1939. Theory of Probability. Oxford.
Jenkinson, A.E. 1955. The Frequency Distribution of the Annual Maximum
(or Minimum) Values of Meteorological Elements. Quarterly Journal of
the Royal Meteorological Society, 81, 158-171.
Jones, A.P. 1999. Indoor Air Quality and Health. Atmospheric Environment,
33, 4535-4564.
Kass, R.E., Raftery, A.E. 1994. Bayes Factors. Journal of American Statistics
Assoc., 90, 773-795.
Kass, R.E., Carlin, B.P., Gelman, A., Neal, R.M. 1996. Markov Chain Monte
Carlo in Practice : A Roundtable Discussion. Proceedings of the joint
statistical meetings.
Leadbetter, M.R. 1983. Extremes and Local Dependence in Stationnarity Sequences. Zeit. Wahrscheinl.-theorie, 65, 291-306.
Lee, A. F. S., Heghinian, S. M. 1977. A Shift of the Mean Level in a Sequence of Independent Normal Random Variables: A Bayesian Approach.
Technometrics, 19(4),503-506.
Lejeune, M. 2005. Statistique. La Theorie et Ses Applications. Springer-Verlag
France.
328
Bibliographie
329
Renard, B., Lang, M., P., Bois. 1988. Statistical analysis of extreme events
in a non-stationary context via a Bayesian framework : case study with
peak-over-threshold data. Stochastic Environmental Research and Risk
Assessment, 21(2), 97-112.
Rivot, E., Prevost, E. 2002. Hierarchical Bayesian Analysis of Capture-MarkRecapture Data. Canadian Journal of Fish. and Aquat. Sciences, 59,
1768-1784.
Robert, C. 2006. Le Choix Bauesien, Principes et Pratique. Statistique et
Probabilites Appliquees, Springer.
Robert, C.P., Casella, G. 1999. Monte-Carlo Statistical Methods. Springer.
Ruggle, J., Brodie, H. 1947. An empirical approach to ecomic intelligence in
world war II. Journal of American Statistics Assoc., 42, 72-91.
Salas, J.D., Boes, D.C. 1980. Shifting Level Modelling of Hydrologic Series.
Advances in Water Resources, 3(2), 59-63.
Samet, J.M. 1993. Indoor Air Pollution: A Health Perspective. Indoor Air, 3,
219-226.
Savage, L. J. 1954. The Foundations of Statistics. New York: Dover Publications.
Seber, G.A.F. 1982. The Estimation of Animal Abundance and Related Parameters. Londres : Charles Griffin and Co. Ltd High Wycombe.
Sivia, D. S. 1996. Data Analysis: A Bayesian Tutorial. Oxford: Clarendon
Press.
Smith, A.F.M., Gelfand, A.E. 1992. Bayesian Statistics Without Tears. A
sampling resampling perspective. The American Statistician, 46(2).
Spiegelhalter, A., Thomas, A., Best, N., Lunn, D. 2003. WinBugs Package.
WinBugs package, version 1.4.
Spiegelhalter, D.J., Thomas, A., Best, N.G., Gilks, W.R. 1996a. BUGS
0.5, Bayesian Inference Using Gibbs Sampling. In: Manual Cambridge.
Londres : MRC Biostatics Unit.
Spiegelhalter, D.J., Thomas, A., Best, N. G. 1996b. Computation on Bayesian Graphical Models. Pages 407-425 of : Bernardo, J.M., Berger, J.O.,
Dawid, A.P., Smith, A.F.M. (eds), Bayesian Statistics. Oxford University
Press.
Spiegelhalter, D.J., Thomas, A., Best, N.G. 2000. WinBUGS Version 1.3 : User
Manual. Cambridge: Medical Research Council Biostatistics Unit.
Squinazi, F. 2002. La Pollution de L'air A L'interieur Des Batiments (Allergenes
Exclus). Allergol Immunol Clin, 42, 248-255.
Tanner, M.A. 1996. Tools for Statistical Inference: Methods for the Exploration
of Posterior Distribution and Likelihood Functions. New York: Springer
Verlag.
330
Tichenor, B.A. 1989. Indoor Air Sources. Using Small Environmental Chamber
to Characterize Organic Emissions from Indoor Materials and Products.
EPA, 600(8-89-074).
Index
a posteriori, 16
a priori, 9
conjointe a posteriori, 269
a posteriori
distribution, 12, 18,27,41,53,90,
102, 202, 219, 222, 227, 232,
251, 271
de Polya, 29
marginale a posteriori, 270
predictive a posteriori, 5, 12, 29,
271
a priori
echangeabilite, 227
echantillonnage
bootstrap, 82
de Gibbs, 49, 69, 109, 115, 156,
162, 189, 201, 202, 282
multinomial, 44
par importance, 81
pondere, 49, 76, 249
elicitation, 247
d'un prior beta, 134
estimateur des moindres carres, 290
exemple
action conjointe de deux produits,
181
apports energetiques du Saint Laurent,
Bayes
239, 254, 256
rapport de, 251
debits moyens annuels du Seneregle de, 212, 217
gal, 239, 253
bayesienne
du tramway, 86
evaluation des stocks de saumons,
inference, 101, 212, 226, 247
148
chaine de Markov, 51, 201, 220, 234
exoplanetes, 87
chambre d'emission, 212
incidence du paludisme dans les
choix de modele, 165, 239, 250, 251,
armees francaises, 46
261
la troisicme loi de Keppler, 35
conjugaison, 209
lait concentre sucre, 188, 197
constante d' Euler, 314
lame d'eaujournaliere it Uccle, 121
construction du prior
maxima annuels des debits de la
conjoint, 152
Dordogne, 239, 243, 258
332
de Weibull, 99
du Khi-deux, 268
gamma, 13,217,249,268,274,292
generalisee des valeurs extremes,
99
jointe, 212
multinormale, 291
normale, 4, 55, 231, 242, 318
tronquee, 301
normale centree reduite, 287
predictive du modele hierarchique,
234
predictive a posteriori, 234
uniforme, 99, 229
methode
acceptation-rejet, 73
d'importance sampling, 253
de Monte-Carlo, 72
MCMC, 66
particulaire, 81
modele
shifting level model, 260
a k ruptures, 241
a une seule rupture, 240
autoregressif, 194, 243
bayesien annuel, 228
bayesien hierarchique echangeable,
225
beta-binomial, 27
catcgoriel probit, 206
d'echantillonnagc, 23
de capture-marquage-recapture, 41,
222, 307
de depassement, 281
de regression lineaire, 287
de regression logistique, 177
de regression non lineaire, 214
de rupture, 238, 315, 316
des fuites, 281
deterministe, 216
gamma-Poisson, 30, 278
GEV, 100, 282
hierarchique, 87, 222, 225, 234, 307,
310
Index
Iineaire, 4, 170
lineaire
a residus autocorreles, 195
avec erreur sur regresseurs, 200
lineaire generalise, 48, 172, 173
POT, 105, 281
statistique parametrique, 5
modularite, 39
parametre
d'echellc, 231, 283, 316
inverse, 320
de forme, 102, 249, 320
de localisation, 315
posterior, 269, 318
principe
de parcimonie, 241
prior
de Jeffreys, 229
echangeable, 246
vague de Jeffreys, 58
processus
de Bernoulli, 24, 176, 273
ponctuel de Poisson, 25
ponctuel de Poisson, 279
marque, 280
rapport de vraisemblance, 251
regle
de Bayes, 12
de decision, 22
regression
lineaire, 61, 191, 289
logistique, 176
reseau bayesien, 38
residus
autoregressifs, 183, 197
graphe, 214
risque
d'erreur, 219
relatif, 180
somme de deux formes quadratiques,
291
theoreme, 138
333