These Alimentation Matematique Risque Alimentaire

UNIVERSITE PARIS X - NANTERRE
ECOLE DOCTORALE CONNAISSANCE ET CULTURE

T H E S E
pour obtenir le grade de
DOCTEUR DE LUNIVERSITE PARIS X
Discipline : Mathmatiques Appliques et Applications des Mathmatiques
prsente par
Jessica TRESSOU
et soutenue publiquement le 9 dcembre 2005
Titre de la these
Mthodes statistiques pour lvaluation du risque alimentaire
sous la direction de
Patrice BERTAIL
Composition du Jury
President
Mme Judith Rousseau Professeur, Universit Paris IX, Paris
Rapporteurs
Mme Sylvie Huet Directeur de Recherche, INRA MIA, Jouy en Josas
M. Hilko van der Voet Senior Statistician, Biometris, Wageningen, Pays-Bas
Examinateurs
Mme Karine Tribouley Professeur, Universit Paris X, Nanterre
M. Philippe Verger Directeur de Recherche, INRA Mt@risk, Paris
M. Patrice Bertail Professeur, Universit Paris X, Nanterre
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Remerciements
Trois annes de travail, de nombreuses rencontres, et un grand nombre de personnes
remercier...
Par o commencer ... certainement par celui qui ma convaincue, il y a maintenant
plus de trois ans, par son enthousiasme pour la recherche applique et ses comptences en
recherche thorique, Patrice Bertail. Il a t un directeur de thse attentionn et disponible.
Je le remercie sincrement davoir cru en moi et de la conance quil me tmoigne encore
en me prsentant ses collaborateurs hongkongais.
Merci Sylvie Huet et Hilko van der Voet davoir accept, avec un enthousiasme qui
me touche particulirement, dtre les rapporteurs de cette thse. Je remercie galement sin-
crement Judith Rousseau, Karine Tribouley et Philippe Verger qui les ont rejoints dans cette
aventure "risque" en tant que membres du jury.
Revenons au dbut de lhistoire...
Ma rencontre avec le risque alimentaire est incarne par Jean-Charles Leblanc, qui pen-
sait, il y a maintenant trois ans, que "mes stats" pouvaient solutionner tous ces problmes
dvaluation de risque... Je le remercie vivement pour son soutien et les discussions enrichis-
santes que nous avons eues maintes reprises sur le risque et sur le monde de la recherche
en gnral.
Trs bien accueillie pour mes dbuts dans la recherche par lensemble des membres du
CORELA, je tiens remercier particulirement Pierre Combris et France Caillavet pour
leur gnreuse aide ; Christine Boizot et David Delobel, pour qui le panel SECODIP na plus
de secret ; Olivier Allais avec qui jai dcouvert les multiples sigles et lunivers de lINRA;
Anne Lhuissier, Fabrice Etil et Sverine Gojard, sans qui les sorties piscine auraient t
bien tristes...
A force dy croire, lunit INRA-Mt@risk est ne : dmnagement lINA P-G et une
nouvelle tape commence... Rencontre de Philippe Verger (le directeur !), qui ma rapidement
accord une trs (trop ?) grande conance, Max Feinberg qui a toujours port une grande
attention mon travail, Isabelle Albert pour ses conseils et son soutien et Catherine Dervin
qui dispute le rle de seconde maman avec Nadine Flavigny, toujours prtes rendre de
multiples services, en particulier aux thsardes... Je tiens particulirement remercier Amlie
Crpet avec qui nous partageons depuis quatre ans nos soucis statistiques et autres ; Emilie
Counil, qui ma devance de peu pour terminer sa thse et ma soutenue jusquau rush nal ;
et Hugo Harari qui ma laisse monopoliser notre directeur de thse dans les derniers temps.
Merci galement Sandrine Blanchemanche et Patrice Buche pour leur enthousiasme et
leur dynamisme au sein de lunit et lensemble des membres de Mt@risk. Une pense
particulire pour Eloisa D. Caldas et Guillaume Drot avec qui jai beaucoup apprci de
3
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
4 REMERCIEMENTS
travailler ; et Stphan Clmenon, qui nous a rejoint trop rcemment mais me permettra de
dcouvrir dautres domaines des mathmatiques appliques.
Merci galement Sylvie Mlard, Stphane Robin, Jean-Jacques Daudin et Franck Picard
qui, malgr des emplois du temps bien remplis, ont pris le temps de rpondre mes questions.
Cette thse naurait pas t la mme sans laide des bibliothcaires dici et dailleurs :
merci Josette Renaud de lENSAE, Annick Ravaud Ivry sur Seine et Carole Tiphaine de
lINA P-G.
Le tableau serait incomplet si joubliais les collgues chargs de TD : Fabrice Wilthien,
Chi Viet Tran, Clo Tavan, et les autres...
Merci mes parents et ma soeur qui mont toujours soutenue tout au long de ces trois
annes.
Je noublie bien sr pas mes amis dOrlans, qui ny vivent plus pour la plupart, et ceux
de Paris ou dailleurs, qui me manqueront certainement beaucoup dans mon aventure Hong-
kongaise...
Un dernier clin doeil Maman, Julia, Isabelle, Zo et Coco pour leur participation la
dernire relecture !
Last but not least... mon Coco ! Il a le mrite de mavoir supporte plus que tous et
senvolera vers de nouveaux horizons avec moi pour continuer de le faire...
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Table des matires
Remerciements 3
Table des matires 5
Table des gures 9
Liste des tableaux 11
Liste dacronymes et abbrviations 13
1 Introduction 15
1.1 Lanalyse de risque alimentaire . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Les donnes disponibles en France et leurs particularits . . . . . . . . . . . 19
1.2.1 Consommation alimentaire des individus . . . . . . . . . . . . . . . . 19
1.2.2 Contamination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2.3 Appariement des donnes de consommation et de contamination . . . 22
1.3 Les mthodes usuelles dvaluation de lexposition . . . . . . . . . . . . . . . 22
1.3.1 Construction de la distribution dexposition . . . . . . . . . . . . . . 23
1.3.2 Grandeurs dintrt et risque chronique . . . . . . . . . . . . . . . . . 25
1.4 Principaux rsultats de la thse . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.4.1 Les risques alimentaires : un phnomne extrme ? . . . . . . . . . . . 26
1.4.2 Evaluation empirique des risques . . . . . . . . . . . . . . . . . . . . 28
1.4.3 Modlisation de la censure des donnes de contamination . . . . . . . 30
1.4.4 Evaluation de lexposition individuelle de long terme partir de don-
nes mnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.4.5 Finalisation informatique des recherches . . . . . . . . . . . . . . . . 34
2 Valeurs extrmes et risque alimentaire 35
2.1 Valeurs extrmes et indice de Pareto . . . . . . . . . . . . . . . . . . . . . . 36
2.1.1 Valeurs extrmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.2 Loi de Pareto et Pareto gnralise . . . . . . . . . . . . . . . . . . . 39
2.1.3 Lestimation indirecte : mthode P.O.T. . . . . . . . . . . . . . . . . 42
2.1.4 Lestimation directe : estimateurs classiques . . . . . . . . . . . . . . 43
2.2 Mise en vidence du biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.2.1 Fonctions variation lente et biais . . . . . . . . . . . . . . . . . . . 48
5
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
6 TABLE DES MATIRES
2.2.2 Quelques simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3 Mthode de correction du biais . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3.1 Description du modle . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3.2 Estimation des paramtres . . . . . . . . . . . . . . . . . . . . . . . . 55
2.3.3 Mise en oeuvre de ces mthodes sur donnes simules . . . . . . . . . 56
2.4 Caractrisation des populations risque . . . . . . . . . . . . . . . . . . . . 58
2.4.1 Facteurs dterminant lappartenance la zone risque . . . . . . . . 59
2.4.2 Caractrisation des populations risque partir de la loi des excs . 60
2.5 Illustration : risque alimentaire . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.5.1 Risque dexposition lacrylamide . . . . . . . . . . . . . . . . . . . . 61
2.5.2 Risque dexposition au mthylmercure . . . . . . . . . . . . . . . . . 64
2.5.3 Caractrisation des populations exposes au mthylmercure . . . . . . 68
Annexe 2.A Donnes de consommation franaises . . . . . . . . . . . . . . . . . . 72
2.A.1 Lenqute individuelle nationale sur les consommations alimentaires
(INCA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
2.A.2 Le panel SECODIP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
2.A.3 Les autres sources de donnes sur la consommation . . . . . . . . . . 75
Annexe 2.B Rappel sur la thorie des valeurs extrmes . . . . . . . . . . . . . . 76
2.B.1 Thorme de Fisher & Tippett (1928) . . . . . . . . . . . . . . . . . . 76
2.B.2 Fonctions variation lente et rgulire . . . . . . . . . . . . . . . . . 76
2.B.3 Caractrisation des trois domaines dattraction . . . . . . . . . . . . . 77
Annexe 2.C Quelques rsultats sur les statistiques dordre . . . . . . . . . . . . 78
2.C.1 Lemme de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2.C.2 Construction dcarts . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
2.C.3 Reprsentation de Rnyi . . . . . . . . . . . . . . . . . . . . . . . . . 79
Annexe 2.D Correction de biais pour une fonction variation lente de type loga-
rithmique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.D.1 Preuve du thorme 2.3.2 . . . . . . . . . . . . . . . . . . . . . . . . 80
2.D.2 Estimation des paramtres du modle . . . . . . . . . . . . . . . . . . 80
Annexe 2.E Calcul de linformation de Fisher . . . . . . . . . . . . . . . . . . . . 81
3 valuation empirique des risques 83
3.1 Estimation de la probabilit de dpasser un seuil d . . . . . . . . . . . . . . 84
3.1.1 Notations et paramtrisation du problme . . . . . . . . . . . . . . . 84
3.1.2 Comportement asymptotique de lestimateur plug-in . . . . . . . . . 85
3.2 Approximation par une U-Statistique incomplte . . . . . . . . . . . . . . . . 88
3.2.1 Principe gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.2.2 Cas du tirage alatoire avec remise . . . . . . . . . . . . . . . . . . . 88
3.2.3 Approximation de la variance : Jackknife ou Bootstrap . . . . . . . . 89
3.3 Intervalles de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.3.1 Construction des intervalles . . . . . . . . . . . . . . . . . . . . . . . 92
3.3.2 Algorithme de calcul . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.3.3 Validation par simulation . . . . . . . . . . . . . . . . . . . . . . . . 94
3.4 Illustration : risque dexposition lochratoxine A . . . . . . . . . . . . . . . 95
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
TABLE DES MATIRES 7
3.4.1 Description des donnes . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.4.2 Rsultats et discussion . . . . . . . . . . . . . . . . . . . . . . . . . . 96
Annexe 3.A Quelques rsultats sur les U-statistiques . . . . . . . . . . . . . . . . 99
Annexe 3.B Preuves et complments . . . . . . . . . . . . . . . . . . . . . . . . . 104
3.B.1 Preuve du thorme 3.1.1 . . . . . . . . . . . . . . . . . . . . . . . . 104
3.B.2 Preuve de la proposition 3.2.1 . . . . . . . . . . . . . . . . . . . . . . 105
3.B.3 Preuve du thorme 3.2.1 . . . . . . . . . . . . . . . . . . . . . . . . 106
4 Traitement de la censure 109
4.1 Mthode paramtrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.2 Mthode non paramtrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
4.2.1 Estimateur de Kaplan Meier pour des donnes censures gauche . . 111
4.2.2 Estimation de la probabilit de dpasser un seuil d . . . . . . . . . . 112
4.2.3 Mise en oeuvre pratique : estimation et intervalles de conance . . . 116
4.2.4 Validation par simulation . . . . . . . . . . . . . . . . . . . . . . . . 118
4.3 Illustration : risque dexposition lochratoxine A . . . . . . . . . . . . . . . 119
Annexe 4.A Hadamard direntiabilit et Delta-mthode fonctionnelle . . . . . . 124
Annexe 4.B Comportement asymptotique . . . . . . . . . . . . . . . . . . . . . . 125
5 Individualisation et risque de long terme 129
5.1 Dcomposition de quantits unidimensionnelles . . . . . . . . . . . . . . . . 130
5.1.1 Indpendance des individus . . . . . . . . . . . . . . . . . . . . . . . 131
5.1.2 Dpendance au sein du mnage . . . . . . . . . . . . . . . . . . . . . 135
5.2 Validation empirique sur les donnes INCA . . . . . . . . . . . . . . . . . . . 135
5.3 Extensions du modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
5.3.1 Introduction de caractristiques socio-dmographiques . . . . . . . . 137
5.3.2 Introduction dune dimension temporelle . . . . . . . . . . . . . . . . 138
5.3.3 Dcomposition de quantits multidimensionnelles . . . . . . . . . . . 139
5.4 Quantication du risque de long terme . . . . . . . . . . . . . . . . . . . . . 140
5.5 Application : mthylmercure dans les produits de la mer . . . . . . . . . . . 142
5.5.1 Choix du modle de base pour une quantit unidimensionnelle . . . . 143
5.5.2 Inuence de certaines caractristiques socio-dmographiques . . . . . 144
5.5.3 Quantication du risque de long terme . . . . . . . . . . . . . . . . . 146
5.6 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
5.6.1 Une modlisation en deux tapes . . . . . . . . . . . . . . . . . . . . 151
5.6.2 Vers le modle de ruine . . . . . . . . . . . . . . . . . . . . . . . . . . 151
5.6.3 Intgration des mthodes dvaluation des risques sur le long terme . 151
Annexe 5.A Description simplie de la mthode Chesher . . . . . . . . . . . . . 153
Annexe 5.B Estimation dun modle mixte par maximum de vraisemblance res-
treint (REML) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Annexe 5.C Estimation de la variance de lexposition individuelle . . . . . . . . . 155
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
8 TABLE DES MATIRES
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Table des gures
2.1 Distribution de lexposition totale au mercure en mg/an . . . . . . . . . . . 39
2.2 Comparaison des queues de courbes de type Pareto pour divers . . . . . . 41
2.3 QQ-plot de lexposition au mercure . . . . . . . . . . . . . . . . . . . . . . . 44
2.4 Estimateur de Hill

H
I,a
en fonction de k . . . . . . . . . . . . . . . . . . . . 44
2.5 Comparaison destimateurs de lindex de Pareto, exposition au mercure . . . 47
2.6 Estimateur de bas sur la mthode de Bertail et al. (2004) . . . . . . . . . 48
2.7 Comparaison destimateurs de (exposition au mercure) . . . . . . . . . . . 48
2.8 Comparaison de trois estimateurs de selon / pour la simulation dune vraie
loi de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.9 Comparaison de deux estimateurs de selon / pour la simulation dune vraie
loi de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.10 Comparaison de trois estimateurs de selon / pour la simulation dun mlange
de lois de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.11 Comparaison de deux estimateurs de selon / pour la simulation dun mlange
de lois de Pareto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
2.12 Comparaison des trois estimateurs de selon / pour la simulation dune loi
de Pareto perturbe par une fonction variation lente en logarithme . . . . . 51
2.13 Comparaison des deux estimateurs de selon / pour la simulation dune loi
de Pareto perturbe par une fonction variation lente en logarithme . . . . . 51
2.14 Correction de lestimateur de Hill sur donnes simules par un mlange de lois
de Pareto sous lhypothse VL en puissance . . . . . . . . . . . . . . . . . . 57
2.15 Correction de lestimateur de Hill sur donnes simules par une loi de Pareto
perturbe par une fonction VL en log sous lhypothse VL en puissance . . 57
2.16 Correction de lestimateur de Hill sur donnes simules par un mlange de lois
de Pareto sous lhypothse VL en log . . . . . . . . . . . . . . . . . . . . . . 57
2.17 Correction de lestimateur de Hill sur donnes simules par une loi de Pareto
perturbe par une fonction VL en log sous lhypothse VL en log . . . . . 57
2.18 Hill par CSP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.19 Exposition lAcrylamide . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.20 Estimation de lindice de risque pour lexposition lacrylamide . . . . . . 63
2.21 Correction de biais : exposition au methylmercure . . . . . . . . . . . . . . . 66
2.22 Limite de lutilisation de la thorie des valeurs extrmes dans le calcul de la
probabilit de dpassement dun seuil (DHT, par exemple). . . . . . . . . . . 67
2.23 Coecients estims du modle Probit . . . . . . . . . . . . . . . . . . . . . . 69
9
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
10 TABLE DES FIGURES
2.24 Estimation de limpact des variables CSP sur le risque dexposition au mercure. 69
2.25 Impact du diplme sur le niveau du risque dexposition au mercure . . . . . 70
2.26 Impact de la variable sans Enfant sur le niveau du risque dexposition au
mercure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.1 Histogrammes des distributions des consommations et des contaminations as-
socies en OTA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.1 Estimateur de la fonction de rpartition

1
1A
. . . . . . . . . . . . . . . . . 113
4.2 Description de la Procdure KM . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.3 Comparaison de direntes distributions de lexposition lOTA. . . . . . . . 120
5.1 Validation de la mthode de dcomposition sur les donnes INCA. . . . . . . 137
5.2 Estimation des lexpostion individuelle moyenne par ge et sexe par la m-
thode de Chesher. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.3 Estimation de lexposition individuelle moyenne selon lge et le sexe . . . . 144
5.4 Estimation de lexposition individuelle moyenne des hommes selon lge . . . 145
5.5 Estimation de lexposition individuelle moyenne des femmes selon lge . . . 146
5.6 Exposition individuelle moyenne des femmes selon lge et la classe sociale . 147
5.7 Exposition individuelle moyenne des femmes selon lge et la rgion de rsidence148
5.8 Risque moyen de dpassement de la DHT (MeHg) au cours du temps pour
lanne 2001. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.9 Exposition cumule au MeHg au cours du temps . . . . . . . . . . . . . . . . 150
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Liste des tableaux
2.1 Correction de biais : valeurs optimales de / et des paramtres . . . . . . . . 56
2.2 Description des donnes pour lAcrylamide . . . . . . . . . . . . . . . . . . . 62
2.3 Exposition lacrylamide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.4 Exposition aux mtaux lourds . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.1 Probabilits de couvertures et longueurs des dirents IC . . . . . . . . . . . 95
3.2 Dcomposition de la variance, comparaison de populations . . . . . . . . . . 98
3.3 Risque dexposition lOTA . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.1 Probabilits de couvertures et longueurs des dirents IC . . . . . . . . . . . 119
4.2 Comparaison des distributions dexposition lOTA . . . . . . . . . . . . . . 121
4.3 Inuence du choix des paramtres dans la construction des intervalles . . . . 121
4.4 Dcomposition de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . 122
4.5 Inuence de lge sur la probabilit de dpasser un seuil tolrable . . . . . . 122
4.6 Impact de lintroduction dune limite maximale sur les crales . . . . . . . . 122
4.7 Impact de lintroduction dune limite maximale sur les vins . . . . . . . . . . 123
5.1 Estimation des paramtres du modle 5.4 selon direntes hypothses . . . . 143
11
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
12 LISTE DES TABLEAUX
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Liste dacronymes et abbrviations
ACR : Acrylamide
AFSSA :Agence Franaise de scurit sanitaire des aliments
DGAL : Direction Gnrale de lALimentation
DGCCRF : Direction Gnrale de la Concurrence, de la Consommation et de la R-
pression des Fraudes
DHT : Dose Hebdomadaire Tolrable
FAO : Food Agricultural Organization
IEFS : Institute of European Food Studies
INRA : Institut National de Recherche Agronomique
JECFA : Joint FAO/WHO Expert Committee on Food Additives and contaminants
MAAPAR : Ministre de lAgriculture, de lAlimentation,de la Pche et des Aaires
Rurales
MeHg : Mthylmercure
NOAEL : No Observed Adverse Eect Level
OMS : Organisation Mondiale de la Sant
OTA : Ochratoxine A
SCF : Scientic Committee on Food (comit de lUnion Europenne)
WHO : World Health Organization
cdf : cumulative distribution function (Fonction de rparatition)
EVT : Extreme Value Theory
IC : Intervalle de Conance
i.i.d. : indpendant et identiquement distribu
ML : Maximum Likelihood
pdf : probability distribution function (densit)
REML : REstricted Maximum Likelihood
SASAR : Sondage Alatoire Simple Avec Remise
v.a. : variable alatoire
13
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
14 ACRONYMES ET ABBREVIATIONS
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Chapitre 1
Introduction
Lvaluation du risque alimentaire est un domaine dapplication relativement nouveau
pour les statisticiens : il trouve depuis peu sa place dans les congrs internationaux de
statistiques (voir le site du congrs du 25me "European Meeting of Statisticians"
1
, session
Statistics in environmental and food sciences). Cest galement lune des sept priorits du
7ime PCRD (Programme Cadre de Recherche et Dveloppement
2
).
Le but dune analyse de risque alimentaire est de dterminer si une substance donne
peut poser un problme de sant publique, de caractriser les individus les plus risques et
les moyens de rduction du risque les plus ecaces an de mettre ventuellement en oeuvre
certaines mesures de scurit sanitaire (FAO/WHO, 1995). La notion de risque alimentaire
ne peut videmment tre totalement dissocie de la notion oppose de bnces. Ainsi une
remarque pralable la lecture de ces pages est quaucune personne travaillant dans ce
domaine na cess de salimenter au vu des multiples risques quil est toujours important de
relativiser. Le but de cette thse nest videmment pas de diaboliser certains aliments ou
groupes daliments.
Lvaluation du risque alimentaire est un vaste domaine comportant plusieurs spcialits.
Ceci explique en particulier le caractre pluridisciplinaire de lunit INRA-Mt@risk dans
laquelle a t eectue la thse.
En eet, les aliments peuvent contenir diverses substances (contaminants chimiques, ad-
ditifs, pesticides, bactries pathognes) qui, lorsquelles sont ingres en grandes quantits ou
de manire rpte, peuvent avoir des eets nfastes sur la sant. Ltude des moyens dac-
tions de ces direntes substances fait appel aux comptences de mdecins, toxicologues,
vtrinaires et autres biologistes ainsi qu celles des pidmiologistes. Les chimistes ou mi-
crobiologistes doivent aussi dvelopper des techniques analytiques de pointe pour tre en
mesure de quantier des doses trs faibles de contaminants ou autres substances pathognes.
Par ailleurs, ltude du comportement des consommateurs ncessite lexpertise dconomistes
et de sociologues, dune part, et de mdecins nutritionnistes, dautre part. Enn, lvalua-
tion du risque alimentaire ncessite le recours des bases de donnes complexes dont la
construction et la gestion requirent des comptences informatiques certaines.
Le statisticien peut intervenir dans un grand nombre des tapes constituant une analyse
1
http ://www.ems2005.no
2
http ://www.telecom.gouv.fr/programmes/7pcrd
15
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
16 CHAPITRE 1. INTRODUCTION
du risque alimentaire : de nombreux modles ont dj t dvelopps dans le cadre de la
microbiologie prvisionnelle (modles de croissance bactrienne, McMeekin et al. (1993) ;
modlisation dose-rponse, Daudin & Duby (2002)) ; des modles conomtriques (Deaton
& Muellbauer, 1980) permettent dautre part de dcrire la demande en biens alimentaires ;
les modles dpidmiologie (voir par exemple Clayton & Hills, 1993) tentent de mettre en
vidence le lien entre une forte exposition et le dveloppement dune maladie ou dun eet
spcique... On pourrait encore citer de multiples exemples o les comptences du statisticien
permettent, partir de donnes exprimentales ou denqute, de quantier un phnomne
et lincertitude y arant.
Dans le cadre de cette thse, nous nous concentrons sur lvaluation du risque li la pr-
sence de contaminants chimiques dont la toxicit est avre et chronique. Le danger est dans
ce cas beaucoup plus sournois puisque cest lexposition chronique, i.e. sur une priode trs
longue, qui peut avoir des eets nfastes sur la sant des individus. Plus prcisment, pour
chaque contaminant chimique susceptible davoir ce type deet, les mdecins et toxicologues
dterminent une dose tolrable par lorganisme humain partir dtudes exprimentales chez
lanimal (Dybing et al., 2002) : si cette dose est dpasse tout au long de la vie ou du moins
sur une longue priode, lindividu est considr comme risque. Cette dose est appele Dose
Journalire Tolrable (DJT) ou Dose Hebdomadaire Tolrable (DHT) selon la priode consi-
dre et est exprime relativement au poids corporel de lindividu. Nous cherchons dans ce
travail essentiellement estimer la probabilit que lexposition un contaminant dpasse
cette dose tolrable et faisons rfrence cette quantit en terme de risque. Certains mde-
cins pensent en particulier pouvoir expliquer la recrudescence de maladies comme le cancer
comme une consquence de certains comportements alimentaires qui, dun point de vue nu-
tritionnel, ne semblent pourtant pas poser le moindre problme. Par exemple, lochratoxine
A, mycotoxine prsente en particulier dans les crales, le caf, le vin, les raisins et tous les
aliments " grains", est class comme un agent cancrigne et agirait sur le systme urinaire
(Boizic et al., 1995) : les aliments en cause ont pourtant pour la plupart une image plu-
tt positive en terme de sant. Les enjeux sont donc importants : la quantication prcise
du risque est essentielle en vue de politiques de scurit sanitaire ecientes. On pourra en
particulier sintresser limpact de normes toxicologiques sur certains aliments ou de re-
commandations nutritionnelles : est-ce que le fait de limiter la contamination du vin, mesure
envisage par la Communaut Europenne, rduira de manire signicative le risque li
la prsence dochratoxine A? Est-ce quune campagne dinformation encourageant certaines
populations limiter leurs consommations de tel ou tel produit permettra de rduire de
manire signicative leur exposition? Autant de questions qui ncessitent le dveloppement
doutils statistiques adquats.
Lobjectif de ce chapitre introductif est de prsenter de manire gnrale le domaine dap-
plication et de synthtiser les principaux apports de cette thse, tant au niveau statistique
quau niveau du domaine dapplication. Nous dressons dabord un panorama de lanalyse
des risques alimentaires qui permettra de situer le contexte de ce travail. Nous prsentons
ensuite lensemble des donnes disponibles en France dans le cadre de lvaluation du risque
chimique qui nous intresse plus particulirement, quil sagisse de donnes de consomma-
tion alimentaire ou de contamination des aliments. Nous dcrivons ensuite les direntes
mthodes usuelles dvaluation de lexposition un risque alimentaire avant de prsenter les
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
1.1. LANALYSE DE RISQUE ALIMENTAIRE 17
principaux rsultats de la thse, chapitre par chapitre.
La plupart des travaux prsents ont fait lobjet dune publication ou sont en cours
de rvision pour des revues internationales. Nous reproduisons ces articles dans un Tome
Annexe la thse, intitul Statistical Methods for Food Risk Assessmment.
1.1 Lanalyse de risque alimentaire
Lanalyse de risque, telle que dnie dans les comits dexperts
3
et par la FAO (Food
Agricultural Organization, www.fao.org), se dcompose en trois tapes :
Lapprciation du risque : il sagit de lidentication du danger, lestimation de la
probabilit de sa survenue et limportance des eets nfastes.
La gestion du risque : il sagit didentier les direntes mesures de diminution du
risque pralablement apprci et de quantier, en incluant les incertitudes arentes,
la rduction de risque selon chaque scnario an de dterminer des solutions juges
acceptables. Ces mesures peuvent prendre plusieurs formes : introduction de teneurs
maximales en contaminant sur certains aliments, retrait du march de certaines den-
res, recommandations nutritionnelles... Dans ce cadre, les impacts conomiques de
telles mesures sont tudies et mis en balance avec les rductions de risque attendues.
La communication sur le risque : elle peut sappliquer tout moment de lanalyse de
risque entre les responsables de lestimation du risque, les responsables de la gestion
du risque et les autres parties intresses (milieux professionnels, consommateurs).
Ce processus peut tre appliqu divers types de risques ou de bnces mais nous
ciblerons plus particulirement les risques alimentaires dans la suite.
Lapprciation du risque, souvent appele valuation du risque, a fait lobjet dun numro
spcial de Food and Chemical Toxicology (Vol. 40, n
2et 3, mars 2002) auquel le lecteur

pourra se rfrer pour une description plus dtaille. Elle suit galement un schma simple
o plusieurs questions doivent tre traites :
lidentication du danger (Barlow et al., 2002) et la caractrisation du danger (Dybing
et al., 2002)
Il sagit didentier les couples aliments-pathognes pour lesquels existent un danger,
i.e. pouvant provoquer des eets nfastes sur la sant et dtudier les mcanismes
daction du toxique ainsi que sa cintique dans lorganisme (absorption, mtabolisme
et limination). Ceci requiert des techniques de toxicologies in vitro ou in vivo chez
3
Plusieurs comits dexperts se runissent tant au niveau national ou international pour traiter de ces
questions de risque alimentaires. Citons pour la France, lAgence Franaise de Scurit Sanitaire des Aliments
(AFSSA) ; pour lUnion Europenne, lAutorit europenne de scurit des aliments (EFSA pour European
Food Safety Authority) et les comits internationaux dexperts appels par la commission Codex Alimenta-
rius, cre en 1963 par lorganisation des nations unies pour lalimentation et lagriculture (FAO de langlais
pour Food Agricultural Organization) et lorganisation mondiale de la sant (OMS ou WHO de langlais
pour World Health Organization) : le JECFA (Joint FAO/WHO Expert Committee on Food Additives
and contaminants) qui traite les risques lis aux additifs et aux contaminants chimiques, le JMPR (Joint
FAO/WHO Meetings on Pesticide Residues) qui value le risque li aux rsidus de pesticides et le JEMRA
(Joint FAO/WHO Meetings on Microbiological Risk Assessment) qui traite le risque microbiologique. Nous
invitons le lecteur se reporter aux sites internet de ces dirents acteurs pour plus de dtails sur leurs rles
respectifs.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
lanimal. Il en rsulte des relations dose-rponse entre la dose ingre et le ou les eets
nfastes considrs ou plus simplement des doses tolrables par lorganisme, dabord
pour lanimal puis pour lhomme.
lvaluation de lexposition (Kroes et al., 2002) et la caractrisation du risque (Renwick
et al., 2003)
Il sagit de quantier lexposition des individus dune population donne lagent pa-
thogne tudi sur une priode susamment longue en comparaison des eets tudis.
Il sagit donc dvaluer la consommation des aliments incrimins et leur contamination
pour estimer lexposition. Il sagit ensuite de comparer lexposition aux doses tolrables
ou relations dose-rponse obtenues dans ltape de caractrisation du danger.
Cest cette dernire tape qui nous intresse principalement dans cette thse. En eet,
nous ne remettrons pas en cause le fait quil existe un danger, ni la dose partir de laquelle
les eets nfastes peuvent se produire, mais garderons toutefois lesprit la manire dont
cette quantit est dtermine an de relativiser les rsultats. En eet, les doses obtenues dans
ltape de caractrisation du danger sont ensuite transposes lhomme via des facteurs de
scurit intra et inter espces, parfois grossiers, qui laissent une grande incertitude autour
de ces valeurs toxicologiques de rfrence. Des travaux statistiques sont galement entrepris
dans les tapes didentication et caractrisation du danger (Edler et al., 2002), notamment
pour le calibrage de relations dose-rponse.
On peut distinguer et parfois opposer plusieurs types de risques.
Dabord, selon que les eets nfastes se produisent peu de temps aprs une ingestion
ponctuelle forte dose ou quils se manifestent plusieurs annes plus tard aprs des ingestions
rptes faible dose. On parle respectivement de risque aigu (acute en anglais) et de risque
chronique (Carriquiry et al., 1990). Un risque aigu typique est par exemple la listriose ou
autre toxi-infection alimentaire dont lagent pathogne est bactrien. Un exemple simple
de danger dans le cadre du risque chronique est le dveloppement de cancers. La cause
alimentaire de ce type de danger est souvent dicile prouver du fait de leur caractre
multifactoriel. Lune des particularits de lanalyse dun risque chronique est que les doses
tolrables par lorganisme sont en gnral dtermines pour une vie entire par extrapolation
dexpriences ralises in vivo chez le rat par exemple. La dicult majeure est alors de
quantier lexposition sur une vie entire...
On peut aussi opposer les risques chimiques (additifs alimentaires, contaminants, sub-
stances aromatisantes, migrants des emballages alimentaires et des rsidus de pesticides et
de mdicaments vtrinaires) aux risques microbiologiques (souches bactriennes, Jaykus,
1996). Lune des dirences majeures entre ces deux types de risque est quen milieu favorable
les bactries peuvent crotre (ou dcrotre) alors que la teneur en contaminant chimique dun
aliment est suppose stable au cours du temps, bien que variable selon laliment dans les deux
cas. Les donnes de contamination ne sont par consquent pas utilises de la mme manire :
par exemple, les rsultats de plans de surveillance, ralises sur laliment brut, peuvent tre
intgrs pour lvaluation dun risque chimique en utilisant des facteurs de recettes, alors
que dans lvaluation dun risque microbiologique, il faut valuer la teneur en bactries au
moment de la consommation de laliment ou bien modliser la croissance / dcroissance tout
au long de la chane alimentaire (Haas et al., 1999).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
1.2. LES DONNES DISPONIBLES EN FRANCE ET LEURS PARTICULARITS 19
Dans le cadre de la thse, nous nous sommes principalement intresss au risque chronique
li la prsence de contaminants chimiques. Cependant, pour certains rsidus de pesticides,
on peut la fois tudier des risques chroniques et aigus ; de mme, bien que les risques
microbiologiques soient principalement aigus, des thmatiques de recherche mergent quant
au risque ou bnce de long terme li labsorption rgulire de faibles doses de bactries.
1.2 Les donnes disponibles en France et leurs parti-
cularits
Les objets principaux du statisticien dans le cadre de lvaluation de risque alimentaire li
la prsence de contaminants chimiques dans les aliments sont les donnes de consommation
ainsi que les analyses prcisant la teneur en contaminant pour ces mmes aliments, appeles
donnes de contamination. Une bonne connaissance de ces donnes est indispensable an de
pouvoir proposer les modlisations adquates et dterminer si les hypothses du modle choisi
sont bien vries empiriquement. Ce sont mme souvent les caractristiques des donnes
qui guident les recherches de modle. Etant amens utiliser ces donnes dans tout le corps
de la thse, nous avons dcid de les prsenter globalement dans cette introduction.
1.2.1 Consommation alimentaire des individus
La consommation alimentaire est value de plusieurs manires. Quatre types de donnes
sont en gnral utiliss :
Les donnes de production permettent davoir une ide des quantits moyennes
consommes : ce type de donnes tend surestimer la consommation individuelle
relle mais a lavantage dtre disponible pour la plupart des pays. La FAO les uti-
lise pour dterminer des rgimes alimentaires types pour les direntes rgions du
monde (voir http ://www.who.int/foodsafety/chem/gems/en/index.html pour plus de
dtails). Cinq rgimes (probablement 13 trs bientt) ont t mis en place pour pro-
mouvoir et faciliter lvaluation de certains risques chimiques.
Les enqutes de mnages sont de deux types : les premires sintressent plus
la dpense (recueil de tickets de caisse de supermarchs par exemple) et les secondes
recueillent aussi les quantits achetes (comme les donnes du panel franais SECODIP
dcrites dans lannexe 2.A.2). Serra-Majem et al. (2003) ont montr que ce type de
donnes peut donner une bonne ide des quantits consommes (pour le Canada et
lEurope) bien que la consommation de certains aliments soit en gnral sous value
(poisson, viande, lgumes frais ou secs) ou survalue (sucres, crales).
Les enqutes individuelles sont principalement de deux types : celles demandant
lenqut de noter chaque aliment consomm (carnets) et celles faisant appel leur
mmoire (mthodes de rappel). Les carnets de consommations alimentaires sont remplis
par les enquts pendant un ou plusieurs jours (sept pour lenqute INCA dcrite
en annexe 2.A.1). Les mthodes de rappel consistent interroger lindividu sur ses
consommations passes, celles dune journe (rappel de 24h) ou bien plus globalement
les habitudes de consommations (questionnaire de frquence).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Enn, les repas dupliqus permettent dobtenir des donnes prcises sur la com-
position des aliments ingrs mais donnent moins dinformation sur le comportement
alimentaire proprement dit.
En ce qui concerne lvaluation du risque alimentaire, lidal est bien sr de disposer de
donnes de consommation individuelle prcises sur une priode assez longue. En eet,
ds que lon sintresse des expositions chroniques, cest la consommation individuelle de
long terme qui importe. Il nexiste actuellement pas de donnes de ce type en France. Une
autre caractristique importante est la donne du poids corporel des individus ncessaire
dans loptique de la comparaison de lexposition la DJT/DHT, dose tolrable exprim en
jg ou ng de contaminant par kilogramme de poids corporel par priode (jour ou semaine).
Un panorama des donnes franaises de consommation est fourni dans lannexe 2.A.
Dans les applications de cette thse, nous utilisons principalement lenqute individuelle
de consommation alimentaire (INCA, 1999) ou les donnes dachats des mnages du panel
SECODIP (annes 1996 2001).
Les donnes INCA (CREDOC-AFSSA-DGAL, 1999) fournissent le dtail de lensemble
des consommations de 3003 individus sur une semaine ainsi que le poids corporel des indi-
vidus. Ceci fait de cette base de donnes une source prcieuse pour lvaluation du risque
alimentaire et seront utilises dans les chapitres 2, 3 et 4. Elle prsente cependant de mul-
tiples biais principalement dus la courte dure de lenqute et lutilisation de la mthode
des quotas pour la slection des individus (Deville, 1991, pour une critique de ces mthodes).
Les donnes SECODIP (Socit dEtudes de la Consommation, de la DIstribution et de
la Publicit, qui sappelle dornavant TNS Secodip, http ://www.secodip.fr) sont constitues
des achats alimentaires hebdomadaires (quantits et prix) de mnages franais sur des p-
riodes longues (en moyenne quatre ans). Ces donnes permettent donc dvaluer le comporte-
ment alimentaire de long terme et sont trs utilises par les conomistes de la consommation
pour modliser les dcisions de consommation. Elles ne permettent cependant pas dtudier
le rgime alimentaire total du fait de lexistence de deux sous-panels disjoints nenregistrant
pas les mmes types dachats et de lexclusion de lautoconsommation et de la restauration
hors foyer. Dans le cadre de lvaluation de risque, elles prsentent des inconvnients ma-
jeurs : les quantits sont agrges au niveau des mnages dont on connat la composition en
termes dge et de sexe et les poids corporels des individus ntaient pas demands jusquen
2001. Nous dveloppons dans le chapitre 5 un outil permettant de dcomposer ces donnes
mnage en donnes individuelles en vue de quantier le risque de long terme.
1.2.2 Contamination
Les donnes de contamination sont trs htrognes. Elles sont constitues de diverses
sries danalyses (plans de contrle) eectues par la Direction Gnrale de lAlimentation
(DGAL) et la Direction gnrale de la Concurrence, de la Consommation et de la Rpression
des Fraudes (DGCCRF) ou encore par des oces nationales interprofessionnelles de lires
agro-alimentaires comme lONIVINS (pour le vin) ou par des instituts de recherches spcia-
liss (IFREMER pour les produits de la mer) ou par des centres techniques... Dans certains
cas, comme, par exemple, pour des contaminants encore peu tudis en France, on ne dis-
pose que de valeurs moyennes ou bien dintervalles de contamination sur dirents aliments
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
1.2. LES DONNES DISPONIBLES EN FRANCE ET LEURS PARTICULARITS 21
recueillis dans la littrature.
Lutilisation de donnes analytiques pose le problme du traitement de la censure (
gauche) des valeurs releves. En eet, de nombreux rsultats danalyses sont infrieurs la
limite de dtection ou de quantication. La limite de dtection (LOD) est dnie comme
tant la plus petite quantit dune substance examiner dans un chantillon, pouvant tre
dtecte mais non quantie comme une valeur exacte. La limite de quantication (LOQ)
est dnie comme tant la plus petite quantit dune substance examiner pouvant tre
dose dans les conditions exprimentales dcrites avec une justesse et une reproductibilit
dnies. Ces limites varient donc selon la technique analytique retenue et laliment sur lequel
est eectu lanalyse. Une donne de la forme "<LOD" est donc comprise entre 0 et la LOD;
de mme, une donne de la forme "<LOQ" est comprise entre 0 et la LOQ et rien nassure
quelle soit suprieure la LOD.
Les mthodes traditionnelles prconisent de remplacer ces valeurs censures sous la forme
"<LOD" ou "<LOQ" par les limites elles-mmes (scnario note H1), les limites divises par
2 (scnario note H2) ou zro (scnario note H3) selon la proportion de donnes censures
dans lchantillon. Les recommandations des experts de lOMS et de la FAO ce sujet sont les
suivantes : si lchantillon comporte moins de 60% de valeurs censures, il convient dutiliser
LOD/2 ou LOQ/2, sinon, il est recommand de raliser lvaluation de risque selon les deux
scnarios les plus extrmes : remplacement des donnes censures par les limites elles-mmes
ou par zro (GEMs/Food-WHO, 1995). Ces mthodes de substitutions peuvent avoir un
impact trs important sur lvaluation de risque bien que les valeurs des limites de dtection
et de quantication soient trs faibles. Des mthodes statistiques pour traiter ce problme
de censure gauche sont proposes dans le chapitre 4.
Dautres facteurs dterminant le niveau de contamination nal (dans lassiette) peuvent
tre introduits : pour de nombreux contaminants, le mode de prparation de laliment peut
faire varier le niveau de contamination. On peut donc introduire des facteurs prenant en
compte ce phnomne si les analyses sont eectues sur laliment brut (cest le cas des plans
de contrle de la DGCCRF et de la DGAL) ou bien mener des analyses sur les aliments tels
que consomms. En 2004, une telle tude, appele "Etude de lalimentation totale" (DGAL-
INRA-AFSSA, 2004) a t mene : les aliments sont achets dans les direntes enseignes
(supermarchs, piceries, hard discount) selon les parts de march quelles reprsentent et
sont ensuite prpars tel quils sont habituellement consomms pour tre analyss.
Pour protger le consommateur, des limites maximales de contamination (ML pour
Maximum Limit) peuvent tre imposes par des rglementations pour les aliments desti-
ns lhomme ou lanimal, aux niveaux national et international. Berg (2003) discute
par exemple de la manire de les xer pour les mycotoxines. En eet, ce sont souvent
les contraintes de production qui guident les dcisions plutt que la scurit alimentaires.
Lorsque de telles limites maximales existent, elles peuvent tre utilises pour une valuation
conservative des risques.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
1.2.3 Appariement des donnes de consommation et de contami-
nation
Reste ensuite apparier les donnes de consommation aux donnes de contamination,
cest dire faire correspondre les deux nomenclatures. Pour cela, il est souvent ncessaire
de crer des groupes daliments dont la contamination est similaire. Un point essentiel de ce
rapprochement de nomenclature est lutilisation de facteurs de recettes (processing) qui per-
mettent dattribuer une contamination des plats composs de plusieurs ingrdients (Counil
et al., 2005a; Verger et al., 2005). Le choix du nombre de ces groupes et des aliments les
constituant peut avoir une inuence importante sur le niveau dexposition et est souvent
dirig par le mode destimation retenu pour cette dernire. En eet, si lon souhaite dispo-
ser pour chaque groupe daliments dun nombre important danalyses, on aura tendance
agrger davantage des aliments semblables en termes de contamination. Cette question est
dicile et requiert souvent la comptence de spcialistes en toxicologie, en nutrition et en
sciences agro-alimentaires. Une tude de sensibilit ce choix a t mene pour les produits
de la mer, pour plus de dtails, se reporter Tressou et al. (2004a), article donn dans le
Tome Annexe.
1.3 Les mthodes usuelles dvaluation de lexposition
Pour un contaminant donn, notons 1 le nombre daliments vecteurs, C = (C
1
. .... C
1
)
la consommation dun individu quelconque de poids corporel . en chacun de ces aliments
et Q = (Q
1
. .... Q
1
) leur contamination. Lexposition au contaminant tudi de cet individu,
exprime en unit relative de poids corporel, est alors
1 =
1
j=1
Q
j
C
j
.
.
On omettra dans la suite le poids corporel en considrant directement les consommations
relatives, i.e. exprimes par kg de poids corporel. On retiendra donc que lexposition un
contaminant (ou dose ingre) est 1 =

1
j=1
Q
j
C
j
. o C = (C
1
. .... C
1
) est la consommation
relative.
En pratique, on ne dispose pas de la contamination de chaque aliment consomm (hormis
dans les tudes de repas dupliqus pour lesquelles de telles analyses peuvent tre menes), il
est donc ncessaire destimer la distribution de lexposition.
Quand les donnes ne sont disponibles quen version agrge, i.e. sous la forme, dune
part, dune moyenne de consommation par groupe de produit c
j
et du 95ime percentile
(P95), c
0.9
j
par exemple, et dautre part, dun indicateur de contamination par groupe de
produit, la contamination moyenne
j
par exemple, les valuateurs de risque ne construisent
pas une distribution dexposition mais donnent seulement :
un estimateur de lesprance de lexposition : 1 =

1
j=1
j
.c
j
,
un "estimateur" de lexposition dun fort consommateur de lun des produits : par
exemple, lexposition des forts consommateurs des aliments du groupe 1 est appele
"exposition au P95 de consommation des aliments du groupe 1" et est dnie par
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
1.3. LES MTHODES USUELLES DVALUATION DE LEXPOSITION 23
1
(1)
0.95
=
1
.c
0.9
1

1
j=2
j
.c
j
.
Ce type de calcul "grossier" est quali de "dterministe" ou "point estimate" au niveau
international. Il est utilis dans une premire approche, le plus souvent conservative, de
quantication du risque. En eet, si les "estimateurs" de lexposition obtenus en utilisant
des contaminations relativement leves sont trs faibles en comparaison des doses tolrables
par lorganisme, il nest pas utile de proposer des modles plus labors. Une telle pratique
semble toutefois discutable.
1.3.1 Construction de la distribution dexposition
Le choix de la procdure de construction de la distribution de lexposition un conta-
minant dpend principalement des donnes disposition. Une synthse des mthodes dva-
luation usuelles de lexposition est propose dans Kroes et al. (2002).
Pour simplier, si 1 dsigne le nombre daliments (ou groupes daliments) supposs conta-
mins, trois cas de gures se prsentent :
1. Les consommations et contaminations sont sous forme agrge, typiquement une moyenne
et un cart-type de consommation et de contamination de chaque aliment j = 1. ...1.
2. Les contaminations, plus rares, sont sous forme agrge et une enqute de consomma-
tion fournit les consommations individuelles dtailles de chaque aliment j pour un
nombre : dindividus
3. Les consommations et les contaminations sont disponibles sous forme dtaille : pour
chaque aliment j, plusieurs teneurs en contaminant ont t mesures.
Lhypothse dindpendance entre consommation et contamination nest gnralement
pas remise en cause dans le cas de contaminants chimiques puisque la contamination dun
aliment nest pas conditionnel au comportement des consommateurs. De plus, les contami-
nations de deux produits sont supposes indpendantes. Par contre, les consommations de
plusieurs aliments prsentent une structure de dpendance complexe.
Dans le cas 1, pour tenir compte des deux sources de variabilit que sont la consommation
et la contamination, les valuateurs de risque utilisent des mthodes qualies de param-
trique. Elles consistent en lajustement de lois paramtriques usuelles pour approcher les
distributions de consommation et de contamination.
Pour les contaminations, la loi lognormale est la plus utilise bien quelle sajuste mal
aux queues de distributions. Pour remdier cela, des solutions comme lutilisation de lois
paramtriques tronques ou la combinaison de plusieurs lois paramtriques direntes (par
exemple, pour la tendance centrale et la queue de la distribution) sont envisages (commu-
nication personnelle, P. Verger).
Pour la consommation, si les distributions marginales de consommation sont estimes
paramtriquement, il faut ensuite procder un nouvel ajustement pour prendre en compte
la structure de corrlation de ces consommations. Ceci fait appel lestimation de copules
en dimension 1. avec 1 potentiellement grand. La mthode dIman & Conover (1982) men-
tionne dans Gauchi & Leblanc (2002) et Albert & Gauchi (2002) consiste simuler les
distributions de consommation selon les ajustements marginaux pralablement eectus et
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
rordonner les chantillons simuls de sorte que la structure de corrlation des consom-
mations soit respecte (utilisation de copules normaux Nelsen, 1999). Une autre solution est
dutiliser une distribution log-normale multidimensionnelle, relativement simple simuler
ds que la matrice de variance-covariance des consommations est connue mais qui sadaptera
mal la prsence de multiples zros.
La distribution de lexposition est alors approche par des simulations de type Monte
Carlo. Lintroduction de ces mthodes, couramment utilises dans les domaines de la phy-
sique, chimie, conomie, est beaucoup plus rcente dans le domaine de lvaluation de risque
(Finley et al., 1994). Si ,
C
est la densit multidimensionnelle des vecteurs de consommations
et que ,
Q
1
. . ,
Q
T
sont les densits (unidimensionnelles) des contaminations, la distribu-
tion ,
1
de lexposition est une fonctionnelle de ,
C

j
,
Q
. Elle est approche en tirant

alatoirement un grand nombre 1 de valeurs selon ,
1
.
Dans le cas 2, lexposition peut tre construite en considrant un niveau xe de conta-
mination pour chaque aliment ou groupe daliments. Ce niveau est dtermin partir des
donnes de contamination observes : il peut sagir de la moyenne, de la mdiane pour avoir
une estimation raliste de lexposition ou bien encore dun percentile lev de contamination
(le P95 ou le P99) pour obtenir une valeur dexposition "au pire des cas" et avoir une vision
plus conservative.
Si c
i
j
dsigne la consommation en produit j de lindividu i exprime relativement son
poids corporel (consommation relative) et
j
dsigne le niveau x de la contamination pour
laliment j. lexposition de lindividu i est
1
i
=
1
j=1
j
c
i
j
.
Lestimateur de la distribution de lexposition pour une population de taille : est la fonction
de rpartition empirique des expositions ainsi construites, dnie par
1
a
(r) =
1
:
a
i=1
1l (1
i
_ r) .
Cette approche est appele "distributionnelle" au niveau international. Cependant dans
la mesure o le niveau de contamination est suppos x comme dans le calcul "dterministe"
ci-dessus, le terme de "dterministe" est celui que nous avons le plus souvent retenu dans
cette thse. Ceci constitue un exemple des discussions sans n sur le vocabulaire quil convient
de xer au mieux dans ce cadre pluridisciplinaire.
Par ailleurs, toujours dans le cas 2, la variabilit des donnes de contamination peut de
nouveau tre prise en compte en utilisant les distributions paramtriques, notes prcdem-
ment ,
Q
1
. . ,
Q
T
et une simulation de type Monte Carlo. On qualie ce type de modle de
semi-paramtrique. Dans ce cas, les simulations de type Monte Carlo peuvent tre relative-
ment fantaisistes et font apparatre des confusions entre approximation de type Monte Carlo
et bootstrap. En eet, une approximation de la distribution dexposition consiste tirer
alatoirement avec remise 1 ( :) vecteurs de consommation (tirage selon la fonction de
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
1.3. LES MTHODES USUELLES DVALUATION DE LEXPOSITION 25
rpartition empirique des consommations) et aecter chaque consommation c
i
j
une valeur
de contamination tire selon ,
Q
. Un intervalle de conance pour la moyenne dexposition

peut alors tre obtenu par bootstrap en rptant ` fois lapproximation prcdente.
Dans le cas 3, si 1
j
analyses sont ralises pour estimer la teneur en contaminant du
produit j et que
j
)
dsigne la teneur en contaminant du produit j lors de la ,

j
-me analyse
(,
j
= 1. .... 1
j
. j = 1. .... 1). lestimateur de la distribution de lexposition dune population
de taille : est la fonction de rpartition des expositions pouvant rsulter de la combinaison
de tels niveaux de contamination et des consommations c
i
j
observes. Elle scrit en fait
simplement
1
a,1
1
,...,1
T
(r) =
1
A
a
i=1
1
1
)
1
=1
...
1
T
)
T
=1
1l
_
1
j=1
j
)
c
i
j
_ r
_
. (1.1)
o A = :
j
1
j
.
Cet estimateur plug-in de la distribution dexposition ne peut en pratique tre calcul car
A est trop grand (il vaut 10
21
dans notre application sur lochratoxine A). La distribution
de lexposition est alors approche par une simulation de type Monte Carlo de taille 1.
Celle-ci consiste procder un tirage alatoire avec remise des consommations dune part
et des contaminations dautre part. Lestimateur de la distribution dexposition est alors de
la forme
1
1
(r) =
1
1
(i,)
1
,...,)
)/
1l
_
1
j=1
j
)
c
i
j
_ r
_
.
o / dsigne un sous ensemble dindices (i. ,
1
. .... ,
j
) de taille 1 << A.
Cet estimateur est dirent de lestimateur non paramtrique propos par Gauchi &
Leblanc (2002) utilisant les lois marginales des consommations.
1.3.2 Grandeurs dintrt et risque chronique
Quand la distribution dexposition est dtermine, plusieurs grandeurs peuvent tre cal-
cules : la moyenne, lcart-type, la mdiane, tous les percentiles et en particulier les forts
percentiles, le minimum, le maximum... Les plus utilises sont la moyenne et le 9
` cnc
per-
centile (P95) qui permettent de rsumer simplement la distribution.
Comme le risque concerne les expositions trop leves, on sintresse essentiellement la
probabilit de dpasser un certain seuil de toxicit d. Ir(1 d). Dans le cas de contaminants
chimiques pour lesquels le risque est chronique, des doses journalires et hebdomadaires to-
lrables (DJT, DHT) sont dtermines en extrapolant les rsultats trouvs sur les animaux.
Ces DJT/DHT sont des doses pour une vie entire du fait du caractre chronique du risque :
comme la consommation de long terme est trs dicile estimer, nous ne pouvons valuer
directement une exposition de long terme et comparons donc une exposition de court terme
(une semaine) ces doses tolrables. De ce fait, la probabilit de dpasser la DJT/DHT
doit tre perue plus comme un indice de risque que comme une mesure du danger rel.
Certains travaux (Nusser et al., 1996; Wallace et al., 1994; Homann et al., 2002) proposent
des modlisations permettant destimer une consommation de long terme partir de me-
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
sures de court terme par rduction de la variance intra-individuelle. Ces mthodes utilisent
une transformation normalisante pralable (par exemple, de type Box-Cox) et une analyse
de la variance. Cependant elles ne prennent pas en compte lvolution des comportements
de consommation au cours du temps mais lissent la variabilit de la consommation journa-
lire. Dans le cadre de cette thse, nous navons pas appliqu de telles mthodes. Il semble,
daprs les travaux de Counil et al. (2005a), que lutilisation dune enqute de 7 jours permet
galement de lisser de manire importante les consommations extrmes (faibles ou leves).
Nous travaillons davantage dans loptique dune modlisation dynamique du phnomne en
proposant dutiliser des donnes mnage de long terme (au moins une anne) dcomposes.
Ce type dindividualisation nous conduira une nouvelle notion dexposition et de risque de
long terme (Chapitre 5).
1.4 Principaux rsultats de la thse
Le but essentiel de cette thse est de fournir, dans divers cadres, une valuation statistique
du risque dni comme la probabilit de dpasser une dose tolrable.
Un premier travail (Chapitre 2) consister modliser les queues de distributions de
lexposition un contaminant en ayant recours la thorie des valeurs extrmes. Ceci nous
a permis de quantier des risques trs faibles. Cependant, les contaminants sur lesquels les
attentes de modlisation sont les plus importantes, prsentent des risques qui ne relvent
pas de la thorie des valeurs extrmes. Les mthodes plus classiques destimation dans ce
cadre utilisent les distributions dexposition construites par tirages alatoires au sein des
donnes de consommations et des donnes de contamination dcrites plus haut. Un des
objets de cette thse a t de valider par la thorie asymptotique ces mthodes de calcul trs
utilises en pratique. Nous avons montr que lestimateur de la probabilit de dpasser une
dose tolrable scrit comme une U-statistique gnralise incomplte. Cette constatation
permet de driver les proprits asymptotiques de lestimateur plug-in du risque et dobtenir
des mesures dincertitude (chapitre 3). An de tenir compte de la censure gauche des
donnes de contamination, nous avons alors dvelopp des mthodes destimation dans le
cadre de la thorie des modles de dure (chapitre 4). Cependant, la dnition du risque
comme la probabilit de dpassement de la dose tolrable est discutable du fait que la
dose tolrable est dnie sur vie entire et que nous utilisons principalement des donnes de
consommation sur une semaine (INCA). Comme les seules donnes disponibles en France sur
le long terme (quelques annes) sont agrges au niveau des mnages, nous avons mis au point
une technique de dcomposition de donnes mnage en donnes individuelles an destimer
lexposition de long terme. Cette mthode permet de proposer une nouvelle dnition du
risque de long terme (chapitre 5).
Nous discutons brivement les principaux rsultats obtenus dans les dirents chapitres
de la thse.
1.4.1 Les risques alimentaires : un phnomne extrme ?
Trs utilise en hydrologie et en nance, la thorie des valeurs extrmes (EVT) permet
de prdire des vnements rares non observs, ou partiellement observs, et de quantier des
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
1.4. PRINCIPAUX RSULTATS DE LA THSE 27
phnomnes extrmes (Embrechts et al., 1999; Reiss & Thomas, 2001; Beirlant et al., 2004).
Loriginalit de ce chapitre rside davantage dans lapproche propose pour lvaluation des
risques faibles que dans son contenu mathmatique. Ce travail sera prochainement publi
dans un ouvrage sur lvaluation des risques alimentaires.
Lestimateur plug-in (ou empirique) de cette probabilit de dpassement dun seuil ne
peut tre infrieur 1,: si : est la taille de lchantillon des expositions individuelles.
Les enqutes de consommation individuelle ne portant au plus que sur quelques milliers de
consommateurs, ceci rend impossible la quantication de risques trs faibles, de lordre de
10
6
ou 10
bien que ce type de risque puisse tre inacceptable lchelle de la population

entire. La mthode dvaluation du risque propose consiste ajuster une distribution de
type Pareto la queue de distribution de lexposition, pralablement construite partir
de donnes de consommation et de contamination. On fait dabord lhypothse que pour r
susamment grand
1(1 r) = Cr
1
.
o A est la variable alatoire reprsentant lexposition un contaminant, C est une constante
et est linverse de lindice de Pareto qui sinterprte directement comme un indice de risque.
Lestimateur le plus frquemment utilis dans ce cadre est lestimateur de Hill (1975). Si
1
1
. .... 1
a
sont les expositions un contaminant de : individus indpendants alors lestima-
teur de Hill scrit
H
I,a
=
1
/
I
i=1
log(1
ai1,a
) log(1
aI,a
).
o / dsigne le nombre de valeurs extrmes retenir.
En pratique, cet estimateur de varie fortement en fonction de / ; son biais tant impor-
tant pour / petit et sa variance grande pour / grand. Ceci peut en partie sexpliquer par le
fait que les donnes ne suivent pas strictement une loi de Pareto mais sont perturbes par
une fonction dite fonction variation lente 1 (typiquement un log, un log itr). Lhypothse
initiale sur la queue de distribution de lexposition prend alors la forme, pour r susamment
grand
1(1 r) = Cr
1
1(r).
o 1 est une fonction variation lente.
Lintroduction de la fonction variation lente nest pas simplement un jouet math-
matique, qui rendrait les aspects techniques plus compliqus (et donc plus attractifs) aux
chercheurs. Des fonctions variation lente peuvent apparatre trs naturellement lorsquon
modlise par exemple des phnomnes agrgs ou que lon considre des mlanges de popu-
lations ayant des risques dirents (Feuerverger & Hall, 1999).
En tenant compte de cette fonction variation lente, nous avons adapt une technique de
dbiaisage de lestimateur de Hill en considrant des classes de fonctions de type puissance
(1 1r
o
) ou logarithme ((log r)
0
). Cette technique, inspire de Beirlant et al. (1999) et
Feuerverger & Hall (1999), a t mise en oeuvre sur des donnes simules et permet de
dterminer un estimateur de de biais plus faible que lestimateur de Hill. Notre rsultat
est tabli en montrant que les espacements en log, renormaliss, 2
i
= i(log(1
ai1,a
)
log(1
ai,a
)) se comportent asymptotiquement comme des variables alatoires exponentielles
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
dont la moyenne dpend de et des paramtres de la fonction variation lente considre.
Nous estimons alors par maximum de vraisemblance, pour chaque valeur de /. les dirents
paramtres du modle.
Cette mthode permet en outre de dterminer le nombre de valeurs extrmes qui forment
la queue de la distribution par un arbitrage entre rduction du biais et rduction de la
variance de lindice de Pareto. Les deux mthodes de correction de biais sont compares
sur des donnes simules selon plusieurs hypothses. Nous montrons alors empiriquement
que lintroduction dune fonction variation lente de type puissance permet de corriger
signicativement le biais. Nous parvenons ainsi quantier des risques trs faibles, 1(1 d),
infrieurs 1,:. ds que la dose tolrable d appartient la queue de distribution. De plus,
lestimation des "Value at Risk" (Embrechts et al., 1999), dnies comme linverse de la
fonction de rpartition en un point proche de 1, permet danalyser prcisment les queues
de distribution dexposition.
Nous proposons ensuite deux outils permettant de caractriser les populations risque.
Le premier bas sur un modle de type probit(Gouriroux, 1989) permet de dterminer les
facteurs favorisant lappartenance la zone risque. Par ailleurs, la modlisation des excs
au del dun seuil dexposition selon une loi de Pareto gnralise dont lindice dpend de
covariables permet de mettre en vidence les dterminants du risque. Lestimation de ce type
de modle est ralise par des techniques de maximum de vraisemblance.
En guise dillustration des possibilits et limites des outils proposs, nous prsentons les
analyses de risques lis lacrylamide dans lalimentation totale et au mthylmercure dans les
produits de la mer. Le cas de lacrylamide montre comment la mthode dveloppe permet
de quantier un risque trs faible lorsque lestimateur plug-in de la probabilit de dpasser
un seuil est nul. Nous montrons galement sur lexemple de lacrylamide que la comparaison
des queues de distribution dexposition de direntes sous-populations permet une analyse
plus ne que la comparaison des percentiles levs (P95). Ainsi les "Value at Risk" dordre
1 sur un million sont maximales pour les enfants de 7 10 ans et trs leves galement
pour les hommes adultes dont le P95 dexposition nest pourtant pas trs dirent de celui
du reste de la population. Lvaluation du risque li au mthylmercure illustre une limite
de lutilisation de la mthode propose : comme la DHT nappartient pas la queue de
distribution dtermine par le modle, lestimation de la probabilit de dpasser la DHT par
ces outils extrmes nest pas approprie. Par ailleurs, les outils permettant de caractriser les
populations risque ont permis de montrer, par exemple, que les retraits, cadres suprieurs
et employs sont signicativement plus exposs au mthylmercure que les autres CSP.
Lapplication de ces mthodes issues de lEVT lvaluation de risque li la prsence
de mtaux lourds dans les produits de la mer a fait lobjet dune publication dans un journal
de Toxicologie (Tressou et al., 2004a).
1.4.2 Evaluation empirique des risques
Le caractre fortement multidimensionnel des donnes de consommation rend lestimation
de la probabilit de dpassement dune dose tolrable plus dicile quil ny parat. En eet, la
consommation alimentaire est un phnomne prsentant de fortes corrlations, positives ou
ngatives entre certains aliments (qui peuvent, en termes conomiques, tre complmentaires
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
ou substituts : le th et le caf sont par exemple des aliments substituts alors que le caf et le
sucre sont plutt complmentaires). Les consommations des dirents aliments ne peuvent
donc tre modlises marginalement. Par ailleurs, la prsence de nombreux rgimes alimen-
taires (produits consomms ou non) rend la modlisation paramtrique des consommations
impossible.
An de quantier les risques plus levs, par exemple pour lochratoxine A prsente dans
un grand nombre daliments, nous avons choisi un cadre totalement non paramtrique qui
conduit considrer des estimateurs de type plug-in (cf. (1.1)).
En supposant que les contaminations des dirents aliments sont indpendantes entre
elles et indpendantes de la consommation des aliments, nous montrons que cet estimateur
empirique de la probabilit dune dose tolrable d scrit comme une U-statistique gnralise.
Lestimateur plug-in de la probabilit de dpasser une dose d prend en eet la forme
o
o
(T
cnj
) = P
T
cr
_
1
j=1
Q
j
C
j
d
_
=
1
A
a
i=1
1
1
)
1
=1
...
1
T
)
T
=1
1l
_
1
j=1
j
)
c
i
j
d
_
.
o T
cnj
dsigne la distribution empirique jointe des consommations (C = (C
1
. .... C
1
)) et
des contaminations (Q
j
. j = 1. .... 1) dj dnie en (1.1) .
Cette classe de statistique introduite dans les annes 40 par P. R. Halmos et W. Hoeding
comprend un grand nombre de statistiques usuelles (moyenne, variance, statistiques de tests
et autres estimateurs largement utiliss). La thorie sur les U-statistiques (Hoeding, 1948;
Lee, 1990) fournit des outils unis et puissants pour ltude de lestimateur plug-in. En
particulier, nous obtenons le comportement asymptotique de lestimateur plug-in du risque
et la validit du bootstrap pour lestimation de sa variance. Sous certaines conditions sur les
tailles des chantillons, on peut montrer que
`
12
[o
o
(T
cnj
) o
o
(T)[
.o
A
_
0. o
2
_
.
o ` = :
j
1
j
, T dsigne la distribution jointe des consommations et des contaminations
et o
2
une variance que nous estimons par des techniques de jackknife et de bootstrap (voir
Efron & Tibshirani, 1993, pour une introduction) reposant sur la dcomposition de Hoeding
des U-statistiques gnralises (Hoeding, 1961).
En pratique, seule la version incomplte de cette U-statistique (voir Blom, 1976, pour un
descriptif des proprits des U-statistiques incompltes) peut tre calcule en ayant recours
une simulation de type Monte Carlo : vecteurs de consommations et valeurs de contamination
sont indpendamment tirs dans les distributions empiriques des donnes de consommation,
dune part, et de contamination, dautre part. Lestimateur du risque scrit alors
o
o,1
(T
cnj
) =
1
1
(i,)
1
,...,)
)/
1l
_
1
j=1
j
)
c
i
j
d
_
.
o / dsigne un sous ensemble dindices (i. ,
1
. .... ,
j
) de taille 1 << A.
Nous montrons que les comportements asymptotiques des versions compltes et incom-
pltes de la U-statistique gnralise dirent peu ds que le nombre de tirages 1 est su-
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
samment grand, en particulier devant la taille des chantillons disponibles de consommation
et de contamination.
Les thormes asymptotiques proposs et le recours aux U-statistiques incompltes per-
mettent de proposer des choix raisonnables du nombre de simulations eectuer. En eet, la
plupart des logiciels proposant des valuations de risque similaires encouragent lutilisation
dun nombre trs important de simulations qui ne sont pas toujours indispensables. Nous
proposons galement plusieurs mthodes de construction dintervalles de conance fondes
sur deux estimateurs de la variance asymptotique : (i) un estimateur de type bootstrap (ii) un
estimateur de type jackknife reposant sur la dcomposition de Hoeding de la U-statistique
de dpart. Lestimateur (ii) est obtenu en utilisant le fait que la variance o
2
scrit comme
une somme pondre des variances des gradients de la U-statistique. Comme les gradients
dordre 1 sont des U-statistiques simples, leur variance peut facilement tre estime par ja-
ckknife en utilisant des estimateurs de ces gradients (cf. Arvesen, 1969). Lutilisation dun tel
estimateur de o
2
permet de mieux comprendre comment la variance du risque se dcompose.
Nous montrons ensuite que les intervalles de conance de type "basic bootstrap" sont
susants et que le recours des mthodes t-percentiles (studentisation de la statistique par
lcart-type issu de (ii)) namliore que peu les intervalles de conance en terme de probabilit
de couverture.
Ces outils ont t utiliss pour quantier le risque li la prsence dochratoxine A dans
les aliments. Nous montrons que les enfants sont la population la plus risque. Nous tudions
galement limpact de lintroduction de limites maximales de contamination pour le vin ou
les crales (prconises par lUnion Europenne) et concluons labsence dune rduction
signicative du risque. Cependant les estimations de risque obtenues restent conditionnelles
au traitement des donnes censures pralablement eectu et ceci rduit considrablement
la puissance de loutil lors de comparaisons de populations ou lors de ltude de limpact de
mesures sanitaires. Nous proposons dans le chapitre suivant de modliser cette censure.
Ce travail a fait lobjet de deux publications : la premire dans une revue de Toxicologie
(Tressou et al., 2004b) et la seconde, plus technique, dans Biometrics (Bertail & Tressou,
2005)
Par ailleurs, dans le cadre dun travail sur la combinaison de sources de donnes par vrai-
semblance empirique (Crpet et al., 2005, non inclus dans le cadre de cette thse mais donn
dans le tome annexe), cette approche par les U-statistiques a permis de simplier lcriture
des contraintes du modle et le recours aux versions incompltes de ces U-statistiques a
rendu les calculs ralisables dans le cas multidimensionnel (plusieurs produits contamins
par la mme substance), la dcomposition de Hoeding permettant en eet de linariser
lestimateur du risque.
1.4.3 Modlisation de la censure des donnes de contamination
Lestimateur plug-in du risque dni dans la chapitre 3 dpend fortement de la mthode
de substitution des donnes de la forme "<LOD" ou "<LOQ" retenue. Nous proposons donc
dintgrer au modle prcdent la censure gauche des donnes de contamination.
Dans le cadre des modles de dure, la prise en compte de la censure alatoire (en gnral
droite) est possible grce lutilisation destimateurs de type Kaplan & Meier (1958).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Nous proposons par consquent destimer la distribution des donnes de contamination par
un estimateur de ce type.
Lestimateur plug-in du risque scrit alors comme une fonctionnelle des distributions de
consommation et de contamination. Il prend la forme
o(d) = Ir
e
T
(1 d) =
_
1l
_
1
j=1
j
)
c
i
j
d
_
d1
a
_
c
i
_
_
1
j=1
d1
1
,1A
(
_
j
)
_
_
.
o 1
a
dsigne la distribution empirique des : donnes de consommation et 1
1
,1A
lesti-
mateur de Kaplan Meier des 1
j
donnes de contamination pour le produit j, censures
gauche.
Cette fonctionnelle possde une proprit dHadamard direntiabilit qui permet luti-
lisation de la delta mthode fonctionnelle (von Mises, 1947; Gill, 1989; van der Vaart, 1998)
pour driver le comportement asymptotique de

o(d) partir de ceux des estimateurs des
distributions de consommation dune part (la distribution empirique des consommations) et
de contamination dautre part (les estimateurs de Kaplan Meier des contaminations). Nous
montrons que
_
`
_
o(d) o(d)
_
~ G
1A
1
(d).
o G
1A
1
(d) est une gaussienne centre dont la covariance peut se dcomposer en termes
dpendant de la distribution des consommations, dune part, et des distributions de conta-
mination, dautre part.
En pratique, nous avons de nouveau recours une simulation de type Monte Carlo pour
estimer cette quantit. Il sut en eet de tirer les valeurs de contamination selon lestima-
teur de Kaplan Meier des donnes (sous la forme dun couple "valeur mesure et indicatrice
de censure") plutt que selon la rpartition empirique des donnes traites de manire d-
terministe au pralable comme dans le chapitre prcdent.
Des intervalles de conance sont galement dtermins par bootstrap dans un premier
temps, puis par double bootstrap et mthodes t-percentile, comme dans le chapitre prcdent.
En prsence de censure, ces techniques de bootstrap requirent le rchantillonnage des
couples "valeur mesure et indicatrice de censure" (Efron, 1981; Akritas, 1986) et lestimation
rpte des 1
1
,1A
.
Les conclusions de ce travail sont trs similaires celles du chapitre prcdent en termes
techniques : les intervalles de conance de type "basic bootstrap" sont de nouveau retenus.
Comme prcdemment, nous proposons une validation de ces intervalles de conance sur
donnes simules et illustrons notre propos par lvaluation du risque relatif lochratoxine
A. Les enfants restent la population la plus sensible et nous parvenons ici prendre des
dcisions quant limpact de lintroduction de normes sanitaires sur certains produits ou
la comparaison de sous populations en saranchissant des traitements dterministes de la
censure.
Ce travail fait galement lobjet dun article, en cours de rvision (Tressou, 2005).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
1.4.4 Evaluation de lexposition individuelle de long terme partir
de donnes mnage
Toutes les techniques prsentes jusquici ont t appliques en utilisant les donnes de
consommation franaises INCA (Enqute nationale sur les consommations individuelles) qui
ne porte que sur sept jours de consommation. Bien quelles soient qualies de "reprsen-
tatives" de la population franaise, elles ne peuvent elles seules permettre lestimation de
la consommation de long terme. La seule autre source de donnes disponible et valuant
indirectement la consommation sur longue priode des Franais est le panel de donnes
SECODIP qui rpertorie les achats alimentaires hebdomadaires dun nombre important de
mnages. Le dfaut majeur de ces donnes est que lchantillon est constitu de mnages et
non dindividus proprement dits. En eet, mme si lon peut supposer que les achats alimen-
taires permettent dapprocher (du moins en partie) la consommation des aliments, ceux ci
ne donnent aucune information sur la rpartition de ces consommations entre les dirents
membres du mnage. Nous proposons donc une mthode de dcomposition des donnes m-
nage en donnes individuelles principalement fonde sur lhypothse que la structure dges
et de sexes des individus dun mnage est le facteur essentiel dterminant cette dcomposi-
tion. Cette question de la dcomposition apparat dans dautres domaines dapplication, voir
par exemple en conomie les travaux de Engle et al. (1986).
Inspire par les travaux de Chesher (Chesher, 1997, 1998), la mthode propose consiste
crire les quantits individuelles inconnues comme une fonction , de lge c
i,I
et du sexe
:
i,I
des individus (et ventuellement de certaines caractristiques socio-dmographiques n
i,I
ou du temps) et la quantit "mnage" comme la somme de ces fonctions pour les dirents
individus du mnage. Le modle le plus simple scrit alors
1
I
=
a
I
i=1
,(c
i,I
. :
i,I
)
i,I
.
o :
I
dsigne la taille du mnage.
Chesher (1997) utilise cette approche pour valuer les apports nutritionnels moyens par
ge et sexe. Il propose une estimation non paramtrique de cette fonction en considrant
lge comme une variable discrte et en supposant que les individus dun mme mnage sont
indpendants. Il propose par ailleurs de multiples corrections pour prendre en compte le
biais relatif lutilisation de donnes dachats des mnages qui ne sont quun proxy de la
consommation.
Pour lestimation de la fonction ,. nous proposons lutilisation de splines (de Boor, 1978;
Eubank, 1988; Green & Silverman, 1994) en considrant lge comme continu : le modle r-
sultant aprs sommation par mnage peut tre considr comme un modle mixte (Robinson,
1991; Ruppert et al., 2003). Il scrit en eet sous la forme
1
I
= A
I
, 2
I
n
I
.
o , est le paramtre des eets xes, n reprsente leet alatoire et
I
lerreur rsiduelle
rsultant des erreurs dapproximation au niveau individuel. Les vecteurs A
I
et 2
I
dpendent
des ges et sexes des membres du mnage /, du nombre dindividus le composant et ven-
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
tuellement dautres caractristiques sociodmographiques du mnage ainsi que de la liste de
noeuds utilises pour le spline.
Ce type de modle, trs bien dcrit dans Ruppert et al. (2003), est estim par maximum
de vraisemblance restreint (REML, Patterson & Thompson (1971)). Nous avons, dans un
premier temps, dcompos une quantit unidimensionnelle (exposition sur une anne) pour
chaque mnage en supposant les individus indpendants au sein dun mnage. Une modica-
tion de la structure de variance-covariance du modle mixte nous permet dintroduire de la
dpendance entre les individus dun mme mnage. La variance de lerreur rsiduelle
I
est
alors fonction de taille du mnage :
I
. Le test dindpendance entre les individus conduit au
rejet de lindpendance comme nous le pensions. Nous tudions ensuite certaines extensions
du modle de base
Dabord, nous introduisons certaines variables socio-dmographiques de manire li-
naire dans le modle individuel. Des tests de type rapport de vraisemblance nous
permettent de dterminer les covariables signicatives pour dcrire le phnomne.
Nous proposons ensuite dintroduire une dimension temporelle en dcomposant des
quantits multidimensionnelles prsentant une dpendance. Les expositions de chaque
semaine pour un mnage sont fortement corrles et la dcomposition de ces expositions
mnage en expositions individuelles impose une nouvelle modication de la structure
de variance-covariance du modle mixte.
Enn, nous montrons comment dcomposer la consommation de plusieurs produits : les
valeurs obtenues peuvent ainsi tre utilises dans une valuation non paramtrique de
lexposition un contaminant ou bien dans le cadre de lestimation des consommations
individuelles proprement dites.
Ces extensions requirent lestimation de structure de variance-covariance de plus en plus
complexes.
La mthode de dcomposition des donnes mnage, bien quimparfaite, permet dobtenir
des sries dapports hebdomadaires en contaminants pour chaque individu sur des priodes
relativement longues. On peut donc, partir de ces sries et destimations du poids corporel
des individus, identier les individus dont lexposition est durablement au dessus de la dose
tolrable et rendre ainsi plus pertinente la comparaison la dose tolrable gnralement
dtermine sur vie entire. Dautres proprits des contaminants chimiques sont alors
prendre en compte dans ce cadre dynamique : chaque contaminant est limin naturellement
du corps humain dans des proportions particulires. Par exemple, les toxicologues montrent
que, sans nouvel apport en mercure, il faut six semaines pour rduire de moiti la quantit de
mercure initialement prsente dans lorganisme dun individu (Smith & Farris, 1996). Cette
dure est appele la demie-vie du contaminant. Ce phnomne de dgradation progressive
du contaminant et la srie dexpositions individuelles hebdomadaires exprimes par units
de poids corporel, note ici (1
t
)
t=1,...,T
. incitent dnir une nouvelle quantit que nous
appelons "exposition cumule" un contaminant, note o
t
. Il sagit de la somme des apports
(1
t
) en contaminant, convenablement pondrs pour prendre en compte la dgradation, sur
une priode de temps choisie (t = 1. .... 1). Ainsi une date t xe, le poids des apports
courants 1
t
est de 1 et ceux des apports antrieurs (1
c
. : < t) sont infrieurs 1 et de plus en
plus faibles quand t : augmente. Si j dsigne le facteur dlimination ou dgradation, alors
on peut exprimer lexposition cumule la date t en fonction de celle de la date prcdente
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
par
o
t
= cxp(j)o
t1
1
t
.
Dautre part, les toxicologues attestent quaprs 5 ou 6 demie-vies du contaminant ltat
stationnaire est atteint : il faut donc sintresser aux valeurs dexpositions cumules pour t
susamment grand, on parlera alors dexposition de long terme. Cette quantit peut tre
compare lexposition de long terme de rfrence obtenue en cumulant des apports constam-
ment gaux la dose hebdomadaire tolrable convenablement pondrs. Un individu est alors
considr comme risque si son exposition de long terme dpasse la rfrence. Cette manire
de caractriser le risque de long terme est nouvelle et de ce fait inhabituelle pour les mdecins
et toxicologues, elle est actuellement en cours de validation auprs dexperts du domaine (A.
Renwick, J. Schlaer).
La quantication du risque de long terme relatif la prsence de mthylmercure dans les
produits de la mer. Ce travail fait lobjet dun article en collaboration avec Olivier Allais du
laboratoire de recherche sur la consommation (INRA-CORELA, Ivry sur Seine).
1.4.5 Finalisation informatique des recherches
De nombreux logiciels proposent des outils de calcul dexposition et fournissent des esti-
mateurs des grandeurs dintrt et des graphiques dcrivant la distribution de lexposition.
Citons par exemple le logiciel Monte Carlo Risk Assessment (MCRA, Boer et al., 2005)
dvelopp en collaboration par le RIKILT et Biometris (Universit de Wageningen, Pays-
Bas) qui permet la fois lvaluation des risques aigus et chroniques (en utilisant la mthode
Nusser et al. (1996)) ou encore le Central Risk & Exposure Modelling e-solution (CREME)
de lIEFS (Institute of European Food Studies) et du Trinity Centre for High Performance
Computing (Trinity College Dublin, Ireland) incorporant des procdures particulires pour
traiter le risque li aux migrants des emballages alimentaires.
Un logiciel (baptis CARAT pour Chronic & Acute Risk Assessment) a t dvelopp
au sein de lunit Mt@risk. Une partie des mthodes proposes dans cette thse (calcul
dterministe ou non paramtrique de lexposition, avec intervalles de conance par boots-
trap, Chapitre 3, modlisation de la censure des donnes de contamination, Chapitre 4) ainsi
quun systme daide au rapprochement des nomenclatures consommation et contamination
seront bientt disponibles via une interface JAVA. Ceci permettra de rendre accessible cer-
taines techniques de simulation usuelles des non-statisticiens ainsi que les outils spciques
dvelopps au sein de lunit.
A terme, les nouveaux outils (utilisation de la thorie des valeurs extrmes, Chapitre 2 ;
dcomposition de lexposition mnage en expositions individuelles et calcul de lexposition
de long terme, Chapitre 5) dvelopps dans le cadre de cette thse, ou dautres travaux,
constitueront des modules supplmentaires du logiciel.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Chapitre 2
Lvaluation des petits risques : la
thorie des valeurs extrmes
Le recours la thorie des valeurs extrmes parat naturel dans le cadre de lvaluation
des risques alimentaires. Ce sont en eet les individus forts consommateurs de produits trs
contamins qui constituent la population la plus risque. Trs utilise en hydrologie et en
nance, la thorie des valeurs extrmes (EVT) permet de quantier des vnements rares
non observs, ou partiellement observs (Embrechts et al., 1999; Reiss & Thomas, 2001).
Nous proposons dans ce chapitre dadapter des modles de type Pareto gnralis au cadre
de lvaluation du risque alimentaire. Ceci permet de quantier et caractriser le risque, en
particulier lorsquil est faible.
Dans une premire partie, nous rappelons brivement quelques lments thoriques es-
sentiels de la thorie des valeurs extrmes en insistant plus particulirement sur leur inter-
prtation en termes de risque alimentaire. Lindice de Pareto, intervenant dans ces modles,
sinterprte en particulier comme un indice de risque. Nous rappelons les estimateurs usuels
de cet indice de risque ainsi que leurs proprits. Le plus connu est lestimateur de Hill
(1975) : il prsente dans notre cadre un biais important essentiellement d au fait que cer-
taines sous-populations encourent des risques dirents.
Dans une deuxime section, nous montrons comment lintroduction de fonction variation
lente dans la queue de distribution permet de tenir compte de ce phnomne et dexpliquer
le biais des estimateurs usuels.
Dans une troisime section, nous tudions diverses mthodes de correction du biais de
lestimateur de Hill inspires de Beirlant et al. (1999) et de Feuerverger & Hall (1999). Nous
prsentons rapidement, dans le contexte des risques alimentaires, ces diverses mthodes de
correction de biais qui sont fondamentales pour obtenir des estimateurs de risque prcis.
Nous montrons sur des donnes simules pourquoi il est trs important dans notre cadre de
tenir compte de ces corrections.
Enn, dans la section 2.4, nous prsentons deux outils permettant dune part, de dtermi-
ner les caractristiques socio-dmographiques favorisant lappartenance une zone risque,
et dautre part, de modliser les excs au-del dun certain seuil en fonction de facteurs
socio-dmographiques. Il est important de noter ici que les facteurs en jeu dans chacun des
modles proposs peuvent tre dirents.
35
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
36 CHAPITRE 2. VALEURS EXTRMES ET RISQUE ALIMENTAIRE
En guise dapplication, nous cherchons dans une dernire partie valuer le risque li
lexposition certains contaminants : lacrylamide prsent dans les aliments riches en
carbohydrates et frits (les frites...) et le mthylmercure prsent essentiellement dans les
mollusques et crustacs (les moules...).
2.1 Valeurs extrmes et indice de Pareto
2.1.1 Valeurs extrmes
Lensemble des rsultats exposs dans cette section vise synthtiser la base de la thorie
des valeurs extrmes dans le cas univari. On pourra galement se rfrer par exemple aux
ouvrages de Embrechts et al. (1999) ou de Reiss & Thomas (2001). Bien que la thorie des
valeurs extrmes soit de plus en plus utilise dans les sciences environnementales, ce type
danalyse est peu, voire pas du tout, utilis en toxicologie et en analyse de risque alimentaire
alors que ces techniques peuvent sans doute aider ltude quantitative des risques. Notons
que suite ces travaux, la dpendance entre des expositions extrmes plusieurs substances,
contaminants chimiques et nutriments est par exemple analyse dans Paulo et al. (2004).
Lobjet de cette section est donc de rappeler et de donner les rsultats essentiels de cette
thorie. Nous essaierons de donner une interprtation simple des quantits introduites en
termes de risque alimentaire. Les rsultats de cette section nous permettront de justier
les choix de certaines formes fonctionnelles qui seront faits ensuite dans la modlisation du
risque dexposition un contaminant.
Dans toute cette partie, on suppose que lon dispose dobservations A
1
. A
2
. . . . A
a
ind-
pendantes de mme fonction de rpartition 1(r) = Ir(A _ r). On note linverse gnralise
de 1 par
1
(r) = inl( R. 1() _ r).

Le point terminal de 1 (i.e. la plus grande valeur possible pour A
i
pouvant prendre la valeur
+) est donn par
:(1) = snp(r. 1(r) < 1).
et la fonction de survie par
1(r) = Ir(A r) = 1 1(r).
Ainsi pour o [0. 1[. on note r
c
= 1
(o) le quantile dordre o de la distribution.

En terme de risque alimentaire, les A
i
reprsentent dans la suite le niveau dexposition
alimentaire globale de chaque individu i un certain contaminant. Ces expositions indi-
viduelles sont pralablement construites de manire dterministe, comme propos dans la
section 1.3.1, et supposes indpendantes. Pour illustrer notre propos nous considrons es-
sentiellement le cas du mercure, mtal lourd, prsent dans peu daliments essentiellement
les produits de la mer. Si lon connat par exemple un niveau d
0
au-del duquel ce conta-
minant peut tre dangereux, appel dans la suite seuil de toxicit, 1(d
c
) reprsente donc
la proportion de personnes exposes un risque sanitaire dans la population. Ce seuil de
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.1. VALEURS EXTRMES ET INDICE DE PARETO 37
toxicit peut tre une dose hebdomadaire tolrable (DHT), une dose journalire admissible
(DJA) ou encore bien une DHT/10 ou une DJA/10 et plus gnralement nimporte quel
seuil d
0
x. Inversement dans une optique de calibrage, si c est un seuil petit par exemple
10
6
. si lon pose o = 1 c. r
c
= 1
1
(o) est donc le seuil partir duquel seulement 1
personne sur 1 million sera touche par le risque sanitaire. Cette quantit est lanalogue de
la Value at Risk ou VAR en nance. Ainsi, si cette quantit est grande par rapport au
seuil de toxicit, il y a lieu de sinquiter sur les risques dexposition.
Soit A
1
. . . . A
a
un chantillon de taille :. On note en gnral
A
1,a
_ A
2,a
_ . . . . _ A
a,a
lchantillon ordonn, de sorte que A
a,a
est la valeur maximale de lchantillon. Il est facile
de voir que A
a,a
converge lorsque : vers le point terminal de lchantillon (ni si la
distribution a un support ni droite, inni sinon). Dans loptique dun thorme limite et
de la construction dintervalles de conance ou de prdiction, on peut alors sintresser aux
renormalisations de cet estimateur du maximum qui conduisent une loi limite. On dit que
G est une loi des extrmes, sil existe des suites c
a
et /
a
telles que
A
a,a
c
a
/
a

ao
\.
o \ est une variable alatoire (v.a.) de distribution non dgnre G. Compte tenu du fait
que lon peut toujours normaliser c
a
ct /
a
de manire prendre en compte les paramtres
de taille et dchelle, il nexiste daprs le thorme de Fisher & Tippett (1928) (voir annexe
2.B.1) que trois lois possibles pour G selon la forme de la queue de la distribution 1 des A
i
:
Loi de type I : Gumbel,
G
0
(r) = crj(crj(r)).
avec c
a
= 1
1
(1 1,:) et /
a
= 1(c
a
)
1
_
o
o
n
1(n)dn.
Loi de type II : Frchet pour 0.
1
(r) =
_
cxp(r
1
). si r 0.
0. sinon,
avec c
a
= 0 et /
a
= 1
1
(1
1
a
).
Loi de type III : Weibull pour < 0.
\
(r) =
_
cxp((r)
). si r < 0.
1. sinon,
avec c
a
= :(1) et /
a
= c
a
1
1
(1
1
a
).
Ces trois lois peuvent tre reprsentes (par passage la limite de en 0 et une
normalisation prs) sous la forme suivante, dite reprsentation de Jenkinson-von Mises (von
Mises, 1936; Jenkinson, 1955),
G
(r) = cxp((1 r)
1
). si 1 r 0.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Le cas limite 0 correspond la loi de Gumbel, le cas 0 la loi de Frchet et
< 0 la loi de Weibull. Si la loi du maximum de : variables alatoires (v.a.) indpendantes
et identiquement distribues (i.i.d.) de loi 1 est G
alors on dit que le maximum est attir

par G
et par extension que 1 appartient au domaine dattraction de G
. ce qui est not

1 1(G
). On peut par exemple montrer que la loi normale, la loi exponentielle et la loi
log-normale appartiennent au domaine dattraction de la loi de Gumbel.
Les lois de Pareto, de Cauchy, de Student appartiennent au domaine dattraction de la
loi de Frchet. Ces lois se caractrisent par la prsence de queues de distribution lourdes
(non-exponentielles) ayant tendance gnrer de grandes valeurs. Lindice comme nous le
verrons dans la partie suivante est alors un indicateur de risque.
La loi uniforme et les lois qui ont un support ni mais avec une asymptote en leur
point terminal (par exemple les lois bta) appartiennent au domaine dattraction de la loi
de Weibull. Le coecient modlise le comportement de la loi des observations prs du
point terminal. Ce type de loi peut tre utile pour modliser des comportements seuil. Par
exemple, dans une optique inverse de celle que nous adoptons ici, on peut sintresser aux
personnes qui sont peu exposes certains contaminants ou qui ont des dciences en certains
nutriments. Dans ce cas, on sera amen tudier le comportement du minimum et de la loi
au voisinage de 0 (par exemple sil y a beaucoup de non consommateurs ou de personnes
consommant peu dun produit). Il peut alors tre intressant destimer le paramtre au
voisinage de 0.
On dispose de caractrisations trs prcises du domaine dattraction de chaque loi 1 en
fonction du comportement de ces queues de courbe (voir Bingham et al., 1987). Nous
donnons quelques unes de ces caractrisations dans lannexe 2.B.3. Ces caractrisations sont
souvent techniques et dicilement vriables par le praticien, aussi nous nentrerons pas
ici dans ses considrations techniques. Bertail et al. (2004) montre quil est possible de
proposer des estimations des constantes de normalisation et de la distribution asymptotique
en saranchissant presque compltement des hypothses faites usuellement sur la queue de
courbe de 1.
En terme de risque sanitaire, lobtention des lois prcdentes et en particulier lestimation
du coecient . que nous aborderons dans le paragraphe suivant, sont importantes, par
exemple pour valuer la probabilit que lensemble de la population soit au-del dun certain
seuil d
0
. i.e. 1(max
1ia
A
i
d
0
). Cette quantit peut tre value en thorie par
1
_
max
1ia
A
i
d
0
_
- cxp
_
(1 (d
0
c
a
),/
a
)
1
.
ce qui signie quen pratique on doit non seulement estimer le coecient . mais galement
dterminer, voire estimer, les paramtres de renormalisation c
a
et /
a
. Si lchantillon est de
taille petite, on peut galement sintresser au comportement du maximum sur une popula-
tion de taille beaucoup plus grande ` (par exemple lchelle nationale), auquel cas il est
important de connatre la forme fonctionnelle des paramtres de renormalisation en fonction
de :.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.1.2 Loi de Pareto et Pareto gnralise
Lune des mthodes les plus frquentes pour modliser le comportement extrme des
distributions et caractriser les quantiles extrmes (voir par exemple quelques travaux em-
piriques appliqus lhydrologie, la nance et lassurance dans Reiss & Thomas, 2001)
est de modliser les queues de distribution par des lois de type Pareto.
La Figure 2.1 donne la forme de la distribution empirique de lexposition globale au
mercure obtenue partir des donnes de panel Secodip (donnes par mnage ramenes
un individu en divisant par la taille du mnage, observes sur lanne 1997, soit 3214
relevs) et de donnes de contamination en mercure (essentiellement sur les produits de la
mer frais, en conserve ou surgels). Ces donnes (trs incompltes car ne tenant pas compte
des repas hors domicile et construites en supposant une consommation identique de chaque
membre du mnage) sont discutables : elles nous serviront plus illustrer notre propos et
montrer comment on peut mettre en oeuvre les mthodes proposes, qu tirer des conclusions
dnitives. Dans le cas particulier du mercure (et de ces donnes), aucun individu ne se situe
dans la zone risque i.e. na de valeur suprieure 18 mg/an/personne, dose annuelle
admissible (soit environ 5 jg/semaine/kg p.c. en mercure total pour un individu de 70 kg,
DHT en date de juin 1999). Ceci ne se produit pas pour dautres contaminants comme les
dioxines ou lochratoxine A pour lesquels lexposition est plus forte. Un estimateur plug-in
classique (cf. section 1.3.1) donnerait une probabilit de 0 de dpasser le seuil, ce qui conduit
sous-estimer considrablement le risque. Cest pour cette raison que la modlisation de
la queue de distribution est indispensable. On notera que, de manire gnrale, sur ce type
de donnes, la distribution a une queue trs paisse (la valeur maximum est de lordre de
2mg/an) ce qui justie empiriquement lutilisation de modles de type Pareto.
Fig. 2.1 Distribution de lexposition totale au mercure en mg/an
Les avantages de ce type de modlisation par rapport dautres plus globales o lon
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
modlise le comportement densemble de la distribution, par exemple au moyen de tests
dadquation (voir par exemple Gauchi & Leblanc, 2002) sont doubles :
on ne prend en compte ici que la partie intressante de la distribution en termes de
risque. On sait en eet que les tests usuels dadquation des distributions connues
(exponentielles, log-normales, gamma etc...) privilgient le centre de la distribution.
lapproche est conservative dans la mesure o lon aura toujours tendance survaluer
les risques (i.e. les probabilits de dpasser un certain seuil), ce qui nest pas le cas si
lon utilise des lois classiques avec queues de courbes exponentielles.
Pour r susamment grand, nous supposerons que la queue de courbe a la forme
1(r) = 1 C,r
c
. (2.1)
o C est une constante, ou encore de manire plus robuste ou plus gnrale
1(r) = 1 1(r),r
c
. (2.2)
o 1(.) est une fonction dite variation lente (typiquement un paramtre dchelle, un log
ou des produits de log itrs) satisfaisant
pour tout t 0.
1(tr)
1(r)
1 quand r .
Ce type de fonction permet de rendre plus exible la modlisation de la queue de dis-
tribution et permet par exemple de tenir compte du fait que la population rsultante est
lagrgation de plusieurs populations ayant des queues de courbes direntes. Nous revien-
drons longuement sur les problmes statistiques induits par la prsence dune fonction
variation lente dans les problmes destimation dans la section 2.3.
On peut aisment montrer partir des caractrisations de von Mises (prsentes en
annexe 2.B.3) que ces lois appartiennent au domaine dattraction de la loi de Frchet. On a
dans ce cas c
a
= 0 et /
a
= 1
1
(1
1
a
) et = c
1
.
Il est ais de montrer que lon a respectivement pour (2.1) et (2.2),
_
1
1
(r) = ((1 r) ,C)
1c
/
a
= :
1c
= :
et
_
1
1
(r) = (1 r)
|((1 r)
1
)
/
a
= :
|(:).
o |(.) est galement une fonction variation lente en . La probabilit de dpasser un seuil
d
0
est simplement donne dans chacun des deux cas respectivement par
1(d
0
) = Cd
c
0
1(d
0
) = d
c
0
1(d
0
).
qui sont des fonctions dcroissantes de c.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
5 . 0 =
d
1 =
3 =
5 10 15 20 25 30
0.025
0.05
0.075
0.1
0.125
0.15
Fig. 2.2 Comparaison des queues de courbes de type Pareto pour divers
On prfre gnralement reparamtrer la loi de Pareto en introduisant lindice =
1,c. qui sinterprte directement comme un indice de risque. Plus est petit, moins la
population extrme (reprsente par les queues de courbes) peut prendre de grandes valeurs
(voir la Figure 2.2). Lindice = correspond une situation de risque maximal. Un des
problmes de la thorie statistique des valeurs extrmes est de fournir une estimation ad-
quate de c ou . ce qui est clairement plus ais dans le modle (2.1) que dans le modle
gnral semi-paramtrique (2.2) dans lequel la fonction variation lente joue le rle dun
paramtre de nuisance de dimension innie.
Ayant observ un chantillon (statique) dexposition de taille :, lestimation de c permet
alors dvaluer les probabilits de dpasser un certain seuil dterministe de toxicit ou dans
une approche inverse de caractriser les individus les plus risque en dterminant les quan-
tiles extrmes de la distribution, typiquement 1
1
(1 ) pour trs petit parfois infrieur
1,:.
Une paramtrisation en termes dindice de risque permet dintroduire une forme plus
gnrale de la loi de Pareto qui joue un rle important dans la mthode destimation dite
P.O.T. (Peak Over Threshold : pic au dessus dun seuil, cf. section 2.1.3) et la caractri-
sation des populations dites risques (cf. section 2.4). Celle-ci a la forme suivante
\
(r) =
_
_
_
1 (1 r)
1
pour
_
0 < r et 0
0 < r < 1,[[ et < 0
cxp(r) pour r 0 et = 0
.
Lorsque A est de loi Pareto, cest la loi conditionnelle de A rd
0
sachant que A d
0
(pour d
0
= 1,) do son nom de loi des excs. Il est clair que \
est de type Pareto pour

0 (elle appartient donc au domaine dattraction de la loi de Frchet). \
0
. la limite
de \
lorsque 0. est une loi exponentielle (dans le domaine dattraction de la loi de

Gumbel). Pour < 0. \
est support born et de type bta (dans le domaine dattraction

t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
de la loi de Weibull). De manire gnrale, on a donc \
1(G
).
En terme de risque dexposition un certain contaminant au-del dun seuil donn, cette
distribution peut permettre de modliser des comportements trs dirents et est particu-
lirement adapte pour mettre en vidence des sous-populations plus ou moins exposes au
risque. En eet, si est grand alors la queue de courbe de la distribution est trs paisse
et la probabilit que lexposition dpasse un certain seuil d
0
donn est grande. Si = 0.
cette probabilit est faible. Enn si < 0 (par exemple pour des sous-populations de non-
consommateurs ou de faibles consommateurs des produits contamins), la probabilit est
trs faible si d
0
< 1,[[ et nulle pour d
0
_ 1,[[. Ainsi dans ces conditions, 1,[[ sinterprte
comme le seuil de risque nul. Pour obtenir une plus grande exibilit destimation et tenir
compte de phnomne dchelle, il sera utile dintroduire des paramtres j et o 0 et de
considrer que
\
,j,o
(r) =
1
o
\
((r j),o).
Dans ces conditions j sinterprte comme linmum du support et o est un paramtre
dchelle. On notera que dans le cas < 0 le support de la loi est [j. j o,[[[.
2.1.3 Lestimation indirecte : mthode P.O.T.
La mthode la plus ancienne pour estimer lindice c ou consiste utiliser directement
la forme de la loi des extrmes et ajuster une loi de type extrme gnralise la loi
du maximum. Cette mthode a t trs largement critique du fait de la perte dinforma-
tion, vidente lorsquon ne dispose que dun chantillon (et donc dun seul maximum). La
mthode P.O.T. (Peak Over Threshold) (dveloppe dans les anne 70 en hydrologie puis
abondamment tudie en statistique, voir par exemple Pickands (1975), Smith (1987), Da-
vison & Smith (1990), ou Reiss & Thomas (2001) pour de plus amples rfrences) est une
mthode qui repose sur le comportement des valeurs observes au-del dun seuil d. Si on
observe A
1
. A
2
. . . . . A
a
on appelle 1
1
= A
1
d. 1
2
= A
2
d. . . . . 1
1(a)
= A
1(a)
d. les
excs dordre d (les pics au dessus du seuil d). Le nombre 1 = 1(:) de telles variables est
alatoire de loi binomiale 1
_
:. 1(d)
_
. En eet, 1 =

a
i=1
1l
Aio
et on a
Ir(1 = /) = C
I
a
1(d)
I
(1 1(d))
aI
.
Conditionnellement 1. les 1
i
ont pour distribution
1
o
(r) = Ir(A _ r d [A d)
= (1(r d) 1(d)),(1 1(d)). pour r _ d.
La thorie des processus ponctuels permet de montrer quil y a en fait totale sparation
(indpendance) entre les valeurs des 1
i
et le nombre de telles valeurs (cf. Resnik, 1987). On
peut aisment constater que les lois de Pareto gnralises \
,j,o
(r) sont les seules lois qui
assurent une stabilit de la loi des excs au-del dun certain seuil dans la mesure o il existe
des paramtres o
o
et j
o
tels que 1
o
(r) = 1((r j
o
),o
o
) pour 1 = \
,j,o
.
On peut alors montrer que si 1 est dans le domaine dattraction dune loi des extrmes
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
alors on a (Pickands, 1975)
lim
oc(1)
snp
0ac(1)o
[1
o
(r) \
,0,o(o)
(r)[ = 0.
i.e. que lon peut approcher la loi des excs pour un seuil lev (proche du point terminal)
par une loi de Pareto gnralise de variance inconnue (dpendant de d).
Une des mthodes les plus utilises pour dterminer un estimateur de et de la VAR est
de ne considrer que les valeurs dpassant un certain seuil d assez grand et dy ajuster une
loi de type Pareto gnralise puis destimer les paramtres par la mthode du maximum
de vraisemblance (EMV). Smith (1987) a montr que pourvu que < 1,2. lestimateur du
maximum de vraisemblance existe et est asymptotiquement gaussien. En eet pour < 1,2.
les moments dordre 2 existent et la matrice dinformation de Fisher est nie. Dautres
mthodes bases sur le calcul de moments ont galement t proposes. Cette approche
est trs utilise en nance (Teugels, 1985) ou en hydrologie (Hosking & Wallis, 1987). La
question la plus problmatique tant dun point du vue thorique que pratique est le choix du
seuil d (quivalent en fait dans lapproche directe au choix du nombre / de valeurs extrmes
retenir pour le calcul de lestimateur de Hill). Dans notre cadre, ce type destimation de
conduit des rsultats trs proches de ceux dj obtenus mais savre plus pertinent dans
loptique de la section 2.4.
2.1.4 Lestimation directe : estimateurs classiques
Lestimateur de Hill
Lestimateur de Hill (1975) de est sans doute le plus utilis de la thorie des valeurs
extrmes, mme si de nombreux travaux rcents remettent en cause sa suprmatie (voir par
exemple lensemble des travaux rcents de Beirlant, KUL, Belgique). Lestimateur de Hill
pour un / x dans 1. . . . . : 1 ne fonctionne que pour 0 et est donn par
H
I,a
=
1
/
I
i=1
log(A
ai1,a
) log(A
aI,a
).
Il sinterprte comme lestimateur du maximum de vraisemblance de dans le modle (2.1),
lorsquon ne conserve que les / plus grandes valeurs ou plus simplement comme un esti-
mateur de la pente dun QQ (quantilequantile) plot (Embrechts et al., 1999). Rappelons
que la mthode du QQ-plot est une mthode graphique empirique trs simple pour tester
ladquation dune distribution empirique une loi 1 donne se basant simplement sur la
constatation que les 1
1
(A
i,a
) suivent la mme loi que : variables uniformes ordonnes des-
prances respectives
i
a1
de sorte que les points (A
i,a
. 1
1
_
i
a1
_
) pour i grand doivent tre
quasiment aligns sur une droite.
La Figure 2.3 donne ce graphique dans le cas de la distribution de lexposition au mercure
(estime partir des donnes SECODIP de 1997).
Lestimateur de Hill est un estimateur trivial de la pente linni. Cependant il est
clair que lestimateur de Hill est trs sensible au choix du nombre de points retenus dans
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Fig. 2.3 QQ-plot de lexposition au mercure
la queue de distributions / permettant de le calculer, comme le montre le graphique de la
Figure 2.4 qui donne H
I,a
en fonction de /. Ce type de graphique est connu sous le nom de
Hill-Horror Plot dans la littrature nancire (Embrechts et al., 1999, page 194) cause
du mauvais comportement de lestimateur que lon constate ici aussi. Thoriquement, si /
est petit devant :, cet estimateur est une estimateur convergent de et lon devrait donc
observer une certaine stabilit de lestimateur ce qui est loin dtre le cas en pratique.
Fig. 2.4 Estimateur de Hill

H
I,a
en fonction de k
Sous les hypothses /(:) et
I(a)
a

ao
0, Mason (1982) a montr la convergence de
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
lestimateur dans le cas i.i.d., i.e.
H
I(a),a
1
ao
=
1
c
.
Le cas de variables faiblement dpendantes a t trait par Rootzn et al. (1998) et Hsing
(1991), celui des processus linaires par Resnik (1997). La convergence presque sre de les-
timateur de Hill est vraie dans le cas i.i.d., si
I(a)
a

ao
0 et
I(a)
ln(ln a)

ao
(Deheuvels et al.,
1998).
Par ailleurs, sous certaines conditions sur /(:) et 1(.) (Embrechts et al., 1999, page 341),
on a la normalit asymptotique suivante
_
/(:)(H
I,a
)
1ci
`(0.
2
).
Ce rsultat permet de calculer des intervalles de conance pour . Par exemple, un
niveau de conance de (1 c)/, on a

_
H
I,a
1c2
H
I,a
_
/(:)
: H
I,a

1c2
H
I,a
_
/(:)
_
.
o
1c2
est le (1 c,2) quantile dune loi normale centre rduite.
Le calcul de cet estimateur est simple ds lors que le nombre de valeurs extrmes /
retenir est dtermin. Un problme dlicat est videmment de slectionner le nombre
/ des valeurs les plus grandes utilises pour calculer lestimateur de Hill. Ce problme est
abondamment discut dans la littrature, voir par exemple Hall (1990); Beirlant et al. (1996);
Danielsson & de Vries (1997); Drees & Kaufmann (1998).Or, celui-ci dpend troitement de
la forme eective de la fonction variation lente et du seuil (en gnral inconnu) partir
duquel on peut raisonnablement considrer la queue de distribution comme de type Pareto.
Cette question sera aussi un obstacle lutilisation de la thorie des valeurs extrmes pour
lestimation de la probabilit de dpasser un seuil de toxicit ds lors que ce seuil ne se trouve
pas dans la queue considre comme de type Pareto.
La littrature prsente plusieurs autres estimateurs. Ceux-ci sont aussi construits partir
des / plus grandes valeurs observes. Nous en donnons ici les formules explicites.
Lestimateur des moments
Alors que lestimateur de Hill est adapt pour les lois dans le domaine dattraction de
la loi de Frchet, lestimateur suivant, appel estimateur des moments, a t propos par
Dekkers et al. (1989) pour tendre lestimation du paramtre de queue quel que soit le
domaine dattraction de la loi

A
I,a
= H
I,a
1
1
2
_
1
H
2
I,a
H
(2)
I,a
_
1
o H
(2)
I,a
=
1
/
I
)=1
(ln A
a)1
ln A
aI
)
2
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Lestimateur de Pickands et estimateur driv
Lestimateur de Pickands (1975) est dni par

1
I,a
=
1
ln 2
ln
_
A
[I1[,a
A
[I2[,a
A
[I2[,a
A
I,a
_
.
o [r[ dsigne la partie entire de r.
Si /(:) et
I(a)
a

ao
0 alors
1
I,a
1
ao
. De plus, sous certaines conditions sur /(:)
et 1(.) on a la normalit asymptotique suivante
_
/(:)
_

1
I,a
_
1ci
` (0. ()) o () =

2
(2
21
1)
(2(2
1) ln 2)
2
.
Une amlioration de lestimateur de Pickands est propose par Drees (1995). Il sagit
dune combinaison convexe des estimateurs de Pickands obtenus pour direntes valeurs de
/. Cet estimateur, appel estimateur de Drees-Pickands, est asymptotiquement meilleur en
particulier pour < 0.
Comparaison de ces estimateurs
La Figure 2.5 donne lestimateur de Hill, ainsi que lestimateur des moments, lestima-
teur de Pickands et lestimateur de Drees Pickands. Il apparat clairement en regardant le
graphique de gauche que cest lestimateur de Hill (et dans une moindre mesure lestimateur
par la mthode des moments) qui possde la plus grande stabilit cette chelle. Cependant,
si on ne reprsente que lestimateur de Hill et celui des moments (graphique de droite), on
observe encore une grande instabilit.
Ce comportement sexplique par le fait que pour des tailles de / petites, la variance de
lestimateur est forte (forte variabilit des courbes prs de lorigine) tandis que pour des
tailles de / leves. la queue de distribution nest plus strictement de type Pareto (2.1) mais
plutt de type (2.2). La fonction variation lente (qui peut sexpliquer par le fait que la
distribution dans le cas de lexposition est un mlange de plusieurs Pareto) induit un biais
fort sur lestimateur. Des mthodes dlimination systmatique du biais et de choix optimal
de / (en termes dcart-quadratique moyen) ont t proposes par Feuerverger & Hall (1999)
et Beirlant et al. (1999). Ces mthodes sont dtailles et tendues dans la section 2.3 et ont
t appliques au risque alimentaire li la prsence de mtaux lourds dans les produits de
la mer dans Tressou et al. (2004a).
Un des points frquemment omis dans la littrature applique sur les extrmes est lesti-
mation de la fonction variation lente 1 (ou |) et la construction dintervalles de conance
pour une transformation non-linaire du paramtre et notamment de la VaR (voir ??).
Des travaux tenant compte de ce problme avec applications des donnes nancires ont
t rcemment raliss par Bertail et al. (2004). Les auteurs y proposent de nouvelles m-
thodes destimation de lindice c. en prsence du paramtre de nuisance 1. Lide est de
gnraliser et dutiliser les proprits universelles des mthodes de sous-chantillonnage (voir
Politis & Romano, 1994) et destimer la vitesse de convergence du maximum pour obtenir
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Fig. 2.5 Comparaison destimateurs de lindex de Pareto, exposition au mercure
simultanment un estimateur de c et de la fonction variation lente. On peut alors mon-
trer que lestimateur de la vitesse de convergence peut prsenter des changements de rgime
qui rendent plus facile le choix du / optimal. Lapplication de ces mthodes au cas de la
contamination en mercure donne un estimateur dont le comportement en fonction de /
a
est
trs caractristique : une forte variabilit, un palier de stabilit (correspondant la valeur
de lindice) puis un fort biais (d un changement de rgime) : voir la Figure 2.6.
Le choix optimal de / dans ce cadre est /
cjt
= 244 et conduit une estimation de lordre
de 0.387 trs proche de celle obtenue avec lestimateur de Hill dbiais par la mthode
prsente dans la section 2.3.
Le choix optimal de / obtenu par la mthode prsente en dtail dans la section 2.3 est
/
cjt
= 220 conduisant une estimation de valeur de lindice de

H
I,a
= 0.392. La Figure
2.7 prsente lestimateur ainsi corrig pour direntes valeurs de /. ainsi que les autres
estimateurs usuels. On observe ici une plus grande stabilit de lestimateur corrig. Comme
nous le montrons dans la section suivante, la mthode de correction permet aussi de calculer
la constante C et donc par (2.1) la valeur de la probabilit de dpasser un seuil. Par exemple,
pour lexposition au mercure, la probabilit de dpasser 18 mg/an/personne vaut 0.10
7
. celle
de dpasser 6 mg/an/personne vaut 10
. soit 10 pour un million. En utilisant (??) . on peut

aussi aisment dterminer la VAR pour un risque donn. Par exemple, pour un risque de
10
6
. le niveau dexposition limite est 15.1 mg/an/personne : il sagit donc de lexposition
ne pas dpasser si lon souhaite prserver la population avec une tolrance de risque de un
sur un million.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Fig. 2.6 Estimateur de bas sur la mthode de Bertail et al. (2004)
Fig. 2.7 Comparaison destimateurs de (exposition au mercure)
2.2 Mise en vidence du biais
2.2.1 Fonctions variation lente et biais
Lintroduction de la fonction variation lente (dnie dans lannexe 2.B.2) nest pas
simplement un jouet mathmatique, qui rendrait les aspects techniques plus compliqus (et
donc plus attractifs) aux chercheurs. Des fonctions variation lente peuvent apparatre trs
naturellement lorsquon modlise par exemple des phnomnes agrgs ou que lon considre
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.2. MISE EN VIDENCE DU BIAIS 49
des mlanges de populations ayant des risques dirents. Pour mieux comprendre, leet de la
fonction variation lente, considrons lexemple suivant qui correspond un mlange de deux
lois de Pareto. En termes dvaluation des risques et dans le contexte qui nous intresse, cela
signie quil y a en fait deux populations distinctes ayant des risques dexposition dirents,
ce qui, en soi, est une situation raliste dans le cadre des risques alimentaires.
On considre A la variable alatoire suivante
A =
_
A
1
avec la probabilit j ; A
1
~ 1c:cto(C
1
.
1
)
A
2
avec la probabilit 1 j ; A
2
~ 1c:cto(C
2
.
2
)
.
1

2
.
alors la fonction de survie de A est donne par
Ir(A r) = j Ir(A
1
r) (1 j) Ir(A
2
r) = jC
1
r
1
1
(1 j)C
2
r
1
2
et donc
Ir(A r) = Cr
1
_
1 1r
o
.
avec C = jC
1
. =
1
. 1 = (1 j)C
2
,jC
1
et , = 1,
2
1,
1
0.
La variable alatoire A. dcrivant le phnomne pour lensemble des deux sous-populations,
suit donc une loi de Pareto perturbe par une fonction variation lente de la forme 1(r) =
1 1r
o
. Cette classe de fonctions variation lente est connue sous le nom de famille de
Hall (cf. Feuerverger & Hall, 1999).
On notera galement que cest lindice de risque le plus grand qui domine dans le mlange.
Toutefois si les
i
. i = 1. 2 sont proches (dans ce cas , est proche de 0) les deux sous-
populations seront dicilement distinguables. Le calcul de lestimateur de Hill omet cette
fonction variation lente, ce qui introduit un biais dans lestimation de . Notamment, un
choix de /(:) trop grand risque dinclure des individus de la seconde population et donc de
perturber lestimation de . De plus, si les donnes sont issues dun mlange de lois de Pareto
(ce qui sera lhypothse faite sur les expositions aux contaminants), on estimera lindice de
risque comme lindice de risque maximum de la population. Nous mettrons en vidence
empiriquement ce rsultat dans la section 2.2.2.
Les rsultats asymptotiques prcdents dpendent du nombre de points utiliss /(:) pour
lestimation sur une population totale de taille :. Quelle valeur choisir pour /(:) ? On peut
voquer deux types de rsultats. Les premiers concernent les ordres de grandeur de /(:)
retenir pour une fonction variation lente donne. Les seconds concernent le comptition
entre le biais et la variance.
Haeusler & Teugels (1985) ont dmontr que le choix dun /(:) optimal dpendait de
la spcication de la fonction variation lente 1(.). Pour les deux cas qui nous concernent
dans la suite de ce rapport, les rsultats obtenus par les auteurs sont rsums dans le tableau
ci-dessous.
Fonction variation lente 1(.) /
cjt
(:)
1 1.r
o
o(r
o
) o
_
:
2c
2c+1
_
(log r)
0
o (log(:)
2
)
Alors on a
_
/
cjt
(:)(H
I,a
)
1ci
`(0.
2
).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
pour ces deux cas particuliers.
Plus gnralement, le choix du meilleur /(:) provient de la comptition entre le biais et
la variance. Dun ct, la tendance naturelle serait, : x, daccrotre /(:) pour diminuer
la variance. Mais dun autre ct, il faut tenir compte du biais des estimateurs voqus
au dessus. Larbitrage entre les deux eets contraires se fait usuellement en calculant lcart
quadratique de lestimateur (dpendant de /) puis en le minimisant en /. On pourra se rfrer
larticle de Haan & de Peng (1998) pour des rsultats gnraux. Au-del des dicults
pratiques poses par ce problme, ce dernier constitue un vrai enjeu pour le praticien comme
nous le verrons par la suite dans les applications.
2.2.2 Quelques simulations
Nous allons dans cette section comparer les dirents estimateurs proposs dans ce cha-
pitre. Ces simulations comme lensemble des implmentations ralises ont t eectues sous
GAUSS (Aptech Systems Inc., http ://www.aptech.com/). A ces ns, nous pouvons simuler
des donnes dexposition un contaminant de diverses manires. On considre en particulier
que celles-ci sont respectivement donnes par
1. une loi de Pareto exacte
1(r) = Cr
1
==1
() = (1 )
avec = 0. 3.
2. un mlange de lois de Pareto, quivalent une loi de Pareto perturbe par une fonction
VL en puissance.
On gnre deux lois de Pareto vraies de paramtres
1
et
2
en proportions gales.(
1
=
0. 3 :
2
= 0. 1)
3. une loi de Pareto avec fonction variation lente logarithmique (VL en log)
1(r) = r
(log r)
0
==1
() = (1 )
( log(1 ))
0
.
avec ( = 0. 3 ; o = 1) .
Aprs avoir ralis des simulations de 5000 valeurs pour ces diverses lois, nous avons
calcul pour les estimateurs de Hill, de Pickands et des moments.
Les graphiques des Figures 2.8, 2.10 et 2.12 prsentent les variations de chaque estimateur
selon le nombre / de valeurs extrmes retenues pour le calcul. Pour une meilleure lisibilit des
graphiques, nous ne traons pas ici les intervalles de conance qui pourraient tre calculs
grce aux lois asymptotiques prsentes prcdemment.
Nous observons que le choix de / est crucial en particulier pour lestimateur de Pickands
qui est trs instable. Les Figures 2.9, 2.11 et 2.13 ne comportent que les estimateurs de Hill
et des moments pour mieux observer les variations de ces estimateurs plus stables.
Pour une loi de Pareto exacte (Figures 2.8 et 2.9), on constate que lestimateur de Hill
est moins biais que celui des moments : il est proche de la vraie valeur du paramtre pour
/ grand. Ce qui se comprend aisment : lestimateur de Hill revient calculer une pente qui
est exactement dans ce cas.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.2. MISE EN VIDENCE DU BIAIS 51
Fig. 2.8 Comparaison de trois estima-
teurs de selon / pour la simulation dune
vraie loi de Pareto
Fig. 2.9 Comparaison de deux estima-
vraie loi de Pareto
Fig. 2.10 Comparaison de trois estima-
teurs de selon / pour la simulation dun
mlange de lois de Pareto
Fig. 2.11 Comparaison de deux estima-
teurs de selon / pour la simulation dun
mlange de lois de Pareto
Fig. 2.12 Comparaison des trois estima-
loi de Pareto perturbe par une fonction
variation lente en logarithme
Fig. 2.13 Comparaison des deux estima-
loi de Pareto perturbe par une fonction
variation lente en logarithme
Pour un mlange de lois de Pareto (Figures 2.10 et 2.11), lestimateur de Hill est proche
de
1
pour / petit puis dcrot vers une valeur intermdiaire entre
1
et
2
pour / grand.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Lestimateur des moments semble moins aect par le mlange.
Pour une loi de Pareto perturbe par une fonction variation lente en log (Figure 2.12 et
2.13), le biais entre lestimateur de Hill et la vraie valeur augmente avec /, lestimateur des
moments est plus stable. On retiendra pour la suite la forme particulire des estimateurs de
Hill, H
I,a
lorsque / varie, selon le type de simulation : ceci nous donnera une intuition sur
la forme de la fonction variation lente qui rgit nos donnes.
Comme nous lavons vu dans la section prcdente, lestimateur de Hill prsente un
biais d principalement la fonction variation lente (le second cas tant quivalent une
perturbation du type 11r
o
. , 0). Nous allons nous intresser dans la suite au problme
de la correction de ce biais, qui va permettre de dterminer une valeur de / optimale.
2.3 Mthode de correction du biais
2.3.1 Description du modle
Plusieurs auteurs (Feuerverger & Hall, 1999; Beirlant et al., 1999) ont rcemment propos
des mthodes de correction du biais. Beirlant et al. (2004) propose une revue de ces mthodes.
Feuerverger & Hall (1999) prsentent une mthode de correction de biais pour la partie
gauche de la distribution (les petites valeurs) et utilisent une fonction variation lente
en puissance de la forme 1 1r
o
. , 0. Beirlant et al. (1999) prsentent une mthode
plus gnrale, o la fonction variation lente nest pas spcie mais doit vrier certaines
hypothses de rgularit.
Ces mthodes conduisent des modles de rgression fonds sur les carts de statistiques
dordre avec rsidus exponentiels, qui sont estims par des mthodes de type maximum de
vraisemblance ou moindres carrs. Nous montrons aussi comment ces rsultats peuvent tre
adapts dans le cadre de lvaluation de risque et tendus des fonctions variation lente
de type logarithmique.
Fonction variation lente de type puissance
Lhypothse principale du modle est
1 1(r) = Cr
c
1(r).
o c 0. C 0 et 1(r) = 1 1r
o
o(r
o
) lorsque r , avec 1 rel et , 0.
An de ne pas alourdir la prsentation, nous omettrons dans la suite les restes (o(r
o
)).
Thorme 2.3.1 Soient 2
i
= i(log(A
ai1,a
) log(A
ai,a
)) pour i = 1. . . . . /, alors on a
1
2
i
- 1
i
cxp
_
1
1
_
i
:
_
o
1
_
. pour i = 1. . . . . /.
1
La notation A
n
- 7
n
signie A
n
= 7
n
+o
P
(1) quand : , avec la convention usuelle -
n
= o
P
(1) ssi
-
n
P
0 quand : .
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.3. MTHODE DE CORRECTION DU BIAIS 53
o les (1
i
) sont des v.a. indpendantes identiquement distribues selon une loi exponentielle
de moyenne 1, avec =
1
c
. ,
1
=
o
c
et 1
1
= ,
1
C
o
1
1.
La preuve suit les grandes lignes des travaux de Feuerverger & Hall (1999). Nous en
donnons les principaux arguments.
Preuve : On obtient cette approximation en utilisant les rsultats sur les statistiques dordre
prsents dans lannexe 2.C et selon les trois tapes suivantes :
Etape 1 : Dans un premier temps, on inverse la fonction de rpartition
1
(1 ) =
_
C
_
(1 o
2
()) =
_
C
_
cxp(o
2
())(1 o(1)).
o o
2
() = C
o
1
1
o
1
. On en dduit
log (1
(1 )) = log C
1
o
2
() o(1), o C
1
= log C.
Or, si l
i,a
dsigne le i
` cnc
lment de la statistique dordre dune variable alatoire
uniforme sur [0. 1[ et A
i,a
est le i
` cnc
lment de la statistique dordre de la variable
dintrt (lexposition un contaminant dans notre cas), le lemme de base prsent en
annexe 2.C.1 permet dcrire la relation suivante
log A
ai1,a
= log (1
(1 l
i,a
)) - log l
i,a
C
1
o
2
(l
i,a
). (2.3)
Etape 2 : On utilise ensuite la reprsentation des uniformes ordonnes en fonction dexponen-
tielles. En eet, si on note 1
ai1,a
=

ai1
)=1
1
a)1
. o (1
)
)
)=1,...,a
est un :-chantillon
de loi exponentielle de moyenne 1. on a par la reprsentation de Rnyi (Annexe 2.C.3)
l
i,a
= 1 l
ai1,a
= cxp(1
ai1
). (2.4)
On dduit de (2.3) et (2.4)que
2
i
- i(1
ai1
1
ai
) i [o
2
(cxp(1
ai1
)) o
2
(cxp(1
ai
))[ .
Etape 3 : Cette expression est approche par un dveloppement de Taylor.
On note o
S
(.) = o
2
(cxp(.)) et un dveloppement limit donne lapproximation sui-
vante
o
S
(1
ai1
) o
S
(1
ai
) - (1
ai1
1
ai
)o
0
S
(1
ai
) .
On a (toujours par 2.C.3) 1
ai
1ci
= log(l
i1,a
) |oq
a1
i1
|oq
a
i
et
o
0
S
_
|oq
:
i
_
=
_
i
:
_
o
0
2
_
i
:
_
= ,
1
C
o
1
1
_
i
:
_
o
1
= 1
1
_
i
:
_
o
1
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Comme 1
ai1
1
ai
=
1
n.+1
i
, on obtient en simpliant pour i = 1. . . . . /
2
i
- 1
ai1
_
1 o
1
_
i
:
__
- 1
ai1
cxp
_
o
1
_
i
:
__
- 1
i
_
1 1
1
_
i
:
_
o
1
_
- 1
i
cxp
_
1
1
_
i
:
_
o
1
_
. (2.5)
avec ,
1
=
o
c
et 1
1
= ,
1
C
o
1
1.
Lestimation dune probabilit dexcs requiert la connaissance de c =
1
0. , 0.
C 0 et 1. . ,
1
et 1
1
peuvent tre estims par maximum de vraisemblance ou moindres
carrs comme prsent dans la section suivante. Ces estimations sont ralises pour direntes
valeurs de / de sorte que lon obtient pour chaque valeur de /. des estimateurs
I
.

,
1,I
.

1
1,I
.
Reste la constante C qui sera estime par maximum de vraisemblance conditionnel /, soit
C
I
=
/
:
(A
aI,a
)
1
b
I
.
Fonction variation lente de type logarithmique
Une autre forme usuelle pour la fonction variation lente est 1(r) = (log r)
0
. Une telle
fonction peut introduire une trs forte perturbation de lestimateur de Hill (sa vitesse de
convergence est alors au mieux en log(:)). Il est donc trs important dans ce cas de corriger
lestimateur de Hill . On suppose dsormais
1 1(r) = Cr
c
(log r)
0
.
Thorme 2.3.2 Soient 2
i
= i(log(A
ai1,a
) log(A
ai,a
)) pour i = 1. . . . . /, alors on a
2
i
- cxp
_
o
log
a
i
_
1
i
. pour i = 1. . . . . /.
o les (1
i
) sont des v.a. indpendantes identiquement distribues selon une loi exponentielle
de moyenne 1, avec =
1
c
.
Preuve : La preuve de ce second thorme est similaire la prcdente et est reporte en
annexe 2.D.
Choix optimal de /
Dans loptique du choix du nombre de valeurs extrmes retenir, on obtiendra /
+
et
+
en minimisant un cart quadratique moyen asymptotique approch (EQMA) i.e.
/
+
= arg min
I;I10
_

2
I
/
[H
I,a

I
[
2
_
,
+
=
I
. (2.6)
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
En eet, le premier terme
b
2
I
I
sinterprte comme la variance de lestimateur tandis que le
second est une estimation du biais de lestimateur de Hill, de sorte que le /
+
optimal permet
darbitrer entre biais et variance.
2.3.2 Estimation des paramtres
Il est alors possible destimer les paramtres dintrt de direntes faons savoir par
maximum de vraisemblance ou par moindres carrs. Nous dtaillons ici lestimation des
paramtres dans le cas dune fonction variation lente de type puissance et reportons en
annexe 2.D lestimation des paramtres dans le cas dune fonction variation lente de type
logarithmique.
1. Maximum de vraisemblance
Daprs lapproximation (2.) . les variables 2
i
- 1
i
cxp
_
1
1
_
i
a
_
o
1
_
. i = 1. . . . . / se
comportent asymptotiquement comme des variables exponentielles indpendantes de
moyenne cxp(1
1
(i,:)
o
1
). On peut alors crire la log-vraisemblance correspondante
pour un / x, sous la forme
log 1
a
(2
1
. . . . . 2
I
: . ,
1
. 1
1
) = / log 1
1
I
i=1
_
i
:
_
o
1
1
I
i=1
2
i
cxp
_
1
1
_
i
:
_
o
1
_
.
Les estimateurs du maximum de vraisemblance sobtiennent en minimisant cette fonc-
tion en . ,
1
et 1
1
.
On peut rpter ce calcul pour direntes valeurs de / et minimiser lcart quadratique
moyen asymptotique pour obtenir le / optimal (cf. (2.0)). Il semble toutefois que le
choix de / importe peu vue la correction apporte par la fonction variation lente.
On constate galement pratiquement dans les simulations ou pour des donnes relles.
En eet, lestimateur de corrig ne prsente plus les fortes croissances/dcroissances
observes pour lestimateur de Hill et reste relativement stable comme fonction de /.
2. Moindres carrs
Une autre mthode, propose par Feuerverger & Hall (1999), consiste linariser
lexpression (2.) par passage au log ce qui permet de se ramener la rgression non
linaire suivante
\
i
$ log(2
i
) = j 1
1
_
i
:
_
o
1
i
.
o j = log j
0
, avec j
0
= 1(log 1
1
) = 0. 772...(constante dEuler), -log 1
1
suit
une loi de Gumbel.
i
= log 1
i
j
0
de loi de Gumbel recentre sinterprte alors comme
lerreur de la rgression.
On cherchera dans ce cadre minimiser o
I
(,
1
. 1
1
. j) =

I
i=1
_
\
i
j 1
1
_
i
a
_
o
1
_
2
.
On obtient alors les estimateurs des moindres carrs non linaires pour chaque valeur
de /,
_
,
1,I
.

1
1,I
. j
I
_
= arg min
o
1
,1
1
,j
o
I
(,
1
. 1
1
. j)
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
et
I
= cxp( j
I
j
0
).
Selon Feuerverger & Hall (1999), cette seconde mthode prsente une variance asymp-
totique plus importante que celle du maximum de vraisemblance mais peut tre plus per-
formante que la premire dun point de vue algorithmique puisquelle ne ncessite pas la
minimisation dune fonction trs complexe. En particulier, Drees & Kaufmann (1998) ont
montr que lon pouvait choisir sans perte de gnralit, ,
1
= 1 de sorte que le problme de
minimisation se rduit dans ce cas l, une simple rgression linaire. Toutefois, pour pouvoir
appliquer cette mthode, il faut que les 2
i
soient non nuls, i.e. en termes de risques alimen-
taires, que deux individus naient jamais la mme exposition, ce qui se produit pourtant
en pratique, en particulier dans le cas dune exposition construite de manire dterministe.
Sur des donnes simules ces deux mthodes destimation donnent des rsultats semblables.
Cependant pour viter le problme des log(0) sur des donnes relles, nous utilisons dans la
suite la mthode du maximum de vraisemblance.
2.3.3 Mise en oeuvre de ces mthodes sur donnes simules
La simulation dchantillons dexposition de taille raisonnable permet de comparer les
estimateurs obtenus dans chaque cas aux vraies valeurs (connues). Les mthodes tudies
font appel des algorithmes de minimisation numrique (librairie Optmum de Gauss) qui
peuvent demander des temps de calculs importants. En ce qui concerne le modle (2.),
lestimation des paramtres par maximum de vraisemblance est simplie en choisissant
,
1
= 1. Drees & Kaufmann (1998) ont en eet dmontr que ce choix ninue pas sur
lestimation de .
Nous appliquons les mthodes de correction de biais proposes sur des donnes issues
dun mlange de loi de Pareto ou dune loi de Pareto perturbe par une fonction VL en
log (avec les mmes paramtres que dans la section 2.2.2, en particulier : = 000).
Dans chaque cas, nous prsentons les graphiques de la variation de lestimateur obtenu
en fonction de / ainsi que les intervalles de conance 95% sous lhypothse dune fonction
VL en puissance (Figures 2.14 et 2.15) puis sous lhypothse dune fonction VL en log
(Figures 2.16 et 2.17). Les valeurs optimales sont prsentes dans le tableau 2.1.
Tab. 2.1 Correction de biais : valeurs optimales de / et des paramtres
Donnes Hypothse VL k
O1T

I
CTT
D
1
,o Ecart type
I
CTT
AMSE C
Mlange Puissance 1120 0.288 0.006 0.009 0.00007 0.60
VL en log Puissance 140 0.464 1.19 0.039 0.00160 0.39
Mlange log 1120 0.287 0.006 0.009 0.00007 0.60
VL en log log 140 0.458 0.135 0.039 0.00170 0.40
On observe ici que lestimation est plus dicile pour une fonction VL en log que pour un
mlange de lois de Pareto et que les valeurs optimales de / et sont similaires quelle que soit
lhypothse sur la fonction VL sous-jacente. Celles-ci ont t obtenues en minimisant lcart
quadratique moyen asymptotique (EQMA) selon /. pour / variant de 10 200, de 10 en 10.
pour diminuer le temps de calcul et les risques dchec de la phase doptimisation numrique
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Fig. 2.14 Correction de lestimateur de
Hill sur donnes simules par un mlange
de lois de Pareto sous lhypothse VL en
puissance
Hill sur donnes simules par une loi de
Pareto perturbe par une fonction VL
en log sous lhypothse VL en puissance
Hill sur donnes simules par un mlange
de lois de Pareto sous lhypothse VL en
log
Hill sur donnes simules par une loi de
Pareto perturbe par une fonction VL
en log sous lhypothse VL en log
(Maximisation de vraisemblance non linaire). Toutefois, en regardant plus prcisment le
graphique 2.17 concernant les donnes simules selon une loi de Pareto perturbe par une
fonction VL en log. on observe que pour des valeurs de / un peu plus grandes que celles
obtenues en minimisant lEQMA, on parvient corriger le biais ds lors que lon utilise bien
la spcication fonction VL en log : par exemple, si on choisit /
+
= arg min
I200
1Q`, alors
/
+
= 40 et
I
= 0.29.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.4 Caractrisation des populations risque
Mettre en vidence des populations risque revient implicitement supposer que, condi-
tionnellement certaines variables exognes 2
1
. . . . . 2
a
(qui vont dnir des sous-populations),
le risque dexposition certains contaminants est dirent. On peut dans un premier temps
pour mettre en vidence cette htrognit essayer de comparer pour direntes catgo-
ries les estimateurs des indices de risques sur des sous-populations. La Figure 2.18 donne
par exemple les estimateurs de Hill obtenus pour des catgories socio-professionnelles (CSP)
direntes.
Fig. 2.18 Hill par CSP
Bien que lon se heurte l encore au problme du biais et du choix optimal de /, on
constate cependant une certaine hirarchie dans les niveaux de risque (avec un indice trs
fort pour les retraits et les cadres suprieurs et beaucoup plus faible pour les professions
librales et les agriculteurs). Cest ce phnomne que lon aimerait pouvoir conrmer par des
mthodes plus prcises. Il faut en eet se mer dune interprtation directe de ce graphique :
leet taille des sous-populations peut fortement aecter la prcision des estimateurs, mais
aussi le choix du / optimal qui a priori est dirent pour chacune de ces sous-populations.
Une solution possible qui permet destimer limpact des variables socio-dmographiques si-
multanment est de considrer un modle du type Pareto ou Pareto gnralis dans lequel
lindice de risque est, conditionnellement aux variables socio-dmographiques 2, une fonction
de ces variables,
= /(2).
De manire pouvoir tester limpact de certaines variables sur le niveau du risque, il est
plus intressant de faire des hypothses sur la forme du lien. En eet, un modle totalement
non-paramtrique ne serait pas identiable. Une spcication possible et simple (pour les
besoins de lexpos) est de retenir une formulation de type single-index pour lindice .
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.4. CARACTRISATION DES POPULATIONS RISQUE 59
cest--dire une fonction de lien / de la forme
/(2) = I(2
t
,)
et une forme de type Pareto gnralis pour la queue de distribution. Dans la formulation la
plus gnrale du modle, on peut supposer la fonction I inconnue. Nous supposons ici que
la fonction I est connue, typiquement linaire si les variables explicatives sont toutes des
variables dichotomiques, ou borne (voir section 2.4.2). Dans cette approche, lestimation
du modle permet de quantier limpact des variables explicatives sur le niveau de risque
dexposition encouru. Ce modle ne permet nanmoins pas de sparer les populations
faibles risques (celles qui contribuent la distribution pour A < d) des autres.
2.4.1 Facteurs dterminant lappartenance la zone risque
Une solution est de proposer un modle de type Probit sur cette appartenance ou non,
i.e. de modliser 1(A d) sous la forme
1(A d[2) = /(2
0
). (2.7)
Ce type de modle est rapprocher des modles de type double Hurdle i.e. des modles
en deux tapes utiliss en conomie du consommateur (voir Bertail et al., 1999) et peut se
justier dans le cadre de lestimation des risques lis certains contaminants par le fait que
le risque peut provenir de deux sources : le fait de consommer ou non un produit contamin
(linformation pouvant jouer un rle non ngligeable sur cette dcision) puis dans un second
temps du niveau de cette consommation. Les eets des variables explicatives sur la premire
tape (consommation ou non) peuvent tre trs dirents de ceux sur le niveau. On peut trs
bien concevoir que le fait davoir des enfants a un impact positif sur les achats de crales
et donc sur le risque dexposition lochratoxine A, mais que cette variable a un eet nul
(voire ngatif) sur la probabilit que le niveau dexposition dpasse un seuil tolrable (i.e.
dans cette modlisation que soit trs lev).
Comme aucune information sur la distribution de la loi de 1 sachant 1 < nest sup-
pose, les estimateurs du maximum de vraisemblance de et , sobtiennent en estimant
respectivement le modle Probit dans la premire tape, que ce soit par des techniques pa-
ramtriques usuelles (maximum de vraisemblance si / est spci) soit par des techniques
non-paramtriques puis en estimant comme nous venons de le faire prcdemment , par
lestimateur du maximum de vraisemblance.
On notera que lun des inconvnients de ce modle est que le seuil au-del duquel la loi
est de type Pareto est suppos x. Une autre possibilit qui ne distingue pas entre les deux
tapes est de modliser directement le comportement de la queue de la distribution de la
variable A et non plus de la distribution des excs 1 .
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.4.2 Caractrisation des populations risque partir de la loi
des excs
Un modle possible est de considrer quau-del dun certain seuil d conditionnellement
aux vecteurs 2 = (2
i
)
0iq
o 2
0
= 1. la distribution des excs (distribution de A d
conditionnellement A d et 2) est du type
\
Y [Z
() =
1
o
_
1
_
1 I(2
t
,)
o
_
1(Z
0
o)
_
. (2.8)
o I est une fonction croissante borne (la borne suprieure tant 1,2) nulle en 0. Lindice
= I(2
t
,) est donc la transformation non-linaire I prs, une fonction linaire des
observations (en eet I
1
existe et I
1
() = 2
t
,) . Lhypothse de croissance de la fonction
I permet dinterprter directement le signe et la valeur des coecients (,
i
)
0iq
.
Ce type de spcication dans lequel lindice dpend de variables explicatives avec une
forme fonctionnelle linaire pour I. a t introduit par Davison & Smith (1990). Le fait que
la fonction de lien soit non borne induit nanmoins une structure trs forte sur la loi non
conditionnelle de 1 . En eet, si la loi de 2 charge tout R
. la loi agrge de 1 est de type

Pareto avec un indice de risque = , situation qui est rarement raliste en pratique.
Par ailleurs, si I(2
t
,) 1. lEMV nest mme pas convergent (voir Smith, 1987). Lin-
troduction dune fonctionnelle I borne par 1,2 (pour assurer la normalit asymptotique de
lestimateur du maximum de vraisemblance) permet dintroduire une plus grande exibilit
dans le modle : par ailleurs la forme de I peut galement donner des renseignements sur
dventuels phnomnes de seuil ou de saturation.
Dans ce cadre, la log-vraisemblance du modle (calcule sur les 1 valeurs 1
i
= A
i
d 0
et leurs covariables associes 2
[i[
) est donne par
|
W
(
1
. . . .
1
. o. ,) =
1
i=1
log o
_
_
1
1
I
_
.
t
[i[
,
_
_
_
log
_
_
1
I
_
.
t
[i[
,
_
o

i
_
_
.
Les estimateurs du maximum de vraisemblance de , et o sont solutions des quations
1o
1
i=1
I(.
t
[i[
,) 1
1
(:
.0
[.]
b
o)
b o

i
i
= 0
1
i=1
.
t
[i[
I
(1)
(.
t
[i[
,)
I(.
t
[i[
,)
_
1
I(.
t
[i[
,)
log(1 I(.
t
[i[
,)
i
, o) (1 I(.
t
[i[
,))

i
, o
1 I(.
t
[i[
,)
i
, o
_
= 0.
Linformation de Fisher du modle (dont le calcul est dtaill dans lannexe 2.E) vaut
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.5. ILLUSTRATION : RISQUE ALIMENTAIRE 61
1
1
(,. o) =
_
_
_
1
i=1
.
t
[i[
.
[i[
2
(1)
(:
0
[.]
o)
2
(1(:
0
[.]
o))(12(:
0
[.]
o))
1
o,o
=
1
i=1
:
[.]
(1)
(:
0
[.]
o)
(1(:
0
[.]
o))(12(:
0
[.]
o))
1
o,o
=
1
i=1
:
[.]
(1)
(:
0
[.]
o)
(1(:
0
[.]
o))(12(:
0
[.]
o))
1
o
2
1
12(:
0
[.]
o)
_
_
_
.
Ce modle est intressant dans la mesure o il permet partir de techniques classiques
destimation (EMV) dobtenir des informations sur limpact des variables exognes Z sur la
forme des queues de distributions et donc sur lindice de risque.
2.5 Illustration : risque alimentaire
2.5.1 Risque dexposition lacrylamide
An de montrer que la mthode propose peut permettre de quantier des risques trs
faibles (infrieurs en particulier 1/n), nous proposons ltude du risque li lexposition
lacrylamide, prsente essentiellement dans les frites et autres produits fris.
Lacrylamide (ACR) est un neurotoxique dont la prsence dans lalimentation nest re-
cherche que depuis peu. La communaut scientique la class comme "probablement car-
cinogne pour lhomme". Les aliments forte teneur en acrylamide sont les produits frits,
en particulier les pommes de terre. Les enfants seraient la population la plus expose du fait
de leur consommation plus importante des produits concerns. Dybing et al. (2005) propose
une revue complte de la littrature sur le sujet.
Les analyses en ACR dont nous disposons ont t ralises par des laboratoires de lin-
dustrie alimentaire et par lAFSSA (donnes publies dans la Saisine du 24 juillet 2002).
Celles-ci ont t compltes par des donnes OMS de la mme anne.
Les rfrences alimentaires correspondants ces aliments ont ensuite t identies dans
la nomenclature INCA puis regroupes en entits prsentes dans le tableau 2.2.
Lexposition est construite de manire dterministe (cf. cas 2 de la section 1.3.1) en
utilisant les donnes INCA de consommation et les moyennes de contamination prsentes
dans le tableau 2.2. Un histogramme de la distribution est prsente Figure 2.19.
La Figure 2.20 donne les estimateurs de obtenus en fonction de / ainsi que les valeurs
optimales issues de la minimisation de lEQMA en ajustant dans un premier temps la
queue de distribution une loi de Pareto perturbe par une fonction variation lente (VL) en
puissance, puis dans un second temps une fonction VL en log .
On obtient des valeurs optimales de / identiques pour les deux mthodes mais trs faibles
(/
+
= 30). Etant donne la forme de lestimateur de Hill qui rappelle celle des donnes
simules avec fonctions VL en log. il est donc intressant de regarder des valeurs plus
grandes de / lors de la minimisation de lEQMA dans le modle avec fonction VL en log :
on obtient alors une valeur optimale plus proche de celle obtenue pour une fonction VL
en puissance (note "Optimal + VL Log" sur la gure 2.20), ce qui laisse penser que est
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Tab. 2.2 Description des donnes pour lAcrylamide : Consommations (grammes par se-
maine) et contaminations (jg/kg) moyennes des produits concerns
moyenne de moyenne de
contamination consommation
Frites 1036.5 5.4
Chips 243.8 80.1
Pommes de terre prcuites 50.0 10.9
Pommes de terre dauphines 531.7 5.1
Pains 112.0 566.1
Toasts 49.7 16.1
Pains de mie 50.0 16.1
Biscottes 131.5 22.9
Produits laitiers 21.4 272.5
Ptisseries 125.8 177.0
Biscuits 258.5 29.9
Poissons frits 35.0 39.6
Chocolats 117.0 36.5
Crales petit djeuner 133.5 58.2
Caf 485.0 61.2
Chocolat en poudre 75.0 41.6
Boissons maltes 50.0 0.2
Fig. 2.19 Exposition lAcrylamide en jg/sem/kg p.c. (calcul dterministe par moyenne
de contamination)
proche de 0.13. Nous retiendrons donc les rsultats obtenus en considrant le modle 2.5. On
obtient alors une probabilit de dpasser la dose de 3 jg/sem/kg p.c. denviron 8 sur un
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Fig. 2.20 Estimation de lindice de risque pour lexposition lacrylamide
million.
Compte tenu des tudes actuelles, nous disposons dune dose de rfrence (RfD) de 0.2
jg/j/kg p.c. (soit 1.4 jg/sem/kg p.c.) ainsi que dune NOAEL de neurotoxicit (No Observed
Adverse Eect Level) de 0.5 mg/j/kg p.c. chez lanimal soit pour lhomme, une dose sans
eet neurotoxique de 3 jg/sem/kg p.c., en appliquant des facteurs de scurit intra-espce
(10) et inter-espces (10). Nous valuons la probabilit de dpasser la dose de rfrence (RfD)
et la dose sans eet (NOAEL) titre illustratif. Lacrylamide est en eet un contaminant
sans seuil pour lequel sapplique la rgle ALARA (As Low As Reasonably Achievable), i.e.
lexposition doit tre aussi faible que possible, moyennant un eort raisonnable : il ny a
donc pas de DHT et la caractrisation du risque utilise le concept de Margin Of Exposure
(MOE), se reporter FAO/WHO (2005) pour plus de dtails. Nous proposons une autre
caractrisation du risque utilisant les "Value at Risk" dordre 10
6
(VaR(10
6
)) : il sagit du
niveau dexposition tel que seul un individu sur un million le dpasse.
On observe eectivement que lexposition est plus forte (en moyenne et au P95) chez
les jeunes enfants (3-6 ans) comme le montre le tableau 2.3. Cependant le calcul de risque,
Ir(1 NOAEL). par la mthode des valeurs extrmes (EVT) montre que les queues de
distributions de lexposition des enfants plus gs (7-10 ans ) et des adolescents sont plus
paisses. De mme, la VaR(10
6
) la plus faible concerne les femmes et les adultes de plus de
60 ans. Ce type danalyse ne pourrait tre men en utilisant seulement lestimateur Plug-In
de Ir(1 NOAEL) qui est dans cet exemple toujours nul.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Tab. 2.3 Exposition lacrylamide en jg/sem/kg p.c.
Eectif Moyenne Ecart-type P95 P(DRfD) P(DNOAEL) P(DNOAEL) VaR(10
6
)
(EVT) (EVT)
Enfants 3-6 ans 341 6.89 3.30 13.40 99.1% 0 7.01E-06 170.1
Enfants 7-10 ans 344 5.67 2.94 11.02 97.4% 0 2.21E-04 205.4
Adolescents 11-14 ans 333 4.19 2.65 8.96 92.5% 0 4.61E-04 37.8
Adolescents 15-18 ans 143 3.05 1.82 6.54 84.6% 0 1.78E-04 38.9
Adultes 18-60 ans 1440 2.85 1.52 5.54 84.2% 0 1.54E-06 43.2
Dont hommes 658 2.96 1.59 5.85 85.4% 0 1.49E-06 115.8
femmes 782 2.76 1.46 5.36 83.1% 0 4.88E-07 31.2
Adultes + de 60 ans 402 2.77 1.51 5.42 82.6% 0 1.78E-06 37.5
2.5.2 Risque dexposition au mthylmercure
Description des donnes et rsultats obtenus
Le mthylmercure, forme toxique pour lhomme du mercure, est essentiellement prsent
dans les produits de la mer. Il peut occasionner des lsions du systme nerveux et de srieux
retards de dveloppement (baisse de quotient intellectuel) pour les enfants dont la mre a
t expose pendant la grossesse (WHO, 1990). De nombreuses tudes sont en cours pour
quantier prcisment le risque en France et dans de nombreux pays puisque certains eets
nfastes peuvent se produire des niveaux dexpositions qui peuvent tre atteints suite
une consommation "normale" de produits de la mer (Davidson et al., 1995; Grandjean et al.,
1997; National Research Council (NRC) of the national academy of sciences Price, 2000).
Les donnes relatives la contamination en mercure des produits de la mer ont t re-
cueillies par direntes administrations franaises (MAAPAR, 1998-2002; IFREMER, 1994-
1998). Nous disposons de 2643 analyses donnant la quantit de mercure (Hg) contenue dans
dirents produits de la mer. On obtient les teneurs en MeHg en appliquant aux teneurs en
Hg les facteurs de conversion suivants : 0.84 pour le poisson, 0.43 pour les mollusques et 0.36
pour les crustacs (Claisse et al., 2001; Cossa et al., 1989).
En consultant la nomenclature des produits de lenqute INCA, 92 rfrences corres-
pondant des produits de la mer ont t retenues. Seuls les consommateurs ayant une
consommation strictement positive de lun, au moins, de ces 92 aliments sont retenus pour
le calcul dexposition, soit 213,3003 = 84/ des individus de lenqute
2
.
Les donnes de contamination sont quant elles rparties en 3 groupes : les "poissons
daquaculture", les "poissons (sauvages)" et les "mollusques et crustacs". Nous avons donc
considr deux niveaux dagrgation : le niveau dsagrg (ND) pour lequel chacune des 92
rfrences alimentaires est relie un ensemble de donnes de contamination et le niveau
agrg (NA) pour lequel les 3 groupes de contamination servent de base au rapprochement
des nomenclatures. Pour le niveau ND, chaque consommateur est donc reprsent par un
vecteur de consommation de dimension 1 = 92 et son poids corporel, alors que pour le
2
Dans le cas de lutilisation de techniques de bootstrap (comme dans le Chapitre 3), les rchantillonnages
doivent tre faits sur lensemble de la population : ceci permet dintgrer dans les intervalles de conance la
variabilit de cette proportion de consommateurs de produits de la mer.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
niveau NA, un vecteur de dimension 1 = 3 donnant les quantits consommes de "poissons
daquaculture", "poissons (sauvages)" et de "mollusques et crustacs" est associ son poids
corporel.
La DHT pour le mthylmercure est de 1.0 jg/sem/kg p.c (rvision FAO/WHO, 2003).
Elle a t de nombreuses fois rvise ces dernires annes dans le but dassurer une meilleure
protection des consommateurs et, en particulier, celles des femmes enceintes et des foetus.
Certaines illustrations de ce chapitre 2 ont cependant t ralises avec des doses tolrables
plus anciennes que celle datant de la dernire rvision. Ces dernires appartiennent la
queue de distribution et font apparatre des rsultats similaires ceux trouvs dans le cas
de lacrylamide.
Tab. 2.4 Exposition aux mtaux lourds, NA : Niveau Agrg, ND : Niveau Dsagrg ;
D-MOY : Dterministe Moyenne, D- 97.5 : Dterministe P97.5, D-MAX : Dterministe Maxi-
mum; NP : Non Paramtrique ; PI : mthode Plug-In, VE : mthode Valeurs Extrmes.
Hypothse du modle Exposition (en jg/sem/kg p.c.) Probabilit
Niveau Procdure Moyenne P97.5 Maximum de dpasser la DHT
dagrgation de calcul PI EVT
ND D-MOY 0.628 2.712 17.213 7.40% 9.26%
D-MAX 9.167 39.989 110.486 75.05% 100%
NA D-MOY 1.113 4.202 10.796 21.53% 100%
D-97.5 4.807 18.270 46.760 76.72% 100%
D-MAX 16.039 60.573 155.832 92.40% 100%
NP 1.114 6.273 50.217 18.38% 75.63%
Le tableau 2.4, extrait de Tressou et al. (2004a), donne une synthse des distributions
dexposition obtenues selon direntes hypothses (voir la section 1.3.1) :
Dterministe
3
: en utilisant soit les moyennes de contaminations (D-MOY), soit les
97.5
` cnc
percentiles (D-97.5), soit les maxima (D-MAX)
Non Paramtrique (NP) : on procde des tirages alatoires avec remise dans la distri-
bution de consommation (relative) et dans chacune des distributions de contamination.
On donne alors la moyenne, le 97.
` cnc
percentile et le maximum dexposition pour len-
semble des consommateurs de produits de la mer, ainsi que la probabilit de dpasser la
DHT. Cette probabilit est calcule comme le pourcentage dexposition dpassant la DHT
(PI pour Plug-In) ou bien en utilisant le modle dvelopp dans ce chapitre (correction de
biais par introduction dune fonction variation lente de type puissance, EVT pour Valeurs
Extrmes).
Ces calculs ont t mens pour les deux niveaux dagrgation (NA et ND). On observe
ici le rle important du niveau dagrgation et de la procdure de calcul. En particulier, la
procdure non paramtrique (NP) permet dobtenir une variabilit plus importante (P97.5
3
Voc. : il sagit de lexposition construite de manire "distributionnelle", voir la section 1.3.1 pour une
discussion entre les deux termes.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Fig. 2.21 Correction de biais : exposition au methylmercure
plus lev) mais des moyennes quivalentes celles du calcul dterministe moyen (D-MOY) ;
le niveau le plus agrg (NA) donne des moyennes plus leves procdure de calcul identique.
Nous commentons les estimations de la probabilit de dpassement de la DHT dans la section
suivante.
La gure 2.21 donne, pour chaque hypothse de correction (Puissance sur le graphique de
gauche et Log sur le graphique de droite), les estimateurs
I
obtenus pour chaque / ainsi que
les indices de risque optimaux obtenus par minimisation de lEQMA. Les corrections obtenues
sont dans les deux cas beaucoup plus stables en fonction de / que ne lest lestimateur de
Hill. Nous observons des rsultats relativement proches puisque que les estimateurs optimaux
valent respectivement 0.39 et 0.30 sous les deux hypothses respectives.
Discussion
Les rsultats du tableau 2.4 montrent lintrt dadapter lvaluation de risque les tech-
niques issues de lEVT mais soulvent galement de nombreuses questions. Elles permettent
dtudier les queues de distributions dexposition un contaminant mais ne sont pas tou-
jours pertinentes pour lestimation de la probabilit de dpasser une dose tolrable, le risque
tel que nous lavons dni en introduction. Nous nous heurtons dans ce cas une limite de
lutilisation du modle propos dans ce chapitre. Comme lexplique le schma de la Figure
2.22, le calcul de la probabilit de dpassement dun seuil d nest pas toujours possible. En
eet, lorsque la dose d nest pas situe dans la queue de distribution mais plus vers le centre
de la distribution lestimateur calcul partir de la loi de Pareto sera fortement biais (cas
"Mauvaise estimation" du schma) voire toujours gal 1 (cas "Pas estimation" du schma).
Ceci peut tre dtect en comparant lestimateur de la probabilit de dpassement obtenu
par lajustement une loi de Pareto lestimateur Plug-In (nombre de valeurs dpassant d
sur nombre total de valeurs) : sils sont trop dirent ou si le premier vaut 1, la mthode
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Fig. 2.22 Limite de lutilisation de la thorie des valeurs extrmes dans le calcul de la
probabilit de dpassement dun seuil (DHT, par exemple).
propose (note VE) nest pas adquate et on utilisera plutt lestimateur Plug-In (PI) ainsi
que les outils fournis dans le chapitre 3, si lestimateur Plug-in est nul ou proche de 1,:. la
mthode propose prend alors toute sa dimension. En ce qui concerne le mthylmercure, la
DHT la plus rcente est de 1.0 jq,/q jc,:c:. elle valait auparavant 3.3 ou jq,/q jc,:c:.
Pour une DHT de 1.0, les deux estimateurs sont relativement dirents (9.4% pour VE contre
7.6% pour PI) comme nous lavions soulign dans Tressou et al. (2004a) ; par contre pour
des valeurs plus leves de d (3.3 ou 5), elles sont trs proches, respectivement autour de
1.5% et 0.5% pour VE et PI.
Par ailleurs, le modle de correction de biais suppose que les expositions observes sont
i.i.d. : cette condition nest pas vrie si les expositions sont obtenues par simulation de
type Monte Carlo. Par exemple, dans le cas dune distribution construite par la procdure
NP, la queue de la distribution est constitue des expositions issues de fortes consomma-
tions pondres par direntes valeurs de contamination : ces expositions ne sont donc pas
indpendantes.
Une autre particularit des donnes INCA pourrait remettre en cause cette indpendance
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
entre les expositions : certains mnages ont t interrogs intgralement et une dpendance
entre les consommations des individus dun mme mnage est trs probable. Pour liminer
cette dpendance, on propose de slectionner par tirage alatoire un membre du mnage pour
chaque mnage interrog intgralement : ceci rduit lchantillon de 213 1001 consomma-
teurs de produits de la mer. Les rsultats obtenus sont alors graphiquement quivalents mais
quelque peu dirents quant aux valeurs de qui sont un peu suprieures et plus proches
lune de lautre (0.43 et 0.41). Cependant, les probabilits de dpassement de la DHT (3.3
ou jq,/q pc/sem) sont tout fait similaires.
2.5.3 Caractrisation des populations exposes au mthylmercure
Les rsultats suivants ont t obtenus partir dinformations socio-dmographiques res-
treintes (catgories socio-professionnelles, diplmes, structure familiale, variables gogra-
phiques) issues du panel SECODIP associes aux donnes de contamination par le mercure.
Lexposition des mnages est calcule de manire dterministe en aectant aux consomma-
tions de produits de la mer les moyennes de contamination observes
4
. Les rsultats suivants
montrent lintrt dune approche en deux tapes. Ltape Probit de (2.7) (sous lhypothse
usuelle de normalit des rsidus du modle latent) et le modle (2.8) ont t estims par
la mthode du maximum de vraisemblance. La plupart des covariables utilises dans ces
modles sont qualitatives : le nombre de paramtres estimer, proportionnel au nombre de
modalits des variables, devient vite trs important, ce qui, ajout au caractre fortement
non linaire des vraisemblances, rend loptimisation dicile.
La Figure 2.23 permet de comparer les estimateurs du maximum de vraisemblance dans
le modle probit (appartenance ou non la queue de distribution) obtenus lorsque lon
fait varier le nombre dindividus retenus dans la queue de distribution partir dun seuil
d
1
susamment grand (ici de lordre 1.7mg). Ceci permet dviter lcueil du choix de d
et donc de voir dans quelle mesure les estimateurs obtenus sont robustes ce choix. Les
intervalles de conance tant trs serrs autour de la valeur estime, ils nont pas t re-
prsents sur le graphique : seules quelques variables (les variables de diplme) ne sont pas
signicatives.
On note sur ce graphique la trs grande stabilit des coecients. La variable de rfrence
pour les CSP est la catgorie profession intermdiaire. Toutes les autres catgories ont un
impact ngatif (par rapport la rfrence) sur lappartenance la rgion risque : limpact
est particulirement marqu pour les agriculteurs et les inactifs (chef de famille inactif), ce
qui sinterprte facilement par la part trs faible des produits de la mer dans la consommation
de ces catgories. Le fait davoir des enfants a aussi un impact ngatif fort sur lappartenance
la rgion risque.
Dans les graphiques suivants, nous analysons limpact des variables retenues sur le risque,
cest--dire la potentialit de lindividu se trouver dans les rgions extrmes en fonction des
variables retenues. Nous prsentons dans les Figures 2.24 2.26 les estimateurs ainsi que les
intervalles de conance dans le modle (2.8) associs aux variables de CSP, diplme et avec
4
Dans cette application, nous avons travaill sur les expositions des mnages, nous proposons dans le
chapitre 5 une mthode de dsaggrgation des donnes mnage en donnes individuelles.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Fig. 2.23 Coecients estims du modle Probit
enfant/sans enfant. Les variables de rfrence sont respectivement pour la CSP profession
intermdiaire, "BEPC" pour les diplmes et "sans enfant".
Fig. 2.24 Estimation de limpact des variables CSP sur le risque dexposition au mercure.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Fig. 2.25 Impact du diplme sur le niveau du risque dexposition au mercure
Fig. 2.26 Impact de la variable sans Enfant sur le niveau du risque dexposition au mercure
On constate que lappartenance aux CSP "agriculteurs" et "professions librales" a un
impact ngatif sur le risque dexposition. Ce phnomne peut tre expliqu de plusieurs
manires :
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
il rete des pratiques alimentaires propres aux CSP (les agriculteurs mangent eecti-
vement peu de produits de la mer),
leet de linformation sur la contamination potentielle des produits peut avoir un eet
plus grand chez les professions librales que chez dautres CSP.
Par ailleurs, lappartenance aux CSP Cadre Sup, Employ et Retrait a un impact
positif signicatif (quel que soit le seuil choisi) sur le risque. Pour les premiers, on peut penser
que cet eet est li au revenu, les produits contenant du mercure tant des produits chers.
Pour les retraits, on peut penser quil sagit la fois dun eet gographique bord de mer
(nous navons pas pu inclure de variables gographiques) et des prfrences alimentaires
marques (poisson plus consomm que la viande pour ses supposes valeurs nutritionnelles
et ses qualits masticatrices...).
La Figure 2.26 tudie limpact des variables avec enfants, sans enfant. Il montre
que le fait davoir des enfants (variables de rfrence sans enfant) a un impact ngatif
signicatif sur le risque. On notera que le coecient est toujours signicativement dirent
de zro mais que la valeur parait assez instable suivant le nombre dobservations retenues.
Dautres variables introduites dans le modle semblent plus dicile interprter, cest
par exemple le cas du diplme du chef de famille. Selon le choix de /. limpact des variables
peut tre positif ou ngatif par rapport la variable de rfrence (ici "Bac") par ailleurs
les intervalles de conance sont trs larges. Il ne nous parat pas possible dinterprter les
rsultats dans ce cas.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Annexe 2.A Donnes de consommation franaises
2.A.1 Lenqute individuelle nationale sur les consommations ali-
mentaires (INCA)
Lenqute INCA a t ralise par le centre de recherche pour ltude et lobservation
des conditions de vie (CREDOC) en 1998-1999, pour le compte de clients institutionnels et
privs. Les commanditaires de lenqute INCA sont la direction gnrale de lAlimentation
(DGAL), lAgence Franaise de Scurit Sanitaire des Aliments (AFSSA), les groupes Da-
none (Belin-Lu) et Nestl, ainsi que les oces et les interprofessions de plusieurs secteurs
agro-alimentaires : produits sucrs (ASPCC), produits laitiers (CIDIL), viandes (CIV), vins
(ONIVINS). Elle a fait lobjet dun rapport (CREDOC-AFSSA-DGAL, 1999) coordonn
par Jean-Luc Volatier, responsable de lunit dobservation des consommations alimentaires
(OCA) de lAFSSA.
Cette enqute vise quatre objectifs principaux :
connatre les consommations individuelles relles ainsi que leurs dterminants, par oc-
casion (petit djeuner, djeuner, goter, dner, en-cas) et par lieu de consommation
(au domicile et hors foyer),
suivre lvolution des pratiques et des connaissances dans le domaine de lalimentation
et de la nutrition,
identier les apports nutritionnels partir des consommations dclares et en dduire
la situation nutritionnelle des consommateurs en fonction de leurs besoins,
analyser les opinions et attitudes des consommateurs, notamment dans le domaine de
la nutrition et de la scurit alimentaire.
Lenqute INCA a t conduite selon une mthodologie proche de celle employe lors
des prcdentes enqutes de consommation individuelle (enqute CEDUS-ASPCC, 1994 et
enqute "Restauration hors foyer", DGCCRF-CREDOC, 1994). Le relev des consommations
alimentaires a t eectu laide dun carnet de consommation, sur une priode de 7 jours
conscutifs, lidentication des aliments et des portions tant facilite par lutilisation dun
carnet photographique (carnet ralis pour lenqute SUI.VI.MAX, Hercberg et al., 2004).
Les 3003 carnets de consommation recueillis correspondent 75889 prises alimentaires et
environ 900 rfrences alimentaires formant 48 groupes daliments.
Lenqute INCA repose sur un chantillon constitu de 1985 personnes de 15 ans et plus
et de 1018 enfants et jeunes adolescents de 3 14 ans, soit au total 3003 individus. Pour
viter les eets de grappe, tous les individus nont pas systmatiquement t interrogs : sur
un total de 1865 foyers enquts, le relev des consommations a t exhaustif (interview de
tous les membres du foyer de 3 ans ou plus) dans 812 mnages, tandis que dans les 1053
autres mnages, la personne interroge a t tire au sort. Cette mthodologie permet la
fois de disposer de rsultats au niveau mnage et au niveau individuel, pour les adultes et
les enfants.
La reprsentativit de lchantillon a t assure :
par stratication sur les variables rgion gographique et taille dagglomration
et par la mthode des quotas sur les variables ge, sexe, profession et catgorie socio-
professionnelle (CSP), taille du mnage.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.A. DONNES DE CONSOMMATION FRANAISES 73
Pour intgrer les eets de saisonnalit, la ralisation des enqutes a t programme sur
une priode de 11 mois (aot 1998 juin 1999), segmente en quatre vagues.
La mthodologie retenue vise donc viter certains biais bien connus : non-reprsentativit
nationale, saisonnalit, eet de lassitude en n denqute. La sur-reprsentation des enfants,
qui constituent un tiers de lchantillon, est volontaire de la part des commanditaires de
lenqute : elle a pour but ltude cible du comportement alimentaire des enfants. Ceci im-
plique que, sauf dans des objectifs purement mthodologiques, nous ne pourrons pas tudier
la population entire en termes de risques alimentaires moins de redresser lchantillon
pour prendre en compte cette sur-reprsentation des plus jeunes. Cette enqute comprend
donc deux chantillons : celui des enfants et celui des adultes.
Les sous-dclarants, identis par un apport nergtique du bol alimentaire dclar trop
faible pour tre vraisemblable, sont en gnral carts des analyses ralises partir des
donnes INCA. Toutefois, le retrait de ces individus (au total 511 adultes sur 1985, soit
26%) fausse la reprsentativit de lchantillon et nous ne leectuons pas dans la plupart
de nos travaux sauf pour raliser des comparaisons avec dautres tudes. La sous-dclaration
est un biais bien connu, en particulier pour ce qui concerne les boissons alcoolises dont la
valeur nergtique est leve. Lutilisation dapports nergtiques moyens "vraisemblables"
pour une majorit dindividus peut aussi conduire carter de lanalyse certains individus
au comportement atypique comme par exemple les forts consommateurs de poissons qui
prsentent un apport calorique faible.
La dure de lenqute (7 jours) savre plutt longue pour une enqute individuelle, les
enqutes de deux ou trois jours conscutifs ou non tant les plus frquentes en Europe. Tou-
tefois, dans un but destimation de la consommation de long terme, cette enqute engendre
un biais dinfrquence dachat. En eet, les produits consomms rarement peuvent ne pas
tre capts par ce type denqute malgr les direntes vagues denqute.
Un autre biais semble toutefois merger force de comparaisons entre ces donnes et
le panel SECODIP, dcrit ci-aprs : un biais que nous avons choisi dappeler le biais du
"bien-manger". En eet, tant donns les objectifs achs de lenqute INCA et la courte
dure de lenqute, il est probable que le comportement alimentaire se trouve modi en
faveur dun meilleur quilibre alimentaire ou du moins en faveur des aliments connotation
nutritionnelle positive (comme le poisson par exemple), mais pour la seule dure de lenqute,
probablement.
2.A.2 Le panel SECODIP
La socit prive SECODIP (Socit dEtudes de la Consommation, de la DIstribution et
de la Publicit, qui sappelle dornavant TNS Secodip, http ://www.secodip.fr) rpertorie les
achats des mnages franais depuis 1989. Ces donnes (Boizot, 2005, pour une prsentation
de ces donnes) sont achetes par lINRA depuis 1989 dans un dlai de 2 ans suivant leur
recueil et conserves au LAboratoire de REcherche sur la COnsommation (CORELA) Ivry
sur Seine : les donnes de 2002 sont en cours de traitement au CORELA (mise en forme de
la base, vrication des formats, tests de cohrence, etc.).
Le format de la base volue continuellement : les achats taient initialement relevs sur
papier de manire hebdomadaire, la liste des produits augmentant progressivement, puis, en
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
1996 a t introduite la scannette permettant la lecture optique des codes-barre (EAN) dun
grand nombre de produits ; enn, une technologie encore plus avance, le palm, est mise
en place en 2005. Ces changements de mode de recueil des donnes engendrent des biais
rendant diciles le suivi de long terme de certains produits qui ntaient pas initialement
enregistrs. Par ailleurs, certaines sous-populations (les hommes seuls) ntaient initialement
pas interrogs. Pour limiter le temps de recueil et favoriser lacceptation de participation
au panel, chaque mnage ne rpertorie pas lensemble de ses achats : de 1989 1995, deux
panels disjoints de mnages relevaient leurs achats de produits (types de produits dirents
selon les panels) ; depuis 1996, le panel gnral comprend deux sous-panels, lun relevant les
"Viandes et Poissons frais" et lautre les "Fruits et Lgumes frais" en plus des autres produits
(avec EAN). On ne dispose donc pas pour un mme mnage de lensemble de ses achats.
Pour un motif de cohrence des donnes, seules les donnes de 1996 2001 sont utilises.
Pour chacun des achats, sont fournis : la quantit (en kilogrammes, litres ou nombres
dunits) le prix dachat, le lieu dachat (type de magasin), la marque du produit, etc.
Concernant les mnages, la composition du foyer en termes dge, de sexe, de CSP, de ni-
veau dtude est dtaille et des informations globales de type Rgion, Type de commune,
Classe conomique et sociale, Possession dappareils lectromnagers (conglateur), Prsence
danimaux domestiques, Existence dun jardin. . . sont aussi fournies. Les panels sont initia-
lement constitus par un sondage alatoire strati selon la rgion de rsidence et le type
dhabitat, puis renouvels tous les quatre ans. Certaines populations sensibles (personnes
ges) sont recrutes directement pour assurer une certaine reprsentativit nationale des
mnages. Par ailleurs, TNS Secodip fournit pour chaque panel des poids dactivit calculs
par calage sur marges pour chaque mnage. Ces poids permettent de dterminer si le mnage
a t assidu dans ses dclarations (ils sont alors "actifs") et de caler les mnages actifs sur
certaines variables socio-dmographiques.
Ces achats alimentaires des mnages permettent dobtenir une valuation de la consom-
mation alimentaire domicile en supposant par exemple que les repas pris chez des amis sont
compenss par ceux pris par des visiteurs au domicile. Ces donnes prsentent lavantage de
couvrir des priodes longues (un mnage est prsent dans la base en moyenne 4 ans) et per-
mettent ainsi dvaluer les consommations occasionnelles, non captures par une enqute de
7 jours comme lenqute INCA. Le fait que les achats soient recueillis sur une longue priode
et dans un but commercial contrairement aux donnes INCA qui sont clairement recueillies
dans un objectif de sant publique permet probablement dviter le biais du "bien-manger"
dcrit prcdemment.
Les avantages de ces donnes rsident essentiellement dans le fait quelles sont la seule
source permettant de suivre sur longue priode la consommation des franais. Les inconv-
nients majeurs sont au nombre de trois :
1. il sagit dachats et non de consommations, ce nest donc quun "proxy" de la consom-
mation domicile,
2. les achats sont faits par le mnage et les quantits sont recueillies au niveau des mnages
et non des individus,
3. enn, les donnes dachat SECODIP ne comportent pas (jusquen 2001 inclus) dinfor-
mations concernant le poids corporel des individus. Cette donne est demande depuis
2002.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.A. DONNES DE CONSOMMATION FRANAISES 75
En ce qui concerne le point 1, lutilisation dinformations annexes (enqutes sur la res-
tauration hors foyer, propension recevoir des visiteurs selon certaines variables socio-
conomiques) peut permettre de corriger ce premier biais des donnes dachat. Par exemple,
il est possible dutiliser les informations concernant le lieu de prise des repas fournies par
INCA : on redresse alors la consommation domicile de SECODIP par le ratio consommation
domicile sur consommation totale estim dans INCA.
Pour remdier au point 2, la solution habituelle est de diviser les quantits "consommes"
par la taille du mnage : on obtient ainsi des consommations identiques pour chaque membre
du mnage (voir par exemple Caldas et al., 2005). Nous proposons dutiliser la structure
des mnages en particulier en termes dge et de sexe des individus pour estimer la part de
chaque individu au sein du mnage. Lutilisation de splines et dun modle mixte nous a en
eet permis de dcomposer ces donnes mnages en donnes individuelles ; les donnes INCA
avec enqute exhaustive au sein des mnages servant de validation. Cest lobjet du chapitre
5 de cette thse.
Enn, le dernier point est abord pragmatiquement en estimant le poids corporel des
individus en fonction de leur ge et sexe.
2.A.3 Les autres sources de donnes sur la consommation
Dans le cadre de cette thse, nous avons trs peu eu recours dautres sources de don-
nes. Ces direntes sources de donnes peuvent tre combines pour mieux caractriser les
comportements alimentaires : ceci fait lobjet de recherches actuelles. En particulier, lutilisa-
tion doutils tels que la vraisemblance empirique permet ce type de combinaisons de sources
sans recours un modle paramtrique particulier (voir par exemple dans le tome annexe,
Crpet et al., 2005).
Lenqute Budget des familles de lInstitut National de la Statistique et des Etudes Eco-
nomiques (INSEE), qui comprenait un volet sur les achats alimentaires jusquen 1991, est
utilise au CORELA mais est trop ancienne pour servir une valuation de risque alimen-
taire. Nichle (2005) montre la dicult de relier les donnes INSEE aux donnes SECODIP.
Lenqute ASPCC, mentionne comme "lanctre" dINCA dans la section prcdente,
comptabilise lensemble des prises alimentaires domicile ou hors foyer de 1500 individus
(chantillon reprsentatif de la population franaise) et a t ralise entre juin 1993 et juin
1994.
La cohorte SU.VI.MAX (Hercberg et al., 2004) de lInstitut Scientique et Technique de
la Nutrition et de lAlimentation (ISTNA), mise en place en 1994, vise valuer limpact
dun apport supplmentaire en vitamines et minraux anti-oxydants dans la prvention des
cancers et des maladies cardio-vasculaires.
Lenqute "Restauration hors foyer", ralise par le CREDOC et la Direction gnrale de
la Concurrence, de la Consommation et de la Rpression des Fraudes (DGCCRF) en 1994,
inclut toutes les consommations prises hors foyer, lexclusion des aliments emports de
chez soi et des repas pris chez des amis ou des membres de la famille. Cette enqute pourrait
tre utilise pour quantier la restauration hors foyer et corriger le manque des donnes
SECODIP par exemple bien quelle soit maintenant un peu ancienne.
Dautres enqutes plus ponctuelles et cibles sur certains aliments peuvent permettre de
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
mettre en vidence le manque des donnes globales : cest par exemple le cas des donnes
ONIVINS (Dhauteville et al., 2001) sur la consommation de vin des franais. LINRA peut
aussi, dans le cadre de projets de recherche, mener des enqutes sur des aliments particuliers :
cest le cas actuellement en ce qui concerne la consommation de produits de la mer, en
particulier chez les femmes en ge de procrer ou enceintes.
Annexe 2.B Rappel sur la thorie des valeurs extrmes
2.B.1 Thorme de Fisher & Tippett (1928)
On dira que deux fonctions de rpartition H et G sont de mme type sil existe c 0 et
/ tels que, pour tout r 1. on a G(r) = H(cr /) (elles appartiennent la mme famille
homothtie-translation).
Ensuite, si G est une fonction de rpartition non dgnre, son domaine dattraction est
dni par
1(G) = 1. f.d.r telle que c
a
0 et /
a
tels que 1
a
(c
a
r /
a
) G(r). \r 0.
Cela signie que si 1 1(G), alors la suite de variables alatoires
A
n,n
b
n
o
n
converge en loi
vers une variable alatoire de fonction de rpartition G lorsque : . On a alors le rsultat
essentiel de caractrisation des fonctions de rpartition de domaine dattraction non vide.
Thorme 2.B.1 (Fisher & Tippett (1928)) 1(G) ,= O == G appartient lun des
trois types suivants :
G(r) = G
o
(r) =
_
_
_
cxp(cxp(r)) r R. si , = 0
cxp((r)
1o
) r 0. si , 0
cxp((r)
1o
) r < 0. si , < 0
Gumbel,
Frchet,
Weibull.
Par consquent, il y trois et seulement trois domaines dattraction possibles pour le com-
portement asymptotique du maximum. Ce rsultat est comparer celui du thorme cen-
tral limite o il nexiste quune seule loi limite, la loi normale ( une homothtie-translation
prs). Il est possible de regrouper ces 3 types de fonction sous une mme formalisation. Cette
reprsentation est dite de Jenkinson-von Mises :
H
o
(r) =
_
cxp
_
(1 ,r)
1o
_
si , ,= 0
cxp cxp(r) si , = 0.
pour 1 ,r 0.
On peut alors classer les fonctions de rpartition par domaine dattraction.
2.B.2 Fonctions variation lente et rgulire
Les thormes de caractrisation font appel la notion de fonction variation rgulire
(au voisinage de ) et de fonction variation lente (Bingham et al., 1987).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.B. RAPPEL SUR LA THORIE DES VALEURS EXTRMES 77
Dnition 2.B.1 1(.) est une fonction variation lente linni si elle est mesurable,
positive sur [0: [ et si :
\r 0.
1(tr)
1(t)
to
1.
On notera 1 1
0
.
Dnition 2.B.2 Une fonction / sera dite variation rgulire dindice c linni (/
1
c
) si :
\r 0. lim
to
/(tr)
/(t)
= r
c
==/(r) = r
c
1(r) o 1 1
0
.
Des exemples typiques de fonctions variation lente sont ln(r)
0
avec o R, 1 r
j
avec
j 0 mais encore cxp((log(r))
c
). 0 < o < 1 ou tout produit de celles-ci.
2.B.3 Caractrisation des trois domaines dattraction
Pour chaque loi dattraction, on rappelle la fonction de rpartition de la loi limite G et
on donne la condition dappartenance son domaine dattraction ainsi que des valeurs des
paramtres c
a
et /
a
pour lesquels on a :
A
a,a
/
a
c
a
|ci
ao
`, avec ` de fonction de rpartition G.
Nous prsenterons aussi quelques exemples de lois appartenant chaque domaine dat-
traction.
1. Lois de type Frchet
1
(r) =
_
cxp(r
) si r 0.
0 sinon,
alors 1 1(1
) ==1 1
1
0.
Dans ce cas on peut montrer que les suites c
a
= 1
(1
1
a
) et /
a
= 0 conviennent.
On trouve par exemple dans ce domaine dattraction les lois de Pareto, de Cauchy
ou de Student. Ces lois sont caractrises par des supports non borns droite et des
queues de distribution paisses.
2. Lois de type Weibull
\
(r) =
_
cxp((r)
) si r < 0.
1 sinon,
alors 1 1(1
) ==:(1) < et

1(:(1)
1
a
) = r
1
1(r).
o 1(.) 1
0
. Les suites c
a
= :(1) 1
(1
1
a
) et /
a
= :(1) conviennent.
Ce domaine dattraction est celui des lois support ni droite (:(1) < ). Cest
le cas par exemple des lois uniformes et des lois Beta. Le coecient qui intervient
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
dans la caractrisation est li au comportement de la loi des observations prs du point
terminal :(1).
3. Lois de type Gumbel
G
0
(r) = cxp(cxp(r)) alors 1 1(G
0
) ==q 0 telle que lim
t,c(1)
1(t r.q(t))
1(t)
= c
a
.
On montre que les suites c
a
= q(/
a
) et /
a
= 1
(1
1
a
) conviennent.
Ce dernier domaine dattraction comprend par exemple les lois exponentielles, normales
ou log-normales i.e. les lois support non born droite et de queues de distribution
peu paisses.
Annexe 2.C Quelques rsultats sur les statistiques dordre
Cette section prsente des rsultats classiques sur les statistiques dordre. Les dmons-
trations ultrieures y feront rfrence.
2.C.1 Lemme de base
Soit A une variable alatoire de fonction de rpartition 1
A
continue et l une variable
alatoire de loi uniforme sur [0. 1[, alors :
1. l
1ci
= 1
A
(A) et A
1ci
= 1
A
(l).
2. Ce rsultat est aussi vrai pour les statistiques dordre dun :-chantillon notes res-
pectivement (A
1,a
. . . . . A
a,a
) pour la v.a. A et (l
1,a
. . . . . l
a,a
) pour la v.a. l de loi
uniforme sur [0. 1[ :
(l
1,a
. . . . . l
a,a
)
1ci
= (1
A
(A
1,a
). . . . . 1
A
(A
a,a
)) .
(A
1,a
. . . . . A
a,a
)
1ci
= (1
A
(l
1,a
). . . . . 1
A
(l
1,a
)) .
Ainsi, toute variable alatoire de fonction de rpartition susamment rgulire peut
sexprimer en fonction de la loi uniforme.
3. De plus, (l
1,a
. . . . . l
a,a
)
1ci
=
_

1
n+1
. . . . .

n
n+1
_
o I
i
= 1
1
. . . 1
i
avec 1
)
~ 1rj(`).
Ceci est vrai pour ` 0 quelconque.
2.C.2 Construction dcarts
Ce dernier rsultat relve de proprits plus gnrales sur les carts entre statistiques
dordre (Pyke, 1965). En particulier, notons 1
l
i
= l
i,a
l
i1,a
pour i = 1. . . . . : 1 avec
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.C. QUELQUES RSULTATS SUR LES STATISTIQUES DORDRE 79
par convention l
0,a
= 0 et l
a1,a
= 1, alors la densit de (1
l
1
. . . . . 1
l
a1
) est :
,
(
1
U
1
,...,1
U
n+1
)
(d
1
. . . . . d
a1
) =
_
:! si d
i
_ 0 et d
1
. . . d
a1
= 1.
0 sinon.
On peut alors montrer que (Pyke, 1965) :
_
1
l
1
. . . . . 1
l
a1
_
1ci
=
_
1
1
I
a1
. . . . .
1
a
I
a1
_
.
On retrouve par consquent le dernier point du Lemme de base par transformation continue.
De plus, en ce qui concerne les carts de statistiques dordre exponentielles (1
i
~ 1rj(`)),
en notant 1
1
i
= 1
i,a
1
i1,a
pour i = 1. . . . . : avec par convention 1
0,a
= 0, on peut montrer
que les carts normaliss vrient la proprit suivante :
_
`(: i 1)1
1
i
. i = 1 . . . :
_
~ 1rj(1)
~a
.
Ceci permet de justier la reprsentation de Rnyi qui sera utilise dans chaque mthode
de correction du biais (voir section 2.3).
2.C.3 Reprsentation de Rnyi
Soit (1
1
. . . . . 1
a
) un :-chantillon dune loi exponentielle de moyenne 1. Soit H sa fonc-
tion de rpartition (H(r) = 1 c
a
), on note 1
ai1,a
=
a
)=i
1
n+1
)
=
ai1
|=1
1
I
a|1
.
Daprs le rsultat prcdent, on a :
\i = 1. . . . . :. (: i 1) (1
i,a
1
i1,a
) ~ 1rj(1).
ce qui implique que
\i = 1. . . . . :. 1
ai1,a
=
ai1
)=1
1
)
: , 1
=
ai1
)=1
(1
),a
1
)1,a
)
1ci
= 1
ai1,a
.
Ainsi, pour H(r) = 1 cxp(r). on a H(1
ai1,a
) = 1 cxp(1
ai1,a
)
1ci
= l
ai1,a
o
l
ai1,a
dsigne toujours la (:i1)
` cnc
statistique dordre dune loi uniforme. On retiendra
que :
cxp(1
ai1,a
)
1ci
= 1 l
ai1,a
1ci
= l
i,a
==1
ai1,a
1ci
= log(l
1
i,a
).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Annexe 2.D Correction de biais pour une fonction
variation lente de type logarithmique
2.D.1 Preuve du thorme 2.3.2
On suppose initialement que
1 1(r) = Cr
c
(log r)
0
.
Alors linverse gnralise de 1 est donne par
1
(1 ) =
_
C
_
_
log
1
_
0
= C
1
_
log
1
_
0
.
avec C
1
= C
0
. Ainsi, on a :
log A
ai1,a
= log (1
(1 l
i,a
)) = log l
1
i,a
o log
_
log l
1
i,a
_
.
Comme log l
1
i,a
= 1
ai1
, on a :
2
i
= 1
ai1
_
1 io
log
_
log l
1
i,a
_
log
_
log l
1
i1,a
_
1
ai1
_
.
Or, i
_
log
_
log l
1
i,a
_
log
_
log l
1
i1,a
__
= i log
T
n.+1
T
n.
i(1
ai1
1
ai
)
1
T
n.

1
n.+1
log
n
.
do
le rsultat :
2
i
=
_
1
o
log
a
i
_
1
ai1
cxp
_
o
log
a
i
_
1
ai1
.
2.D.2 Estimation des paramtres du modle
Il est alors possible destimer les paramtres par la mthode du maximum de vraisem-
blance avec 2
i
~ 1rj
_
1
cxp
_
0
log
n
.
__
. pour i variant de 1 /, 2 _ / _ : 1.
La log-vraisemblance scrit :
ln 1(2
1
. . . . . 2
I
: . o
1
) = / ln o
I
i=1
1
log
a
i
1
I
i=1
cxp
_
o
log
a
i
_
2
i
.
On cherchera donc minimiser numriquement ln
0
I
I
i=1
1
log
n
.

1
I
I
i=1
cxp
_
0
log
n
.
_
2
i
.
On pourra galement mettre en oeuvre la mthode des moindres carrs non linaires en
considrant la rgression
\
i
= log 2
i
= log o
_
log
:
i
_
1
log 1
ai1
= j o
_
log
:
i
_
1
i
.
o j = log j
0
, avec j
0
= 1(log 1
1
) = 0. 772...(constante dEuler) et
i
= log 1
i
j
0
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
2.E. CALCUL DE LINFORMATION DE FISHER 81
On minimisera alors lexpression suivante
o(. o) =
I
i=1
_
\
i
j o
_
log
:
i
_
1
_
2
.
Annexe 2.E Calcul de linformation de Fisher
On a dans le modle (2.8),
J
2
|
W
(
1
. . . . .
1
)
J,J,
t
=
1
i=1
.
0
[i[
.
[i[
_
2
i
I
(1)
(.
t
i
,)
2
oI(.
t
i
,)
2
(1
j
.
o
I(.
t
[i[
,))
log[1

i
o
I(.
t
[i[
,)[
_
2I
(1)
(.
t
i
,)
2
I(.
t
i
,)
S

I
(2)
(.
t
i
,)
I(.
t
i
,)
2
_
(1
1
I(.
t
i
,)
)(

2
i
I
(1)
(.
t
i
,)
2
o
2
(1
j
.
o
I(.
t
[i[
,))
2

i
I
(2)
(.
t
i
,)
o(1
j
.
o
I(.
t
[i[
,))
_
.
J
2
|
W
(
1
. . . . .
1
)
J
2
o
=
1
o
2

1
i=1
(1
1
I(.
t
i
,)
)
_

2
i
I(.
t
[i[
,)
2
o
1
(1
j
.
o
I(.
t
[i[
,))
2

2
i
I(.
t
[i[
,)
o
S
(1
j
.
o
I(.
t
[i[
,))
_
.
J
2
|
W
(
1
. . . . .
1
)
J,Jo
t
=
1
i=1
i
.
[i[
I
(1)
(.
t
[i[
,)
o
2
(1
j
.
o
I(.
t
[i[
,))
_

i
(I(.
t
[i[
,) 1)
o(1
j
.
o
I(.
t
[i[
,))
1
_
.
On en dduit lexpression de la matrice dinformation de Fisher
1(,. o) = 1
_
0
2
|
V
(j
1
,...,j
1
)
0o0o
0
0
2
|
V
(j
1
,...,j
1
)
0o0o
0
0
2
|
V
(j
1
,...,j
1
)
0o0o
0
0
0
2
|
V
(j
1
,...,j
1
)
0
2
o
_
=
_
1
o,o
1
o,o
1
t
o,o
1
o,o
_
.
avec
1
o,o
=
1
i=1
.
[i[
I
(1)
(.
t
[i[
,)
o(1 I(.
t
[i[
,))(1 2I(.
t
[i[
,))
.
1
o,o
= 2
1
i=1
.
[i[
.
t
[i[
I
(1)
(.
t
[i[
,)
2
(1 I(.
t
[i[
,))(1 2I(.
t
[i[
,))
.
1
o,o
=
1
o
2

2
o
2
1
i=1
1 I(.
t
[i[
,)
1 2I(.
t
[i[
,)
=
1
o
2
1
1 2I(.
t
[i[
,)
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Chapitre 3
valuation empirique des risques :
U-statistiques et U-statistiques
incompltes
Les valuateurs de risque ont de plus en plus recours une quantication empirique du
risque ds que des donnes de consommation et de contamination dtailles sont disponibles
(cf. section 1.3.1). Un des objets de cette thse est de valider par la thorie asymptotique
ces mthodes de calcul trs utilises en pratique. Nous montrons dans ce chapitre que les-
timateur de la probabilit de dpasser une dose tolrable scrit dans ce cadre comme une
U-statistique gnralise incomplte. Cette constatation thorique permet non seulement
de mieux comprendre pourquoi les mthodes de type Monte-Carlo proposes par de nombreux
logiciels pour le calcul de risque dexposition sont asymptotiquement valides, mais permet
aussi destimer trs prcisment la variance asymptotique des estimateurs considrs et donc
de construire des intervalles de conance pour certaines quantits dintrt fondamentales
dans lvaluation quantitative des risques alimentaires.
Dans un premier temps, nous dcrivons le problme destimation considr et montrons
que lestimateur plug-in du risque est une U-statistique gnralise. Cette classe de statistique
introduite dans les annes 40 par P. R. Halmos et W. Hoeding comprend un grand nombre de
statistiques usuelles (moyenne, variance, statistiques de tests et autres estimateurs largement
utiliss). La thorie sur les U-statistiques (Hoeding, 1948; Lee, 1990; Borovskikh, 1996, voir
galement lannexe 3.A) fournit des outils unis et puissants pour ltude de lestimateur de
risque. En particulier, nous obtenons le comportement asymptotique de lestimateur plug-in
du risque et la validit du bootstrap pour lestimation de sa variance.
En pratique, lestimateur plug-in est approch par une simulation de type Monte Carlo
de taille 1 : ceci revient utiliser une version incomplte de la U-statistique de dpart que
nous dnissons. Nous montrons alors que les comportements asymptotiques des versions
compltes et incompltes de la U-statistique gnralise dirent peu ds que le nombre de
tirages 1 est susamment grand, en particulier devant la taille des chantillons disponibles
de consommation et de contamination (Blom, 1976, pour un descriptif des proprits des
U-statistiques incompltes).
Nous proposons galement plusieurs mthodes de construction dintervalles de conance
83
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
84 CHAPITRE 3. VALUATION EMPIRIQUE DES RISQUES
fondes sur deux estimateurs de la variance asymptotique : (i) un estimateur de type boots-
trap (ii) un estimateur de type jackknife reposant sur la dcomposition de Hoeding de la
U-statistique de dpart. Ce second estimateur permet de mieux comprendre comment la
variance du risque se dcompose. Nous comparons ensuite les intervalles de conance de
type "basic bootstrap" et "t-percentiles" (obtenus par studentisation de la statistique par
lcart-type issu de (ii)) sur donnes simules.
En guise dillustration, nous nous intressons lexemple de lvaluation du risque dexpo-
sition lochratoxine A (OTA). Cette mycotoxine prsente dans un grand nombre daliments
est en eet susceptible davoir des eets nfastes sur le systme urinaire (Boizic et al., 1995).
Nous montrons que le risque dexposition lOTA est plus important pour les enfants.
3.1 Estimation de la probabilit de dpasser un seuil d
3.1.1 Notations et paramtrisation du problme
Nous souhaitons dterminer la probabilit de dpasser un certain seuil dexposition d.
Notons 1 la valeur de lexposition globale. Chaque produit j (j = 1 . . . 1) est suppos
contamin en proportion Q
j
(que lon supposera alatoire) de sorte que pour un panier de
consommation
1
de produit C = (C
1
. . . . . C
1
) (galement alatoire) suppos contamin par
une substance donne, lexposition globale est dnie par la variable alatoire
1 =
1
j=1
Q
j
C
j
.
Notre but est dvaluer 1(d) = P(1 d) = o
o
. Pour cela, on dispose la fois de
1
j
analyses pour chacun des produits j = 1. . . . . 1 et de donnes de consommations indivi-
duelles.
Nous observons :

j
)
la teneur en contaminant du produit j lors de la ,

j
-me analyse, ,
j
= 1 . . . 1
j
suppose i.i.d. de loi Q
j
. j = 1. . . . . 1.
c
i
=
_
c
i
1
. . . . . c
i
j
. . . . . c
i
1
_
le panier des consommations de lindividu i = 1 . . . :. suppos
i.i.d. de loi 1-dimensionnelle (.
On supposera de plus que les consommations sont indpendantes des donnes analy-
tiques et que les analyses des 1 produits sont indpendantes entre elles.
Ces donnes vont nous permettre destimer la distribution de la consommation ( de
chacun des 1 produits ainsi que les 1 distributions Q
1
. . . . . Q
1
de contamination de chacun
des produits ; i.e. 1 1 distributions, la premire tant valeurs dans R
1
, les autres dans

R
. La distribution dexposition au contaminant est une fonction de la distribution produit

dnie par
T = (
1
j=1
Q
j
1
Il sagit ici de consommations relatives, i.e. exprimes en fonction du poids corporel des individus. Nous
omettrons parfois de le prciser.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
3.1. ESTIMATION DE LA PROBABILIT DE DPASSER UN SEUIL 1 85
Soit

(
a
. la distribution empirique des paniers de consommation et

Q
1
la distribution
empirique des 1
j
analyses eectues sur le produit j. La distribution empirique de T est
simplement donne par le produit T
cnj
de ces distributions empiriques. Un estimateur em-
pirique de
o
o
(T) = 1(d) = P
T
(1 d) = P
T
_
1
j=1
Q
j
C
j
d
_
= E
T
_
1l
_
1
j=1
Q
j
C
j
d
__
est donn par la U-Statistique gnralise (voir la dnition 3.A.5 de lannexe 3.A) dnie
par
o
o
(T
cnj
) =

1(d) = P
T
cr
_
1
j=1
Q
j
C
j
d
_
= E
T
cr
_
1l
_
1
j=1
Q
j
C
j
d
__
=
1
A
a
i=1
1
1
)
1
=1
. . .
1
T
)
T
=1
1l
_
1
j=1
j
)
c
i
j
d
_
.
o A = :
1
j=1
1
j
et 1l
_
1
j=1
j
)
c
i
j
d
_
= 1 si

1
j=1
j
)
c
i
j
d et 0 sinon.
Le noyau utilis (de degrs /
C
= 1. /
1
= 1. . . . . /
1
= 1) scrit alors
(c
i
.
1
. . . . .
1
) = 1l
_
1
j=1
j
c
i
j
d
_
.
avec c
i
= (c
i
j
. j = 1. . . . . 1).
Les dnitions et proprits de base des U- et V-statistiques, simples et gnralises, sont
donnes en annexe 3.A.
3.1.2 Comportement asymptotique de lestimateur plug-in
On peut obtenir un thorme de la Limite Centrale pour cette U-Statistique gnralise
de degrs /
C
= 1. /
1
= 1. . . . . /
1
= 1. Pour cela, on dnit les gradients dordre 1 suivants
(1,0,...,0)
=
t
(c
1
. . . . . c
1
)
= E
_
1l
_
1
j=1
Q
j
C
j
d
_
[ (C
1
. . . . . C
1
) = (c
1
. . . . . c
1
)
_
o
o
(T)
= P
_
1
j=1
Q
j
c
j
d
_
P
T
_
1
j=1
Q
j
C
j
d
_
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
et pour , = 1. . . . . 1 :
(0,0,...,1,...,0)
=
Q
(
)
)
= E
_
1l
_
1
j=1
Q
j
C
j
d
_
[ Q
)
=
)
_
o
o
(T)
= P
_
1
j=1,j,=)
Q
j
C
j

)
C
)
d
_
P
T
_
1
j=1
Q
j
C
j
d
_
.
Ces gradients sont les fonctions dinuence de la U-statistique par rapport ( et aux Q
)
.
, = 1. . . . . 1.
On supposera que les distributions des Q
j
ne sont pas toutes dgnres (rduites un
seul point) de manire assurer que tous les gradients eux mmes ne sont pas gaux 0. Les
gradients dordre suprieurs sont dnis de manire rcursive comme propos dans lannexe
3.A.
Thorme 3.1.1 (Comportement asymptotique) Soit ` = :
1
)=1
1
)
. si
a
.
j
0 .
1
.
,
)
0, et si, de plus, au moins lune des variances V
_
(Q
)
)
_
, = 1. . . . . 1 ou
V[
t
(C
1
. . . . . C
1
)[ est non nulle alors
`
12
[o
o
(T
cnj
) o
o
(T)[
.o
A
_
0. o
2
_
.
avec
o
2
=
1
j
V[
t
(C
1
. . . . . C
1
)[
1
)=1
1
,
)
V
_
(Q
)
)
_
. (3.1)
Cette variance peut tre estime, de manire convergente en probabilit, par
o
2
.
=
`
:
o
2
C

1
|=1
`
1
|
o
2
Q
I
. (3.2)
avec
o
2
C
=
1
:
a
i=1
_
_
1
1
j=1
1
j
1
1
)
1
=1
. . .
1
T
)
T
=1
1l
_
1
j=1
j
)
c
i
j
d
_
o
o
(T
cnj
)
_
_
2
(3.3)
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
3.1. ESTIMATION DE LA PROBABILIT DE DPASSER UN SEUIL 1 87
et pour | = 1. . . . 1
o
2
Q
I
=
1
1
|
1
I
)
I
=1
_
_
1
:
1
j = 1
j ,= |
1
j
a
i=1
1
1
)
1
=1

1(|1)
)
I1
=1
1(|1)
)
I+1
=1

1
T
)
T
=1
1l
_
1
j=1
j
)
c
i
j
d
_
o
o
(T
cnj
)
_
_
2
.
(3.4)
La preuve de ce thorme, donne en annexe 3.B.1, est essentiellement fonde sur la d-
composition de Hoeding (1961) de la U-Statistique gnralise en la somme de U-Statistiques
simples dont le comportement asymptotique est connu (Thorme de Hoeding, 1948). Se
reporter Sering (1980) pour le cas dgnr au premier ordre et Gregory (1977); Eagleson
(1979); Hall (1979) pour dautres preuves. Toutefois, les hypothses du thorme prcdent
peuvent apparatre dans la pratique trop fortes dans la mesure o le nombre danalyses
pour un produit est faible (pour des questions de cot). Dans ce cas, on peut modier les
hypothses et les rsultats du thorme de la manire suivante.
Thorme 3.1.2 (Comportement asymptotique) Soit
`
+
= min
)=1,1
_
1
)
. tel que 0 < V
_
(Q
)
)
_
<
_
On pose ,
+
)
= lim(
1
) [1. [ et on suppose que lim(

.
a
) = 0. alors
`
+12
[o
o
(T
cnj
) o
o
(T)[
.
o
A
_
0. o
+2
_
.
avec
o
+2
=
1
)=1
1
,
)
V
_
(Q
)
)
_
. (3.5)
Lestimateur empirique de o
+2
scrit
o
+
2
.
=
1
|=1
`
+
1
|
o
2
Q
I
.
o o
2
Q
I
. dni en (3.4), est un estimateur convergent en probabilit de
Q
I
(Q
|
).
Les arguments de la preuve sont similaires ceux du thorme 3.1.1.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
3.2 Approximation par une U-Statistique incomplte
3.2.1 Principe gnral
Dun point de vue pratique, il est dicile de construire la U-Statistique gnralise avec
A = :
1
j=1
1
j
termes et on utilise plutt une U-Statistique gnralise incomplte en consi-
drant comme estimateur de o
o
(T
cnj
), la quantit
o
o,1
(T
cnj
) =
1
1
(i,)
1
,...,)
)/
1l
_
1
j=1
j
)
c
i
j
d
_
. (3.6)
o / est une sous partie de 1. . . . . :
1
j=1
1. . . . . 1
j
de taille 1 << A.
Cette pratique dtriore la variance de lestimateur (Blom, 1976, pour un descriptif des
proprits des U-statistiques incompltes). Cependant, si le nombre de tirages 1 est su-
samment grand, la distorsion induite est ngligeable par rapport lestimateur de dpart.
3.2.2 Cas du tirage alatoire avec remise
Dans la suite, SASAR dsigne un sondage alatoire simple avec remise.
Lensemble dindices / de (3.0) est dni de la manire suivante
/ =
_
_
(i. ,
i
1
. . . . . ,
i
1
) 1. . . . . : 1. . . . . 1
1
. . . 1. . . . . 1
1
.
_
_
i tir par SASAR parmi 1. . . . . : .
,
i
1
tir par SASAR parmi 1. . . . . 1
1
.
.
.
.
,
i
1
1
_
_
_
.
o cc:d (/) = 1. On tire donc alatoirement avec remise un individu (i.e. son vecteur de
consommations relatives) et un relev danalyse pour chaque groupe de produits.
Dnition de lestimateur et calcul de sa variance
o
o,1
(T
cnj
), dni par
o
o,1
(T
cnj
) =
1
1
(i,)
1
,...,)
)/
1l
_
1
j=1
j
)
c
i
j
d
_
.
correspond lestimateur empirique de o
o
(T) dans une simulation de type Monte Carlo non
paramtrique de taille 1 et sa variance est trs proche de celle de lestimateur empirique
o
o
(T
cnj
) quand 1 est grand. Do la proposition suivante,
Proposition 3.2.1 On pose o
2
1,1,...,1
= V
_
E
_
1l
_
1
j=1
Q
j
C
j
d
_
[ C. Q
1
. . . . . Q
1
__
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
3.2. APPROXIMATION PAR UNE U-STATISTIQUE INCOMPLTE 89
Si o
2
1,1,...,1
< et V[o
o
(T
cnj
)[ < . alors on a
V[o
o,1
(T
cnj
)[ =
o
2
1,1,...,1
1

_
1
1
1
_
V[o
o
(T
cnj
)[ .
La preuve de cette proposition est donne en annexe 3.B.2.
Comportement asymptotique
Rappelons que la U-Statistique gnralise incomplte tudie, note o
o,1
(T
cnj
) . est
construite par tirage alatoire avec remise des indices et que o
o
(T
cnj
) est la U-Statistique
gnralise complte associe, suppose non dgnre, i.e. telle que lune au moins des
variances des gradients dordre 1 est non nulle.
Thorme 3.2.1 Si ` = :
1
)=1
1
)
. et si lim
.o
.
1
= c. alors
1. Si c = 0.
_
` [o
o,1
(T
cnj
) o
o
(T)[ a la mme distribution asymptotique que
_
` [o
o
(T
cnj
) o
o
(T)[ .
2. Si c [0. [ .
_
` [o
o,1
(T
cnj
) o
o
(T)[ a la mme distribution asymptotique que
_
cA o
1,1,...,1
1.
o A a la mme distribution asymptotique
_
` [o
o
(T
cnj
) o
o
(T)[ et 1 ~ A(0. 1).
avec A et Y indpendants.
3. Si c = ,
_
` [o
o,1
(T
cnj
) o
o
(T)[ a pour distribution asymptotique A(0. o
2
1,1,...,1
).
Ceci signie que si lon choisit 1 trs grand par rapport `. on se trouve dans le cas 1,
le cas 2 fait apparatre un mlange de lois normales indpendantes. La preuve est donne en
annexe 3.B.3 et est fonde sur Janson (1984) (voir galement Lee, 1990, page 200).
Le cas 2 reste le plus gnral puisque o
2
/
= lim
.o
1V[o
o,1
(T
cnj
)[ peut tre estime par
1
.

o
2
.

\
o
2
1,1,...,1
o

o
2
.
est dnie par (3.2) et
\
o
2
1,1,...,1
par
\
o
2
1,1,...,1
= A
1
a
i=1
1
1
)
1
=1
. . .
1
T
)
T
=1
_
1l
_
1
j=1
j
)
c
i
j
d
_
o
o
(T
cnj
)
_
2
.
Dans tous les cas, le calcul de ces estimateurs de variance nest pas possible dun point de vue
technique (sommation sur A termes). La section suivante en propose des approximations.
3.2.3 Approximation de la variance : Jackknife ou Bootstrap
Lee propose deux mthodes destimation de la variance de U-Statistiques compltes ou
incompltes (dans le cas o celles-ci sont obtenues par tirage alatoire avec remise) dans le
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
cas unidimensionnel : Jackknife ou Bootstrap (Lee, 1990, page 243). Les principes de base
du bootstrap sont prsents dans Efron & Tibshirani (1993).
Dans le cas des U-Statistiques gnralises, lestimation de la variance par Jackknife pose
des dicults. En eet, en dimension 1, pour une U-Statistique l
a
. la mthode consiste
dnir le leave one out not l
(i)
a1
, estimateur obtenu en laissant de ct une observa-
tion. Dans une dimension suprieure, plusieurs dnitions du leave one out sont possibles
(coordonne par coordonne ou vecteur par vecteur) ce qui complique considrablement les
calculs.
Nous estimerons donc la variance de notre U-Statistique gnralise par Bootstrap. Par
contre, la mthode Jackknife est tout fait approprie pour lestimation de V[
t
(C
1
. . . . . C
1
)[
et des V
_
(Q
)
)
_
apparaissant dans (3.1) ou (3.). Lestimation de ces variances relatives
la consommation et aux 1 contaminations nous permettra didentier les direntes com-
posantes de la variance.
Estimation de la variance par Bootstrap.
La variance bootstrap approche de o
o,1
(T
cnj
) sobtient en calculant un nombre impor-
tant de fois (`) la statistique o
o,1
(T
cnj
) sur des chantillons bootstrap de consommation
et de contamination et en prenant la variance sur les rsultats obtenus. Plus formellement,
notons o
o,1
(n)
lestimateur obtenu ltape : alors
\
1cct
=
1
`
A
n=1
_
o
o,1
(n)
o
o,1
2
.
o o
o,1
=
1
A
A
n=1
o
o,1
(n)
. Cette variance est un estimateur asymptotiquement convergent
de la vraie variance de o
o
(T) : la justication de la mthode se trouve dans Lee (1985) et
les proprits de second ordre du bootstrap de U-statistiques sont obtenues dans Helmers
(1991).
Estimation de V(
t
(C
1
. . . . . C
1
) et des V(
Q
(Q
)
)) par Jackknife.
Nous devons de nouveau approcher la variance des gradients
t
et
Q
puisque les estima-

teur Plug in de ces gradients comportent, comme lestimateur Plug-in du risque, un nombre
trop important de termes. Nous dtaillons la mthode uniquement pour V(
t
(C
1
. . . . . C
1
).
On dnit l
(t)
=
1
a
a
)=1

t
(c
)
1
. . . . . c
)
1
) et
l
(t)
(i) =
1
: 1
a
)=1
i,=)
t
(c
)
1
. . . . . c
)
1
).
avec
t
(c
)
1
. . . . . c
)
1
) =
1
1
C
()
1
,...)
T
)/
C
1l
_
1
j=1
j
)
c
)
j
d
_
o
o,1
(T
cnj
) .
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
3.2. APPROXIMATION PAR UNE U-STATISTIQUE INCOMPLTE 91
o /
C
=
_
_
(,
1
. . . . . ,
1
) 1. . . . . 1
1
. . . 1. . . . . 1
1
.
_
_
,
1
1
.
.
.
.
,
1
1
_
_
_
et Cc:d(/
C
) = 1
C
.
On dnit alors
V
JocI
(
t
) = (: 1)
a
i=1
_
l
(t)
(i) l
(t)
_
2
.
o l
(t)
=
1
a
a
i=1
l
(t)
(i).
De mme pour V(
Q
(Q
)
)). , = 1. . . . 1. on pose
V
JocI
(
Q
) = (1
)
1)
1
i=1
_
l
(Q
)
(i) l
(Q
)
_
2
.
avec
l
(Q
)
(i) =
1
1
)
1
1
|=1
i,=|
(
|
).
et
(
|
) =
1
1
Q
()
1
,...)
T
)/
1l
_
1
j=1
c
)
j
d
_
o
o,1
(T
cnj
) .
o /
Q
=
_
_
_
(i. ,
1
. . . . . ,
j1
. ,
j1,...,
,
1
) 1. . . . . :
),=j
1. . . . . 1
)
.
_
i tir par SASAR parmi 1. . . . . :
,
|
|
. | ,= j
_
_
_
_
et Cc:d(/
Q
) =
1
Q
.
Dans tous les cas, on peut omettre le recentrage par o
o,1
(T
cnj
) puisque ces termes se
simplieront dans le calcul de la variance. De plus, les estimateurs peuvent se rcrire
V
JocI
(
t
) =
1
: 1
a
i=1
_
t
(c
i
1
. . . . . c
i
1
)
t
_
2
V
JocI
(
Q
) =
1
1
)
1
1
|=1
_
(
|
)
Q
_
2
.
o
t
=
1
a
a
i=1

t
(c
i
1
. . . . . c
i
1
) et
Q
=
1
1
|=1

(
|
).
Sous les hypothses du thorme 3.1.1, un estimateur de la variance asymptotique dnie
en (3.1) est donn par
o
2
.
=
`
:
V
JocI
(
t
)
1
|=1
`
1
|
V
JocI
(
Q
). (3.7)
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
De mme, sous les hypothses du thorme 3.1.2, un estimateur de la variance asymptotique
dnie en (3.) est donn par
o
2
.
=
1
|=1
`
+
1
|
V
JocI
(
Q
). (3.8)
3.3 Intervalles de conance
3.3.1 Construction des intervalles
Grce aux variances dtermines prcdemment en (3.7) et (3.8), on peut construire pour
chaque estimateur o
o,1
(T
cnj
) les intervalles de conance (IC)
o
o
(T)
_
_
o
o,1
(T
cnj
) 4
1
c2
_
o
2
.
`
_
_
et o
o
(T)
_
_
o
o,1
(T
cnj
) 4
1
c2
_
o
2
.
`
+
_
_
.
Cependant ces intervalles sont relativement sensibles aux tirages eectus. On prfrera
intgrer la variabilit des donnes en utilisant les intervalles de conance Bootstrap.
Plusieurs intervalles peuvent tre construits :
les IC "Basic Percentile" et "Percentile" utilisent les percentile de la distribution boots-
trap du paramtre estim et sont asymptotiquement quivalents.
les IC Bootstrap aprs Jackknife t-Percentile sont obtenus en utilisant les variances
Jackknife pour studentiser les estimateurs du paramtre. Ces intervalles t-percentile ont
thoriquement de meilleures proprits car la loi de la statistique pivotale (studentise)
ne dpend pas asymptotiquement de la loi sous-jacente (Hall, 1986a; Beran, 1988).
Nous prsentons dans la section suivante lalgorithme permettant le calcul explicite de
chacun de ces IC.
3.3.2 Algorithme de calcul
Pour plus de clart, nous donnons ici lalgorithme de calcul permettant dobtenir les
intervalles de conance dcrits prcdemment. Dans la suite, \
JocI
dsigne indiremment
les variances
f
S
2
^
.
ou
g
S
2
^
issues des thormes 3.1.1 et 3.1.2 et dnies en (3.7) et (3.8).

1. Etape destimation : Supposons que C dsigne lensemble des vecteurs de consom-
mations relatives observes et que Q
j
. j = 1. . . . . 1 dsignent les ensembles de don-
nes analytiques observes pour chaque groupe daliments j. j = 1. . . . . 1.
(a) Calculer un premier estimateur

o = o
o,1
(T
cnj
) de o
o
(T) en tirant avec remise 1
vecteurs de consommation dans C et 1 valeurs de contamination dans chaque
Q
j
. j = 1. . . . . 1.
(b) Calculer lestimateur de la variance \
JocI
en rchantillonnant dans C et les
Q
j
. j = 1. . . . . 1. propos dans la section 3.2.3, avec des tailles respectives de
tirage de 1
C
et 1
Q
. j = 1. . . . . 1.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
3.3. INTERVALLES DE CONFIANCE 93
2. Etape de rchantillonnage : Rpter ` fois. : = 1. . . . . `.
Tirer avec remise un chantillon bootstrap de consommations relatives C
(c)
et 1 chan-
tillons bootstrap de contaminations Q
(c)
j
. j = 1. . . . . 1 dans les observations initiales,
de mme taille que les chantillons de dpart i.e. :. 1
1
. . . . . 1
1
.
(a) Calculer sur ces chantillons bootstrap la U-Statistique incomplte o
o,1
(c)
en tirant
1 vecteurs de consommation dans
_
C
(c)
_
et 1 valeurs de contamination dans
chaque
_
Q
(c)
j
_
. j = 1. . . . . 1 (pour obtenir de nouveau 1 niveaux dexposition et
calculer la proportion dpassant d).
(b) Calculer lestimateur de la variance en rchantillonnant dans
_
C
(c)
_
et les
_
Q
(c)
j
_
.
j = 1. . . . . 1. propos dans la section 3.2.3, avec des tailles respectives de tirage
de 1
C
et 1
Q
. j = 1. . . . . 1.
(c) Construire lestimateur studentis
t
(c)
0
=
o
o,1
(c)
o
_
\
(c)
JocI
.
(d) Calculer la variance bootstrap globale
\
1cct
=
1
`
A
c=1
_
o
o,1
(c)
o
o,1
_
2
.
o o
o,1
=
1
A
A
c=1
o
o,1
(c)
.
3. Plusieurs intervalles de conance sont alors construits.
(a) LIC "Basic Percentile" est dni par
_
o
[c2[
o,1
: o
[1c2[
o,1
_
. (3.9)
o o
[o[
o,1
est le ,
tI
percentile de
_
o
o,1
(c)
. : = 1. . . . . `
_
.
(b) LIC "Percentile" est dni par
_
2
o o
[1c2[
o,1
: 2
o o
[c2[
o,1
_
. (3.10)
(c) LIC "Asymptotique" est dni par
_
o 4
1
c2
_
\
1cct
:
o 4
1
c2
_
\
1cct
_
. (3.11)
o 4
1
c2
est le c,2
` cnc
quantile dune loi normale standard.
(d) LIC "t-percentile", dni pour sous les conditions des thormes 3.1.1 et 3.1.2
est alors
_
o
_
\
JocI
t
[1c2[
0
:
o
_
\
JocI
t
[c2[
0
_
. (3.12)
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
o t
[o[
0
est le ,
tI
percentile de
_
t
(c)
0
. : = 1. . . . . `
_
.
Le choix du nombre de rchantillonnage bootstrap ` et son impact sur les intervalles
de conance est un problme dlicat qui commence tre abord dans la littrature sur le
Bootstrap. Les principaux rsultats ont t obtenus par Hall (1986b) dans le cas de la m-
thode t-percentile. Il montre que, dans le cas gnral (mme si ` est xe), lerreur commise
sur le niveau de lintervalle construit par la mthode t-percentile aprs rchantillonnage est
de lordre de `
1
. Mais si ` est tel que, pour un niveau 1 c dsir, (` 1)(1 c) est
entier alors lerreur commise lors du rchantillonnage est ngligeable par rapport 1,`.
3.3.3 Validation par simulation
Si ,
C
est la densit multidimensionnelle des vecteurs de consommations et que ,
Q
1
. . ,
Q
T
sont les densits (unidimensionnelles) des contaminations, alors nous cherchons estimer
o
o
(T) = P
T
_
1
j=1
Q
j
C
j
d
_
= E
T
_
1l
_
1
j=1
Q
j
C
j
d
__
=
_ _
. . .
_
1l
_
1
j=1
j
c
j
d
_
,
C
(c),
Q
1
(
1
) ,
Q
T
(
1
)dcd
1
d
1
.
Il est possible dapprocher de manire aussi prcise que lon veut la "vraie" valeur du
paramtre par une simulation de Monte-Carlo.
Dans nos simulations, nous utilisons une loi log-normale multidimensionnelle pour les
vecteurs de consommations relatives et des distributions de Pareto pour les contaminations
de chaque produit. Les paramtres des lois ont t choisis gaux aux valeurs estimes par
maximum de vraisemblance sur des donnes relles (OTA, dcrites dans la section 3.4.1)
dans le but de donner des ordres de grandeurs cohrents la probabilit de dpasser.
En eectuant un tirage de grande taille (` = 100000 ou ` = 1000000) dans ces distri-
butions, nous construisons ` valeurs dexpositions parmi lesquelles o
o
(T) / dpasse le seuil
d dintrt. Dans le cas de lOTA, on cherche estimer la probabilit de dpasser la DHT
europenne de 3 :q,/q jc,:c:. En prenant ` = 1000000. on obtient o
o=S
(T) = 37./
0.1% prs.
La probabilit de couverture et la longueur des dirents intervalles proposs sont es-
times, par Monte Carlo, en rptant 1 fois toutes les procdures dcrites prcdemment
pour la construction des IC sur des chantillons (de mme taille que les donnes relles)
issus de ,
C
. dune part et des ,
Q
dautre part. La probabilit de couverture de chaque IC

correspond au pourcentage de fois o o
o=S
(T) appartient lIC, la longueur des IC la
longueur moyenne obtenue aprs 1 rptitions.
Le tableau 3.1 synthtise les rsultats obtenus pour une seuil c = /.
Aprs un arbitrage entre temps de calcul et prcision des estimateurs, il semble que
lintervalle Basic Percentile soit le meilleur, pour un nombre de rchantillonnage bootstrap
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
3.4. ILLUSTRATION : RISQUE DEXPOSITION LOCHRATOXINE A 95
Tab. 3.1 Probabilits de couvertures et longueurs des dirents IC : 1 = 000, ` = 200
and 1
C
= 1
Q
= 300, \,, 1 = 00
Dnition de lIC Basic-Percentile Percentile Asymptotique t-percentile (3.1.1) t-percentile (3.1.2)
Probabilit de couverture 97.2% 88.6% 96.0% 97.8% 97.8%
Longueur de lIC 6.10% 6.13% 6.11% 6.16% 6.19%
` = 200 et des simulations de taille 1 = 000 (pour les U-Statistiques incompltes). La
valeur de 1 a t choisie de manire tre suprieure max :. 1(1). . . . . 1(1) (= 3003
dans notre cas). Lintervalle Percentile est en particulier trop sensible lestimation initiale
du paramtre. Les intervalles "t-percentile" ont de trs bonnes probabilits de couverture
mais sont plus larges.
3.4 Illustration : risque dexposition lochratoxine A
Lochratoxine A (OTA) est une mycotoxine particulirement dangereuse pour la sant
humaine. Elle est nphrotoxique, gnotoxique et cancrigne (ex : cancers des voies urinaires
chez lHomme). Elle est labore par des moisissures appartenant aux genres Aspergillus ou
Penicillium. Prsente en grande quantit dans de nombreux aliments conservs sous forme
de grains, elle est aussi parfois retrouve, en moindre quantit, dans les jus de raisin et les
vins. Elle contamine, entre autres, les crales, et par le biais de la chane alimentaire, la
viande de porc et de volailles. Sa dtection est maintenant possible avec des niveaux de
prcision de lordre dune dizaine de nanogrammes. LOTA a t classe comme potentielle-
ment carcinogne pour lHomme (groupe 2B de la classication de le centre international de
recherche sur le cancer, IARC, International Agency for Research on Cancer) sur la base de
sa potentielle carcinognicit rnale chez le rat mle (Program, 1989). Cette mycotoxine fait
lobjet dun grand intrt quant la scurit alimentaire bien quaucune association entre
une forte exposition et une maladie rnale humaine nait encore t tablie (Boizic et al.,
1995).
3.4.1 Description des donnes
Les analyses en OTA ont t ralises sur des produits bruts (DGCCRF, DGAL, environ
1500 relevs) ou tels que consomms (INRA, environ 300 relevs). Par ailleurs, des donnes
de contamination du vin par lOchratoxine A sont issues de lenqute nationale ralise par
lONIVINS pendant la campagne de 1999/2000 auprs des vignobles les plus importants.
Cette tude qui comporte prs de 1000 chantillons de dosage dochratoxine A est a priori
ce quil y a actuellement au niveau national de plus reprsentatif du niveau de contamination
de lOTA des vins consomms en France.
Le problme majeur de lensemble de ces donnes est que la dtection du contaminant
et a fortiori sa quantication se heurtent la prcision des appareils de mesure. Ainsi, nous
avons environ 80% de valeurs censures gauche par la limite de dtection (qui peut direr
selon les laboratoires). Pour les produits tels que consomms, elle atteint 97% des valeurs,
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
pour les produits bruts, 78% et pour le vin, 71% des donnes. Les mthodes traditionnelles
prconisent de remplacer ces valeurs censures sous la forme "<LOD" ou "<LOQ" par les
limites elles-mme (scnario note H1), les limites divises par 2 (scnario note H2) ou
zro (scnario note H3) selon la proportion de donnes censures dans lchantillon. Les
recommandations des experts de lOMS et de la FAO ce sujet sont les suivantes : si
lchantillon comporte moins de 60% de valeurs censures, il convient dutiliser LOD/2 ou
LOQ/2, sinon, il est recommand de raliser lvaluation de risque selon les deux scnarios
les plus extrmes : remplacement des donnes censures par les limites elles-mmes ou par
zro (GEMs/Food-WHO, 1995).
An davoir un nombre de relevs susamment important dans chaque groupe, nous
avons agrg les rfrences alimentaires de lenqute INCA concernes en neuf groupes. Nous
donnons pour chaque groupe le nombre danalyses de teneurs en OTA dont nous disposons
ainsi que le pourcentage de censure.
"Abats et Charcuterie" : Abats de volaille et de porc et charcuterie (1063 relevs, 90%).
"Vins" : Vins, et boissons base de vin, Champagne, Mousseux (996 relevs, 72%).
Produits craliers : Biscuits, Ptisseries, Viennoiseries, Crales petit dj., chocolat
(75 relevs, 96%).
"Crales" : Pains, Biscottes, Autres crales et ptes, Produits base de farine (241
relevs, 59%).
"Caf" : Caf soluble ou en grains (103 relevs, 52%).
"Fruits et lgumes" : Jus de raisin, raisin et mas (103 relevs, 56%).
"Fruits et lgumes secs" :Raisins secs, amandes,... ,haricots, lentilles... (82 relevs, 87%).
"Riz, Semoule" : Riz, Semoule et produits base de riz ou semoule (43 relevs, 93%).
"Bires" : Bires et panachs (2 relevs, 100%).
Le nombre danalyses pour ce dernier groupe est tout fait insusant et ne permet
pas de modlisation. De plus, il sagit de donnes censures : nous considrerons donc les
consommations de ce groupe comme non contamines ou bien contamines un niveau xe
faible (LOD ou LOD/2).
La gure 3.1 donne les histogrammes des direntes distributions de consommation et
de contamination (sous les scnarios H1 et H3) pour les 4 premiers groupes daliments.
La DHT relative lOTA est de 3 ng/sem/kg p.c. au niveau europen (SCF) et de 100
ng/sem/kg p.c au niveau international (JECFA). Ceci est d au fait que le SCF et le JECFA
nutilisent pas les mmes tudes toxicologiques pour dterminer la dose tolrable, se reporter
Counil et al. (2005b,a) pour une revue de la littrature sur ce thme.
3.4.2 Rsultats et discussion
Le tableau 3.2 donne la dcomposition de la variance du risque (probabilit de dpas-
ser 35 ng/sem/kg p.c.) relativement chacune des 1 1 distributions considres : les 1
distributions de contamination et la distribution des consommations. Ces contributions la
variance du risque ont t obtenues en utilisant les estimateurs Jackknife des variances des
gradients (cf. (3.7) et (3.8)). On observe de fortes dirences selon lge des consommateurs :
pour les enfants (moins de 10 ans), cest le comportement alimentaire qui contribue le plus
la variance du risque tandis que pour les plus de 11 ans, ce sont plus les distributions de
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Fig. 3.1 Histogrammes des distributions des consommations et des contaminations asso-
cies en OTA.
contaminations des crales et produits craliers qui sont en cause.
Lorsque lon cherche comparer le risque dexposition de direntes populations, on
observe une nette dcroissance en fonction de lge, les femmes restant relativement moins
risque que les hommes (Tableau 3.3). Nous observons galement le mode de substitution
retenu pour les donnes censures a une inuence importante sur lestimation du risque.
La comparaison des intervalles de conance permet aussi de mesurer limpact dune nou-
velle norme sur un produit particulier en supprimant des donnes de contaminations toutes
les teneurs suprieures la norme (en supposant que dans le cas de lintroduction dune telle
norme, aucune teneur suprieure serait prsente sur le march). Pour le vin, une limite maxi-
male est ltude au niveau europen : elle pourrait tre de 1, 2 ou 3 jg/L. Nous observons
que, quelle que soit la norme retenue, le risque ne serait pas rduit de manire signicative,
ni pour la population adulte, ni pour les consommateurs de vins. En eet, lIC 95% passe
de [7.4/12.3/[ [.9/11.4/[ en introduisant une norme de 1 jg/L et en retenant le
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Tab. 3.2 Dcomposition de la variance, comparaison de populations ;
Contaminant : OTA; 1H1 = 3 ng/sem/kg p.c. ; 1 = 000, ` = 200 et 1
C
= 1
Q
=
300. , = 1. .... 1 ; Traitement de la censure : H1
Echantillon entier Enfants 3-10 ans Plus de 11 ans.
Variance issue de Th. 3.1.1 Th. 3.1.2 Th. 3.1.1 Th. 3.1.2 Th. 3.1.1 Th. 3.1.2
Consommations 11.1% 36.1% 6.0%
Abats et Charcuterie 0.3% 0.4% 0.3% 0.5% 0.3% 0.3%
Vins 0.6% 0.7% 0.2% 0.3% 0.8% 0.8%
Produits craliers 22.8% 25.6% 30.1% 47.1% 21.8% 23.2%
Crales 46.6% 52.5% 20.7% 32.5% 55.3% 58.8%
Caf 4.9% 5.6% 1.7% 2.7% 5.6% 6.0%
Fruits et lgumes 2.7% 3.0% 2.5% 3.9% 2.0% 2.1%
Fruits et lgumes secs 4.1% 4.6% 2.8% 4.4% 3.3% 3.5%
Riz, Semoule 6.8% 7.7% 5.5% 8.5% 5.0% 5.4%
Bires 0.0% 0.0% 0.0% 0.0% 0.0% 0.0%
Tab. 3.3 Probabilit de dpasser la DHT, comparaison de population;
Contaminant : OTA; 1H1 = 3 ng/sem/kg p.c. ; 1 = 000, ` = 200 et 1
C
= 1
Q
=
300. , = 1. .... 1
Type Intervalle de conance 95% (Basic Percentile)
de population Censure H1 Censure H2 Censure H3
Enfants 3-6 ans 82.2% - 89.2% 43.2% - 53.6% 15.1% - 24.9%
Enfants 7-10 ans 68.3% - 76.4% 28.5% - 40.1% 12.4% - 22.3%
Adolescents 11-14 ans 41.0% - 51.8% 17.2% - 25.9% 10.2% - 17.4%
Adolescents 15-18 ans 19.3% - 29.5% 8.8% - 17.6% 6.5% - 14.8%
Adultes 18-60 ans 17.0% - 23.9% 9.2% - 16.1% 7.0% - 13.7%
Dont hommes 19.3% - 27.0% 11.3% - 18.5% 8.4% - 15.5%
femmes 14.4% - 21.7% 7.7% - 14.6% 6.0% - 12.3%
Adultes + de 60 ans 12.0% - 19.3% 7.5% - 13.8% 6.6% - 12.8%
traitement de la censure H2. La conclusion quant limpact dune norme sur le vin reste
la mme quel que soit le traitement de la censure appliqu. Par contre, pour les crales,
on peut conclure un impact dune norme de 5 jg/kg positif pour certains traitements de
la censure et non signicatif pour dautres. Une tude plus complte de cette question est
propose dans Tressou et al. (2004b) et Counil et al. (2005b).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
3.A. QUELQUES RSULTATS SUR LES U-STATISTIQUES 99
Annexe 3.A Quelques rsultats sur les U-statistiques
Nous donnons ici les principales dnitions concernant les U-Statistiques ainsi que le
thorme de base sur leur convergence asymptotique (Cf. Lee (1990)).
Dnition 3.A.1 Soit T lensemble des fonctions de rpartition de support ni ou absolu-
ment continues. Soit A
1
. . . . A
a
une suite de variables indpendantes et identiquement dis-
tribues selon 1 T. La fonctionnelle, dnie par
o(1) =
_
o
o
. . .
_
o
o
(r
1
. . . . . r
I
)d1(r
1
) . . . d1(r
I
) = E[(A
1
. . . . . A
I
)[ .
est appele fonctionnelle statistique rgulire de degr /, et fonction de / variables est ap-
pele noyau. On peut sans perte de gnralit (quitte symtriser la fonction) supposer
symtrique i.e. invariante par permutation de ses arguments.
Dnition 3.A.2 On appelle U-Statistique lestimateur suivant
o = l
a
(A
1
. . . . . A
a
) =
_
:
/
_
1

(a,I)
(A
i
1
. . . . . A
i
I
).
o

(a,I)
dsigne la somme sur toutes les combinaisons (i
1
. . . . i
I
) telles que 1 _ i
1
< . . . <
i
I
_ : parmi 1. . . . . :.
Dnition 3.A.3 On appelle V-Statistique, lestimateur empirique de o(1). dni par
o(1
a
) = \
a
(A
1
. . . . . A
a
) =
1
:
I
a
i
1
=1
. . .
a
i
I
=1
(A
i
1
. . . . . A
i
I
).
o 1
a
dsigne la fonction de rpartition empirique.
Une V-Statistique autorise les rptitions (redoublements) des indices contrairement
une U-Statistique. Si la taille : de lchantillon ou le degr / de la fonctionnelle sont levs,
le calcul de l
a
peut savrer trs onreux puisquil implique une moyenne de
_
a
I
_
termes.
Or, tant donne la dpendance entre chacun des termes, en omettant certains termes de la
somme, on naugmente que peu la variance de lestimateur.
Dnition 3.A.4 On appelle U-Statistique incomplte, lestimateur de la forme
l
(/)
a
= 1
1

i
1
,...,i
I
/
(A
i
1
. . . . . A
i
I
).
o / dsigne un sous-ensemble des /-uplets parmi 1. . . . . : de taille 1 (1 _
_
a
I
_
). A 1
x, / peut tre dtermin de manire optimale par minimisation de V(l
(/)
a
) sur lensemble
des parties / de taille 1.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Dnition 3.A.5 Soient maintenant : chantillons indpendants et identiquement distri-
bus selon 1
(1)
. . . . . 1
(n)
. : fonctions de rpartition. On note (A
())
1
. . . . . A
())
a
) lchantillon
, pour , = 1. . . . . :, i.i.d. de loi 1
())
. Soit alors
o = o(1
(1)
. . . . . 1
(n)
) = E
_
n
_
A
(1)
1
. . . . . A
(1)
I
1
. . . . . A
(n)
1
. . . . . A
(n)
I
r
__
.
On suppose
n
symtrique par bloc.
On appelle U-Statistique gnralise, lestimateur sans biais de o suivant
o = l
a
1
,a
2
,...,a
r
_
A
(1)
1
. . . . . A
(1)
a
1
. . . . . A
(n)
1
. . . . . A
(n)
a
r
_
=
n
)=1
_
:
)
/
)
_
1

(a
1
,I
1
)
. . .

(a
r
,I
r
)
n
_
A
(1)
i
1,1
. . . . . A
(1)
i
1,I
1
. . . . . A
(n)
i
r,1
. . . . . A
(n)
i
r,I
r
_
.
On pourra alors dnir, de la mme manire que prcdemment, des U-Statistiques g-
nralises incompltes.
Dnition 3.A.6 Si 1
(1)
a
1
. 1
(2)
a
2
. . . . . 1
(n)
a
r
dsignent les fonctions de rpartition empiriques
respectives des : chantillons dnis prcdemment, la V-Statistique gnralise est la contre-
partie empirique de o = o(1
(1)
. . . . . 1
(n)
) dnie par
o = o
_
1
(1)
a
1
. 1
(2)
a
2
. . . . . 1
(n)
a
r
=
n
)=1
:
I
1i
11
,...i
1I
1
a
1
. . .

1i
r1
,...i
rI
r
a
r
n
_
A
(1)
i
1,1
. . . . . A
(1)
i
1,I
1
. . . . . A
(n)
i
r,1
. . . . . A
(n)
i
r,I
r
_
.
Le comportement asymptotique des U et V-Statistiques a t tudi par de nombreux
auteurs (voir par exemple Sering, 1980; Lee, 1990; Borovskikh, 1996). Le Thorme de la
Limite Centrale sobtient par une dcomposition de la U(ou V)-Statistique en termes ortho-
gonaux (projection au sens de Hajek) que lon peut interprter comme une dcomposition
de type ANOVA : la dcomposition de Hoeding.
Soit
())
(r
1
. . . . . r
)
. 1) =
_
(
1
. . . . .
I
)d(o
a
1
1)(
1
) . . . d(o
a
1)(
)
)d1(
)1
) . . . d1(
I
).
pour , variant de 1 /. Cette quantit est appele gradient dordre , de la U-Statistique.
En particulier, on a
(1)
(r
1
. 1) =
_
(
1
. . . . .
I
)d(o
a
1
1)(
1
)d1(
2
) . . . d1(
I
) = E[(A
1
. . . . . A
I
) [ A
1
= r
1
[o.
(2)
(r
1
. r
2
. 1) = E((A
1
. . . . . A
I
) [ A
1
= r
1
. A
2
= r
2
) E[(A
1
. . . . . A
I
) [ A
1
= r
1
[
E[(A
1
. . . . . A
I
) [ A
2
= r
2
[ o.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Ces gradients sont dnis de manire rcursive par
(1)
(r
1
. 1) = E[(A
1
. . . . . A
I
) [ A
1
= r
1
[ o.
())
(r
1
. . . . . r
)
. 1) = E[(A
1
. . . . . A
I
) [ A
1
= r
1
. . . . . A
)
= r
)
[
)1
|=1
(),|)
(|)
(r
i
1
. . . . . r
i
I
. 1) o.
En notant
(0)
(1) =
_
(
1
. . . . .
I
)d1(
1
)d1(
2
) . . . d1(
I
) = E[(A
1
. . . . . A
I
)[ = o. on
peut ainsi crire la dcomposition suivante :
Proposition 3.A.1 (Dcomposition de Hoeding) Soit l
())
a
la U-Statistique associe
au noyau
())
.dnie par
l
())
a
=
_
:
,
_
1
(a,))
())
(A
i
1
. ... A
i
).
avec l
(0)
a
=
(0)
(1) = o. alors on a
l
a
(A
1
. ... A
a
) =
I
)=0
_
/
,
_
l
())
a
.
On peut vrier que les gradients intervenant dans cette dcomposition sont desprance
nulle, i.e. pour , = 1 . . . /. on a
E
_
())
(A
1
. . . . . A
)
. 1)
_
= 0.
et quils sont orthogonaux, i.e. pour , ,= |. avec ,. | 0. 1. . . . . / . on a
E
_
())
(A
1
. . . . . A
)
. 1)
(|)
(A
1
. . . . . A
|
. 1)
_
= 0.
Cette dcomposition permet de se ramener ltude de U-Statistiques orthogonales, de
degrs infrieurs. En particulier, si
(1)
est non dgnr (i.e.
(1)
(r. 1) ,= 0, 1-presque
partout), alors l
1,a
(
(1)
) =
1
a
a
i=1
(1)
(A
i
. 1) est linaire, asymptotiquement gaussien si
0 < V
_
(1)
(A
1
. 1)
_
< . On a ainsi les rsultats suivants :
Proposition 3.A.2 (Variance dune U-Statistique) Soient l
a
la U-Statistique de noyau
dordre /, sa variance est donne par
V(l
a
) =
I
)=1
_
/
,
_
2
_
:
,
_
1
o
2
)
.
o o
2
)
= V
_
())
(A
1
. . . . A
)
. 1)
_
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
On a encore, en notant o
2
c
= V[E((A
1
. . . . . A
I
) [ A
1
. . . . . A
c
)[ .
V(l
a
) =
_
:
/
_
1 I
c=1
_
/
c
__
: /
/ c
_
1
o
2
c
.
o
2
)
et o
2
c
tant relis par la relation
o
2
c
=
c
)=1
_
c
,
_
o
2
)
et o
2
)
=
)
c=1
(1)
)c
_
,
c
_
o
2
c
.
On note que o
2
1
= o
2
1
. Pour la suite, on dnit o
2
0
= o
2
0
= 0. De plus, on note que
o
2
c
= Co [(o
1
). (o
2
)[ . o o
1
et o
2
sont des /-uplets (A
i
1
. . . . . A
i
I
) . i
)
1. . . . . : ayant
c indices i
)
communs.
Thorme 3.A.1 (Comportement asymptotique : Thorme de Hoeding (1948))
Si V[(A
1
. . . . . A
I
)[ < et si o
2
1
= V
_
(1)
(A
1
. 1)
_
,= 0 , on a alors, quand : .
:
12
(l
a
(A
1
. . . . . A
a
) o)
1ci
A(0. /
2
o
2
1
).
On peut montrer un rsultat similaire pour les V-Statistiques (pourvu que lon contrle
les variances des gradients lorsque les indices sont redoubls).
Ce thorme peut tre tendu au cas des U-Statistiques gnralises (voir Lehmann, 1951;
Sen, 1974).
Dans le cas de deux chantillons (: = 2), la reprsentation de Hoeding scrit
l
a
1
,a
2
= l
a
1
,a
2
_
A
(1)
1
. . . . . A
(1)
I
1
. A
(2)
1
. . . . . A
(2)
I
2
_
=
I
1
)
1
=0
I
2
)
2
=0
_
/
1
,
1
__
/
2
,
2
_
l
()
1
,)
2
)
a
1
,a
2
. (3.13)
avec
l
()
1
,)
2
)
a
1
,a
2
=
_
:
1
,
1
_
1
_
:
2
,
2
_
1

(a
1,
)
1
)
(a
2,
)
2
)
()
1
,)
2
)
_
A
(1)
i
1,1
. . . . . A
(1)
i
1,,
1
. A
(2)
i
2,1
. . . . . A
(2)
i
2,,
2
_
.
o
()
1
,)
2
)
(r
(1)
1
. . . . . r
(1)
)
1
. r
(2)
1
. . . . . r
(2)
)
2
). gradient dordre (,
1
. ,
2
). est dni de manire analogue
au cas unidimensionnel.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
On a
(1,0)
(r
(1)
1
. 1) = E
_
_
A
(1)
1
. . . . . A
(1)
I
1
. A
(2)
1
. . . . . A
(2)
I
2
_
[ A
(1)
1
= r
(1)
1
_
o
(0,1)
(r
(2)
1
. 1) = E
_
_
A
(1)
1
. . . . . A
(1)
I
1
. A
(2)
1
. . . . . A
(2)
I
2
_
[ A
(2)
1
= r
(2)
1
_
o
()
1
,)
2
)
(r
(1)
1
. . . . . r
(1)
)
1
. r
(2)
1
. . . . . r
(2)
)
2
) = E
_

_
A
(1)
1
. . . . . A
(1)
I
1
. A
(2)
1
. . . . . A
(2)
I
2
_
[ A
(1)
1
= r
(1)
1
. . . . . A
(1)
)
1
= r
(1)
)
1
. A
(2)
1
= r
(2)
1
. . . . . A
(2)
)
2
= r
(2)
)
2
_
)
1
1
|
1
=0
)
2
1
|
2
=0
()
1
,|
1
)
()
2
,|
2
)
(|
1
,|
2
)
_
r
(1)
i
1
. . . . . r
(1)
i
I
1
. r
(2)
i
1
. . . . . r
(2)
i
I
2
_
.
avec
(0,0)
= o.
On dnit
o
2
)
1
,)
2
= V
_
()
1
,)
2
)
(A
(1)
1
. . . . . A
(1)
)
1
. A
(2)
1
. . . . . A
(2)
)
2
)
_
.
et
o
2
c
1
,c
2
= V
_
E
_
_
A
(1)
1
. . . . . A
(1)
I
1
. A
(2)
1
. . . . . A
(2)
I
2
) [ A
(1)
1
. . . . . A
(1)
c
1
. A
(2)
1
. . . . . A
(2)
c
2
___
.
avec o
2
0,0
= o
2
0,0
= 0.
On obtient alors par un calcul direct
V(l
a
1
,a
2
) =
I
1
)
1
=0
I
2
)
2
=0
_
/
1
,
1
_
2
_
/
2
,
2
_
2
_
:
1
,
1
_
1
_
:
2
,
2
_
1
o
2
)
1
,)
2
=
I
1
c
1
=0
I
2
c
2
=0
_
I
1
c
1
__
I
2
c
2
__
a
1
I
1
I
1
c
1
__
a
2
I
2
I
2
c
2
_
_
a
1
I
1
__
a
2
I
2
_ o
2
c
1
,c
2
et
o
2
c
1
,c
2
=
c
1
)
1
=0
c
2
)
2
=0
_
c
1
,
1
__
c
2
,
2
_
o
2
)
1
,)
2
o
2
)
1
,)
2
=
)
1
c
1
=0
)
2
c
2
=0
(1)
)
1
c
1
(1)
)
2
c
2
_
,
1
c
1
__
,
2
c
2
_
o
2
c
1
,c
2
.
Comme prcdemment, on a o
2
0,1
= o
2
0,1
et o
2
1,0
= o
2
1,0
. mais o
2
1,1
,= o
2
1,1
puisque o
2
1,1
=
o
2
0,1
o
2
1,0
o
2
1,1
. Par ailleurs, o
2
c
1
,c
2
= Co [(o
1
). (o
2
)[ o o
1
et o
2
sont des (/
1
/
2
)-
uplets
_
A
(1)
i
1
. . . . . A
(1)
i
I
1
. A
(2)
|
1
. . . . . A
(2)
|
I
2
_
. i
)
1. . . . . :
1
. |
)
1. . . . . :
2
ayant c
1
indices i
)
communs et c
2
indices |
)
communs.
Thorme 3.A.2 (Comportement asymptotique des U-statistiques gnralises (: = 2))
On suppose o
2
0,1
et o
2
1,0
non nuls et on note ` = :
1
:
2
. alors si
a
1
.

.o
i [0. 1[, alors on
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
a, quand ` .
_
` (l
a
1
,a
2
o)
1ci
A
_
0.
/
2
1
o
2
1,0
i

/
2
2
o
2
0,1
1 i
_
.
La preuve (voir Lee (1990) page 140) est une extension directe du thorme de Hoeding
et sobtient directement partir de la dcomposition de Hoeding gnralise.
Annexe 3.B Preuves et complments
3.B.1 Preuve du thorme 3.1.1
Ecrivons la reprsentation de Hoeding pour cette U-Statistique gnralise de degrs
/
C
= 1. /
1
= 1. . . . . /
1
= 1. Par une gnralisation immdiate de 3.13, on a
o
o
(T
cnj
) = l
a,1
1
,...,1
T
=
1
)
C
=0
1
)
1
=0
. . .
1
)
T
=0
_
1
,
C
__
1
,
1
_
. . .
_
1
,
1
_
l
()
C
,)
1
,...,)
T
)
a,1
1
,...,1
T
.
avec
l
()
C
,)
1
,...,)
T
)
a,1
1
,...,1
T
=
_
:
,
C
_
1
_
1
1
,
1
_
1
. . .
_
1
1
,
1
_
1
()
C
,)
1
,...,)
T
)
.
Alors, on obtient
o
o
(T
cnj
) = o
o
(T) l
(1,0,...,0)
a,1
1
,...,1
T
l
(0,1,0,...,0)
a,1
1
,...,1
T
. . . l
(0,...,0,1)
a,1
1
,...,1
T
1
a,1
1
,...,1
T
= o
o
(T)
1
:
a
i=1
t
(c
i
1
. . . . . c
i
1
)
1
j=1
1
1
j
1
=1
(
j
)
) 1
a,1
1
,...,1
T
.
Comme tous les gradients scrivent comme une somme nie de probabilits, ils sont tous
borns. Le reste 1
a,1
1
,...,1
T
est donc une U-Statistique dgnre, dont tous les moments sont
nis, il sen suit que 1
a,1
1
,...,1
T
= C(`
1
).
Par le thorme de Central Limit, on a
:
12
_
l
(1,0,...,0)
a,1
1
,...,1
T
_

.o
A (0. V[
t
(C
1
. . . . . C
1
)[) .
o V(
t
(C
1
. . . . . C
1
)) = o
2
1,0,...,0
= o
2
1,0,...,0
avec les notations de la section prcdente.
Et pour , = 1. . . . . 1. on obtient de mme
1
12
)
_
l
(0,...,1,...,0)
a,1
1
,...,1
T
_

.o
A
_
0. V(
Q
(
)
))
_
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
3.B. PREUVES ET COMPLMENTS 105
On a donc
`
12
(o
o
(T
cnj
) o
o
(T))
=
_
`
:
_
12
:
12
_
l
(1,0,...,0)
a,1
1
,...,1
T
_
_
`
1
1
_
12
1
12
1
l
(0,1,0,...,0)
a,1
1
,...,1
T
. . .
. . .
_
`
1
1
_
12
1
12
1
l
(0,...,0,1)
a,1
1
,...,1
T
o
1
(1).
Par indpendance des l
(......)
a,1
1
,...,1
T
, et puisque
a
.
j 0 .
1
.
,
)
0. on en dduit
`
12
[o
o
(T
cnj
) o
o
(T)[
.o
A
_
0.
1
j
V[
t
(C
1
. . . . . C
1
)[
1
)=1
1
,
)
V
_
(
)
)
_
_
.
3.B.2 Preuve de la proposition 3.2.1
Ce rsultat est dmontr dans louvrage de Lee dans le cas de U-statistiques simples (Lee,
1990, Thorme 4 page 193), nous ltendons aux U-statistiques gnralises.
Soient
_
i
t
. ,
i
:
1
. . . . . ,
i
:
1
_
t=1,...,1
, 1 lments de /. alors on peut crire
o
o,1
(T
cnj
) = 1
1
1
t=1
_
c
i
:
.
1
)
.
:
1
. . . . .
1
)
.
:
T
_
.
Pour plus de clart, notons (c
i
:
.
1
)
.
:
1
. . . . .
1
)
.
:
T
) :=
_
i
t
. ,
i
:
1
. . . . . ,
i
:
1
_
. alors on a
V[o
o,1
(T
cnj
)[ = 1
2
1
t=1
1
t
0
=1
Co
_
i
t
. ,
i
:
1
. . . . . ,
i
:
1
_
.
_
i
t
0 . ,
i
:
0
1
. . . . . ,
i
:
0
1
__
= 1
2
_
_

1
t=1
1
t
0
=1
t,=t
0
Co
_
i
t
. ,
i
:
1
. . . . . ,
i
:
1
_
.
_
i
t
0 . ,
i
:
0
1
. . . . . ,
i
:
0
1
__
1
t=1
V
_
i
t
. ,
i
:
1
. . . . . ,
i
:
1
__
_
_
. (3.14)
o : dsigne le plan de rchantillonnage selon lequel sont tirs les indices (Sondage Alatoire
Simple Avec Remise ici).
Pour tout t ,= t
t
. par changeabilit, les termes de covariance de la relation (3.14)
scrivent
Co
_
i
t
. ,
i
:
1
. . . . . ,
i
:
1
_
.
_
i
t
0 . ,
i
:
0
1
. . . . . ,
i
:
0
1
__
=
_
:
1
j=1
1
j
_
2
(i,)
1
,...,)
T
)
(
i
0
,)
0
1
,...,)
0
T
)
Co
_
(i. ,
1
. . . . . ,
1
) .
_
i
0
. ,
t
1
. . . . . ,
t
1
__
= V(l
a,1
1
,...,1
T
) = V[o
o
(T
cnj
)[ .
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Et, pour tout t.de nouveau par changeabilit, les termes de variance de la relation (3.14)
scrivent
V
_
i
t
. ,
i
:
1
. . . . . ,
i
:
1
__
=
_
:
1
j=1
1
j
_
1
(i,)
1
,...,)
T
)
V[ (i. ,
1
. . . . . ,
1
)[
= o
2
1,1,...,1
.
puisque o
2
1,1,...,1
est la covariance entre (o) et (1) o o et 1 sont les (1 1)-uplets ayant
tous leurs indices communs (/
C
= 1. /
1
= 1. . . . . /
1
= 1).
On a donc le rsultat
V[o
o,1
(T
cnj
)[ = 1
2
_
1(1 1)V[o
o
(T
cnj
)[ 1o
2
1,1,...,1
_
=
o
2
1,1,...,1
1

_
1
1
1
_
V[o
o
(T
cnj
)[ .
3.B.3 Preuve du thorme 3.2.1
Ce rsultat est dmontr dans louvrage de Lee dans le cas de U-statistiques simples (Lee,
1990, Thorme 1 page 200), nous ltendons aux U-statistiques gnralises en corrigeant
une erreur de Lee (1990) page 190 dans ce rsultat prliminaire.
Rsultat prliminaire :
Montrons que V[o
o,1
(T
cnj
) o
o
(T
cnj
)[ = V[o
o,1
(T
cnj
)[ V[o
o
(T
cnj
)[.
Soient o
1
. . . . . o
1
. les lments tirs dans / et o un (11)-uplets quelconque de 1. . . . . :
1. . . . . 1
1
. . . 1. . . . . 1
1
. alors on a par quiprobabilit des o
)
.
Co [o
o,1
(T
cnj
) . o
o
(T
cnj
)[ = 1
1
1
)=1
Co([(o
)
). o
o
(T
cnj
)[ = Co [(o). o
o
(T
cnj
)[ .
De plus, on a
V[o
o
(T
cnj
)[ = A
1
A
1
Co [o
o
(T
cnj
) . (o)[ = Co [o
o
(T
cnj
) . (o)[ .
et on en dduit
V[o
o,1
(T
cnj
) o
o
(T
cnj
)[ = V[o
o,1
(T
cnj
)[ V[o
o
(T
cnj
)[ 2Co [o
o,1
(T
cnj
) . o
o
(T
cnj
)[
= V[o
o,1
(T
cnj
)[ Co [(o). o
o
(T
cnj
)[
= V[o
o,1
(T
cnj
)[ V[o
o
(T
cnj
)[ .
Prouvons maintenant chaque assertion du thorme 3.2.1.

1. Il sut de montrer que
_
` [o
o,1
(T
cnj
) o
o
(T
cnj
)[
1
0.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
3.B. PREUVES ET COMPLMENTS 107
Comme E
_
_
` [o
o,1
(T
cnj
) o
o
(T
cnj
)[
_
= 0. et que daprs le rsultat prliminaire,
on a
V[o
o,1
(T
cnj
) o
o
(T
cnj
)[ = V[o
o,1
(T
cnj
)[ V[o
o
(T
cnj
)[
== lim
.o
V
_
_
` [o
o,1
(T
cnj
) o
o
(T
cnj
)[
_
= lim
.o
`
o
2
1,1,...,1
V[o
o
(T
cnj
)[
1
= 0.
do
_
` [o
o,1
(T
cnj
) o
o
(T
cnj
)[
1
0.
2. Notons o les (1 1)-uplets de / et 2
S
le nombre de fois o o est tir. Alors, si on note
A = :
1
)=1
1
)
. (2
1
. . . . . 2
A
) ~ /
_
_
_
1.
1
A
. . . . .
1
A
. .
A fois
_
_
_
. la loi multinomiale desprance
1
A
. On a
_
1[o
o,1
(T
cnj
) o
o
(T)[ =
1
_
1
a
1
1
1
1
. . .
1
T
1
2
S
([(o) o
o
(T)[).
Notons c
.
la fonction caractristique de
_
1[o
o,1
(T
cnj
) o
o
(T)[ et c celle de la loi
limite de
_
` [o
o
(T
cnj
) o
o
(T)[ .
On a alors
c
.
(t) = E
_
cxp
_
it
1
_
1
a
1
1
1
1
. . .
1
T
1
2
S
[(o) o
o
(T)[
__
= E
_
_
_
_
_
E
_
_
cxp
_
it
1
_
1
A
S=1
_
1
A
2
S
1
A
_
[(o) o
o
(T)[
_
[
_
_
C
1
. . . . . C
a
:
Q
1
1
. . . . . Q
1
1
1
:
.
.
.
Q
1
1
. . . . . Q
1
1
T
_
_
_
_
_
_
_
_
_
= E
_
cxp
_
it
_
1[o
o
(T
cnj
) o
o
(T)[
__
E
_
_
cxp
_
it
_
1
A
S=1
_
2
S
1
A
_
[(o) o
o
(T)[
_
[
_
_
C
1
. . . . . C
a
:
Q
1
1
. . . . . Q
1
1
1
:
.
.
.
Q
1
1
. . . . . Q
1
1
T
_
_
_
_
.
Lesprance conditionnelle (second terme du produit) est la fonction caractristique
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
dune v. a. de loi A(0. o
2
1,1,...,1
) par le lemme A, page 201 de Lee (1990)
2
. Do,
lim
.o
c
.
(t) = lim
.o
E
_
cxp
_
it
_
1[o
o
(T
cnj
) o
o
(T)[
__
c
o
2
1,1,...,1
I
2
2
= lim
.o
E
_
cxp
_
it
_
1
_
`
_
` [o
o
(T
cnj
) o
o
(T)[
__
c
o
2
1,1,...,1
I
2
2
= c
_
c
12
t
_
c
o
2
1,1,...,1
I
2
2
.
qui correspond la fonction caractristique de
_
cA o
1,1,...,1
1. o A a la mme
distribution asymptotique
_
` [o
o
(T
cnj
) o
o
(T)[ et 1 ~ A(0. 1). avec A et 1 ind-
pendants.
Or, on sait que
_
` [o
o
(T
cnj
) o
o
(T)[
1ci
A(0. o
2
). o o
2
est dni par 3.1, on en
dduit que
_
1[o
o,1
(T
cnj
) o
o
(T)[
1ci
A
_
0. co
2
o
2
1,1,...,1
_
.
On retrouve ainsi
lim
.o
1V[o
o,1
(T
cnj
)[ = lim
.o
1
_
o
2
1,1,...,1
1

_
1
1
1
_
ò
2
_
= co
2
o
2
1,1,...,1
.
3. Preuve analogue la prcdente.
2
Le lemme assure que si a
1
, . . . , a
N
est une suite de constante telle que lim
N!1
N
i=1
a
i
= 0 et
lim
N!1
N
i=1
a
2
i
= o
2
et que (7
1
, . . . , 7
N
) ~ /
_
:;
1
, ...,
1
_
alors quand : et ,
:
1=2
N
i=1
a
i
(7
i
:,) A(0, o
2
).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Chapitre 4
Les problmes de censure des donnes
et leur traitement
Lutilisation de donnes analytiques pose le problme du traitement de la censure (
gauche) des valeurs releves. En eet, de nombreuses analyses sont infrieures la limite de
dtection (LOD) ou de quantication (LOQ). Ces limites dpendent de multiples facteurs
et peuvent tre considres comme alatoires. Les recommandations OMS/ JECFA ce
sujet sont les suivantes : si lchantillon comporte moins de 60% de valeurs censures, il
faut simplement remplacer les donnes censures (de la forme ("<LOD" ou "<LOQ") par
LOD/2 ou LOQ/2 ; sinon, il faut raliser lvaluation de risque selon les deux scnarios les
plus extrmes : remplacement des donnes censures par les limites elles-mmes ou par zro
(GEMs/Food-WHO, 1995). Le fait dutiliser lun ou lautre des scnarios inue de manire
importante sur lvaluation du risque comme nous lavons montr dans le chapitre prcdent.
Le but de ce chapitre est de proposer des mthodes statistiques permettant dintgrer au
modle cette censure gauche des donnes de contamination.
La dnition prcise du type de censure que prsentent les donnes de contamination est
une question dlicate : sagit-il dune censure ou dune troncature ? Le doute sinstalle du fait
que les modles de dure (Lawless, 1982; Little & Rubin, 1987) font en gnral apparatre
des censures droite et des troncatures gauche. Il sagirait de troncature si lchantillon
de donnes de contamination ne comportait que les mesures quanties et la donne de la
limite de quantication : dans ce cas, la taille de lchantillon serait alatoire. Il sagit donc
bien de censure. Est-elle xe ou alatoire ? Comme les donnes proviennent de laboratoires
prsentant des limites de dtection et de quantication trs direntes, nous supposons que
la censure est alatoire. Helsel (2004) propose une revue complte et pratique des outils
utiliss en sciences environnementales pour analyser des donnes analytiques censures, ga-
lement sous lhypothse dune censure xe (Singh & Nocerino, 2002; Shumway et al., 2002;
Kroll & Stedinger, 1996, pour quelques exemples utiliss dans le domaine des sciences envi-
ronnementales). En particulier, en choisissant une distribution paramtrique usuelle pour la
contamination, la maximisation de la vraisemblance de lensemble des observations (censu-
res ou non) permet dobtenir un ajustement paramtrique prenant en compte une censure
gauche xe. Cette solution a t implmente pour direntes lois paramtriques usuelles.
Cette premire solution permet de conserver le caractre alatoire de la contamination des
109
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
110 CHAPITRE 4. TRAITEMENT DE LA CENSURE
aliments en prsence dune censure xe mais sest rvle peu satisfaisante, en particulier
pour lestimation des queues de distributions. Nous prsentons brivement cette mthode
dans la section 4.1.
Dans un second temps, nous nous tournons vers une solution non paramtrique. Loutil
gnralement propos pour prendre en compte une censure alatoire est lestimateur de
Kaplan & Meier (1958). Gnralement utilis pour une censure droite, nous donnons dans
la section 4.2.1 une mthode simple de calcul de cet estimateur dans le cas dune censure
gauche. Son comportement asymptotique est galement dtermin et donn en annexe 4.B.
Nous proposons ensuite de combiner les valeurs de contaminations en les tirant selon cet
estimateur de la fonction de rpartition et avec les vecteurs de consommation tirs selon la
fonction de rpartition empirique de ces consommations pour calculer un nouvel estimateur
de la probabilit de dpasser un seuil d dexposition, Ir
T
(1 d). Nous drivons les proprits
de cet estimateur dans la section 4.2.2 et proposons plusieurs intervalles de conance dans
la section 4.2.3. Ces intervalles de conance sont compars sur donnes simules, puis dans
le cadre de lvaluation du risque relatif la prsence dOchratoxine A dans de nombreux
aliments.
4.1 Mthode paramtrique
La mthode consiste ajuster une loi paramtrique chaque distribution de contamina-
tion, par exemple, une loi log-normale, une loi gamma, ou toute autre distribution param-
trique, dont le paramtre o peut tre multidimensionnel. Les paramtres sont estims par un
maximum de vraisemblance prenant en compte la censure.
Plus prcisment, si on note o le paramtre, ,
0
la densit de la distribution choisie et
1
0
la fonction de rpartition associe, = (
1
. . . . .
1
) les contaminations pour un produit
donn et o = (o
1
. . . . . o
1
) lindicatrice de censure associe (valant 0 quand la donne est
censure, dans ce cas,
)
= 1C1) alors

o est obtenu en maximisant la log-vraisemblance
suivante (Helsel, 2004) :
|(. o. o) =
1
)=1
o
)
ln [,
0
(
)
)[ (1 o
)
) ln [1
0
(
)
)[ .
Dans Tressou et al. (2004b), nous proposons lajustement 4 lois : la loi log-normale,
trs souvent utilise pour dcrire les distributions de contamination; la loi Gamma, moins
sensible aux valeurs extrmes que la prcdente ; la loi de Weibull et la loi du Chi-Deux qui
a lavantage de navoir quun seul paramtre.
Ltape suivante consiste combiner, dans une simulation de Monte-Carlo de taille 1.
les tirages selon ces lois pour la contamination et la distribution empirique des vecteurs de
consommation relative.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
4.2. MTHODE NON PARAMTRIQUE 111
4.2 Mthode non paramtrique
Dans cette section, nous utilisons deux outils thoriques que sont la mthode delta fonc-
tionnelle et lHadamard direntiabilit. Nous donnons en annexe 4.A les dnitions et tho-
rmes utiliss. Se reporter par exemple van der Vaart (1998) pour de plus amples rfrences.
Nous utilisons en particulier ces outils pour dnir et montrer la convergence de lestimateur
de Kaplan Meier (KM) pour des donnes censures gauche. Comme nous la soulign un
rapporteur de la revue JASA, Gmez et al. (1994) propose galement une dmonstration
de la convergence de lestimateur de KM pour des donnes censures gauche utilisant
lquation Backward de Dolans.
4.2.1 Estimateur de Kaplan Meier pour des donnes censures
gauche
Kaplan & Meier (1958) ont obtenu un estimateur de la fonction de survie pour des
donnes alatoirement censures droite. Ce type destimateur est par exemple utilis dans
le domaine mdical lorsquon tudie les dures de vie de certaines populations : on ne peut
alors observer le phnomne que de manire incomplte. Dans le cas dune censure gauche,
on peut se ramener une censure droite en considrant une transformation des donnes
initiales du type r ` r. o ` est grand. En eet, si A est la v.a. dont on recherche
la fonction de rpartition 1
A
(r) = Ir(A _ r). alors la fonction de survie de 1 = ` A
est : o
Y
() = Ir(1 ) = Ir(A < ` ) = 1
A
_
(` )
. Ce type de raisonnement
permet dobtenir un estimateur de la fonction de rpartition de donnes censures gauche.
Cependant, de plus amples dveloppements sont ncessaires pour dterminer la variance et
le comportement asymptotique de cet estimateur en particulier dans le cas o la distribution
nest pas continue (se reporter lannexe 4.B pour plus de dtails).
Introduisons quelques notations an de donner une formule simple de calcul de cet esti-
mateur.
Soit (Q
)
. o
)
)
)=1,...,1
une suite de variables alatoires indpendantes, identiquement distri-
bues et censures gauche, i.e.
Q
)
= max(1
)
. C
)
) et o
)
= 1l (1
)
C
)
) .
o 1
)
est la variable dintrt, i.e. la contamination dun aliment, et C
)
est la censure, i.e.
la limite de dtection. On suppose que 1
)
et C
)
sont indpendante et que 1l (1
)
C
)
) = 1 si
1
)
C
)
et 0 sinon.
Notons 1 et G les fonctions de rpartition des 1
)
et des C
)
. on a alors 1(r) = Ir(1 _ r)
et G(r) = Ir(C _ r). Ces fonctions ne peuvent tre estimes par leur contrepartie empirique
car les 1
)
et C
)
ne sont pas observs. Par contre, en considrant H. la fonction de rpartition
des Q
)
. dnie par H(r) = Ir(Q _ r). et H
1
. la fonction de rpartition des Q
)
non censurs,
c.--d. H
1
(r) = Ir(Q _ r. o = 1). on peut calculer leurs contreparties empiriques H
1
et H
11
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
dnies par
H
1
(r) =
1
1
1
)=1
1l(Q
)
_ r) et H
11
(r) =
1
1
1
)=1
1l(Q
)
_ r. o
)
= 1).
Lestimateur de type Kaplan-Meier pour des donnes censures gauche scrit alors
[
1
1A
=
[.,o[
_
1
dH
11
H
1
_
.
o
est la fonction "produit intgral" qui est au produit discret

ce quest lintgrale
_
la somme discrte

(se reporter lannexe 4.B pour plus de dtails).
Donnons maintenant une criture simplie de lestimateur obtenu : soient Q
+
(0)
:= 0 <
Q
+
(1)
< . . . < Q
+
(i)
< . . . < Q
+
(I)
les / valeurs distinctes et non censures de lchantillon
(Q
)
. o
)
)
)=1,...,1
. on dnit pour i = 1. . . . . / :
1
i
=

1
)=1
1l
(Q
=Q
(.)
,c
=1)
. le nombre dobservations non censures gales Q
+
(i)
. On a
1
i
= 1dH
11
.
`
i
=

1
)=1
1l
(Q
(.)
)
. le nombre dobservations censures ou non et infrieures ou gales
Q
+
(i)
. On a `
i
= 1H
1
.
Alors, on peut crire
[
1
1A
(t) =
I
i=1
_
1
1
i
`
i
_
1l
(
(.)
I
)
.
Cet estimateur est quivalent celui propos par Patilea & Rolin (2001) pour des donnes
doublement censures en labsence de censure droite. Remarquons quen absence totale de
censure,
[
1
1A
est la fonction de rpartition empirique F
1
(r) =
1
1
1
)=1
1l
(Q
a)
.
Un exemple destimateur est donn pour la contamination du caf en OTA (Figure 4.1).
4.2.2 Estimation de la probabilit de dpasser un seuil d
Nous souhaitons estimer Ir(1 d) = o(d) o 1 =

1
j=1
Q
j
C
j
est lexposition au
contaminant tudi. Comme dans le chapitre 3, T = (
1
j=1
Q
j
est la distribution jointe
des vecteurs de consommations (relatives) ( et des 1 contaminations Q
j
. j = 1. . . . . 1.
valeurs dans R
21
. On rappelle que les contaminations sont indpendantes deux deux et
indpendantes des consommations.
Le risque Ir
T
(1 d) est estim par Ir
e
T
(1 d) =

o(d) avec

T =

(
a

1
j=1
Q
1
et
o

(
a
et les

Q
1
sont les distributions empiriques obtenues en considrant les estimateurs

de Kaplan Meier de chacune des distributions ( et Q
j
. j = 1. . . . . 1. A priori, nous ne
considrerons aucune censure dans les vecteurs de consommations, lestimateur de Kaplan
Meier est alors simplement la fonction de rpartition empirique classique. Pour respecter la
corrlation des consommations, nous considrons

(
a
la fonction de rpartition des vecteurs
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Fig. 4.1 Estimateur de la fonction de rpartition
[
1
1A
pour la contamination en OTA du
caf (exprime en jg/kg de matire sche).
de consommations et non celles des consommations prises une une.
Dnissons pour toute distribution T valeurs dans R
21
T
J
!(T) = Ir
T
(1 d) = E
(T)
_
1l
_
1
j=1
Q
j
C
j
d
__
.
alors la fonction dinuence associe ! est
!
t
(T) =
_
_
_
_
_
_
_
_
_
_
_
_
_
E
_
1l
(
P
T
=1
Q
o
)
[ C
1
_
.
.
.
E
_
1l
(
P
T
=1
Q
o
)
[ C
1
_
E
_
1l
(
P
T
=1
Q
o
)
[ Q
1
_
.
.
.
E
_
1l
(
P
T
=1
Q
o
)
[ Q
1
_
_
_
_
_
_
_
_
_
_
_
_
_
_
Ir
T
(1 d).e.
o e = (1. . . . . 1)
t
R
21
.
Comme ! est la compose de plusieurs fonctions Hadamard direntiables, elle lest aussi
et pour gradient
!
(1)
T
. (/ T) =
_
!
t
(T) d (/ T) .
o / est une distribution valeurs dans R
21
.
De la mme manire que dans le chapitre prcdent (cf. Thorme 3.1.1, Chapitre 3),
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
nous donnons le comportement asymptotique de lestimateur Plug-in de la probabilit de
dpasser une dose d.
Thorme 4.2.1 (Comportement asymptotique) Si
` = :
1
)=1
1
)
.
:
`
j 0 et
1
)
`
,
)
0. \, = 1. . . . . 1. (C1)
alors on a, quand ` .
_
`
_
o(d) o(d)
_
1ci
G
1A
1
(d)
avec
G
1A
1
(d) = j
12
_
E
_
1l
(
P
T
=1
Q
o
)
[ C = c
_
.G
1A
C
(dc)
)=1
,
12
)
_
E
_
1l
(
P
T
=1
Q
o
)
[ Q
)
=
)
_
.G
1A
Q
(d
)
) .
o G
1A
C
et les G
1A
Q
pour , = 1. . . . . 1 dsignent les distributions asymptotiques respectives

de

(
a
et des

Q
1
pour , = 1. . . . . 1.
Preuve : Lindpendance des consommations et des contaminations et le comportement
asymptotique des estimateurs de Kaplan Meier donn en annexe 4.B permet dcrire quand
: . 1
j
pour j = 1. . . . 1.
_
_
_
_
_
_
_
_
_
:
_
C
a
C
a
_
_
1
1
_
Q
1
1
Q
1
_
.
.
.
_
1
1
_
Q
1
T
Q
1
_
_
_
_
_
_
_
_
_
1ci
_
_
_
_
_
G
1A
C
G
1A
Q
1
.
.
.
G
1A
Q
T
_
_
_
_
_
.
o les 1 1 processus limites sont gaussiens centrs et indpendants.
En utilisant lhypothse (C1) xant le comportement asymptotique des tailles des di-
rents chantillons, on obtient quand `
_
`
_
_
_
_
_
C
a
C
a
Q
1
1
Q
1
.
.
.
Q
1
T
Q
1
_
_
_
_
_
1ci
_
_
_
_
_
G
1A
C
,
_
j
G
1A
Q
1
,
_
,
1
.
.
.
G
1A
Q
T
,
_
,
1
_
_
_
_
_
. (4.1)
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Notre estimateur

o(d) tant dni comme
Ir
(
e
C,
f
Q
1
,...,
g
Q
T )
(1 d) = !
_
C
a
.

Q
1
1
. . . . .

Q
1
T
_
.
on obtient, en appliquant la mthode delta fonctionnelle (voir annexe 4.A) (4.1) .quand
`
_
`
_
!
_
T
_
!(T)
_
1ci
!
(1)
T
_
_
_
_
_
G
1A
C
,
_
j
G
1A
Q
1
,
_
,
1
.
.
.
G
1A
Q
T
,
_
,
1
_
_
_
_
_
:= G
1A
1
(d).
o
G
1A
1
(d) = j
12
_
E
_
1l
(
P
T
=1
Q
o
)
[ C = c
_
.G
1A
C
(dc)
)=1
,
12
)
_
E
_
1l
(
P
T
=1
Q
o
)
[ Q
)
=
)
_
.G
1A
Q
(d
)
) .
par dnition de la fonction dinuence !
(1)
T
.
Ce processus limite est gaussien centr et scrit comme combinaison linaire de processus
gaussiens centrs. La variance-covariance de ce processus peut se dcomposer en 1 1 termes
orthogonaux deux deux : un terme dpendant de la consommation (pondr par 1,j) et
1 termes dpendant de chacune des distributions de contamination (pondrs par 1,,
)
). Le
calcul explicite de ces termes est dicile mais seront estims en utilisant les techniques de
rchantillonnage dcrites dans la section suivante.
En remplaant les hypothses (C1) par (C2), on obtient un thorme analogue.
Thorme 4.2.2 (Comportement asymptotique) Si
`
+
= min
)=1,...,1
_
1
)
. tel que 0 < V
_
E
_
1l
(
P
T
=1
Q
o
)
[ Q
)
__
<
_
.
1
)
`
+
,
+
)
_ 1 et
`
+
:
0.
(C2)
il vient, quand `
+
.
_
`
+
_
o(d) o(d)
_
1ci
_
G
1A
1
_
+
(d) =
1
)=1
_
,
+
)
_
12
_
E
_
1l
(
P
T
=1
Q
o
)
[ Q
)
=
)
_
.G
1A
Q
(d
)
) .
Ce processus limite est gaussien centr et sa variance-covariance peut se dcomposer en
1 termes (pondrs par 1,,
+
)
) dpendant de chacune des distributions de contamination.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
4.2.3 Mise en oeuvre pratique : estimation et intervalles de conance
Le calcul de

o(d) est fait grce une simulation de taille 1 selon les estimateurs de
Kaplan Meier des distributions de consommations et de contaminations
_
C.
Q
1
. . . . .

Q
1
_
.
Comme les consommations ne sont pas supposes censures, on procde en ralit un tirage
selon la fonction de rpartition empirique des consommations relatives, i.e. en tirant avec
remise parmi les vecteurs de consommations observs. Pour chaque vecteur de consommation,
1 valeurs de contamination sont tires selon lestimateur de Kaplan-Meier pralablement
dtermin (cf. section 4.2.1) lorsque le pourcentage de donnes censures est < 100/. Dans le
cas contraire, on utilise une valeur de contamination xe note (trs basse ou bien nulle). Ces
valeurs de contaminations sont ensuite combines aux vecteurs de consommations relatives
pour construire 1 valeurs dexposition. Enn,

o(d) est le pourcentage de ces expositions
dpassant le seuil d. Dans la suite nous dsignerons par Procdure KM lensemble de ces
calculs dont la synthse est prsent dans lencadr 4.2.
Fig. 4.2 Description de la Procdure KM
Tirer 1 vecteurs de consommation selon la fonction
de rpartition empirique des donnes
Pour chaque produit j. tirer 1 valeurs de contamina-
tion selon lestimateur de Kaplan Meier associ aux
donnes de contamination du produit j ou bien une
valeur xe (petite) lorsque lchantillon est totale-
ment censur.
En dduire 1 valeurs dexpositions ainsi que

o(d). le
pourcentage de ces expositions dpassant le seuil d
An destimer les variances dcrites dans la section prcdente, nous proposons luti-
lisation dun bootstrap simple, puis dun double bootstrap. Efron (1981); Akritas (1986)
ont montr la validit du bootstrap en prsence de donnes censures. Celle-ci drive di-
rectement de la validit du bootstrap pour des fonctionnelles Hadamard direntiables (cf.
van der Vaart, 1998; Gill, 1989; Pons & Turckeim, 1989). Nous dterminons ainsi un estima-
teur de la variance de

o(d). ainsi que ses direntes composantes orthogonales mentionnes
prcdemment. De plus, nous construisons des intervalles de conance de manire similaire
au chapitre 3 en studentisant les estimateurs obtenus dans le premier bootstrap par les
variances obtenues dans le second. Nous donnons ici lalgorithme de calcul.
Dans ce cadre, il se peut que certains chantillons Bootstrap de contamination ne com-
portent que des donnes censures, la contamination est alors xe au niveau .
1. Etape destimation : Calculer

o =
o(d) selon la procdure KM (encadr 4.2).

2. Premier niveau de rchantillonnage : rpter `
1
fois, :
1
= 1. . . . . `
1
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Tirer un chantillon bootstrap de consommations relatives, C
+(n
1
)
ainsi que des
chantillons bootstrap pour chaque contamination, Q
+(n
1
)
j
. j = 1. . . . . 1 de tailles
respectives :. 1
1
. . . . . 1
1
. On notera quun chantillon bootstrap de contamination
comprend la fois les niveaux de contamination et les indicatrices de censure asso-
cies.
Calculer
o
(n
1
)
selon la procdure KM sur les chantillons bootstrap C
+(n
1
)
et Q
+(n
1
)
j
.
j = 1. . . . . 1.
Un premier estimateur de la variance sobtient par
o
2
=
1
`
1
A
1
n
1
=1
_
o
(n
1
)
_
1
`
1
A
1
n
1
=1
o
(n
1
)
__
2
.
Cette premire tape de bootstrap permet de calculer les IC (1 c) / suivants :
IC Basic Percentile dni par
_
o
[c2[
:
o
[1c2[
_
o

o
[o[
est le ,
` cnc
percentile de
_
o
(n
1
)
. :
1
= 1. . . . . `
1
_
.
IC Percentile CI dni par
_
2
o
[1c2[
: 2
o
[c2[
_
o

o
[o[
est le ,
` cnc
percentile
de
_
o
(n
1
)
. :
1
= 1. . . . . `
1
_
.
IC Asymptotique dni par
_
o 4
1
c2
o
2
_
o 4
1
c2
est le c,2
` cnc
quantile dune
loi normale standard.
3. Pour construire des intervalles de type t-percentile (Hall, 1986a), une seconde tape de
rchantillonnage est ncessaire pour estimer la variance de

o
(n
1
)
== Second niveau de rchantillonnage : pour chaque rchantillonnage :
1
. r-
pter `
2
fois, :
2
= 1. . . . `
2
.
Tirer un chantillon bootstrap de consommations relatives C
++(n
2
,n
1
)
ainsi que des
chantillons bootstrap pour chaque contamination, Q
++(n
2
,n
1
)
j
. j = 1. . . . . 1 dans les
chantillons du premier rchantillonnage C
+(n
1
)
et Q
+(n
1
)
j
. j = 1. . . . . 1, chantillons
de tailles respectives :. 1
1
. . . . . 1
1
.
Pour lestimation de la variance de
o
(n
1
)
. calculer
o
(n
2
,n
1
)
selon la procdure KM sur
les chantillons bootstrap C
++(n
2
,n
1
)
et Q
++(n
2
,n
1
)
j
. j = 1. . . . . 1. La variance de
o
(n
1
)
est alors estime par
o
2
(n
1
)
=
1
`
2
A
2
n
2
=1
_
o
(n
2
,n
1
)
_
1
`
2
A
2
n
2
=1
o
(n
2
,n
1
)
__
2
.
Pour lestimation des direntes composantes de la variance, il faut calculer pour
chaque rchantillonnage :
2

o
(n
2
,n
1
)
[C
selon la procdure KM sur les chantillons bootstrap C
+(n
1
)
and Q
++(n
2
,n
1
)
j
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
j = 1. . . . . 1. La variance "conditionnelle C
+(n
1
)
o
2
(n
1
)
[C
=
1
`
2
A
2
n
2
=1
_
o
(n
2
,n
1
)
[C

_
1
`
2
A
2
n
2
=1
o
(n
2
,n
1
)
[C
__
2
.
Pour , = 1 . . . . 1.

o
(n
2
,n
1
)
[Q
selon la procdure KM sur les chantillons bootstrap

C
++(n
2
,n
1
)
, Q
+(n
1
)
)
et Q
++(n
2
,n
1
)
j
. j = 1. . . . . 1: j ,= ,. La variance "conditionnelle
Q
+(n
1
)
)
o
2
(n
1
)
[Q
=
1
`
2
A
2
n
2
=1
_
o
(n
2
,n
1
)
[Q

_
1
`
2
A
2
n
2
=1
o
(n
2
,n
1
)
[Q
__
2
.
La variance sous (C1) est estime par
o
2
(n
1
)
(1.2.1)
=

o
2
(n
1
)
[C

1
)=1
o
2
(n
1
)
[Q
.
et sous les conditions (C2) . par
o
2
(n
1
)
(1.2.2)
=
1
)=1
o
2
(n
1
)
[Q
.
Grce ces estimateurs de la variances on peut construire les trois statistiques
studentises suivantes :
t
(n
1
)
=

o
(n
1
)
o
o
(n
1
)
. t
(n
1
)
(1.2.1)
=

o
(n
1
)
o
o
(n
1
)
(1.2.1)
. t
(n
1
)
(1.2.2)
=

o
(n
1
)
o
o
(n
1
)
(1.2.2)
. (4.2)
Les intervalles de conance de type t-percentile de niveau 1 c sont alors donns
par
_
o o t
[1c2[
:
o o t
[c2[
_
.
o t
[o[
est le ,
` cnc
percentile de
_
t
(n1)
. :
1
= 1. . . . . `
1
_
ou de
_
t
(n
1
)
(1.2.1)
. :
1
= 1. . . . . `
1
_
ou de
_
t
(n
1
)
(1.2.2)
. :
1
= 1. . . . . `
1
_
.
Ces IC peuvent tre compars ceux obtenus dans le chapitre 3, i.e. sans modli-
sation de la censure.
4.2.4 Validation par simulation
Comme dans le chapitre prcdent (section 3.3.3), les probabilits de couverture et lon-
gueurs des dirents intervalles de conance proposs ont t values sur donnes simules.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Nous utilisons de nouveau une loi lognormale multidimensionnelle pour les consommations,
,
C
. et des lois de Pareto pour les contaminations, ,
Q
. La vraie valeur du paramtre est de

nouveau approche par une simulation de Monte Carlo de taille 1 000 000. avant censure des
donnes de contamination. Pour intgrer une censure alatoire sur ces distributions, nous
utilisons la rpartition empirique des censures observes pour lensemble des aliments. Nous
choisissons donc une distribution discrte pour la censure.
Le tableau 4.1 donne les rsultats obtenus pour les trois premiers IC pour 1 = 00
simulations. Pour les intervalles de type t-percentile, il ntait techniquement pas possible
deectuer 00 simulations (une seule simulation prenant dj plus de deux jours), aprs
1 = 10, la probabilit de couverture tait de 100/ et la longueur moyenne des IC de 0./.
Tab. 4.1 Probabilits de couverture et longueurs des IC : 1 = 000, `
1
= 200, 1 = 00.
Dnition de lIC Basic-Percentile Percentile Asymptotique
Probabilit de couverture 96.8% 87.4% 95.0%
Longueur de lIC 6.26% 6.26% 6.24%
Aprs un arbitrage entre temps de calcul et prcision des estimateurs, il semble que
lintervalle Basic Percentile soit encore le meilleur, pour un nombre de rchantillonnage
bootstrap `
1
= 200 et des simulations de taille 1 = 000 (pour la Procdure KM). Toutefois,
ceci nexclut pas dutiliser la dcomposition propose dans les thormes 4.2.1 et 4.2.2 pour
mesurer le rle des direntes distributions de contamination et de consommation.
An de dmontrer lintrt de lutilisation de la Procdure KM, nous comparons les pro-
babilits de couvertures obtenues lorsquon utilise les traitements adhocs de la censure (H1,
H2, H3). Pour les IC Basic Percentile, la probabilit de couverture atteint au mieux 11% pour
le traitement H2, i.e. lorsque les valeurs censures sont remplaces par la moiti des limites
de dtection ou de quantication. Pour les scnarios H1 et H3, la probabilit de couverture
est estime 0/ pour 1 = 00 ...
4.3 Illustration : risque dexposition lochratoxine A
Nous nous intressons de nouveau lvaluation du risque relatif la prsence dochra-
toxine A dans un grand nombre daliments. Nous invitons le lecteur se reporter la section
3.4 pour une description des eets de cette mycotoxine et des donnes franaises utilises
pour mener cette valuation de risque.
La gure 4.3 propose une comparaison entre plusieurs distributions de lexposition
lOTA (cf. section 3.4.1 pour la description des donnes), sont reprsentes :
les distributions obtenues en remplaant les donnes censures selon les scnarios H1
(LOD ou LOQ), H2 (LOD/2 ou LOQ/2) et H3 (zro),
la distribution obtenue en appliquant la mthode paramtrique propose dans la section
4.1 en utilisant des lois Gamma pour chacune des distributions de contamination (note
P-Gamma),
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
la distribution obtenue en utilisant un estimateur de Kaplan Meier pour chacune des
distributions de contamination.
Fig. 4.3 Comparaison de direntes distributions de lexposition lOTA.
On observe que les deux distributions proposes (KM et P-Gamma) donnent des r-
sultats trs proches graphiquement du moins pour la partie centrale. En eet, ces deux
procdures permettent dobtenir des distributions comprises entre celle obtenue sous H2 et
celle obtenue sous H3, ce qui semble raisonnable tant donne la grande proportion de don-
nes censures. Toutefois, une analyse plus pousse permet de remarquer que lajustement
paramtrique conduit souvent une sur-estimation ou une sous-estimation des queues de
distributions (voir tableau 4.2). En particulier, lajustement une loi log-normale conduit
une sur-estimation de la queue de distribution puisque le 99
` cnc
percentile (P99) est plus
lev pour P-LogNormale que pour le calcul le plus conservateur (H1). Les ajustements des
lois Gamma ou Chi-deux produisent leet inverse. Ceci est d au fait que les estimateurs
des paramtres de ces lois sont obtenus par maximum de vraisemblance sur lensemble des
donnes de contamination dun mme produit, mthode favorisant la tendance centrale au
dtriment des extrmes.
Le tableau 4.3 donne les intervalles de conance (IC) pour notre paramtre dintrt o(3)
obtenus pour direntes valeurs de 1. `
1
et `
2
et = 0 et dnis dans la section 4.2.3. Nous
notons respectivement "Double Bootstrap", "t-percentile (4.2.1)" et "t-percentile (4.2.2)")
les IC de type t-percentile obtenus en utilisant respectivement les statistiques studentises
t
(n
1
)
: t
(n
1
)
(1.2.1)
et t
(n
1
)
(1.2.2)
), dnies en (4.2).
On observe dans le tableau 4.3 que les IC Percentile et Asymptotique sont trs sensibles
ltape destimation de la procdure bootstrap, on prfrera donc lIC Basic Percentile
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Tab. 4.2 Comparaison des distributions dexposition lOTA obtenues sous H1, H2, et H3
et de celles obtenues en utilisant des ajustements paramtriques (4 lois) et lestimateur de
Kaplan Meier Taille des simulation : 1 = . 000.
P25 Mdiane Moyenne P75 P95 P99 P(DDHT)
KM 1.3 7.4 19.9 18.9 83.2 215.8 13.8%
H1 16.4 26.6 39.2 45.7 105.5 220.3 35.6%
H2 9.9 17.0 29.9 30.6 91.7 254.4 20.4%
H3 0.1 4.5 18.2 16.5 81.7 210.2 12.2%
P-LogNormale 3.9 8.7 75.5 20.6 85.1 312.1 14.8%
P-Gamma 2.5 7.7 21.0 21.6 84.7 179.5 15.8%
P-Weibull 3.0 8.1 23.1 21.3 79.5 218.4 15.1%
P-ChiDeux 2.3 8.5 22.8 25.8 91.8 192.8 18.0%
avec 1 = 000 et `
1
= 200. Le choix des paramtres ne semble pas inuer de manire
importante y compris dans les intervalles de type t-percentile. Dans le cadre de calculs prcis
de la variance terme terme, nous retenons donc 1 = 000. `
1
= 200 et `
2
= 200. Nous
obtenons des rsultats trs similaires en considrant = 0 ou 0.0 comme valeur xe de
contamination, en cas de censure totale de lchantillon. Dans la suite, nous retenons = 0.
Tab. 4.3 Inuence du choix des paramtres dans la construction des intervalles ; 1H1 =
3: = 0.
Paramtres Intervalle de conance 95% pour o(3) (%)
1 `
1
`
2
Basic Percentile Percentile Asymptotic
5000 200 200 9.58 -16.82 8.34 - 15.58 8.95 - 16.21
5000 200 300 9.60 - 16.54 10.30 - 17.24 10.02 - 16.82
5000 400 100 9.24 - 16.52 10.88 - 18.16 10.03 - 17.37
5000 400 200 9.26 - 16.74 9.02 - 16.50 9.10 - 16.66
10000 200 200 9.34 - 17.36 8.56 - 16.58 9.21 - 16.71
5000 400 300 9.22 - 16.96 8.76 - 16.50 9.06 - 16.66
10000 400 400 9.36 - 16.07 9.37 - 16.08 9.05 - 16.39
1 `
1
`
2
Double Bootstrap t-Percentile (4.2.1) t-Percentile (4.2.2)
5000 200 200 9.40 - 16.50 9.45 - 16.25 9.46 - 16.24
5000 200 300 10.98 - 17.91 10.98 - 17.91 10.98 - 17.91
5000 400 100 11.05 - 20.08 11.14 - 19.56 11.15 - 19.54
5000 400 200 9.37 - 17.81 9.42 - 17.89 9.42 - 17.87
10000 200 200 8.98 - 18.43 8.96 - 18.29 8.94 - 18.30
5000 400 300 9.29 - 18.11 9.43 - 18.10 9.43 - 18.08
10000 400 400 9.47 - 17.49 9.51 - 17.41 9.50 - 17.43
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Tab. 4.4 Dcomposition de la variance
Nombre d Pourrcentage de Contribution Contribution
analyses donnes censures o
(C1)
o
(C2)
Consommation (tous produits) 3003 12.3%
Abats et Charcuterie 1063 90% 12.3% 14.1%
Vins 996 72% 12.4% 14.1%
Produits craliers 75 96% 9.6% 10.9%
Crales 241 59% 4.2% 4.8%
Caf 103 52% 12.3% 14.0%
Fruits et lgumes 103 56% 12.3% 14.1%
Fruits et lgumes secs 82 87% 12.3% 14.0%
Riz, Semoule 43 93% 12.3% 14.0%
Bires 2 100% 0 0
Tab. 4.5 Inuence de lge sur la probabilit de dpasser un seuil tolrable. (IC Basic
Parcentile, `
1
= 200, 1 = 000 and = 0)
Population Taille de la population Intervalle de conance 95% pour o(3) (%)
Enfants (moins de 15 ans) 1018 13.02 - 21.88
3-6 ans 341 14.38 - 27.68
7-10 ans 344 13.28 - 22.80
11-14 ans 333 9.72 - 18.30
Adultes (plus de 15 ans) 1985 7.42 - 12.86
15-24 ans 311 7.10 - 14.18
25-64 ans 1365 7.52 - 13.46
plus de 64 ans 309 7.12 - 12.52
Tab. 4.6 Impact de lintroduction dune limite maximale sur les crales pour deux sous-
populations : les adultes et les enfants (IC Basic Percentile, `
1
= 200, 1 = 000 and = 0)
Population (Taille) Scnario Intervalle de conance 95% pour o(3) (%)
Adultes (1985) Pas de ML 7.18 - 13.64
ML=5 jq,/q pour les crales 5.00 - 10.46
Enfants de moins de 10 ans (685) Pas de ML 15.06 - 24.76
ML=5 jq,/q pour les crales 13.38 - 20.92
Le tableau 4.4 donne les contributions la variance totale de chaque distribution utilise
(1 = 9 distributions de contamination et une distribution multidimensionnelle de consom-
mation) pour chacun des thormes proposs dans lune des sections prcdentes. On observe
que chaque distribution a une contribution peu prs quivalente sauf les contaminations des
groupes "Produits Craliers" et "Crales" dont la contribution est plus faible. Ceci dire
des rsultats obtenus dans le chapitre prcdent (tableau 3.2) du fait des approximations
direntes des composantes de la variance. Ce sont de nouveau les produits qui contribuent
le plus la DHT du SCF qui ont une contribution atypique la variance totale : leurs
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Tab. 4.7 Impact de lintroduction dune limite maximale sur les vins pour les adultes et
les seuls consommateurs de vin. (IC Basic Percentile, `
1
= 200, 1 = 000 and = 0)
Population (Taille) Scnario Intervalle de conance 95% pour o(3) (%)
Adultes (1985) Pas de ML 6.96 - 14.28
ML=3 jq,1 pour le vin 6.72 - 13.24
ML=2 jq,1 pour le vin 7.56 - 13.58
ML=1 jq,1 pour le vin 6.72 - 12.88
Consommateurs de vin (1198) Pas de ML 8.48 - 14.72
ML=3 jq,1 pour le vin 8.46 - 14.76
ML=2 jq,1 pour le vin 7.56 - 14.70
ML=1 jq,1 pour le vin 7.20 - 13.86
contributions la DHT du SCF (35 ng/sem/kg pc) sont en moyenne respectivement de 10%
pour les "Produits Craliers" et de 74% pour les "Crales".
Le tableau 4.5 donne les IC obtenus pour des sous populations de dirents ges : on
retrouve ici que les enfants (les plus jeunes) sont la population la plus expose.
Les tableaux 4.6 et 4.7 montrent limpact de lintroduction dune limite maximale respec-
tivement sur les crales et sur les vins pour les adultes dune part et des sous populations
plus sensibles (respectivement les jeunes enfants et les consommateurs de vin). Les rductions
conscutives ces nouvelles normes ne sont pas statistiquement signicatives.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Annexe 4.A Hadamard direntiabilit et Delta-mthode
fonctionnelle
La delta-mthode fonctionnelle est une gnralisation de la mthode dite de Slutsky uti-
lise en conomtrie, elle permet de driver le comportement asymptotique dune variable
alatoire 1 = d(A) . valeurs dans R
I
. ds lors que celui de A est connu et si d satisfait
des conditions de direntiabilit. La delta-mthode fonctionnelle sapplique des processus
alatoires valeurs dans un espace de dimension innie et pour des fonctionnelles Hadamard
direntiables. Cette direntiabilit, aussi appele direntiabilit compacte, est plus sou-
vent vrie que la drivabilit au sens de Frchet et est plus puissante que la drivabilit au
sens de Gteaux : cest la notion de direntiabilit la plus faible permettant de conserver
la continuit de la composition (i.e. la compose de deux fonctions Hadamard direntiables
est Hadamard direntiable) et de lecacit (la transforme dune statistique ecace par
une fonction Hadamard direntiable est ecace).
Nous donnons dans cette annexe les dnitions et thormes utiliss dans les preuves de
ce chapitre et dtaills dans van der Vaart (1998).
Dnition 4.A.1 (Hadamard Direntiabilit, van der Vaart (1998), page 296) Une
fonction 4 : D
4
D E dnie sur D
4
. sous ensemble de lespace vectoriel norm D.
contenant o. est dite Hadamard direntiable en o sil existe une application linaire continue
4
t
0
: D E telle que
_
_
_
_
4(o t/
t
) 4(o)
t
4
t
0
(/)
_
_
_
_
E
t 0
/
t
/
0.
Si 4
t
0
nest dnie que sur un sous-ensemble D
0
de D et que / D
0
alors 4 est dite Hadamard
direntiable en o tangentiellement D
0
.
Le thorme suivant assure la stabilit par composition de la proprit dHadamard dif-
frentiabilit et donne la compose de deux fonctions Hadamard direntiables. Ce thorme
de composition est connu sous le terme "Chain rule".
Thorme 4.A.1 (Chain rule, van der Vaart (1998), page 298) Soient 4 : D
4
D
E et d : E
+
E F. Supposons que 4 est Hadamard direntiable en o tangentiellement
D
0
et que d est direntiable en 4(o) tangentiellement 4
t
0
(D
0
) . alors d4 : D
4
D F
est Hadamard direntiable en o tangentiellement D
0
de drive d
t
4(0)
4
t
0
.
Thorme 4.A.2 (Delta-Mthode fonctionnelle, van der Vaart (1998), page297)
Soient D et E, deux espaces vectoriels norms. Soit 4 : D
4
D E une fonction Hada-
mard direntiable en o tangentiellement D
0
. Soit 1
a
: !
a
D
4
une application telle
que :(:)(1
a
o) ~ 1 pour :(:) et 1 processus alatoire valeurs dans D
0
. Alors
:(:)(4(1
a
) 4(o)) ~ 4
t
0
(1) . De plus, si 4
t
0
est dnie et continue sur tout lespace D alors
:(:)(4(1
a
) 4(o)) = 4
t
0
(:(:)(1
a
o)) o
1
(1).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
4.B. COMPORTEMENT ASYMPTOTIQUE 125
Nous appliquons cette delta mthode fonctionnelle des processus empiriques et rappe-
lons ici le thorme donnant leur convergence asymptotique.
Thorme 4.A.3 (Donsker (1952) van der Vaart (1998), page 266) Si A
1
. .... A
a
sont
des variables alatoires i.i.d. alors
_
:(F
a
1) converge en distribution vers G
1
processus
gaussien de distributions marginales A (0. 1(t
i
. t
)
) 1(t
i
)1(t
)
)) . Ce processus est un 1-
Pont brownien.
Annexe 4.B Comportement asymptotique de lestima-
teur de Kaplan Meier pour des donnes
censures gauche
Reprenons les notations de la section 4.2.1.
Soit (Q
)
. o
)
)
)=1,...,1
une suite de variables alatoires indpendantes, identiquement distri-
bues et censures gauche, i.e.
Q
)
= max(1
)
. C
)
) et o
)
= 1l (1
)
C
)
) .
o 1
)
est la variable dintrt, i.e. la contamination dun aliment, et C
)
est la censure, i.e.
la limite de dtection. On suppose que 1
)
et C
)
sont indpendante et que 1l (1
)
C
)
) = 1 si
1
)
C
)
et 0 sinon.
Soit H la fonction de rpartition des Q
)
. dnie par H(r) = Ir(Q _ r) et H
1
. la fonction
de rpartition des Q
)
non censurs, c.--d. H
1
(r) = Ir(Q _ r. o = 1). Ces fonctions de
rpartition seront estimes par leur contrepartie empirique H
1
et H
11
. dnies par
H
1
(r) =
1
1
1
)=1
1l(Q
)
_ r) et H
11
(r) =
1
1
1
)=1
1l(Q
)
_ r. o
)
= 1).
Nous souhaitons estimer la fonction de rpartition de la variable dintrt 1
)
. Notons 1 et G
les fonctions de rpartition des 1
)
et des C
)
. on a alors 1(r) = Ir(1 _ r) et G(r) = Ir(C _
r). Par indpendance des 1
)
et des C
)
. on a H = 1G et dH
1
= Gd1.
On dnit alors le hasard cumul inverse (Csrgo & Horvth, 1980) par
A(t) =
_
[t,o[
d1
1
=
_
[t,o[
dH
1
H
Introduisons les fonctions 4
1
, 4
2
et d. dnies par
4
1
: D D D D : (r. )
_
r.
1
_
.
4
2
: D D D : (r. n)
_
[0,.[
ndr.
d : D D : i

c[.,o[
(1 di (:)) =

c[.,o[
(1 i :) cxp [i
c
(t)[ .
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
o D dsigne un espace vectoriel norm valeurs fonctionnelles (dans la suite lensemble
des fonctions cadlag, continues droite et ayant une limite gauche) et
est le "produit
intgral" (voir Gill & Johansen, 1990), i
c
est la partie continue de i et i : . les ventuels
sauts de i.
Ces trois fonctions sont Hadamard direntiables, leur compose, I = d 4
2
4
1
. lest
donc aussi par composition (voir annexe 4.A). Elles ont pour drives (voir par exemple Gill
& Johansen, 1990)
4
t
1(a,j)
.(/. /) =
_
/.
/
2
_
= (/. ,) .
4
t
2(a,&)
.(/. ,) =
_
[.,o[
nd/
_
[.,o[
,dr = |.
d
t
(i)
.| = .
_
[.,o[
.
.
d| = .
_
[.,o[
1
1 î
d|.
I
t
(a,j)
(/. /) = .
_
[.,o[
1
1 î
_
d/
2
dr
_
.
o î = i i
.
La fonction de rpartition de la variable dintrt est estime par
[
1
1A
= I(H
11
. H
1
) = d[4
2
(4
1
(H
11
. H
1
))[ = d
_
4
2
_
H
11
.
1
H
1
__
= d(A
1
)
Cette fonction tant la compose de fonctions Hadamard direntiables, elle lest aussi et la
delta mthode fonctionnelle permet dnoncer le thorme suivant :
Thorme 4.B.1 (Comportement asymptotique de

1
1A
) En utilisant les notations
prcdentes, on a
_
1
_
[
1
1A
1
_
~ G
1A
.
o G
1A
est un processus gaussien centr de covariance
co(G
1A
(:). G
1A
(t)) = 1(:)1(t)
_
[c/t,o[
dA(n)
H(n) ^H
1
(n)
.
Lestimateur de la variance de lestimateur de Kaplan Meier est donn par
_
[
1
1A
_
2
_
[.,o[
dA
1
(n)
H
1
(n) ^H
11
(n)
.
i.e. pour tout t R
. la variance de
[
1
1A
(t) est estime par
_
[
1
1A
(t)
_
2
1
i=1
1
i
1l
(.)
t
`
i
(`
i
1
i
)
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
4.B. COMPORTEMENT ASYMPTOTIQUE 127
o 1
i
, `
i
et A
+
(i)
sont les quantits dnies la n de la section 4.2.1.
Preuve : Une extension (van der Vaart, 1998, page 269) du thorme de Donsker (1952) per-
met dobtenir le comportement asymptotique du couple de processus empiriques (H
11
. H
1
)
_
1(H
11
H
1
. H
1
H) ~ (G
1
1
. G
1
) := G
(1
1
,1)
.
o G
(1
1
,1)
est un processus gaussien centr.
Comme I est Hadamard direntiable, la mthode delta fonctionnelle permet dcrire
_
1[I(H
11
. H
1
) I(H
1
. H)[ ~ I
t
(1
1
,1)
(G
1
1
. G
1
) := G
1A
1
.
o G
1A
1
est encore un processus gaussien centr. En eet, on a
I
t
(H
11
,H
1
)
(G
1
1
. G
1
) = 1
_
[.,o[
1
1 Â
_
dG
1
1
H

G
1
H
2
dH
1
_
= 1
_
[.,o[
1
_
1 Â
_
H
_
dG
1
1
G
1
dA
_
.
et donc la covariance du processus G
1A
1
scrit
co(G
1A
1
(:). G
1A
1
(t)) = 1(:)1(t)
_
[c/t,o[
1
_
1 Â
_
2
H
2
__
1 Â
_
HdA
_
= 1(:)1(t)
_
[c/t,o[
1
_
1 Â(n)
_
H(n)
dA(n)
avec
_
1 Â(n)
_
H(n) = H^H
1
. Ce calcul est driv du calcul analogue pour des donnes
censures droite.
Le calcul de la covariance du processus limite pour des donnes censures droite est
disponible dans Gill (1994) ou Andersen et al. (1993).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Chapitre 5
Dcomposition de donnes mnage en
donnes individuelles pour
lvaluation du risque de long terme
Toutes les techniques prsentes jusquici ont t appliques en utilisant les donnes de
consommation franaises INCA (Enqute nationale sur les consommations individuelles) qui
ne portent que sur sept jours de consommation. Bien quelles soient qualies de "repr-
sentatives" de la population franaise, elles ne peuvent elles seules permettre lestimation
de la consommation de long terme. Les seules donnes disponibles en France permettant
lvaluation de la consommation de long terme sont des donnes dachat recueillies au ni-
veau des mnages. Nous dveloppons dans ce chapitre une mthode permettant destimer
des quantits individuelles partir de donnes mnage an de pouvoir mettre en oeuvre une
valuation de risque partir des estimations individuelles ainsi obtenues.
Les donnes dachats alimentaires des mnages sont beaucoup moins utilises que les
donnes individuelles dans le cadre de lvaluation de risque du fait de leur agrgation et de
leur caractre approximatif mais sont cependant reconnues comme de bons estimateurs de
la consommation (Serra-Majem et al., 2003). Habituellement lorsquun valuateur de risque
ne dispose que de donnes mnage, il construit des donnes individuelles en divisant les
quantits mnage par la taille du mnage, ce qui conduit une consommation individuelle
uniforme au sein de chaque mnage. Des corrections peuvent galement tre apportes pour
prendre en compte les repas hors domicile et le fait quun mnage puisse recevoir des invits
(voir par exemple Chesher, 1997).
Lide de la mthode propose dans ce chapitre est dutiliser les structures en termes dge
et de sexe des individus composant le mnage pour estimer les quantits individuelles. Che-
sher (1997) (sinspirant des travaux de Engle et al., 1986) utilise cette approche pour valuer
des apports nutritionnels moyens par ge et sexe. La mthode part du constat simple que le
total consomm par un mnage est la somme des quantits consommes par les membres du
mnage. Les quantits individuelles inconnues sont crites comme une fonction , de lge et
du sexe des individus (et ventuellement de certaines caractristiques socio-dmographiques
ou du temps). La quantit "mnage" observe est la somme de ces fonctions pour les dirents
individus du mnage. Chesher (1997) propose une mthode destimation non paramtrique
129
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
130 CHAPITRE 5. INDIVIDUALISATION ET RISQUE DE LONG TERME
de cette fonction en considrant lge comme une variable discrte (voir lannexe 5.A). Ce
modle prsente cependant le dfaut majeur de considrer les individus dun mme mnage
comme indpendants. Chesher (1997) propose galement dintroduire dans ce modle des
dummies temporelles au niveau mnage pour obtenir une dcomposition des apports nutrion-
nels sur plusieurs priodes conscutives. Cette mthode ne nous semble pas compltement
satisfaisante dans la mesure o lon sintresse des prdictions des quantits individuelles.
Nous proposons dans ce chapitre des modles de type additif qui dirent des modles
usuels sur plusieurs points. Le principe est de supposer que lexposition
i,I
de lindividu i
du mnage / est une fonction , de certaines variables r
i,I
(ventuellement temporelles),
i,I
= ,(r
i,I
)
i,I,
o
i,I,
sont des erreurs centres. Lexposition du mnage observe 1
I
se dcompose alors
sous la forme additive
1
I
=
a
I
i=1
,(r
i,I
)
I
.
avec
I
=

a
I
i=1
i,I
et :
I
est la taille du mnage. On notera que, contrairement aux modles
additifs usuels, la fonction , est la mme pour chaque terme additif i et que le nombre de
termes somms :
I
est alatoire.
Les modles additifs peuvent tre estims par des algorithmes de backtting ou bien plus
simplement par lutilisation de splines (voir par exemple Hastie & Tibshirani, 1990; Hastie
et al., 2001). Notre premire tentative utilisant une adaptation des algorithmes de backtting
nayant pas donn de rsultats satisfaisants, nous dveloppons une mthode destimation
base sur les splines (voir par exemple Ramsay & Silverman, 1997, pour une prsentation
gnrale des mthodes destimation fonctionnelle).
Nous prsentons dans une premire section le modle le plus simple, i.e. le cas de la
dcomposition dune quantit unidimensionnelle (consommation, exposition, apport en un
nutriment...) et expliquons comment on peut prendre en compte la corrlation des indivi-
dus au sein dun mnage. Dans la seconde section, nous validons empiriquement ce modle
en utilisant les donnes de consommation individuelles de lenqute INCA. Puis dans une
troisime section, nous proposons quelques extensions du modle initial, notamment pour
lintroduction de certaines caractristiques socio-conomiques des mnages et lintroduction
dune dimension temporelle. Dans une quatrime section, nous proposons une nouvelle d-
nition de lexposition et du risque de long terme. Le risque de long terme doit en eet
la fois tenir compte du caractre accumulatif de lexposition un contaminant et des possi-
bilits dlimination naturelle par lorganisme du contaminant. En guise dillustration, nous
estimons le risque de long terme relatif la prsence de mthylmercure dans les produits de
la mer.
5.1 Dcomposition de quantits unidimensionnelles
Nous nous plaons dans un premier temps dans le cas o la quantit dcomposer est
unidimensionnelle. Il sagit par exemple de lexposition totale du mnage un contaminant
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
5.1. DCOMPOSITION DE QUANTITS UNIDIMENSIONNELLES 131
obtenue par une procdure dterministe ou bien de la consommation dun aliment ou groupe
daliments. Pour plus de clart, nous ne parlerons que dexposition dans cette section. Rap-
pelons que lexposition totale (dterministe) dun mnage est la somme des consommations
de 1 groupes daliments pondres par les valeurs moyennes de contamination de chacun de
ses 1 groupes daliments (cf. section 1.3.1). Les expositions individuelles obtenues devront
ensuite tre divises par un poids corporel (estim) pour pouvoir tre compares une dose
tolrable.
5.1.1 Indpendance des individus
Nous supposons dans un premier temps que les individus dun mme mnage sont ind-
pendants et que lexposition individuelle est une fonction de lge et du sexe de lindividu,
i.e.
i,I
= ,(c
i,I
. :
i,I
)
i,I
.
o
i,I
est lexposition de lindividu i du mnage /, c
i,I
son ge, :
i,I
son sexe (masculin not
` ou fminin not 1), i = 1. . . . :
I
. / = 1. . . . H. , une fonction estimer et
i,I
est un
rsidu centr gaussien.
On suppose dans la suite que les mnages sont indpendants, ce qui se traduit par
co(
i,I
.
),I
0 ) = 0 pour tout i ,= , et tout / ,= /
t
. On suppose galement dans cette sec-
tion que les individus sont indpendants au sein du mme mnage, ce qui se traduit par
V(
i,I
) = o
2
.
et co(
i,I
.
),I
) = 0 pour tout i ,= ,.
La fonction , est estime par spline dordre 1 pour chaque sexe, les splines dordre
suprieur
1
ne modiant pas la forme des fonctions. On pose pour cela
,(c
i,I
. :
i,I
) = ,
A
(c
i,I
)1l
c
.,I
=A
,
1
(c
i,I
)1l
c
.,I
=1
.
avec, pour o = `. 1.
,
S
(c
i,I
) = ,
S
0
,
S
1
c
i,I

1
S
I=1
n
S
I
(c
i,I
i
S,I
)
. (5.1)
o les (i
S,I
)
I=1,...,1
S
sont une srie de noeuds (une liste dges) et o la quantit
(c
i,I
i
S,I
)
= (c
i,I
i
S,I
) 1l
o
.,I
i
S,I
0
dsigne la partie positive de la dirence entre lge de lindividu c

i,I
et le noeud i
S,I
.
Nous utilisons la mthode de choix par dfaut des noeuds propose dans Ruppert et al.
(2003), page 125. Pour cela, on dnit c
S
la liste des ges distincts des individus de sexe o,
1
S
= min
_
c
S
4
. 3
_
et i
S,I
=
_
/ 1
1
S
2
_
` cnc
quantile de c
S
pour / = 1. . . . . 1
S
.
1
Un spline dordre j scrit ,
S
0
+,
S
1
a
i;h
+... +,
S
p
a
p
i;h
+
K
S
k=1
n
S
k
_
(a
i;h
i
S;k
)
+
_
p
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Cette rgle empirique semble bien fonctionner en pratique et assure en particulier la
prsence dun nombre susamment grand de points entre chaque noeud. Elle nest cependant
pas justie par des considrations thoriques. Il existe de nombreux algorithmes permettant
de dnir de manire optimale le nombre de noeuds et leurs valeurs. Citons par exemple le
"myopic algorithm" (Ruppert & Carroll, 2000) et le "full search algorithm" (Ruppert, 2002)
utilisant essentiellement des techniques de validation croise gnralise. Ces mthodes nont,
dans notre cas, pas conduit une slection raisonnable du nombre de noeuds.
Pour introduire une forme de pnalisation et lisser la fonction ,
S
dnie en (.1), les n
S
I
sont supposs alatoires et indpendants de loi
n
S
I
~
i.i.o.
A
_
0. o
2
&
S
_
.
Il sagit de la reprsentation spline par un modle mixte propose par Speed (1991) et Verbyla
(1999) pour le lissage de fonction et discute dans Brumback et al. (1999) pour les splines
pnaliss.
Lexposition de chaque individu scrit sous forme vectorielle
i,I
= r
i,I
, .
i,I
n
i,I
. (5.2)
o r
i,I
est un vecteur ligne dni par
r
i,I
=
_
1l
c
.,I
=A
c
i,I
1l
c
.,I
=A
1l
c
.,I
=1
c
i,I
1l
c
.,I
=1
_
.
.
i,I
est un vecteur ligne (1
A
1
1
colonnes) dont les 1
A
premires colonnes sont
_
(c
i,I
i
A,I
)
1l
c
.,I
=A
_
I=1,...,1
L
et les 1
1
dernires sont
_
(c
i,I
i
S,I
)
1l
c
.,I
=1
_
I=1,...,1
T
.
, =
_
,
A
0
. ,
A
1
. ,
1
0
. ,
1
1
_
t
est un vecteur colonne de paramtres estimer et
n =
_
n
A
1
. . . . . n
A
1
L
. n
1
1
. . . . . n
1
1
T
_
t
est un vecteur colonne de taille 1
A
1
1
deets alatoires
de loi A(0. G). o G est une matrice diagonale dont les 1
A
premiers lments sont o
2
&
L
et
les 1
1
derniers sont o
2
&
T
.
Par sommation sur lensemble des :
I
individus dun mnage, ces quantits deviennent
I
=
a
I
i=1
i,I
=
a
I
i=1
(r
i,I
, .
i,I
n
i,I
) . (5.3)
o
I
est lexposition totale du mnage / et :
I
dsigne sa taille.
Plus prcisment, en notant
r
I
=
a
I
i=1
r
i,I
et .
I
=
a
I
i=1
.
i,I
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
5.1. DCOMPOSITION DE QUANTITS UNIDIMENSIONNELLES 133
on peut rcrire le modle (.3) sous la forme vectorielle
I
= r
I
, .
I
n
I
.
o
I
=
a
I
i=1
i,I
.
En sommant les erreurs individuelles, on introduit de lhtroscdasticit puisque V(
I
) =
:
I
o
2
.
. Pour corriger cette htroscdasticit, nous divisons lensemble des vecteurs par
_
:
I
et rednissons 1
I
=
I
,
_
:
I
. A
I
= r
I
,
_
:
I
. 2
I
= .
I
,
_
:
I
et
I
=
I
,
_
:
I
. On a alors un
modle mixte usuel,
1
I
= A
I
, 2
I
n
I
. (5.4)
o (
I
)
I
~ A(0. o
2
.
.I
1
). I
1
dsignant la matrice identit de taille H.
Le modle (.4) ainsi dni est un modle mixte (McCulloch & Searle, 2001; Ruppert
et al., 2003, pour une prsentation gnrale de ce type de modle). La technique destimation
usuelle de ce modle, le maximum de vraisemblance restreint (REML pour REstricted Maxi-
mum Likelihood), est due Patterson & Thompson (1971) et est prsente en annexe 5.B.
Elle permet dobtenir des estimateurs de la structure de variance-covariance moins biaiss
que ceux obtenus par maximum de vraisemblance.
Notons

, lestimateur de , dans le modle (.4) et n la meilleure prvision de n dans
ce modle. Nous obtenons dans le modle (.2) une estimation de lexposition individuelle,
donne par

i,I
= r
i,I
, .
i,I
n.
Rappelons ici que les quantits r
i,I
et .
i,I
dnies plus haut sont des quantits individuelles
et quelles ne sont pas divises par
_
:
I
contrairement aux quantits mnage A
I
et 2
I
.
Connaissant les estimateurs des variances de

, et n. on peut facilement montrer que
(
i,I
)
i=1,...,a
I
,I=1,...a
1
~ `(
i,I
. ). (5.5)
o est la matrice de variance-covariance des expositions individuelles.
Cette matrice de variance-covariance dpend de la matrice de variance-covariance du vec-
teur
_
,. n
_
. An de ne pas alourdir la prsentation, le calcul de et de son estimateur, sous
des conditions plus gnrales sur la forme de la variance des erreurs et des eets alatoires,
est report en annexe 5.C.
Quelques tests mis en oeuvre sur ce modle
Plusieurs tests peuvent dores et dj tre mis en oeuvre sur ce modle de base : les
eets alatoires dirent-ils rellement selon le sexe des individus ? En dautres termes, a-
t-on o
2
&
L
= o
2
&
T
= o
2
&
? On peut aussi se demander si lune ou lautre de ces variances est
nulle ? A-t-on o
2
&
= 0 (resp. o
2
&
L
= 0 ou o
2
&
T
= 0) ? On peut galement sinterroger plus
globalement sur la ncessit dintroduire une fonction dirente pour chaque sexe ? Est-ce
que ,
A
= ,
S
?
Dtaillons brivement la mise en oeuvre de chacun de ces tests.
Test 1 H
0
: o
2
&
L
= o
2
&
T
contre H
o
: o
2
&
L
,= o
2
&
T
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Soit (o
2+
&
L
. o
2+
&
T
) lestimateur REML de (o
2
&
L
. o
2
&
T
) dans le modle (.4) et soit o
2+
&
lestimateur du maximum de vraisemblance dans le modle contraint, i.e. celui pour
lequel n =
_
n
A
1
. . . . . n
A
1
L
. n
1
1
. . . . . n
1
1
T
_
est un vecteur de taille 1
A
1
1
deets ala-
toires de loi A(0. o
2
&
I
1
L
1
T
). Alors, on a, par des arguments standards de statistique
asymptotique
1 = 2
_
ln 1
10
_
1
I
. A
I
. 2
I
: ,
+
. o
2+
&
_
ln 1
1
a
_
1
I
. A
I
. 2
I
: ,
+
. o
2+
&
L
. o
2+
&
T
_
1
0
2
(1)
.
o 1
10
(1
I
. A
I
. 2
I
: ,
+
. o
2+
&
) est la valeur du maximum de vraisemblance sous H
0
et
1
1
a
_
1
I
. A
I
. 2
I
: ,
+
. o
2+
&
L
. o
2+
&
T
_
, celle du maximum de vraisemblance sous H
o
.
Test 2 H
0
: o
2
&
= 0 contre H
o
: o
2
&
0
Le modle sous H
0
scrit comme un modle sans eet alatoire, i.e. de la forme
1
I
= A
I
,
I
.
On calcule comme prcdemment la valeur de la statistique de test
1 = 2
_
ln 1
10
(1
I
. A
I
: ,
+
) ln 1
1
a
(1
I
. A
I
. 2
I
: ,
+
. o
2+
&
)
.
Le test concerne la frontire des valeurs possibles pour o
2
&
[0. [ . la loi de 1 sous
H
0
est dans ce cas non-standard, gale un mlange de lois du
2
(Self & Liang, 1987;
Crainiceanu et al., 2003). Dans ce cas prcis (o
2
&
= 0). cest un mlange en proportions
(1,2. 1,2) entre un
2
(0) (masse en zro) et un
2
(1).
Test 3 H
0
: ,
A
= ,
S
contre H
o
: ,
A
,= ,
S
Le test ,
A
= ,
S
consiste tester le modle (.4) contre le modle plus simple dni
par
1
I
= A
I
, 2
I
n
I
(5.6)
o (
I
)
I
~ A(0. o
2
.
.I
1
). A
I
est un vecteur ligne 2 colonnes dni par
A
I
=
_
_
:
I

a
I
i=1
c
i,I
,
_
:
I
_
.
2
I
est un vecteur ligne 1 colonnes, avec 1 = min
_
o
1
. 3
_
. c tant la liste des ges
distincts quel que soit le sexe, dont les 1 colonnes sont
_
a
I
i=1
(c
i,I
i
I
)
_
I=1,...1
. i
I
tant le
_
I1
12
_
` cnc
quantile de c : , = (,
0
. ,
1
) est le vecteur colonne de paramtres
estimer et n = (n
1
. . . . . n
1
) est un vecteur colonne de taille 1 deets alatoires de loi
A(0. o
2
&
.I
1
).
Comme (.0) est un sous modle de (.4), nous pouvons de nouveau procder un test
de rapport de vraisemblance (cf. test 1).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
5.2. VALIDATION EMPIRIQUE SUR LES DONNES INCA 135
5.1.2 Dpendance au sein du mnage
Reprenons le modle (.2) en supposant cette fois que les erreurs sont corrles pour les
individus dun mme mnage. On a
V(
i,I
) = o
2
.
co(
i,I
.
),I
) = jo
2
.
. i ,= ,.
On conserve par contre lhypothse dindpendance des mnages qui se traduit par co(
i,I
.
),I
0 ) =
0 pour \i. , et \/ ,= /
t
.
On a alors
V(
I
) = V
_
a
I
i=1
i,I
_
= :
I
o
2
.
:
I
(:
I
1) jo
2
.
.
do
V(
I
) = V(
I
,
_
:
I
) = :
I
jo
2
.
o
2
.
(1 j). (5.7)
Le modle (.4) nest donc modi que dans la structure de variance-covariance : (
I
)
I
~
A(0. 1) o 1 est une matrice diagonale de taille H H et de terme diagonal gnral
:
I
jo
2
.
o
2
.
(1 j). i.e. une fonction ane de la taille du mnage :
I
. Cette nouvelle structure
de variance-covariance modie lcriture de la vraisemblance (annexe 5.B). Ceci pose en pra-
tique quelques dicults doptimisation. Une solution est destimer une variance rsiduelle
dirente pour chaque taille de mnage :
I
: on estime donc ` = max
I
:
I
variances notes
(o
2
a
)
a=1,...,.
. Ainsi, les moindres carrs asymptotiques (Gouriroux et al., 1985) permettent
dobtenir des estimateurs convergents de j et o
2
.
par rgression linaire simple des variances
des mnages o
2
a
sur les tailles des mnages :. Pour assurer la convergence de nos estima-
teurs, il faut toutefois vrier que le nombre de mnages de chaque taille est susamment
important. En particulier, comme il y a en gnral peu de mnages de grande taille, il est
judicieux de les regrouper et donc de limiter le nombre de variances rsiduelles estimes en
considrant une seule variance pour les mnages de taille suprieures ou gale `. On peut
dterminer le niveau optimal pour ` par des tests de rapport de vraisemblance.
Un test supplmentaire est celui de lindpendance des individus que lon peut noter
j = 0 ou o
2
1
= . . . = o
2
.
. Ce test est tout fait quivalent au test 1 de la section prcdente
et pourra galement tre mis en oeuvre par rapport de vraisemblance.
5.2 Validation empirique sur les donnes INCA
Nous proposons dans cette section une validation empirique de la mthode de dcompo-
sition de donnes mnage en donnes individuelles en lappliquant aux donnes de consom-
mation INCA. Ces donnes, recueillies au niveau individuel sur une semaine, permettent le
calcul direct de lexposition individuelle de chaque individu partir des consommations de
"Poissons" dune part, et de "Crustacs et Mollusques" dautre part, pondres par les conta-
minations moyennes en mthylmercure (0.147 mg/kg pour les "Poissons" et 0.014 mg/kg
pour les "Crustacs et Mollusques" aprs conversion du mercure en mthylmercure ; voir
sections 1.3.1 et 2.5.2).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
Lchantillonnage de cette enqute (dcrit dans lannexe 2.A.1) fait apparatre deux types
dindividus, ceux appartenant un mnage dont les individus ont tous t interrogs et ceux
ayant t choisis de manire alatoire au sein de leur mnage. Nous ne retenons que les
premiers an de calculer lexposition totale du mnage comme lagrgation des expositions
individuelles : nous disposons au total de H = 097 mnages, soit

I
:
I
= 1013 individus.
Nous appliquons alors notre modle en supposant :
la dpendance des individus au sein du mnage,
deux fonctions direntes selon le sexe de lindividu,
des eets alatoires identiques selon le sexe de lindividu.
La dpendance des individus au sein du mnage implique lestimation dune variance
rsiduelle fonction de la taille du mnage, au plus ` = 8 dans cet chantillon. Cependant,
tant donn le faible nombre de mnage de taille importante, nous nestimons que ` = 0
variances rsiduelles, la sixime correspondant au mnage de taille 0 et plus.
La gure 5.1 donne les expositions individuelles moyennes observes et estimes selon
lge et le sexe des individus. Les expositions individuelles moyennes observes (les "vraies")
sont extrmement variables en fonction de lge et sont lisses (par spline) sur le graphique
prsent. Les rsultats obtenus sont cohrents bien que lerreur destimation sur la moyenne
par ge et sexe apparaisse graphiquement comme importante, en particulier pour les plus
jeunes. En comparant directement les estimateurs obtenus pour chaque exposition indivi-
duelle (not prcdemment
i,I
) aux valeurs observes dexposition individuelle, on obtient
une erreur absolue moyenne de 20.0 et une erreur quadratique moyenne de 791.4. La non
dtection des expositions nulles explique une grande partie de ces erreurs.
Le calcul des intervalles de conance et de prdiction, comme propos en annexe 5.C, a
t men pour ce modle. On obtient :
des intervalles de conance de longueur moyenne 20.0 (pour une exposition estime
moyenne de 20.8) et pour lesquels 32.3/ des vraies expositions sont bien dans linter-
valle de conance
et des intervalles de prdiction extrmement larges de longueur moyenne 137.4 et pour
lesquels 97.0/ des vraies expositions sont bien dans lintervalle de prdiction.
A titre comparatif, nous avons galement appliqu la version la plus simple de la mthode
de Chesher (1997) dcrite dans lannexe 5.A. Le faible nombre dindividus gs conduit
regrouper les plus de 78 ans. La gure 5.2 donne les expositions individuelles moyennes
observes et estimes selon lge et le sexe des individus. Les rsultats obtenus sont moins
satisfaisants. Les erreurs moyennes absolue et quadratique sont respectivement 21.0 et 818.4
et cest de nouveau la non dtection des expositions nulles qui contribue le plus ces erreurs.
Nous discuterons ce point dans les sections 5.5 et 5.6.1.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
5.3. EXTENSIONS DU MODLE 137
0
5
10
15
20
25
30
35
40
0 10 20 30 40 50 60 70 80 90 100
Age
E
x
p
o
s
i
t
i
o
n

i
n
d
i
v
i
d
u
e
l
l
e

a
u

M
e
H
g
Fig. 5.1 Validation de la mthode de dcomposition sur les donnes INCA (en noir, les
hommes, en gris, les femmes ; exposition observe, - - - exposition estime).
5.3 Extensions du modle : variables socio-dmographiques,
dimension temporelle et quantits multidimension-
nelles
Le modle de la section prcdente peut tre tendu pour prendre en compte certaines
caractristiques socio-dmographiques des mnages ou bien pour dcomposer des donnes
de plus grande dimension. On peut en eet considrer les expositions dun mme mnage
plusieurs dates ou priodes direntes ou bien les consommations de plusieurs produits.
5.3.1 Introduction de caractristiques socio-dmographiques
Une manire simple dintroduire certaines caractristiques socio-dmographiques des m-
nages est de supposer quelles interviennent de manire linaire dans le modle individuel
(.2) . Les variables disponibles tant pour la plupart qualitatives, nous les introduisons sous
forme dindicatrices des direntes modalits possibles sauf une (la modalit de rfrence).
Supposons que o variables qualitatives (\
1
. . . . . \
S
) ayant respectivement :
c
modalits
(: = 1. . . . . o) soient introduites dans le modle, alors le modle (.2) scrit
i,I
= r
i,I
,
S
c=1
n
s
1
n=1
c,n
1l
W
s
=n
.
i,I
n
i,I
. (5.8)
autrement dit,
i,I
= r
i,I
, n
i,I
.
i,I
n
i,I
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
0
5
10
15
20
25
30
35
40
45
50
0 10 20 30 40 50 60 70 80 90
Age
E
x
p
o
s
i
t
i
o
n

i
n
d
i
v
i
d
u
e
l
l
e

a
u

M
e
H
g
Fig. 5.2 Estimation de lexposition individuelle moyenne par ge et sexe par la mthode de
Chesher (en noir, les hommes, en gris, les femmes ; exposition observe, - - - exposition
estime).
o n
i,I
est un vecteur ligne (` =

S
c=1
(:
c
1) colonnes) dont chaque colonne est lindi-
catrice dune des modalits, rfrences exclues.
Le modle agrg au niveau des mnages scrit alors
1
I
= A
I
, \
I
2
I
n
I
. (5.9)
o \
I
est un vecteur ligne (` colonnes) dont les colonnes valent lindicatrice dune des
modalits multiplie par
_
:
I
, rfrences exclues.
La structure de variance-covariance reste inchange, avec une variance unique pour les
eets alatoires (ou bien une pour chaque sexe) et que lon soit dans le cadre dindividus
indpendants ou non au sein du mnage. Les \
I
ne constituant que des eets xes suppl-
mentaires, la forme gnrale de la log vraisemblance restreinte est inchange. Les tests de
signicativit des direntes modalits seront de nouveau des tests de rapport de vraisem-
blance.
5.3.2 Introduction dune dimension temporelle
An de mieux valuer le risque chronique (de long terme), il est intressant de dcom-
poser lexposition un contaminant de plusieurs priodes conscutives. Il sagira ensuite
dexpositions hebdomadaires.
Soit
t,i,I
lexposition pour la semaine t de lindividu i du mnage /, t = 1. . . . . 1. i =
1. . . . . :
I
. / = 1. . . . . . H. Nous proposons dintroduire cet eet temporel la fois comme
eet xe dans le modle individuel et de modliser la dpendance ainsi introduite entre les 1
expositions dun mme mnage par une modication de la structure de variance-covariance.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
5.3. EXTENSIONS DU MODLE 139
Le modle (.2) prend donc la forme
t,i,I
= r
t,i,I
, n
t,i,I
.
t,i,I
n
T
t=1
t,=t
T
c
t
1l
t=t

t,i,I
.
o les matrices r. n et . sont les mmes que prcdemment, les dirents vecteurs tant
empils selon lordre des indices et t
1
est la semaine de rfrence.
Le modle agrg (et renormalis par
_
:
I
) scrit alors
1
t,I
= A
t,I
, \
t,I
2
t,I
n o
t,I
c
t,I
. (5.10)
o c = (c
1
. . . . . c
t
T
1
. c
t
T
1
. . . . . c
T
) et o
t,I
est le vecteur ligne de taille 1 1 prenant pour
valeur
_
:
I
dans la colonne correspondant la semaine dexposition.
En supposant une forme autorgressive dordre 1 pour les erreurs individuelles
t,i,I
, o
le paramtre o vrie [o[ < 1. on a
t,i,I
= o
t1,i,I
j
t,i,I
.
o j
t,i,I
~
i.i.o.
A
_
0. o
2
j
_
.
La structure de variance-covariance de
t,I
est alors telle que co(
t,I
.
t
0
,I
) = o
[tt
0
[
o
2
(
10
2
)
dans le cas simple o les individus du mnage sont considrs indpendants. On a alors
V(
t,I
) = o
2
j
,
_
1 o
2
_
.
Dans le cas dune dpendance au sein du mnage, la structure de variance-covariance des
erreurs sur le modle mnage dpend de nouveau de la taille du mnage, on a
co(
t,I
.
t
0
,I
) = o
[tt
0
[
o
2
j
_
1 o
2
_(1 (:
I
1)j).
V(
t,I
) =
o
2
j
_
1 o
2
_(1 (:
I
1)j).
La matrice de variance-covariance rsiduelle reste diagonale par bloc et prend la forme
1 =
_
_
o
2
a=a
1
0 0
0 o
2
a=a
2
0
0 0
.
.
.
_
_
1 o o
2

o 1 o o
2
o
2
o
.
.
.
o
o
2
o 1
_
_
.
o est le produit de Kronecker.
5.3.3 Dcomposition de quantits multidimensionnelles
Une autre extension du modle propos est lindividualisation de quantits multidimen-
sionnelles, typiquement les consommations de plusieurs produits, disons j = 1. . . . . 1. La
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
forte dpendance entre les produits consomms rend impossible le traitement indpendant
de la consommation de chacun des produits. Le modle comporte alors un nombre de pa-
ramtres trop important : le nombre deets xes et alatoires est multipli par 1 et la
matrice de variance-covariance rsiduelle comprend 1 termes de variance rsiduelle de la
consommation de chaque produit et 1(1 1),2 termes de covariance entre les consomma-
tions de produits pris deux deux, et ventuellement, le paramtre j de corrlation entre les
individus et le paramtre o modlisant une dpendance temporelle de type 1(1) propose
prcdemment. Le modle peut tre estim en thorie par REML mais loptimisation savre
en pratique trs dicile. Ce problme constitue un d important puisque la dcomposition
des consommations de plusieurs aliments pourrait permettre destimer la distribution de lex-
position individuelle de manire non paramtrique partir des consommations individuelles
estimes et des distributions empiriques de contamination des aliments (cf. section 1.3.1) et
prendre ainsi en compte, la fois, la variabilit des comportements alimentaires et celle de
la contamination des aliments.
5.4 Quantication du risque de long terme
Le modle de la section 5.3.2 permet de prdire les expositions individuelles hebdoma-
daires
t,i,I
. An dvaluer la probabilit de dpassement de la dose hebdomadaire tolrable
associe, d, ces expositions doivent tre exprimes en fonction du poids corporel des indivi-
dus. Celui-ci nest pas disponible en pratique et nous lestimerons de manire pragmatique
partir de donnes annexes (cf. section 5.5.3).
Notons n
i,I
le poids corporel de lindividu i du mnage /. Nous supposons que le poids
corporel est indpendant de lexposition et quil est stable en fonction du temps. Cette
hypothse nest pas totalement satisfaisante et pourra ventuellement tre leve par la suite.
En eet, la corrlation entre le poids corporel et les quantits consommes est certainement
non nulle et se rpercute immanquablement sur la corrlation entre exposition et poids
corporel.
Pour chaque semaine t et chaque individu i dun mnage /. on considre lindicatrice
dappartenance la zone risque, dnie par
1
i,I
(t) = 1l (1
t,i,I
d) .
o 1
t,i,I
=
t,i,I
,n
i,I
est lexposition estime de lindividu i du mnage / pour la semaine t
exprime relativement son poids corporel.
On dnit alors les risques moyens suivants :
le risque global de la population, fonction du temps, donn par
1(t) =
1
:
1
I=1
a
I
i=1
1
i,I
(t). (5.11)
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
5.4. QUANTIFICATION DU RISQUE DE LONG TERME 141
le risque individuel moyen sur la priode (1 semaines), donn par
1
i,I
=
1
1
T
t=1
1
i,I
(t). (5.12)
et le risque moyen de la population sur la priode, donn par
1 =
1
:1
T
t=1
1
I=1
a
I
i=1
1
i,I
(t). (5.13)
o : =

I
:
I
est le nombre total dindividus et 1 est le nombre total de semaines.
Lanalyse de ces dirents risques moyens permet dtudier lvolution temporelle du
risque et de dtecter ventuellement une saisonnalit. Elle permet galement de caractriser
les individus les plus risque en croisant la variable 1
i,I
avec direntes variables socio-
dmographiques. Toutefois, le caractre accumulatif de lexposition nest pas pris en compte
par ce type destimateurs.
Nous proposons par consquent de dterminer, partir des expositions individuelles
hebdomadaires estimes, lexposition cumule un contaminant. Dautres proprits des
contaminants chimiques sont alors prendre en compte dans ce cadre dynamique : chaque
contaminant est limin naturellement du corps humain dans des proportions spciques.
Par exemple, les toxicologues montrent que, sans nouvel apport en mthylmercure, il faut
six semaines pour rduire de moiti la quantit de mthylmercure initialement prsente dans
lorganisme dun individu et que cette limination progressive de la quantit de mercure est
exponentielle (Smith & Farris, 1996). Cette dure de 6 semaines dans le cas du mthylmer-
cure, que nous noterons plus gnralement |
12
dans la suite, est appele la demie-vie du
contaminant.
Nous dnissons une nouvelle quantit que nous appelons "exposition cumule jusqu
la semaine t" un contaminant, note o
i,I
(t). Il sagit de la somme des apports hebdoma-
daires (1
c,i,I
)
c=1,...,t
en contaminant, convenablement pondrs pour prendre en compte la
dgradation. Si o dsigne le facteur dlimination ou dgradation, alors on peut exprimer
lexposition cumule jusqu la semaine t 0 par
o
i,I
(t) =
t
c=0
1
c,i,I
cxp(o(t :)).
avec o = ln(2),|
12
. soit encore
o
i,I
(t) = cxp(o) o
i,I
(t 1) 1
t,i,I
.
Ainsi une date t xe, le poids des apports courants 1
t,i,I
est de 1 et ceux des apports
antrieurs (1
c,i,I
. : < t) sont infrieurs 1 et de plus en plus faibles quand t : augmente.
Cette actualisation courante dans les domaines de la nance et des assurances nest pas du
tout utilise en toxicologie.
Cette quantit peut alors tre compare lexposition de long terme de rfrence obtenue
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
en cumulant des apports constamment gaux la dose hebdomadaire tolrable d convena-
blement pondrs. Un individu est alors considr comme risque si son exposition de long
terme dpasse la rfrence. Lexposition de rfrence cumule jusqu la semaine t est
o
vc)
(t) =
t
c=0
d cxp(o(t :)) = d
cxp(o(t 1)) 1
cxp(o) 1
.
Une dicult rside dans le fait qu la premire semaine dobservation, lindividu a
subi des expositions antrieures qui ne sont ni observes ni "estimables" par la mthode
propose dans la section prcdente, faute de donnes de consommation sur la priode. Le
choix de la valeur initiale pour o
i,I
(0) = 1
0,i,I
est donc eectu de manire arbitraire.
Par convention, nous retenons la moyenne des apports (1
t,i,I
)
t=1,...,T
, soit la dose tolrable
d dans le cas de lexposition cumule de rfrence. Ce terme initial o
i,I
(0) ne contribue
cependant pas lexposition pour des valeurs susamment grandes de t. qui sont celles
dintrt lorsquon sintresse au risque de long terme. Nous ne comparerons les expositions
cumules des individus celle de rfrence que pour de telles valeurs de t.
Les toxicologues, lorsquils tudient les taux sanguins dun contaminant, le mthylmer-
cure en particulier, attestent quaprs 5 ou 6 demies-vies du contaminant ltat stationnaire
est atteint, soit environ 30 semaines pour le mthylmercure (communications personnelles,
A. Renwick, J. Schlaer). Cette dure dpend certainement du contaminant et de ses pro-
prits pharmacocintiques. Lextension de la dnition du risque de long terme dautres
contaminants est conditionnelle la connaissance de telles proprits.
5.5 Application : mthylmercure dans les produits de
la mer
Nous utilisons dans cette section les donnes du panel SECODIP de lanne 2001 dcrites
dans lannexe 2.A.2.
Dans un premier temps (sections 5.5.1 et 5.5.2), nous considrons les achats totaux de
produits de la mer sur lanne 2001 des H = 3214 mnages la fois actifs dans le panel
gnral et dans le sous-panel Viande-Poisson-Vin. Dans un second temps (section 5.5.3),
nous utilisons les achats hebdomadaires de ces mmes mnages.
Les repas pris lextrieur ne sont pas comptabiliss comme consommation puisquils
nentrent pas dans les achats alimentaires enregistrs alors que les consommations eectues
par des invits au domicile du mnage viennent augmenter les achats alimentaires. Nous
navons pas utilis de corrections qui demanderaient des donnes supplmentaires sur la res-
tauration hors domicile et la propension inviter ou tre invits des mnages, comportements
dpendant probablement de multiples caractristiques socio-dmographiques (ge, sexe, mi-
lieu social, rgion de rsidence, ...). De telles corrections sont proposes sur donnes anglaises
par Chesher (1997). Nous nous en tiendrons ici lutilisation des achats alimentaires en tant
quapproximation de la consommation.
Lexposition des mnages, exprime en jg/mnage par an ou par semaine, est calcule
comme la somme des achats (en grammes par an ou par semaine) de "Poissons" dune part,
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
5.5. APPLICATION : MTHYLMERCURE DANS LES PRODUITS DE LA MER 143
et de "Crustacs et Mollusques" dautre part, pondrs par des contaminations moyennes en
mthylmercure obtenues partir des donnes de contamination franaises dcrites dans la
section 2.5.2 (0.147 mg/kg pour les "Poissons" et 0.014 mg/kg pour les "Crustacs et Mol-
lusques" aprs conversion du mercure en mthylmercure). Nous obtenons alors les expositions
individuelles estimes de

I
:
I
= 9201 individus exprimes en jg/an ou jg/semaine.
5.5.1 Choix du modle de base pour une quantit unidimension-
nelle
Rappelons que nous cherchons dcomposer les expositions totales des mnages SECO-
DIP de lanne 2001.
Le tableau 5.1 donne les estimateurs des eets xes et des variances rsiduelles et des
eets alatoires pour le modle 5.4 sous direntes hypothses :
Modle II-2AS : on suppose lindpendance des individus au sein du mnage et des
eets alatoires dirents selon le sexe de lindividu,
Modle II-1AS : on suppose lindpendance des individus au sein du mnage et des
eets alatoires identiques selon le sexe de lindividu,
Modle ID6-1AS : on suppose la dpendance des individus au sein du mnage et des
eets alatoires identiques selon le sexe de lindividu; la dpendance est prise en compte
en considrant ` = 0 variances rsiduelles (valeur de ` retenue suite plusieurs tests
de rapport de vraisemblance).
Tab. 5.1 Estimation des paramtres du modle 5.4 selon direntes hypothses
Modle II-2AS Modle II-1AS Modle ID6-1AS
Paramtre Estimation Ecart-type Estimation Ecart-type Estimation Ecart-type
,
1
0
319.75 149.16 318.14 148.45 400.95 118.77
,
1
1
-6.74 21.72 -6.51 21.40 -10.55 19.62
,
A
0
322.68 143.87 324.33 144.63 383.64 115.23
,
A
1
-0.81 20.77 -0.81 21.12 1.05 19.39
o
2
c
1409977 35251 1409974 35251 2018701 270230
j 0 0 -0.14967 0.02989
o
2
&
T
218.48 180.42 209.60 124.74 211.66 116.83
o
2
&
L
199.84 170.05 id id id id
2 ln 1 54619.2 54619.2 54248.1
Les trois modles donnent des rsultats sensiblement identiques en ce qui concerne les
eets xes. Les comparaisons rapides des log vraisemblances renormalises, 2 ln 1. laissent
penser que le dernier modle est le meilleur. Ceci est conrm par les tests.
Le test o
2
&
L
= o
2
&
T
a pour 1
o|&c
. 94.4/. ce qui conduit prfrer le modle un seul
eet alatoire pour les deux sexes.
De plus, lhypothse nulle o
2
&
= 0 est rejete (1
o|&c
10
9
).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
0
200
400
600
800
1000
1200
1400
1600
1800
0 10 20 30 40 50 60 70 80 90 100
Age
E
x
p
o
s
i
t
i
o
n

i
n
d
i
v
i
d
u
e
l
l
e

a
u

M
e
H
g
Fig. 5.3 Estimation de lexposition individuelle moyenne selon lge et le sexe en supposant
la dpendance des individus au sein du mnage (en noir, les hommes ; en gris, femmes)
Par ailleurs, le test ,
A
= ,
S
conduit considrer comme direntes les deux fonctions
(1
o|&c
1.3/). ce qui est conrm graphiquement. La Figure 5.3 a t obtenue en lissant
les valeurs estimes de lexposition
i,I
de chaque individu selon lge et pour chaque sexe.
On observe que les femmes adultes sont plus exposes du fait quelles consomment plus de
produits de la mer. Pour les enfants, la dirence entre les deux sexes est inverse et moins
marque.
Enn, lindpendance des individus au sein des mnages est rejete avec une 1
o|&c
nulle,
ce qui est de nouveau conrm graphiquement (Figures 5.5 et 5.4). On observe en particulier
que la prise en compte de la dpendance au sein des mnages conduit des expositions
individuelles plus leves pour les enfants et plus faibles pour les plus gs.
5.5.2 Inuence de certaines caractristiques socio-dmographiques
Quatre variables ont t choisies pour illustrer notre propos :
La rgion de rsidence, spcialement cre partir des dpartements INSEE pour
reter limportance des zones ctires dans ces phnomnes de fortes expositions au
mthylmercure ; ses modalits sont :
1. Dpartements ctiers du Nord,
2. Dpartements ctiers de Bretagne et Vende,
3. Dpartements ctiers du Sud-Ouest,
4. Dpartements ctiers de Mditerrane,
5. Paris et rgion parisienne,
6. Dpartements non ctiers (rfrence).
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
0
200
400
600
800
1000
1200
1400
1600
0 10 20 30 40 50 60 70 80 90 100
Age
E
x
p
o
s
i
t
i
o
n

m
o
y
e
n
n
e

a
u

M
e
H
g
Fig. 5.4 Estimation de lexposition individuelle moyenne des hommes selon lge (- - -
indpendance des individus ; dpendance des individus au sein du mnage)
La classe sociale, variable du panel SECODIP 4 modalits construite partir du
revenu par unit de consommation; ses modalits sont :
1. Aise,
2. Moyenne Suprieure,
3. Moyenne Infrieure (rfrence),
4. Modeste.
Le diplme du chef de famille ; ses modalits sont :
1. Encore en cours dtudes ou non dclar,
2. Bac+2 et Suprieur Bac + 2 (rfrence),
3. Bac, brevet de technicien, brevet de matrise,
4. CAP BEP,
5. BEPC Certicat dtudes,
6. Aucun Diplme.
Et la catgorie socioprofessionnelle (CSP) du chef de famille ; ses modalits sont :
1. Agriculteurs exploitants, artisans, commerants, chefs dentreprises,
2. Cadres et professions intellectuelles suprieures,
3. Professions intermdiaires, employs ou ouvriers (rfrence),
4. Retraits,
5. Autres personnes sans activit professionnelle ou non dclar.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
0
200
400
600
800
1000
1200
1400
1600
1800
0 10 20 30 40 50 60 70 80 90 100
Age
E
x
p
o
s
i
t
i
o
n

i
n
d
i
v
i
d
u
e
l
l
e

m
o
y
e
n
n
e

a
u

M
e
H
g
Fig. 5.5 Estimation de lexposition individuelle moyenne des femmes selon lge (- - -
indpendance des individus ; dpendance des individus au sein du mnage)
Nous avons dans un premier temps test la signicativit globale de chacune de ces
variables qualitatives : le diplme et la CSP du chef de famille ne permettent pas dexpliquer
lexposition individuelle dans le modle o les autres variables, rgion de rsidence et classe
sociale, sont introduites. Lors dune premire analyse, nous avons regroup les modalits
1, 5 et 6 de la variable rgion de rsidence. En eet, ces direntes rgions ntaient pas
signicativement direntes et seront rfrences par "Non ctiers", modalit 1 et rfrence
pour la nouvelle variable rgion.
Nous prsentons donc les expositions individuelles moyennes des femmes selon les quatre
modalits de revenu, dune part (Figure 5.6) et selon les quatre modalits de rgion, dautre
part (Figure 5.7). Nous observons que les classes sociales les plus aises et les mnages
rsidant dans les rgions ctires, et en particulier le sud-ouest, sont les plus exposs. Les
rsultats sont similaires pour les hommes.
5.5.3 Quantication du risque de long terme
Individualisation de lexposition hebdomadaire au mthylmercure
Nous avons de nouveau utilis les donnes du panel SECODIP de lanne 2001 en dsagr-
geant cette fois les achats de lanne en achats hebdomadaires de "Poissons", dune part et de
"Crustacs et Mollusques", dautre part. Nous obtenons en pondrant ces achats par la conta-
mination moyenne de ces groupes daliments une approximation de lexposition des mnages
en jg/sem, note 1
t,I
. pour chaque semaine de lanne 2001 (t = 1. . . . . 3). Ces expositions
prsentent videmment de nombreuses valeurs nulles puisque les mnages nachtent pas des
produits de la mer chaque semaine, nous les excluons de lanalyse car il est clair que les
expositions individuelles en dcoulant sont galement nulles.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
0
200
400
600
800
1000
1200
1400
1600
1800
2000
0 10 20 30 40 50 60 70 80 90 100
Age
E
x
p
o
s
i
t
i
o
n

i
n
d
i
v
i
d
u
e
l
l
e

m
o
y
e
n
n
e

a
u

M
e
H
g
Fig. 5.6 Exposition individuelle moyenne des femmes selon lge et la classe sociale (en
noir, Aise en - - -, moyenne suprieure en , en gris, moyenne infrieure en , modeste
en - - -)
Nous utilisons de nouveau les variables rgion de rsidence (4 modalits) et classe sociale
(4 modalits), supposons de nouveau la dpendance entre les individus du mnage, lexistence
de deux fonctions direntes selon le sexe des individus. Nous navons pas russi en pratique
estimer le modle avec la fois une dpendance entre les individus dun mme mnage et
une dpendance de type AR(1) entre les direntes semaines. Avec la seule dpendance dans
le mnage (modle 11), la corrlation entre les individus vaut j = 10./ et la variance
rsiduelle est o
2
.
= 7. 281. Inversement, avec la seule dpendance temporelle (modle 12), le
paramtre o vaut 22.9/ et la variance rsiduelle est o
2
.
= 4. 8. Nous retenons le modle 11
par comparaison des critres dAkaike (AIC, Akaike, 1973) : on a en eet 1C
11
= 844. 292
et 1C
12
= 80. 04.
Analyse des risques moyens
Pour exprimer les expositions individuelles hebdomadaires estimes dans la section pr-
cdente dans la mme unit que la dose hebdomadaire tolrable (1.6 jg/sem/kg pc pour le
MeHg), nous estimons le poids corporel moyen de la manire suivante.
Pour les adultes de plus de 20 ans, le poids corporel moyen par ge et sexe est estim
partir de lenqute INCA. Pour les moins de 20 ans, nous utilisons les estimations proposes
par lUS National Health and Nutrition Examination Survey (CDC, 2000). Ces dernires
sont trs proches des courbes de Semp et al. (1979) que lon trouve dans les carnets de
sant en France.
Les risques moyens estims ici sont dnis en (.11), (.12) et (.13).
La gure 5.8 reprsente le risque moyen en fonction du temps, 1(t) : on observe que le
risque moyen est relativement stable au cours du temps avec toutefois une petite augmenta-
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
0
200
400
600
800
1000
1200
1400
1600
1800
2000
0 10 20 30 40 50 60 70 80 90 100
Age
E
x
p
o
s
i
t
i
o
n

i
n
d
i
v
i
d
u
e
l
l
e

m
o
y
e
n
n
e

a
u

M
e
H
g
Fig. 5.7 Exposition individuelle moyenne des femmes selon lge et la rgion de rsidence
(en noir, Bretagne-Vende en - - -, Sud-Ouest en , en gris, Non ctiers, Nord et Paris en
, Mditerrane en - - -)
tion au printemps (semaines 12 24).
Le calcul des risques moyens individuels (1
i,I
) permet par ailleurs de dterminer les
individus les plus risque : ce sont les jeunes enfants qui prsentent les risques les plus levs.
Une meilleure approximation des poids corporels par ge, en particulier en considrant lge
en mois pour les plus jeunes, pourrait toutefois rduire ce phnomne chez les moins de 1
an.
Le risque moyen vaut 1 = 0.02/. ce qui reste largement infrieur ce que nous trouvions
en utilisant les donnes INCA. En eet, pour une estimation quivalente de lexposition, la
proportion de dpassement de la dose tolrable tait de 22/ (cf. tableau 2.4 de la section
2.5.2). Dautre part, en utilisant une dcomposition uniforme des expositions des mnages
(division par la taille du mnage) et des poids corporels estims selon lge et le sexe des
individus, nous obtenons un risque moyen encore infrieur (0.30/). La seule consommation
hors domicile ne peut expliquer cette dirence : en regardant sur une longue priode, le
risque se trouve liss et ce niveau de risque est certainement plus conforme la ralit que
celui trouv prcdemment en utilisant une unique semaine de consommations.
Exposition et risque de long terme
La gure 5.9 prsente les expositions cumules au cours de lanne de certains individus
du panel SECODIP. Ces individus ont t choisis selon leur exposition moyenne au cours
de lanne 2001. La courbe "Pmin" correspond lindividu qui a la plus petite exposition
moyenne (strictement positive) ; la courbe "P50" correspond lindividu dont lexposition
moyenne est proche de la mdiane des expositions moyennes strictement positives, etc. La
courbe "rf" correspond celle dun individu de rfrence qui a un apport gal la DHT
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
0.00%
0.20%
0.40%
0.60%
0.80%
1.00%
1.20%
1.40%
1.60%
0 10 20 30 40 50 60
semaine de 2001
R
i
s
q
u
e

m
o
y
e
n
Fig. 5.8 Risque moyen de dpassement de la DHT (MeHg) au cours du temps pour lanne
2001.
chaque semaine (1.6 jg/sem/kg pc pour le MeHg). Comme expliqu dans la section 5.4, il
convient de comparer les expositions cumules la rfrence pour un nombre de semaines
susant pour atteindre ltat stationnaire, soit 30 semaines pour le mthylmercure. Nous
observons quaprs une trentaine de semaines, la plupart des courbes se stabilisent (la crois-
sance initiale ntant quun artefact d au choix de la valeur initiale) et que seules les courbes
"Pmax" et "P99.9" semblent durablement au dessus de la rfrence. Ceci ne concerne donc
quun nombre trs faible dindividus, environ 2.7 sur 1000. Ces personnes risque sont toutes
des enfants gs de moins de 3 ans ; soit 6% de la classe dge des enfants de moins de 3 ans.
Nous observons en outre que les individus de classe de revenu modeste natteignent jamais
des niveaux dexposition cumule suprieurs ceux de lexposition cumule de rfrence.
Enn, 59% des enfants dont le niveau dexposition est suprieur celui de lexposition
cumule de rfrence sont des enfants vivant dans des dpartements non ctiers, du nord ou
en Ile de France.
Discussion
Cette dnition du risque de long terme est trs inhabituelle pour les mdecins et toxico-
logues, elle est actuellement en cours de validation auprs dexperts du domaine (A. Renwick,
J. Schlaer et P. Verger). De plus, la dnition de la DHT tant issue dtudes exprimen-
tales sur lanimal auxquelles sont appliqus des facteurs de scurit prenant en compte les
dirences inter-espces et intra-espces, il est lgitime de se demander si lutilisation de
cette dose dans le calcul de lexposition de long terme de rfrence a un sens. Par ailleurs,
nous nous intressons principalement la quantit de contaminant ingre alors que, dune
part, le facteur dlimination est estim partir dtudes analytiques o les mesures sont
eectues sur le cheveu, et dautre part, ltat stationnaire auquel se rfre habituellement
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
0
5
10
15
20
25
30
35
40
0 10 20 30 40 50 60
semaine
E
x
p
o
s
i
t
i
o
n

c
u
m
u
l
e

a
u

M
e
H
g
Pmin
P05
P25
P50
P75
P90
P95
P975
P99
P999
Pmax
ref
Fig. 5.9 Exposition cumule au MeHg au cours du temps
les mdecins concerne le taux de contaminant dans le sang. Le temps entre lingestion et le
passage dans le sang et le cheveu est court (30 heures entre lingestion et la prsence dans le
cheveu) mais les quantits ingres sont certainement dgrades.
En comparant les rsultats obtenus par cette mthode (pourcentage dindividus risque)
ceux des mthodes statiques du chapitre 2, on saperoit que la dimension de long terme
rduit considrablement lestimation du risque. On observe en eet que seuls 25 individus
sur les 9261 tudis (0.27/) dpassent lexposition de long terme de rfrence (t 33) et
quil sagit principalement de jeunes enfants. Dans le chapitre 2, nous estimions partir des
donnes INCA sur une semaine une probabilit de dpassement de la DHT proche de 22/.
Le risque est donc trs largement rduit : est-ce un eet de lindividualisation des donnes
mnage ou bien une relle correction dune systmatique surestimation des risques ? Rpondre
cette question est primordial puisque les valuations de risque sont ensuite utilises pour
mettre en place des mesures de gestion du risque et communiquer sur ce risque. Ceci peut
avoir des consquences conomiques importantes pour les lires concernes, renforces par
lapplication quasi systmatique du principe de prcaution.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
5.6. PERSPECTIVES 151
5.6 Perspectives
5.6.1 Une modlisation en deux tapes
Le dfaut des modles prcdents est leur dicult dtecter les consommations ou
expositions nulles dun individu au sein dun mnage. Un modle de type tobit gnralis
(Gouriroux, 1989) permettrait dintgrer dans un premier temps la dcision dachat ou de
consommation (et donc dexposition) et dans un second temps le niveau de ces consom-
mations individuelles. Ce type de modle, bien connu des conomistes de la consommation
(voir par exemple Shonkwiler & Yen, 1999) permet destimer des dcisions dachat ou de
consommation en fonction des prix et des revenus des mnages. Transpos au cadre de lin-
dividualisation de donnes mnage, nous esprons ainsi mieux prdire les consommations
nulles de certains individus.
Lcriture de la vraisemblance de ce modle ne pose pas de dicult majeure sous des
hypothses de normalit usuelles. Cependant sa maximisation semble trs dicile, la d-
cision de consommation et le niveau de consommation individuelle tant inobservs. Une
ide en cours dtude est dutiliser des algorithmes de type EM (Expectation Maximization,
Dempster et al., 1977). Ce modle en deux tapes "inobserves" fait lobjet de recherches
actuelles.
5.6.2 Vers le modle de ruine
Notre proposition pour caractriser le risque de long terme, prsente dans la section
5.4, est fortement inspire des modles de ruine, de type Cramr-Lundberg, emprunts au
domaine de la nance et des assurances (Embrechts et al., 1999, pour quelques dnitions
et applications en nance et assurance). Dans ce type de modle, le processus de risque est
dni comme la dirence entre le capital disponible une certaine date et la somme des
pertes ralises jusqu cette date.
Par analogie, le processus de risque, est dans notre cadre dni comme la dirence entre
la dose tolrable par lorganisme une certaine date (lexposition cumule de rfrence) et la
somme des apports en contaminants jusqu cette date correctement pondrs pour prendre
en compte llimination du contaminant (lexposition cumule). Toutefois, le modle de ruine
sous-jacent notre problme prend une forme particulire puisque les dates auxquelles in-
terviennent les pertes (apports en contaminant) ne sont pas indpendantes et que la prise en
compte de llimination du contaminant impose une modication du modle de ruine usuel.
Lintroduction de la dpendance dans un modle de ruine ncessite des dveloppements
thoriques importants. Ce thme fera lobjet de recherches futures.
5.6.3 Intgration des mthodes dvaluation des risques sur le long
terme
Dans ce dernier chapitre, la contamination est suppose dterministe. La variabilit des
teneurs en contaminant peut tre prise en compte en individualisant directement des vecteurs
de consommation des mnages et en utilisant les techniques dveloppes dans le chapitres 3 et
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
4. La mthode propose dans ce chapitre (section 5.3.3) ne donne pas de rsultat satisfaisant
dans ce cadre, essentiellement, l encore, du fait de la non dtection des consommations
nulles. Ce problme dans un cas multidimensionnel ncessite de dvelopper des modles de
rgime de consommation encore rares dans la littrature conomtrique.
Dans la perspective de lvaluation terme dun modle de ruine, les queues de dis-
tribution des expositions individuelles (elles-mmes inobserves mais pouvant tre estimes
grce aux mthodes dindividualisation) jouent un rle important dans la comprhension du
phnomne sur le long terme. Donner des estimateurs des paramtres de queue (chapitre 2)
dans ce cadre reste un problme dlicat tant donnes les phases destimation pralables.
Lintgration des direntes mthodes proposes dans cette thse fera lobjet de re-
cherches futures et devrait permettre une meilleure quantication du risque alimentaire.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
5.A. DESCRIPTION SIMPLIFIE DE LA MTHODE CHESHER 153
Annexe 5.A Description simplie de la mthode Che-
sher
Le modle de base scrit
= ,
0
:
t
A
,
A
:
t
1
,
1
o est le vecteur des apports nutritionnels des H mnages, :/

S
est une matrice de dimension
H de terme gnral (ligne /. colonne c) le nombre de personnes dge c 1 et de sexe
o qui vit dans le mnage /.
dsigne le nombre de valeurs discrtes prises par lge : il sera souvent ncessaire de
regrouper les individus les plus gs sur un "ge maximal" pour assurer la non colinarit
des rgresseurs. La premire colonne des matrices :/
S
correspond aux personnes dge 0. i.e.
de moins de 1 an.
Le paramtre ,
S
est galement de dimension . si bien que sa c
i` cnc
coordonne est
lapport en nutriments moyen des individus dge c 1 et de sexe o.
Ce modle est estim par la mthode des moindres carrs pnaliss (voir Green & Sil-
verman, 1994). La contrainte de pnalisation de la forme ,
S
i1
2,
S
i
,
S
i1
cherche pour
o = ` ou 1 minimiser la drive seconde de la fonction i ,
S
i
.
Le paramtre ,
0
sinterprte comme un reste des "achats" (non consomm ou donn au
chien).
Annexe 5.B Estimation dun modle mixte par maxi-
mum de vraisemblance restreint (REML)
Soit le modle mixte gnral pour : observations
Y = X, Zn .
~ `(0. 1).
n ~ `(0. G).
Alors, on a
\ (Y) = \ = ZGZ
t
1.
La log-vraisemblance scrit alors
|(,. \ ) =
1
2
_
:ln 2: ln [\ [ (YX,)
T
\
1
(YX,)
_
.
En maximisant par rapport ,. on obtient lestimateur des moindres carrs gnraliss
,(\ ) =
_
X
T
\
1
X
_
1
X
T
\
1
Y.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
do la log-vraisemblance prole maximiser en \.
|
1
(\ ) =
1
2
_
ln [\ [ Y
T
\
1
_
1 X
_
X
T
\
1
X
_
1
X
T
\
1
_
Y
_
:
2
ln 2:.
On appelle log-vraisemblance restreinte ou critre REML, la quantit suivante (Ruppert
et al., 2003, page 101)
|
1
(\ ) = |
1
(\ )
1
2
ln
X
T
\
1
X
.
Maximiser cette quantit est quivalent maximiser la vraisemblance de combinaisons li-
naires de 1 indpendantes de ,. Pour plus de dtails, se reporter au chapitre 6 de Searle
et al. (1992). Lavantage principal du maximum de vraisemblance restreint (REML) par
rapport au maximum de vraisemblance usuel (ML) est que les estimateurs REML tiennent
compte du degr de libert des eets xes dans le modle. Par exemple, dans le cas dun
chantillon (A
1
. . . . . A
a
) gaussien de loi A (j. o
2
) . en notant A =
1
a
a
i=1
A
i
. on a
o
2
A1
=
1
:
a
i=1
_
A
i
A
_
2
et o
2
11A1
=
1
: 1
a
i=1
_
A
i
A
_
2
.
Le terme : 1 au dnominateur de o
2
11A1
tient compte de lestimation de j par A et on
obtient par REML un estimateur sans biais de o
2
.
Lestimation de \ (ou plutt de ses composantes) est moins biaise par REML que par
ML (Searle et al., 1992; Ruppert et al., 2003).
Si 1 = o
2
.
.I et G = o
2
&
.I. on parvient simplier la fonction maximiser. Les identits
de Hartville (1977) permettent dexprimer linverse de \ et de son dterminant en fonction
de ses composantes 1 et G de la manire suivante
\
1
= 1
1
1
1
ZG
_
I Z
T
1
1
ZG
_
Z
T
1
1
[\ [ = [1[
I Z
T
1
1
ZG
.
En posant c = o
2
.
,o
2
&
. (c) = cI. d(c) = o
2
.
\
1
et en utilisant les identits de Hartville
(1977), on a alors
|
1
(o
2
.
. c) =
1
2
_
(: j) ln o
2
.

1
o
2
s
[YX,(c)[
T
d(c) [YX,(c)[
ln
I Z
T
Z(c)
1
ln
X
T
d(c)X
:
2
ln(2:). (5.14)
o j est le nombre deets xes (nombre de colonnes de X) et
,(c) =
_
X
T
d(c)X
_
1
X
T
d(c)Y
d(c) = I Z
_
(c) Z
T
Z
1
Z
T
.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
5.C. ESTIMATION DE LA VARIANCE DE LEXPOSITION INDIVIDUELLE 155
En maximisant |
1
(o
2
.
. c) par rapport o
2
.
. on obtient
o
2
.
(c) =
[YX,(c)[
T
d(c) [YX,(c)[
: j
. (5.15)
(.14)et (.1) conduisent au critre maximiser en c. donn par
|
1
(c) =
1
2
_
(: j) ln o
2
.
(c) : j ln
I Z
T
Z(c)
1
ln
X
T
d(c)X
:
2
ln(2:).
Si la matrice de variance-covariance des eets alatoires, G. reste diagonale, le mme
type de raisonnement peut tre appliqu. Par contre, ds que 1 ou G ne sont pas diagonales,
lestimation peut tre beaucoup plus dicile en pratique. Nous avons au maximum utilis les
possibilits de la proc mixed de
R _
SAS en nous rfrant aux ouvrages de Searle et al. (1992)
et de Verbeke & Molenberghs (1997) pour comprendre comment paramtrer la procdure
pour estimer les matrices de variance-covariance de notre modle.
Lensemble des modles prsents dans les sections 5.1, 5.3.1 et 5.3.2 peuvent scrire
sous cette forme gnrale Y = X, Zn . La matrice X est alors une notation gnrique
pour lensemble des eets xes. En particulier dans le modle (.9) . X correspond alors
la matrice forme des A
I
et des \
I
. indicatrices des variables socio-dmographiques et ,
est le vecteur de paramtres des eets xes relatif lge et des eets socio-dmographiques
(not prcdemment ) ; de mme, dans le modle (.10) . les eets temporels o
t,I
sont aussi
ajouts X.
Annexe 5.C Estimation de la variance de lexposition
individuelle
En reprenant les notations de lannexe prcdente, le modle de dcomposition des don-
nes mnage scrit de manire gnrale
Y = X, Zn .
o Y. X et Z ont H lignes dans les modles sans dimension temporelle (sections 5.1 et 5.3.1)
et H1 lignes dans le modle avec dimension temporelle (section 5.3.2) : H tant le nombre
de mnages, 1 le nombre de priodes (semaines) dobservation des consommations.
Les calculs sont analogues pour lensemble des modles et nous nous restreignons ici aux
modles sans dimension temporelle dans le cadre o
~ `(0. 1) et n ~ `(0. G).
Pour estimer les expositions individuelles, partir des estimateurs

, et n de , et n. nous
calculons
Y
a
= X
a
, Z
a
n.
o X
a
est la matrice des eets xes au niveau individuel (les r
i,I
et les n
i,I
). Z
a
est la
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
matrice des eets alatoires au niveau individuel (les .
i,I
) et

Y
a
est le vecteur des expositions
individuelles estimes (les
i,I
).
En suivant le raisonnement de Ruppert et al. (2003), pages 137-142, on montre que
V
_
Y
a
_
= C
a
_
C
T
1
1
C1
_
1
C
T
a
o C
a
=
_
X
a
Z
a
. C =
_
X Z

et 1 =
_
0 0
0 G
1
_
.
En remplaant R et G par les estimateurs obtenus par REML, on obtient un estimateur
de la variance de lexposition individuelle dans (.) . Cet estimateur prend en compte les
deux composantes de lerreur (variance et biais au carr) et est plus simple calculer que
celui ne prenant en compte que la variance (voir aussi Hastie & Tibshirani, 1990, page 60,
pour une comparaison de ces deux estimateurs).
On peut galement construire des intervalles de prdiction en utilisant la variance de
lerreur de prdiction.
V
_
Y
a
Y
a
_
= V(
a
) V
_
Y
a
_
= 1
a
C
a
_
C
T
1
1
C1
_
1
C
T
a
o
a
est le vecteur des erreurs dans le modle individuel, indpendant de

, et n. et 1
a
est
sa matrice de variance-covariance.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
BIBLIOGRAPHIE 157
Bibliographie
Akaike, H. (1973). Maximum likelihood identication of gaussian autoregressive moving
average models. Biometrika 60, 255265.
Akritas, M. G. (1986). Bootstrapping the kaplan-meier estimator. Journal of the American
Statistica Association 81, 10321038.
Albert, I. & Gauchi, J. P. (2002). Sensitivity analysis for high quantiles of Ochratoxin
A exposure distribution. International Journal of Food Microbiology 75, 143175.
Andersen, P. K., Borgan, O., Gill, R. D. & Keiding, N. (1993). Statistical methods
based on counting processes. New York, USA : Springer-Verlag.
Arvesen, J. N. (1969). Jackkning u-statistics. Annals of Mathematical Statistics 40,
20762100.
Barlow, S. M., Greig, J. B., Bridges, J. W., Carere, A., Carpy, A. J. M., Galli,
C. L., Kleiner, J., Knudsen, I., Koter, H. B. W. M., Levy, L. S. & et al.
(2002). Hazard identication by methods of animal-based toxicology. Food and Chemical
Toxicology 40, 145191.
Beirlant, J., Dierckx, G., Goegebeur, Y. & Matthys, G. (1999). Tail index esti-
mation and an exponential regression model. Extremes 2, 177200.
Beirlant, J., Goegebeur, Y., Segers, J. &Teugels, J. (2004). Statistics of Extremes :
Theory and Applications. Wiley.
Beirlant, J., Vynckier, P. & Teugels, J. L. (1996). Tail index estimation, pareto
quantile plots and regression diagnostics. Journal of the American Statistical Association
91, 16591667.
Beran, R. (1988). Prepivoting test statistics : a bootstrap view of asymptotic renements.
Journal of the American Statistical Association 83, 687697.
Berg, T. (2003). How to establish international limits for mycotoxins in food and feed?
Food Control 14, 219224.
Bertail, P., Caillavet, F. &Nichle, V. (1999). Consumption of home-produced food :
double hurdle analysis of french households decisions. Applied Economics 31, 16311640.
Bertail, P., Haefke, C., Politis, D. N. & White, A. (2004). A subsampling approach
to estimating the distribution of diverging statistics with applications to assessing nancial
market risk. Journal of Econometrics 120, 295326.
Bertail, P. & Tressou, J. (2005). Incomplete generalized U-Statistics for food risk as-
sessment. A paratre dans Biometrics A paratre.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
158 BIBLIOGRAPHIE
Bingham, N. H., Goldie, C. M. & Teugels, J. L. (1987). Regular Variation. Encyclo-
pedia of Mathematics and its applications. Cambridge Univ Press.
Blom, G. (1976). Some properties of a incomplete u-statistics. Biometrika 63, 573580.
Boer, W. J., van der Voet, H., Boon, P. E., Donkersgoed, G. & Klaveren, J. D.
(2005). MCRA a web-based program for Monte Carlo Risk Assessment. Manual Version
2005-04-26 Release 3.5. Tech. rep., Biometris and RIKILT, Wageningen, The Netherlands.
Boi
Zi
C, Z., Duan
Ci
C, V., Belicza, M., Krausand, O. & Skljarov, I. (1995). Balkan

endemic nephropathy : still a mysterious disease. European Journal of Epidemiology 11,
235238.
Boizot, C. (2005). Prsentation du panel de donnes SECODIP. Tech. rep., INRA-
CORELA.
Borovskikh, Y. (1996). U-Statistics in Banach Spaces. Utrecht, The Netherlands : VSP.
Brumback, B., Ruppert, D. & Wand, M. P. (1999). Comment on "variable selection
and function estimation in additive nonparametric regression using a data-based prior" by
Shively, Kohn, and Wood. Journal of the American Statistical Association 94, 794797.
Caldas, E. D., Tressou, J. & Boon, P. E. (2005). Dietary exposure of brazilian consu-
mers to the dithiocarbamate pesticides : a probabilistic approach (Document de travail
soumis).
Carriquiry, A. L., Jensen, H. H. & Nusser, S. M. (1990). Modeling chronic versus
acute human risk from contaminants in food. Tech. Rep. 90-WP 69, Center for Agricultural
and Rural Development.
CDC (2000). Center for Disease Control and Prevention. US Department of Health and
Human Services. Tech. rep. Http ://www.cdc.gov/growthcharts/.
Chesher, A. (1997). Diet revealed? : Semiparametric estimation of nutrient intake-age
relationships. Journal of the Royal Statistical Society A 160, 389428.
Chesher, A. (1998). Individual demands from household aggregates : Time and age varia-
tion in the quality of diet. Journal of Applied Econometrics 13, 505524.
Claisse, D., Cossa, D., Bretaudeau-Sanjuan, G., Touchard, G. & Bombled, B.
(2001). Methylmercury in molluscs along the French coast. Marine pollution bulletin 42,
329332.
Clayton, D. & Hills, M. (1993). Statistical Models in Epidemiology. Oxford University
Press.
Cossa, D., Auger, D., Averty, B., Lucon, M., Masselin, P., Noel, J. & San-Juan,
J. (1989). Atlas des niveaux de concentration en mtaux mtallodes et composs organo-
chlors dans les produits de la pche ctire franaise. Tech. rep., IFREMER, Nantes.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
BIBLIOGRAPHIE 159
Counil, E., Verger, P. & Volatier, J.-L. (2005a). Fitness-for-purpose of dietary survey
duration : A case-study with the assessment of exposure to Ochratoxin A. Food and
Chemical Toxicology (Document de travail soumis).
Counil, E., Verger, P. &Volatier, J.-L. (2005b). Handling of contamination variability
in exposure assessment : A case study with Ochratoxin A. Food and Chemical Toxicology
A paratre.
Crainiceanu, C. M., Ruppert, D. & Vogelsang, T. J. (2003). Some properties of
likelihood ratio tests in linear mixed models (Working Paper).
CREDOC-AFSSA-DGAL (1999). Enqute INCA (individuelle et nationale sur les consom-
mations alimentaires). Lavoisier, Paris, TEC&DOC ed. (Coordinateur : J.L. Volatier).
Crpet, A., Harari-Kermadec, H. &Tressou, J. (2005). Combining data by empirical
likelihood : application to food risk assessment (Document de travail soumis).
Csrg
O, S. & Horvth, L. (1980). Random censorship from the left. Studia Scientiarum
Mathematicarum Hungarica 15, 397491.
Danielsson, J. & de Vries, C. G. (1997). Beyond the sample : Extreme quantile and
probability estimation. Tech. rep., Mimeo, Tinbergen Institute Rotterdam.
Daudin, J. J. & Duby, C. (2002). Techniques mathmatiques pour lindustrie agroalimen-
taire. Paris, TEC&DOC ed.
Davidson, P., Myers, G., C.Cox, Shamlaye, C. F., Clarkson, T., Marsh, D., Tan-
ner, M., Berlin, M., Sloane-Reves, J., Cernichiari, E., Choisy, O., Choi, A.
& Clarkson, T. W. (1995). Longitudinal neurodevelopmental study of seychellois chil-
dren following in utero exposure to mehg from maternal sh ingestion : Outcomes at 19-29
months. Neurotoxicology 16, 677688.
Davison, A. C. & Smith, R. L. (1990). Models for exceedances over high thresholds.
Journal of the Royal Statistical Society B 52, 393442.
de Boor, C. (1978). A practical guide to Splines. New York : Springer.
Deaton, A. S. & Muellbauer, J. (1980). An almost ideal demand system. American
Economic Review 70, 323326.
Deheuvels, P., Hausler, E. & Mason, D. M. (1998). Almost sure convergence of the
hill estimator. Mathematical Proceedings of the Cambridge Philosophical Society 104,
371381.
Dekkers, A. L. M., Einmahl, J. H. J. & de Haan, L. (1989). A moment estimator for
the index of an extreme-value distribution. Annals of Statistics 17, 18331855.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
160 BIBLIOGRAPHIE
Dempster, A., Laird, N. & Rubin, D. (1977). Maximum likelihood from incomplete data
via the em algorithm (with discussion). Journal of the Royal Statistical Society Series B
39, 138.
Deville, J. C. (1991). A theory of quota surveys. Survey Methodology 17, 163181.
DGAL-INRA-AFSSA (2004). Etude de lalimentation totale franaise : mycotoxines, mi-
nraux et lments traces. Tech. rep. (Coordinateur : J.Ch. Leblanc).
Dhauteville, F., Laporte, J. P., Morrot, G. & Sirieix, L. (2001). La consomma-
tion de vin en France : comportements, attitudes et reprsentations. Rsultats denqute
ONIVINS-INRA 2000. (+ Annexes).
Donsker, M. D. (1952). Justication and extensions of Doobs heuristic approach to the
Kolmogorov-Smirnov theorems. Annals of Mathematical Statistics 23, 277281.
Drees, H. (1995). Rened pickands estimators of the extreme value index. Annals of
Statistics 23, 20592080.
Drees, H. & Kaufmann, E. (1998). Selecting the optimal sample fraction in univariate
extreme value estimation. Stochastic Processes and their Applications 75, 149172.
Dybing, E., Doe, J., Groten, J., Kleiner, J., OBrien, J., Renwick, A. G., Schlat-
ter, J., Steinberg, P., Tritscher, A., Walker, R. & Younes, M. (2002). Hazard
characterisation of chemicals in food and diet : dose response, mechanisms and extrapola-
tion issues. Food and Chemical Toxicology 40, 237282.
Dybing, E., Farmer, P., Andersen, M., Fennell, T., Lalljie, S., Mller, D.,
Olin, S., Petersen, B., Schlatter, J., Scholz, G., Scimeca, J., Slimani, N.,
Trnqvist, M., Tuijtelaars, S. & Verger, P. (2005). Human exposure and internal
dose assessments of acrylamide in food. Food Chemical and Toxicology 43, 365410.
Eagleson, G. K. (1979). Orthogonal expansions and U-statistics. Australian and New
Zealand Journal of Statistics 21, 221237.
Edler, L., Poirier, K., Dourson, M., Kleiner, J., Mileson, B., Nordmann, H.,
Renwick, A., Slob, W., Walton, K. &Wrtzen, G. (2002). Mathematical modelling
and quantitative methods. Food Chemical and Toxicology 40, 283326.
Efron, B. (1981). Censored data and the bootstrap. Journal of the American Statistical
Association 76, 312319.
Efron, B. & Tibshirani, J. T. (1993). An introduction to the bootstrap. Chapman &
Hall.
Embrechts, P., Klppelberg, C. & Mikosch, T. (1999). Modelling Extremal Events
for Insurance and Finance. Applications of Mathematics. Berlin : Springer-Verlag.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
BIBLIOGRAPHIE 161
Engle, R. F., Granger, C. W. J., Rice, J. & Weiss, A. (1986). Non-parametric
estimation of the relationship between weather and electricity demand. Journal of the
American Statistical Association 81, 310320.
Eubank, R. L. (1988). Spline smoothing and Nonparametric regression. New York : Marcel
Dekker.
FAO/WHO (1995). Application of risk analysis to food standard issues. Tech. rep., Report
of the joint FAO-WHO consultation, Geneva, Switzerland. 13-17 march 1995.
FAO/WHO (2003). Evaluation of certain food additives and contaminants for methylmer-
cury. Sixty rst report of the Joint FAO/WHO Expert Committee on Food Additives,
Technical Report Series, WHO, Geneva, Switzerland.
FAO/WHO (2005). Evaluation of certain food additives and contaminants for acrylamide.
Sixty fouth report of the Joint FAO/WHO Expert Committee on Food Additives, Tech-
nical Report Series, WHO, Geneva, Switzerland.
Feuerverger, A. & Hall, P. (1999). Estimating a tail exponent by modelling departure
from a Pareto Distribution. Annals of Statistics 27, 760781.
Finley, B., Proctor, D., Scott, P., Harrington, N., Paustenbach, D. & Price,
P. (1994). Recommended distributions for exposure factors frequentlyused in health risk
assessment. Risk Analysis 14, 533553.
Fisher, R. A. &Tippett, L. H. C. (1928). Limiting forms of the frequency distributions of
the largest or smallest member of a sample. Proceedings Cambridge Philosophical Society
24, 180190.
Gauchi, J. P. & Leblanc, J. C. (2002). Quantitative assessment of exposure to the
mycotoxin Ochratoxin A in food. Risk Analysis 22, 219234.
GEMs/Food-WHO (1995). Reliable evaluation of low-level contamination of food, work-
shop in the frame of GEMS/Food-EURO. Tech. rep., Kulmbach, Germany, 26-27 May
1995.
Gill, R. D. (1989). Non and semi parametric maximum likehood estimators and the von
Mises method. Scandinavian Journal of Statistics 16, 87128.
Gill, R. D. (1994). Lectures on survival analysis, vol. 1581 of Lectures on Probability
Theory (Ecole dt de Probabilits de Saint Flour XXII - 1992). Berlin : Springer-Verlag,
P. Bernard, Springer Lecture Notes in Mathematics ed., pp. 115241.
Gill, R. D. & Johansen, S. (1990). A survey of product integration with a view toward
application in survival analysis. Annals of Statistics 18, 15011555.
Gmez, G., Juli, O. &Utzet, F. (1994). Asymptotic properties of the left Kaplan-Meier
estimator. Communication in Statistics - Theory and Methods 23, 123135.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
162 BIBLIOGRAPHIE
Gouriroux, C. (1989). Economtrie des variables qualitatives. Economica.
Gouriroux, C., Monfort, A. & Trognon, A. (1985). Moindres carrs asymptotiques.
Annales de lINSEE 58, 91121.
Grandjean, P., Weihe, P., White, R., Debes, F., Araki, S., Yokoyama, K., Mu-
rata, K., Sorensen, N., Dahl, R. & Jorgensen, P. (1997). Cognitive decit in
7-year-old children with prenatal exposure to methylmercury. Neurotoxicology Teratology
19, 417428.
Green, P. & Silverman, B. (1994). Nonparametric Regression and Generalized Linear
Models. Chapman & Hall.
Gregory, G. G. (1977). Large sample theory for u-statistics and tests of t. Annals of
Statistics 5, 110123.
Haan, L. &de Peng, L. (1998). Comparison of tail index estimators. Statistica Neerlandica
52, 6070.
Haas, C. N., Rose, J. B. &Gerba, C. P. (1999). Quantitative Microbial Risk Assessment.
Wiley.
Haeusler, E. & Teugels, J. L. (1985). On asymptotic normality of Hills estimator for
the exponent of regular variation. Annals of Statistics 13, 743756.
Hall, P. (1979). An invariance theorem for U-statistics. Stochastic Processes and their
Applications 9, 163174.
Hall, P. (1986a). On the bootstrap and condence intervals. Annals of Statistics 14,
14311452.
Hall, P. (1986b). On the number of bootstrap simulations required to construct a condence
interval. Annals of Statistics 14, 14531462.
Hall, P. (1990). Using the bootstrap to estimate mean squerred error and select smoothing
parameter in non parametric problems. Journal of Multivariate Analysis 32, 177203.
Hartville, D. A. (1977). Maximum likelihood approaches to variance component estima-
tion and to related problems. Journal of the American Statistical Association 72, 320338.
Hastie, T., Tibshirani, R. &Friedman, J. (2001). The Elements of Statistical Learning :
Data Mining, Inference and Prediction. Springer Series in Statistics. Springer.
Hastie, T. J. & Tibshirani, R. J. (1990). Generalized Additive Models. Monographs on
Statistics and Applied Probability 43. Chapman & Hall.
Helmers, R. (1991). On the Edgeworth expansion and the bootstrap approximation for a
studentized U-statistics. Annals of Statistics 19, 470484.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
BIBLIOGRAPHIE 163
Helsel, D. R. (2004). Nondetects and Data Analysis : Statistics for Censored Environmen-
tal Data. Statistics in Practice. Wiley.
Hercberg, S., Galan, P., Preziosi, P., Bertrais, S., Mennen, L., Malvy, D., Rous-
sel, A.-M., Favier, A. & Brianon, S. (2004). The SU.VI.MAX study : a randomised
placebo-controlled trial of the health eects of antioxidant vitamins and minerals. Archives
Internal Medecine 164, 23352342.
Hill, B. M. (1975). A simple general approach to inference about the tail of a distribution.
Annals of Statistics 3, 11631174.
Hoeffding, W. (1948). A class of statistics with asymptotically normal distribution. Annals
of Mathematical Statistics 19, 293325.
Hoeffding, W. (1961). The strong law of large numbers for U-statistics. Tech. Rep. 302,
University of North Carolina.
Hoffmann, K., Boeingand, H., Dufour, A., Volatier, J. L., Telman, J., Virtanen,
M., Becker, W. & Henauw, S. D. (2002). Estimating the distribution of usual dietary
intake by short-term measurements. European Journal of Clinical Nutrition 56, 5362.
Hosking, J. R. M. & Wallis, J. R. (1987). Parameter and quantile estimation for the
generalized Pareto distribution. Technometrics 29, 339349.
Hsing, T. (1991). On tail index estimation using dependent data. Annals of Statistics 19,
151569.
IFREMER (1994-1998). Rsultat du rseau national dobservation de la qualit du milieu
marin pour les mollusques (RNO).
Iman, R. L. & Conover, W. J. (1982). A distribution-free approach to inducing rank
correlation among input variables. Commun. Statist.-Simula. Comput. 11, 311334.
Janson, S. (1984). The asymptotic distributions of incomplete U-statistics. Z. Warhrsch.
Und Verw. Gebiete 66, 495505.
Jaykus, L. A. (1996). The application of quantitative risk assessment to microbial food
safety risks. Critical Reviews in Microbiology .
Jenkinson, A. F. (1955). The frequency distribution of the annual maximum (or minimum)
values of meteorological elements. Quarterly Journal of the Royal Meteorological Society
87, 158171.
Kaplan, E. L. & Meier, P. (1958). Nonparametric estimation from incomplete observa-
tions. J. Amer. Statist. Assoc. 53, 457481.
Kroes, R., Mller, D., Lambe, J., Lowik, M. R. H., van Klaveren, J., Kleiner, J.,
Massey, R., Mayer, S., Urieta, I., Verger, P. & Visconti, A. (2002). Assessment
of intake from the diet. Food Chemical and Toxicology 40, 327385.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
164 BIBLIOGRAPHIE
Kroll, C. & Stedinger, J. (1996). Estimation of moments and quantiles using censored
data. Water Resources Research 32, 10051012.
Lawless, J. F. (1982). Statistical Models and Methods for Lifetime Data. New York : John
Wiley.
Lee, A. J. (1985). On estimating the variance of a U-statistic. Communication in Statistics
- Theory and Methods 14, 289301.
Lee, A. J. (1990). U-Statistics : Theory and Practice, vol. 110 of Statistics : textbooks and
monographs. New York, USA : Marcel Dekker, Inc.
Lehmann, E. (1951). Consistency and unbiasedness of certain nonparametric tests. Annals
of Mathematical Statistics 22, 165179.
Little, R. & Rubin, D. (1987). Statistical Analysis with Missing Data. New York : John
Wiley.
MAAPAR (1998-2002). Rsultats des plans de surveillance pour les produits de la mer.
Ministre de lAgriculture, de lAlimentation, de la Pche et des Aaires Rurales.
Mason, D. M. (1982). Law of large numbers for sums of extreme values. Annals of
Probability 10, 756764.
McCulloch, C. E. & Searle, S. R. (2001). Generalized, Linear, and Mixed Models.
Wiley Series in Probability and Statistics.
McMeekin, T., Olley, J., Ross, T. & Ratkowsky, D. (1993). Predictive Microbioloby :
theory and application. Research Studies Press. LTD, Taunton.
National Research Council (NRC) of the national academy of sciences Price
(2000). Toxicological eects of methyl mercury. Tech. rep., National academy press,
Washington, DC.
Nelsen, R. B. (1999). An introduction to Copulas. Lecture Notes in Statistics. Springer
Verlag, New-York.
Nichle, V. (2005). La consommation daliments et de nutriments en france : Evolu-
tion 1969-2001 et dterminants socio-conomiques des comportements. Tech. Rep. 05-07,
Document de travail CORELA.
Nusser, S., A.L. Carriquiry, A., Dodd, K. & Fuller, W. (1996). A semiparametric
transformation approach to estimating usual intake distributions. Journal of the American
Statistical Association 91, 14401449.
Patilea, V. & Rolin, J. M. (2001). Product limit estimators of the survival function for
doubly censored data. Discussion paper 0131, Institut de Statistique, Universit Catholique
de Louvain.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
BIBLIOGRAPHIE 165
Patterson, H. D. & Thompson, R. (1971). Recovery of inter-block information when
block sizes are unequal. Biometrika 58, 545554.
Paulo, M., van der Voet, H., Wood, J., Marion, G. & van Klaveren, J. (2004).
Analysis of multivariate extreme intakes of food chemicals and nutrients. (in preparation).
Pickands, J. (1975). Statistical inference using extreme order statistics. Annals of Statistics
3, 119131.
Politis, D. N. & Romano, J. P. (1994). Large sample condence regions based on
subsamples under minimal assumptions. Annals of Statistics 22, 20312050.
Pons, O. & Turckeim, E. (1989). Mthodes de von Mises, Hadamard direntiabilit et
bootstrap dans un modle non paramtrique sur un espace mtrique. C.R.A.S.S. 308,
369372.
Program, N. T. (1989). Toxicology and carcinogenesis studies of ochratoxin A in F344/N
(Gavage studies). Tech. rep.
Pyke, P. (1965). Spacings. Journal of the Royal Statistis Society, Series B (Methodological)
27, 395449.
Ramsay, J. & Silverman, B. (1997). Functional Data Analysis. Springer Series in Statis-
tics.
Reiss, R. D. & Thomas, M. (2001). Statistical Analysis of Extreme Values, with applica-
tions to Insurance, Finance, Hydrology and Other Fields. Birkhuser.
Renwick, A. G., Barlow, S. M., Hertz-Picciotto, I., Boobis, A. R., Dybing, E.,
Edler, L., Eisenbrand, G., Greig, J. B., Kleiner, J., Lambe, J. & et al. (2003).
Risk characterisation of chemicals in food and diet. Food and Chemical Toxicology 41,
12111271.
Resnik, S. I. (1987). Extreme Values, Regular Variation and Point Process. Applied Pro-
bability Series. Springer.
Resnik, S. I. (1997). Heavy tailed modeling and teletrac data. Annals of Statistics 25,
18051848.
Robinson, G. K. (1991). That BLUP is a good thing : The estimation of random eects.
Statistical Science 6, 1551.
Rootzn, H., Leadbetter, M. R. & de Haan, L. (1998). On the distribution of tail
array sums for strongly mixing sequences. Advances in Applied Probabilities 20, 371390.
Ruppert, D. (2002). Selecting the number of knots for penalized splines. Journal of
Computational and Graphical Statistics 11, 735757.
Ruppert, D. & Carroll, R. J. (2000). Spatially-adaptive penalties for spline tting.
Australian and New Zealand Journal of Statistics 42, 205223.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
166 BIBLIOGRAPHIE
Ruppert, D., Wand, M. P. & Carroll, R. J. (2003). Semiparametric regression. Cam-
bridge Series in Statistical and Probabilistic Mathematics. Cambrige University Press.
Searle, S. R., Casella, G. & McCulloch, C. E. (1992). Variance Components. New
York : John Wiley & Sons, Inc.
Self, S. G. & Liang, K. (1987). Asymptotic properties of maximum likelihood estima-
tors and likelihood ratio tests under nonstandard conditions. Journal of the American
Statistical Association 82, 605610.
Semp, M., Pdron, G. & Roy-Pernot, M. P. (1979). Auxologie, mthode et squences.
Paris : Thraplix.
Sen, P. K. (1974). Weak convergence of generalised U-statistics. Annals of Probability 2,
90102.
Serfling, J. (1980). Approximation Theorems of Mathematical Statistics. New York :
Wiley.
Serra-Majem, L., MacLean, D., Ribas, L., Brule, D., Sekula, W., Prattala, R.,
Garcia-Closas, R., Yngve, A. & Petrasovits, M. L. A. (2003). Comparative
analysis of nutrition data from national, household, and individual levels : results from
a WHO-CINDI collaborative project in Canada, Finland, Poland, and Spain. Journal of
Epidemiology and Community Health 57, 7480.
Shonkwiler, J. S. & Yen, S. T. (1999). Two-step estimation of a censored system of
equations. American Journal of Agricultural Economics 81, 972982.
Shumway, R., Azari, R. S. & Kayhanian, M. (2002). Statistical approaches to estima-
ting mean water quality concentrations with detection limits. Environmental Science and
Technology 36, 33453353.
Singh, A. & Nocerino, J. (2002). Robust estimation of mean and variance using environ-
mental data sets with below detection limit observations. Chemometrics and Intelligent
Laboratory Systems 60, 6986.
Smith, J. C. & Farris, F. F. (1996). Methyl mercury pharmacokinetics in man : A
reevaluation. Toxicology And Applied Pharmacology 137, 245252.
Smith, R. L. (1987). Estimating tails of probability distributions. Annals of Statistics 15,
11741207.
Speed, T. (1991). Discussion of that blup is a good thing : the estimation of random
eects by g. robinson. Statistical science 6, 4244.
Teugels, J. L. (1985). Extreme values in insurance mathematics. Statistical Extremes and
Applications. Reidel, Dordrecht, Tiago de Oliveira, J. ed.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
BIBLIOGRAPHIE 167
Tressou, J. (2005). Non parametric modelling of the left censorship of analytical data in
food risk exposure assessment (Document de travail soumis).
Tressou, J., Crpet, A., Bertail, P., Feinberg, M. H. & Leblanc, J. C. (2004a).
Probabilistic exposure assessment to food chemicals based on extreme value theory. ap-
plication to heavy metals from sh and sea products. Food and Chemical Toxicology 42,
13491358.
Tressou, J., Leblanc, J. C., Feinberg, M. &Bertail, P. (2004b). Statistical methodo-
logy to evaluate food exposure and inuence of sanitary limits : Application to Ochratoxin
A. Regulatory Toxicology and Pharmacology 40, 252263.
van der Vaart, A. W. (1998). Asymptotic Statistics. Cambridge Series in Statistical and
Probabilistic Mathematics. United Kingdom : Cambridge University Press.
Verbeke, G. & Molenberghs, G. (1997). Linear Mixed Models in Practice : A SAS-
Oriented Approach. New York : Springer.
Verbyla, A. (1999). Mixed Models for Practitioners. Biometrics SA, Adelaide.
Verger, P., Counil, E., Tressou, J. & Leblanc, J. C. (2005). Some recent advances in
modelling dietary exposure to ochratoxin A. Food Additive and Contaminant A paratre.
von Mises, R. (1936). La Distribution de la Plus Grande de n Valeurs, vol. 2 of Selected
Papers of Richard von Mises. Providence, RI : American Mathematical Society, pp. 271
294.
von Mises, R. (1947). On the asymptotic distribution of dierentiable statistical functions.
Annals of Mathematical Statistics 18, 309348.
Wallace, L. A., Duan, N. &Ziegenfus, R. (1994). Can long-term exposure distributions
be predicted from short-term measurements. Risk Analysis 14, 7585.
WHO (1990). Methylmercury, environmental health criteria 101. Tech. rep., Geneva, Swit-
zerland.
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7
RESUME en franais
Les aliments peuvent tre contamins par certaines substances chimiques, qui, lorsquelles
sont ingres des doses trop importantes, peuvent engendrer des problmes de sant. Notre
but est dvaluer la probabilit que lexposition au contaminant dpasse durablement une dose
tolrable par lorganisme que nous appelons risque. La modlisation de la queue de
distribution par des lois extrmes permet de quantifier un risque trs faible. ans les autres
cas, lestimateur empirique du risque scrit comme une !"statistique gnralise, ce qui
permet den driver les proprits as#mptotiques. es dveloppements statistiques permettent
d$intgrer ce modle la censure des donnes de contamination. %nfin, un modle
conomtrique de dcomposition de donnes mnage en donnes individuelles nous permet de
proposer une nouvelle mthode de quantification du risque de long terme prenant en compte
laccumulation du contaminant et sa lente dgradation par lorganisme.
TITRE en anglais : &tatistical methods for food ris' assessment.
RESUME en anglais
(ontaminants and natural toxicants such as m#cotoxins ma# be present in several food items,
)hich ma# be considered as dangerous for human health if the cumulative inta'e remains
above the toxicological safe references. *e focus on the estimation of the risk, defined as the
probabilit# for exposure to exceed a tolerable inta'e on a long term basis. %xtreme value
theor# allo)s to quantif# ver# lo) ris'. +n others cases, the empirical estimator of the risk is
)ritten as a generalised !"statistic, )hich allo)s to derive its as#mptotic properties.
&tatistical developments are used to model the left censorship of the anal#tical data. ,inall#,
an econometric model aiming at decomposing household quantities into individual quantities
is used to propose a ne) method for the quantification of the long term ris' integrating the
possible accumulation and slo) degradation of the contaminant in the human organism.
DISCIPLINE : -athmatiques appliques et applications des mathmatiques.
MOTS-CLES :
.isque alimentaire, dose hebdomadaire tolrable, /aleurs extrmes, %stimateur de 0ill, !"
statistiques incompltes, %stimateur de 1aplan -eier, (ensure gauche, 2ootstrap, -odles
mixtes, consommation, individualisation.
INTITULES ET ADRESSES DES LABORATOIRES o a effe!"e la #$se
+N.3"(4.%L3, Laboratoire de recherche sur la consommation, 56 boulevard de
2randebourg, 789:6 +/.; &!. &%+N% <novembre 9::9 dcembre 9::=>
+N.3"-%?@.+&1 , -thodologies danal#se des risques alimentaires, A5 rue (laude
2ernard, B69=8 C3.+& (edex 6 <Danvier 9::6 octobre 9::6>
t
e
l
-
0
0
1
3
9
9
0
9
,

v
e
r
s
i
o
n

1

-

4

A
p
r

2
0
0
7

These Alimentation Matematique Risque Alimentaire

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

These Alimentation Matematique Risque Alimentaire

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSITE PARIS X - NANTERRE

ECOLE DOCTORALE CONNAISSANCE ET CULTURE

2et 3, mars 2002) auquel le lecteur

. Elle est approche en tirant

. Un intervalle de conance pour la moyenne dexposition

dsigne la teneur en contaminant du produit j lors de la ,

bien que ce type de risque puisse tre inacceptable lchelle de la population

(r) = inl( R. 1() _ r).

(o) le quantile dordre o de la distribution.

alors on dit que le maximum est attir

et par extension que 1 appartient au domaine dattraction de G

. ce qui est not

est de type Pareto pour

lorsque 0. est une loi exponentielle (dans le domaine dattraction de la loi de

est support born et de type bta (dans le domaine dattraction

. soit 10 pour un million. En utilisant (??) . on peut

. la loi agrge de 1 est de type

la teneur en contaminant du produit j lors de la ,

, les autres dans

. La distribution dexposition au contaminant est une fonction de la distribution produit

) [1. [ et on suppose que lim(

puisque les estima-

issues des thormes 3.1.1 et 3.1.2 et dnies en (3.7) et (3.8).

dautre part. La probabilit de couverture de chaque IC

Prouvons maintenant chaque assertion du thorme 3.2.1.

est la fonction "produit intgral" qui est au produit discret

sont les distributions empiriques obtenues en considrant les estimateurs

pour , = 1. . . . . 1 dsignent les distributions asymptotiques respectives

o(d) selon la procdure KM (encadr 4.2).

selon la procdure KM sur les chantillons bootstrap

. La vraie valeur du paramtre est de

dsigne la partie positive de la dirence entre lge de lindividu c

o est le vecteur des apports nutritionnels des H mnages, :/

C, V., Belicza, M., Krausand, O. & Skljarov, I. (1995). Balkan

S-ar putea să vă placă și