Math

0.
0.2
0.4
0.6
0.8
1.0
Ensimag - 2ème annee
55
60
65
70
75
Statistique Inferentielle Avancee

Notes de cours
Olivier Gaudoin
Table des mati`

eres
1 Introduction
2 Concepts de linf
erence statistique
2.1 Le modèle statistique . . . . . . . . . . . .
2.2 Modèle parametrique ou non parametrique
2.3 Fonction de vraisemblance . . . . . . . . .
2.4 Statistiques . . . . . . . . . . . . . . . . .
2.5 Exhaustivite . . . . . . . . . . . . . . . . .
2.6 La famille exponentielle . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Estimation param
etrique optimale
3.1 Introduction . . . . . . . . . . . . . . . . . . . .
3.2 Reduction de la variance . . . . . . . . . . . . .
3.3 Completude . . . . . . . . . . . . . . . . . . . .
3.4 Lestimation sans biais et de variance minimale
3.5 Information de Fisher et efficacite . . . . . . . .
3.5.1 Score et matrice dinformation . . . . . .
3.5.2 Information et exhaustivite . . . . . . .
3.5.3 Borne de Cramer-Rao et efficacite . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
10
11
13
14
18
.
.
.
.
.
.
.
.
23
23
23
27
28
29
30
32
33
4 Maximum de vraisemblance et estimation bay

esienne
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Proprietes asymptotiques de lestimateur de maximum de
4.3 Intervalles de confiance asymptotiques . . . . . . . . . .
4.3.1 Cas dun paramètre reel . . . . . . . . . . . . . .
4.3.2 Cas dun paramètre vectoriel . . . . . . . . . . . .
4.4 Estimation bayesienne . . . . . . . . . . . . . . . . . . .
4.4.1 Principe de la methode . . . . . . . . . . . . . . .
4.4.2 Exemple du controle de qualite . . . . . . . . . .
. . . . . . . . .
vraisemblance
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
37
37
37
41
41
44
44
44
46
5 Tests dhypoth`
eses optimaux
5.1 Introduction . . . . . . . . . . . . . . . . . . .
5.2 Definitions . . . . . . . . . . . . . . . . . . . .
5.3 Tests dhypothèses simples . . . . . . . . . . .
5.4 Tests dhypothèses composites . . . . . . . . .
5.5 Test du rapport des vraisemblances maximales
.
.
.
.
.
.
.
.
.
.
49
49
49
50
55
56
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
`
TABLE DES MATIERES
6 Estimation non param

etrique de quantit
es r
eelles
6.1 Les outils de la statistique non parametrique . . . .
6.1.1 Statistiques dordre et de rang . . . . . . . .
6.1.2 Loi de probabilite empirique . . . . . . . . .
6.2 Estimation de lesperance dun echantillon . . . . .
6.2.1 Estimation ponctuelle . . . . . . . . . . . .
6.2.2 Intervalle de confiance . . . . . . . . . . . .
6.3 Estimation de la variance dun echantillon . . . . .
6.3.3 Lien entre moyenne et variance empiriques .
6.4 Estimation des moments de tous ordres . . . . . . .
6.5 Estimation des quantiles . . . . . . . . . . . . . . .
6.5.1 Proprietes des quantiles empiriques . . . . .
6.6 Lois asymptotiques des extremes . . . . . . . . . .
7 Estimation fonctionnelle
7.1 Estimation de la fonction de repartition .
7.1.1 Estimation ponctuelle . . . . . .
7.1.2 Intervalle de confiance . . . . . .
7.2 Estimation de la densite . . . . . . . . .
7.2.1 Rappels sur les histogrammes . .
7.2.2 La methode du noyau . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8 Tests dad
equation bas
es sur la fonction de r
epartition
8.1 Problematique des tests dadequation . . . . . . . . . . .
8.2 Rappels sur les graphes de probabilite . . . . . . . . . . .
8.3 Cas dune loi entièrement specifiee . . . . . . . . . . . . .
8.4 Cas dune famille de lois . . . . . . . . . . . . . . . . . .
9 Tests non param
etriques sur un
echantillon
9.1 Tests dechantillon . . . . . . . . . . . . . .
9.1.1 Le test de Spearman . . . . . . . . .
9.1.2 Le test de Kendall . . . . . . . . . .
9.2 Tests sur lesperance et la mediane . . . . .
9.2.1 Tests asymptotiques sur lesperance .
9.2.2 Tests sur la mediane . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
empirique
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
59
59
59
64
65
65
65
67
67
67
68
68
69
69
70
70
71
.
.
.
.
.
.
73
74
74
76
77
77
78
.
.
.
.
83
83
84
85
87
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
91
91
92
94
95
95
97
10 Tests non param

etriques sur plusieurs
echantillons
10.1 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . .
10.2 Tests de rang . . . . . . . . . . . . . . . . . . . . . .
10.2.1 Le test de la mediane . . . . . . . . . . . . . .
10.2.2 Le test de Wilcoxon-Mann-Whitney . . . . . .
10.2.3 Le test de Kruskal-Wallis . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
101
101
102
102
104
105
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
`
TABLE DES MATIERES
11 Annexe A : Rappels de probabilit

es pour la statistique
11.1 Variables aleatoires reelles . . . . . . . . . . . . . . . . . . . . .
11.1.1 Loi de probabilite dune variable aleatoire . . . . . . . .
11.1.2 Variables aleatoires discrètes et continues . . . . . . . . .
11.1.3 Moments et quantiles dune variable aleatoire reelle . . .
11.2 Vecteurs aleatoires reels . . . . . . . . . . . . . . . . . . . . . .
11.2.1 Loi de probabilite dun vecteur aleatoire . . . . . . . . .
11.2.2 Esperance et matrice de covariance dun vecteur aleatoire
11.3 Convergences et applications . . . . . . . . . . . . . . . . . . . .
11.4 Quelques resultats sur quelques lois de probabilite usuelles . . .
11.4.1 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . .
11.4.2 Loi geometrique . . . . . . . . . . . . . . . . . . . . . . .
11.4.3 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . .
11.4.4 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . .
11.4.5 Loi gamma et loi du chi-2 . . . . . . . . . . . . . . . . .
11.4.6 Loi normale . . . . . . . . . . . . . . . . . . . . . . . . .
11.4.7 Lois de Student et de Fisher-Snedecor . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
107
107
107
108
109
110
110
111
112
113
113
114
114
114
114
115
116
12 Annexe B : Lois de probabilit

e usuelles
12.1 Caracteristiques des lois usuelles . . . . . . . . .
12.1.1 Variables aleatoires reelles discrètes . . .
12.1.2 Variables aleatoires reelles continues . . .
12.1.3 Vecteurs aleatoires dans INd et dans IRd .
12.2 Tables de lois . . . . . . . . . . . . . . . . . . .
12.2.1 Table 1 de la loi normale centree reduite
12.2.2 Table 2 de la loi normale centree reduite
12.2.3 Table de la loi du 2 . . . . . . . . . . .
12.2.4 Table de la loi de Student . . . . . . . .
12.2.5 Tables de la loi de Fisher-Snedecor . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
117
. 117
. 117
. 118
. 119
. 120
. 120
. 121
. 122
. 123
. 124
13 Annexe C : Introduction `
aR
13.1 Les bases de R . . . . . . . . . . . . . . . . .
13.2 Commandes pour les deux premiers TD en R
13.3 Quelques commandes utiles de R . . . . . . .
13.4 Les lois de probabilite usuelles en R . . . . .
13.5 Les principaux tests dhypothèses en R . . .
13.6 Les graphiques dans R . . . . . . . . . . . .
13.6.1 Graphique simple . . . . . . . . . . .
13.6.2 Autres fonctions graphiques . . . . .
13.6.3 Parametrage de la commande plot . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Bibliographie
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
127
127
128
129
130
132
132
132
133
134
135
`
TABLE DES MATIERES
Chapitre 1
Introduction
Comme son nom lindique, le cours de premier semestre de Principes et Methodes Statistiques (PMS) a presente les principes et les methodes de base dune analyse statistique
de donnees. On peut resumer rapidement son contenu de la facon suivante :
Statistique descriptive : le but est de decrire et resumer linformation contenue
dans les donnees à laide de representations graphiques (diagrammes en batons, histogrammes, graphes de probabilite) et dindicateurs statistiques (moyenne, variance,
mediane, quantiles, ...). Tous les exemples vus portent sur des donnees unidimensionnelles. Lextension à des descriptions de donnees multidimensionnelles sera vue
dans le cours dAnalyse Statistique Multidimensionnelle (ASM).
Statistique inf
erentielle : le but est de faire des previsions et prendre des decisions
au vu des donnees. Nous avons vu deux grandes categories de methodes :
Lestimation, ponctuelle et par intervalles de confiance, avec la methode des
moments et la methode du maximum de vraisemblance.
Les tests dhypoth`
eses, avec les tests parametriques sur un ou deux echantillons
2
et les tests du .
Le but du cours de Statistique Inferentielle Avancee (SIA) est dapprofondir et detendre
ces notions, en allant plus loin dans la theorie mathematique sous-jacente.
Nous commencerons par donner des concepts generaux sur linference statistique, en
introduisant la notion de mod`
ele statistique. Puis nous etudierons des proprietes doptimalite des notions dejà etudiees : comment trouver un estimateur optimal ? Quest-ce
quun test optimal et comment le trouver ? Nous etudierons une nouvelle methode destimation, lestimation bay
esienne, qui ouvre un champ très important de la statistique
moderne.
Nous distinguerons la statistique param
etrique, qui suppose lexistence dun modèle
connu avec des paramètres inconnus, et la statistique non param
etrique, qui ne fait
pas ces hypothèses. Dans ce contexte, nous verrons comment estimer des fonctions de
r
epartition et des densit
es de probabilit
e.
Enfin, nous etudierons des tests non param
etriques, permettant de determiner si
des observations sont independantes et de meme loi ou presentent une tendance, de tester
une moyenne ou de comparer des echantillons sans faire dhypothèses sur un modèle sousjacent, ou de tester ladequation dun modèle.
Chapitre 1 - Introduction
Nous etablirons des proprietes sur des param`

etres `
a plusieurs dimensions (avec la
notion de matrice dinformation au lieu de celle de quantite dinformation) et etudierons
des r
esultats asymptotiques (optimalite asymptotique de lestimateur de maximum de
vraisemblance).
Chapitre 2
Concepts de linf
erence statistique
2.1
Le mod`
ele statistique
Un modèle statistique est un objet mathematique associe a` lobservation de donnees

issues dun phenomène aleatoire.
Une experience statistique consiste à recueillir une observation x dun element aleatoire
X, à valeurs dans un espace X et dont on ne connait pas exactement la loi de probabilite
P . Des considerations de modelisation du phenomène observe amènent a` admettre que P
appartient a` une famille P de lois de probabilite possibles.
D
efinition 1 : Le mod`
ele statistique (ou la structure statistique) associe à cette
experience est le triplet (X , A, P), o`
u:
X est lespace des observations, ensemble de toutes les observations possibles.
A est la tribu des evènements observables associee.
P est une famille de lois de probabilites possibles definie sur A.
Linteret de cette notion de modèle statistique est quelle permet de traiter avec le
meme formalisme tous les types dobservations possibles.
On dit que le modèle est discret quand X est fini ou denombrable. Dans ce cas, la
tribu A est lensemble des parties de X : A = P(X ). Cest le cas quand lelement aleatoire
observe X a une loi de probabilite discrète.
On dit que le modèle est continu quand X IRp et P P, P admet une densite
(par rapport a` la mesure de Lebesgue) dans IRp . Dans ce cas, A est la tribu des boreliens
de X (tribu engendree par les ouverts de X ) : A = B(X ).
On peut aussi envisager des modèles ni continus ni discrets, par exemple si lobservation
a certains elements continus et dautres discrets. X et A sont alors plus complexes.
Le cas le plus frequent, celui qui a ete principalement vu en PMS, est celui o`
u lelement
aleatoire observe est constitue de variables aleatoires independantes et de meme loi (i.i.d.) :
X = (X1 , . . . , Xn ), o`
u les Xi sont i.i.d. On dit que lon a alors un mod`
ele d
echantillon.
Dans ce cas, par convention, si on note (X , A, P) le modèle correspondant à un echantillon
de taille 1, on notera (X , A, P)n le modèle correspondant à un echantillon de taille n.
10
Chapitre 2 - Concepts de linf

erence statistique
Exemple 1 : ampoules. Lexemple de reference du cours de PMS a consiste à recueillir

les durees de vie, supposees independantes et de meme loi exponentielle, de n ampoules
electriques. Lobservation est de la forme x = (x1 , . . . , xn ), o`
u les xi sont des realisations
de variables aleatoires Xi independantes et de meme loi exponentielle de paramètre
inconnu.
n
Pour tout i, xi IR+ , donc lespace des observations est X = IR+ . Alors la tribu
n
associee est A = B(IR+ ). Le modèle est continu. Comme on admet que la loi est exponentielle mais que son param`
lensemble des lois de probabilites pos etre est inconnu,

+
sibles pour chaque Xi est exp(); IR . Comme les Xi sont
independantes, la loi
de probabilite du vecteur (X1 , . . . , Xn ) est la loi produit P = exp()n ; IR+ , ensemble des lois de probabilite des vecteurs aleatoires de taille n dont les composantes sont
independantes et de meme loi exponentielle de paramètre inconnu.
Finalement, le modèle statistique associe est :

n
n
IR+ , B(IR+ ), exp()n ; IR+
quon peut aussi ecrire, daprès la convention enoncee :

n
IR+ , B(IR+ ), exp(); IR+
.
Exemple 2 : controle de qualite. Une chane de production produit un très grand nombre
de pièces et on sinteresse a` la proportion inconnue de pièces defectueuses. Pour lestimer,
on prelève independamment n pièces dans la production et on les controle. Lobservation
est x = (x1 , . . . , xn ), o`
u:

1 si la ième pièce est defectueuse
xi =
0 sinon
Par consequent, lespace des observations est X = {0, 1}n . Il est fini, donc le modèle
est discret et A = P ({0, 1}n ). Les Xi sont independants et de meme loi de Bernoulli B(p),
o`
u p = P (Xi = 1) est la probabilite quune pièce soit defectueuse.
Alors le modèle statistique peut secrire :

{0, 1}n , P ({0, 1}n ) , B(p)n ; p [0, 1]
ou
({0, 1}, P ({0, 1}) , {B(p); p [0, 1]})n .
Remarque : Quand lelement aleatoire X est numerique, il admet une fonction de repartition
F . La fonction de repartition caracterisant une loi de probabilite, lensemble P des lois de
probabilite possibles pour X est en bijection avec lensemble F des fonctions de repartition
possibles. Aussi le modèle statistique peut dans ce cas etre note (X , A, F) au lieu de
(X , A, P).
2.2
Mod`
ele param
etrique ou non param
etrique
Un mod`
ele param
etrique est un modèle o`
u lon suppose que le type de loi de X est
connu, mais quil depend dun paramètre inconnu, de dimension d. Alors,
la famille de
d
lois de probabilite possibles pour X peut secrire P = P ; IR .
2.3 Fonction de vraisemblance
11
Cest evidemment le cas des deux exemples. Le problème principal est alors de faire
de linference statistique sur : lestimer, ponctuellement ou par regions de confiance
(intervalles si d = 1), et effectuer des tests dhypothèses portant sur . On fait alors de la
statistique param
etrique.
Un mod`
ele non param
etrique est un modèle o`
u P ne peut pas se mettre sous la
forme ci-dessus. Par exemple, P peut etre :
lensemble des lois de probabilite continues sur IR,

lensemble des lois de probabilite dont le support est [0, 1],
lensemble des lois de probabilite sur IR symetriques par rapport a` lorigine,
etc...
Dans ce cadre, il est possible de determiner des estimations, des intervalles de confiance,
deffectuer des tests dhypothèses. Mais les objets sur lesquels portent ces procedures
statistiques ne sont plus des paramètres de lois de probabilite. On peut vouloir estimer des
quantites reelles comme lesperance et la variance des observations. On a vu en PMS quon
pouvait utiliser la moyenne et la variance empirique des donnees. On peut aussi vouloir
estimer des fonctions, comme la fonction de repartition et la densite des observations. On
a vu en PMS quun histogramme est une estimation de densite.
En termes de tests dhypothèses, on peut effectuer des tests sur la valeur dune
esperance, tester si les observations sont independantes, si elles presentent une croissance,
si elles proviennent dune loi normale, tester si plusieurs echantillons proviennent de la
meme loi, etc... On fait alors de la statistique non param
etrique.
De manière generale, la statistique non parametrique regroupe lensemble des methodes
statistiques qui permettent de tirer de linformation pertinente de donnees sans faire lhypothèse que la loi de probabilite de ces observations appartient à une famille parametree
connue.
Un des problèmes de la statistique parametrique est le risque derreur du a` un mauvais choix de modèle. Par exemple, on a vu en PMS dans lexercice sur les niveaux de
bruit à Montreal, que lon obtient des resultats aberrants si on effectue des calculs en
supposant que des observations sont de loi exponentielle, alors quen fait elles sont de loi
normale. Lavantage de la statistique non parametrique est de ne pas etre soumise a` cet
alea. En revanche, si les observations sont bien issues dun modèle precis, les methodes
statistiques parametriques qui utilisent ce modèle seront plus performantes que celles qui
ne lutilisent pas. Il est donc egalement important detablir des methodes permettant de
determiner si des observations sont issues ou non de tel ou tel modèle parametrique, les
tests dadequation.
2.3
Fonction de vraisemblance
Dans un modèle parametrique, la fonction de vraisemblance joue un role fondamental.

Nous navons vu en PMS que le cas des modèles dechantillon, en traitant separement le
cas des lois discrètes et des lois continues.
Pour un modèle dechantillon discret, lelement aleatoire observe est X = (X1 , . . . , Xn ),
o`
u les Xi sont independantes et de meme loi discrète. Alors la fonction de vraisemblance
12

erence statistique
est :
L(; x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn ; ) =
n
Y
P (Xi = xi ; ).
i=1
Pour un modèle dechantillon continu, lelement aleatoire observe est X = (X1 , . . . , Xn ),

o`
u les Xi sont independantes et de meme loi continue. Alors la fonction de vraisemblance
est :
n
Y
L(; x1 , . . . , xn ) = f(X1 ,...,Xn ) (x1 , . . . , xn ; ) =
fXi (xi ; ).
i=1
Pour definir une fonction de vraisemblance valable dans nimporte quel modèle statistique, pas forcement dechantillon et pas forcement discret ou continu, il faut utiliser des
notions de theorie de la mesure.
Rappels :
Une mesure sur (X , A) est S
-finie si et seulement si il existe une suite {An }n1
devènements de A telle que n1 An = X et n 1, (An ) < + (X est une
union denombrable devènements de mesure finie).
P est absolument continue par rapport a` si et seulement si :
A A, (A) = 0 P (A) = 0.
On considère un modèle parametrique quelconque (X , A, {P ; }). On supposera
quil existe une mesure -finie sur (X , A) telle que , la loi de P est absolument
continue par rapport a` (on dit que est la mesure dominante du modèle). Alors
le theorème de Radon-Nikodyn assure que P admet une densite par rapport a` . Cette
densite est appelee fonction de vraisemblance du modèle.
D
efinition 2 La fonction de vraisemblance du modèle (X , A, {P ; }) est la
fonction de definie par :
Z
A A, P (A) = P (X A; ) =
L(; x) d(x).
A
Plus generalement, pour toute fonction integrable, on a :

Z
E [(X)] =
(x) L(; x) d(x).
X
En toute rigueur, L nest definie quà une -equivalence près. Mais dans la pratique,
il ny a pas dambig
uite, aussi parle-t-on bien de la fonction de vraisemblance.
Cas des modèles continus. Si X est un vecteur aleatoire admettant une densit
R e fX (x; )
(par rapport a` la mesure de Lebesgue), on sait bien que P (X A; ) = A fX (x; ) dx.
Donc la mesure dominante est la mesure de Lebesgue et la fonction de vraisemblance est
L(; x) = fX (x; ).
2.4 Statistiques
13
Cas des modèles discrets. Si X est un vecteur aleatoire de loi discrète, definie par les
probabilites elementaires P (X = x; ), alors :
Z
X
P (X A; ) =
P (X = x; ) =
P (X = x; ) dd (x)
A
xA
R
o`
u d est la mesure de denombrement sur X : d (A) = card(A) et A f (x) dd (x) =
P
xA f (x). Donc la fonction de vraisemblance est bien L(; x) = P (X = x; ).
Lavantage de cette definition generale est quelle permet de traiter des cas plus atypiques que les modèles dechantillon discrets ou continus.
Exemple. Une experience aleatoire conduit à observer la realisation dun couple de variables aleatoires X = (Y, N ), o`
u Y est une variable aleatoire reelle (continue) et N est
une variable aleatoire entière (discrète). Y et N ne sont pas forcement independantes.
Admettons que leur loi conjointe depende dun paramètre .
Pour calculer la vraisemblance, qui permettra destimer , il faut etre capable de
calculer des grandeurs du type P ((Y, N ) A1 A2 ; ) = P ([Y A1 ] [N A2 ]; ), o`
u
A1 est un intervalle de IR et A2 est une partie de IN. On a :
X
P ([Y A1 ] [N A2 ]; ) =
P ([Y A1 ] [N = n]; )
nA2
Z
P ([Y A1 ] [N = n]; ) dd (n)
=
A2
Z
P (Y A1 |N = n; ) P (N = n; ) dd (n)
Z Z
=
fY |N =n (y; ) dy P (N = n; ) dd (n)
A2 A1
Z Z
=
fY |N =n (y; ) P (N = n; ) dy dd (n)
A1 A2
Z Z
=
fY |N =n (y; ) P (N = n; ) dL d (y; n)
=
A2
A1 A2
ce qui prouve que la fonction de vraisemblance est :

L(; x) = L(; y, n) = fY |N =n (y; ) P (N = n; ).
et que la mesure dominante est la mesure produit L d , o`
u L est la mesure de Lebesgue
sur IR et d est la mesure de denombrement sur IN.
2.4
Statistiques
En PMS, on a defini une statistique comme une fonction des observations, t(x). Dans
un modèle parametrique, cette fonction ne doit pas dependre du paramètre inconnu .
Autrement dit, elle doit etre mesurable. La definition formelle dune statistique est la
suivante.
14

erence statistique
D
efinition 3 Dans un modèle statistique (X , A, P), une statistique est une application
mesurable t de (X , A) dans un espace Y muni dune tribu B.
Rappel : une application t de (X , A) dans (Y, B) est mesurable si et seulement si B B,
levènement t1 (B) = [t(X) B] est dans A, cest-à-dire A, t(A) = B A A.
Concrètement, cela signifie que lon peut calculer la probabilite de tout evènement de la
forme [t(X) B], donc t ne doit pas dependre de paramètres inconnus.
Puisque x est une realisation de lelement aleatoire X, t(x) est une realisation de
lelement aleatoire T = t(X).
D
efinition 4 La loi de probabilite PT de T est appelee loi image par t et le modèle
(Y, B, {PT ; P P}) est le mod`
ele image par t de (X , A, P).

n
Exemple des ampoules. Le modèle est IR+ , B(IR+ ), exp(); IR+
. X = (X1 , . . . , Xn ),
o`
u les Xi sont des variables aleatoires independantes et de meme loi exp(). On sait
n
n
P
P
qualors T =
Xi est de loi gamma G(n, ). Donc la loi image par t(x) =
xi est la
i=1
i=1

loi G(n, ) et le modèle image est le modèle IR+ , B(IR+ ), G(n, ); IR+ .
Remarquons que le modèle image est de dimension 1 alors que le modèle initial etait
n
P
de dimension n. Autrement dit, la statistique t(x) =
xi est un resume des observations
i=1
x = (x1 , . . . , xn ). On retrouvera cette notion ulterieurement.

D
efinition 5 Soit (X , A, {P ; }) un modèle statistique parametrique. Si la fonction
de vraisemblance admet un maximum unique au point (x),

alors lapplication x 7 (x)
est appelee statistique de maximum de vraisemblance. (X)

est lestimateur de
maximum de vraisemblance de au vu de X.
2.5
Exhaustivit
e

On considère un modèle statistique parametrique (X , A, P ; IRd ). On cherche à obtenir le maximum de connaissance possible sur le paramètre a` partir de lobservation x X . Souvent, x est un vecteur (x1 , . . . , xn ) et n est très grand. Il est alors
interessant de reduire les donnees en les resumant par une statistique t(x) de dimension
très inferieure à n. Il est logique de sattendre à ce que le resume t(x) des observations
contienne moins dinformation sur que lensemble des donnees initiales. Or il existe des
statistiques qui resument les observations tout en conservant lintegralite de linformation
sur , les statistiques exhaustives.
D
efinition 6 Une statistique t est exhaustive pour si et seulement si la loi de probabilite conditionnelle de X sachant [T = t] ne depend pas de .
2.5 Exhaustivit
e
15
Justification. Si la loi de X sachant [T = t] ne depend pas de , cela signifie que, quand

on connait le resume de lobservation t(x), la connaissance de la totalite de lobservation
x napporte aucun renseignement supplementaire sur . Donc la totalite de linformation
sur est contenue dans t(x). Par consequent, il faut sattendre a` ne se servir que de t(x)
(au lieu de x tout entier) pour estimer .
Exemple du controle de qualite. Le modèle est ({0, 1}, P ({0, 1}) , {B(p); p [0, 1]})n . x =
(x1 , . . . , xn ), o`
u

1 si la ième pièce est defectueuse
xi =
0 sinon
Les Xi sont des variables aleatoires independantes et de meme loi B(p), o`
u p est la
probabilite quune pièce soit defectueuse.
Il semble evident que, pour avoir toute linformation sur p, il est inutile de savoir, pour
chaque pièce controlee, si elle est defectueuse ou pas. Il suffit de connatre le pourcentage
(ou le nombre total) de pièces defectueuses. Dailleurs on a vu en PMS que lestimateur
n
1P
Xi .
optimal (ESBVM) de p etait bien la proportion de pièces defectueuses pn =
n i=1
n
1P
On doit donc sattendre a` ce que pn (x) =
xi soit une statistique exhaustive. Pour
n i=1
des raisons de simplicite decriture, on va plutot montrer que le nombre total de pièces
n
P
xi est une statistique exhaustive.
defectueuses t(x) =
On sait que T =
i=1
n
P
Xi est de loi binomiale B(n, p). Alors :
i=1
P (X = x|T = t) = P (X1 = x1 , . . . , Xn = xn |
n
X
Xi = t)
i=1

P
=
n
P
X 1 = x1 , . . . , X n = xn , X i = t
n
i=1
P
P
Xi = t
i=1
P (Xi = xi ) =
si
P (X1 = x1 , . . . , Xn = xn )
n

P
P
Xi = t
si
n
P
i=1
n
P
xi 6= t
xi = t
i=1
i=1
p
1p
si xi = 1
= pxi (1 p)1xi
si xi = 0
et comme les Xi sont independants, on a :

n
Q
P (X1 = x1 , . . . , Xn = xn )
n

=
P
P
Xi = t
i=1
n
Q
P (Xi = xi )
i=1
P (T = t)
pxi (1 p)1xi
i=1
Cnt
pt (1 p)nt
16

erence statistique
n
P
Donc P (X = x|T = t) =
si
xi
n
P
(1 p)
t
Cn pt (1 p)nt
i=1
n
P
i=1
xi
n
X
1
xi = t
= t si
Cn
i=1
xi 6= t
i=1
n
P
.
1
si
x
=
t
i
Cnt i=1

n
P
n
On reconnait la loi uniforme sur (x1 , . . . , xn ) {0, 1} ; xi = t .
i=1
La loi conditionnelle de X sachant [T = t] ne depend pas de p, donc t(x) =
n
P
xi est
i=1
une statistique exhaustive pour p.

La verification de la propriete definissant les statistiques exhaustives netant pas
forcement facile, il est plus pratique dutiliser le theorème de Fisher-Neyman, qui caracterise très simplement lexhaustivite.
Th
eor`
eme 1 . Th
eor`
eme de factorisation de Fisher-Neyman. Pour quune statistique t soit exhaustive pour , il faut et il suffit quil existe deux fonctions mesurables g et
h telles que :
x X , , L(; x) = g (t(x); ) h(x).
Demonstration. Effectuons la demonstration dans le cas dun modèle discret. On a donc
L(; x) = P (X = x; ).
() Si t est exhaustive, P (X = x|T = t) ne depend pas de . Par consequent :
L(; x) = P (X = x; ) = P (X = x t(X) = t(x); )
= P (X = x T = t(x); ) = P (X = x|T = t(x)) P (T = t(x); )
= h(x) P (T = t(x); )
qui est bien de la forme g (t(x); ) h(x).
() On suppose que L(; x) = P (X = x; ) = g (t(x); ) h(x). Il faut montrer qualors
P (X = x|T = t) ne depend pas de . On a :
P (X = x t(X) = t0 ; )
P (X = x T = t0 ; )
=
P (T = t0 ; )
P (T = t0 ; )
0
si t(x) 6= t0
P (X = x; )
=
si t(x) = t0
P (T = t0 ; )
P
Or P (T = t0 ; ) = P (t(X) = t0 ; ) =
P (X = y; ).
P (X = x|T = t0 ; ) =
y;t(y)=t0
Donc, pour t(x) = t0 , on a :

P (X = x|T = t0 ; ) =
P (X = x; )
P
=
P (X = y; )
y;t(y)=t0
g (t(x); ) h(x)
P
g (t(y); ) h(y)
y;t(y)=t0
2.5 Exhaustivit
e
17
g (t ; ) h(x)
P 0
=
g (t0 ; ) h(y)
y;t(y)=t0
h(x)
P
h(y)
y;t(y)=t0
qui ne depend pas de . Donc t est exhaustive, do`

u le theorème.
Exemple 1 : controle de qualite. On a vu que :

L(p; x1 , . . . , xn ) =
n
Y
n
P
xi
1xi
p (1 p)
xi
= pi=1 (1 p)
n
P
xi
i=1
i=1
Cest de la forme g(
n
P
xi ; p), donc on retrouve immediatement que
i=1
n
P
xi est une sta-
i=1
tistique exhaustive.
Exemple 2 : echantillon de loi normale N (m; 2 ). On suppose que X = (X1 , . . . , Xn ), o`
u
2
les Xi sont independantes et de meme loi N (m; ). La vraisemblance est :
L(m, 2 ; x1 , . . . , xn ) =
n
Y

fXi xi ; m, 2 =
i=1
n
Y
i=1
(xi m)2
2 2
e
n
1 X
(xi m)2
2
2 i=1
1
n e
=
2
" n
#
n
X
X
1
x2i 2m
xi + nm2
2
2 i=1
1
i=1
n e
=
2
n

n

n
n
P
P
P
P
2
2
2
qui est de la forme g ( xi , xi ); m, . Donc le couple
xi , xi est une stai=1
i=1
i=1
i=1
tistique exhaustive pour le paramètre = (m, 2 ) dun echantillon de loi normale.

Propri
et
e 1 Si t est exhaustive et si t = s, alors s est exhaustive.
Demonstration. t est exhaustive donc
L(; x) = g (t(x); ) h(x) = g ([s(x)]; ) h(x) = G (s(x); ) h(x)
donc s est exhaustive.

Exemple : echantillon de loi normale.
n
P
i=1
xi ,
n
P
x2i
= (
xn , s2n ), donc (
xn , s2n ) est une
i=1
statistique exhaustive pour (m, 2 ) (cest la statistique de maximum de vraisemblance).

Remarque : Si t est exhaustive, t ne lest pas forcement ! Par exemple, (
xn , s2n ) = xn
nest pas exhaustive pour (m, 2 ).
Propri
et
e 2 Si t est une statistique exhaustive et si est la statistique de maximum de
vraisemblance, alors il existe une fonction telle que = t.
18

erence statistique
Demonstration. t est exhaustive donc L(; x) = g (t(x); ) h(x). h nintervient pas dans
la maximisation de cette fonction par rapport a` , donc la statistique de maximum de
vraisemblance ne depend de x quà travers t(x). Par consequent, il existe une fonction
telle que = t.

n
n
P
P
= (
xn , s2n ).
Cest bien le cas de la loi normale avec t(x) =
xi , x2i et (x)
i=1
i=1
La statistique de maximum de vraisemblance est fonction dune statistique exhaustive,

mais elle nest pas forcement exhaustive elle-meme.
En fait, on peut caracteriser facilement les lois de probabilite pour lesquelles les
modèles dechantillon admettent une statistique exhaustive : celles qui appartiennent à la
famille exponentielle.
2.6
La famille exponentielle
D
efinition 7 Soit X une variable aleatoire reelle, dont la loi de probabilite depend dun
paramètre IRd . On dit que la loi de X appartient `
a la famille exponentielle si et
seulement si P (X = x; ) (cas discret) ou fX (x; ) (cas continu) est de la forme :
d
X
aj (x)j () + b(x) + ()
e j=1
La plupart des lois usuelles appartiennent a` la famille exponentielle :
Loi de Bernoulli B(p) :

p
P (X = x; p) =
1p
si x = 1
= px (1 p)1x = ex ln p + (1 x) ln(1 p)
si x = 0
p
x ln
+ ln(1 p)
1p
= ex[ln p ln(1 p)] + ln(1 p) = e
qui est de la forme souhaitee avec d = 1, a(x) = x, (p) = ln
p
, b(x) = 0 et
1p
(p) = ln(1 p).

Loi exponentielle exp() :
fX (x; ) = ex = ex + ln
qui est de la forme souhaitee avec d = 1, a(x) = x, () = , b(x) = 0 et
() = ln .
Loi normale N (m, 2 ) :
fX x; m,

2
1
=
2
(x m)2
x2
mx
m2
ln 2
2
2
2
2
2
2
e
= e 2
2.6 La famille exponentielle
19
1
qui est de la forme souhaitee avec d = 2, a1 (x) = x2 , 1 (m, 2 ) = 2 , a2 (x) = x,
2
m
m
2 (m, 2 ) = 2 , b(x) = 0 et (m, 2 ) = 2 ln 2.
2
Mais par exemple, la loi de Weibull W(, ) nappartient pas à la famille exponentielle :
x1
fX (x; , ) =

x
x
+ ( 1) ln x ln + ln
=e
e
x
ne peut pas etre mis sous la forme a(x)(, ), donc la loi de
Weibull nappartient pas a` la famille exponentielle.

Le terme x fait que
Le lien entre famille exponentielle et exhaustivite est donne par le theorème de Darmois :
Th
eor`
eor`
eme de Darmois. Dans un modèle dechantillon (X , A, {P ;
eme 2 . Th
IRd )n , o`
u le support de la loi des observations ne depend pas de , il existe une statistiqueexhaustive si et seulement
si cette loi appartient à la famille exponentielle. Alors
n
n
P
P
t(x) =
a1 (xi ), . . . , ad (xi ) est une statistique exhaustive.
i=1
i=1
Demonstration. On effectue la demonstration pour des lois continues.

() Si la loi des observations appartient a` la famille exponentielle, la fonction de vraisemblance est :
d
X
L(; x1 , . . . , xn ) =
n
Y
fXi (xi ; ) =
i=1
n X
d
X
= e
n
Y
i=1
aj (xi )j () +
i=1 j=1
d
X
j ()
= e j=1
aj (xi )j () + b(xi ) + ()
j=1
n
X
b(xi ) + n()
i=1
n
X
i=1
aj (xi ) +
n
X
b(xi ) + n()
i=1

Le theorème de Fisher-Neyman permet alors den deduire que t(x) =
n
P
a1 (xi ), . . . ,
i=1
n
P
i=1
est une statistique exhaustive pour .

() Montrons la reciproque pour d = 1, cest-à-dire IR. On suppose quil existe une
statistique exhaustive t. Alors :
L(; x1 , . . . , xn ) =
n
Y
i=1
f (xi ; ) = g (t(x1 , . . . , xn ); ) h(x1 , . . . , xn )

ad (xi )
20

erence statistique
Il faut montrer qualors forcement f (x; ) est de la forme e a(x)() + b(x) + () . On
a:
ln L(; x1 , . . . , xn ) =
n
X
ln f (xi ; ) = ln g (t(x1 , . . . , xn ); ) + ln h(x1 , . . . , xn )
i=1
Et comme h ne depend pas de :

n
ln L(; x1 , . . . , xn ) =
ln f (xi ; ) =
ln g (t(x1 , . . . , xn ); )
i=1
Pour un i quelconque fixe dans {1, . . . , n}, on a :
2
2
2
ln L(; x1 , . . . , xn ) =
ln f (xi ; ) =
ln g (t(x1 , . . . , xn ); )
xi
xi
xi
2
=
t(x1 , . . . , xn )
ln g(y; )|y=t(x1 ,...,xn )
xi
y
Pour i et j distincts, on obtient donc :
2
2
ln g(y; )|y=t(x1 ,...,xn )

t(x1 , . . . , xn )
ln f (xi ; )
t(x1 , . . . , xn )
xi
y
xi
xi
=
=
2
2
t(x1 , . . . , xn )
ln f (xj ; )
t(x1 , . . . , xn )
ln g(y; )|y=t(x1 ,...,xn )
xj
xj
xj
y
(x; )
(y; )
ne depend pas de . Alors forcement (x; ) est de la forme (x; ) = u(x)v(). Par
2
consequent, on a
ln f (x; ) = u(x)v().
x
qui ne depend pas de . On est donc dans la situation dune fonction telle que
Do`
u
ln f (x; ) = a(x)v() + w() et ln f (x; ) = a(x)() + () + b(x).
Finalement, la densite est bien de la forme f (x; ) = e a(x)() + b(x) + () .

Pour finir ce chapitre, appliquons le theorème de Darmois aux lois usuelles.
Loi de Bernoulli B(p) : a(x) = x, donc on retrouve le fait que
n
P
xi est une statistique
i=1
exhaustive. LESBVM de p est une fonction de cette statistique : pn =

Loi exponentielle exp() : a(x) = x, donc
n
P
n
1P
Xi .
n i=1
xi est une statistique exhaustive.
i=1
n = n 1 .
LESBVM de est une fonction de cette statistique :
n
P
Xi
i=1
2.6 La famille exponentielle
21

Loi normale
N (m, 2 ) : a1 (x) = x2 et a2 (x) = x, donc on retrouve le fait que
n
n
P 2 P
xi , xi ou (
xn , s2n ) est une statistique exhaustive.
i=1
i=1
Loi de Weibull W(, ). Elle nappartient pas a` la famille exponentielle, donc il

ny a pas de statistique exhaustive. Cela peut se voir autrement en ecrivant la
vraisemblance :

L(, ; x1 , . . . , xn ) =
n
Y
i=1
x1
i
e
xi

=
n
n
"
n
1 X
#

x
n
Y
i=1 i
1
e
xi
i=1
Elle ne peut pas etre factorisee sous la forme du theorème de Fisher-Neyman

g (t(x1 , . . . , xn ); , ) h(x1 , . . . , xn ), sauf si on prend t(x1 , . . . , xn ) = (x1 , . . . , xn ).
Autrement dit, on ne peut pas resumer lensemble des donnees en conservant la
totalite de linformation sur les paramètres.
Remarque : on a relie la notion dexhaustivite a` celle dinformation sans definir precisement
linformation. Il y a en fait un lien entre lexhaustivite et linformation de Fisher, comme
on le verra plus tard.
22

erence statistique
Chapitre 3
Estimation param
etrique optimale
3.1
Introduction

On se place dans un modèle statistique parametrique (X , A, {P ; IRd ). On
cherche a` estimer au mieux le paramètre a` partir de lobservation x a` laide dune
statistique t(x). Lestimateur T = t(X) doit verifier certaines proprietes pour etre de
bonne qualite. Il est sans biais si E(T ) = . Quand IR (d = 1), on a vu quil fallait
que lerreur quadratique moyenne EQM (T ) = E [(T )2 ] soit la plus petite possible.
Quand T est sans biais, EQM (T ) = V ar(T ). Donc pour IR, un estimateur optimal
sera un estimateur sans biais et de variance minimale (ESBVM).
En PMS, nous avons vu quun estimateur sans biais et efficace (sa variance est egale
a` la borne de Cramer-Rao) etait forcement un ESBVM, mais nous navons pas donne
de procedure generale permettant de trouver un ESBVM. Cest le but essentiel de ce
chapitre. Cela necessite dutiliser la notion dexhaustivite, vue au chapitre precedent, et
de completude, que nous allons introduire.
Les resultats seront dabord introduits dans le cas simple o`
u est de dimension 1
(sections 3.2. à 3.4.), puis nous regarderons le cas o`
u est de dimension d quelconque en
abordant la notion dinformation de Fisher.
3.2
R
eduction de la variance
Le theorème suivant permet, à partir dun estimateur sans biais, de construire un

autre estimateur sans biais de variance inferieure, pour peu quil existe une statistique
exhaustive.
Th
eor`
eme 3 . Th
eor`
eme de Rao-Blackwell. Sil existe une statistique exhaustive T
et un estimateur sans biais de , alors Z = E[ | T ] est un estimateur sans biais de ,
de variance inferieure à celle de .

Rappels.
E[Y | X] est une variable aleatoire fonction de X. E[Y | X = x] en est une realisation.
Theorème de lesperance totale : E [E[Y | X]] = E(Y ).
Pour toute fonction mesurable, E[(X) | X] = (X).
24
Chapitre 3 - Estimation param

etrique optimale
Pour toute fonction mesurable, E[(X)Y | X] = (X)E[Y | X].
Demonstration. Comme T est exhaustive, la loi de X sachant T ne depend pas de , donc

celle de sachant T non plus. Par consequent, E[ | T = t] ne depend pas de , donc
z(x) = E[ | T = t(x)] est bien une statistique. Ce resultat est indispensable puisque, si
Z dependait de , on ne pourrait pas lutiliser pour estimer .
h
i
Donc si est
Daprès le theorème de lesperance totale, E(Z) = E E[ | T ] = E().
un estimateur sans biais de , Z est aussi un estimateur sans biais de . La variance de
est :
h
i
h
i
= E ( E())
2 = E ( )2
V ar()
h
i
2
= E ( Z + Z )
h
i
i
h

= E ( Z)2 + E (Z )2 + 2E ( Z)(Z ) .
Les 3 termes de cette somme verifient :
h
i
1. E ( Z)2 0.
2. E [(Z )2 ] = E [(Z E(Z))2 ] = V ar(Z).
h
i
h
i
h
i
3. E ( Z)(Z ) = E ( Z)Z E( Z) = E ( Z)Z

E(Z) = = 0.
car E( Z) = E()
Enfin :
h
E ( Z)Z
=
=
=
=
h h
ii
E E ( Z)Z | T
daprès le theorème de lesperance totale
h h
ii
E E ( E[ | T ]) E[ | T ] | T
h
h
ii
E E[ | T ] E E[ | T ] | T
h
h
ii
E E[ | T ] E[ | T ] E[ | T ]
= 0.
h
i
= E ( Z)2 + V ar(Z), ce qui prouve que V ar(Z) V ar(),
do`
Do`
u V ar()
u le
theorème.

Exemple des ampoules. Modèle dechantillon de loi exponentielle. On souhaite estimer la
fiabilite dune ampoule à linstant x, cest-à-dire la probabilite quelle fonctionne toujours
au bout dune duree x :
R(x) = P (Xi > x) = ex .
3.2 R
eduction de la variance
25
n = 1/X n =
On sait que lestimateur de maximum de vraisemblance de est
n
P
n/ Xi , donc lestimateur de maximum de vraisemblance de R(x) est :
i=1
n x
n (x) = e
R
nx/
=e
n
P
i=1
Xi
.
n
0 = (n 1)/ P Xi ,
On a dit en PMS (mais sans le prouver) que lESBVM de est
n
i=1
(n1)x/
n0 (x) = e
donc on peut aussi proposer destimer R(x) par R
n
P
Xi
i=1
Mais le biais de ces estimateurs est difficile a` calculer. En effet, etant donne que
n
P
Xi
i=1
est de loi G(n, ), on a par exemple :

h
i Z +
E Rn (x) =
enx/y
0
n
ey y n1 dy
(n 1)!
quon ne sait pas calculer.

Une autre solution consiste à estimer la probabilite quune ampoule fonctionne toujours
a` linstant x par le pourcentage dampoules observees qui fonctionnent toujours a` linstant
x. Cest ce quon appelle la fiabilite empirique :
n
IRn (x) = 1 IFn (x) =
1X
11{Xi >x} .
n i=1
Les proprietes de cet estimateur sont faciles a` etablir. En effet, les Yi = 11{Xi >x}
sont des variables aleatoires independantes et de meme loi de Bernoulli B (P (Yi = 1)) =
B (P (Xi > x)) = B (R(x)).
La fiabilite empirique nest autre que la moyenne empirique des Yi : IRn (x) = Y n .
Donc on sait que IRn (x) est un estimateur sans biais et convergent de E(Yi ) = R(x) :
E [IRn (x)] = R(x)
On a vu que t(x) =
et
V ar [IRn (x)] =
V ar(Yi )
R(x) [1 R(x)]
=
.
n
n
n
P
xi etait une statistique exhaustive pour . Par consequent, le

n
P
theorème de Rao-Blackwell permet daffirmer que Z = E IRn (x) |
Xi est un estimai=1
i=1
teur sans biais de R(x), de variance inferieure à celle de IRn (x).

"
Soit z(x, t) = E IRn (x) |
n
X
#
Xi = t
i=1
#
n
n
X
1X
11{Xj >x} |
Xi = t
= E
n j=1
i=1
"
#
n
n
X
1X
=
E 11{Xj >x} |
Xi = t
n j=1
i=1
"
26

etrique optimale
"
= E 11{X1 >x} |
n
X
#
Xi = t
i=1
car les Xi sont interchangeables, donc toutes les esperances sont egales
n
X
= P X1 > x |

Xi = t .
i=1
Comme les Xi sont positives, il est impossible que lon ait a` la fois X1 > x et
n
P
Xi = t
i=1
quand t x. On fera donc le calcul sous lhypothèse t > x et on rajoutera a` la fin

lindicatrice 11{t>x} . On a :
Z +
n
X

n
P X1 > x |
Xi = t =
f
(u) du
P
avec :
f
f
X1 |
n
P
Xi =t
X1 |
i=1
(X1 ,
n
P
Xi )
n
fP
i=1
Xi
(u, t)
i=1
(u) =
(t)
Xi =t
i=1
n
P
(X1 ,
Xi )
(u, t u)
i=2
n
fP
i=1
Xi
(t)
i=1
Pour les memes raisons que precedemment, le numerateur est nul quand t u. Donc
dans lintegrale, la borne sup est en fait t au lieu de +.
Pour u < t, on a :
n
fX1 (u) f P
X1 |
n
P
Xi =t
Xi
(t u)
i=2
(u) =
n
fP
i=1
Xi
(t)
i=1
car X1 et
n
P
Xi sont independantes. Comme
i=2
e
X1 |
Xi est de loi G(n 1, ), on a :
i=2
u
n
P
n
P
Xi =t
(u) =
i=1
n1 (tu)
e
(t u)n2
(t u)n2
(n 2)!
= (n 1)
n
tn1
et tn1
(n 1)!
Do`
u:
n
X
t
(t u)n2
1
du = n1 (t u)n1 x
n1
t
t
x
i=1
(t x)n1
x n1
=
=
1
, avec x < t.
tn1
t

x n1
Donc finalement z(x, t) = 1
11{t>x} et lestimateur recherche est :
t
x n1
n
Z = 1 P
11 P
.
n
{
Xi >x}
i=1
Xi
P X1 > x |

Xi = t =
(n 1)
i=1
3.3 Compl
etude
27
n (x), R0 n (x) et IRn (x) semblent naturels, autant celui-ci nest

Autant les estimateurs R
pas intuitif. Pourtant, cest le meilleur des 4.
On a vu quon pouvait diminuer la variance dun estimateur sans biais, mais peuton atteindre la variance minimale ? Pour le determiner, on doit introduire la notion de
statistique complète.
3.3
Compl
etude
D
efinition 8 Une statistique t est compl`
ete ou totale si et seulement si pour toute
fonction mesurable , on a :
E [(T )] = 0, = 0 presque partout sur le support de la loi de T, cest-à-dire
partout sauf sur un ensemble de mesure nulle.
Exemple 1 : controle de qualite. X = (X1 , . . . , Xn ), o`
u les Xi sont i.i.d. de loi de Bernoulli
n
P
B(p). On sait que t(x1 , . . . , xn ) =
xi est une statistique exhaustive pour p. Est-elle
i=1
complète ?
On sait que T =
n
P
Xi est de loi binomiale B(n, p), donc :
i=1
E [(T )] =
n
X
(k) P (T = k) =
n
X
(k) Cnk pk (1 p)nk .
k=0
k=0
Il faut montrer que

n
X
(k) Cnk pk (1 p)nk = 0, p [0, 1] k {0, . . . , n}, (k) = 0.
k=0
En effet, comme le support de T est fini, doit etre nulle partout sur le support.

k
n
n
X
X
p
k k
nk
n
k
Or
(k) Cn p (1 p)
= (1 p)
(k) Cn
.
1
p
k=0
k=0
Soit =
n
X
p
. On a :
1p
(k) Cnk
p (1 p)
nk
= 0, p [0, 1]
k=0
n
X
(k) Cnk k = 0, IR+ .
k=0
Cest un polynome de degre n en qui est identiquement nul, donc tous ses coefficients
sont nuls. Par consequent, k {0, . . . , n}, (k) Cnk = 0 et donc k {0, . . . , n}, (k) =
n
P
0, ce qui prouve que t(x1 , . . . , xn ) =
xi est une statistique complète.
i=1
Exemple 2 : ampoules. X = (X1 , . . . , Xn ), o`

u les Xi sont i.i.d. de loi exponentielle exp().
n
P
On sait que t(x1 , . . . , xn ) =
xi est une statistique exhaustive pour . Est-elle complète ?
i=1
28

etrique optimale
On sait que T =
n
P
Xi est de loi gamma G(n, ), donc :
i=1
+
Z
E [(T )] =
0
E [(T )] = 0, IR
n
(y)
ey y n1 dy.
(n 1)!
(y) y n1 ey dy = 0, IR+ .
Or cette integrale est la transformee de Laplace de la fonction (y) y n1 au point .

Comme la transformee de Laplace est injective, la seule fonction dont la transformee soit
0 est la fonction nulle.
Donc on a y IR+ , (y) y n1 = 0, do`
u y IR+ , (y) = 0. nest peut-etre pas
nulle en 0, mais elle est nulle presque partout sur IR+ , support de la loi G(n, ). Par
n
P
consequent, t(x1 , . . . , xn ) =
xi est une statistique complète.
i=1
3.4
Lestimation sans biais et de variance minimale
Les notions dexhaustivite et de completude permettent de trouver un ESBVM de

a` partir dun estimateur sans biais.
Th
eor`
eme 4 . Th
eor`
eme de Lehmann-Scheff
e. Si est un estimateur sans biais de
et t est une statistique exhaustive et complète, alors Z = E[ | T ] est lunique estimateur
sans biais de , de variance minimale parmi tous les estimateurs sans biais de .
Demonstration. Daprès le theorème de Rao-Blackwell, si un estimateur sans biais nest
pas fonction de la statistique exhaustive T , on peut toujours trouver un autre estimateur
sans biais de , de variance inferieure, qui soit fonction de T : Z = E[ | T ]. Donc un
ESBVM est forcement fonction de T .
Supposons quil existe 2 estimateurs sans biais fonction de T , 1 (T ) et 2 (T ).
h
i
h
i
h
i
h
i
E 1 (T ) = E 2 (T ) = donc , E 1 (T ) 2 (T ) = E (1 2 )(T ) = 0.
Comme t est complète, on en deduit que 1 2 = 0 presque partout, do`
u 1 = 2
presque partout. Il nexiste donc quun seul estimateur sans biais fonction de T et cet
estimateur est de variance minimale.

Corollaire 1 . Pour trouver un estimateur optimal, il suffit de trouver un estimateur
sans biais fonction dune statistique exhaustive et complète.
n
1P
Xi est un estimateur sans biais de p,
n i=1
n
P
fonction de la statistique exhaustive et complète
Xi , donc cest lESBVM de p.
Exemple 1 : controle de qualite. pn = X n =
i=1
3.5 Information de Fisher et efficacit

e
29
Cela conforte lintuition : la meilleure facon destimer la probabilite quune pièce soit
defectueuse, cest de prendre le pourcentage de pièces defectueuses dans le lot controle.
n = n/
Exemple 2 : ampoules. Lestimateur de maximum de vraisemblance de est
n
P
Xi .
i=1
0 = (n 1)/ P Xi etait sans biais. On a affirme en

On a vu quil etait biaise et que
n
i=1
0 etait lESBVM de , sans pouvoir le justifier. On sait maintenant que cest

PMS que
n
0 est un estimateur sans biais fonction de la statistique exhaustive et complète
parce que
n
n
P
Xi .
i=1
Propri
et
e 3 Le theorème de Lehmann-Scheffe reste valable si on remplace par (),
o`
u est une fonction mesurable quelconque. Autrement dit, lESBVM de () est un
estimateur sans biais de () fonction dune statistique exhaustive et complète.
x n1
n
Dans lexemple des ampoules, on a vu que Z = 1 P
11 P
est un estin
{
Xi >x}
i=1
Xi
i=1
mateur sans biais de R(x) = ex . Comme il est fonction de la statistique exhaustive et

n
P
complète
Xi , cela signifie que Z est lESBVM de R(x). IRn (x) est aussi un estimateur
i=1
sans biais de R(x), mais comme il nest pas fonction de
n
P
Xi , ce nest pas lESBVM.
i=1
Th
eor`
eme 5 Dans un modèle dechantillon o`
u la loi des observations appartient à la
n
P
famille exponentielle, si () est bijective, alors la statistique exhaustive
a(xi ) est
i=1
complète.
Ce theorème permet de retrouver directement que
n
P
xi est complète dans les exemples
i=1
du controle de qualite et des ampoules.
3.5
Information de Fisher et efficacit

e
On a dit quune statistique exhaustive contenait autant dinformation sur que lobservation x toute entière, mais on na pas defini ce quetait linformation sur un paramètre.
Il y a en fait plusieurs facons de la definir. On ne parlera ici que de linformation de Fisher,
mais on pourrait aussi parler de linformation de Kullback ou de Shannon. Intuitivement,
linformation mesure la capacite de lobservation a` estimer avec precision le paramètre .
En PMS, on a defini la quantite dinformation de Fisher dans le cas de modèles parametriques dechantillon, pour un paramètre de dimension 1 :

In () = V ar
ln L(; X1 , . . . , Xn )
"
2 #
2

= E
ln L(; X1 , . . . , Xn )
= E
ln L(; X1 , . . . , Xn )
30

etrique optimale
Linteret principal de la quantite dinformation est quelle fournit une borne inferieure
pour la variance de nimporte quel estimateur sans biais de , grace à linegalite FDCR :
pour nimporte quelle statistique T ,

V ar(T )
2
E(T )
In ()
En particulier, si T est un estimateur sans biais de , alors V ar(T )
1
.
In ()
Un estimateur efficace est un estimateur pour lequel linegalite FDCR est une egalite.
Si un estimateur sans biais est efficace, alors il est forcement de variance minimale et sa
variance est egale a` la borne de Cramer-Rao 1/In ().
Dans cette section, nous allons approfondir cette notion dinformation de Fisher, en
commencant par la definir pour un paramètre de dimension d quelconque.
3.5.1
Score et matrice dinformation

d
On se place dans
un
mod`
e
le
param
e
trique
(X
,
A,
{P
;
I
R
). Le paramètre
1
..
secrit donc = . .
d
Quand on estime un paramètre de dimension d, les notions usuelles liees à lestimation
secrivent sous forme vectorielle. Par exemple :
T1
Le vecteur aleatoire T = ... est un estimateur sans biais de si E(T ) = , ce

T

d
1
E(T1 )
..
..
qui secrit vectoriellement
u j {1, . . . , d}, E(Tj ) = j .
= . o`
.
E(Td )
d
Lerreur quadratique moyenne de lestimateur T est
E ||T ||
d
X
Tj j
2 i
j=1
Les theorèmes de Rao-Blackwell et Lehmann-Scheffe se generalisent en remplacant

la notion de variance par celle derreur quadratique moyenne : on reduit lEQM
en prenant lesperance conditionnelle a` une statistique exhaustive et on a lEQM
minimale si cette statistique est complète.
Pour pouvoir traiter a` la fois les modèles discrets et continus, nous allons revenir a`
la definition generale de la fonction de vraisemblance. Soit la mesure de reference. On

e
31
rappelle que la vraisemblance L(, x) verifie :

Z
L(; x) d(x)
A A, , P (X A; ) =
A
et pour toute fonction integrable :

Z
(x) L(; x) d(x).
E [(X)] =
X
Pour definir les notions qui vont suivre, on a besoin de faire les hypothèses suivantes :
Le support de P ne depend pas de (ce qui, par exemple, exclut la loi uniforme
sur [0, ]).
, x, L(; x) > 0.
ln L(; x) est derivable 2 fois par rapport à chaque composante j de .
On peut deriver 2 fois sous le signe somme par rapport à chaque composante de :
pour toute fonction mesurable g et tous j et k dans {1, . . . , d},
Z
Z
g(x) L(; x) d(x) =

g(x)
L(; x) d(x)
j A
j
A
et
2
j k
Z
g(x) L(; x) d(x) =
g(x)
A
2
L(; x) d(x).
j k
Sous ces hypothèses, on peut definir les quantites suivantes.

D
efinition 9 Le score est le gradient de la log-vraisemblance :
Z1 (; X)
..
Z(; X) = ln L(; X) =
.
Zd (; X)
o`
u j {1, . . . , d}, Zj (; X) =
ln L(; X).
j
Le score est un vecteur aleatoire de dimension d. Quand IR, cest simplement la
variable aleatoire Z(; X) =

ln L(; X). Lestimateur de maximum de vraisemblance
X) = 0.
de est la valeur de qui annule le score : Z(;
D
efinition 10 La matrice dinformation de Fisher I() est la matrice de covariance
du score, de terme general

Ijk () = Cov Zj (; X); Zk (; X) .
32

etrique optimale

Quand IR, on retrouve bien I() = V ar[Z(; X)] = V ar

ln L(; X) .
Propri
et
e 4 Le score est centre : E[Z(; X)] = 0.
Demonstration. j {1, . . . , d},
Z

ln L(; X) =
ln L(; x) L(; x) d(x)
E[Zj (; X)] = E
j
X j
Z L(; x)
Z
j
=
L(; x) d(x) =
L(; x) d(x)
L(; x)
X
X j
Z
=
L(; x) d(x)
daprès les hypothèses effectuees
j X
=
P (X X ) =
1=0
j
j

On en deduit que :

Ijk () = Cov Zj (; X); Zk (; X) = E Zj (; X)Zk (; X) E Zj (; X) E Zk (; X)

ln L(; X)
ln L(; X)
= E Zj (; X)Zk (; X) = E
j
k
"
2 #
Pour IR, on retrouve que I() = E

ln L(; X)
.

2
ln L(; X) .
De la meme manière, on montre que Ijk () = E
j k
Propri
et
e 5 Pour les modèles dechantillon de taille n, la matrice dinformation est
notee In () et verifie In () = nI1 ().
Cette propriete traduit lidee naturelle que, dans un echantillon, chaque observation
porte la meme quantite dinformation sur , et que la quantite dinformation est additive.
La demonstration de ce resultat est similaire a` celle effectuee en PMS p. 43.
3.5.2
Information et exhaustivit
e
D
efinition 11 La quantit
e dinformation dune statistique t, It (), est la quantite
dinformation du modèle image par t.
Si on resume les donnees x par une statistique t(x), on a dit quon sattendait a` perdre
de linformation, sauf si la statistique est exhaustive. Cest exactement ce qui se passe et
qui se traduit de la facon suivante. On presente le resultat pour IR pour simplifier.
Propri
et
e6 .
Degradation de linformation : pour toute statistique t, It () I().
Information et exhaustivite : It () = I() t est exhaustive.

e
3.5.3
33
Borne de Cramer-Rao et efficacit

e
Linegalite FDCR vue plus haut pour IR sexprime en fait pour de dimension
quelconque.
Th
eor`
eme 6 . In
egalit
e de Fr
(FDCR). On considère
echet-Darmois-Cramer-Rao

d
un modèle parametrique (X , A, P ; IR ) verifiant les hypothèses de cette section et tel que la matrice dinformation I() soit inversible.
Soit t une statistique à valeurs dans IRq , T la matrice de covariance de T et la
E(Ti ), 1 i q, 1 j d.
matrice de terme general ij =
j
Alors IRd , la matrice T I 1 () t est semi-definie positive.
Rappel : La matrice M est semi-definie positive si et seulement si x 6= 0, t xM x 0.
E(T ). Alors on obtient :

2
E(T )
V ar(T )
0.
I()
Quand d = q = 1, T = V ar(T ) et =
Cest bien le resultat attendu.

Demonstration. Demontrons le theorème pour d = q = 1. On a :

Cov T ; Z(; X) = E T Z(; X) E[T ] E Z(; X)

= E T Z(; X) car le score est centre

Z
= E T
t(x)
ln L(; X) =
ln L(; x) L(; x) d(x)
X
Z
Z
=
t(x) L(; x) d(x) =
t(x) L(; x) d(x)
X
X
=
E(T ).
Linegalite de Cauchy-Schwarz permet decrire :

2

Cov T ; Z(; X) V ar(T ) V ar Z(; X)
Do`
u:

2
Cov T ; Z(; X)

=
V ar(T )
V ar Z(; X)
2
E(T )
.
I()
Quand IRd , linegalite FDCR appliquee aux termes diagonaux de T permet

dobtenir une borne inferieure pour la variance de chaque composante de T :
34

etrique optimale
Propri
et
e 7 i {1, . . . , q}, on a :
V ar(Ti )
d X
d
X
1
Ijk
()
j=1 k=1
E(Ti ) E(Ti )
.
j
k
En particulier,
si T est un estimateur sans biais de , on a pour tout i, E(Ti ) = i . Donc
E(Ti )
1 si i = j
= ij =
, do`
u V ar(Ti ) Iii1 (), qui est la borne de Cramer-Rao.
0
sinon
j
Lestimateur T est efficace si linegalite FDCR est une egalite.
D
efinition 12 Un estimateur sans biais T est efficace si et seulement si T = I 1 ().
Alors, pour tout i, V ar(Ti ) = Iii1 ().
Le dernier theorème de ce chapitre donne une condition dexistence dun estimateur
efficace dans les modèles dechantillon, liee a` la famille exponentielle.

Th
eor`
eme 7 Dans un modèle dechantillon (X , A, P ; IRd )n , la borne de Cramer-Rao ne peut etre atteinte que si P appartient à la famille exponentielle. La vraisemblance secrit :
n X
d
X
L(; x1 , . . . , xn ) = e
aj (xi )j () +
i=1 j=1
n
X
b(xi ) + n()
i=1
Alors, à une transformation lineaire près, la seule fonction de qui peut etre estimee
efficacement est h() = A1 () (), o`
u A() est la matrice de terme generique
i ()
Aij () =
.
j
0 ()
Quand IR, on a simplement h() = 0 . On montre alors en plus que lestima ()
n
1P
h0 ()
teur efficace de h() est T =
a(Xi ) et la variance minimale est V ar(T ) =
.
n i=1
n0 ()
Exemple des ampoules : echantillon de la loi exp().
fX (x; ) = ex = ex + ln .
La loi exponentielle appartient a` la famille exponentielle avec d = 1, a(x) = x, () =
, b(x) = 0 et () = ln .
0 ()
1/
1
=
= . Donc on peut estimer efficacement 1/ mais pas
0
()
1
n
0 = (n 1)/ P Xi est lESBVM de , mais il nest pas
. Cest bien ce quon avait vu :
n
Alors h() =
i=1
efficace.

e
Lestimateur efficace de h() =
n) =
V ar(X
35
n
1
1P
est
a(Xi ) = X n et la variance minimale est
n i=1
h0 ()
1/2
1
=
=
.
0
n ()
n(1)
n2
Cest logique car
1
V ar(X)
1
= E(X), 2 = V ar(X), E(X n ) = E(X) et V ar(X n ) =
.
36

etrique optimale
Chapitre 4
Maximum de vraisemblance et
estimation bay
esienne
4.1
Introduction

On se place dans ce chapitre dans un modèle parametrique (X , A, P ; IRd ).
Le chapitre precedent sest interesse a` la qualite des estimateurs de dans ces modèles :
variance minimale et efficacite. Mais au prealable, il faut disposer de methodes permettant
dobtenir de tels estimateurs. On a vu en PMS la methode des moments et la methode
du maximum de vraisemblance. Il existe de très nombreuses autres methodes destimation. Nous verrons dans ce chapitre une troisième methode, de plus en plus populaire,
lestimation bayesienne. Mais dabord nous allons approfondir les proprietes des estimateurs de maximum de vraisemblance, en nous interessant a` leurs proprietes asymptotiques.
Les resultats etablis permettront en particulier de construire des intervalles de confiance
asymptotiques pour les paramètres du modèle sous-jacent.
4.2
Propri
et
es asymptotiques de lestimateur de maximum de vraisemblance
Rappelons que si la fonction de vraisemblance L(; x) admet un maximum unique au
point (x),
alors lapplication x 7 (x)
est appelee statistique de maximum de vraisem
blance et (X) est lestimateur de maximum de vraisemblance (EMV) de . Dans la suite,
on notera plus simplement cet estimateur. On a donc :
= arg max L(; X).
Comme dhabitude, on prefèrera maximiser le logarithme de la vraisemblance :

= arg max ln L(; X).
Dans la plupart des cas, on maximisera la log-vraisemblance en annulant sa derivee

par rapport à chaque composante de . Mais on a vu (voir le cas de la loi uniforme)
que cette methode ne fonctionnait pas toujours. Nous allons nous placer dans ce chapitre
dans le cas o`
u cette methode va fonctionner. Il faut pour cela faire les memes hypothèses
38
Chapitre 4 - Maximum de vraisemblance et estimation bay

esienne
(derivabilite, integration,...) que celles qui ont ete introduites dans la section 3.5.1 pour
definir la matrice dinformation. Dans ces conditions, lEMV est solution du système
des equations de vraisemblance :
j {1, . . . , d},
ln L(; X) = 0.
j
Mais comme le score est defini par Z(; X) = ln L(; X), est finalement la valeur
de qui annule le score :
X) = 0.
Z(;
Nous allons maintenant enoncer les proprietes asymptotiques de lEMV, vues en PMS
pour IR, pour un paramètre de dimension d quelconque. Nous nous interessons ici
uniquement aux modèles dechantillon, mais il existe des resultats analogues pour de
nombreux autres modèles. Pour un echantillon de taille n, lEMV sera note n , le score
Zn (; X) et la matrice dinformation In ().

Th
eor`
eme 8 Dans un modèle parametrique dechantillon (X , A, P ; IRd )n
verifiant les hypothèses annoncees, on a :
L
n (n ) Nd 0, I11 ()
o`
u I1 () est la matrice dinformation de Fisher pour un echantillon de taille 1 et Nd est
la loi normale dans IRd .
Interpretation : Comme E[n ] tend vers , lEMV est asymptotiquement sans biais.
Comme la matrice de covariance de n est asymptotiquement equivalente à la borne de
Cramer-Rao [nI1 ]1 () = In1 (), lEMV est asymptotiquement efficace. Enfin, lEMV
est
asymptotiquement gaussien. De plus, la vitesse de convergence de n vers est 1/ n, ce

qui signifie que la variance de chaque composante de n tend vers 0 comme 1/n. Il savère
que la plupart des autres estimateurs convergent moins vite. Par ailleurs, n converge
egalement presque s
urement vers .
Demonstration : Nous allons montrer le resultat pour un paramètre reel (d = 1). Alors
la quantite dinformation est simplement un reel In (), et comme on est dans un modèle
dechantillon, In () = nI1 ().
Par commodite decriture, on suppose que la loi sous-jacente est continue, de densite
n
Q
f . Alors la vraisemblance secrit L(; x) = L(; x1 , . . . , xn ) =
f (xi ; ) et le score est :
i=1
n
ln L(; X) =
ln f (Xi ; ).
Zn (; X) =
i=1
On a dejà vu que E [Zn (; X)] = 0 et :
2

ln L(; X) = E
Zn (; X) .
In () = V ar [Zn (; X)] = E
2

2

En particulier, I1 () = V ar
ln f (X1 ; ) = E
ln f (X1 ; ) .
4.2 Propri
et
es asymptotiques de lestimateur de maximum de vraisemblance
39
Les variables aleatoires
ln f (Xi ; ) sont independantes, de meme loi, centrees et de
variance I1 ().
Pour eviter des confusions decriture, on va noter dans la suite 0 la vraie valeur du
paramètre .
i
Le theorème des accroissements finis permet decrire quil existe un n0 dans min(n , 0 ),
h
max(n , 0 ) tel que :
Zn (n ; X) = Zn (0 ; X) + (n 0 )
Zn (; X) 0 .
n
Or Zn (n ; X) = 0. Multiplions par 1/ n.
1
1
Zn (0 ; X) + (n 0 )
Zn (; X) 0 = 0
n
n
n
1
1
ou Zn (0 ; X) + n (n 0 )
Zn (; X) 0 = 0.
n
n
n
Or :
1
1
1
1
Zn (; X) 0 =
Zn (; X) 0
Zn (; X) +
Zn (; X) +I1 (0 )I1 (0 ).
n
n n
0 n
0
n
n
On pose :
1
Zn (; X) + I1 (0 )
0
n
2

n
1 X 2

=
ln f (Xi ; ) E
ln f (X1 ; ) .
0
n i=1 2
2
0
An =
Comme les Xi sont independantes et de meme loi, la loi des grands nombres permet
daffirmer que :
2

n
1 X 2
PS

ln f (Xi ; ) E
ln f (X1 ; )
0
n i=1 2
2
0
PS
donc An 0. On pose :
1
1
Zn (; X) 0
Zn (; X) .
n
0
n
n
i
h
PS
PS
0
Puisque n 0 et n min(n , 0 ), max(n , 0 ) , on a forcement n0 0 , donc

Bn =
PS
Bn 0.
1
PS
PS
Do`
u Zn (0 ; X) + n (n 0 ) [Bn + An I1 (0 )] = 0, avec An 0 et Bn
n
0.
40

esienne
De plus, le theorème central-limite applique aux
ln f (Xi ; ) secrit :
n
X
ln f (Xi ; ) 0
Zn (; X) L
i=1
p
=p
N (0, 1).
nI1 ()
nI1 ()
Finalement, n (n 0 ) =
1
n
Zn (0 ; X)
Zn (0 ; X)
a meme limite en loi que
I1 (0 ) B
nI1 (0 )
n An
Zn (0 ; X)
1
p
=p
, cest-à-dire la loi N 0,
, do`
u le resultat.

I1 (0 )
I1 (0 ) nI1 (0 )
Si au lieu destimer directement , on veut estimer une fonction de , on sait que (n )
est lestimateur de maximum de vraisemblance de (). Les proprietes de cet estimateur
sont donnees par le theorème suivant. Il porte le nom de methode delta car ce resultat
fournit une methode pour construire des intervalles de confiance asymptotiques.
Th
eor`
eme 9 . M
ethode delta. Si est une fonction de IRd dans IRq derivable par
rapport à chaque composante de , on a :
i

h
L
n (n ) () Nq 0, ()I11 ()t ()
o`
u () est la matrice de terme general ij () =
i (), 1 i q, 1 j d.
j
Demonstration pour d = q = 1. Dans ce cas, () = 0 (), donc le resultat secrit :

i
h
0 ()2
L
n (n ) () N 0,
I1 ()
a` laide du theorème des accroissements finis. Il existe n0 dans
i On le montre facilement
h
min(n , ), max(n , ) tel que :
(n ) = () + (n )0 (n0 ).
i
h
L
Donc n (n ) () = n(n )0 (n0 ). Comme n(n ) N
et 0 (n0 ) 0 (), on a bien le resultat ci-dessus.
1
0,
I1 ()

Exemple des ampoules. X1 , . . . , Xn sont independantes et de meme loi exp(). Linformation de Fisher est :

X
I1 () = V ar
ln f (X; ) = V ar
ln e

1
1
= V ar
(ln X) = V ar
X = V ar(X) = 2
4.3 Intervalles de confiance asymptotiques
41
n = 1 = n . Le resultat asymptotique sur lEMV secrit :

LEMV de est
n
P
Xn
Xi
i=1
L
n )
n(
N 0, I11 () = N (0, 2 ).

2
n ) 2 /n quand n tend vers

Donc V ar( n
u V ar(
n ) = nV ar(n ) tend vers , do`
2 2
n
n) =
linfini. Or en PMS, on a vu que V ar(
, qui est bien equivalent a`
(n 1)2 (n 2)
2 /n.
n (x) = en x . On a vu quon ne pouvait pas
LEMV de R(x) = () = ex est R
n (x) est
calculer son biais et sa variance pour n fini. Mais la methode delta montre que R
asymptotiquement sans biais et que sa variance asymptotique est :

2 2x
0
2
2 x2 2x
n (x) = () = x e
e
.
V aras R
=
nI1 ()
n/2
n
4.3
Intervalles de confiance asymptotiques
On a vu en PMS que la meilleure facon de determiner un intervalle de confiance pour

un paramètre reel dun modèle parametrique, est de trouver une fonction pivotale, fonction
des observations et du paramètre, dont la loi de probabilite ne depend pas du paramètre.
Mais il nest pas forcement facile de trouver une telle fonction. Nous allons voir dans cette
section que les proprietes asymptotiques de lestimateur de maximum de vraisemblance
permettent de determiner assez facilement des intervalles de confiance asymptotiques pour
des fonctions presque quelconques des paramètres.
Si IR, un intervalle de confiance (exact) de seuil pour est un intervalle aleatoire
[Y, Z] qui a une probabilite 1 de contenir . Comme on se place dans le cadre de
modèles dechantillon de taille n, on notera [Yn , Zn ] lintervalle de confiance. On a donc
P ( [Yn , Zn ]) = 1 .
D
efinition 13 [Yn , Zn ] est un intervalle de confiance asymptotique de seuil pour si
et seulement si :
lim P ( [Yn , Zn ]) = 1 .
n+
Dans la pratique, si on sait calculer un intervalle de confiance exact, on na pas besoin

de calculer un intervalle de confiance asymptotique. Mais quand on ne sait pas calculer
un intervalle de confiance exact, on utilise un intervalle de confiance asymptotique : si n
est suffisamment grand, P ( [Yn , Zn ]) ne devrait pas etre trop eloigne de 1 .
4.3.1
Cas dun param`

etre r
eel
Si IR, I1 ()est un reel et le resultat asymptotique sur lEMV secrit :

p
1
L
L
) N 0,
ou nI1 () (n ) N (0, 1).
I1 ()
n (n
42

esienne
p
Le terme nI1 () (n ) est une fonction pivotale asymptotique : fonction de et
des observations (par lintermediaire de n ), dont la loi asymptotique ne depend pas de .
Daprès les proprietes usuelles de la loi N (0, 1), on a donc :

p
lim P u nI1 () (n ) +u = 1
n+
= lim P
n+
"
n + p
n p
nI1 ()
nI1 ()
u
!
.
Donc n p
, n + p
est un intervalle de confiance asymptotique de
nI1 ()
nI1 ()
seuil pour . Mais cet intervalle est inutilisable a` cause du terme I1 () qui est inconnu.
Lidee naturelle est de le remplacer par I1 (n ). Pour savoir quel est limpact de cette
transformation, il faut utiliser le resultat suivant.
Th
eor`
eme 10 .Th
eor`
eme de Slutsky. Soit {Un }n1 une suite de variables aleatoires
convergeant en loi et {Vn }n1 une suite de variables aleatoires convergeant en probabilite
vers une constante c. Alors pour toute fonction continue g, la suite {g(Un , Vn )}n1 a meme
limite en loi que la suite {g(Un , c)}n1 .
L
Ici, on pose Un = n (n ) N

0,

1
.
I1 ()
q
PS p
I1 (n ) I1 (). Comme la convergence presque s
ure
q
p
P
entrane la convergence en probabilite, on a egalement I1 (n ) I1 ().
q
p
Soit g(u, v) = uv, Vn =
I1 (n ) et c =
I1 (). Le theorème de Slutsky perq
met decrire que g(Un , Vn ) =
nI1 (n ) (n ) a meme limite en loi que g(Un , c) =
q
p
L
nI1 () (n ), donc nI1 (n ) (n ) N (0, 1).
Alors, en appliquant la meme demarche que precedemment, on obtient la propriete
suivante.
PS
On sait que n , donc
Propri
et
e 8 Un intervalle de confiance asymptotique de seuil pour est :
u
n q u
.
, n + q
nI1 (n )
nI1 (n )
Exemple 1 : controle de qualite. X1 , . . . , Xn sont independantes et de meme loi B(p). On a
n
vu en PMS que In (p) = nI1 (p) =
. Donc un intervalle de confiance asymptotique
p(1 p)
de seuil pour p est :
"
#
r
r
pn (1 pn )
pn (1 pn )
pn u
, pn + u
.
n
n
4.3 Intervalles de confiance asymptotiques
43
Ce resultat avait ete obtenu en PMS (propriete 9) par une methode bien differente.
Exemple 2 : ampoules. X1 , . . . , Xn sont independantes et de meme loi exp(). In () =
n
nI1 () = 2 . Donc un intervalle de confiance asymptotique de seuil pour est :
#
"

u
u
n
n
n 1
n 1 +
n u ,
n + u
=
,
.
n
n
n
n
Rappelons que lintervalle de confiance exact est :
h z
i
n 2n,1/2 ,
n z2n,/2 .
2n
2n
Pour n grand, les deux intervalles de confiance sont equivalents.
Interessons-nous maintenant à des intervalles de confiance asymptotiques pour une
fonction () du paramètre , o`
u IR et est continue et derivable. Le resultat de la
methode delta secrit :

i
0
2
h
()
L
n (n ) () N 0,
I1 ()
ou :
p
i
nI1 () h
L
(n ) () N (0, 1).
0
| ()|
On peut encore appliquer le theorème de Slutsky et on obtient le resultat suivant.
Propri
et
e 9 Un intervalle de confiance asymptotique de seuil pour () est :
(n ) u q| (n )| , (n ) + u q| (n )| .
nI1 (n )
nI1 (n )
0
Exemple des ampoules. X1 , . . . , Xn sont independantes et de meme loi exp(). Lestimateur
de maximum de vraisemblance de R(x) = () = ex est en x . On a vu que

0 ()2
2 x2 2x
=
e
.
nI1 ()
n
Donc un intervalle de confiance asymptotique de seuil pour R(x) est :
"
n x
#
nx
nx
u en x , en x + u en x .
n
n
44

esienne
4.3.2
Cas dun param`

etre vectoriel
Si IRd , on a :

L
n (n ) Nd 0, I11 () .
I1 () est une matrice symetrique definie positive, donc on peut en prendre la racine
carree et ecrire :
1/2
L
n I1 () (n ) Nd (0, Id) .
o`
u Id est la matrice identite.
Sous des conditions de regularite (continuite des composantes de I1 () par rapport
a` chaque composante de ), on peut appliquer une version vectorielle du theorème de
Slutsky et on obtient :
1/2
L
n I1 (n ) (n ) Nd (0, Id) .
De meme, le resultat de la methode delta secrit :
i

h
L
n (n ) () Nq 0, ()I11 ()t ()
ou :
i
1/2 h

L
n ()I11 ()t ()
(n ) () Nq (0, Id) .
Sous des conditions de regularite, on a alors :

i1/2 h
i
h
L
n (n )I11 (n )t (n )
(n ) () Nq (0, Id)
ce qui permet de donner des intervalles de confiance asymptotiques pour chaque composante de ().
4.4
4.4.1
Estimation bay
esienne
Principe de la m
ethode
La philosophie de la methode destimation bayesienne est très differente de celles

des methodes vues jusque là. Dans les methodes du maximum de vraisemblance ou des
moments, le paramètre est inconnu mais constant, deterministe. Lestimation est menee
en considerant quon ignore tout de , mis a` part son ensemble de definition.
Or parfois, on dispose dune connaissance partielle sur . Cette information, dite a
priori, peut provenir dexperiences similaires effectuees auparavant ou davis dexperts
du phenomène etudie qui peuvent anticiper le resultat de lexperience. Le principe de
lestimation bayesienne est de considerer que le paramètre est en fait la realisation
dune variable aleatoire, et dintegrer dans sa loi de probabilite toutes les informations a
priori dont on dispose sur lui.
Soit T la variable aleatoire dont est une realisation. La loi de probabilite de T est
appelee loi a priori. En general, cette loi est supposee continue et admettre une densite
fT () (quon note aussi usuellement ()).
4.4 Estimation bay

esienne
45
Les donnees observees x vont maintenant etre considerees comme etant issues de la
loi conditionnelle de X sachant [T = ]. Cela signifie que la fonction de vraisemblance
secrit :
P (X = x|T = ) si le modèle est discret

L(; x) =
fX|T = (x)
si le modèle est continu
La loi de X, appelee loi marginale, est alors obtenue de la facon suivante :
R
Modèle discret : P (X = x) = P (X = x|T = ) fT () d
R
Modèle continu : fX (x) = fX|T = (x) fT () d
On peut resumer les deux cas en un seul en disant que la vraisemblance marginale
ou vraisemblance pr
edictive est :
Z
L(x) = L(; x) fT () d.
Estimer dans ce contexte va consister a` enrichir la priori sur (exprime par fT ())
a` laide de linformation apportee par lobservation x. On est alors amenes a` sinteresser à
la loi conditionnelle de T sachant [X = x], appelee loi a posteriori. Les caracteristiques
de cette loi sont determinees grace a` la formule de Bayes :
P (B|A) =
P (B A)
P (A|B)P (B)
=
P (A)
P (A)
do`
u le nom destimation bayesienne.
La loi a posteriori est determinee par sa densite :
Modèle discret : fT |X=x () =
P (X = x|T = )fT ()
P (X = x|T = )fT ()
=R
.
P (X = x)
P (X = x|T = u) fT (u) du
Modèle continu : fT |X=x () =
fX|T = (x) fT ()
fX|T = (x) fT ()
=R
.
fX (x)
fX|T =u (x) fT (u) du
On resume les deux cas en un seul en disant que la densit

e a posteriori ou vraisemblance a posteriori est :
fT |X=x () = R
L(; x) fT ()
L(; x) fT ()
=
.
L(x)
L(u; x) fT (u) du
La loi a posteriori prend en compte à la fois linformation a priori et celle fournie

par les donnees. On lutilise donc pour estimer . On peut prendre comme estimateur la
mediane ou le mode de la loi a posteriori, mais la facon la plus courante de proceder est
de prendre lesperance de la loi a posteriori :
B = E[T |X].
Pour IR, lestimation bayesienne correspondante est donc :
R
Z
L(; x) fT () d
E[T |X = x] = fT |X=x () d = R
.
L(; x) fT () d
46

esienne
Elle necessite donc le calcul de deux integrales. Cest evidemment un avantage si on

peut les calculer explicitement. Ce sera le cas si les lois a priori et a posteriori appartiennent
a` la meme famille. On dit alors que ce sont des lois conjugu
ees. Mais une loi a priori qui
reflète de facon realiste linformation a priori sur naura pas forcement ces proprietes.
Dans ce cas, les integrales nont pas dexpression explicite. Pour les calculer, on utilise alors
des methodes de simulation de Monte-Carlo (methodes MCMC). Lestimation bayesienne
est alors co
uteuse en temps de calcul. Les algorithmes de calcul les plus connus sont les
echantillonneurs de Gibbs et dHastings-Metropolis.
Les paramètres de la loi a priori sont appeles les hyperparam`
etres. Ils sont determines
par la connaissance a priori que lon a sur , donc ce sont normalement des quantites
connues. Mais on peut pousser la logique bayesienne un cran plus loin en considerant
que ces hyperparamètres sont inconnus. On peut alors les estimer en maximisant la vraisemblance marginale. Lestimateur bayesien obtenu avec la loi a priori estimee est alors
appele estimateur bay
esien empirique.
Puisque lon connat la loi a posteriori de T sachant [X = x], on est capables de
calculer des intervalles [y, z] tels que P (y T z|X = x) = 1 . [y, z] fournit un
encadrement du paramètre avec un certain niveau de confiance. Le concept est proche
de celui dintervalle de confiance, mais il est different. De tels intervalles sont appeles
intervalles de cr
edibilit
e. On peut les utiliser pour mesurer la precision de lestimation
bayesienne de .
Dans la densite a posteriori
fT |X=x () = R
L(; x) fT ()
,
L(u; x) fT (u) du
on constate que lon peut multiplier fT () par une constante sans changer le resultat.
Aussi on peut sautoriser à prendre pour fT () une fonction qui nest pas forcement
une densite de probabilite. On a alors ce quon appelle des lois a priori impropres. Bien
que surprenante, cette demarche permet daboutir à des estimateurs bayesiens simples et
coherents.
4.4.2
Exemple du contr
ole de qualit
e
Les donnees sont des variables aleatoires X1 , . . . , Xn independantes et de meme loi de

Bernoulli B(p). Xi vaut 1 si la ième pièce est defectueuse et 0 sinon.
On cherche a` estimer la proportion p de pièces defectueuses. Il est naturel de sattendre
a` ce que cette proportion soit faible si la machine est de bonne qualite. Il est egalement
possible que des experts soient capables de donner un ordre de grandeur de cette proportion. Pour tenir compte de cette information, il faut choisir une loi a priori pour p dont
le support est [0, 1], et qui soit concentree sur les petites valeurs. Cest le cas par exemple
de certaines lois beta.
On va donc supposer que la loi a priori pour p est la loi beta de première espèce 1 (a, b)
dont la densite est :
1
fP (p) =
pa1 (1 p)b1 11[0,1] (p)
(a, b)
o`
u (a, b) =
(a)(b)
.
(a + b)
4.4 Estimation bay

esienne
47
Lesperance et la variance de cette loi sont :

E(P ) =
a
a+b
et
V ar(P ) =
ab
b)2 (a
(a +
+ b + 1)
La connaissance a priori sur p peut se traduire par une valeur moyenne et une variabilite, qui permettent de donner des valeurs aux hyperparamètres a et b.
La vraisemblance habituelle est maintenant consideree comme la densite (par rapport
a` la mesure de denombrement) de X sachant [P = p]. Autrement dit :
n
P
xi
L(p; x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn |P = p) = pi=1 (1 p)
n
P
i=1
xi
La vraisemblance marginale est :

L(x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn )
Z
=
P (X1 = x1 , . . . , Xn = xn |P = p) fP (p)dp
Z
n
P
xi
i=1
n
P
(1 p)
xi
i=1
1
pa1 (1 p)b1 dp
(a, b)
n
n
Z 1 P
P
xi +a1
n
xi +b1
1
i=1
i=1
=
p
(1 p)
dp
(a, b) 0
n

n
n
n
P
P
P
P
n
xi +b1
xi + a, n
xi + b Z 1 i=1 xi +a1
p
(1 p) i=1
i=1
i=1
n
dp
=
n
P
P
(a, b)
0
xi + a, n
xi + b
i=1
i=1
n

n
P
P
xi + a, n
xi + b Z 1
i=1
i=1
n
n
=
f P
(p) dp
P
1 (
xi +a,n
xi +b)
(a, b)
0
i=1
i=1
n

n
P
P
xi + a, n
xi + b
i=1
i=1
=
(a, b)
La loi a posteriori est determinee par sa densite :

fP |X1 =x1 ,...,Xn =xn (p) =
P (X1 = x1 , . . . , Xn = xn |P = p)fP (p)

P (X1 = x1 , . . . , Xn = xn )
n
P
(a, b)
n
P
xi + a, n
i=1
n
P
xi + b
i=1
n
P
n
P
n
P
xi +a1
n
xi +b1
1

pi=1
(1 p) i=1
(a, b)
xi + a, n
i=1
n
P
pi=1
xi +a1
(1 p)
n
P
i=1
xi +b1
pour p [0, 1].
xi + b
i=1
On reconnat la densite de la loi 1 (
n
P
i=1
xi + a, n
n
P
i=1
xi + b). Lestimateur bayesien est
48

esienne
lesperance de cette loi, do`

u finalement :
n
P
B
p = P
n
n
P
Xi + a
i=1
Xi + a + n
i=1
n
P
=
Xi + b
Xi + a
i=1
n+a+b
i=1
Rappelons que lestimateur de maximum de vraisemblance usuel est :

n
1X
pn = X n =
Xi .
n i=1
On constate que les 2 estimateurs sont equivalents quand on a beaucoup de donnees.
Quand on a peu de donnees, la difference peut etre importante et depend du choix de la
priori. Cest logique : cest precisement quand on a peu de donnees quil est interessant
de compenser ce manque par de linformation a priori. A la limite, si on na pas du tout
de donnees (n = 0), on peut quand meme estimer p. En effet, dans ce cas lestimateur
a
. Cest lesperance de la loi a priori. Cest logique puisquen
bayesien est pB =
a+b
labsence de donnees, la seule base pour faire une estimation est linformation a priori.
Plus on a dobservations, plus le poids de linformation a priori diminue. La subtilite de
lestimation bayesienne est dans le dosage entre les poids respectifs des observations et de
linformation a priori.
Lignorance complète sur p consiste à prendre comme loi a priori la loi uniforme sur
[0, 1], qui nest autre que la loi 1 (1, 1). Alors lestimateur bayesien est ;
n
P
B
p =
Xi + 1
i=1
n+2
qui est très proche de lEMV.

On constate que les lois a priori et a posteriori sont toutes les deux des lois beta.
Cest ce quon a appele des lois conjuguees. Cest cette propriete qui permet davoir des
estimateurs bayesiens explicites.
Chapitre 5
Tests dhypoth`
eses optimaux
5.1
Introduction
Les principes generaux des tests dhypothèses ont ete introduits dans le cours de PMS.
Rappelons les rapidement.
Un test dhypothèses a pour but de trancher, au vu dobservations, entre une hypothèse nulle H0 , et une hypothèse alternative H1 .
Le seuil du test est la probabilite maximale de lerreur de première espèce, erreur
qui consiste à rejeter H0 a` tort (conclure H1 alors que H0 est vraie). La valeur de
est fixee par lutilisateur en fonction de la gravite des consequences de lerreur de
première espèce.
La puissance est liee à la probabilite de rejeter H0 a` raison. Sa definition depend
de la nature du test (test dhypothèses simples ou dhypothèses composites).
La region critique W est lensemble des valeurs des observations pour lesquelles on
rejettera H0 .
En PMS, on a determine les regions critiques essentiellement à laide du bon sens ou de
lintuition, ou en utilisant la dualite entre tests dhypothèses et intervalles de confiance.
Nous allons donner dans ce chapitre un procede systematique de construction de tests
dhypothèses parametriques.
Comme on ne peut pas minimiser les deux risques derreur en meme temps, on a choisi
de privilegier lerreur de première espèce, cest-à-dire de construire des tests en fixant le
seuil . A fixe, le meilleur des tests possibles est celui qui minimisera la probabilite de
lerreur de deuxième espèce, ou maximisera la puissance. Nous donnerons dans ce chapitre
les moyens de determiner des tests optimaux.
Mais pour commencer, nous allons proposer une definition plus formelle des tests
dhypothèses, qui va permettre delargir le cadre vu en PMS.
5.2
D
efinitions
On se place dans un modèle statistique (X , A, P). Lobservation x est la realisation

dun element aleatoire X de loi P P. Les hypothèses que lon peut effectuer sur cette
50
Chapitre 5 - Tests dhypoth`

eses optimaux
observation portent sur la nature de la loi P .

Donc on peut ecrire que les hypothèses dun test sont de la forme H0 : P P0 et
H1 : P P1 , o`
u P0 et P1 sont des parties de P. Au vu de x, on doit decider sil est
plus raisonnable de considerer que P P0 ou que P P1 .
D
efinition 14 Un test dhypoth`
eses de H0 : P P0 contre H1 : P P1 est une
statistique
: X [0, 1]
x 7 (x) = probabilite de rejeter H0 au profit de H1 quand lobservation est x.
D
efinition 15 Un test dhypothèses est d
eterministe si et seulement si est une indicatrice : (x) = 11W (x). Autrement dit, on rejettera H0 si x W et on ne rejettera pas
H0 si x
/ W.
On voit que lon retrouve ici la notion de r
egion critique. Tous les tests vus en
PMS sont deterministes. Mais la definition proposee ici est plus large : un test nest pas
forcement une indicatrice, donc on peut imaginer des tests pour lesquels la valeur de
lobservation x ne permet pas immediatement de trancher entre H0 et H1 . On va voir
quil est indispensable de definir un test de cette facon si on veut etre capables de traiter
loptimalite des tests.
Une hypothèse est simple si elle est reduite a` un singleton : P = P0 . Une hypothèse
est composite ou multiple quand elle nest pas simple : P P0 o`
u P0 nest pas reduit
a` un singleton.
5.3
Tests dhypoth`
eses simples
Un test dhypoth`
eses simples est un test dans lequel H0 et H1 sont simples. Cest
donc un test de H0 : P = P0 contre H1 : P = P1 .
D
efinition 16 Le seuil du test est = EP0 [(X)] et la puissance du test est =
EP1 [(X)].
Explication : Le seuil du test est la probabilite de rejeter à tort H0 , cest-à-dire la probabilite de decider que la loi de X est P1 alors quen fait la loi de X est P0 . Or on a defini
le test de sorte que (x) soit la probabilite de rejeter H0 quand lobservation est x. Pour
obtenir , il faut donc considerer (x) pour toutes les valeurs possibles de x quand la loi
de X est P0 . Autrement dit, il faut prendre lesperance de (X) sous la loi P0 .
La loi de X etant caracterisee par sa fonction de vraisemblance, on note L(P ; x) la
fonction de vraisemblance quand la loi de X est P . Alors on peut reecrire sous la forme :
Z
Z
= EP0 [(X)] = (x) dP0 (x) = (x) L(P0 ; x) d(x).
5.3 Tests dhypoth`

eses simples
51
La puissance du test est la probabilite de rejeter a` raison H0 , cest-à-dire la probabilite

de decider a` juste titre que la loi de X est P1 . On a donc :
Z
Z
= EP1 [(X)] = (x) dP1 (x) = (x) L(P1 ; x) d(x).
Quand le test est deterministe, (x) = 11W (x), donc :
Z
Z
L(P0 ; x) d(x) = P0 (X W ).
= EP0 [(X)] = 11W (x) L(P0 ; x) d(x) =
W
De meme, = EP1 [(X)] = P1 (X W ).

On retrouve bien le fait que, pour un test dhypothèses simples deterministe, le seuil
est la probabilite sous H0 que les observations soient dans la region critique et la puissance
est la probabilite sous H1 que les observations soient dans la region critique.
La probabilite derreur de deuxième espèce est 1 . Un test 1 est meilleur quun
test 2 si les deux probabilites derreur sont inferieures pour 1 a` ce quelles sont pour
2 . Donc 1 a un seuil inferieur et une puissance superieure à 2 :
1 2 et 1 2 .
Do`
u la definition suivante :
D
efinition 17 Un test de H0 : P = P0 contre H1 : P = P1 est dit le meilleur
`
a son niveau de signification si et seulement si tout test de seuil inferieur est moins
puissant. Autrement dit :
0 , 0 0 .
Cela signifie en particulier que, quand la probabilite derreur de première espèce est
fixee, le meilleur test est celui qui minimise la probabilite derreur de deuxième espèce.
Le resultat le plus important de ce chapitre est le lemme de Neyman-Pearson qui
permet, dune part de construire des tests dhypothèses simples de facon systematique, et
dautre part de determiner les meilleurs tests dhypothèses simples.
Th
eor`
eme 11 . Lemme de Neyman-Pearson. [0, 1], il existe k IR+ et
[0, 1] tels que le meilleur test de seuil de H0 : P = P0 contre H1 : P = P1 est :
1 si L(P1 ; x) > k L(P0 ; x)
si L(P1 ; x) = k L(P0 ; x)
(x) =
0 si L(P1 ; x) < k L(P0 ; x)

Remarque. Quand L(P0 ; x) 6= 0, on voit que le test consiste a` comparer L(P1 ; x)/L(P0 ; x)
a` k . Aussi le test est-il appele test du rapport de vraisemblances. Intuitivement,
52

eses optimaux
si ce rapport est grand, alors P1 est plus vraisemblable que P0 et donc on rejettera H0
au profit de H1 . Et inversement si le rapport est petit.
Demonstration. Soit 0 un test tel que 0 . Il faut montrer que 0 est forcement moins
puissant que , cest-à-dire que 0 .
Posons A(x) = (x) 0 (x), B(x) = L(P1 ; x) k L(P0 ; x) et g(x) = A(x)B(x). On
a:
Si B(x) > 0, (x) = 1, donc A(x) = 1 0 (x) 0 do`
u g(x) 0.
Si B(x) = 0, g(x) = 0.
Si B(x) < 0, (x) = 0, donc A(x) = 0 (x) 0 do`
u g(x) 0.
R
Par consequent, x X , g(x) 0, donc g(x) d(x) 0. Or :
Z
Z
Z
g(x) d(x) =
(x) L(P1 ; x) d(x) 0 (x) L(P1 ; x) d(x)

Z
Z
0
k
(x) L(P0 ; x) d(x) (x) L(P0 ; x) d(x)
= 0 k [ 0 ]
= 0 k [ 0 ] 0
Finalement 0 k [ 0 ] 0, donc 0 , ce qui prouve que est bien le
meilleur test a` son niveau de signification .

Dans un modèle parametrique (X , A, {P ; }), a` chaque loi P correspond un
paramètre . Donc lhypothèse P = P0 peut secrire = 0 et la vraisemblance
peut secrire L(P ; x) = L(; x). Les tests dhypothèses correspondant sont appeles tests
param
etriques. Dans le cas contraire, on parle de tests non param
etriques.
Exemple du controle de qualite. Dans le modèle ({0, 1}, P ({0, 1}) , {B(p); p [0, 1]})n , on
veut tester H0 : P = B(p0 )n contre H1 : P = B(p1 )n . Plus simplement, il sagit de
tester H0 : p = p0 contre H1 : p = p1 dans un modèle dechantillon de loi de Bernoulli.
On reconnait le problème de test dhypothèses simples sur une proportion vu en PMS.
n
P
On sait que la fonction de vraisemblance est L(p; x1 , . . . , xn ) = p

Par consequent :
n
P
i=1
L(p1 ; x) > k L(p0 ; x) p1
xi
(1 p1 )
n
P
i=1
xi
n
P
i=1
> k p0
xi
i=1
xi
(1 p)
(1 p0 )
n
P
i=1
n
P

n
x
1 p0
p1 (1 p0 ) i=1 i
> k
p0 (1 p1 )
1 p1
" n
#
X
p1 (1 p0 )
1 p0
xi ln
> ln k + n ln
p0 (1 p1 )
1 p1
i=1
xi
n
P
i=1
xi
5.3 Tests dhypoth`

eses simples
53
On va maintenant isoler la statistique de test, cest-à-dire ce qui ne depend que des

xi . Il faut alors prendre en compte le signe de p1 p0 . On a :
p0 < p1 1 p1 < 1 p0 p0 (1 p1 ) < p1 (1 p0 ) ln
p1 (1 p0 )
> 0.
p0 (1 p1 )
Donc, pour p0 < p1 ,

L(p1 ; x) > k L(p0 ; x)
n
X
1 p0
1 p1
= l ,
p1 (1 p0 )
ln
p0 (1 p1 )
ln k + n ln
xi >
i=1
ce qui signifie que le meilleur test est de la forme :
n
P
1 si
xi > l
i=1
n
P
si
xi = l
(x) =
i=1
n
P
0 si
xi < l
i=1
Reciproquement, pour p0 > p1 , le meilleur test est de la forme :
n
P
xi < l
1 si
i=1
n
P
si
xi = l
(x) =
i=1
n
P
0 si
xi > l
i=1
Il reste a` determiner les valeurs de l et de , ce qui se fait en explicitant le seuil du

test. On pourrait ensuite determiner k en fonction de l , p0 , p1 et n, mais ca na aucun
interet : seuls l et sont importants.
Faisons le calcul dans le cas o`
u p0 < p1 :
= EP0 [(X)] = 1 P0 ((X) = 1) + P0 ((X) = ) + 0 P0 ((X) = 0)
!
!
n
n
X
X
= P0
Xi > l + P0
Xi = l
i=1
n
P
i=1
n
P
Xi est de loi binomiale B(n, p0 ), donc, pour l entier, P0

Xi = l =
i=1
n

n
P
P
l l
nl
Cn p0 (1 p0 )
et P0
Xi > l =
Cnk pk0 (1 p0 )nk .
i=1
k=l
+1
n

P
Sil existe l0 tel que P0
Xi > l0 = , on prend l = l0 et = 0. Sinon, il existe
n i=1

n

P
P
Xi > l0 < < P0
Xi > l0 1 . Alors on prend l = l0
forcement l0 tel que P0
i=1
i=1
n
P
P0
Xi > l0
i=1
n
.
et =
P
P0
Xi = l0
Sous H0 ,
i=1
i=1
54

eses optimaux
Ayant obtenu l et , on peut calculer la puissance du test :
!
!
n
n
X
X
= EP1 [(X)] = P1
Xi > l + P1
Xi = l ,
i=1
o`
u, sous P1 ,
n
P
i=1
Xi est de loi binomiale B(n, p1 ).
i=1
Si n est assez grand, on peut utiliser le theorème central-limite et lapproximation de

la loi binomiale par la loi normale :
n
P
Xi np
L
i=1
np(1 p)
N (0, 1).

Comme la loi normale est continue,
lim P0
n+
n
P

Xi = l
= 0. Donc il suffit de
i=1
prendre un test deterministe ( = 0) et

n
P
!
n
X
i=1 Xi np0
l np0
,
p
p
= P0
Xi > l = P0
>
np (1 p )
np
(1
p
)
0
0
0
0
i=1
qui tend, quand n tend vers linfini, vers 1
l np0
p
.
np0 (1 p0 )
p
p
On va donc prendre l = np0 + np0 (1 p0 ) 1 (1 ) = np0 + np0 (1 p0 ) u2 ,
et on obtient que le meilleur test asymptotique de seuil de H0 : p = p0 contre H1 :
p = p1 , avec p0 < p1 , est le test deterministe defini par la region critique
n
)
( n
xi np0
X
p
i=1
> u2 .
W =
xi > np0 + np0 (1 p0 ) u2 = p
i=1
np0 (1 p0 )
On retrouve le test vu en PMS pour les hypothèses p p0 contre p > p0 . Sa

puissance est :
n
P
!
n
X
i=1 Xi np1
l np1
,
p
p
= P1
Xi > l = P1
>
np (1 p )
np
(1
p
)
1
1
1
1
i=1
qui tend, quand n tend vers linfini, vers 1
!
p
n(p0 p1 ) + np0 (1 p0 ) u2
p
.
np1 (1 p1 )
On constate que le meilleur test de seuil pour n fini nest pas un test deterministe.
Donc la definition des tests avec des regions critiques ne suffisait pas pour determiner des
tests optimaux.
5.4 Tests dhypoth`

eses composites
5.4
55
Tests dhypoth`
eses composites
Un test dhypothèses est composite quand au moins une des deux hypothèses est
composite. Cest donc un test de H0 : P P0 contre H1 : P P1 o`
u P0 et P1 ne
sont pas toutes les deux reduites à un singleton.
Les tests parametriques dhypothèses composites les plus usuels sont :
test bilateral : test de H0 : = 0 contre H1 : 6= 0 .
tests unilateraux : test de H0 : 0 contre H1 : > 0 et test de H0 : 0
contre H1 : < 0 .
Dans ces deux exemples, H0 et H1 sont complementaires : des 2 hypothèses, lune est
forcement vraie. Cest ce cas qui est important en pratique.
D
efinition 18 La fonction puissance dun test dhypothèses composites est la fonction
: P [0, 1]
P 7 (P ) = probabilite de rejeter H0 quand la vraie loi de X est P
= EP [(X)] =
(x) L(P ; x) d(x).
Le seuil du test est la probabilite maximale de rejeter H0 à tort :

= sup (P ).
P P0
Pour les tests parametriques, la puissance peut etre consideree comme une fonction
du paramètre :
Z
() = (x) L(; x) d(x).
Pour le test bilateral, on a simplement = (0 ).
Un test est meilleur quun test 0 si P P, la probabilite de rejeter a` tort H0 est
plus forte pour 0 que pour et la probabilite de rejeter a` raison H0 est plus forte pour
que pour 0 :
P P0 , (P ) 0 (P )
et
P P1 , (P ) 0 (P ).
D
efinition 19 Un test de H0 : P P0 contre H1 : P P1 est dit uniform
ement
le plus puissant (UPP) si et seulement si tout test de seuil inferieur est moins puissant.
Autrement dit :
0 , 0 = P P1 , 0 (P ) (P ).
Dans le cas particulier des tests dhypothèses simples (P0 = {P0 } et P1 = {P1 }), le
test du rapport de vraisemblances donne par le lemme de Neyman-Pearson est UPP.
Il nexiste pas de theorème analogue au lemme de Neyman-Pearson pour les tests
composites. Pour rechercher des tests UPP, on utilise alors les resultats suivants :
56

eses optimaux
Th
eor`
eme 12 .
1. Un test de H0 : P P0 contre H1 : P P1 est UPP si et seulement si il est
UPP de H0 : P P0 contre H1 : P = P1 , P1 P1 .
2. Soit P00 P0 . Soit un test de seuil de H0 : P P0 contre H1 : P P1 .
Si considere comme un test de P P00 contre P P1 est UPP et de seuil ,
alors est UPP.
Demonstration. 1. est immediat. Pour 2., soit 0 un test de P P0 contre P P1 de
seuil 0 . Il faut montrer que P P1 , 0 (P ) (P ).
Or sup 0 (P ) sup 0 (P ) = 0 .
P P00
P P0
Donc 0 , considere comme un test de P P00 contre P P1 est de seuil inferieur

a` . Si est UPP pour cette situation, on en deduit que P P1 , 0 (P ) (P ), ce
qui prouve que est aussi UPP pour le problème de test initial.

La partie 1 du theorème permet de reduire lhypothèse alternative a` une hypothèse
simple. La partie 2 permet de reduire lhypothèse nulle a` une hypothèse simple en prenant P00 = {P0 }. Pour traiter un problème de test dhypothèses composites, il faut donc
commencer par traiter le problème de test dhypothèses simples sous-jacent.
5.5
Test du rapport des vraisemblances maximales
On se place dans un modèle parametrique (X , A, {P ; }) et on souhaite tester

H0 : 0 contre H1 :
/ 0 , o`
u 0 est une partie de .
D
efinition 20 La statistique du rapport des vraisemblances maximales est :
sup L(; x)
v(x) =
sup L(; x)
Il est clair que v(x) [0, 1]. Sil existe une statistique de maximum de vraisemblance
(x),
le denominateur est sup L(; x) = L((x);
x). Ce denominateur est la vraisemblance
maximale globale alors que le numerateur peut etre considere comme la vraisemblance
maximale sous H0 .
Si (x)
0 , v(x) = 1. Comme (x)
est une bonne estimation de , si H0 est vraie,
v(x) ne doit pas etre trop loin de 1. Inversement, si v(x) est trop loin de 1, on peut douter
du fait que 0 . Do`
u lidee de construire un test qui va rejeter H0 si v(x) est trop
petit.
D
efinition 21 Le test du rapport des vraisemblances maximales est le test deterministe de la forme :
(x) = 11{v(x)<l } .
Autrement dit, sa region critique est de la forme W = {v(x) < l }.
5.5 Test du rapport des vraisemblances maximales
57
Pour un test dhypothèses simples de H0 : = 0 contre H1 : = 1 , on se retrouve

dans ce cadre si on admet quil ny a que deux valeurs possibles pour : = {0 , 1 }.
Alors :
1
si L(0 ; x) L(1 ; x)
L(0 ; x)
L(
;
x)
0
v(x) =
=
sup (L(0 ; x), L(1 ; x)) L(1 ; x) si L(0 ; x) < L(1 ; x)
On ne rejettera H0 que dans le second cas, ce qui signifie que :
= 11
(x) = 11 L( ; x)
= 11{L( ; x) > k L( ; x)}
1
1
0
0
{L(1 ; x) > L(0 ; x)}
< l
l
L(1 ; x)
et on retrouve bien le test du rapport de vraisemblances dans le cas o`
u il est deterministe.
Pour determiner l , il faut connatre la loi de v(X) sous H0 . Donnons le resultat dans
un cas particulier.
Propri
et
e 10 On considère un modèle dechantillon (X , A, {P ; IRd })n et le test
bilateral de H0 : = 0 contre H1 : 6= 0 . On a :
v(x) =
L(0 ; x)
L(0 ; x)
=
.
sup L(; x)
L(n ; x)
Alors, sous H0 , on a :
L
2 ln v(X) 2d .
Donc le test deterministe dont la region critique est
W = {2 ln v(x) > zd, }
est asymptotiquement de seuil pour tester H0 contre H1 .
Demonstration. On considère le cas o`
u d = 1 ( IR) et la loi des observations est continue,
de densite f . On utilise le developpement limite dejà vu pour demontrer les proprietes
asymptotiques de lestimateur de maximum de vraisemblance, mais on le prend cette fois
a` lordre 2 :
1
2
ln L(; x) + (0 n )2 2 ln L(; x) 0 ,
ln L(0 ; x) = ln L(n ; x) + (0 n )
n
n
o`
u n0 est compris entre 0 et n .
ln L(; x) = 0. Donc on a :
n
h
i
2 ln v(X) = 2 ln L(0 ; X) ln L(n ; X)
Par definition de lEMV,
2
= (0 n )2 2 ln L(; X) 0
n
58

eses optimaux
n
2 X
2
= (0 n )
ln f (Xi ; ) 0
n
2 i=1
n
i2 1 X
h
2
ln f (Xi ; ) 0
= n (0 n )
n
n i=1 2
PS
PS
n 0 donc n0 0 . Par la loi des grands nombres :
2

n
1 X 2
P
S
ln f (Xi ; ) 0 E
ln f (X1 ; ) = I1 (0 ).
n
n i=1 2
2
0
Par ailleurs,
n (n 0 ) N

1
,
0,
I1 (0 )
L
I1 (0 ) n (n 0 ) N (0, 1)
h
i2
L
et I1 (0 ) n (n 0 ) 21 ,
donc
ce qui prouve que 2 ln v(X) 21 .

L
Revenons a` d quelconque : 2 ln v(X) 2d . Le test du rapport des vraisemblances

maximales est de la forme :
(x) = 11{v(x) < l } = 11{2 ln v(x) > 2 ln l } .
Le seuil du test est = PH0 (2 ln v(X) > 2 ln l ). Or :

lim PH0 (2 ln v(X) > 2 ln l ) = 1 F2d (2 ln l ).
n+
Donc on peut prendre 2 ln l = F1

ecrit :
2 (1 ) = zd, et le test s
d
(x) = 11{2 ln v(x) > z
d, }
.
Ce resultat est aussi valable pour dautres modèles que les modèles dechantillon (par
exemple pour des cas o`
u les Xi sont independantes mais pas de meme loi), mais malheureusement pas dans tous les cas.
Chapitre 6
Estimation non param
etrique de
quantit
es r
eelles
Comme on la dit dans lintroduction, la statistique non parametrique regroupe lensemble des methodes statistiques qui permettent de tirer de linformation pertinente de
donnees sans faire lhypothèse que la loi de probabilite de ces observations appartient a`
une famille parametree connue.
On se place dans le cadre dun modèle dechantillon : lobservation x est un vecteur
(x1 , . . . , xn ), constitue de realisations de variables aleatoires reelles X1 , . . . , Xn independantes et de meme loi, de fonction de repartition F . On notera f leur densite, si elle existe.
En statistique parametrique, la loi des Xi depend dun paramètre . Les problèmes statistiques que lon traite consistent essentiellement a` estimer (par exemple par la methode
du maximum de vraisemblance) et à effectuer des tests dhypothèses sur ce paramètre.
Lestimation du paramètre permet alors destimer toutes les caracteristiques interessantes
de la loi de probabilite sous-jacente. En particulier, on peut estimer lesperance E(X) et
la variance V ar(X) de cette loi.
Mais il nest pas necessaire davoir un cadre parametrique pour estimer ces quantites.
Le but de ce chapitre est detudier des methodes destimation non parametrique de quantites reelles, comme les moments et les quantiles de lechantillon. Pour cela, il faut dabord
introduire les outils de base de la statistique non parametrique : statistiques dordre et de
rang, loi de probabilite empirique.
Remarque. En toute rigueur, on devrait parler des moments de la loi de probabilite dun
echantillon. Pour simplifier, on parle de moments dun echantillon.
6.1
6.1.1
Les outils de la statistique non param

etrique
Statistiques dordre et de rang
Rappelons que si x1 , . . . , xn sont n reels, on note x1 x2 xn ces n reels ranges

dans lordre croissant.
D
efinition 22 . La statistique dordre associee à lechantillon X1 , . . . , Xn est le vecteur X = (X1 , . . . , Xn ). Xi est appelee la ième statistique dordre.
60
Chapitre 6 - Estimation non param

etrique de quantit
es r
eelles
Remarques :
On note parfois X(i) ou X(i:n) au lieu de Xi .
e n = {(y1 , . . . , yn ) IRn ; y1 y2 yn }
X est à valeurs dans IR
X1 = Min(X1 , . . . , Xn ),
Xn = Max(X1 , . . . , Xn ).
La statistique dordre contient toute linformation de lechantillon de depart, sauf

lordre dans lequel les observations ont ete obtenues. Cet ordre est indique par les rangs
ri des observations.
exemple 1 (sans ex-aequos) : n = 5
xi 2.3 -3.5 1.7 0.5 -1.4
xi -3.5 -1.4 0.5 1.7 2.3
ri
5
1
4
3
2
exemple 2 (avec ex-aequos) : n = 5
xi 0.5 -3.5 1.7 0.5 -1.4
xi -3.5 -1.4 0.5 0.5 1.7
ri
3
1
5
3
2
D
efinition 23 . La statistique de rang associee à lechantillon (X1 , . . . , Xn ) est le
vecteur R = (R1 , . . . , Rn ) o`
u i {1, . . . , n},
Ri = 1 +
n
X
11{Xj <Xi }
j=1
= 1 + nombre dobservations strictement inferieures à Xi

= rang de Xi dans lechantillon ordonne
Le rang Ri de la ième observation Xi est aussi appele la ième statistique de rang.
Remarque : on ne definit pas Ri comme le nombre dobservations inferieures ou egales a`
Xi , pour pouvoir traiter le cas des ex-aequos.
Propri
et
e 11 . Si on connait les statistiques dordre et de rang, on peut reconstruire
lechantillon initial car Xi = XR i .
On constate que sil ny a pas dex-aequos dans lechantillon, les rangs seront les entiers
de 1 a` n dans un ordre quelconque. On est s
urs de ne pas avoir dex-aequos si et seulement
si (i, j) {1, . . . , n}2 , i 6= j P (Xi = Xj ) = 0. En theorie, cest bien ce qui se passe si
la loi des Xi est continue. Mais en pratique, meme si cette loi est continue, il est possible
quil y ait des ex-aequos, du fait de la limitation de la precision des mesures et des erreurs
darrondis. Il faudra donc etre très attentifs a` la presence dex-aequos dans les donnees.
Sur le plan theorique, nous eviterons cette difficulte en nous limitant aux lois continues.
6.1 Les outils de la statistique non param

etrique
61
Th
eor`
eme 13 . Soit X1 , . . . , Xn un echantillon dune loi continue. Alors :
1. La loi de R est la loi uniforme sur lensemble n des permutations des entiers de 1
à n.
2. Les statistiques dordre et de rang sont independantes.
Demonstration.
1. La loi est continue donc il ny a pas dex-aequos. Les Ri prennent toutes les valeurs
entières de 1 a` n, donc R est bien à valeurs dans n . Puisque les Xi sont independantes
et de meme loi, elles sont interchangeables et les permutations sont equiprobables, do`
u
le resultat.
r = (r1 , . . . , rn ) n , P (R = r) = P (R1 = r1 , . . . , Rn = rn ) =
1
1
= .
card n
n!
Par exemple, pour n = 3, on a :

P (X1 < X2 < X3 ) = P (X1 < X3 < X2 ) = P (X2 < X1 < X3 ) = P (X2 < X3 < X1 )
1
= P (X3 < X1 < X2 ) = P (X3 < X2 < X1 ) = .
6
fn et toute permutation r de n , on a :
2. Il faut montrer que pour tout borelien B de IR
P (X B R = r) = P (X B)P (R = r).
Commencons par un exemple simple :

P (X1 , X2 ) [2, 4] [7, 8] R = (2, 1) = P X2 [2, 4] X1 [7, 8] .
Or linterchangeabilite des Xi fait que :

P X2 [2, 4] X1 [7, 8] = P X1 [2, 4] X2 [7, 8]

= P (X1 , X2 ) [2, 4] [7, 8] .
Plus generalement, pour tous B et r, on obtient :

P X B R = r = P (X B).
Dautre part, le theorème des probabilites totales permet decrire :
X
X
P (X B) =
P (X B R = r) =
P (X B) = n! P (X B).
rn
rn
fn ), r n ,
Do`
u B B(IR
P (X B) =
1
P (X B) = P (R = r)P (X B) = P (X B R = r),
n!
ce qui prouve que X et R sont independantes.

La principale consequence de ce theorème est que la loi de R ne depend pas de la loi
des Xi . On en deduit que toute variable al
eatoire qui ne sexprime qu`
a laide des
62

etrique de quantit
es r
eelles
rangs des observations a une loi de probabilit

e ind
ependante de la loi de ces
observations. Cest bien ce quon cherche à obtenir en statistique non parametrique, o`
u
la loi des observations nappartient pas a` une famille parametree connue. On pourra donc
faire de lestimation et des tests non parametriques a` partir des rangs des observations.
Remarques.
Il ny a pas dequivalent de ce theorème pour les lois non continues, ce qui limite
beaucoup linteret de la statistique non parametrique basee sur les rangs dans ce
cas.
Toute fonction symetrique des observations initiales est une fonction des statistiques
n
n
P
P
dordre. Par exemple,
Xi =
Xi .
i=1
i=1
Propri
et
e 12 . Si la loi des Xi est continue, X admet pour densite :
f(X1 ,...,Xn ) (x1 , . . . , xn ) = n!
n
Y
f (xi ) 11 gn (x1 , . . . , xn )
IR
i=1
fn , on a P (X B) = n! P (X
Demonstration. Etant donne que pour tout borelien B de IR
B), on obtient pour tout B :
Z
Z
f(X1 ,...,Xn ) (x1 , . . . , xn )dx1 , . . . , dxn = n! f(X1 ,...,Xn ) (x1 , . . . , xn )dx1 , . . . , dxn
B
Z
=
n!
B
n!
B
fXi (xi )dx1 , . . . , dxn
i=1
Z
=
n
Y
n
Y
f (xi )dx1 , . . . , dxn
i=1
do`
u le resultat.
Propri
et
e 13 . i {1, . . . , n}, la fonction de repartition de la ieme statistique dordre
Xi est :
n
X
x IR, FXi (x) =

Cnk [F (x)]k [1 F (x)]nk
k=i
Demonstration :
FXi (x) = P (Xi x) = P (i au moins des Xj sont inferieurs a` x)
n
X
=
P (k exactement des Xj sont inferieurs a` x)
=
k=i
n
X
k=i
Cnk P (X1 x, . . . , Xk x, Xk+1 > x, . . . , Xn > x)
6.1 Les outils de la statistique non param

etrique
=
=
n
X
k=i
n
X
63
Cnk [P (Xi x)]k [P (Xi > x)]nk

k=i

Corollaire 2 . Si la loi des Xi est continue, alors i {1 . . . n}, Xi admet pour densite :
x IR, fXi (x) =
n!
[F (x)]i1 [1 F (x)]ni f (x).
(i 1)!(n i)!
Demonstration. Une première solution est de deriver directement lexpression de FXi (x)
donnee par la propriete 13.
Une autre facon de faire, qui permet de mieux comprendre le sens des statistiques
dordre, est la suivante :
1
1
(FXi (x + dx) FXi (x)) = lim
P (x < Xi x + dx)
dx0 dx
dx0 dx
fXi (x) = FX0 i (x) = lim
1
P (i 1) des Xj sont x, un des Xj est compris entre x et x + dx,
dx0 dx

(n i) des Xj sont > x + dx
i1 1

ni
1 i1
= lim
Cn P (Xj x)
Cni+1 P (x < Xj x + dx) P (Xj > x + dx)
dx0 dx
1
n!
(n i + 1)[F (x)]i1 [1 F (x)]ni lim
P (x < Xj x + dx)
=
dx0 dx
(i 1)!(n i + 1)!
n!
=
[F (x)]i1 [1 F (x)]ni f (x)
(i 1)!(n i)!
=
lim

Les lois de probabilite du minimum et du maximum dun echantillon peuvent sobtenir
comme cas particuliers des resultats precedents :
X1 = Min (X1 , . . . , Xn ) :
FX1 (x) = 1 [1 F (x)]n

fX1 (x) = nf (x)[1 F (x)]n1
Xn = Max (X1 , . . . , Xn ) : FXn (x) = [F (x)]n

fXn (x) = nf (x)[F (x)]n1
Plus generalement, on peut determiner la loi de probabilite de nimporte quel sousensemble de la statistique dordre. Dans le cas o`
u la loi des Xi est continue, on obtient :
64

etrique de quantit
es r
eelles
Propri
et
e 14 . Pour tous r1 , . . . , rk entiers tels que 1 r1 < r2 < . . . < rk n, on a :
f(Xr1 ,...,Xrk ) (x1 , . . . , xk ) =
n!
k
Y
(r1 1)! (ri ri1 1)!(n rk )!
[F (x1 )]r1 1
k
Y
f (xi )
i=1
i=2
k
Y

[F (xi ) F (xi1 )]ri ri1 1 [1 F (xk )]nrk 11 gk (x1 , . . . , xk )
IR
i=2
6.1.2
Loi de probabilit
e empirique
La loi de probabilite empirique est une loi de probabilite creee directement a` partir de
lechantillon observe x1 , . . . , xn .
D
efinition 24 . La loi de probabilit
e empirique Pn associee à lechantillon x1 , . . . , xn
est la loi uniforme (discrète) sur {x1 , . . . , xn }. Si Xe est une variable aleatoire de loi Pn ,
alors :
Xe est à valeurs dans {x1 , . . . , xn }.
i {1, . . . , n}, P (Xe = xi ) = Pn (xi ) =
1
.
n
1X
On peut aussi ecrire Pn =
x .
n i=1 i
Les caracteristiques essentielles de la loi de probabilite empirique sont en fait des
quantites bien connues :
La fonction de repartition de la loi de probabilite empirique est la fonction de
repartition empirique Fn :
n
1
1X
P (Xe x) =
P (Xe = xi ) = nombre de xi x =
11{xi x} = Fn (x).
n
n i=1
x x
X
i
Lesperance de la loi de probabilite empirique est la moyenne empirique xn :

E(Xe ) =
n
X
i=1
1X
xi = xn .
xi P (Xe = xi ) =
n i=1
La variance de la loi de probabilite empirique est la variance empirique s2n :

n
n

X
1X
2
2
V ar(Xe ) = E (Xe E[Xe ]) =
(xi xn ) P (Xe = xi ) =
(xi xn )2 = s2n .
n
i=1
i=1
6.2 Estimation de lesp

erance dun
echantillon
65
Le moment empirique dordre k est :

n
mek = E[Xek ] =
1X k
x .
n i=1 i
Le moment empirique centre dordre k est :

n

1X
ek = E (Xe E[Xe ])k =
(xi xn )k .
n i=1
Les quantiles de la loi de probabilite empirique sont les quantiles empiriques :

( 1
(x + xnp+1 ) si np est entier,
p ]0, 1[ , qn,p =
2 np
xbnpc+1
sinon.
Remarque. Puisquon considère les observations x1 , . . . , xn comme des realisations de variables aleatoires X1 , . . . , Xn , toutes les quantites definies dans cette section sont ellesmemes des realisations de variables aleatoires :
IFn (x) =
6.2
6.2.1
n
n
n
1X
1X
1X
11{Xi x}
Xn =
Xi
Sn2 =
(Xi X n )2
n i=1
n i=1
n i=1
( 1
) si np est entier
(X + Xnp+1
en,p =
Q
2 np
Xbnpc+1
sinon
Estimation de lesp
erance dun
echantillon
Estimation ponctuelle
On a dejà vu que la moyenne empirique X n est un estimateur sans biais et convergent

(presque s
urement et en moyenne quadratique) de E(X) :
n
n
1 X
1X
1
Xi =
E(Xi ) = nE(X) = E(X)
E(X n ) = E
n i=1
n i=1
n
n
n
1 X

1 X
V ar(X)
V ar(X n ) = V ar
Xi = 2
V ar(Xi ) =
n i=1
n i=1
n
qui tend vers 0 quand n tend vers linfini. La convergence presque s

ure est une consequence
directe de la loi forte des grands nombres.
6.2.2
Intervalle de confiance
Donner un intervalle de confiance

de seuil pour E(X), cest donner un intervalle

aleatoire I tel que P E(X) I = 1 .
66

etrique de quantit
es r
eelles
Etant donne que X n est un bon estimateur

de E(X),

il est logique de chercher un
intervalle de confiance de la forme I = X n a , X n + a . a est determine en ecrivant :

P X n a E(X) X n + a = P |X n E(X)| a = 1 .
Il est donc necessaire de connaitre la loi de probabilite de |X n E(X)| pour determiner
a . Dans un cadre parametrique, cest parfois possible, mais ca ne lest pas si on ne fait pas
dhypothèses particulières sur la loi des Xi . Aussi est-on obliges de recourir a` un resultat
asymptotique. Le theorème central-limite dit que :
X n E(X) L
n
N (0, 1).
(X)

On dit aussi quasymptotiquement, X n est de loi N E(X), V ar(X)/n . Par consequent,
quand n est suffisamment grand, on a :

|X n E(X)|
a
a
n
= P |U | n
P |X n E(X)| a = P n
(X)
(X)
(X)
o`
u U est une variable aleatoire de loi N (0, 1).
Alors, avec les notations habituelles, on a asymptotiquement :
a
(X)
P |X n E(X)| a = 1 = n
= u = a = u .
(X)
n
Et un intervalle de confiance asymptotique pour E(X) est donc :

(X)
(X)
X n u , X n + u
.
n
n
Comme dhabitude, cet intervalle de confiance est inexploitable car il est fonction de
(X), qui est inconnu. Une solution naturelle est alors de remplacer (X) par lecart-type
empirique Sn dans lexpression de lintervalle de confiance.
Il reste alors a` determiner quelles consequences a ce remplacement de lecart-type
theorique par lecart-type empirique. Pour cela, il faut utiliser le theorème de Slutsky, vu
au chapitre 4.
Ce theorème dit que, si {Un }n1 est une suite de variables aleatoires convergeant en loi
et {Vn }n1 une suite de variables aleatoires convergeant en probabilite vers une constante
c, alors pour toute fonction continue g, la suite {g(Un , Vn )}n1 a meme limite en loi que
la suite {g(Un , c)}n1 .
Ici, soit Un = n (X n E(X)). {Un }n1 converge en loi vers la loi N (0, V ar(X)).
n
1 X 2 PS
2
La loi des grands nombres appliquee aux Xi permet decrire que
X E(X 2 ).
n i=1 i
PS
Comme par ailleurs, X n E(X), on obtient que :

n
Sn2
1X 2
2 PS
=
Xi X n E(X 2 ) E(X)2 = V ar(X).
n i=1
6.3 Estimation de la variance dun

echantillon
67
Comme la convergence presque s

ure entraine la convergence en probabilite, on obtient
P
2 P
que Sn V ar(X), do`
u Vn = Sn (X).
u
Alors, puisque la fonction g(u, v) = est continue sur IR IR , le theorème de Slutsky
v
prouve que :
X n E(X) L
N (0, 1)
n
Sn
Il suffit alors dappliquer la meme demarche que precedemment, et on obtient :
Propri
et
e 15 . Un intervalle de confiance asymptotique de seuil pour E(X) est :
Sn
Sn
[X n u , X n + u ].
n
n
Remarque. Rappelons que dans un contexte parametrique, un intervalle de confiance de
seuil pour la moyenne m de la loi normale N (m, 2 ) au vu dun echantillon est :
Sn
Sn
X n tn1,
, X n + tn1,
.
n1
n1
Pour n grand, la loi de Student se rapproche de la loi normale et lintervalle de confiance

propose est equivalent à celui de la propriete 15.
6.3
6.3.1
Estimation de la variance dun

echantillon
On sait dejà que la variance empirique Sn2 est un estimateur biaise de la variance de
n
1 X
02
(Xi X n )2 est un estimateur sans
lechantillon et que la variance estimee S n =
n 1 i=1
biais et convergent en moyenne quadratique de V ar(X).
Dans la section precedente, on a montre que Sn2 converge presque s
urement vers
V ar(X). Cest evidemment aussi le cas de S 0 2n .
Enfin, on montre que, si E[X 4 ] < , alors la variance de la variance estimee est :
2
V ar(S 0 n ) =
1
[(n 1)4 (n 3)22 ]
n(n 1)
avec 4 = E[(X E[X])4 ] et 2 = V ar(X).
6.3.2
On peut montrer que, si E[X 4 ] < , alors le comportement asymptotique de la

variance estimee est determine par :
S 0 2n 2 L
np
N (0, 1).
4 22
En utilisant le theorème de Slutsky, on montre que :
68

etrique de quantit
es r
eelles
Propri
et
e 16 . Un intervalle de confiance asymptotique de seuil pour V ar(X) = 2
est :
q
q
02

u
u
4
02
e
0
Sn
4 S n , S n +
e4 S 0 4n
n
n
n
1X
o`
u e4 =
(Xi X n )4 .
n i=1
6.3.3
Lien entre moyenne et variance empiriques
Dans la mesure o`
u la moyenne et la variance empiriques sont deux quantites calculees a` laide des memes observations, ce ne sont a priori pas des variables aleatoires
independantes.
Propri
et
e 17 . Si E(X 3 ) < , alors Cov(X n , S 0 2n ) =
3
.
n
On en deduit que X n et S 0 2n sont correlees mais asymptotiquement non correlees.

On peut montrer que si la loi des Xi est symetrique, alors 3 = 0. Donc dans ce cas,
X n et S 0 2n sont non correlees pout tout n.
On sait que lindependance entraine la non-correlation mais que la reciproque est
fausse. En fait, on montre que X n et S 0 2n sont independantes si et seulement si les Xi sont
de loi normale.
6.4
Estimation des moments de tous ordres
Comme pour lesperance et la variance, on peut estimer les moments dordre k, mk =

E[X k ], et les moments centres dordre k, k = E[(X E[X])k ], de la loi de lechantillon
n
n
1X
1X k
Xi et ek =
(Xi X n )k .
par les moments empiriques correspondants mek =
n i=1
n i=1
Les proprietes de ces estimateurs sont donnees par la propriete suivante :
Propri
et
e 18 .
PS
mek mk
PS
ek k
mek mk
L
p
n
N (0, 1)
2
m2k mk
ek k
L
np
N (0, 1)
2
2
k k1 2 + 2kk1 k+1 + 2k k
Les resultats de convergence en loi et le theorème de Slutsky permettent dobtenir des
intervalles de confiance asymptotiques pour tous les moments.
On na pas de resultat non asymptotique, par exemple sur le biais de ces estimateurs.
Enfin, ces resultats interviennent dans letablissement des proprietes de la methode
destimation parametrique des moments.
6.5 Estimation des quantiles
6.5
69
Estimation des quantiles
On sinteresse maintenant a` lestimation des quantiles de la loi de lechantillon. Pour

simplifier, on se bornera ici au cas o`
u la loi des observations est continue et F est strictement croissante. Alors le quantile dordre p est qp = F 1 (p). On se propose de lestimer
par le quantile empirique dordre p,
en,p
Q
6.5.1
( 1
(X + Xnp+1
) si np est entier,
=
2 np
sinon.
Xbnpc+1
Propri
et
es des quantiles empiriques
Connaissant la loi dune statistique dordre et la loi conjointe dun couple de statistiques dordre, il est facile de determiner la loi dun quantile empirique, donnee par sa
densite :
Th
eor`
eme 14 . Si np est entier,
2 n!
fQen,p (x) =
(np 1)!(n np 1)!
F (2x y)np1 (1 F (y))nnp1 f (2x y)f (y)dy.
Si np nest pas entier,

fQen,p (x) =
n!
F (x)bnpc (1 F (x))nbnpc1 f (x).
bnpc!(n bnpc 1)!
Demonstration. Le cas o`
u np nest pas entier est immediat car on a directement la densite
de Xbnpc+1 .
Quand np est entier, on utilise la loi conjointe de (Xnp

, Xnp+1
) en ecrivant :

1
FQen,p (x) = P (Xnp

+ Xnp+1
)x =
2
Z Z
z+y
x
2
,X
f(Xnp
(z, y)dzdy
np+1 )
et on obtient le resultat annonce par derivation.
On obtient donc entre autres ainsi la loi de probabilite de la mediane dun echantillon,
mais cette loi depend de f et F , qui sont inconnues.
On a egalement un resultat sur la loi asymptotique dun quantile empirique :
Th
eor`
eme 15 . Th
eor`
eme de Mosteller :
p ]0, 1[,
en,p qp
Q
L
np
f (qp ) N (0, 1)
p(1 p)
70
6.5.2

etrique de quantit
es r
eelles
en,p ) nest pas simple. En fait, on na pas

Le theorème 14 montre que le calcul de E(Q
en,p . En revanche, le
de resultat non asymptotique sur la qualite destimation de qp par Q
theorème de Mosteller permet detablir un resultat asymptotique.
en,p est un estimateur de qp asymptotiquement sans biais et convergent
Propri
et
e 19 . Q
presque s
urement.
en,p est la loi
Demonstration. Le theorème de Mosteller dit que la loi asymptotique de Q
p(1 p)
en,p est asymptotiquement sans biais et
N (qp ,
), ce qui prouve directement que Q
nf 2 (qp )
est convergent en moyenne quadratique. Pour la convergence presque s
ure, il faut utiliser
un resultat sur la fonction de repartition empirique, le theorème de Glivenko-Cantelli, qui
sera enonce dans le chapitre suivant.

En conclusion, il est justifie, au moins si on a beaucoup dobservations, destimer un
quantile theorique par un quantile empirique. Dans certains cas, certains moments et quantiles theoriques sont confondus. Cest le cas par exemple pour les lois symetriques pour
lesquelles lesperance et la mediane sont confondues. Il est alors important de determiner
lequel des deux estimateurs empiriques correspondants est le meilleur.
6.5.3
Contrairement à ce quon avait pour les moments, le theorème de Mosteller ne permet

pas de construire un intervalle de confiance asymptotique pour qp en utilisant le theorème
de Slutsky, car on ne sait pas estimer simplement f (qp ). En fait, on a ici un resultat non
asymptotique.
Th
eor`
eme 16 . (i, j), 1 i < j n, on a :
P (Xi
qp
Xj )
j1
X
Cnk pk (1 p)nk .
k=i
Demonstration. Il suffit decrire :

P (Xi qp Xj ) = P (Xi qp ) P (Xj < qp ) = FXi (qp ) FXj (qp )
n
n
X
X
k
k
nk
=
Cn [F (qp )] [1 F (qp )]
Cnk [F (qp )]k [1 F (qp )]nk

k=i
j1
X
k=j
Cnk [F (qp )]k [1 F (qp )]nk .
k=i
Or F (qp ) = p, donc on obtient P (Xi qp Xj ) =
j1
P
k=i
Cnk pk (1 p)nk .
6.6 Lois asymptotiques des extr

emes
Corollaire 3 . Sil existe i et j tels que
j1
P
71
Cnk pk (1 p)nk = 1 , alors [Xi , Xj ] est
k=i
un intervalle de confiance de seuil pour qp .

Dans la pratique, on cherche le couple (i, j) tel que cette somme soit la plus proche
possible de 1 . [Xi , Xj ] sera alors un intervalle de confiance de seuil proche de (et
connu) pour qp .
Par exemple, si on sinteresse à la mediane, on a p =
j1
P
1
. On cherche donc i et j tels
2
P k
1 j1
C soit proche de 1 .
n
2 k=i n
k=i
7
1 P
k
C10
' 89%. On en deduit que [X3 , X8 ] est un intervalle
Pour n = 10, on a 10
2 k=3
de confiance de seuil approximativement egal à 11% pour la mediane de lechantillon
1
(rappelons que la mediane empirique dans ce cas est (X5 + X6 )).
2
Linteret principal de ce resultat est quil nest pas asymptotique, ce qui est assez rare
en statistique non parametrique. Cependant, ces intervalles sont en general très larges, ce
qui les rend assez peu utiles en pratique si on a peu dobservations.
que
6.6
Cnk pk (1 p)nk =
Lois asymptotiques des extr

emes
Le theorème de Mosteller dit que, pour p fixe, la loi asymptotique de Xbnpc+1

est la loi
p(1 p)
N (qp ,
).
nf 2 (qp )
On peut ainsi obtenir la loi asymptotique des statistiques dordre centrales, par
exemple de la mediane empirique. En revanche, le theorème de Mosteller ne permet pas
dobtenir la loi asymptotique des statistiques dordre extremes, cest a` dire X1 et Xn .
1
.
n
1
Or, pour p fixe, en faisant tendre n vers linfini, on finira forcement par avoir < p.
n
1
De meme, Xbnpc+1
= Xn bnpc = n 1 np n 1 p 1 .
n
1
Et pour p fixe, en faisant tendre n vers linfini, on finira forcement par avoir 1 > p.
n
Par consequent, les lois asymptotiques de X1 et Xn ne peuvent pas etre obtenues a`
laide du resultat sur la loi asymptotique de Xbnpc+1

.
En effet, Xbnpc+1
= X1 bnpc = 0 np < 1 p <
En fait, X1 et Xn convergent en loi vers les bornes inferieure et superieure du support

de la loi de lechantillon.

0 si F (x) = 0
n
En effet, lim FX1 (x) = lim 1 (1 F (x)) =
.
n+
n+
1 si F (x) > 0
Par exemple, si la loi des Xi est la loi uniforme sur [a, b], X1 converge en loi vers a et
Xn converge en loi vers b. Si cest la loi exponentielle, X1 converge en loi vers 0.
72

etrique de quantit
es r
eelles
En fait, au lieu de sinteresser a` la loi asymptotique de X1 , on va sinteresser à celle

X bn
de 1
o`
u {an }n1 et {bn }n1 sont des suites de reels bien choisies.
an
Le theorème de Gnedenko dit que, dans ce cas, il ny a que 3 familles de lois limites
possibles.
Th
eor`
eme 17 . Th
eor`
eme de Gnedenko : Soit X1 , . . . , Xn un echantillon dune loi
continue. Sil existe des suites de reels strictement positifs {an }n1 et de reels {bn }n1
X bn
telles que 1
converge en loi vers une loi limite, alors les seules lois limites possibles,
an
definies par leur fonction de repartition G, sont :
x
G(x) = 1 ee , x IR (première loi de Gumbel).
G(x) = 1 ex , x 0, > 0 (loi de Weibull W(1, )).

1
quand X est de loi W(1, )).
X
X bn
De meme, les seules lois limites possibles pour les suites n
sont :
an
G(x) = 1 e(x) , x 0, > 0 (loi de
G(x) = ee , x IR (deuxième loi de Gumbel).
G(x) = ex , x 0, > 0 (loi de
1
quand X est de loi W(1, )).
X
G(x) = e(x) , x 0, > 0 (loi de X quand X est de loi W(1, )).

Pour une loi donnee, meme sil existe plusieurs suites {an }n1 et {bn }n1 possibles, la
famille de lois limite est toujours la meme.
X1 bn
converge en loi vers la loi de Weibull, on dit que la loi des Xi
an
appartient au domaine dattraction du minimum de la loi de Weibull.
Par exemple, si
La constante 0 (loi de Dirac en 0) est une loi limite particulière qui correspond a`
infini.
Ce qui est remarquable dans ce resultat, cest que, pour une fois, les lois asymptotiques
ne sont pas des lois normales. Il existe donc une difference de comportement notable entre
les statistiques dordre centrales et les statistiques dordre extremes.
Dun point de vue pratique, dès quun phenomène peut sinterpreter comme un maximum ou un minimum (par exemple une duree de vie ou bien un pic dozone), les lois
de probabilite du theorème de Gnedenko peuvent etre utilisees comme modèles. Cest
essentiellement pour cela que les lois de Weibull et de Gumbel sont utilisees.
Chapitre 7
Estimation fonctionnelle
Les hypothèses de ce chapitre sont les memes que celles du chapitre precedent : on
suppose que les observations x1 , . . . , xn sont des realisations de variables aleatoires reelles
X1 , . . . , Xn independantes et de meme loi, de fonction de repartition F , et de densite f ,
si elle existe.
Dans le chapitre precedent, on sest interesse à lestimation de quantites reelles caracteristiques de la loi de probabilite de lechantillon, les moments et les quantiles. Aussi
riches denseignement que soient ces quantites, elles ne suffisent pas à determiner entièrement la loi de probabilite de lechantillon.
Cest pourquoi nous allons maintenant nous interesser a` lestimation de la fonction
de repartition et, si elle existe, de la densite de lechantillon. Par rapport au chapitre
precedent, il sagit maintenant destimer des fonctions, do`
u le nom destimation fonctionnelle. De plus lune comme lautre de ces fonctions caracterisent entièrement la loi
de probabilite de lechantillon.
La fonction de repartition empirique est un estimateur simple et performant de la
fonction de repartition de lechantillon. Il est beaucoup plus difficile destimer une densite.
On connait dejà lestimateur de base de la densite dun echantillon, lhistogramme. Bien
que très connu et très utilise, il est de mediocre qualite. Aussi allons-nous proposer une
methode destimation de densite bien plus performante, la methode du noyau.
Remarquons que lestimation des quantiles peut etre consideree comme de lestimation
fonctionnelle dans la mesure o`
u estimer qp = F 1 (p) quel que soit p revient a` estimer la
fonction F 1 .
Estimer une fonction g, cest dabord estimer g(x) pour tout x donne. Il faut ensuite
juger de la qualite de lestimation de g(x) pour chaque x, puis de lestimation de g dans
son ensemble.
Si g(x) est un estimateur de g(x), la qualite de lestimation pour un x donne est
usuellement mesuree par le biais, la variance et lErreur Quadratique Moyenne (ou risque
quadratique), quon notera EQMx (
g) :

2

EQMx (
g ) = E (
g (x) g(x))2 = E(
g (x)) g(x) + V ar(
g (x)).
On voit que lerreur quadratique moyenne se decompose en un terme de biais et un
terme de variance. Si g(x) est un estimateur sans biais de g(x), lerreur quadratique
moyenne se reduit à la variance. On verra que, si on peut trouver facilement un estimateur
sans biais pour la fonction de repartition en un point x, il nen est pas de meme pour la
74
Chapitre 7 - Estimation fonctionnelle
densite. Aussi utilisera-t-on lerreur quadratique moyenne plutot que la variance dans ce
cas.
Pour juger de la qualite de lestimation de g dans son ensemble, il faut utiliser des
mesures de lecart entre g et g. Suivant les cas, on utilisera :
lErreur Quadratique Moyenne Int
egr
ee (EQMI) :
Z +
Z +
Z

2
EQM I(
g) =
EQMx (
g ) dx =
E(
g (x)) g(x) dx +
V ar(
g (x)) dx.
lecart maximum entre les deux fonctions :

sup{|
g (x) g(x)|; x IR}.
7.1
7.1.1
Estimation de la fonction de r
epartition
Rappelons que la fonction de repartition empirique IFn de lechantillon est definie par :
n
1X
11{Xi x} = pourcentage dobservations inferieures a` x
IFn (x) =
n i=1
0.0
0.2
0.4
Fn(x)
0.6
0.8
1.0
ecdf(x)
50
100
150
200
250
Figure 7.1 Fonction de repartition empirique

Il savere que IFn est un excellent estimateur de F , ce que lon peut montrer en plusieurs
etapes.
Propri
et
e 20 . x IR , nIFn (x) est de loi binomiale B(n, F (x)).
Demonstration. nIFn (x) =
n
X
11{Xi x} est une somme de n variables aleatoires independan-
i=1
tes et de meme loi de Bernouilli de paramètre P (Xi x) = F (x), donc cest une variable
aleatoire de loi B(n, F (x)).
7.1 Estimation de la fonction de r

epartition
75
On peut dire aussi que nIFn (x) est le nombre de Xi inferieurs a` x, qui peut sinterpreter
comme le nombre de fois o`
u, en n experiences identiques et independantes, un evènement
de probabilite P (Xi x) = F (x) sest produit. Donc cest une variable aleatoire de loi
B(n, F (x)).

On en deduit facilement les qualites de lestimation de F (x) par IFn (x).
Propri
et
e 21 . x IR , IFn (x) est un estimateur sans biais et convergent en moyenne
quadratique de F (x).
1
1
E(nIFn (x)) = nF (x) = F (x).
n
n
1
1
V ar(IFn (x)) =
V
ar(nI
F
(x))
=
nF (x)(1 F (x))
n
n2
n2
F (x)(1 F (x))
,
=
n
qui tend vers 0 quand n tend vers linfini.
Demonstration. E(IFn (x)) =
En fait, la convergence est presque s

ure :
Propri
et
e 22 : x IR,
PS
IFn (x) F (x).
Demonstration. Il suffit dappliquer la loi des grands nombres aux variables aleatoires de
loi de Bernoulli 11{Xi x} :
n

1 X
PS
IFn (x) =
11{Xi x} E 11{Xi x} = F (x).
n i=1

Vue sous cet angle, la loi des grands nombres dit que la probabilite dun evènement
est la limite de la frequence doccurrence de cet evènement dans une suite dexperiences
identiques et independantes. On en deduit que lon peut estimer la probabilite que X
soit inferieure a` x, F (x), par le pourcentage dobservations inferieures a` x, IFn (x). Cette
estimation est dexcellente qualite.
Pour juger de la qualite globale de lestimation de F par IFn , on utilise le theorème de
Glivenko-Cantelli, qui dit que IFn est un estimateur convergent uniformement et presque
s
urement de F :
Th
eor`
eme 18 . Th
eor`
eme de Glivenko-Cantelli.
PS
Dn = sup{|IFn (x) F (x)|; x IR} 0.

Par ailleurs, lerreur quadratique moyenne integree est :
Z
Z +
1 +
F (x)(1 F (x)) dx.
EQM I(IFn ) =
V ar(IFn (x)) dx =
n
On ne peut pas calculer explicitement cette erreur, mais on sait quelle tend vers 0
quand n tend vers linfini a` la vitesse 1/n.
76
7.1.2
Soit x fixe. Un intervalle de confiance de seuil pour F (x) est un intervalle aleatoire
I tel que P (F (x) I) = 1 .
Si on reprend la demarche vue en 6.2.2. pour lesperance de lechantillon, on va chercher
un intervalle de confiance de la forme I = [IFn (x) a , IFn (x) + a ], o`
u a est determine
en ecrivant :
P (F (x) I) = P (IFn (x) a F (x) IFn (x) + a )
= P (F (x) a IFn (x) F (x) + a )
= P (n(F (x) a ) nIFn (x) n(F (x) + a ))
bn(F (x)+a )c
k=bn(F (x)a )c+1
= 1
On ne peut pas deduire la valeur de a de cette expression car elle implique F (x), qui
est inconnue. En revanche, on peut obtenir un resultat asymptotique par un raisonnement
similaire à celui que lon a utilise pour lesperance.
En effet, lapplication du theorème central-limite sur les 11{Xi x} , variables aleatoires
independantes de loi de Bernoulli, desperance F (x) et de variance F (x)(1 F (x)) permet
decrire :
n
X
11{Xi x} nE(11{Xi x} )
i=1
p
nV ar(11{Xi x} )
nIFn (x) nF (x)

IFn (x) F (x)
L
= np
N (0, 1).
=p
nF (x)(1 F (x))
F (x)(1 F (x))
Grace au theorème de Slutsky et à la convergence presque s

ure de IFn (x) vers F (x),
on a egalement :
IFn (x) F (x)

L
np
N (0, 1).
IFn (x)(1 IFn (x))
Alors on obtient que, pour n suffisamment grand :
P (F (x) I) = P (a IFn (x) F (x) a ) = P (|IFn (x) F (x)| a )
|IFn (x) F (x)|

a
= P( n p
np
)
IFn (x)(1 IFn (x))
IFn (x)(1 IFn (x))
a
= P (|U | n p
)
IFn (x)(1 IFn (x))
= 1
o`
u U est de loi N (0, 1).
a
u p
Do`
u np
= u et a =
IFn (x)(1 IFn (x)).
n
IFn (x)(1 IFn (x))
Et on obtient finalement :
7.2 Estimation de la densit

e
77
Propri
et
e 23 . x IR, un intervalle de confiance asymptotique de seuil pour F (x)
est :

u p
u p
IFn (x)
IFn (x)(1 IFn (x)) , IFn (x) +
IFn (x)(1 IFn (x)) .
n
n
En fait, on a des resultats sur les intervalles de confiance pour le paramètre de la loi
binomiale qui nous donnent directement le resultat suivant :
Th
eor`
eme 19 . x IR, un intervalle de confiance exact de seuil pour F (x) est :
1
1
,
nnIFn (x)+1
nnIFn (x)
1 + nIF (x) f2(nnIFn (x)+1),2nIFn (x),/2 1 + nIF (x)+1 f2(nnIFn (x)),2(nIFn (x)+1),1/2
n
n
o`
u f1 ,2 , est le quantile dordre 1 de la loi de Fisher-Snedecor à (1 , 2 ) degres de
liberte.
7.2
Estimation de la densit
e
Dans cette section, on suppose que la loi de lechantillon est continue et on cherche à
estimer sa densite f . f est la derivee de F , mais la fonction de repartition empirique IFn
nest pas derivable, puisque cest une fonction en escalier. On ne peut donc pas utiliser
directement les resultats sur la fonction de repartition empirique pour estimer la densite.
On peut se demander quelle est lutilite destimer la densite alors que lon a dejà un très
bon estimateur de la fonction de repartition. La principale raison est que la forme dune
densite est beaucoup plus facile a` interpreter que celle dune fonction de repartition. Par
exemple, on pourra facilement avoir, grace a` une estimation de densite, des informations
sur la symetrie ou la multimodalite de la loi de lechantillon, alors que ce nest pas du
tout facile au seul vu de la fonction de repartition empirique. De meme, une estimation de
densite est une aide importante au choix dun modèle approprie pour la loi de lechantillon.
Par exemple, une densite estimee en forme de cloche symetrique peut conduire à ladoption
dun modèle de loi normale.
Nous allons commencer par donner des rappels sur la methode destimation de densite la plus elementaire, celle de lhistogramme. Puis nous presenterons la methode plus
sophistiquee du noyau.
7.2.1
Rappels sur les histogrammes
On se fixe une borne inferieure de lechantillon a0 < x1 et une borne superieure ak > xn .
On partitionne lintervalle ]a0 , ak ], contenant toutes les observations, en k classes ]aj1 , aj ].
La largeur de la classe j est hj = aj aj1 .
Leffectif de la classe j est le nombre dobservations appartenant à cette classe : nj =
n
P
nj
11]aj1 ,aj ] (xi ). La frequence de la classe j est .
n
i=1
Lhistogramme est constitue de rectangles dont les bases sont les classes et dont les
aires sont egales aux frequences de ces classes. Donc lhistogramme est la fonction en
78
escalier constante sur les classes et qui vaut
nj
sur la classe ]aj1 , aj ]. Cette fonction
nhj
peut secrire :
f(x) =
k
n
k
X
X
1X 1
nj
11]a ,a ] (x) =
11]a ,a ] (x)
11]aj1 ,aj ] (xi ).
nhj j1 j
n j=1 hj j1 j
i=1
j=1
ak a0
Dans lhistogramme a` pas fixe, les classes sont de meme largeur h =
. Dans ce
k
cas, la hauteur dun rectangle est proportionnelle a` leffectif de sa classe.
On a vu en PMS quil etait plus pertinent de choisir un histogramme a` classes de
meme effectif. Admettons pour simplifier que n soit divisible par k. Alors chaque classe doit
contenir n/k observations. Les limites des classes seront alors les j/k quantiles empiriques :
1
aj = qn,j/k = (xnj + xnj +1 ), j = 1, . . . , k 1;
k
2 k
Les bornes des classes sont donc cette fois aleatoires, puisquelles sont fonction des
observations.
Enfin, le polygone des frequences est la ligne brisee reliant les milieux des sommets
des rectangles, et prolongee de part et dautre de lhistogramme de facon a` ce que laire
totale delimitee par le polygone soit egale à 1, comme pour une densite.
0.08
Prenons lexemple vu en PMS du bruit a` Montreal. Les histogrammes à classe de

meme largeur et de meme effectif, avec leurs polygones des frequences, sont donnes par
la figure 7.2.
0.04
0.02
0.04
0.00
0.0
0.02
Density
0.06
0.06
0.08
Histogram of bruit
55
60
65
70
75
50
55
60
65
70
75
bruit
Figure 7.2 Histogramme à classes de meme largeur et a` classes de meme effectif pour
les niveaux de bruit a` Montreal
La forme de ces histogrammes est assez proche dune cloche symetrique, ce qui nous
amène a` envisager lhypothèse que les donnees proviennent dune loi normale.
7.2.2
La m
ethode du noyau
Les histogrammes et les polygones des frequences ne sont pas des estimations très
satisfaisantes de la densite de lechantillon car ce sont des fonctions en escalier et des

e
79
lignes brisees alors que la densite a` estimer est en general plus lisse, avec au moins sa
derivee continue.
Dautre part, lalea du au choix du nombre de classes et des bornes des classes est un
element très perturbant de lanalyse, puisque des choix differents peuvent aboutir a` des
histogrammes dallures assez nettement differentes.
Lestimation par noyau a pour but de repondre à ces deux ecueils et de proposer des
estimations de densite ayant de bonnes proprietes.
Pour cela, on commence par remarquer que la densite est la derivee de la fonction de
repartition, ce qui permet decrire pour tout x :
F (x + h) F (x h)
F (x + h) F (x)
= lim
.
h0
h0
h
2h
f (x) = F 0 (x) = lim
Donc pour un h > 0 fixe petit, on peut penser a` estimer f (x) par :
n

1
1 X
f(x) =
11]xh,x+h] (Xi ).
IFn (x + h) IFn (x h) =
2h
2nh i=1
On a alors :
E[f(x)] =

1
1
E[IFn (x + h)] E[IFn (x h)] =
F (x + h) F (x h)
2h
2h
qui tend vers f (x) quand h tend vers 0. Il faut donc faire dependre h de la taille de
lechantillon, et le faire tendre vers 0 quand n tend vers linfini, de sorte que f(x) soit un
estimateur asymptotiquement sans biais de f (x). h sera donc dorenavant note hn .
Cette demarche est proche de celle de lhistogramme au sens o`
u cela revient a` mettre x
au centre dune classe de largeur 2h et a` calculer lestimateur histogramme correspondant.
La fonction f obtenue a des sauts aux points Xi h et est constante autrement.
La grande difference par rapport à lhistogramme est quil ny a pas de classe fixee a`
lavance : on cree une classe en chaque point o`
u on veut estimer la densite.
Lestimateur f reste une fonction en escalier. Pour obtenir quelque chose de plus lisse,
on peut remarquer que :
f(x) =
n
n
1 X1
1 X
11]xhn ,x+hn ] (Xi ) =
11{xhn <Xi x+hn }
2nhn i=1
nhn i=1 2
n
n
1 X1
x Xi
1 X
x Xi
=
11[1,+1[
=
K
nhn i=1 2
hn
nhn i=1
hn
1
o`
u K(u) = 11[1,+1[ (u).
2
La m
ethode du noyau consiste a` generaliser cette approche a` dautres fonctions K.
D
efinition 25 . Un estimateur `
a noyau de la densite f est une fonction f definie par :
n
1 X
x Xi
f (x) =
K
nhn i=1
hn
80
o`
u {hn }n1 est une suite de reels positifs appeles param`
etres de lissage ou largeurs de
la fen
etre, qui tend vers 0 quand n tend vers linfini, et K est une densite de probabilite
appelee noyau.
Les noyaux les plus communs sont :
1
le noyau rectangulaire : K(u) = 11[1,+1[ (u). Cest celui qui donne lestimateur
2
de type histogramme.
le noyau triangulaire : K(u) = (1 |u|)11[1,+1[ (u).
1
2
le noyau gaussien : K(u) = eu /2 .
2
u2
3
le noyau dEpanechnikov : K(u) = 1
11
(u).
5 [ 5,+ 5[
4 5
Dans lestimation de f (x) par le noyau rectangulaire, le meme poids est accorde a`
toutes les observations comprises entre x h et x + h. Dans les 3 derniers noyaux, le poids
dune observation est dautant plus fort quelle est proche de x.
f a les memes proprietes de continuite et de differentiabilite que K. Par exemple, si
K est le noyau gaussien, f admet des derivees de tous ordres.
Propri
et
e 24 . Un estimateur à noyau est une densite.
Demonstration.
Z +
f(x)dx =
n Z
1 X +
x Xi
K
dx
nhn i=1
hn
n Z
1 X +
x Xi
)
=
K(u)hn du (changement de variable u =
nhn i=1
hn
n Z
1
1 X +
K(u)du = n = 1.
=
n i=1
n

Pour choisir quel noyau prendre et surtout choisir le paramètre de lissage hn , il faut
etudier la qualite de lestimation de f par f.
Comme les expressions du biais et de la variance de lestimateur a` noyau ne sont pas
simples a` traiter, on en donne des equivalents pour pouvoir etudier leur comportement
asymptotique :
Propri
et
e 25 . Si K est la densite dune loi de probabilite symetrique par rapport `
a
lorigine et de variance 2 , si f admet des derivees continues de tous ordres, alors, quand
n tend vers linfini, on a :

e
81
h2n 2 00
f (x).
2
Z +
f
(x)
V ar[f(x)]
K(u)2 du.
nhn
Z +
4 2 Z +
h
1
n
2
00
2
EQM I(f)
f (x) dx +
K(u)2 du.
4
nh
n
E[f(x)] f (x)
On voit que, dans lerreur quadratique moyenne integree, le terme de biais est une
fonction croissante de hn , alors que le terme de variance est une fonction decroissante de
hn . Si hn est grand, la variance sera faible, mais le biais sera fort. Si hn est petit, cest
linverse. La valeur de hn optimale, qui minimise lEQMI, realise donc un compromis entre
biais et variance.
Cette valeur optimale est une fonction de f , qui est inconnue. On ne peut donc en
donner quune valeur approchee. En pratique, on choisit souvent :
hn =

1
4 1/5 1/5
n
min s0n ,
(
qn,3/4 qn,1/4 ) .
3
1.34
En fait, la valeur optimale de hn depend aussi de K. On montre que lerreur quadratique moyenne integree minimale est obtenue en choisissant le noyau dEpanechnikov.
Mais lecart de performance entre les differents noyaux usuels est assez faible, aussi on a
plutot tendance en pratique a` choisir le noyau le plus facile a` utiliser, qui est le noyau
gaussien.
Le biais etant un O(h2n ), on voit que le biais optimal est un O(n2/5 ). Par consequent,
f(x) est un estimateur asymptotiquement sans biais de f (x), mais la convergence est lente
car n2/5 tend lentement vers 0.
De la meme facon, la variance optimale est un O(n4/5 ). Donc f(x) est un estimateur
convergent de f (x), mais la convergence est plus lente que celle de IFn (x) vers F (x) car
n4/5 tend plus lentement que n1 vers 0.
Ces deux resultats font que, pour pouvoir estimer efficacement une densite, il faut
avoir beaucoup de donnees.
Dans lexemple des niveaux de bruit, lestimation de densite par la methode du noyau
gaussien avec le paramètre de lissage ci-dessus est donnee par la commande :
> lines(density(bruit,n=200))
On obtient la figure 7.3, la densite estimee semble bien proche de celle dune loi
normale.
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
82
50
55
60
65
70
75
80
Figure 7.3 Estimation de densite par la methode du noyau
Chapitre 8
Tests dad
equation bas
es sur la
fonction de r
epartition empirique
Grace aux methodes de statistique non parametrique, il est tout à fait possible dextraire des informations pertinentes dun echantillon sans connaitre la loi de probabilite
dont il est issu. Cependant, si cest possible, il est quand meme preferable dadopter un
modèle probabiliste. En effet, les estimations seront toujours plus precises dans un cadre
parametrique que dans un cadre non parametrique. Par ailleurs, un grand nombre de
procedures statistiques standard ne sont utilisables que si on fait des hypothèses particulières sur la loi de probabilite des observations (par exemple, les tests dans les modèles
lineaires gaussiens).
Par consequent, il est fondamental de disposer de methodes permettant de determiner
sil est vraisemblable de considerer que des observations proviennent dun modèle probabiliste donne. Ces methodes sont appelees les tests dad
equation. On a vu en PMS deux
types de methodes : les graphes de probabilite, qui sont des tests dadequation graphiques,
et les tests du 2 . Nous allons dans ce chapitre etudier des tests plus puissants, qui sont
bases sur la fonction de repartition empirique.
8.1
Probl
ematique des tests dad
equation
Tester lad
equation dun echantillon (x1 , . . . , xn ) à une loi de probabilite donnee,
cest determiner sil est vraisemblable que x1 , . . . , xn soient les realisations de variables
aleatoires X1 , . . . , Xn independantes et de cette loi.
On note F la fonction de repartition inconnue de lechantillon, que lon supposera pour
simplifier continue. Dans le cas de lois discrètes, les procedures presentees ici necessiteront
des amenagements, pas toujours simples.
On distinguera deux cas, suivant que lon veut tester ladequation de lechantillon a`
une loi de probabilite entièrement specifiee ou à une famille de lois de probabilite.
Cas 1 : Test dadequation a` une loi entièrement specifiee.
Test de H0 : F = F0 contre H1 : F 6= F0 .
Par exemple, on se demande si les observations sont issues dune loi normale de
moyenne 10 et de variance 4.
Chapitre 8 - Tests dad

equation bas
epartition
empirique
84
Cas 2 : Test dadequation a` une famille de lois de probabilite.

Test de H0 : F F contre H1 : F
/ F.
Le plus souvent, la famille F est une famille parametree : F = {F (.; ); }.
Cest le cas quand on se demande simplement si les observations sont issues dune loi
normale, sans donner de valeur a priori aux paramètres. Si le modèle de loi normale
est adopte, on pourra toujours estimer les paramètres ulterieurement.
En theorie, on devrait toujours appliquer un test dadequation avant dutiliser nimporte quel modèle probabiliste sur des donnees. En pratique, on ne le fait pas toujours,
ce qui entraine parfois lutilisation de modèles complètement errones.
8.2
Rappels sur les graphes de probabilit

e
0.0
0.2
0.4
0.6
0.8
1.0
On a vu que la fonction de repartition empirique IFn etait un excellent estimateur de

la fonction de repartition inconnue F . Si on teste lhypothèse F = F0 , il est naturel
de tracer les graphes de IFn et de F0 , et de juger visuellement si les deux courbes sont
proches (voir figure 8.1). Cependant, il est difficile de juger si les deux courbes sont
significativement proches, surtout si on dispose de peu de donnees. De plus, toutes les
fonctions de repartition ont des formes voisines.
55
60
65
70
75
Figure 8.1 Fonctions de repartition empirique et testee

De la meme facon, on peut comparer visuellement une estimation de la densite (par
histogramme ou par noyau) et la densite testee f0 . Cela peut permettre decarter certaines hypothèses manifestement fausses. Par exemple, si lestimation de densite nest
pas du tout en forme de cloche symetrique, il est peu probable que les observations proviennent dune loi normale. Dans ce cas, il nest pas forcement necessaire deffectuer un
test dadequation pour confirmer cette hypothèse. Inversement, meme si la forme de lestimation de densite nest pas très eloignee dune cloche, rien ne prouve que la loi des
8.3 Cas dune loi enti`

erement sp
ecifi
ee
85
observations est normale. De toutes facons, il est toujours difficile devaluer visuellement
la proximite de deux courbes.
Lidee des graphes de probabilite est de chercher, a` partir de la fonction de repartition
F , une relation lineaire caracteristique de la loi à tester. On trace alors un nuage de points
qui, si la vraie fonction de repartition est F , devraient etre approximativement alignes.
Le problème essentiel de cette procedure graphique est de determiner a` partir de quand
on peut considerer que des points sont suffisamment alignes. Une idee naturelle est de
determiner la droite des moindres carres pour le nuage de points, et de considerer que
ladequation est bonne si le coefficient de correlation lineaire empirique correspondant
depasse une certaine valeur. Malheureusement, la loi de probabilite de ce coefficient de
correlation sous H0 est trop complexe pour que lon puisse construire un test dadequation
statistique simple par ce moyen.
Les graphes de probabilite sont une première etape indispensable dans une etude statistique, car ils sont faciles à mettre en oeuvre et permettent de rejeter facilement de trop
mauvais modèles. Il est cependant necessaire de les completer par des tests statistiques si
lon veut obtenir des resultats plus precis.
8.3
Cas dune loi enti`

erement sp
ecifi
ee
Quand on doit tester si F = F0 , il est logique de ne pas rejeter cette hypothèse si

IFn et F0 sont significativement proches, dautant plus que lon sait, daprès le theorème
de Glivenko-Cantelli, que Dn = sup |IFn (x) F0 (x)| converge presque s
urement vers 0
xIR
sous H0 .
Il sagit donc de definir une distance, ou plutot un ecart, entre IFn et F0 , et de rejeter
H0 : F = F0 si cet ecart est trop grand. Les mesures decart les plus usuelles sont :
La statistique de Kolmogorov-Smirnov (KS) - Commande R : ks.test :
Kn = nDn = n sup |IFn (x) F0 (x)| .

xIR
La statistique de Cramer-von Mises (CM) - Commande R : cvm.test :
Z +
2
[IFn (x) F0 (x)]2 dF0 (x).
Wn = n
La statistique dAnderson-Darling (AD) - Commande R : ad.test :

A2n
Z
=n
[IFn (x) F0 (x)]2

dF0 (x).
F0 (x) (1 F0 (x))
Un test de seuil de H0 : F = F0 contre H1 : F 6= F0 aura donc une region

critique de la forme W = {Kn > k }, avec = PH0 (Kn > k ). Il faut donc connaitre
la loi des variables aleatoires Kn , Wn2 et A2n sous H0 . Ces lois ne sont pas facilement
accessibles pour n fini. En revanche, on a un resultat asymptotique.
86

equation bas
epartition
empirique
Th
eor`
eme 20 . Sous H0 , Kn converge en loi vers la loi de Kolmogorov-Smirnov, de
+
X
2 2
+
fonction de repartition : z IR , FKS (z) = 1 2 (1)k+1 e2k z .
k=1
Ce qui est remarquable dans ce theorème, cest que la loi limite de Kn est la meme,
quelle que soit la loi de lechantillon. Cest en cela que la procedure est non parametrique
et cest pour cela que lon peut construire un test.
Ainsi, dans la region critique definie plus haut, k est le quantile dordre 1 de la
loi de Kolmogorov-Smirnov.
Linconvenient de ce resultat est quil nest quasymptotique. En pratique, on ne peut
utiliser ce test tel quel que pour n > 80. Pour n 80, on peut utiliser les lois exactes de
Kn , qui ont ete tabulees pour tout n, mais cest fastidieux. On prefère utiliser le resultat
suivant.

Propri
et
e 26 . Pour tout n 5, la variable aleatoire Dn
0.11
n + 0.12 +
n

est ap-
proximativement de loi de Kolmogorov-Smirnov sous H0 .

Par consequent, on appelle test de Kolmogorov-Smirnov, le test, valable quelle
que soit la taille de lechantillon, ayant pour region critique :

0.11
1
n + 0.12 +
W = Dn
> FKS (1 )
n
On montre que, sous H0 , Wn2 et A2n convergent aussi en loi vers des lois qui ne dependent
pas de F . Mais cette fois, les fonctions de repartition des lois limites nont pas dexpressions
simples, et on est obliges de se referer à des tables. Comme pour Kn , on dispose de resultats
permettant dappliquer les tests quelle que soit la loi de lechantillon :
Propri
et
e 27 . Pour tout n 5, on a, sous H0 :

0.4 0.6
1
2
+ 2
1+
est approximativement de loi de Cramer-von Mises.
Wn
n
n
n
A2n est approximativement de loi dAnderson-Darling.
La table 8.1 donne quelques quantiles usuels des lois limites de Kolmogorov-Smirnov,
Cramer-von Mises et Anderson-Darling.
Enfin, pour calculer facilement les statistiques de test, il est pratique dutiliser le
resultat suivant.
Propri
et
e 28 . Pour i {1, . . . , n}, on pose Ui = F0 (Xi ). On a :

i
i1
Kn = n max max{ Ui , i = 1..n}, max{Ui

, i = 1..n} .
n
n
8.4 Cas dune famille de lois
87
15% 10%
5%
2.5%
1%
KS 1.138 1.224 1.358 1.480 1.628
CM 0.284 0.347 0.461 0.581 0.743
AD 1.610 1.933 2.492 3.070 3.857
Table 8.1 Valeurs usuelles des quantiles des lois de KS, CM et AD dans le cas 1
Wn2
2
n
X
1
2i 1
.
=
+
Ui
2n
12n
i=1
A2n
1X
= n +
[(2i 1 2n) ln(1 Ui ) (2i 1) ln Ui ].
n i=1
Il est impossible de calculer la puissance de tels tests puisque lhypothèse alternative

H1 : F 6= F0 est beaucoup trop vaste. Des etudes intensives prenant en compte un grand
nombre dalternatives possibles ont montre que, de manière generale, le test dAndersonDarling etait le plus puissant des trois et le test de Kolmogorov-Smirnov le moins puissant.
8.4
Cas dune famille de lois
On teste H0 : F F = {F (.; ); } contre H1 : F

/ F.
Puisque est un paramètre inconnu, une demarche naturelle est den determiner un
1 , . . . , Xn ) et de calculer les statistiques Kn , W 2 et A2 en remplacant F0 (x)
estimateur (X
n
n
1 , . . . , Xn )). On notera K
n, W
n2 et A2n les statistiques correspondantes.
par F (x; (X
n, W
2 et A2 en fonction des Ui restent valables a` condition de
Les expressions de K
n
n

remplacer Ui = F0 (Xi ) par Ui = F Xi ; (X1 , . . . , Xn ) .

n, W
2
Malheureusement, le fait destimer entraine que les lois limites sous H0 de K
n
2
2
2
et An ne sont pas les memes que celles de Kn , Wn et An . Cela tient au fait que, sous H0 ,
les Ui etaient independantes et de meme loi uniforme sur [0, 1], alors que les Ui ne sont
plus ni independantes, ni de loi uniforme.
Dans le cas general, les lois limites des statistiques de test dependent de la loi testee
F , de la procedure destimation utilisee (maximum de vraisemblance, moments, moindres
carres, ...), et de la vraie valeur de . Contrairement au cas dune loi entièrement specifiee,
on ne peut donc pas obtenir de test dadequation applicable dans tous les cas de figure.
Pour faire un test dadequation, il faut au minimum que la loi limite des statistiques
de test soit independante de , puisque cette valeur est inconnue.
Propri
et
e 29 . Si est un paramètre de position, dechelle ou de position-echelle, alors
n, W
n2 et A2n ne dependent pas de .
les lois de probabilite sous H0 de K
Rappelons que :

equation bas
epartition
empirique
88
m est un param`
etre de position (ou de localisation) si et seulement si la loi de
X m est independante de m ou bien si et seulement si la densite de X est de la
forme f (x; m) = g(x m).
X
est independante de
1 x
ou bien si et seulement si la densite de X est de la forme f (x; ) = g
.
est un param`
etre d
echelle si et seulement si la loi de
= (m, ) est un param`

etre de position-
echelle si et seulement si la loi de
X m
est independante de m et de ou bien si et seulement si la densite de X

1
xm
est de la forme f (x; m, ) = g
.
Exemples :
1
loi normale : f (x; m, ) = e
2
echelle.
loi exponentielle : f (x; ) = ex .
loi gamma : f (x; , ) =
(x m)2
2 2 . (m, ) est un paramètre de position1
est un paramètre dechelle.
x 1
e x . (, ) nest pas un paramètre de position()
echelle.
Par consequent, les methodes KS, CM et AD permettent de tester ladequation dun
echantillon à la loi normale et à la loi exponentielle, mais pas a` la loi gamma.
Pour les lois dont le paramètre est de position-echelle, la loi limite des statistiques
de test ne depend pas de , mais elle depend du type de loi testee et de la procedure
destimation. Aucune des lois limites na dexpression explicite, donc il faut recourir a` des
tables. Dautre part, il existe encore des modifications des statistiques de test a` effectuer
pour pouvoir utiliser les tests meme pour de petits echantillons.
Exemple 1 : la loi normale.
Les estimateurs de maximum de vraisemblance de la moyenne et la variance pour
n2 = Sn2 . Donc Ui = F (Xi ; m
n,
n2 ) =
unechantillon
n = X n et
de loi normale sont m
Xi X n
. Les modifications des statistiques sont :
Sn

0.85
Statistique de Kolmogorov-Smirnov modifiee : Dn

n 0.01 +
.
n

0.5
2
n 1 +
Statistique de Cramer-von Mises modifiee : W
.
n

0.75 2.25
2
Statistique dAnderson-Darling modifiee : An 1 +

+ 2 .
n
n
Et les valeurs usuelles des quantiles sont donnees par la table 8.2.
8.4 Cas dune famille de lois
89
15% 10%
5%
2.5%
1%
KS 0.775 0.819 0.895 0.995 1.035
CM 0.091 0.104 0.126 0.148 0.179
AD 0.561 0.631 0.752 0.873 1.035
Table 8.2 Valeurs usuelles des quantiles des lois de KS, CM et AD dans le cas 2 pour
la loi normale avec estimation par maximum de vraisemblance
Exemple 2 : la loi exponentielle.

Lestimateur de maximum de vraisemblance du paramètre pour un echantillon ex n ) = 1 eXi /X n .
n = 1 . Donc Ui = F (Xi ;
ponentiel est
Xn
Les modifications des statistiques sont :

0.2
0.5
n
Statistique de Kolmogorov-Smirnov modifiee : D
n + 0.26 + .
n
n

n2 1 + 0.16 .
Statistique de Cramer-von Mises modifiee : W
n

0.6
2
.
Statistique dAnderson-Darling modifiee : An 1 +
n
Et les valeurs usuelles des quantiles sont donnees par la table 8.3.
15% 10%
5%
2.5%
1%
KS 0.926 0.995 1.094 1.184 1.298
CM 0.148 0.175 0.222 0.271 0.338
AD 0.916 1.062 1.321 1.591 1.959
Table 8.3 Valeurs usuelles des quantiles des lois de KS, CM et AD dans le cas 2 pour
la loi exponentielle avec estimation par maximum de vraisemblance
Lestimateur de maximum de vraisemblance est biaise. Il faut neanmoins le conserver

car la table 8.3 a ete obtenue avec cet estimateur biaise.
Il savère que les puissances des differents tests sont plus proches quand on estime
les paramètres que pour une loi entièrement specifiee. Cependant, Anderson-Darling est
toujours le meilleur et Kolmogorov-Smirnov le moins bon.
Ces tests sont plus puissants que les tests du 2 car le regroupement en classes fait
perdre de linformation sur les donnees.
90

equation bas
epartition
empirique
Chapitre 9
Tests non param
etriques sur un
echantillon
Comme precedemment, on suppose dans ce chapitre que les observations x1 , . . . , xn
sont des realisations de variables aleatoires reelles X1 , . . . , Xn . Dans les chapitres precedents, on a suppose que les Xi etaient independantes et de meme loi. Tout ce qui a ete
fait jusquici na de sens que si cette hypothèse est verifiee. Il est donc fondamental de
determiner si cette hypothèse est valide ou pas. Les tests qui permettent dy parvenir sont
appeles tests d
echantillon.
Si on a admis que les observations forment un echantillon, on peut utiliser les procedures
destimation des moments, quantiles, fonction de repartition et densite de lechantillon,
vues precedemment. Letape statistique suivante est deffectuer des tests dhypothèses
sur ces quantites. Par exemple, on peut vouloir faire un test de E(X) m contre
E(X) > m. Dans ce chapitre, on se contentera detudier des tests portant sur la moyenne
et la mediane de la loi de lechantillon.
Dans les deux cas, on supposera que la loi est continue et on utilisera les statistiques
de rang pour effectuer les tests. En effet, on a vu que, si la loi de lechantillon est continue,
alors la loi des statistiques de rang ne depend pas de la loi de lechantillon.
9.1
Tests d
echantillon
Le problème est de determiner si les observations forment un echantillon. Lhypothèse

nulle dun test dechantillon sera donc :
H0 : X1 , . . . , Xn sont independantes et de meme loi (i.i.d.).
Le choix dun test dechantillon depend fortement des hypothèses alternatives que
0 : X1 , . . . , Xn ne sont pas i.i.d. est trop vaste. Les
lon choisit. Lhypothèse H1 = H
alternatives les plus frequemment retenues sont celles qui portent sur lexistence dune
tendance :
H1 : Les Xi sont de plus en plus grandes
H2 : Les Xi sont de plus en plus petites
Par exemple, si Xi est la cotation dun titre au jour i, il est interessant de determiner
si le titre evolue a` la hausse (H1 ), à la baisse (H2 ), ou ni lun ni lautre (H0 ).
92
Chapitre 9 - Tests non param

etriques sur un
echantillon
Ou bien, si les Xi sont les durees de bon fonctionnement successives entre les pannes
dun système reparable, lusure va faire en sorte que les pannes se produiront de plus en
plus souvent, donc les Xi seront de plus en plus petits (H2 ).
Il est necessaire de definir ce que lon entend par des variables aleatoires de plus en
plus grandes. Cela peut vouloir dire par exemple que la suite des E(Xi ) est croissante. On
peut en fait definir plusieurs ordres de ce type, appeles ordres stochastiques. Lordre
le plus frequemment retenu est le suivant :
D
efinition 26 . On dira que la suite de variables aleatoires {Xi }i1 est stochastiquement croissante (resp. decroissante) si et seulement si les fonctions de repartition des
Xi diminuent (resp. augmentent) au sens o`
u:
x IR,
i < j FXi (x) FXj (x) (resp. )
En effet, pour nimporte quel x, si Xi est plus petit que Xj , Xi a une plus forte
chance que Xj detre inferieure à x.
On se contentera ici detudier les hypothèses :
H1 : Les Xi sont stochastiquement croissantes
H2 : Les Xi sont stochastiquement decroissantes
sachant que dautres alternatives sont possibles comme par exemple :
Les Xi sont stochastiquement periodiques
Les Xi sont de meme moyenne mais de variances croissantes
Sous H0 , les Xi sont i.i.d. donc leur ordre na aucune importance. Ce nest evidemment
pas le cas sous H1 et H2 . Il semble donc logique dutiliser les statistiques dordre et de
rang pour construire les tests.
Remarque. Noublions pas que le resultat dun test nest probant que si on rejette H0 .
Donc on pourra eventuellement conclure quil nest pas improbable que les Xi forment un
echantillon, mais on ne pourra jamais accepter cette hypothèse.
9.1.1
Le test de Spearman
La première idee consiste a` etudier le lien entre les rangs Ri des observations et leurs
indices i. En effet, si les Xi sont strictement croissants, alors les observations sont directement ordonnees dans lordre croissant, donc i, Ri = i. Inversement, si les Xi sont
strictement decroissants, alors i, Ri = n i + 1.
Do`
u lidee dutiliser le coefficient de correlation lineaire empirique entre les rangs et
les indices, RRI,n . Sous H1 , RRI,n doit etre proche de 1, sous H2 il doit etre proche de -1,
et sous H0 , il doit etre proche de 0.
n
1X
nin
Ri i R
n i=1
cRI
=s
.
RRI,n =
n
n
sR sI
1 X 2 2 1 X 2 2
R Rn
i in
n i=1 i
n i=1
9.1 Tests d
echantillon
93
Par
de la forme
exemple, un
test de H0 contre H1 de seuil aura une region critique

W = RRI,n > k . k est determine en ecrivant que PH0 RRI,n > k = . Il faut donc
connaitre la loi de RRI,n sous H0 pour effectuer le test : k sera le quantile dordre 1
de cette loi.
n
n
n
1 n(n + 1)
n+1
1P
n = 1 P Ri = 1 P i = n + 1 , car, sil
i=
=
et R
On a in =
n i=1
n
2
2
n i=1
n i=1
2
n
n
P
P
ny a pas dex-aequos (loi continue), alors pour toute fonction ,
(Ri ) =
(i).
i=1
i=1
De meme,
n
s2R
s2I
1 X 2 2
1 n(n + 1)(2n + 1)
n + 1 2
=
i in =
n i=1
n
6
2
n + 1 2n + 1 n + 1 n + 1
(n + 1)(n 1)
=
[4n + 2 3n 3] =
2
3
2
12
12
n2 1
=
12
Do`
u RRI,n
1X
n + 1 2
Ri i
n
n
2
P
n+1
12
Ri i 3
.
= i=1 2
=
2
n 1
n(n 1) i=1
n1
12
Sachant que la loi du vecteur des rangs R = (R1 , . . . , Rn ) sous H0 est la loi uniforme
sur lensemble des permutations des entiers de 1 a` n, il est possible den deduire la loi de
RRI,n sous H0 . Cette loi est appelee loi de Spearman. Do`
u le test dechantillon suivant :
D
efinition 27 . Le test de Spearman est le test dechantillon base sur la statistique
n
P
12
n+1
RRI,n =
R
i
3
. Plus precisement, on a :
i
n(n2 1) i=1
n1

Test de H0 contre H1 (test de croissance) : W = RRI,n > sn, ,

Test de H0 contre H2 (test de decroissance) : W = RRI,n < sn,1 ,
o`
u sn, est le quantile dordre 1 de la loi de Spearman de paramètre n.
Il existe une table des quantiles de la loi de Spearman. Mais quand la taille de
lechantillon est suffisamment grande, on utilise les resultats suivants.
Propri
et
e 30 .
Sous H0 , pour n > 10,
n2 q
RRI,n
2
1 RRI,n
St(n 2).
L
Sous H0 , n 1 RRI,n N (0, 1).
est approximativement de loi de Student
94

etriques sur un
echantillon
En pratique, pour n < 10, on utilise la table de la loi de Spearman. Pour 11 n 30,
on utilise lapproximation de Student, et pour n > 30, on utilise lapproximation normale.
9.1.2
Le test de Kendall
Si les Xi sont strictement croissants, alors (i, j), i < j Xi < Xj . Inversement, si
les Xi sont strictement decroissants, alors (i, j), i < j Xi > Xj .
Do`
u lidee de compter le nombre Qn de couples (i, j) tels que i < j et Xi < Xj :
n1
n
P P
Qn =
11{Xi <Xj } . Le nombre total de couples (i, j) tels que i < j est le nombre de
i=1 j=i+1
facons de choisir 2 entiers distincts parmi n, cest-à-dire Cn2 =
n(n 1)
.
2
n(n 1)
, et sous H2 , Qn doit etre proche de
2
n(n 1)
1
.
0. Sous H0 , (i, j), P (Xi < Xj ) = . Donc Qn doit etre proche de
2
4
Donc, sous H1 , Qn doit etre proche de
4Qn
1.
n(n 1)
n est appelee le tau de Kendall. Sous H1 , n doit etre proche de 1, sous H2 , n doit etre
proche de -1 et sous H0 , n doit etre proche de 0. Ainsi linterpretation de n est similaire
a` celle du coefficient de correlation de Spearman. On peut determiner la loi de n sous
H0 , appelee loi de Kendall.
Pour rendre la statistique de test plus facile a` interpreter, on pose n =
D
efinition 28 . Le test de Kendall est le test dechantillon base sur la statistique
n1
n
P P
4
11{Xi <Xj } 1. Plus precisement, on a :
n =
n(n 1) i=1 j=i+1

Test de H0 contre H1 (test de croissance) : W = n > kn,

Test de H0 contre H2 (test de decroissance) : W = n < kn,1
o`
u kn, est le quantile dordre 1 de la loi de Kendall de paramètre n.
s
Propri
et
e 31 . Sous H0 ,
9n(n 1)
L
n N (0, 1).
2(2n + 5)
En pratique, pour n 10, on utilise une table de quantiles de la loi de Kendall, et

pour n > 10, on utilise lapproximation normale.
Suivant les cas, le test de Kendall sera plus ou moins puissant que le test de Spearman.
2(n + 1)
, qui tend vers 1 quand n tend vers
On peut montrer que (RRI,n , n ) = p
2n(2n + 5)
linfini, ce qui signifie que, quand on a beaucoup de donnees, les deux tests sont equivalents.
9.2 Tests sur lesp

erance et la m
ediane
9.2
95
Tests sur lesp

erance et la m
ediane
Dans cette section, on suppose que les observations forment un echantillon, ce qui a
pu etre confirme par les tests de la section precedente. On peut alors vouloir effectuer des
tests dhypothèses sur les diverses caracteristiques de la loi de lechantillon.
Les tests les plus utilises portent sur la valeur de lesperance de lechantillon. On a vu
dans le chapitre 2 que le moyenne empirique X n est un excellent estimateur de E(X). Il
est donc logique de construire des tests sur lesperance à partir de la moyenne empirique.
Mais comme on ne connait que la loi asymptotique de X n , seuls des tests asymptotiques
seront possibles.
Au lieu de faire porter les tests sur lesperance de la loi, il est aussi interessant de les
faire porter sur la mediane de cette loi. Il savère quil est plus facile de construire des
tests sur la mediane que des tests sur lesperance a` partir des statistiques de rang. Par
ailleurs, esperance et mediane sont egales dans le cas des lois symetriques.
9.2.1
Tests asymptotiques sur lesp

erance
Les hypothèses des tests portant sur lesperance de lechantillon sont les suivantes :
H0 : E(X) = m
H1 : E(X) 6= m
H2 : E(X) m
H3 : E(X) m
Au chapitre 6, on a vu quun intervalle de confiance asymptotique de seuil pour

E(X) est :

Sn
Sn
X n u , X n + u
n
n
Par consequent, pour tester H0 : E(X) = m contre H1 : E(X) 6= m au seuil , il
suffit de rejeter H0 si et seulement si m nest pas dans lintervalle de confiance ci-dessus.
On obtient comme region critique :

Sn
Sn
Sn
Sn
= m < X n u ou m > X n + u
m
/ X n u , X n + u
n
n
n
n

Sn
Sn X n m
= X n m < u ou X n m > +u
=
n > u .
Sn
n
n
W =
On peut verifier que cette region critique convient. On a vu que :

X n E(X) L
n
N (0, 1).
Sn
Xn m L
n
N (0, 1).
Sn
Xn m

n
Alors PH0 (X1 , . . . , Xn ) W = PH0
n > u . La probabilite de
Sn
rejeter à tort H0 est bien asymptotiquement egale à .
Donc, sous H0 ,
96

etriques sur un
echantillon
Intuitivement, on rejette lhypothèse E(X) = m si X n est significativement eloigne

de m, cest-à-dire si |X n m| est trop grand.
Supposons maintenant que lon veuille tester H3 : E(X) m contre H2 : E(X) >
m. Lidee naturelle est de rejeter E(X)
m
u

si X n est significativement grand, do`
une region critique de la forme W = X n > k .
k est determine en ecrivant que le seuil du test est :
= sup P (X n > k ) =
H3
X n E(X) k E(X)
sup P ( n
> n
)
Sn
Sn
E(X)m

k E(X)
1 n
, o`
u est la fonction
Sn
E(X)m
de repartition de la loi normale centree-reduite.
Donc asymptotiquement, =
sup
k E(X)
n
est une fonction croissante
Sn
de E(X). Par consequent, son maximum quand E(X) m est atteint pour E(X) = m.
k m
k m
= 1 (1 ) = u2 et
On en deduit que = 1 n
, do`
u n
Sn
Sn
u2 Sn
finalement k = m + .
n
est une fonction croissante, donc 1

u2 Sn
Le test de H3 contre H2 aura donc comme region critique W = X n > m +
,
n
Xn m

ce quon peut aussi ecrire sous la forme plus pratique W =
n > u2 .
Sn
Le test symetrique de H2 contre H3 setablit de la meme manière et on obtient au
bout du compte la propriete suivante.
Propri
et
e 32 . Tests asymptotiques de seuil sur lesperance de lechantillon, parfois
appeles tests de Student :
Test de H3 : E(X) m contre H2 : E(X) > m : W =
Test de H2 : E(X) m contre H3 : E(X) < m : W =
Xn m

n > u2 .
Sn
Xn m

n < u2 .
Sn
X n m

Test de H0 : E(X) = m contre H1 : E(X) 6= m : W =
n > u .
Sn
Linconvenient de ces tests est quils sont asymptotiques, donc ils ne sont pas valables
pour des echantillons de petite taille.
En pratique, on peut disposer de tests valables meme pour de petits echantillons,
à condition de supposer en plus que la loi de lechantillon est symetrique. Le principe
est deffectuer des tests portant sur la mediane, puisque, quand la loi est symetrique, la
mediane q1/2 est egale a` lesperance E(X).
9.2 Tests sur lesp

erance et la m
ediane
9.2.2
97
Tests sur la m
ediane
Dans cette section, on va sinteresser à des tests non parametriques portant sur la
mediane q1/2 . Quand la loi est symetrique, ces tests pourront etre consideres comme des
tests sur lesperance de lechantillon.
Les hypothèses des tests portant sur la mediane de lechantillon sont les suivantes :
H0 : q1/2 = m,
H1 : q1/2 6= m,
H2 : q1/2 m,
H3 : q1/2 m.
Sous H0 , il y a une chance sur deux quune observation soit inferieure à m et une
chance sur deux quelle soit superieure a` m.
9.2.2.1. Le test du signe
Le principe de ce test est de considerer le nombre dobservations superieures à m,
n
P
appele statistique du signe : Sn+ =
11{Xi >m} .
i=1
1
Sous H0 , puisque la probabilite quune observation soit superieure a` m est , Sn+ doit
2
n
+
+
etre proche de . Sous H2 , Sn doit etre grand et sous H3 , Sn doit etre petit. Sous
2
n
+
H1 , Sn doit etre eloigne de .
2
Propri
et
e 33 . Sn+ est de loi binomiale B(n, 1 F (m)). Sous H0 , Sn+ est de loi B n,
1
.
2
Demonstration. Sn+ est une somme

aleatoires independantes et de m
de n variables
eme
+
loi de Bernouilli B P (Xi > m) . Donc Sn est de loi binomiale B n, P (Xi > m) =
1
1
B(n, 1 F (m)). Sous H0 , F (m) = F q1/2 = , donc Sn+ est de loi B n, .

2
2
Pour tester H3 contre H2 , on prendra logiquement une region critique de la forme
W = {Sn+ > k }. k est determine en ecrivant :
=
=
sup P (Sn+
H3
n
X
i=bk c+1

> k ) = sup
Cni

(k ) = 1 F
1F
q1/2 m
1 i
1 ni
1
1
= n
2
2
2
B n,1F (m)
n
X
B n, 21
(k )
Cni .
i=bk c+1
Le problème est que la fonction de repartition de la loi binomiale nest pas inversible.
Donc il nest pas forcement possible, pour un donne, de trouver k verifiant lequation
ci-dessus. Cela signifie quon ne peut effectuer le test que pour quelques valeurs de bien
determinees.
98

etriques sur un
echantillon
Ce problème se resoud quand n est grand en utilisant lapproximation de la loi binon n

1
par la loi normale N , . On a en fait, sous H0 :
miale B n,
2
2 4
n
Sn+
2Sn+ n L
r 2 =
N (0, 1).
n
n
4
Alors, en reprenant le calcul precedent, on a, asymptotiquement :
2k n
2k n
2Sn+ n
>
)=1
n
n
n
2k n
n + nu2
1
do`
u
= (1 ) = u2 et k =
.
2
n
+
n + nu2
Le test de H3 contre H2 aura donc comme region critique W = Sn >
,
2

2Sn+ n
> u2 .
ce quon peut aussi ecrire sous la forme plus pratique W =
n
Finalement, on obtient :
= PH0 (Sn+ > k ) = PH0
D
efinition 29 . Le test du signe est le test sur la mediane base sur la statistique
n
X
11{Xi >m} . Plus precisement, on a, asymptotiquement :
Sn+ =
i=1

2Sn+ n
> m : W =
> u2 .
n
+

2Sn n
< m : W =
< u2 .
n

+

2Sn n

> u .
6= m : W =
n

Test de H3 : q1/2 m contre H2 : q1/2

Test de H2 : q1/2 m contre H3 : q1/2
Test de H0 : q1/2 = m contre H1 : q1/2
En pratique, on admet que lapproximation normale est valide dès que n > 10.
9.2.2.2. Le test des rangs sign
es de Wilcoxon
Dans cette section, on suppose que m = 0. Il est possible de generaliser a` m quelconque.
D
efinition 30 Le vecteur des rangs sign
es associe à lechantillon (X1 , . . . , Xn ) est le
+
+
+
vecteur R = (R1 , . . . , Rn ) defini par :
i {1, . . . , n},
Ri+
= 1+
n
X
11{|Xj |<|Xi |}
j=1
rang de |Xi | dans la suite |X1 | , . . . , |Xn |
9.2 Tests sur lesp

erance et la m
ediane
99
Les rangs signes Ri+ sont aux |Xi | ce que les rangs Ri sont aux Xi .
Exemple : n = 5.
xi
xi
ri
|xi |
|xi |
ri+
2.3 -3.5 1.7 0.5 -1.4

-3.5 -1.4 0.5 1.7 2.3
5
1
4
3
2
2.3 3.5 1.7 0.5 1.4
0.5 1.4 1.7 2.3 3.5
4
5
3
1
2
D
efinition 31 . Le test des rangs sign
es de Wilcoxon est le test de nullite de la
mediane base sur la somme des rangs signes des observations strictement positives, appele
n
P
statistique des rangs sign
es de Wilcoxon : Wn+ =
Ri+ 11{Xi >0} .
i=1
Lidee est que, sous H2 : q1/2 > 0, il y aura plus de Xi positifs que de Xi negatifs,
et que les valeurs absolues des Xi positifs seront dans lensemble plus grandes que les
valeurs absolues des Xi negatifs. Donc, sous H2 , Wn+ sera grand. Reciproquement, sous
H3 , Wn+ sera petit.
Propri
et
e 34 .

n(n + 1)
Wn+ est à valeurs dans 0, . . . ,
.
2
X
Wn+ =
11{Xi +Xj >0} .
1ijn
Wn+ =
11{Xi +Xj >0} + Sn+ .
1i<jn
Sous H0 , E(Wn+ ) =
n(n + 1)
n(n + 1)(2n + 1)
et V ar(Wn+ ) =
.
4
24
n(n + 1)
Wn+
L
4
Sous H0 , r
N (0, 1).
n(n + 1)(2n + 1)
24
En pratique, pour n 15, on utilise une table de la loi de Wn+ sous H0 . Pour n > 15,
on utilise lapproximation gaussienne.
On montre que le test des rangs signes est plus puissant que le test du signe. De plus,
il est utilisable sans problèmes meme pour les très petits echantillons. Donc il est conseille
dutiliser le test des rangs signes plutot que le test du signe.
100

etriques sur un
echantillon
Chapitre 10
Tests non param
etriques sur
plusieurs
echantillons
Dans ce chapitre, on suppose que lon dispose de plusieurs echantillons, que lon souhaite comparer. Par exemple, il peut sagir des resultats de lapplication de plusieurs
traitements dune meme maladie à plusieurs groupes de malades. Il est important de
determiner si les traitements ont des efficacites comparables ou si lun savère plus efficace que les autres. Mathematiquement, cela revient a` comparer les lois de probabilite
de chaque echantillon. Dans un contexte parametrique, on dispose pour cela de methodes
bien connues comme lanalyse de variance. On sinteressera dans ce chapitre a` un point
de vue non parametrique sur ce problème.
La situation de base est la comparaison de deux echantillons independants, notes
X1 , . . . , Xn1 et Y1 , . . . , Yn2 . Les Xi sont supposes independants et de meme loi, de fonction
de repartition F inconnue, et les Yj sont supposes independants et de meme loi, de fonction
de repartition G inconnue. Tester lhypothèse que les deux echantillons sont issus de la
meme loi de probabilite, cest tester :
H0 : F = G contre H1 : F 6= G.
Mais on peut aussi sinteresser aux hypothèses :
H2 : F > G, qui signifie que les Xi sont stochastiquement inferieurs aux Yj .
H3 : F < G, qui signifie que les Xi sont stochastiquement superieurs aux Yj .
Cest ce genre dhypothèses que lon utilisera si on cherche a` determiner si un traitement est plus efficace quun autre.
Pour pouvoir utiliser les proprietes des statistiques de rang, on se contentera detudier
le cas o`
u les lois des echantillons sont continues.
10.1
Test de Kolmogorov-Smirnov
Si les deux echantillons proviennent de la meme loi, ils ont la meme fonction de
repartition, donc leurs fonctions de repartition empiriques IFn1 et Gn2 doivent etre très
proches. Le test de Kolmogorov-Smirnov
consiste à rejeter H0 : F = G si et seulement

si Dn1 ,n2 = sup IFn1 (x) Gn2 (x) est trop grand.
xIR
102

echantillons
r
n1 n2
Dn ,n a une loi
n1 + n2 1 2
de probabilite qui ne depend pas de F et converge en loi vers la loi de Kolmogorov-Smirnov.
Donc le test de comparaison dechantillon resultant est similaire au test dadequation de
Kolmogorov-Smirnov.
Si n1 = n2 = m, la loi de Dm,m sous H0 est très simple et a une expression explicite
meme pour m fini :
On montre alors que, sous H0 , la variable aleatoire Kn1 ,n2 =

bm/kc
X
(m!)2
k
=2
(1)j+1
k IN, P Dm,m
m
(m jk)!(m + jk)!
i=1
10.2
Tests de rang
Pour un seul echantillon, on a utilise le fait que le vecteur des rangs a une loi de
probabilite independante de la loi de lechantillon (loi uniforme sur lensemble n des
permutations des entiers de 1 a` n). Dans le cas de deux echantillons, on a une propriete
equivalente.
Th
eor`
eme 21 . Soient S et R les vecteurs des rangs respectifs de (X1 , . . . , Xn1 ) et
(Y1 , . . . , Yn2 ) lorsque ces n = n1 + n2 variables aleatoires sont ordonnees toutes ensemble.
Alors, sous H0 : F = G, on a :
(S, R) est de loi uniforme sur n .
n2 !
.
n!
n1 !
.
r = (r1 , . . . , rn2 ), {r1 , . . . , rn2 } {1, . . . , n}, P (R = r) =
n!
s = (s1 , . . . , sn1 ), {s1 , . . . , sn1 } {1, . . . , n}, P (S = s) =
Demonstration. Si F = G, X1 , . . . , Xn1 , Y1 , . . . , Yn2 est un echantillon de taille n de la loi

de fonction de repartition F et (S, R) est son vecteur des rangs. (S, R) est donc de loi
1
uniforme sur n , ce qui signifie que (s, r) n , P (S = s R = r) = .
n!
P
1
Alors, P (S = s) =
P (S = s R = r) =
nombre de vecteurs r possibles.
n!
r
Puisque les rangs des Xi sont determines par s, il reste à choisir les rangs des n2 Yj .
n2 !
Il y a n2 ! possibilites pour cela. On obtient donc P (S = s) =
et symetriquement
n!
n1 !
P (R = r) =
.

n!
Puisque la loi de (S, R) ne depend pas de F sous H0 , on pourra construire des tests
de H0 contre H1 a` partir de statistiques ne dependant que de (S, R). De tels tests et
statistiques sappellent tests de rang et statistiques de rang.
10.2.1
Le test de la m
ediane
Lidee de ce test est que, si les Xi sont stochastiquement inferieurs aux Yj , alors les
rangs des Xi dans lechantillon complet (les Si ) seront dans lensemble inferieurs aux rangs
10.2 Tests de rang
103
des Yj (les Rj ). En particulier, les Yj seront dans lensemble superieurs à la mediane de

lechantillon complet, ou bien les rangs des Yj seront dans lensemble superieurs au rang
n+1
median de lechantillon complet, qui vaut
. Do`
u:
2
D
efinition 32 . La statistique de la m
ediane Mn1 ,n2 est le nombre dobservations du
deuxième echantillon strictement superieures à la mediane de lechantillon complet :
Mn1 ,n2 =
n2
X
11{Rj > n+1 }

2
j=1
Sous H2 , Mn1 ,n2 doit etre grand, sous H3 , Mn1 ,n2 doit etre petit, et sous H0 , Mn1 ,n2
doit etre ni grand, ni petit.
Propri
et
e 35 . Sous H0 , Mn1 ,n2 est de loi hypergeometrique :

n
H n, n2 ,
si n est pair.
2

n1
H n, n2 ,
si n est impair.
2
Demonstration. Rappelons quune variable aleatoire K est de loi hypergeometrique H(N,
m, n) si et seulement si on est dans la situation suivante : on a N objets dont m ont une
certaine caracteristique ; on tire n objets sans remise parmi ces N ; K represente alors le
nombre dobjets possedant la caracteristique en question parmi les n tires.
Ici, on a n observations parmi lesquelles n2 sont des Yj et Mn1 ,n2 represente le nombre
de Yj parmi les observations strictement superieures à la mediane. Celles-ci sont au nombre
n1
n
de si n est pair et
si n est impair.

2
2
Connaissant lesperance et la variance de la loi hypergeometrique, on peut en deduire
celles de la statistique de la mediane sous H0 . Un argument de type theorème central-limite
permet den deduire la loi asymptotique de Mn1 ,n2 sous H0 .
Propri
et
e 36 . Sous H0 ,
2Mn1 ,n2 n2 L
n N (0, 1).
n1 n2
Finalement, on a :
D
efinition 33 : Le test de la m
ediane est le test de comparaison de deux echantillons
n2
P
base sur la statistique de la mediane Mn1 ,n2 =
11{Rj > n+1 } .
j=1
Les regions critiques des differents tests possibles sont etablis à laide des quantiles des
lois hypergeometrique ou normale. En pratique, on considère que lapproximation normale
est valide si n1 8 et n2 8.
104
10.2.2

echantillons
Le test de Wilcoxon-Mann-Whitney
Le principe de ce test est similaire à celui du test de la mediane : si les Yj sont dans
lensemble superieurs aux Xi , alors les rangs Rj des Yj seront dans lensemble superieurs
aux rangs Si des Xi dans lechantillon complet.
D
efinition 34 : La statistique de Wilcoxon Wn1 ,n2 est la somme des rangs des observations du deuxième echantillon dans lechantillon complet :
Wn1 ,n2 =
n2
X
Rj .
j=1
n2
P
n2 (n2 + 1)
.
2
j=1
n1P
+n2
n2 (n2 + 1)
Inversement, si les Yj sont tous superieurs aux Xi , Wn1 ,n2 =
j=
+ n1 n2 .
2
j=n1 +1
Sous H0 , le melange des deux echantillons est homogène, donc Wn1 ,n2 devrait etre de
n2 (n2 + 1) n1 n2
n2 (n + 1)
lordre de
+
=
.
2
2
2
Par consequent, sous H2 , Wn1 ,n2 doit etre grand, sous H3 , Wn1 ,n2 doit etre petit,
n2 (n + 1)
.
et sous H0 , Wn1 ,n2 doit etre proche de
2
Dans le cas extreme o`
u les Yj sont tous inferieurs aux Xi , Wn1 ,n2 =
j=
D
efinition 35 . Le test de Wilcoxon est le test de comparaison de deux echantillons
base sur la statistique de Wilcoxon.
Propri
et
e 37 . Sous H0 ,
2Wn1 ,n2 (n + 1)n2 L

p
3 N (0, 1).
(n + 1)n1 n2
Quand n est petit, on utilise des tables de la loi de la statistique de Wilcoxon sous H0 .
En pratique, on considère que lapproximation normale est valide si n1 8 et n2 8.
On peut aborder le problème differemment, en remarquant que, sous H0 , comme les
1
Xi et les Yj sont independants et de meme loi, on a (i, j), P (Xi Yj ) = .
2
D
efinition 36 . La statistique de Mann-Whitney est le nombre de couples (i, j) tels
que Xi Yj :
n1 X
n2
X
Un1 ,n2 =
11{Xi Yj } .
i=1 j=1
Sous H0 , Un1 ,n2 doit etre de lordre de la moitie des couples (Xi , Yj ) possibles, à savoir
n1 n2
. Sous H2 , Un1 ,n2 doit etre grand, et sous H3 , Un1 ,n2 doit etre petit.
2
10.2 Tests de rang
105
D
efinition 37 . Le test de Mann-Whitney est le test de comparaison de deux echantillons
base sur la statistique de Mann-Whitney.
2Un ,n n1 n2 L
Propri
et
e 38 . Sous H0 , p 1 2
3 N (0, 1).
(n + 1)n1 n2
La condition de validite de lapproximation normale est la meme que pour les tests
precedents : n1 8 et n2 8.
Propri
et
e 39 . Un1 ,n2 = Wn1 ,n2
n2 (n2 + 1)
.
2
Cette propriete a pour consequence que les tests de Mann-Whitney et Wilcoxon sont en
fait equivalents, au sens o`
u ils donneront exactement la meme reponse. Cest pourquoi on
peut utiliser indifferemment lun ou lautre, en leur donnant le nom de test de WilcoxonMann-Whitney.
On montre que ce test est globalement plus puissant que le test de KolmogorovSmirnov et le test de la mediane.
10.2.3
Le test de Kruskal-Wallis
Après avoir compare deux echantillons, on souhaite maintenant comparer k echantillons,

avec k > 2. Pour i allant de 1 à k, le ième echantillon est note X1i , . . . , Xni i . Le nombre
k
P
total dobservations est n =
ni .
i=1
Des hypothèses comparables a` F > G ne sont plus possibles quand on a plus de

deux echantillons. Aussi on se contentera de tester :
H0 : Les k echantillons sont de meme loi contre H1 = H 0 .
Pour cela, on ordonne lensemble des n observations et on note :
Rji = rang de Xji dans lechantillon global.
i
R =
ni
X
Rji = somme des rangs des observations du ième echantillon dans lechantillon
j=1
global.
D
efinition 38 . Le test de Kruskal-Wallis est le test de comparaison de k echantillons
base sur la statistique de Kruskal-Wallis :
k
X Ri
12
3(n + 1)
Kn =
n(n + 1) i=1 ni
106

echantillons
L
Propri
et
e 40 . Sous H0 , Kn 2k1 .
En pratique, lapproximation par la loi du 2 est valide dès quil y a au moins 5
observations par echantillon.
Le test de Kruskal-Wallis consiste a` rejeter lhypothèse degalite des k lois si Kn
est trop grand. Si lapproximation du 2 est valide, la region critique du test sera
W = {Kn > zk1, }, o`
u zk1, est le quantile dordre 1 de la loi 2k1 .
Chapitre 11
Annexe A : Rappels de probabilit
es
pour la statistique
Cette annexe rappelle quelques resultats de base du calcul des probabilites utiles pour
la statistique. Les notions sont presentees sans aucune demonstration. Les details sont a`
aller chercher dans le cours de Probabilites Appliquees de première annee.
11.1
Variables al
eatoires r
eelles
11.1.1
Loi de probabilit
e dune variable al
eatoire
Mathematiquement, une variable aleatoire est definie comme une application mesurable. On se contentera ici de la conception intuitive suivante.
Une variable al
eatoire est une grandeur dependant du resultat dune experience
aleatoire, cest-à-dire non previsible a` lavance avec certitude. Par exemple, on peut dire
que la duree de vie dune ampoule electrique ou le resultat du lancer dun de sont des
variables aleatoires. Pour une experience donnee, ces grandeurs prendront une valeur
donnee, appelee realisation de la variable aleatoire. Si on recommence lexperience, on
obtiendra une realisation differente de la meme variable aleatoire.
On ne sinteresse ici quaux variables al
eatoires r
eelles, cest-à-dire a` valeurs dans
IR ou un sous-ensemble de IR. On note traditionnellement une variable aleatoire par une
lettre majuscule (X) et sa realisation par une lettre minuscule (x).
Le calcul des probabilites va permettre de calculer des grandeurs comme la duree de vie
moyenne dune ampoule ou la probabilite dobtenir un 6 en lancant le de. Ces grandeurs
sont determinees par la loi de probabilit
e de ces variables aleatoires.
Il y a plusieurs moyens de caracteriser la loi de probabilite dune variable aleatoire. La
plus simple est la fonction de repartition.
On appelle fonction de r
epartition de la variable aleatoire X la fonction
FX : IR [0, 1]
x 7 FX (x) = P (X x)
FX est croissante, continue a` droite, telle que lim FX (x) = 0 et lim FX (x) = 1.
x
x+
Elle permet de calculer la probabilite que X appartienne à nimporte quel intervalle de

IR :
108
Chapitre 11 - Annexe A : Rappels de probabilit

(a, b) IR2 , a < b, P (a < X b) = FX (b) FX (a)

Les variables aleatoires peuvent etre classees selon le type densemble dans lequel elles
prennent leurs valeurs. Dans la pratique, on ne sinteressera quà deux categories : les
variables aleatoires discrètes et les variables aleatoires continues (ou a` densite).
11.1.2
Variables al
eatoires discr`
etes et continues
Une variable al
eatoire X est dite discr`
ete (v.a.d.) si et seulement si elle est a`
valeurs dans un ensemble E fini ou denombrable. On peut noter E = {x1 , x2 , ...}.
Exemples :
Face obtenue lors du lancer dun de : E = {1, 2, 3, 4, 5, 6}.
Nombre de bugs dans un programme : E = IN.
La loi de probabilite dune v.a.d. X est entièrement determinee par les probabilites
elementaires P (X = xi ), xi E.
P
La fonction de repartition de X est alors FX (x) = P (X x) =
P (X = xi ).
xi x
Une variable al
eatoire X est dite continue (v.a.c.) si et seulement si sa fonction de
repartition FX est continue et presque partout derivable. Sa derivee fX est alors appelee
densite de probabilite de X, ou plus simplement densit
e de X. Une v.a.c. est forcement
a` valeurs dans un ensemble non denombrable.
Exemples :
Appel de la fonction Random dune calculatrice : E = [0, 1].
Duree de bon fonctionnement dun système : E = IR+ .
Rb
On a alors (a, b) IR2 , a < b, P (a < X b) = FX (b) FX (a) = a fX (x) dx.
R
Plus generalement, B IR, P (X B) = B fX (x) dx. Donc la densite determine
entièrement la loi de probabilite de X.
R +
fX est une fonction positive telle que fX (x) dx = P (X IR) = 1.
Connaissant la loi de X, on est souvent amenes à determiner celle de Y = (X). Quand
X est discrète, il suffit decrire P (Y = y) = P ((X) = y). Si est inversible, on obtient
P (Y = y) = P (X = 1 (y)). Quand X est continue, on commence par determiner la
fonction de repartition de Y en ecrivant FY (y) = P (Y y) = P ((X) y), puis on
en deduit sa densite par derivation. Quand est inversible, on obtient la formule du
changement de variable :
fY (y) =
|0
fX
(1 (y))|

1 (y)
Remarque : Il existe des lois de probabilite de variables aleatoires reelles qui ne sont ni
discrètes ni continues. Par exemple, si X est la duree de bon fonctionnement dun système
qui a une probabilite non nulle p detre en panne a` linstant initial, on a lim FX (x) = 0
x0
11.1 Variables al
eatoires r
eelles
109
(une duree ne peut pas etre negative) et FX (0) = P (X 0) = P (X = 0) = p. Par

consequent FX nest pas continue en 0. La loi de X ne peut donc pas etre continue, et elle
nest pas non plus discrète puisquelle est à valeurs dans IR+ . Ce type de variable aleatoire
ne sera pas etudie dans ce cours.
11.1.3
Moments et quantiles dune variable al

eatoire r
eelle
Si X est une variable aleatoire discrète, son esp

erance math
ematique est definie
par :
X
E(X) =
xi P (X = xi )
xi E
Si X est une variable aleatoire continue, son esperance mathematique est definie par :
Z
E(X) =
xfX (x) dx
Concrètement, E(X) est ce quon sattend a` trouver comme moyenne des resultats
obtenus si on repète lexperience un grand nombre de fois. Par exemple, si on lance une
pièce de monnaie 10 fois, on sattend a` trouver en moyenne 5 piles.
Plus generalement, on peut sinteresser a` lesperance mathematique dune fonction de
X :
P
Si X est une v.a.d., E [(X)] =
(xi )P (X = xi ).
xi E
Si X est une v.a.c., E [(X)] =
R +
(x)fX (x) dx.
Ce resultat permet de calculer lesperance de (X) sans avoir a` determiner entièrement

sa loi.
Deux esperances de ce type sont particulièrement utiles :
X
Si
X
est
une
v.a.d.,
sa
fonction
g
e
n
e
ratrice
est
d
e
finie
par
G
(z)
=
E
z
=
X
P xi
z P (X = xi ).
xi E

Si X est une v.a.c., sa fonction caract
eristique est definie par X (t) = E eitX =
R + itx
e fX (x) dx.
Au meme titre que la fonction de repartition et la densite, les fonctions generatrices

et caracteristiques definissent entièrement les lois de probabilite concernees.

Soit k un entier naturel quelconque.
Le moment
dordre k de X est E X k et le
h
i
moment centr
e dordre k est E (X E(X))k .
De tous les moments, le plus important estle moment centr
e dordre 2, appele aussi
2
variance. La variance de X est V ar(X) = E (X E(X)) , qui se calcule plus facilement sous la forme V ar(X) = E (X 2 ) [E(X)]2 .
p
L
ecart-type de X est (X) = V ar(X).
110

La variance et lecart-type sont des indicateurs de la dispersion de X : plus la variance

de X est petite, plus les realisations de X seront concentrees autour de son esperance.
(X)
. Cest egalement un indiE(X)
cateur de dispersion, dont lavantage est detre sans dimension. Il permet de comparer
les dispersions de variables aleatoires dordres de grandeur differents ou exprimees dans
des unites differentes. En pratique, on considère que, quand CV (X) est inferieur à 15%,
lesperance peut etre consideree comme un bon resume de la loi.
Le coefficient de variation de X est CV (X) =
Soit p ]0, 1[. Le quantile dordre p (ou p-quantile) de la loi de X est tout reel qp
verifiant P (X < qp ) p P (X qp ).
Si F est continue et strictement croissante (donc inversible), on a simplement P (X <
qp ) = P (X qp ) = FX (qp ) = p, do`
u qp = FX1 (p).
Si FX est constante egale a` p sur un intervalle [a, b], nimporte quel reel de [a, b] est
un quantile dordre p. En general, on choisit de prendre le milieu de lintervalle :
a+b
.
qp =
2
Si FX est discontinue en q et telle que lim FX (x) < p FX (q), alors qp = q.
xq
Les tables fournies donnent les quantiles les plus usuels des lois normale, du chi-deux,
de Student et de Fisher-Snedecor.
11.2
Vecteurs al
eatoires r
eels
On ne sinteressera ici quaux vecteurs aleatoires (X1 , . . . , Xn ) constitues de n variables

aleatoires reelles toutes discrètes ou toutes continues.
11.2.1
Loi de probabilit
e dun vecteur al
eatoire
La loi dun vecteur aleatoire (X1 , . . . , Xn ) est determinee par sa fonction de repartition :
F(X1 ,...,Xn ) (x1 , . . . , xn ) = P (X1 x1 , . . . , Xn xn )
Si les Xi sont discrètes, cette loi est aussi determinee par les probabilites elementaires
P (X1 = x1 , . . . , Xn = xn ).
Si les Xi sont continues, la densite de (X1 , . . . , Xn ) est definie, si elle existe, par :
n
f(X1 ,...,Xn ) (x1 , . . . , xn ) =
F(X1 ,...,Xn ) (x1 , . . . , xn )
x1 ...xn
R
R
On a alors B IRn , P ((X1 , . . . , Xn ) B) = . . . B f(X1 ,...,Xn ) (x1 , . . . , xn ) dx1 ...dxn .
Les variables aleatoires X1 , . . . , Xn sont (mutuellement) ind
ependantes si et seulement si :
n
Y
F(X1 ,...,Xn ) (x1 , . . . , xn ) =
P (Xi xi )
i=1
11.2 Vecteurs al
eatoires r
eels
111
Pour des variables discrètes cela donne P (X1 = x1 , . . . , Xn = xn ) =

Et pour des variables continues, f(X1 ,...,Xn ) (x1 , . . . , xn ) =
n
Q
n
Q
P (Xi = xi ).
i=1
fXi (xi ).
i=1
Concrètement, lindependance signifie que la valeur prise par lune des variables na
aucune influence sur la valeur prise par les autres.
11.2.2
Esp
erance et matrice de covariance dun vecteur al
eatoire
Lesp
erance math
ematique dun vecteur aleatoire est le vecteur des esperances
mathematiques de ses composantes : E [(X1 , . . . , Xn )] = (E[X1 ], . . . , E[Xn ]).
Lequivalent de la variance en dimension n est la matrice de covariance du vecteur
(X1 , . . . , Xn ), notee K(X1 ,...,Xn ) ou K, dont les coefficients sont donnes par
kij = Cov(Xi , Xj ), (i, j) {1, ..., n}2
Cov(Xi , Xj ) est la covariance des variables aleatoires Xi et Xj et est definie par :
Cov(Xi , Xj ) = E [(Xi E(Xi )) (Xj E(Xj ))] = E(Xi Xj ) E(Xi )E(Xj )
Pour i = j, Cov(Xi , Xi ) = E (Xi2 ) [E(Xi )]2 = V ar(Xi ).
Pour i 6= j, la covariance de Xi et Xj traduit le degre de correlation entre ces deux
variables. En particulier, si Xi et Xj sont independantes, Cov(Xi , Xj ) = 0 (mais la
reciproque est fausse). Par consequent, si X1 , . . . , Xn sont independantes, leur matrice
de covariance K est diagonale.
Le coefficient de corr
elation lin
eaire entre Xi et Xj est (Xi , Xj ) =
Cov(Xi , Xj )
.
(Xi )(Xj )
On montre que :
(Xi , Xj ) [1, +1].
(Xi , Xj ) = +1 Xi = aXj + b, avec a > 0 et b IR.
(Xi , Xj ) = 1 Xi = aXj + b, avec a > 0 et b IR.
si (Xi , Xj ) > 0, Xi et Xj sont correlees positivement, ce qui signifie quelles varient
dans le meme sens. Par exemple, Xi et Xj peuvent etre la taille et le poids dindividus
pris au hasard.
si (Xi , Xj ) < 0, Xi et Xj sont correlees negativement, ce qui signifie quelles varient
en sens contraire. Par exemple, Xi et Xj peuvent etre lage et la resistance dun
materiau.
si (Xi , Xj ) = 0, il ny a pas de correlation lineaire entre Xi et Xj . Cela ne signifie
pas que Xi et Xj sont independantes. Il peut eventuellement y avoir une correlation
non lineaire.
Lesperance mathematique est lineaire : si X et Y sont des variables aleatoires et a, b
et c des reels, alors E(aX + bY + c) = aE(X) + bE(Y ) + c.
112

En revanche, la variance nest pas lineaire : si X et Y sont des variables aleatoires et

a, b et c des reels, alors V ar(aX + bY + c) = a2 V ar(X) + 2abCov(X, Y ) + b2 V ar(Y ).
Si X et Y sont independantes, Cov(Xi , Xj ) = 0, donc V ar(aX +bY +c) = a2 V ar(X)+
2
b V ar(Y ). En particulier, la variance de la somme de variables aleatoires independantes
est egale à la somme des variances de ces variables. Mais ce resultat est faux si les variables
ne sont pas independantes.
11.3
Convergences et applications
Deux des resultats les plus importants des probabilites sont le theorème central-limite
et la loi des grands nombres. Ces resultats necessitent dutiliser la notion de convergence
dune suite de variables aleatoires.
Une suite de variables aleatoires {Xn }n1 converge en loi vers la loi de probabilite
de fonction de repartition F si et seulement si lim FXn (x) = F (x) en tout point x o`
u
n
F est continue. Cela signifie que, quand n est grand, la loi de probabilite de Xn est
approximativement la loi de fonction de repartition F .
Th
eor`
eme Central-Limite : Soit {Xn }n1 une suite de variables al
eatoires reelles indep
pendantes et de meme loi, desperance E(X) et decart-type (X) = V ar(X) finis. Pour
tout n 1, on pose :
n
X
Zn =
Xi nE(X)
i=1
nV ar(X)
n E(X)
X
n
(X)
Alors la suite {Zn }n1 converge en loi vers la loi normale centree-reduite, ce qui secrit :
n E(X) L
X
n
N (0, 1)
(X)
Concrètement, cela signifie que la loi de toute variable aleatoire egale a` la somme
dun nombre suffisamment grand de variables aleatoires independantes et de meme
n
P
loi est approximativement une loi normale. Plus precisement, pour n grand,
Xi est
i=1
approximativement de loi N (nE(X), nV ar(X)). Ce qui est remarquable, cest que ce

resultat est vrai quelle que soit la loi des Xi .
De très nombreux phenomènes naturels sont la resultante dun grand nombre de phenomènes elementaires identiques, independants et additifs ce qui justifie limportance (et le
nom) de la loi normale.
La plus forte des convergences de suites de variables aleatoires est la convergence
presque s
ure. Ce concept necessite davoir defini une variable aleatoire comme une application mesurable dun espace probabilise dans un autre. Une suite de variables aleatoires
{Xn
urement vers la variable aleatoire X si et seulement si
n }n1 converge presque
o s
P
; lim Xn () = X()
= 1.
n
Une suite de variables aleatoires {Xn }n1 converge en probabilit

e vers la variable
aleatoire X si et seulement si > 0, lim P (|Xn X| > ) = 0.
n
11.4 Quelques r
esultats sur quelques lois de probabilit
e usuelles
113
On montre que la convergence presque s

ure entrane la convergence en probabilite, qui
elle-meme entrane la convergence en loi.
Loi forte des grands nombres : Soit {Xn }n1 une suite de variables aleatoires reelles
n
n = 1 P Xi . Alors la suite
independantes et de meme loi, desperance E(X). Soit X
n i=1
{Xn }n1 converge presque s

urement vers E(X), ce qui secrit :
ps
n
X
E(X)
Concrètement, cela signifie que quand on fait un très grand nombre dexperiences
identiques et independantes, la moyenne des realisations de la variable aleatoire a` laquelle
on sinteresse tend vers lesperance de sa loi. Ce resultat permet de justifier lidee naturelle
destimer une esperance par une moyenne et une probabilite par une proportion.
En fait, la convergence la plus utile en statistique est la convergence en moyenne
quadratique ou dans L2 . L2 est lensemble des variables aleatoires reelles X telles que
E (X 2 ) < . Une suite de variables aleatoires {Xn }n1 de L2 converge en moyenne
quadratique vers la variable aleatoire X si et seulement si lim E |Xn X|2 = 0.
n
On montre que la convergence en moyenne quadratique entrane la convergence en

probabilite, qui elle-meme entrane la convergence en loi. Mais il ny a pas de lien entre
la convergence en moyenne quadratique et la convergence presque s
ure.
11.4
Quelques r
e usuelles
Les tables de lois de probabilite fournies donnent notamment, pour les lois les plus
usuelles, les probabilites elementaires ou la densite, lesperance, la variance, et la fonction generatrice ou la fonction caracteristique. On presente dans cette section quelques
proprietes supplementaires de quelques unes de ces lois.
11.4.1
Loi binomiale
Une variable aleatoire K est de loi binomiale B(n, p) si et seulement si elle est a` valeurs
dans {0, 1, ..., n} et P (K = k) = Cnk pk (1 p)nk .
Le nombre de fois o`
u, en n experiences identiques et independantes, un evènement de
probabilite p sest produit, est une variable aleatoire de loi B(n, p).
La loi de Bernoulli B(p) est la loi B(1, p).
Si X1 , . . . , Xn sont independantes et de meme loi B(m, p), alors
n
P
Xi est de loi
i=1
B(nm, p). En particulier, la somme de n v.a. independantes et de meme loi B(p) est
de loi B(n, p).
114
11.4.2

Loi g
eom
etrique
Une variable aleatoire K est de loi geometrique G(p) si et seulement si elle est a` valeurs
dans IN et P (K = k) = p (1 p)k1 .
Dans une suite dexperiences identiques et independantes, le nombre dexperiences
necessaires pour que se produise pour la première fois un evènement de probabilite p, est
une variable aleatoire de loi G(p).
Si X1 , . . . , Xn sont independantes et de meme loi G(p), alors
n
P
Xi est de loi binomiale
i=1
negative BN (n, p).
11.4.3
Loi de Poisson
Une variable aleatoire K est de loi de Poisson P() si et seulement si elle est a` valeurs
k
dans IN et P (K = k) = e .
k!
Pour n 50 et p 0.1, la loi binomiale B(n, p) peut etre approchee par la loi de
Poisson P(np). On dit que la loi de Poisson est la loi des evènements rares : loi du nombre
de fois o`
u un evenement de probabilite très faible se produit au cours dun très grand
nombre dexperiences identiques et independantes.
n
P
Si X1 , . . . , Xn sont independantes et de meme loi P(), alors
Xi est de loi P(n).
i=1
11.4.4
Loi exponentielle
Une variable aleatoire X est de loi exponentielle exp() si et seulement si elle est a`
valeurs dans IR+ et fX (x) = ex .
2
La loi exponentielle est dite sans memoire : (t, x) IR+ , P (X > t + x|X > t) =
P (X > x).
Si X1 , . . . , Xn sont independantes et de meme loi exp(), alors
n
P
Xi est de loi gamma
i=1
G(n, ).
Si X1 , . . . , Xn sont independantes et de meme loi exp(), et representent les durees
entre occurrences successives dun meme evenement, alors le nombre devènements survenus sur une periode de longueur t est une variable aleatoire de loi de Poisson P(t).
11.4.5
Loi gamma et loi du chi-2
Une variable aleatoire X est de loi gamma G(a, ) si et seulement si elle est a` valeurs
a x a1
e x . Les proprietes de la fonction gamma sont rappelees
dans IR+ et fX (x) =
(a)
sur les tables.
La loi G(1, ) est la loi exp().
11.4 Quelques r
e usuelles

La loi G
n 1
,
2 2
115
est appelee loi du chi-2 a` n degres de liberte, notee 2n .

.
Si X est de loi G(a, ) et est un reel strictement positif, alors X est de loi G a,
Si X et Y sont des variables aleatoires independantes de lois respectives G(, ) et

G(, ), alors X + Y est de loi G( + , ). En particulier, si X et Y sont independantes
et de lois respectives 2n et 2m , alors X + Y est de loi 2n+m .
11.4.6
Loi normale
Une variable aleatoire X est de loi normale N (m, 2 ) si et seulement si elle est a`
(x m)2
1
2 2 .
valeurs dans IR et fX (x) = e
2
Si X est de loi N (m, 2 ), alors aX + b est de loi N (am + b, a2 2 ). En particulier,
X m
est de loi N (0, 1).
P (X [m , m + ]) = 68.3%.
P (X [m 2, m + 2]) = 95.4%.
P (X [m 3, m + 3]) = 99.7%.
Si X est de loi N (0, 1), alors X 2 est de loi 21 .
Si (X1 , X2 ) est un vecteur gaussien tel que X1 est de loi N (m1 , 12 ) et X2 est de loi
N (m2 , 22 ), alors aX1 + bX2 est de loi N (am1 + bm2 , a2 12 + 2abCov(X1 , X2 ) + b2 22 ).
Th
eor`
eme de Fisher. Si X1 , . . . , Xn sont independantes et de meme loi N (m, 2 ),
n
n
n = 1 P Xi et Sn2 = 1 P (Xi X
n )2 , on a :
alors, en posant X
n i=1
n i=1
n
P
Xi est de loi N (nm, n 2 ).

i=1
n est de loi N
X

2
m,
.
n
n
1 P
(Xi m)2 est de loi 2n .
2 i=1
2
n
1 P
n )2 = nSn est de loi 2 .
(X
X
i
n1
2 i=1
2
n et Sn2 sont independantes.

X
n m
X
n1
est de loi de Student St(n 1).
Sn
116
11.4.7

Lois de Student et de Fisher-Snedecor
Soit U une variable aleatoire de loi N (0, 1) et X une variable aleatoire de loi 2n . Si U
U
et X sont independantes, alors n est de loi de Student a` n degres de liberte St(n).
X
Soit X une variable aleatoire de loi 2n et Y une variable aleatoire de loi 2m . Si X et
mX
Y sont independantes, alors
est de loi de Fisher-Snedecor F (n, m).
nY
Ces deux definitions entrainent que si T est de loi St(n), alors T 2 est de loi F (1, n).
Les lois de Student et de Fisher-Snedecor sont toujours utilisees par lintermediaire
de tables ou à laide dun logiciel de statistique. Il nest donc pas necessaire de donner
lexpression de leur densite.
Chapitre 12
Annexe B : Lois de probabilit
e
usuelles
12.1
Caract
eristiques des lois usuelles
12.1.1
Variables al
eatoires r
eelles discr`
etes
Dans le tableau ci-dessous, on suppose n IN , p ]0, 1[ et IR+ .
Loi et Symbole
Probabilites
E(X)
Var (X)
Fonction
caracteristique
X (t) = E(eitX )
Bernouilli
B(p)
P (X = 0) = 1 p
P (X = 1) = p
p(1 p)
1 p + peit
Binomiale
B(n, p)
P (X = k) = Cnk pk (1 p)nk 11{0,...,n} (k)
np
np(1 p)
(1 p + peit )n
Binomiale negative
n1 n
P (X = k) = Ck1
p (1 p)kn 11{n,...} (k)
n
p
n(1p)
p2
1
p
1p
p2
nm
N
nm(N n)(N m)
N 2 (N 1)
peit
1(1p)eit
n
BN (n, p)
Poisson
P()
Geometrique
G(p)
Hypergeometrique
H(N, m, n)
(m, n) {1, . . . , N }2
P (X = k) = e k!
11IN (k)
P (X = k) = p(1 p)k1 11IN (k)
P (X = k) =
k C nk
Cm
N m
n
CN
11{0,...,min(m,n)} (k)
e(e
it 1)
peit
1(1p)eit
118
Chapitre 12 - Annexe B : Lois de probabilit

e usuelles
12.1.2
Variables al
eatoires r
eelles continues
La fonction Gamma est definie pour a > 0 par (a) =

On a : n IN ,
(n) = (n 1)! ,
R +
ex xa1 dx .

= ,
2
(1) = 1 ,
a ]1, +[ , (a) = (a 1)(a 1) .

Dans le tableau ci dessous, [a, b] IR, m IR, IR+ , IR+ , IR+ , n IN
Loi et Symbole
Densite
Esperance
Var (X)
Fonction
caracteristique
X (t) = E(eitX )
a+b
2
(ba)2
12
eitb eita
it(ba)
eitm
1
2

it 1
11IR+ (x)

it
11IR+ (x)
2n
(1 2it) 2
1
1+t2
X
Loi Uniforme
U[a, b]
Loi Normale
N (m, 2 )
Loi Exponentielle
exp() = G(1, )
fX (x) =
fX (x) =
1
ba
1 e
2
11[a,b] (x)
(xm)2
2 2
fX (x) = ex 11IR+ (x)
Loi Gamma
G(, )
fX (x) =
x 1
x
() e
Loi du Chi-deux
fX (x) =
2 2 x2 n
x 2 1
( n
)e
2
2n = G( n2 , 12 )
Première loi de Laplace
11IR (x)
fX (x) = 12 e|x| 11IR (x)
2 t2
2
12.1 Caract
eristiques des lois usuelles
119
La fonction Beta est definie pour a > 0 et b > 0 par

Z 1
(a)(b)
xa1 (1 x)b1 dx
(a, b) =
=
(a + b)
0
Dans le tableau suivant, on suppose a IR+ , b IR+ et IR+ , IR+ .
Loi et Symbole
X
Densite
Loi Beta de 1ère espèce

1 (a, b)
fX (x) =
Loi Beta de 2ème espèce

2 (a, b)
1
a1 (1
(a,b) x
fX (x) =
Loi de Weibull
fX (x) =
E(X)
Var (X)
a
a+b
ab
(a+b)2 (a+b+1)
a
b1
a(a+b1)
(b1)2 (b2)
si b > 1
si b > 2
(1 + 1 )
h
i
2 (1 + 2 ) (1 + 1 )2
x)b1 11[0,1] (x)
1
xa1
(a,b) (1+x)a+b
11IR+ (x)

x
1
x
e
11IR+ (x)
W(, )
12.1.3
Vecteurs al
eatoires dans INd et dans IRd
Dans le tableau suivant, on a :

n IN , p = (p1 , p2 , . . . , pd ) ]0, 1[d ,
d
P
pi = 1 et k = (k1 , k2 , . . . , kd ) INd ,
i=1
d
P
ki = n.
i=1
m IRd et Md,d .
Loi et Symbole
X
Probabilites ou Densite
Loi Multinomiale
k1 k2
n!
k1 !...kd ! p1 p2
P (X = k) =
. . . pkdd
E(X)
11INd (k)
Nd (m, )
Fonction
Caracteristique

np
ci,i = npi (1 pi )
d
P
n
p i zi
i=1
Md (n, p)
Loi normale
Matrice
de covariance
ci,j = npi pj , i 6= j
fX (x) =
1
e
det( 2)d
1t
(xm)1 (xm)
2
ei
t mt 1 t tt
2
120

e usuelles
12.2
Tables de lois
12.2.1
Table 1 de la loi normale centr

ee r
eduite
U etant une variable aleatoire de loi N (0, 1), la table donne la valeur de (u) = P (U
u). En R, la commande correspondante est pnorm(u).
0.0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
Lecture de la table : (1.25) = (1.2 + 0.05) = 0.8944.
Grandes valeurs de u
u
(u)
3.0
0.9987
3.5
0.99977
4.0
0.999968
4.5
0.999997
12.2 Tables de lois
12.2.2
121
Table 2 de la loi normale centr

ee r
eduite
U etant une variablealeatoire de loi N (0, 1) et un reel de [0, 1], la table donne la valeur de u = 1 1 2 telle que P (|U | > u ) = . En R, la commande correspondante
est qnorm(1-alpha/2).
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.0
+
1.6449
1.2816
1.0364
0.8416
0.6745
0.5244
0.3853
0.2533
0.1257
0.01
2.5758
1.5982
1.2536
1.0152
0.8239
0.6588
0.5101
0.3719
0.2404
0.1130
0.02
2.3263
1.5548
1.2265
0.9945
0.8064
0.6433
0.4959
0.3585
0.2275
0.1004
0.03
2.1701
1.5141
1.2004
0.9741
0.7892
0.6280
0.4817
0.3451
0.2147
0.0878
0.04
2.0537
1.4758
1.1750
0.9542
0.7722
0.6128
0.4677
0.3319
0.2019
0.0753
0.05
1.96
1.4395
1.1503
0.9346
0.7554
0.5978
0.4538
0.3186
0.1891
0.0627
0.06
1.8808
1.4051
1.1264
0.9154
0.7388
0.5828
0.4399
0.3055
0.1764
0.0502
0.07
1.8119
1.3722
1.1031
0.8965
0.7225
0.5681
0.4261
0.2924
0.1637
0.0376
0.08
1.7507
1.3408
1.0803
0.8779
0.7063
0.5534
0.4125
0.2793
0.1510
0.0251
107
5.3267
108
5.7307
109
6.1094
Lecture de la table : u0.25 = u0.2+0.05 = 1.1503.

Petites valeurs de
0.002
3.0902
0.001
3.2905
104
3.8906
105
4.4171
106
4.8916
1
Pour p < , 1 (p) = u2p .
2
1
Pour p , 1 (p) = u2(1p) .
2
0.09
1.6954
1.3106
1.0581
0.8596
0.6903
0.5388
0.3989
0.2663
0.1383
0.0125
122

e usuelles
12.2.3
Table de la loi du 2
X etant une variable aleatoire de loi du 2 a` n degres de libertes et un reel de

[0, 1], la table donne la valeur de zn, = F1
2 (1 ) telle que P (X > zn, ) = . En R, la
n
commande correspondante est qchisq(1-alpha, n).
0.995
0.990
0.975
0.95
0.9
0.8
0.7
0.5
0.3
0.2
0.1
0.05
0.025
0.01
0.005
0.001
1
2
3
4
5
6
7
8
9
10
0.00004
0.01
0.07
0.21
0.41
0.68
0.99
1.34
1.73
2.16
0.0002
0.02
0.11
0.30
0.55
0.87
1.24
1.65
2.09
2.56
0.001
0.05
0.22
0.48
0.83
1.24
1.69
2.18
2.70
3.25
0.004
0.10
0.35
0.71
1.15
1.64
2.17
2.73
3.33
3.94
0.02
0.21
0.58
1.06
1.61
2.20
2.83
3.49
4.17
4.87
0.06
0.45
1.01
1.65
2.34
3.07
3.82
4.59
5.38
6.18
0.15
0.71
1.42
2.19
3.00
3.83
4.67
5.53
6.39
7.27
0.45
1.39
2.37
3.36
4.35
5.35
6.35
7.34
8.34
9.34
1.07
2.41
3.66
4.88
6.06
7.23
8.38
9.52
10.66
11.78
1.64
3.22
4.64
5.99
7.29
8.56
9.80
11.03
12.24
13.44
2.71
4.61
6.25
7.78
9.24
10.64
12.02
13.36
14.68
15.99
3.84
5.99
7.81
9.49
11.07
12.59
14.07
15.51
16.92
18.31
5.02
7.38
9.35
11.14
12.83
14.45
16.01
17.53
19.02
20.48
6.63
9.21
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21
7.88
10.6
12.84
14.86
16.75
18.55
20.28
21.95
23.59
25.19
10.83
13.82
16.27
18.47
20.52
22.46
24.32
26.12
27.88
29.59
11
12
13
14
15
16
17
18
19
20
2.60
3.07
3.57
4.07
4.60
5.14
5.70
6.26
6.84
7.43
3.05
3.57
4.11
4.66
5.23
5.81
6.41
7.01
7.63
8.26
3.82
4.40
5.01
5.63
6.26
6.91
7.56
8.23
8.91
9.59
4.57
5.23
5.89
6.57
7.26
7.96
8.67
9.39
10.12
10.85
5.58
6.30
7.04
7.79
8.55
9.31
10.09
10.86
11.65
12.44
6.99
7.81
8.63
9.47
10.31
11.15
12.00
12.86
13.72
14.58
8.15
9.03
9.93
10.82
11.72
12.62
13.53
14.44
15.35
16.27
10.34
11.34
12.34
13.34
14.34
15.34
16.34
17.34
18.34
19.34
12.90
14.01
15.12
16.22
17.32
18.42
19.51
20.60
21.69
22.77
14.63
15.81
16.98
18.15
19.31
20.47
21.61
22.76
23.90
25.04
17.28
18.55
19.81
21.06
22.31
23.54
24.77
25.99
27.20
28.41
19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
30.14
31.41
21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
32.85
34.17
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
26.76
28.30
29.82
31.32
32.80
34.27
35.72
37.16
38.58
40.00
31.26
32.91
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.31
21
22
23
24
25
26
27
28
29
30
8.03
8.64
9.26
9.89
10.52
11.16
11.81
12.46
13.12
13.79
8.90
9.54
10.20
10.86
11.52
12.20
12.88
13.56
14.26
14.95
10.28
10.98
11.69
12.40
13.12
13.84
14.57
15.31
16.05
16.79
11.59
12.34
13.09
13.85
14.61
15.38
16.15
16.93
17.71
18.49
13.24
14.04
14.85
15.66
16.47
17.29
18.11
18.94
19.77
20.60
15.44
16.31
17.19
18.06
18.94
19.82
20.70
21.59
22.48
23.36
17.18
18.10
19.02
19.94
20.87
21.79
22.72
23.65
24.58
25.51
20.34
21.34
22.34
23.34
24.34
25.34
26.34
27.34
28.34
29.34
23.86
24.94
26.02
27.10
28.17
29.25
30.32
31.39
32.46
33.53
26.17
27.30
28.43
29.55
30.68
31.79
32.91
34.03
35.14
36.25
29.62
30.81
32.01
33.20
34.38
35.56
36.74
37.92
39.09
40.26
32.67
33.92
35.17
36.42
37.65
38.89
40.11
41.34
42.56
43.77
35.48
36.78
38.08
39.36
40.65
41.92
43.19
44.46
45.72
46.98
38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59
50.89
41.40
42.80
44.18
45.56
46.93
48.29
49.64
50.99
52.34
53.67
46.80
48.27
49.73
51.18
52.62
54.05
55.48
56.89
58.30
59.70
2
1
1
u2 + 2n 1
si <
2
2
2
1 p
1
2n) u2(1)
si .
2
2
Pour n > 30, on admet que zn,

et zn,
12.2 Tables de lois
12.2.4
123
Table de la loi de Student
X etant une variable

aleatoire de loi St(n) et un reel de [0, 1], la table donne la valeur
1
de tn, = FSt(n) 1 2 telle que P (|X| > tn, ) = . En R, la commande correspondante

est qt(1-alpha/2,n). Pour n = +, t+, = u .
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0.05
0.02
0.01
0.001
1
2
3
4
5
6
7
8
9
10
0.158
0.142
0.137
0.134
0.132
0.131
0.130
0.130
0.129
0.129
0.325
0.289
0.277
0.271
0.267
0.265
0.263
0.262
0.261
0.260
0.510
0.445
0.424
0.414
0.408
0.404
0.402
0.399
0.398
0.397
0.727
0.617
0.584
0.569
0.559
0.553
0.549
0.546
0.543
0.542
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
1.376
1.061
0.978
0.941
0.920
0.906
0.896
0.889
0.883
0.879
1.963
1.386
1.250
1.190
1.156
1.134
1.119
1.108
1.100
1.093
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
636.619
31.599
12.924
8.610
6.869
5.959
5.408
5.041
4.781
4.587
11
12
13
14
15
16
17
18
19
20
0.129
0.128
0.128
0.128
0.128
0.128
0.128
0.127
0.127
0.127
0.260
0.259
0.259
0.258
0.258
0.258
0.257
0.257
0.257
0.257
0.396
0.395
0.394
0.393
0.393
0.392
0.392
0.392
0.391
0.391
0.540
0.539
0.538
0.537
0.536
0.535
0.534
0.534
0.533
0.533
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.687
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.861
0.860
1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.064
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
21
22
23
24
25
26
27
28
29
30
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.257
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.391
0.390
0.390
0.390
0.390
0.390
0.389
0.389
0.389
0.389
0.532
0.532
0.532
0.531
0.531
0.531
0.531
0.530
0.530
0.530
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
3.819
3.792
3.768
3.745
3.725
3.707
3.690
3.674
3.659
3.646
40
80
120
+
0.126
0.126
0.126
0.126
0.255
0.254
0.254
0.253
0.388
0.387
0.386
0.385
0.529
0.526
0.526
0.524
0.681
0.678
0.677
0.674
0.851
0.846
0.845
0.842
1.050
1.043
1.041
1.036
1.303
1.292
1.289
1.282
1.684
1.664
1.658
1.645
2.021
1.990
1.980
1.960
2.423
2.374
2.358
2.326
2.704
2.639
2.617
2.576
3.551
3.416
3.373
3.291
124

e usuelles
12.2.5
Tables de la loi de Fisher-Snedecor
X etant une variable aleatoire de loi F (1 , 2 ), les tables donnent les valeurs de
f1 ,2 , = FF1(1 ,2 ) (1 ) telles que P (X > f1 ,2 , ) = pour = 5% et = 1%.
1
En R, la commande correspondante est qf(1-alpha, nu1, nu2). f2 ,1 , =
.
f1 ,2 ,1
Table 1 : = 5%.
1
10
12
16
20
24
40
60
100
1
2
3
4
5
6
7
8
9
10
161.4
18.51
10.13
7.71
6.61
5.99
5.59
5.32
5.12
4.96
199.5
19.00
9.55
6.94
5.79
5.14
4.74
4.46
4.26
4.10
215.7
19.16
9.28
6.59
5.41
4.76
4.35
4.07
3.86
3.71
224.6
19.25
9.12
6.39
5.19
4.53
4.12
3.84
3.63
3.48
230.2
19.30
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
234
19.33
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22
236.8
19.35
8.89
6.09
4.88
4.21
3.79
3.50
3.29
3.14
238.9
19.37
8.85
6.04
4.82
4.15
3.73
3.44
3.23
3.07
241.9
19.40
8.79
5.96
4.74
4.06
3.64
3.35
3.14
2.98
243.9
19.41
8.74
5.91
4.68
4.00
3.57
3.28
3.07
2.91
246.5
19.43
8.69
5.84
4.60
3.92
3.49
3.20
2.99
2.83
248
19.45
8.66
5.80
4.56
3.87
3.44
3.15
2.94
2.77
249
19.45
8.64
5.77
4.53
3.84
3.41
3.12
2.90
2.74
251.1
19.47
8.59
5.72
4.46
3.77
3.34
3.04
2.83
2.66
252.2
19.48
8.57
5.69
4.43
3.74
3.30
3.01
2.79
2.62
253
19.49
8.55
5.66
4.41
3.71
3.27
2.97
2.76
2.59
254.3
19.49
8.53
5.63
4.36
3.67
3.23
2.93
2.71
2.54
11
12
13
14
15
16
17
18
19
20
4.84
4.75
4.67
4.60
4.54
4.49
4.45
4.41
4.38
4.35
3.98
3.89
3.81
3.74
3.68
3.63
3.59
3.55
3.52
3.49
3.59
3.49
3.41
3.34
3.29
3.24
3.20
3.16
3.13
3.10
3.36
3.26
3.18
3.11
3.06
3.01
2.96
2.93
2.90
2.87
3.20
3.11
3.03
2.96
2.90
2.85
2.81
2.77
2.74
2.71
3.09
3.00
2.92
2.85
2.79
2.74
2.70
2.66
2.63
2.60
3.01
2.91
2.83
2.76
2.71
2.66
2.61
2.58
2.54
2.51
2.95
2.85
2.77
2.70
2.64
2.59
2.55
2.51
2.48
2.45
2.85
2.75
2.67
2.60
2.54
2.49
2.45
2.41
2.38
2.35
2.79
2.69
2.60
2.53
2.48
2.42
2.38
2.34
2.31
2.28
2.70
2.60
2.51
2.44
2.38
2.33
2.29
2.25
2.21
2.18
2.65
2.54
2.46
2.39
2.33
2.28
2.23
2.19
2.16
2.12
2.61
2.51
2.42
2.35
2.29
2.24
2.19
2.15
2.11
2.08
2.53
2.43
2.34
2.27
2.20
2.15
2.10
2.06
2.03
1.99
2.49
2.38
2.30
2.22
2.16
2.11
2.06
2.02
1.98
1.95
2.46
2.35
2.26
2.19
2.12
2.07
2.02
1.98
1.94
1.91
2.40
2.30
2.21
2.13
2.07
2.01
1.96
1.92
1.88
1.84
21
22
23
24
25
30
4.32
4.30
4.28
4.26
4.24
4.17
3.47
3.44
3.42
3.40
3.39
3.32
3.07
3.05
3.03
3.01
2.99
2.92
2.84
2.82
2.80
2.78
2.76
2.69
2.68
2.66
2.64
2.62
2.60
2.53
2.57
2.55
2.53
2.51
2.49
2.42
2.49
2.46
2.44
2.42
2.40
2.33
2.42
2.40
2.37
2.36
2.34
2.27
2.32
2.30
2.27
2.25
2.24
2.16
2.25
2.23
2.20
2.18
2.16
2.09
2.16
2.13
2.11
2.09
2.07
1.99
2.10
2.07
2.05
2.03
2.01
1.93
2.05
2.03
2.01
1.98
1.96
1.89
1.96
1.94
1.91
1.89
1.87
1.79
1.92
1.89
1.86
1.84
1.82
1.74
1.88
1.85
1.82
1.80
1.78
1.70
1.81
1.78
1.76
1.73
1.71
1.62
40
50
60
80
100
+
4.08
4.03
4.00
3.96
3.94
3.84
3.23
3.18
3.15
3.11
3.09
3.00
2.84
2.79
2.76
2.72
2.70
2.60
2.61
2.56
2.53
2.49
2.46
2.37
2.45
2.40
2.37
2.33
2.31
2.21
2.34
2.29
2.25
2.21
2.19
2.10
2.25
2.20
2.17
2.13
2.10
2.01
2.18
2.13
2.10
2.06
2.03
1.94
2.08
2.03
1.99
1.95
1.93
1.83
2.00
1.95
1.92
1.88
1.85
1.75
1.90
1.85
1.82
1.77
1.75
1.64
1.84
1.78
1.75
1.70
1.68
1.57
1.79
1.74
1.70
1.65
1.63
1.52
1.69
1.63
1.59
1.54
1.52
1.39
1.64
1.58
1.53
1.48
1.45
1.32
1.59
1.52
1.48
1.43
1.39
1.24
1.51
1.44
1.39
1.32
1.28
1.00
12.2 Tables de lois
125
Table 2 : = 1%.
10
12
16
20
24
40
60
100
1
2
3
4
5
6
7
8
9
10
4052
98.5
34.12
21.20
16.26
13.75
12.25
11.26
10.56
10.04
4999
99.0
30.82
18.00
13.27
10.92
9.55
8.65
8.02
7.56
5403
99.17
29.46
16.69
12.06
9.78
8.45
7.59
6.99
6.55
5625
99.25
28.71
15.98
11.39
9.15
7.85
7.01
6.42
5.99
5764
99.3
28.24
15.52
10.97
8.75
7.46
6.63
6.06
5.64
5859
99.33
27.91
15.21
10.67
8.47
7.19
6.37
5.80
5.39
5928
99.36
27.67
14.98
10.46
8.26
6.99
6.18
5.61
5.20
5981
99.37
27.49
14.80
10.29
8.10
6.84
6.03
5.47
5.06
6056
99.4
27.23
14.55
10.05
7.87
6.62
5.81
5.26
4.85
6106
99.42
27.05
14.37
9.89
7.72
6.47
5.67
5.11
4.71
6170
99.44
26.83
14.15
9.68
7.52
6.28
5.48
4.92
4.52
6209
99.45
26.69
14.02
9.55
7.40
6.16
5.36
4.81
4.41
6235
99.46
26.60
13.93
9.47
7.31
6.07
5.28
4.73
4.33
6287
99.47
26.41
13.75
9.29
7.14
5.91
5.12
4.57
4.17
6313
99.48
26.32
13.65
9.20
7.06
5.82
5.03
4.48
4.08
6334
99.49
26.24
13.58
9.13
6.99
5.75
4.96
4.41
4.01
6366
99.5
26.13
13.46
9.02
6.88
5.65
4.86
4.31
3.91
11
12
13
14
15
16
17
18
19
20
9.65
9.33
9.07
8.86
8.68
8.53
8.40
8.29
8.18
8.10
7.21
6.93
6.70
6.51
6.36
6.23
6.11
6.01
5.93
5.85
6.22
5.95
5.74
5.56
5.42
5.29
5.18
5.09
5.01
4.94
5.67
5.41
5.21
5.04
4.89
4.77
4.67
4.58
4.50
4.43
5.32
5.06
4.86
4.69
4.56
4.44
4.34
4.25
4.17
4.10
5.07
4.82
4.62
4.46
4.32
4.20
4.10
4.01
3.94
3.87
4.89
4.64
4.44
4.28
4.14
4.03
3.93
3.84
3.77
3.70
4.74
4.50
4.30
4.14
4.00
3.89
3.79
3.71
3.63
3.56
4.54
4.30
4.10
3.94
3.80
3.69
3.59
3.51
3.43
3.37
4.40
4.16
3.96
3.80
3.67
3.55
3.46
3.37
3.30
3.23
4.21
3.97
3.78
3.62
3.49
3.37
3.27
3.19
3.12
3.05
4.10
3.86
3.66
3.51
3.37
3.26
3.16
3.08
3.00
2.94
4.02
3.78
3.59
3.43
3.29
3.18
3.08
3.00
2.92
2.86
3.86
3.62
3.43
3.27
3.13
3.02
2.92
2.84
2.76
2.69
3.78
3.54
3.34
3.18
3.05
2.93
2.83
2.75
2.67
2.61
3.71
3.47
3.27
3.11
2.98
2.86
2.76
2.68
2.60
2.54
3.60
3.36
3.17
3.00
2.87
2.75
2.65
2.57
2.49
2.42
21
22
23
24
25
30
8.02
7.95
7.88
7.82
7.77
7.56
5.78
5.72
5.66
5.61
5.57
5.39
4.87
4.82
4.76
4.72
4.68
4.51
4.37
4.31
4.26
4.22
4.18
4.02
4.04
3.99
3.94
3.90
3.85
3.70
3.81
3.76
3.71
3.67
3.63
3.47
3.64
3.59
3.54
3.50
3.46
3.30
3.51
3.45
3.41
3.36
3.32
3.17
3.31
3.26
3.21
3.17
3.13
2.98
3.17
3.12
3.07
3.03
2.99
2.84
2.99
2.94
2.89
2.85
2.81
2.66
2.88
2.83
2.78
2.74
2.70
2.55
2.80
2.75
2.70
2.66
2.62
2.47
2.64
2.58
2.54
2.49
2.45
2.30
2.55
2.50
2.45
2.40
2.36
2.21
2.48
2.42
2.37
2.33
2.29
2.13
2.36
2.31
2.26
2.21
2.17
2.01
40
50
60
80
100
+
7.31
7.17
7.08
6.96
6.90
6.63
5.18
5.06
4.98
4.88
4.82
4.61
4.31
4.20
4.13
4.04
3.98
3.78
3.83
3.72
3.65
3.56
3.51
3.32
3.51
3.41
3.34
3.26
3.21
3.02
3.29
3.19
3.12
3.04
2.99
2.80
3.12
3.02
2.95
2.87
2.82
2.64
2.99
2.89
2.82
2.74
2.69
2.51
2.80
2.70
2.63
2.55
2.50
2.32
2.66
2.56
2.50
2.42
2.37
2.18
2.48
2.38
2.31
2.23
2.19
2.00
2.37
2.27
2.20
2.12
2.07
1.88
2.29
2.18
2.12
2.03
1.98
1.79
2.11
2.01
1.94
1.85
1.80
1.59
2.02
1.91
1.84
1.75
1.69
1.47
1.94
1.82
1.75
1.65
1.60
1.36
1.80
1.68
1.60
1.49
1.43
1.00
126

e usuelles
Chapitre 13
Annexe C : Introduction `
aR
Ce chapitre fournit une introduction elementaire a` R. Pour plus de details, voir les
liens presentes sur le Kiosk.
13.1
Les bases de R
R est un logiciel de statistique dedie a` lanalyse des donnees et a` leur visualisation.

Il contient une collection doutils pour la statistique, un environnement graphique et un
langage de programmation oriente objet. La plupart des entites creees en R sont permanentes. Ces entites sont les objets donnees, resultats, fonctions, et sont stockees dans le
repertoire .RData cree par defaut. Le resultat dune procedure statistique peut etre ainsi
reutilise lors de differentes sessions. Il est donc important de creer un repertoire pour
chaque projet statistique effectue en R.
On ouvre une session de R par la commande :
$ R
Pour cloturer une session, utiliser :
> q()
Lhistorique dune session est conserve dans le fichier .Rhistory.
R possède une documentation en ligne accessible par :
> help.start()
Techniquement, R est un langage fonctionnel. Les commandes elementaires sont constituees
dexpressions et daffectations. Par exemple :
> 2 + 5
[1] 7
> a <- c(9,3,7,5)
> a
[1] 9 3 7 5
> a + 3
[1] 12 6 10 8
> a[2:4]
[1] 3 7 5
128
Chapitre 13 - Annexe C : Introduction `

aR
> a[a>6]
[1] 9 7
R peut etre complete en ecrivant de nouvelles fonctions. Voici un exemple o`
u lon souhaite
n
X
1
ln xi o`
u i, xi > 0. On pourra definir une
calculer la statistique stat.log(x) =
n i=1
fonction de la facon suivante (meme si lon peut faire bien plus rapide en pratique) :
>
+
+
+
+
+
+
stat.log <- function(x)

{
n <- length(x)
s <- 0
for(i in (1:n)) { s <- s + log(x[i]) }
-s/n
}
La fonction stat.log pourra etre desormais utilisee comme une fonction standard de
R. Dun point de vue pratique, on peut editer ses fonctions dans un editeur externe (nedit,
emacs, . . .) puis faire du copier/coller vers R ou bien utiliser la commande source.
13.2
Commandes pour les deux premiers TD en R
Pour enregistrer une figure dans un fichier au format postscript, commencer par rediriger la sortie graphique vers le fichier de sauvegarde, ici nomfichier.eps :
postscript("nomfichier.ps", horizontal=FALSE)
Puis tracer la figure voulue, par exemple un histogramme :
hist(x)
Et enfin rediriger la sortie graphique vers la fenetre initiale :
dev.off()
Meme chose en pdf avec pdf("nomfichier.pdf").
Pour tracer un histogramme des donnees x dont laire est egale à 1, les bornes des
classes sont donnees par le vecteur bornes, et les plages de valeurs des abscisses par le
vecteur xlim :
histx <- hist(x, prob=T, breaks=bornes, xlim=xlim, ...)
Pour un histogramme à classes de meme effectif, les bornes des classes peuvent etre
calculees comme des quantiles empiriques, à laide dune commande du type :
breaks <- c(a0, quantile(x,seq(1,k-1)/k),ak)
13.3 Quelques commandes utiles de R
129
La droite de regression lineaire sur le nuage des points dabcisses abs et dordonnees
ord est obtenue à laide de :
reg <- lm(ordabs)
La pente de la droite des moindres carres est donnee par reg$coefficient[2] et
lordonnee a` lorigine par reg$coefficient[1].
Pour tracer la droite obtenue, lune des commandes suivantes pourra etre utilisee :
lines(abs, fitted.values(reg)) ou abline(reg).
13.3
Quelques commandes utiles de R
help(mean)
x <- c(3,14,15,9)
n <- length(x)
sum(x^2)
aide sur la commande mean

cree un vecteur ligne x = (3, 14, 15, 9)
taille
X du vecteur x
x2i
i
moyenne empirique de lechantillon x

valeurs de x arrondies à lentier le plus proche
sequence (1 + 2k ; k entier, 1 + 2k 10)
concatenation de 3 repliques du vecteur x
solution du système lineaire ax = b
matrice diagonale de diagonale x
variance estimee s0n 2
racine carree de x, element par element.
moyenne, mediane, quartiles et valeurs extremes
histogramme de x
tri de x par valeurs croissantes
graphe de probabilites pour la loi normale
trace le nuage de points {(xi , yi )}i
superpose au graphique precedent la droite
dequation y = ax + b
points(x,z)
superpose au graphique precedent le nuage
de points {(xi , zi )}i
lines(x,z)
superpose au graphique precedent la ligne
polygonale reliant les points {(xi , zi )}i
lm(yx)
regression lineaire de y sur x
lm(yx)$coefficients[2]
pente de la droite de regression
lm(yx)$coefficients[1]
ordonnee a` lorigine de la droite de regression
lines(x,fitted.values(lm(yx)) superpose au graphique precedent la droite
de regression
postscript("nom.eps")
redirection de la sortie graphique vers le fichier
nom.eps
dev.off()
termine la redirection graphique vers un fichier
mean(x)
round(x)
seq(from=1,to=10,by=2)
rep(x,3)
solve(a,b)
diag(x)
var(x)
sqrt(x)
summary(x)
hist(x)
sort(x)
qqnorm(x)
plot(x,y)
abline(b,a)
130

aR
par()
controle des paramètres graphiques
par(mfcol=c(2,1))
graphique à 2 lignes et 1 colonnes
cat("bonjour","\ n") imprime à lecran le mot bonjour et retourne
a` la ligne
source("nom.R")
charge les commandes R contenues dans le fichier
nom.R dans R
if, else
structure de controle ou diteration
for, while, repeat
...
13.4
Les lois de probabilit

e usuelles en R
Toutes les lois de probabilite usuelles ont ete implementees en R. Chaque loi est identifiee par une abreviation :
loi binomiale : binom
loi de Poisson : pois
loi geometrique : geom. Attention, la commande geom concerne en fait la loi de X 1,
o`
u X est de loi geometrique.
loi exponentielle : exp
loi gamma : gamma
loi du chi 2 : chisq
loi normale : norm
loi de Student : t
loi de Fisher-Snedecor : f
Loi uniforme : unif
Loi beta de première espèce : beta
Loi de Cauchy : cauchy
Loi hypergeometrique : hyper
Loi log-normale : lnorm
Loi logistique : logis
Loi negative binomiale : nbinom
Loi de Weibull : weibull
Loi de Wilcoxon : wilcox
Pour chaque loi, 4 fonctions sont disponibles, identifiees par un prefixe :
Probabilites elementaires pour les v.a.d. ou densite pour les v.a.c. : d

Fonction de repartition : p
Quantiles : q
Simulation : r
Une commande R pour une loi de probabilite est constituee dun prefixe suivi de
labreviation de la loi. Les paramètres dependent de la loi choisie.
13.4 Les lois de probabilit

e usuelles en R
131
Exemples :
pnorm(u) donne la fonction de repartition de la loi normale centree-reduite N (0, 1)
au point u, (u). On retrouve la table 1 de la loi normale.
> pnorm(0.61)
[1] 0.7290691
dnorm(x, m, ) donne la densite de la loi normale N (m, 2 ) au point x.
> dnorm(1.2,2,5)
[1] 0.07877367
qnorm(p) donne le quantile dordre p de la loi N (0, 1), 1 (p). On retrouve la table
2 de la loi normale en prenant p = 1 /2.
> qnorm(1-0.05/2)
[1] 1.959964
rnorm(n, m, ) simule un echantillon de taille n de la loi N (m, 2 ).
> rnorm(10, 20, 1)
[1] 21.63128 20.16724 17.21667 18.76593 20.48102 20.46236 20.41822
[8] 19.91344 21.19312 19.89164
dbinom(k, n, p) donne P (K = k) quand K est de loi binomiale B(n, p).
> dbinom(3,5,0.2)
[1] 0.0512
rpois(n, ) simule un echantillon de taille n de la loi de Poisson P().
> rpois(15,4)
[1] 8 3 2 1 6 6 7 5 3 3 4 4 6 1 1
qchisq(p,n) donne le quantile dordre p de la loi du chi 2 2n . On retrouve la table
de la loi du chi 2 en prenant p = 1 .
> qchisq(1-0.05,20)
[1] 31.41043
qt(p,n) donne le quantile dordre p de la loi de Student St(n). On retrouve la table
de la loi de Student en prenant p = 1 /2.
> qt(1-0.3/2,12)
[1] 1.083211
qf(p,1 ,2 ) donne le quantile dordre p de la loi de Fisher-Snedecor F (1 , 2 ). On
retrouve la table de la loi de Fisher-Snedecor en prenant p = 1 .
> qf(1-0.05,8,22)
[1] 2.396503
132

aR
13.5
Les principaux tests dhypoth`

eses en R
t.test(x,...)
test de Student sur lesperance dune loi normale
binom.test()
test sur une proportion
var.test(x,y,...)
test de Fisher sur la variance de 2 echantillons

gaussiens independants
t.test(x,y,...)
test de Student sur lesperance de 2 echantillons

gaussiens independants
prop.test()
test de comparaison de proportions
chisq.test(x,...)
test du 2 sur les probabilites devènements

et tables de contingence
ks.test(x,...)
test de Kolmogorov-Smirnov sur un ou deux echantillons
wilcox.test(x,...) test de Wilcoxon-Mann-Whitney sur un ou deux echantillons
13.6
Les graphiques dans R
13.6.1
Graphique simple
Le script suivant en R permet de tracer un nuage de 100 points dont les coordonnees
sont des variables aleatoires independantes et de meme loi normale centree-reduite N (0, 1),
et de le sauvegarder au format postscript dans le fichier rnorm.ps.
postscript("rnorm.ps")
plot(rnorm(100),rnorm(100))
dev.off()
Les instructions suivantes permettent dinserer cette figure dans un document Latex
et de pouvoir la referencer sous le nom de figure 13.1.
\begin{figure}[htbp]
\begin{center}
% Requires \usepackage{graphicx}
\includegraphics[width=8 cm, angle=270]{rnorm.ps}\\
\caption{{\it Utilisation de rnorm}}\label{rnorm}
\end{center}
\end{figure}
13.6 Les graphiques dans R
133
rnorm(100)
3
2
1
0
rnorm(100)
1
2
Figure 13.1 Utilisation de rnorm
13.6.2
Autres fonctions graphiques
abline(h=u)
ajoute une droite dequation y=u.
abline(v=u)
ajoute une droite dequation x=u.
legend(x,y,legend,...)
ajoute une legende dutilisation très flexible
text(x,y,labels,...)
ajoute du texte dans un graphe
axis(side,at, labels..)
ajoute un axe au graphique
arrows(x0,y0,x1,y1,...)
dessine des flèches
symbols(x,y,....)
dessine des cercles, des carres, ...
box(...)
ajoute une boite
polygon(x,y)
ajoute un polygone
voir aussi image(), pairs(), persp(),...
134

aR
13.6.3
Param
etrage de la commande plot
Le script suivant :
postscript("graphesR.ps")
x<- seq(-2*pi,2*pi,0.05)
y <- sin(x)
par(mfrow=c(2,2))
plot(x,y,xlab="x",ylab="Sinus de x")
plot(x,y,type="l", main="trait continu")
plot(x[seq(5,1000,by=5)],y[seq(5,1000,by=5)], type="b",axes=F)
plot(x,y,type="n", ylim=c(-2,1))
text(0,0.05,"Divers param
etrages de la fonction plot")
dev.off()
permet dobtenir la figure 13.2.
1.0
0.5
0.0
1.0
0.5
0.0
1.0
0.5
Sinus de x
0.5
1.0
trait continu
Divers paramtrages de la fonction plot
2.0
1.0
y[seq(5, 1000, by = 5)]
0.0 0.5 1.0
6
x[seq(5, 1000, by = 5)]
Figure 13.2 R permet de creer plusieurs types de graphiques
Bibliographie
[1] Fourdrinier D., Statistique inferentielle, Dunod, 2002.
[2] Lejeune M., Statistique, la theorie et ses applications, Springer, 2004.
[3] Monfort A., Cours de statistique mathematique, Economica, 1997.
[4] Rice J.A., Mathematical Statistics and Data Analysis, Duxbury Press, 1995.
[5] Saporta G., Probabilites, analyse des donnees et statistique, Technip, 2006.
[6] Shao J., Mathematical statistics, Springer, 1998.
[7] Tassi P., Methodes statistiques, Economica, 1989.

Math

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Math

Încărcat de

Drepturi de autor:

Formate disponibile

0.

Ensimag - 2`eme annee

Statistique Inferentielle Avancee

Table des mati`

4 Maximum de vraisemblance et estimation bay

6 Estimation non param

10 Tests non param

11 Annexe A : Rappels de probabilit

12 Annexe B : Lois de probabilit

Nous etablirons des proprietes sur des param`

Un mod`ele statistique est un objet mathematique associe a` lobservation de donnees

Chapitre 2 - Concepts de linf

Exemple 1 : ampoules. Lexemple de reference du cours de PMS a consiste `a recueillir

2.3 Fonction de vraisemblance

lensemble des lois de probabilite continues sur IR,

Dans un mod`ele parametrique, la fonction de vraisemblance joue un role fondamental.

Chapitre 2 - Concepts de linf

Pour un mod`ele dechantillon continu, lelement aleatoire observe est X = (X1 , . . . , Xn ),

Plus generalement, pour toute fonction integrable, on a :

ce qui prouve que la fonction de vraisemblance est :

Chapitre 2 - Concepts de linf

x = (x1 , . . . , xn ). On retrouvera cette notion ulterieurement.

de vraisemblance admet un maximum unique au point (x),

est appelee statistique de maximum de vraisemblance. (X)

Justification. Si la loi de X sachant [T = t] ne depend pas de , cela signifie que, quand

Xi est de loi binomiale B(n, p). Alors :

et comme les Xi sont independants, on a :

Chapitre 2 - Concepts de linf

La loi conditionnelle de X sachant [T = t] ne depend pas de p, donc t(x) =

une statistique exhaustive pour p.

Donc, pour t(x) = t0 , on a :

qui ne depend pas de . Donc t est exhaustive, do`

Exemple 1 : controle de qualite. On a vu que :

xi ; p), donc on retrouve immediatement que

xi est une sta-

tistique exhaustive pour le param`etre = (m, 2 ) dun echantillon de loi normale.

Exemple : echantillon de loi normale.

statistique exhaustive pour (m, 2 ) (cest la statistique de maximum de vraisemblance).

Chapitre 2 - Concepts de linf

La statistique de maximum de vraisemblance est fonction dune statistique exhaustive,

qui est de la forme souhaitee avec d = 1, a(x) = x, (p) = ln

(p) = ln(1 p).

2.6 La famille exponentielle

Weibull nappartient pas a` la famille exponentielle.

Demonstration. On effectue la demonstration pour des lois continues.

est une statistique exhaustive pour .

f (xi ; ) = g (t(x1 , . . . , xn ); ) h(x1 , . . . , xn )

Chapitre 2 - Concepts de linf

ln f (xi ; ) = ln g (t(x1 , . . . , xn ); ) + ln h(x1 , . . . , xn )

Et comme h ne depend pas de :

ln g(y; )|y=t(x1 ,...,xn )

ln f (x; ) = a(x)v() + w() et ln f (x; ) = a(x)() + () + b(x).

Finalement, la densite est bien de la forme f (x; ) = e a(x)() + b(x) + () .

xi est une statistique

exhaustive. LESBVM de p est une fonction de cette statistique : pn =

xi est une statistique exhaustive.

2.6 La famille exponentielle

Loi de Weibull W(, ). Elle nappartient pas a` la famille exponentielle, donc il

Elle ne peut pas etre factorisee sous la forme du theor`eme de Fisher-Neyman

Chapitre 2 - Concepts de linf

Le theor`eme suivant permet, `a partir dun estimateur sans biais, de construire un

de variance inferieure `a celle de .

Chapitre 3 - Estimation param

Demonstration. Comme T est exhaustive, la loi de X sachant T ne depend pas de , donc