Documente Academic
Documente Profesional
Documente Cultură
0.2
0.4
0.6
0.8
1.0
55
60
65
70
75
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Estimation param
etrique optimale
3.1 Introduction . . . . . . . . . . . . . . . . . . . .
3.2 Reduction de la variance . . . . . . . . . . . . .
3.3 Completude . . . . . . . . . . . . . . . . . . . .
3.4 Lestimation sans biais et de variance minimale
3.5 Information de Fisher et efficacite . . . . . . . .
3.5.1 Score et matrice dinformation . . . . . .
3.5.2 Information et exhaustivite . . . . . . .
3.5.3 Borne de Cramer-Rao et efficacite . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
9
10
11
13
14
18
.
.
.
.
.
.
.
.
23
23
23
27
28
29
30
32
33
. . . . . . . . .
vraisemblance
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
.
.
.
.
.
.
.
.
37
37
37
41
41
44
44
44
46
5 Tests dhypoth`
eses optimaux
5.1 Introduction . . . . . . . . . . . . . . . . . . .
5.2 Definitions . . . . . . . . . . . . . . . . . . . .
5.3 Tests dhypoth`eses simples . . . . . . . . . . .
5.4 Tests dhypoth`eses composites . . . . . . . . .
5.5 Test du rapport des vraisemblances maximales
.
.
.
.
.
.
.
.
.
.
49
49
49
50
55
56
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
`
TABLE DES MATIERES
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
8 Tests dad
equation bas
es sur la fonction de r
epartition
8.1 Problematique des tests dadequation . . . . . . . . . . .
8.2 Rappels sur les graphes de probabilite . . . . . . . . . . .
8.3 Cas dune loi enti`erement specifiee . . . . . . . . . . . . .
8.4 Cas dune famille de lois . . . . . . . . . . . . . . . . . .
9 Tests non param
etriques sur un
echantillon
9.1 Tests dechantillon . . . . . . . . . . . . . .
9.1.1 Le test de Spearman . . . . . . . . .
9.1.2 Le test de Kendall . . . . . . . . . .
9.2 Tests sur lesperance et la mediane . . . . .
9.2.1 Tests asymptotiques sur lesperance .
9.2.2 Tests sur la mediane . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
empirique
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
59
59
59
64
65
65
65
67
67
67
68
68
69
69
70
70
71
.
.
.
.
.
.
73
74
74
76
77
77
78
.
.
.
.
83
83
84
85
87
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
91
91
92
94
95
95
97
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
101
101
102
102
104
105
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
`
TABLE DES MATIERES
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
107
107
107
108
109
110
110
111
112
113
113
114
114
114
114
115
116
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
117
. 117
. 117
. 118
. 119
. 120
. 120
. 121
. 122
. 123
. 124
13 Annexe C : Introduction `
aR
13.1 Les bases de R . . . . . . . . . . . . . . . . .
13.2 Commandes pour les deux premiers TD en R
13.3 Quelques commandes utiles de R . . . . . . .
13.4 Les lois de probabilite usuelles en R . . . . .
13.5 Les principaux tests dhypoth`eses en R . . .
13.6 Les graphiques dans R . . . . . . . . . . . .
13.6.1 Graphique simple . . . . . . . . . . .
13.6.2 Autres fonctions graphiques . . . . .
13.6.3 Parametrage de la commande plot . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Bibliographie
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
127
127
128
129
130
132
132
132
133
134
135
`
TABLE DES MATIERES
Chapitre 1
Introduction
Comme son nom lindique, le cours de premier semestre de Principes et Methodes Statistiques (PMS) a presente les principes et les methodes de base dune analyse statistique
de donnees. On peut resumer rapidement son contenu de la facon suivante :
Statistique descriptive : le but est de decrire et resumer linformation contenue
dans les donnees `a laide de representations graphiques (diagrammes en batons, histogrammes, graphes de probabilite) et dindicateurs statistiques (moyenne, variance,
mediane, quantiles, ...). Tous les exemples vus portent sur des donnees unidimensionnelles. Lextension `a des descriptions de donnees multidimensionnelles sera vue
dans le cours dAnalyse Statistique Multidimensionnelle (ASM).
Statistique inf
erentielle : le but est de faire des previsions et prendre des decisions
au vu des donnees. Nous avons vu deux grandes categories de methodes :
Lestimation, ponctuelle et par intervalles de confiance, avec la methode des
moments et la methode du maximum de vraisemblance.
Les tests dhypoth`
eses, avec les tests parametriques sur un ou deux echantillons
2
et les tests du .
Le but du cours de Statistique Inferentielle Avancee (SIA) est dapprofondir et detendre
ces notions, en allant plus loin dans la theorie mathematique sous-jacente.
Nous commencerons par donner des concepts generaux sur linference statistique, en
introduisant la notion de mod`
ele statistique. Puis nous etudierons des proprietes doptimalite des notions dej`a etudiees : comment trouver un estimateur optimal ? Quest-ce
quun test optimal et comment le trouver ? Nous etudierons une nouvelle methode destimation, lestimation bay
esienne, qui ouvre un champ tr`es important de la statistique
moderne.
Nous distinguerons la statistique param
etrique, qui suppose lexistence dun mod`ele
connu avec des param`etres inconnus, et la statistique non param
etrique, qui ne fait
pas ces hypoth`eses. Dans ce contexte, nous verrons comment estimer des fonctions de
r
epartition et des densit
es de probabilit
e.
Enfin, nous etudierons des tests non param
etriques, permettant de determiner si
des observations sont independantes et de meme loi ou presentent une tendance, de tester
une moyenne ou de comparer des echantillons sans faire dhypoth`eses sur un mod`ele sousjacent, ou de tester ladequation dun mod`ele.
Chapitre 1 - Introduction
Chapitre 2
Concepts de linf
erence statistique
2.1
Le mod`
ele statistique
10
2.2
Mod`
ele param
etrique ou non param
etrique
Un mod`
ele param
etrique est un mod`ele o`
u lon suppose que le type de loi de X est
connu, mais quil depend dun param`etre inconnu, de dimension d. Alors,
la famille de
d
lois de probabilite possibles pour X peut secrire P = P ; IR .
11
Cest evidemment le cas des deux exemples. Le probl`eme principal est alors de faire
de linference statistique sur : lestimer, ponctuellement ou par regions de confiance
(intervalles si d = 1), et effectuer des tests dhypoth`eses portant sur . On fait alors de la
statistique param
etrique.
Un mod`
ele non param
etrique est un mod`ele o`
u P ne peut pas se mettre sous la
forme ci-dessus. Par exemple, P peut etre :
Dans ce cadre, il est possible de determiner des estimations, des intervalles de confiance,
deffectuer des tests dhypoth`eses. Mais les objets sur lesquels portent ces procedures
statistiques ne sont plus des param`etres de lois de probabilite. On peut vouloir estimer des
quantites reelles comme lesperance et la variance des observations. On a vu en PMS quon
pouvait utiliser la moyenne et la variance empirique des donnees. On peut aussi vouloir
estimer des fonctions, comme la fonction de repartition et la densite des observations. On
a vu en PMS quun histogramme est une estimation de densite.
En termes de tests dhypoth`eses, on peut effectuer des tests sur la valeur dune
esperance, tester si les observations sont independantes, si elles presentent une croissance,
si elles proviennent dune loi normale, tester si plusieurs echantillons proviennent de la
meme loi, etc... On fait alors de la statistique non param
etrique.
De mani`ere generale, la statistique non parametrique regroupe lensemble des methodes
statistiques qui permettent de tirer de linformation pertinente de donnees sans faire lhypoth`ese que la loi de probabilite de ces observations appartient `a une famille parametree
connue.
Un des probl`emes de la statistique parametrique est le risque derreur du a` un mauvais choix de mod`ele. Par exemple, on a vu en PMS dans lexercice sur les niveaux de
bruit `a Montreal, que lon obtient des resultats aberrants si on effectue des calculs en
supposant que des observations sont de loi exponentielle, alors quen fait elles sont de loi
normale. Lavantage de la statistique non parametrique est de ne pas etre soumise a` cet
alea. En revanche, si les observations sont bien issues dun mod`ele precis, les methodes
statistiques parametriques qui utilisent ce mod`ele seront plus performantes que celles qui
ne lutilisent pas. Il est donc egalement important detablir des methodes permettant de
determiner si des observations sont issues ou non de tel ou tel mod`ele parametrique, les
tests dadequation.
2.3
Fonction de vraisemblance
12
est :
L(; x1 , . . . , xn ) = P (X1 = x1 , . . . , Xn = xn ; ) =
n
Y
P (Xi = xi ; ).
i=1
Pour definir une fonction de vraisemblance valable dans nimporte quel mod`ele statistique, pas forcement dechantillon et pas forcement discret ou continu, il faut utiliser des
notions de theorie de la mesure.
Rappels :
Une mesure sur (X , A) est S
-finie si et seulement si il existe une suite {An }n1
dev`enements de A telle que n1 An = X et n 1, (An ) < + (X est une
union denombrable dev`enements de mesure finie).
P est absolument continue par rapport a` si et seulement si :
A A, (A) = 0 P (A) = 0.
On consid`ere un mod`ele parametrique quelconque (X , A, {P ; }). On supposera
quil existe une mesure -finie sur (X , A) telle que , la loi de P est absolument
continue par rapport a` (on dit que est la mesure dominante du mod`ele). Alors
le theor`eme de Radon-Nikodyn assure que P admet une densite par rapport a` . Cette
densite est appelee fonction de vraisemblance du mod`ele.
D
efinition 2 La fonction de vraisemblance du mod`ele (X , A, {P ; }) est la
fonction de definie par :
Z
A A, P (A) = P (X A; ) =
L(; x) d(x).
A
En toute rigueur, L nest definie qu`a une -equivalence pr`es. Mais dans la pratique,
il ny a pas dambig
uite, aussi parle-t-on bien de la fonction de vraisemblance.
Cas des mod`eles continus. Si X est un vecteur aleatoire admettant une densit
R e fX (x; )
(par rapport a` la mesure de Lebesgue), on sait bien que P (X A; ) = A fX (x; ) dx.
Donc la mesure dominante est la mesure de Lebesgue et la fonction de vraisemblance est
L(; x) = fX (x; ).
2.4 Statistiques
13
Cas des mod`eles discrets. Si X est un vecteur aleatoire de loi discr`ete, definie par les
probabilites elementaires P (X = x; ), alors :
Z
X
P (X A; ) =
P (X = x; ) =
P (X = x; ) dd (x)
A
xA
R
o`
u d est la mesure de denombrement sur X : d (A) = card(A) et A f (x) dd (x) =
P
xA f (x). Donc la fonction de vraisemblance est bien L(; x) = P (X = x; ).
Lavantage de cette definition generale est quelle permet de traiter des cas plus atypiques que les mod`eles dechantillon discrets ou continus.
Exemple. Une experience aleatoire conduit `a observer la realisation dun couple de variables aleatoires X = (Y, N ), o`
u Y est une variable aleatoire reelle (continue) et N est
une variable aleatoire enti`ere (discr`ete). Y et N ne sont pas forcement independantes.
Admettons que leur loi conjointe depende dun param`etre .
Pour calculer la vraisemblance, qui permettra destimer , il faut etre capable de
calculer des grandeurs du type P ((Y, N ) A1 A2 ; ) = P ([Y A1 ] [N A2 ]; ), o`
u
A1 est un intervalle de IR et A2 est une partie de IN. On a :
X
P ([Y A1 ] [N A2 ]; ) =
P ([Y A1 ] [N = n]; )
nA2
Z
P ([Y A1 ] [N = n]; ) dd (n)
=
A2
Z
P (Y A1 |N = n; ) P (N = n; ) dd (n)
Z Z
=
fY |N =n (y; ) dy P (N = n; ) dd (n)
A2 A1
Z Z
=
fY |N =n (y; ) P (N = n; ) dy dd (n)
A1 A2
Z Z
=
fY |N =n (y; ) P (N = n; ) dL d (y; n)
=
A2
A1 A2
2.4
Statistiques
En PMS, on a defini une statistique comme une fonction des observations, t(x). Dans
un mod`ele parametrique, cette fonction ne doit pas dependre du param`etre inconnu .
Autrement dit, elle doit etre mesurable. La definition formelle dune statistique est la
suivante.
14
D
efinition 3 Dans un mod`ele statistique (X , A, P), une statistique est une application
mesurable t de (X , A) dans un espace Y muni dune tribu B.
Rappel : une application t de (X , A) dans (Y, B) est mesurable si et seulement si B B,
lev`enement t1 (B) = [t(X) B] est dans A, cest-`a-dire A, t(A) = B A A.
Concr`etement, cela signifie que lon peut calculer la probabilite de tout ev`enement de la
forme [t(X) B], donc t ne doit pas dependre de param`etres inconnus.
Puisque x est une realisation de lelement aleatoire X, t(x) est une realisation de
lelement aleatoire T = t(X).
D
efinition 4 La loi de probabilite PT de T est appelee loi image par t et le mod`ele
(Y, B, {PT ; P P}) est le mod`
ele image par t de (X , A, P).
n
Exemple des ampoules. Le mod`ele est IR+ , B(IR+ ), exp(); IR+
. X = (X1 , . . . , Xn ),
o`
u les Xi sont des variables aleatoires independantes et de meme loi exp(). On sait
n
n
P
P
qualors T =
Xi est de loi gamma G(n, ). Donc la loi image par t(x) =
xi est la
i=1
i=1
loi G(n, ) et le mod`ele image est le mod`ele IR+ , B(IR+ ), G(n, ); IR+ .
Remarquons que le mod`ele image est de dimension 1 alors que le mod`ele initial etait
n
P
de dimension n. Autrement dit, la statistique t(x) =
xi est un resume des observations
i=1
2.5
Exhaustivit
e
On consid`ere un mod`ele statistique parametrique (X , A, P ; IRd ). On cherche `a obtenir le maximum de connaissance possible sur le param`etre a` partir de lobservation x X . Souvent, x est un vecteur (x1 , . . . , xn ) et n est tr`es grand. Il est alors
interessant de reduire les donnees en les resumant par une statistique t(x) de dimension
tr`es inferieure `a n. Il est logique de sattendre `a ce que le resume t(x) des observations
contienne moins dinformation sur que lensemble des donnees initiales. Or il existe des
statistiques qui resument les observations tout en conservant lintegralite de linformation
sur , les statistiques exhaustives.
D
efinition 6 Une statistique t est exhaustive pour si et seulement si la loi de probabilite conditionnelle de X sachant [T = t] ne depend pas de .
2.5 Exhaustivit
e
15
i=1
n
P
i=1
P (X = x|T = t) = P (X1 = x1 , . . . , Xn = xn |
n
X
Xi = t)
i=1
P
=
n
P
X 1 = x1 , . . . , X n = xn , X i = t
n
i=1
P
P
Xi = t
i=1
P (Xi = xi ) =
si
P (X1 = x1 , . . . , Xn = xn )
n
P
P
Xi = t
si
n
P
i=1
n
P
xi 6= t
xi = t
i=1
i=1
p
1p
si xi = 1
= pxi (1 p)1xi
si xi = 0
P (X1 = x1 , . . . , Xn = xn )
n
=
P
P
Xi = t
i=1
n
Q
P (Xi = xi )
i=1
P (T = t)
pxi (1 p)1xi
i=1
Cnt
pt (1 p)nt
16
Donc P (X = x|T = t) =
si
xi
n
P
(1 p)
t
Cn pt (1 p)nt
i=1
n
P
i=1
xi
n
X
1
xi = t
= t si
Cn
i=1
xi 6= t
i=1
n
P
.
1
si
x
=
t
i
Cnt i=1
n
P
n
On reconnait la loi uniforme sur (x1 , . . . , xn ) {0, 1} ; xi = t .
i=1
n
P
xi est
i=1
0
si t(x) 6= t0
P (X = x; )
=
si t(x) = t0
P (T = t0 ; )
P
Or P (T = t0 ; ) = P (t(X) = t0 ; ) =
P (X = y; ).
P (X = x|T = t0 ; ) =
y;t(y)=t0
P (X = x; )
P
=
P (X = y; )
y;t(y)=t0
g (t(x); ) h(x)
P
g (t(y); ) h(y)
y;t(y)=t0
2.5 Exhaustivit
e
17
g (t ; ) h(x)
P 0
=
g (t0 ; ) h(y)
y;t(y)=t0
h(x)
P
h(y)
y;t(y)=t0
n
Y
n
P
xi
1xi
p (1 p)
xi
= pi=1 (1 p)
n
P
xi
i=1
i=1
Cest de la forme g(
n
P
i=1
n
P
i=1
tistique exhaustive.
Exemple 2 : echantillon de loi normale N (m; 2 ). On suppose que X = (X1 , . . . , Xn ), o`
u
2
les Xi sont independantes et de meme loi N (m; ). La vraisemblance est :
L(m, 2 ; x1 , . . . , xn ) =
n
Y
fXi xi ; m, 2 =
i=1
n
Y
i=1
(xi m)2
2 2
e
n
1 X
(xi m)2
2
2 i=1
1
n e
=
2
" n
#
n
X
X
1
x2i 2m
xi + nm2
2
2 i=1
1
i=1
n e
=
2
n
n
n
n
P
P
P
P
2
2
2
qui est de la forme g ( xi , xi ); m, . Donc le couple
xi , xi est une stai=1
i=1
i=1
i=1
n
P
i=1
xi ,
n
P
x2i
= (
xn , s2n ), donc (
xn , s2n ) est une
i=1
18
Demonstration. t est exhaustive donc L(; x) = g (t(x); ) h(x). h nintervient pas dans
la maximisation de cette fonction par rapport a` , donc la statistique de maximum de
vraisemblance ne depend de x qu`a travers t(x). Par consequent, il existe une fonction
telle que = t.
n
n
P
P
= (
xn , s2n ).
Cest bien le cas de la loi normale avec t(x) =
xi , x2i et (x)
i=1
i=1
2.6
La famille exponentielle
D
efinition 7 Soit X une variable aleatoire reelle, dont la loi de probabilite depend dun
param`etre IRd . On dit que la loi de X appartient `
a la famille exponentielle si et
seulement si P (X = x; ) (cas discret) ou fX (x; ) (cas continu) est de la forme :
d
X
aj (x)j () + b(x) + ()
e j=1
La plupart des lois usuelles appartiennent a` la famille exponentielle :
Loi de Bernoulli B(p) :
p
P (X = x; p) =
1p
si x = 1
= px (1 p)1x = ex ln p + (1 x) ln(1 p)
si x = 0
p
x ln
+ ln(1 p)
1p
= ex[ln p ln(1 p)] + ln(1 p) = e
p
, b(x) = 0 et
1p
fX x; m,
2
1
=
2
(x m)2
x2
mx
m2
ln 2
2
2
2
2
2
2
e
= e 2
19
1
qui est de la forme souhaitee avec d = 2, a1 (x) = x2 , 1 (m, 2 ) = 2 , a2 (x) = x,
2
m
m
2 (m, 2 ) = 2 , b(x) = 0 et (m, 2 ) = 2 ln 2.
2
Mais par exemple, la loi de Weibull W(, ) nappartient pas `a la famille exponentielle :
x1
fX (x; , ) =
x
x
+ ( 1) ln x ln + ln
=e
e
x
ne peut pas etre mis sous la forme a(x)(, ), donc la loi de
Le lien entre famille exponentielle et exhaustivite est donne par le theor`eme de Darmois :
Th
eor`
eor`
eme de Darmois. Dans un mod`ele dechantillon (X , A, {P ;
eme 2 . Th
IRd )n , o`
u le support de la loi des observations ne depend pas de , il existe une statistiqueexhaustive si et seulement
si cette loi appartient `a la famille exponentielle. Alors
n
n
P
P
t(x) =
a1 (xi ), . . . , ad (xi ) est une statistique exhaustive.
i=1
i=1
L(; x1 , . . . , xn ) =
n
Y
fXi (xi ; ) =
i=1
n X
d
X
= e
n
Y
i=1
aj (xi )j () +
i=1 j=1
d
X
j ()
= e j=1
aj (xi )j () + b(xi ) + ()
j=1
n
X
b(xi ) + n()
i=1
n
X
i=1
aj (xi ) +
n
X
b(xi ) + n()
i=1
Le theor`eme de Fisher-Neyman permet alors den deduire que t(x) =
n
P
a1 (xi ), . . . ,
i=1
n
P
i=1
n
Y
i=1
ad (xi )
20
a:
ln L(; x1 , . . . , xn ) =
n
X
i=1
ln L(; x1 , . . . , xn ) =
ln f (xi ; ) =
ln g (t(x1 , . . . , xn ); )
i=1
Pour un i quelconque fixe dans {1, . . . , n}, on a :
2
2
2
ln L(; x1 , . . . , xn ) =
ln f (xi ; ) =
ln g (t(x1 , . . . , xn ); )
xi
xi
xi
2
=
t(x1 , . . . , xn )
ln g(y; )|y=t(x1 ,...,xn )
xi
y
Pour i et j distincts, on obtient donc :
2
2
2
2
t(x1 , . . . , xn )
ln f (xj ; )
t(x1 , . . . , xn )
ln g(y; )|y=t(x1 ,...,xn )
xj
xj
xj
y
(x; )
(y; )
ne depend pas de . Alors forcement (x; ) est de la forme (x; ) = u(x)v(). Par
2
consequent, on a
ln f (x; ) = u(x)v().
x
qui ne depend pas de . On est donc dans la situation dune fonction telle que
Do`
u
n
P
i=1
n
P
n
1P
Xi .
n i=1
i=1
n = n 1 .
LESBVM de est une fonction de cette statistique :
n
P
Xi
i=1
21
Loi normale
N (m, 2 ) : a1 (x) = x2 et a2 (x) = x, donc on retrouve le fait que
n
n
P 2 P
xi , xi ou (
xn , s2n ) est une statistique exhaustive.
i=1
i=1
n
Y
i=1
x1
i
e
xi
=
n
n
"
n
1 X
#
x
n
Y
i=1 i
1
e
xi
i=1
22
Chapitre 3
Estimation param
etrique optimale
3.1
Introduction
On se place dans un mod`ele statistique parametrique (X , A, {P ; IRd ). On
cherche a` estimer au mieux le param`etre a` partir de lobservation x a` laide dune
statistique t(x). Lestimateur T = t(X) doit verifier certaines proprietes pour etre de
bonne qualite. Il est sans biais si E(T ) = . Quand IR (d = 1), on a vu quil fallait
que lerreur quadratique moyenne EQM (T ) = E [(T )2 ] soit la plus petite possible.
Quand T est sans biais, EQM (T ) = V ar(T ). Donc pour IR, un estimateur optimal
sera un estimateur sans biais et de variance minimale (ESBVM).
En PMS, nous avons vu quun estimateur sans biais et efficace (sa variance est egale
a` la borne de Cramer-Rao) etait forcement un ESBVM, mais nous navons pas donne
de procedure generale permettant de trouver un ESBVM. Cest le but essentiel de ce
chapitre. Cela necessite dutiliser la notion dexhaustivite, vue au chapitre precedent, et
de completude, que nous allons introduire.
Les resultats seront dabord introduits dans le cas simple o`
u est de dimension 1
(sections 3.2. `a 3.4.), puis nous regarderons le cas o`
u est de dimension d quelconque en
abordant la notion dinformation de Fisher.
3.2
R
eduction de la variance
24
= E ( Z + Z )
h
i
i
h
= E ( Z)2 + E (Z )2 + 2E ( Z)(Z ) .
Les 3 termes de cette somme verifient :
h
i
1. E ( Z)2 0.
2. E [(Z )2 ] = E [(Z E(Z))2 ] = V ar(Z).
h
i
h
i
h
i
E ( Z)Z
=
=
=
=
h h
ii
E E ( Z)Z | T
dapr`es le theor`eme de lesperance totale
h h
ii
E E ( E[ | T ]) E[ | T ] | T
h
h
ii
E E[ | T ] E E[ | T ] | T
h
h
ii
E E[ | T ] E[ | T ] E[ | T ]
= 0.
h
i
= E ( Z)2 + V ar(Z), ce qui prouve que V ar(Z) V ar(),
do`
Do`
u V ar()
u le
theor`eme.
Exemple des ampoules. Mod`ele dechantillon de loi exponentielle. On souhaite estimer la
fiabilite dune ampoule `a linstant x, cest-`a-dire la probabilite quelle fonctionne toujours
au bout dune duree x :
R(x) = P (Xi > x) = ex .
3.2 R
eduction de la variance
25
n = 1/X n =
On sait que lestimateur de maximum de vraisemblance de est
n
P
n/ Xi , donc lestimateur de maximum de vraisemblance de R(x) est :
i=1
n x
n (x) = e
R
nx/
=e
n
P
i=1
Xi
.
n
0 = (n 1)/ P Xi ,
On a dit en PMS (mais sans le prouver) que lESBVM de est
n
i=1
(n1)x/
n0 (x) = e
donc on peut aussi proposer destimer R(x) par R
n
P
Xi
i=1
Mais le biais de ces estimateurs est difficile a` calculer. En effet, etant donne que
n
P
Xi
i=1
E Rn (x) =
enx/y
0
n
ey y n1 dy
(n 1)!
1X
11{Xi >x} .
n i=1
Les proprietes de cet estimateur sont faciles a` etablir. En effet, les Yi = 11{Xi >x}
sont des variables aleatoires independantes et de meme loi de Bernoulli B (P (Yi = 1)) =
B (P (Xi > x)) = B (R(x)).
La fiabilite empirique nest autre que la moyenne empirique des Yi : IRn (x) = Y n .
Donc on sait que IRn (x) est un estimateur sans biais et convergent de E(Yi ) = R(x) :
E [IRn (x)] = R(x)
On a vu que t(x) =
et
V ar [IRn (x)] =
V ar(Yi )
R(x) [1 R(x)]
=
.
n
n
n
P
i=1
n
X
#
Xi = t
i=1
#
n
n
X
1X
11{Xj >x} |
Xi = t
= E
n j=1
i=1
"
#
n
n
X
1X
=
E 11{Xj >x} |
Xi = t
n j=1
i=1
"
26
n
X
#
Xi = t
i=1
car les Xi sont interchangeables, donc toutes les esperances sont egales
n
X
= P X1 > x |
Xi = t .
i=1
Comme les Xi sont positives, il est impossible que lon ait a` la fois X1 > x et
n
P
Xi = t
i=1
f
f
X1 |
n
P
Xi =t
X1 |
i=1
(X1 ,
n
P
Xi )
n
fP
i=1
Xi
(u, t)
i=1
(u) =
(t)
Xi =t
i=1
n
P
(X1 ,
Xi )
(u, t u)
i=2
n
fP
i=1
Xi
(t)
i=1
Pour les memes raisons que precedemment, le numerateur est nul quand t u. Donc
dans lintegrale, la borne sup est en fait t au lieu de +.
Pour u < t, on a :
n
fX1 (u) f P
X1 |
n
P
Xi =t
Xi
(t u)
i=2
(u) =
n
fP
i=1
Xi
(t)
i=1
car X1 et
n
P
i=2
e
X1 |
i=2
u
n
P
n
P
Xi =t
(u) =
i=1
n1 (tu)
e
(t u)n2
(t u)n2
(n 2)!
= (n 1)
n
tn1
et tn1
(n 1)!
Do`
u:
n
X
t
(t u)n2
1
du = n1 (t u)n1 x
n1
t
t
x
i=1
(t x)n1
x n1
=
=
1
, avec x < t.
tn1
t
x n1
Donc finalement z(x, t) = 1
11{t>x} et lestimateur recherche est :
t
x n1
n
Z = 1 P
11 P
.
n
{
Xi >x}
i=1
Xi
P X1 > x |
Xi = t =
(n 1)
i=1
3.3 Compl
etude
27
3.3
Compl
etude
D
efinition 8 Une statistique t est compl`
ete ou totale si et seulement si pour toute
fonction mesurable , on a :
E [(T )] = 0, = 0 presque partout sur le support de la loi de T, cest-`a-dire
partout sauf sur un ensemble de mesure nulle.
Exemple 1 : controle de qualite. X = (X1 , . . . , Xn ), o`
u les Xi sont i.i.d. de loi de Bernoulli
n
P
B(p). On sait que t(x1 , . . . , xn ) =
xi est une statistique exhaustive pour p. Est-elle
i=1
compl`ete ?
On sait que T =
n
P
i=1
E [(T )] =
n
X
(k) P (T = k) =
n
X
k=0
k=0
k=0
En effet, comme le support de T est fini, doit etre nulle partout sur le support.
k
n
n
X
X
p
k k
nk
n
k
Or
(k) Cn p (1 p)
= (1 p)
(k) Cn
.
1
p
k=0
k=0
Soit =
n
X
p
. On a :
1p
(k) Cnk
p (1 p)
nk
= 0, p [0, 1]
k=0
n
X
k=0
Cest un polynome de degre n en qui est identiquement nul, donc tous ses coefficients
sont nuls. Par consequent, k {0, . . . , n}, (k) Cnk = 0 et donc k {0, . . . , n}, (k) =
n
P
0, ce qui prouve que t(x1 , . . . , xn ) =
xi est une statistique compl`ete.
i=1
28
n
P
i=1
+
Z
E [(T )] =
0
E [(T )] = 0, IR
n
(y)
ey y n1 dy.
(n 1)!
(y) y n1 ey dy = 0, IR+ .
3.4
i=1
29
Cela conforte lintuition : la meilleure facon destimer la probabilite quune pi`ece soit
defectueuse, cest de prendre le pourcentage de pi`eces defectueuses dans le lot controle.
n = n/
Exemple 2 : ampoules. Lestimateur de maximum de vraisemblance de est
n
P
Xi .
i=1
Propri
et
e 3 Le theor`eme de Lehmann-Scheffe reste valable si on remplace par (),
o`
u est une fonction mesurable quelconque. Autrement dit, lESBVM de () est un
estimateur sans biais de () fonction dune statistique exhaustive et compl`ete.
x n1
n
Dans lexemple des ampoules, on a vu que Z = 1 P
11 P
est un estin
{
Xi >x}
i=1
Xi
i=1
n
P
i=1
Th
eor`
eme 5 Dans un mod`ele dechantillon o`
u la loi des observations appartient `a la
n
P
famille exponentielle, si () est bijective, alors la statistique exhaustive
a(xi ) est
i=1
compl`ete.
Ce theor`eme permet de retrouver directement que
n
P
i=1
3.5
On a dit quune statistique exhaustive contenait autant dinformation sur que lobservation x toute enti`ere, mais on na pas defini ce quetait linformation sur un param`etre.
Il y a en fait plusieurs facons de la definir. On ne parlera ici que de linformation de Fisher,
mais on pourrait aussi parler de linformation de Kullback ou de Shannon. Intuitivement,
linformation mesure la capacite de lobservation a` estimer avec precision le param`etre .
En PMS, on a defini la quantite dinformation de Fisher dans le cas de mod`eles parametriques dechantillon, pour un param`etre de dimension 1 :
In () = V ar
ln L(; X1 , . . . , Xn )
"
2 #
2
= E
ln L(; X1 , . . . , Xn )
= E
ln L(; X1 , . . . , Xn )
30
Linteret principal de la quantite dinformation est quelle fournit une borne inferieure
pour la variance de nimporte quel estimateur sans biais de , grace `a linegalite FDCR :
pour nimporte quelle statistique T ,
V ar(T )
2
E(T )
In ()
1
.
In ()
Un estimateur efficace est un estimateur pour lequel linegalite FDCR est une egalite.
Si un estimateur sans biais est efficace, alors il est forcement de variance minimale et sa
variance est egale a` la borne de Cramer-Rao 1/In ().
Dans cette section, nous allons approfondir cette notion dinformation de Fisher, en
commencant par la definir pour un param`etre de dimension d quelconque.
3.5.1
d
On se place dans
un
mod`
e
le
param
e
trique
(X
,
A,
{P
;
I
R
). Le param`etre
1
..
secrit donc = . .
d
Quand on estime un param`etre de dimension d, les notions usuelles liees `a lestimation
secrivent sous forme vectorielle. Par exemple :
T1
d
1
E(T1 )
..
..
qui secrit vectoriellement
u j {1, . . . , d}, E(Tj ) = j .
= . o`
.
E(Td )
d
Lerreur quadratique moyenne de lestimateur T est
E ||T ||
d
X
Tj j
2 i
j=1
31
A A, , P (X A; ) =
A
E [(X)] =
X
Pour definir les notions qui vont suivre, on a besoin de faire les hypoth`eses suivantes :
Le support de P ne depend pas de (ce qui, par exemple, exclut la loi uniforme
sur [0, ]).
, x, L(; x) > 0.
ln L(; x) est derivable 2 fois par rapport `a chaque composante j de .
On peut deriver 2 fois sous le signe somme par rapport `a chaque composante de :
pour toute fonction mesurable g et tous j et k dans {1, . . . , d},
Z
Z
2
j k
Z
g(x) L(; x) d(x) =
g(x)
A
2
L(; x) d(x).
j k
Z1 (; X)
..
Z(; X) = ln L(; X) =
.
Zd (; X)
o`
u j {1, . . . , d}, Zj (; X) =
ln L(; X).
j
X) = 0.
de est la valeur de qui annule le score : Z(;
D
efinition 10 La matrice dinformation de Fisher I() est la matrice de covariance
du score, de terme general
Ijk () = Cov Zj (; X); Zk (; X) .
32
Propri
et
e 4 Le score est centre : E[Z(; X)] = 0.
Demonstration. j {1, . . . , d},
Z
ln L(; X) =
ln L(; x) L(; x) d(x)
E[Zj (; X)] = E
j
X j
Z L(; x)
Z
j
=
L(; x) d(x) =
L(; x) d(x)
L(; x)
X
X j
Z
=
L(; x) d(x)
dapr`es les hypoth`eses effectuees
j X
=
P (X X ) =
1=0
j
j
On en deduit que :
Ijk () = Cov Zj (; X); Zk (; X) = E Zj (; X)Zk (; X) E Zj (; X) E Zk (; X)
ln L(; X)
ln L(; X)
= E Zj (; X)Zk (; X) = E
j
k
"
2 #
2
ln L(; X) .
De la meme mani`ere, on montre que Ijk () = E
j k
Propri
et
e 5 Pour les mod`eles dechantillon de taille n, la matrice dinformation est
notee In () et verifie In () = nI1 ().
Cette propriete traduit lidee naturelle que, dans un echantillon, chaque observation
porte la meme quantite dinformation sur , et que la quantite dinformation est additive.
La demonstration de ce resultat est similaire a` celle effectuee en PMS p. 43.
3.5.2
Information et exhaustivit
e
D
efinition 11 La quantit
e dinformation dune statistique t, It (), est la quantite
dinformation du mod`ele image par t.
Si on resume les donnees x par une statistique t(x), on a dit quon sattendait a` perdre
de linformation, sauf si la statistique est exhaustive. Cest exactement ce qui se passe et
qui se traduit de la facon suivante. On presente le resultat pour IR pour simplifier.
Propri
et
e6 .
Degradation de linformation : pour toute statistique t, It () I().
Information et exhaustivite : It () = I() t est exhaustive.
3.5.3
33
Linegalite FDCR vue plus haut pour IR sexprime en fait pour de dimension
quelconque.
Th
eor`
eme 6 . In
egalit
e de Fr
(FDCR). On consid`ere
echet-Darmois-Cramer-Rao
d
un mod`ele parametrique (X , A, P ; IR ) verifiant les hypoth`eses de cette section et tel que la matrice dinformation I() soit inversible.
Soit t une statistique `a valeurs dans IRq , T la matrice de covariance de T et la
E(Ti ), 1 i q, 1 j d.
matrice de terme general ij =
j
Alors IRd , la matrice T I 1 () t est semi-definie positive.
Rappel : La matrice M est semi-definie positive si et seulement si x 6= 0, t xM x 0.
2
E(T )
V ar(T )
0.
I()
Quand d = q = 1, T = V ar(T ) et =
Z
= E T
t(x)
ln L(; X) =
ln L(; x) L(; x) d(x)
X
Z
Z
=
t(x) L(; x) d(x) =
t(x) L(; x) d(x)
X
X
=
E(T ).
2
E(T )
.
I()
34
Propri
et
e 7 i {1, . . . , q}, on a :
V ar(Ti )
d X
d
X
1
Ijk
()
j=1 k=1
E(Ti ) E(Ti )
.
j
k
En particulier,
si T est un estimateur sans biais de , on a pour tout i, E(Ti ) = i . Donc
E(Ti )
1 si i = j
= ij =
, do`
u V ar(Ti ) Iii1 (), qui est la borne de Cramer-Rao.
0
sinon
j
Lestimateur T est efficace si linegalite FDCR est une egalite.
D
efinition 12 Un estimateur sans biais T est efficace si et seulement si T = I 1 ().
Alors, pour tout i, V ar(Ti ) = Iii1 ().
Le dernier theor`eme de ce chapitre donne une condition dexistence dun estimateur
efficace dans les mod`eles dechantillon, liee a` la famille exponentielle.
Th
eor`
eme 7 Dans un mod`ele dechantillon (X , A, P ; IRd )n , la borne de Cramer-Rao ne peut etre atteinte que si P appartient `a la famille exponentielle. La vraisemblance secrit :
n X
d
X
L(; x1 , . . . , xn ) = e
aj (xi )j () +
i=1 j=1
n
X
b(xi ) + n()
i=1
Alors, `a une transformation lineaire pr`es, la seule fonction de qui peut etre estimee
efficacement est h() = A1 () (), o`
u A() est la matrice de terme generique
i ()
Aij () =
.
j
0 ()
Quand IR, on a simplement h() = 0 . On montre alors en plus que lestima ()
n
1P
h0 ()
teur efficace de h() est T =
a(Xi ) et la variance minimale est V ar(T ) =
.
n i=1
n0 ()
Exemple des ampoules : echantillon de la loi exp().
fX (x; ) = ex = ex + ln .
La loi exponentielle appartient a` la famille exponentielle avec d = 1, a(x) = x, () =
, b(x) = 0 et () = ln .
0 ()
1/
1
=
= . Donc on peut estimer efficacement 1/ mais pas
0
()
1
n
0 = (n 1)/ P Xi est lESBVM de , mais il nest pas
. Cest bien ce quon avait vu :
n
Alors h() =
i=1
efficace.
35
n
1
1P
est
a(Xi ) = X n et la variance minimale est
n i=1
h0 ()
1/2
1
=
=
.
0
n ()
n(1)
n2
1
V ar(X)
1
= E(X), 2 = V ar(X), E(X n ) = E(X) et V ar(X n ) =
.
36
Chapitre 4
Maximum de vraisemblance et
estimation bay
esienne
4.1
Introduction
On se place dans ce chapitre dans un mod`ele parametrique (X , A, P ; IRd ).
Le chapitre precedent sest interesse a` la qualite des estimateurs de dans ces mod`eles :
variance minimale et efficacite. Mais au prealable, il faut disposer de methodes permettant
dobtenir de tels estimateurs. On a vu en PMS la methode des moments et la methode
du maximum de vraisemblance. Il existe de tr`es nombreuses autres methodes destimation. Nous verrons dans ce chapitre une troisi`eme methode, de plus en plus populaire,
lestimation bayesienne. Mais dabord nous allons approfondir les proprietes des estimateurs de maximum de vraisemblance, en nous interessant a` leurs proprietes asymptotiques.
Les resultats etablis permettront en particulier de construire des intervalles de confiance
asymptotiques pour les param`etres du mod`ele sous-jacent.
4.2
Propri
et
es asymptotiques de lestimateur de maximum de vraisemblance
point (x),
alors lapplication x 7 (x)
est appelee statistique de maximum de vraisem
blance et (X) est lestimateur de maximum de vraisemblance (EMV) de . Dans la suite,
on notera plus simplement cet estimateur. On a donc :
= arg max L(; X).
38
(derivabilite, integration,...) que celles qui ont ete introduites dans la section 3.5.1 pour
definir la matrice dinformation. Dans ces conditions, lEMV est solution du syst`eme
des equations de vraisemblance :
j {1, . . . , d},
ln L(; X) = 0.
j
Mais comme le score est defini par Z(; X) = ln L(; X), est finalement la valeur
de qui annule le score :
X) = 0.
Z(;
Nous allons maintenant enoncer les proprietes asymptotiques de lEMV, vues en PMS
pour IR, pour un param`etre de dimension d quelconque. Nous nous interessons ici
uniquement aux mod`eles dechantillon, mais il existe des resultats analogues pour de
nombreux autres mod`eles. Pour un echantillon de taille n, lEMV sera note n , le score
Zn (; X) et la matrice dinformation In ().
Th
eor`
eme 8 Dans un mod`ele parametrique dechantillon (X , A, P ; IRd )n
verifiant les hypoth`eses annoncees, on a :
L
n (n ) Nd 0, I11 ()
o`
u I1 () est la matrice dinformation de Fisher pour un echantillon de taille 1 et Nd est
la loi normale dans IRd .
Interpretation : Comme E[n ] tend vers , lEMV est asymptotiquement sans biais.
Comme la matrice de covariance de n est asymptotiquement equivalente `a la borne de
Cramer-Rao [nI1 ]1 () = In1 (), lEMV est asymptotiquement efficace. Enfin, lEMV
est
ln L(; X) =
ln f (Xi ; ).
Zn (; X) =
i=1
On a dej`a vu que E [Zn (; X)] = 0 et :
2
ln L(; X) = E
Zn (; X) .
In () = V ar [Zn (; X)] = E
2
2
En particulier, I1 () = V ar
ln f (X1 ; ) = E
ln f (X1 ; ) .
4.2 Propri
et
es asymptotiques de lestimateur de maximum de vraisemblance
39
variance I1 ().
Pour eviter des confusions decriture, on va noter dans la suite 0 la vraie valeur du
param`etre .
i
Le theor`eme des accroissements finis permet decrire quil existe un n0 dans min(n , 0 ),
h
Zn (n ; X) = Zn (0 ; X) + (n 0 )
Zn (; X) 0 .
n
Or Zn (n ; X) = 0. Multiplions par 1/ n.
1
1
Zn (0 ; X) + (n 0 )
Zn (; X) 0 = 0
n
n
n
1
1
ou Zn (0 ; X) + n (n 0 )
Zn (; X) 0 = 0.
n
n
n
Or :
1
1
1
1
Zn (; X) 0 =
Zn (; X) 0
Zn (; X) +
Zn (; X) +I1 (0 )I1 (0 ).
n
n n
0 n
0
n
n
On pose :
1
Zn (; X) + I1 (0 )
0
n
2
n
1 X 2
=
ln f (Xi ; ) E
ln f (X1 ; ) .
0
n i=1 2
2
0
An =
Comme les Xi sont independantes et de meme loi, la loi des grands nombres permet
daffirmer que :
2
n
1 X 2
PS
ln f (Xi ; ) E
ln f (X1 ; )
0
n i=1 2
2
0
PS
donc An 0. On pose :
1
1
Zn (; X) 0
Zn (; X) .
n
0
n
n
i
h
PS
PS
0
PS
Bn 0.
1
PS
PS
Do`
u Zn (0 ; X) + n (n 0 ) [Bn + An I1 (0 )] = 0, avec An 0 et Bn
n
0.
40
ln f (Xi ; ) secrit :
n
X
ln f (Xi ; ) 0
Zn (; X) L
i=1
p
=p
N (0, 1).
nI1 ()
nI1 ()
Finalement, n (n 0 ) =
1
n
Zn (0 ; X)
Zn (0 ; X)
a meme limite en loi que
I1 (0 ) B
nI1 (0 )
n An
Zn (0 ; X)
1
p
=p
, cest-`a-dire la loi N 0,
, do`
u le resultat.
I1 (0 )
I1 (0 ) nI1 (0 )
Si au lieu destimer directement , on veut estimer une fonction de , on sait que (n )
est lestimateur de maximum de vraisemblance de (). Les proprietes de cet estimateur
sont donnees par le theor`eme suivant. Il porte le nom de methode delta car ce resultat
fournit une methode pour construire des intervalles de confiance asymptotiques.
Th
eor`
eme 9 . M
ethode delta. Si est une fonction de IRd dans IRq derivable par
rapport `a chaque composante de , on a :
i
h
L
n (n ) () Nq 0, ()I11 ()t ()
o`
u () est la matrice de terme general ij () =
i (), 1 i q, 1 j d.
j
n (n ) () N 0,
I1 ()
a` laide du theor`eme des accroissements finis. Il existe n0 dans
i On le montre facilement
h
min(n , ), max(n , ) tel que :
(n ) = () + (n )0 (n0 ).
i
h
L
Donc n (n ) () = n(n )0 (n0 ). Comme n(n ) N
et 0 (n0 ) 0 (), on a bien le resultat ci-dessus.
1
0,
I1 ()
Exemple des ampoules. X1 , . . . , Xn sont independantes et de meme loi exp(). Linformation de Fisher est :
X
I1 () = V ar
ln f (X; ) = V ar
ln e
1
1
= V ar
(ln X) = V ar
X = V ar(X) = 2
41
L
n )
n(
N 0, I11 () = N (0, 2 ).
2
4.3
4.3.1
n (n
42
p
Le terme nI1 () (n ) est une fonction pivotale asymptotique : fonction de et
des observations (par lintermediaire de n ), dont la loi asymptotique ne depend pas de .
Dapr`es les proprietes usuelles de la loi N (0, 1), on a donc :
p
lim P u nI1 () (n ) +u = 1
n+
= lim P
n+
"
n + p
n p
nI1 ()
nI1 ()
u
!
.
Donc n p
, n + p
est un intervalle de confiance asymptotique de
nI1 ()
nI1 ()
seuil pour . Mais cet intervalle est inutilisable a` cause du terme I1 () qui est inconnu.
Lidee naturelle est de le remplacer par I1 (n ). Pour savoir quel est limpact de cette
transformation, il faut utiliser le resultat suivant.
Th
eor`
eme 10 .Th
eor`
eme de Slutsky. Soit {Un }n1 une suite de variables aleatoires
convergeant en loi et {Vn }n1 une suite de variables aleatoires convergeant en probabilite
vers une constante c. Alors pour toute fonction continue g, la suite {g(Un , Vn )}n1 a meme
limite en loi que la suite {g(Un , c)}n1 .
L
Ici, on pose Un = n (n ) N
0,
1
.
I1 ()
q
PS p
I1 (n ) I1 (). Comme la convergence presque s
ure
q
p
P
entrane la convergence en probabilite, on a egalement I1 (n ) I1 ().
q
p
Soit g(u, v) = uv, Vn =
I1 (n ) et c =
I1 (). Le theor`eme de Slutsky perq
met decrire que g(Un , Vn ) =
nI1 (n ) (n ) a meme limite en loi que g(Un , c) =
q
p
L
nI1 () (n ), donc nI1 (n ) (n ) N (0, 1).
Alors, en appliquant la meme demarche que precedemment, on obtient la propriete
suivante.
PS
On sait que n , donc
Propri
et
e 8 Un intervalle de confiance asymptotique de seuil pour est :
u
n q u
.
, n + q
nI1 (n )
nI1 (n )
Exemple 1 : controle de qualite. X1 , . . . , Xn sont independantes et de meme loi B(p). On a
n
vu en PMS que In (p) = nI1 (p) =
. Donc un intervalle de confiance asymptotique
p(1 p)
de seuil pour p est :
"
#
r
r
pn (1 pn )
pn (1 pn )
pn u
, pn + u
.
n
n
43
Ce resultat avait ete obtenu en PMS (propriete 9) par une methode bien differente.
Exemple 2 : ampoules. X1 , . . . , Xn sont independantes et de meme loi exp(). In () =
n
nI1 () = 2 . Donc un intervalle de confiance asymptotique de seuil pour est :
#
"
u
u
n
n
n 1
n 1 +
n u ,
n + u
=
,
.
n
n
n
n
Rappelons que lintervalle de confiance exact est :
h z
i
n 2n,1/2 ,
n z2n,/2 .
2n
2n
Pour n grand, les deux intervalles de confiance sont equivalents.
Interessons-nous maintenant `a des intervalles de confiance asymptotiques pour une
fonction () du param`etre , o`
u IR et est continue et derivable. Le resultat de la
methode delta secrit :
i
0
2
h
()
L
n (n ) () N 0,
I1 ()
ou :
p
i
nI1 () h
L
(n ) () N (0, 1).
0
| ()|
On peut encore appliquer le theor`eme de Slutsky et on obtient le resultat suivant.
Propri
et
e 9 Un intervalle de confiance asymptotique de seuil pour () est :
(n ) u q| (n )| , (n ) + u q| (n )| .
nI1 (n )
nI1 (n )
0
#
nx
nx
u en x , en x + u en x .
n
n
44
4.3.2
Si IRd , on a :
L
n (n ) Nd 0, I11 () .
I1 () est une matrice symetrique definie positive, donc on peut en prendre la racine
carree et ecrire :
1/2
L
n I1 () (n ) Nd (0, Id) .
o`
u Id est la matrice identite.
Sous des conditions de regularite (continuite des composantes de I1 () par rapport
a` chaque composante de ), on peut appliquer une version vectorielle du theor`eme de
Slutsky et on obtient :
1/2
L
n I1 (n ) (n ) Nd (0, Id) .
De meme, le resultat de la methode delta secrit :
i
h
L
n (n ) () Nq 0, ()I11 ()t ()
ou :
i
1/2 h
L
n ()I11 ()t ()
(n ) () Nq (0, Id) .
4.4
4.4.1
Estimation bay
esienne
Principe de la m
ethode
45
Les donnees observees x vont maintenant etre considerees comme etant issues de la
loi conditionnelle de X sachant [T = ]. Cela signifie que la fonction de vraisemblance
secrit :
fX|T = (x)
si le mod`ele est continu
La loi de X, appelee loi marginale, est alors obtenue de la facon suivante :
R
Mod`ele discret : P (X = x) = P (X = x|T = ) fT () d
R
Mod`ele continu : fX (x) = fX|T = (x) fT () d
On peut resumer les deux cas en un seul en disant que la vraisemblance marginale
ou vraisemblance pr
edictive est :
Z
L(x) = L(; x) fT () d.
Estimer dans ce contexte va consister a` enrichir la priori sur (exprime par fT ())
a` laide de linformation apportee par lobservation x. On est alors amenes a` sinteresser `a
la loi conditionnelle de T sachant [X = x], appelee loi a posteriori. Les caracteristiques
de cette loi sont determinees grace a` la formule de Bayes :
P (B|A) =
P (B A)
P (A|B)P (B)
=
P (A)
P (A)
do`
u le nom destimation bayesienne.
La loi a posteriori est determinee par sa densite :
Mod`ele discret : fT |X=x () =
P (X = x|T = )fT ()
P (X = x|T = )fT ()
=R
.
P (X = x)
P (X = x|T = u) fT (u) du
fX|T = (x) fT ()
fX|T = (x) fT ()
=R
.
fX (x)
fX|T =u (x) fT (u) du
L(; x) fT ()
L(; x) fT ()
=
.
L(x)
L(u; x) fT (u) du
46
L(; x) fT ()
,
L(u; x) fT (u) du
on constate que lon peut multiplier fT () par une constante sans changer le resultat.
Aussi on peut sautoriser `a prendre pour fT () une fonction qui nest pas forcement
une densite de probabilite. On a alors ce quon appelle des lois a priori impropres. Bien
que surprenante, cette demarche permet daboutir `a des estimateurs bayesiens simples et
coherents.
4.4.2
Exemple du contr
ole de qualit
e
(a)(b)
.
(a + b)
47
a
a+b
et
V ar(P ) =
ab
b)2 (a
(a +
+ b + 1)
La connaissance a priori sur p peut se traduire par une valeur moyenne et une variabilite, qui permettent de donner des valeurs aux hyperparam`etres a et b.
La vraisemblance habituelle est maintenant consideree comme la densite (par rapport
a` la mesure de denombrement) de X sachant [P = p]. Autrement dit :
n
P
xi
n
P
i=1
xi
n
P
xi
i=1
n
P
(1 p)
xi
i=1
1
pa1 (1 p)b1 dp
(a, b)
n
n
Z 1 P
P
xi +a1
n
xi +b1
1
i=1
i=1
=
p
(1 p)
dp
(a, b) 0
n
n
n
n
P
P
P
P
n
xi +b1
xi + a, n
xi + b Z 1 i=1 xi +a1
p
(1 p) i=1
i=1
i=1
n
dp
=
n
P
P
(a, b)
0
xi + a, n
xi + b
i=1
i=1
n
n
P
P
xi + a, n
xi + b Z 1
i=1
i=1
n
n
=
f P
(p) dp
P
1 (
xi +a,n
xi +b)
(a, b)
0
i=1
i=1
n
n
P
P
xi + a, n
xi + b
i=1
i=1
=
(a, b)
(a, b)
n
P
xi + a, n
i=1
n
P
xi + b
i=1
n
P
n
P
n
P
xi +a1
n
xi +b1
1
pi=1
(1 p) i=1
(a, b)
xi + a, n
i=1
n
P
pi=1
xi +a1
(1 p)
n
P
i=1
xi +b1
xi + b
i=1
n
P
i=1
xi + a, n
n
P
i=1
48
p = P
n
n
P
Xi + a
i=1
Xi + a + n
i=1
n
P
=
Xi + b
Xi + a
i=1
n+a+b
i=1
1X
pn = X n =
Xi .
n i=1
On constate que les 2 estimateurs sont equivalents quand on a beaucoup de donnees.
Quand on a peu de donnees, la difference peut etre importante et depend du choix de la
priori. Cest logique : cest precisement quand on a peu de donnees quil est interessant
de compenser ce manque par de linformation a priori. A la limite, si on na pas du tout
de donnees (n = 0), on peut quand meme estimer p. En effet, dans ce cas lestimateur
a
. Cest lesperance de la loi a priori. Cest logique puisquen
bayesien est pB =
a+b
labsence de donnees, la seule base pour faire une estimation est linformation a priori.
Plus on a dobservations, plus le poids de linformation a priori diminue. La subtilite de
lestimation bayesienne est dans le dosage entre les poids respectifs des observations et de
linformation a priori.
Lignorance compl`ete sur p consiste `a prendre comme loi a priori la loi uniforme sur
[0, 1], qui nest autre que la loi 1 (1, 1). Alors lestimateur bayesien est ;
n
P
B
p =
Xi + 1
i=1
n+2
Chapitre 5
Tests dhypoth`
eses optimaux
5.1
Introduction
Les principes generaux des tests dhypoth`eses ont ete introduits dans le cours de PMS.
Rappelons les rapidement.
Un test dhypoth`eses a pour but de trancher, au vu dobservations, entre une hypoth`ese nulle H0 , et une hypoth`ese alternative H1 .
Le seuil du test est la probabilite maximale de lerreur de premi`ere esp`ece, erreur
qui consiste `a rejeter H0 a` tort (conclure H1 alors que H0 est vraie). La valeur de
est fixee par lutilisateur en fonction de la gravite des consequences de lerreur de
premi`ere esp`ece.
La puissance est liee `a la probabilite de rejeter H0 a` raison. Sa definition depend
de la nature du test (test dhypoth`eses simples ou dhypoth`eses composites).
La region critique W est lensemble des valeurs des observations pour lesquelles on
rejettera H0 .
En PMS, on a determine les regions critiques essentiellement `a laide du bon sens ou de
lintuition, ou en utilisant la dualite entre tests dhypoth`eses et intervalles de confiance.
Nous allons donner dans ce chapitre un procede systematique de construction de tests
dhypoth`eses parametriques.
Comme on ne peut pas minimiser les deux risques derreur en meme temps, on a choisi
de privilegier lerreur de premi`ere esp`ece, cest-`a-dire de construire des tests en fixant le
seuil . A fixe, le meilleur des tests possibles est celui qui minimisera la probabilite de
lerreur de deuxi`eme esp`ece, ou maximisera la puissance. Nous donnerons dans ce chapitre
les moyens de determiner des tests optimaux.
Mais pour commencer, nous allons proposer une definition plus formelle des tests
dhypoth`eses, qui va permettre delargir le cadre vu en PMS.
5.2
D
efinitions
50
D
efinition 15 Un test dhypoth`eses est d
eterministe si et seulement si est une indicatrice : (x) = 11W (x). Autrement dit, on rejettera H0 si x W et on ne rejettera pas
H0 si x
/ W.
On voit que lon retrouve ici la notion de r
egion critique. Tous les tests vus en
PMS sont deterministes. Mais la definition proposee ici est plus large : un test nest pas
forcement une indicatrice, donc on peut imaginer des tests pour lesquels la valeur de
lobservation x ne permet pas immediatement de trancher entre H0 et H1 . On va voir
quil est indispensable de definir un test de cette facon si on veut etre capables de traiter
loptimalite des tests.
Une hypoth`ese est simple si elle est reduite a` un singleton : P = P0 . Une hypoth`ese
est composite ou multiple quand elle nest pas simple : P P0 o`
u P0 nest pas reduit
a` un singleton.
5.3
Tests dhypoth`
eses simples
Un test dhypoth`
eses simples est un test dans lequel H0 et H1 sont simples. Cest
donc un test de H0 : P = P0 contre H1 : P = P1 .
D
efinition 16 Le seuil du test est = EP0 [(X)] et la puissance du test est =
EP1 [(X)].
Explication : Le seuil du test est la probabilite de rejeter `a tort H0 , cest-`a-dire la probabilite de decider que la loi de X est P1 alors quen fait la loi de X est P0 . Or on a defini
le test de sorte que (x) soit la probabilite de rejeter H0 quand lobservation est x. Pour
obtenir , il faut donc considerer (x) pour toutes les valeurs possibles de x quand la loi
de X est P0 . Autrement dit, il faut prendre lesperance de (X) sous la loi P0 .
La loi de X etant caracterisee par sa fonction de vraisemblance, on note L(P ; x) la
fonction de vraisemblance quand la loi de X est P . Alors on peut reecrire sous la forme :
Z
Z
= EP0 [(X)] = (x) dP0 (x) = (x) L(P0 ; x) d(x).
51
si L(P1 ; x) = k L(P0 ; x)
(x) =
52
si ce rapport est grand, alors P1 est plus vraisemblable que P0 et donc on rejettera H0
au profit de H1 . Et inversement si le rapport est petit.
Demonstration. Soit 0 un test tel que 0 . Il faut montrer que 0 est forcement moins
puissant que , cest-`a-dire que 0 .
Posons A(x) = (x) 0 (x), B(x) = L(P1 ; x) k L(P0 ; x) et g(x) = A(x)B(x). On
a:
Si B(x) > 0, (x) = 1, donc A(x) = 1 0 (x) 0 do`
u g(x) 0.
Si B(x) = 0, g(x) = 0.
Si B(x) < 0, (x) = 0, donc A(x) = 0 (x) 0 do`
u g(x) 0.
R
Par consequent, x X , g(x) 0, donc g(x) d(x) 0. Or :
Z
Z
Z
g(x) d(x) =
(x) L(P1 ; x) d(x) 0 (x) L(P1 ; x) d(x)
Z
Z
0
k
(x) L(P0 ; x) d(x) (x) L(P0 ; x) d(x)
= 0 k [ 0 ]
= 0 k [ 0 ] 0
Finalement 0 k [ 0 ] 0, donc 0 , ce qui prouve que est bien le
meilleur test a` son niveau de signification .
Dans un mod`ele parametrique (X , A, {P ; }), a` chaque loi P correspond un
param`etre . Donc lhypoth`ese P = P0 peut secrire = 0 et la vraisemblance
peut secrire L(P ; x) = L(; x). Les tests dhypoth`eses correspondant sont appeles tests
param
etriques. Dans le cas contraire, on parle de tests non param
etriques.
Exemple du controle de qualite. Dans le mod`ele ({0, 1}, P ({0, 1}) , {B(p); p [0, 1]})n , on
veut tester H0 : P = B(p0 )n contre H1 : P = B(p1 )n . Plus simplement, il sagit de
tester H0 : p = p0 contre H1 : p = p1 dans un mod`ele dechantillon de loi de Bernoulli.
On reconnait le probl`eme de test dhypoth`eses simples sur une proportion vu en PMS.
n
P
xi
(1 p1 )
n
P
i=1
xi
n
P
i=1
> k p0
xi
i=1
xi
(1 p)
(1 p0 )
n
P
i=1
n
P
n
x
1 p0
p1 (1 p0 ) i=1 i
> k
p0 (1 p1 )
1 p1
" n
#
X
p1 (1 p0 )
1 p0
xi ln
> ln k + n ln
p0 (1 p1 )
1 p1
i=1
xi
n
P
i=1
xi
53
p1 (1 p0 )
> 0.
p0 (1 p1 )
n
X
1 p0
1 p1
= l ,
p1 (1 p0 )
ln
p0 (1 p1 )
ln k + n ln
xi >
i=1
n
P
1 si
xi > l
i=1
n
P
si
xi = l
(x) =
i=1
n
P
0 si
xi < l
i=1
n
P
xi < l
1 si
i=1
n
P
si
xi = l
(x) =
i=1
n
P
0 si
xi > l
i=1
i=1
n
P
n
P
Sil existe l0 tel que P0
Xi > l0 = , on prend l = l0 et = 0. Sinon, il existe
n i=1
n
P
P
Xi > l0 < < P0
Xi > l0 1 . Alors on prend l = l0
forcement l0 tel que P0
i=1
i=1
n
P
P0
Xi > l0
i=1
n
.
et =
P
P0
Xi = l0
Sous H0 ,
i=1
i=1
54
o`
u, sous P1 ,
n
P
i=1
i=1
Xi np
L
i=1
np(1 p)
N (0, 1).
lim P0
n+
n
P
Xi = l
= 0. Donc il suffit de
i=1
P
!
n
X
i=1 Xi np0
l np0
,
p
p
= P0
Xi > l = P0
>
np (1 p )
np
(1
p
)
0
0
0
0
i=1
l np0
p
.
np0 (1 p0 )
p
p
On va donc prendre l = np0 + np0 (1 p0 ) 1 (1 ) = np0 + np0 (1 p0 ) u2 ,
et on obtient que le meilleur test asymptotique de seuil de H0 : p = p0 contre H1 :
p = p1 , avec p0 < p1 , est le test deterministe defini par la region critique
n
)
( n
xi np0
X
p
i=1
> u2 .
W =
xi > np0 + np0 (1 p0 ) u2 = p
i=1
np0 (1 p0 )
P
!
n
X
i=1 Xi np1
l np1
,
p
p
= P1
Xi > l = P1
>
np (1 p )
np
(1
p
)
1
1
1
1
i=1
!
p
n(p0 p1 ) + np0 (1 p0 ) u2
p
.
np1 (1 p1 )
On constate que le meilleur test de seuil pour n fini nest pas un test deterministe.
Donc la definition des tests avec des regions critiques ne suffisait pas pour determiner des
tests optimaux.
5.4
55
Tests dhypoth`
eses composites
Un test dhypoth`eses est composite quand au moins une des deux hypoth`eses est
composite. Cest donc un test de H0 : P P0 contre H1 : P P1 o`
u P0 et P1 ne
sont pas toutes les deux reduites `a un singleton.
Les tests parametriques dhypoth`eses composites les plus usuels sont :
test bilateral : test de H0 : = 0 contre H1 : 6= 0 .
tests unilateraux : test de H0 : 0 contre H1 : > 0 et test de H0 : 0
contre H1 : < 0 .
Dans ces deux exemples, H0 et H1 sont complementaires : des 2 hypoth`eses, lune est
forcement vraie. Cest ce cas qui est important en pratique.
D
efinition 18 La fonction puissance dun test dhypoth`eses composites est la fonction
: P [0, 1]
P 7 (P ) = probabilite de rejeter H0 quand la vraie loi de X est P
= EP [(X)] =
Pour les tests parametriques, la puissance peut etre consideree comme une fonction
du param`etre :
Z
() = (x) L(; x) d(x).
Pour le test bilateral, on a simplement = (0 ).
Un test est meilleur quun test 0 si P P, la probabilite de rejeter a` tort H0 est
plus forte pour 0 que pour et la probabilite de rejeter a` raison H0 est plus forte pour
que pour 0 :
P P0 , (P ) 0 (P )
et
P P1 , (P ) 0 (P ).
D
efinition 19 Un test de H0 : P P0 contre H1 : P P1 est dit uniform
ement
le plus puissant (UPP) si et seulement si tout test de seuil inferieur est moins puissant.
Autrement dit :
0 , 0 = P P1 , 0 (P ) (P ).
Dans le cas particulier des tests dhypoth`eses simples (P0 = {P0 } et P1 = {P1 }), le
test du rapport de vraisemblances donne par le lemme de Neyman-Pearson est UPP.
Il nexiste pas de theor`eme analogue au lemme de Neyman-Pearson pour les tests
composites. Pour rechercher des tests UPP, on utilise alors les resultats suivants :
56
Th
eor`
eme 12 .
1. Un test de H0 : P P0 contre H1 : P P1 est UPP si et seulement si il est
UPP de H0 : P P0 contre H1 : P = P1 , P1 P1 .
2. Soit P00 P0 . Soit un test de seuil de H0 : P P0 contre H1 : P P1 .
Si considere comme un test de P P00 contre P P1 est UPP et de seuil ,
alors est UPP.
Demonstration. 1. est immediat. Pour 2., soit 0 un test de P P0 contre P P1 de
seuil 0 . Il faut montrer que P P1 , 0 (P ) (P ).
Or sup 0 (P ) sup 0 (P ) = 0 .
P P00
P P0
5.5
sup L(; x)
Il est clair que v(x) [0, 1]. Sil existe une statistique de maximum de vraisemblance
(x),
le denominateur est sup L(; x) = L((x);
x). Ce denominateur est la vraisemblance
maximale globale alors que le numerateur peut etre considere comme la vraisemblance
maximale sous H0 .
Si (x)
0 , v(x) = 1. Comme (x)
est une bonne estimation de , si H0 est vraie,
v(x) ne doit pas etre trop loin de 1. Inversement, si v(x) est trop loin de 1, on peut douter
du fait que 0 . Do`
u lidee de construire un test qui va rejeter H0 si v(x) est trop
petit.
D
efinition 21 Le test du rapport des vraisemblances maximales est le test deterministe de la forme :
(x) = 11{v(x)<l } .
Autrement dit, sa region critique est de la forme W = {v(x) < l }.
57
1
si L(0 ; x) L(1 ; x)
L(0 ; x)
L(
;
x)
0
v(x) =
=
sup (L(0 ; x), L(1 ; x)) L(1 ; x) si L(0 ; x) < L(1 ; x)
On ne rejettera H0 que dans le second cas, ce qui signifie que :
= 11
(x) = 11 L( ; x)
= 11{L( ; x) > k L( ; x)}
1
1
0
0
{L(1 ; x) > L(0 ; x)}
< l
l
L(1 ; x)
et on retrouve bien le test du rapport de vraisemblances dans le cas o`
u il est deterministe.
Pour determiner l , il faut connatre la loi de v(X) sous H0 . Donnons le resultat dans
un cas particulier.
Propri
et
e 10 On consid`ere un mod`ele dechantillon (X , A, {P ; IRd })n et le test
bilateral de H0 : = 0 contre H1 : 6= 0 . On a :
v(x) =
L(0 ; x)
L(0 ; x)
=
.
sup L(; x)
L(n ; x)
Alors, sous H0 , on a :
L
2 ln v(X) 2d .
Donc le test deterministe dont la region critique est
W = {2 ln v(x) > zd, }
est asymptotiquement de seuil pour tester H0 contre H1 .
Demonstration. On consid`ere le cas o`
u d = 1 ( IR) et la loi des observations est continue,
de densite f . On utilise le developpement limite dej`a vu pour demontrer les proprietes
asymptotiques de lestimateur de maximum de vraisemblance, mais on le prend cette fois
a` lordre 2 :
1
2
ln L(; x) + (0 n )2 2 ln L(; x) 0 ,
ln L(0 ; x) = ln L(n ; x) + (0 n )
n
n
o`
u n0 est compris entre 0 et n .
ln L(; x) = 0. Donc on a :
n
h
i
2 ln v(X) = 2 ln L(0 ; X) ln L(n ; X)
2
= (0 n )2 2 ln L(; X) 0
n
58
= (0 n )
ln f (Xi ; ) 0
n
2 i=1
n
i2 1 X
h
2
ln f (Xi ; ) 0
= n (0 n )
n
n i=1 2
PS
PS
n 0 donc n0 0 . Par la loi des grands nombres :
2
n
1 X 2
P
S
ln f (Xi ; ) 0 E
ln f (X1 ; ) = I1 (0 ).
n
n i=1 2
2
0
Par ailleurs,
n (n 0 ) N
1
,
0,
I1 (0 )
L
I1 (0 ) n (n 0 ) N (0, 1)
h
i2
L
et I1 (0 ) n (n 0 ) 21 ,
donc
n+
d, }
.
Ce resultat est aussi valable pour dautres mod`eles que les mod`eles dechantillon (par
exemple pour des cas o`
u les Xi sont independantes mais pas de meme loi), mais malheureusement pas dans tous les cas.
Chapitre 6
Estimation non param
etrique de
quantit
es r
eelles
Comme on la dit dans lintroduction, la statistique non parametrique regroupe lensemble des methodes statistiques qui permettent de tirer de linformation pertinente de
donnees sans faire lhypoth`ese que la loi de probabilite de ces observations appartient a`
une famille parametree connue.
On se place dans le cadre dun mod`ele dechantillon : lobservation x est un vecteur
(x1 , . . . , xn ), constitue de realisations de variables aleatoires reelles X1 , . . . , Xn independantes et de meme loi, de fonction de repartition F . On notera f leur densite, si elle existe.
En statistique parametrique, la loi des Xi depend dun param`etre . Les probl`emes statistiques que lon traite consistent essentiellement a` estimer (par exemple par la methode
du maximum de vraisemblance) et `a effectuer des tests dhypoth`eses sur ce param`etre.
Lestimation du param`etre permet alors destimer toutes les caracteristiques interessantes
de la loi de probabilite sous-jacente. En particulier, on peut estimer lesperance E(X) et
la variance V ar(X) de cette loi.
Mais il nest pas necessaire davoir un cadre parametrique pour estimer ces quantites.
Le but de ce chapitre est detudier des methodes destimation non parametrique de quantites reelles, comme les moments et les quantiles de lechantillon. Pour cela, il faut dabord
introduire les outils de base de la statistique non parametrique : statistiques dordre et de
rang, loi de probabilite empirique.
Remarque. En toute rigueur, on devrait parler des moments de la loi de probabilite dun
echantillon. Pour simplifier, on parle de moments dun echantillon.
6.1
6.1.1
D
efinition 22 . La statistique dordre associee `a lechantillon X1 , . . . , Xn est le vecteur X = (X1 , . . . , Xn ). Xi est appelee la i`eme statistique dordre.
60
Remarques :
On note parfois X(i) ou X(i:n) au lieu de Xi .
e n = {(y1 , . . . , yn ) IRn ; y1 y2 yn }
X est `a valeurs dans IR
X1 = Min(X1 , . . . , Xn ),
Xn = Max(X1 , . . . , Xn ).
n
X
11{Xj <Xi }
j=1
61
Th
eor`
eme 13 . Soit X1 , . . . , Xn un echantillon dune loi continue. Alors :
1. La loi de R est la loi uniforme sur lensemble n des permutations des entiers de 1
`a n.
2. Les statistiques dordre et de rang sont independantes.
Demonstration.
1. La loi est continue donc il ny a pas dex-aequos. Les Ri prennent toutes les valeurs
enti`eres de 1 a` n, donc R est bien `a valeurs dans n . Puisque les Xi sont independantes
et de meme loi, elles sont interchangeables et les permutations sont equiprobables, do`
u
le resultat.
r = (r1 , . . . , rn ) n , P (R = r) = P (R1 = r1 , . . . , Rn = rn ) =
1
1
= .
card n
n!
rn
fn ), r n ,
Do`
u B B(IR
P (X B) =
1
P (X B) = P (R = r)P (X B) = P (X B R = r),
n!
62
i=1
Propri
et
e 12 . Si la loi des Xi est continue, X admet pour densite :
f(X1 ,...,Xn ) (x1 , . . . , xn ) = n!
n
Y
f (xi ) 11 gn (x1 , . . . , xn )
IR
i=1
fn , on a P (X B) = n! P (X
Demonstration. Etant donne que pour tout borelien B de IR
B), on obtient pour tout B :
Z
Z
f(X1 ,...,Xn ) (x1 , . . . , xn )dx1 , . . . , dxn = n! f(X1 ,...,Xn ) (x1 , . . . , xn )dx1 , . . . , dxn
B
Z
=
n!
B
n!
B
i=1
Z
=
n
Y
n
Y
i=1
do`
u le resultat.
Propri
et
e 13 . i {1, . . . , n}, la fonction de repartition de la ieme statistique dordre
Xi est :
n
X
Demonstration :
FXi (x) = P (Xi x) = P (i au moins des Xj sont inferieurs a` x)
n
X
=
P (k exactement des Xj sont inferieurs a` x)
=
k=i
n
X
k=i
=
=
n
X
k=i
n
X
63
k=i
Corollaire 2 . Si la loi des Xi est continue, alors i {1 . . . n}, Xi admet pour densite :
x IR, fXi (x) =
n!
[F (x)]i1 [1 F (x)]ni f (x).
(i 1)!(n i)!
Demonstration. Une premi`ere solution est de deriver directement lexpression de FXi (x)
donnee par la propriete 13.
Une autre facon de faire, qui permet de mieux comprendre le sens des statistiques
dordre, est la suivante :
1
1
(FXi (x + dx) FXi (x)) = lim
P (x < Xi x + dx)
dx0 dx
dx0 dx
1
P (i 1) des Xj sont x, un des Xj est compris entre x et x + dx,
dx0 dx
(n i) des Xj sont > x + dx
i1 1
ni
1 i1
= lim
Cn P (Xj x)
Cni+1 P (x < Xj x + dx) P (Xj > x + dx)
dx0 dx
1
n!
(n i + 1)[F (x)]i1 [1 F (x)]ni lim
P (x < Xj x + dx)
=
dx0 dx
(i 1)!(n i + 1)!
n!
=
[F (x)]i1 [1 F (x)]ni f (x)
(i 1)!(n i)!
=
lim
Les lois de probabilite du minimum et du maximum dun echantillon peuvent sobtenir
comme cas particuliers des resultats precedents :
X1 = Min (X1 , . . . , Xn ) :
64
Propri
et
e 14 . Pour tous r1 , . . . , rk entiers tels que 1 r1 < r2 < . . . < rk n, on a :
f(Xr1 ,...,Xrk ) (x1 , . . . , xk ) =
n!
k
Y
(r1 1)! (ri ri1 1)!(n rk )!
[F (x1 )]r1 1
k
Y
f (xi )
i=1
i=2
k
Y
[F (xi ) F (xi1 )]ri ri1 1 [1 F (xk )]nrk 11 gk (x1 , . . . , xk )
IR
i=2
6.1.2
Loi de probabilit
e empirique
La loi de probabilite empirique est une loi de probabilite creee directement a` partir de
lechantillon observe x1 , . . . , xn .
D
efinition 24 . La loi de probabilit
e empirique Pn associee `a lechantillon x1 , . . . , xn
est la loi uniforme (discr`ete) sur {x1 , . . . , xn }. Si Xe est une variable aleatoire de loi Pn ,
alors :
Xe est `a valeurs dans {x1 , . . . , xn }.
i {1, . . . , n}, P (Xe = xi ) = Pn (xi ) =
1
.
n
1X
On peut aussi ecrire Pn =
x .
n i=1 i
Les caracteristiques essentielles de la loi de probabilite empirique sont en fait des
quantites bien connues :
La fonction de repartition de la loi de probabilite empirique est la fonction de
repartition empirique Fn :
n
1
1X
P (Xe x) =
P (Xe = xi ) = nombre de xi x =
11{xi x} = Fn (x).
n
n i=1
x x
X
i
n
X
i=1
1X
xi = xn .
xi P (Xe = xi ) =
n i=1
65
mek = E[Xek ] =
1X k
x .
n i=1 i
6.2
6.2.1
n
n
n
1X
1X
1X
11{Xi x}
Xn =
Xi
Sn2 =
(Xi X n )2
n i=1
n i=1
n i=1
( 1
) si np est entier
(X + Xnp+1
en,p =
Q
2 np
Xbnpc+1
sinon
Estimation de lesp
erance dun
echantillon
Estimation ponctuelle
6.2.2
Intervalle de confiance
66
a
a
n
= P |U | n
P |X n E(X)| a = P n
(X)
(X)
(X)
o`
u U est une variable aleatoire de loi N (0, 1).
Alors, avec les notations habituelles, on a asymptotiquement :
a
(X)
P |X n E(X)| a = 1 = n
= u = a = u .
(X)
n
Et un intervalle de confiance asymptotique pour E(X) est donc :
(X)
(X)
X n u , X n + u
.
n
n
Comme dhabitude, cet intervalle de confiance est inexploitable car il est fonction de
(X), qui est inconnu. Une solution naturelle est alors de remplacer (X) par lecart-type
empirique Sn dans lexpression de lintervalle de confiance.
Il reste alors a` determiner quelles consequences a ce remplacement de lecart-type
theorique par lecart-type empirique. Pour cela, il faut utiliser le theor`eme de Slutsky, vu
au chapitre 4.
Ce theor`eme dit que, si {Un }n1 est une suite de variables aleatoires convergeant en loi
et {Vn }n1 une suite de variables aleatoires convergeant en probabilite vers une constante
c, alors pour toute fonction continue g, la suite {g(Un , Vn )}n1 a meme limite en loi que
la suite {g(Un , c)}n1 .
Ici, soit Un = n (X n E(X)). {Un }n1 converge en loi vers la loi N (0, V ar(X)).
n
1 X 2 PS
2
La loi des grands nombres appliquee aux Xi permet decrire que
X E(X 2 ).
n i=1 i
PS
Sn2
1X 2
2 PS
=
Xi X n E(X 2 ) E(X)2 = V ar(X).
n i=1
67
Sn
Sn
X n tn1,
, X n + tn1,
.
n1
n1
6.3
6.3.1
On sait dej`a que la variance empirique Sn2 est un estimateur biaise de la variance de
n
1 X
02
(Xi X n )2 est un estimateur sans
lechantillon et que la variance estimee S n =
n 1 i=1
biais et convergent en moyenne quadratique de V ar(X).
Dans la section precedente, on a montre que Sn2 converge presque s
urement vers
V ar(X). Cest evidemment aussi le cas de S 0 2n .
Enfin, on montre que, si E[X 4 ] < , alors la variance de la variance estimee est :
2
V ar(S 0 n ) =
1
[(n 1)4 (n 3)22 ]
n(n 1)
6.3.2
Intervalle de confiance
68
Propri
et
e 16 . Un intervalle de confiance asymptotique de seuil pour V ar(X) = 2
est :
q
q
02
u
u
4
02
e
0
Sn
4 S n , S n +
e4 S 0 4n
n
n
n
1X
o`
u e4 =
(Xi X n )4 .
n i=1
6.3.3
Dans la mesure o`
u la moyenne et la variance empiriques sont deux quantites calculees a` laide des memes observations, ce ne sont a priori pas des variables aleatoires
independantes.
Propri
et
e 17 . Si E(X 3 ) < , alors Cov(X n , S 0 2n ) =
3
.
n
6.4
mek mk
PS
ek k
mek mk
L
p
n
N (0, 1)
2
m2k mk
ek k
L
np
N (0, 1)
2
2
k k1 2 + 2kk1 k+1 + 2k k
Les resultats de convergence en loi et le theor`eme de Slutsky permettent dobtenir des
intervalles de confiance asymptotiques pour tous les moments.
On na pas de resultat non asymptotique, par exemple sur le biais de ces estimateurs.
Enfin, ces resultats interviennent dans letablissement des proprietes de la methode
destimation parametrique des moments.
6.5
69
en,p
Q
6.5.1
( 1
(X + Xnp+1
) si np est entier,
=
2 np
sinon.
Xbnpc+1
Propri
et
es des quantiles empiriques
Connaissant la loi dune statistique dordre et la loi conjointe dun couple de statistiques dordre, il est facile de determiner la loi dun quantile empirique, donnee par sa
densite :
Th
eor`
eme 14 . Si np est entier,
2 n!
fQen,p (x) =
(np 1)!(n np 1)!
n!
F (x)bnpc (1 F (x))nbnpc1 f (x).
bnpc!(n bnpc 1)!
Demonstration. Le cas o`
u np nest pas entier est immediat car on a directement la densite
de Xbnpc+1 .
Z Z
z+y
x
2
,X
f(Xnp
(z, y)dzdy
np+1 )
On obtient donc entre autres ainsi la loi de probabilite de la mediane dun echantillon,
mais cette loi depend de f et F , qui sont inconnues.
On a egalement un resultat sur la loi asymptotique dun quantile empirique :
Th
eor`
eme 15 . Th
eor`
eme de Mosteller :
p ]0, 1[,
en,p qp
Q
L
np
f (qp ) N (0, 1)
p(1 p)
70
6.5.2
Estimation ponctuelle
6.5.3
Intervalle de confiance
qp
Xj )
j1
X
Cnk pk (1 p)nk .
k=i
j1
X
k=j
k=i
j1
P
k=i
Cnk pk (1 p)nk .
j1
P
71
Cnk pk (1 p)nk = 1 , alors [Xi , Xj ] est
k=i
1
. On cherche donc i et j tels
2
P k
1 j1
C soit proche de 1 .
n
2 k=i n
k=i
7
1 P
k
C10
' 89%. On en deduit que [X3 , X8 ] est un intervalle
Pour n = 10, on a 10
2 k=3
de confiance de seuil approximativement egal `a 11% pour la mediane de lechantillon
1
(rappelons que la mediane empirique dans ce cas est (X5 + X6 )).
2
Linteret principal de ce resultat est quil nest pas asymptotique, ce qui est assez rare
en statistique non parametrique. Cependant, ces intervalles sont en general tr`es larges, ce
qui les rend assez peu utiles en pratique si on a peu dobservations.
que
6.6
Cnk pk (1 p)nk =
1
.
n
1
Or, pour p fixe, en faisant tendre n vers linfini, on finira forcement par avoir < p.
n
1
De meme, Xbnpc+1
= Xn bnpc = n 1 np n 1 p 1 .
n
1
Et pour p fixe, en faisant tendre n vers linfini, on finira forcement par avoir 1 > p.
n
Par consequent, les lois asymptotiques de X1 et Xn ne peuvent pas etre obtenues a`
En effet, Xbnpc+1
= X1 bnpc = 0 np < 1 p <
72
1
quand X est de loi W(1, )).
X
La constante 0 (loi de Dirac en 0) est une loi limite particuli`ere qui correspond a`
infini.
Ce qui est remarquable dans ce resultat, cest que, pour une fois, les lois asymptotiques
ne sont pas des lois normales. Il existe donc une difference de comportement notable entre
les statistiques dordre centrales et les statistiques dordre extremes.
Dun point de vue pratique, d`es quun phenom`ene peut sinterpreter comme un maximum ou un minimum (par exemple une duree de vie ou bien un pic dozone), les lois
de probabilite du theor`eme de Gnedenko peuvent etre utilisees comme mod`eles. Cest
essentiellement pour cela que les lois de Weibull et de Gumbel sont utilisees.
Chapitre 7
Estimation fonctionnelle
Les hypoth`eses de ce chapitre sont les memes que celles du chapitre precedent : on
suppose que les observations x1 , . . . , xn sont des realisations de variables aleatoires reelles
X1 , . . . , Xn independantes et de meme loi, de fonction de repartition F , et de densite f ,
si elle existe.
Dans le chapitre precedent, on sest interesse `a lestimation de quantites reelles caracteristiques de la loi de probabilite de lechantillon, les moments et les quantiles. Aussi
riches denseignement que soient ces quantites, elles ne suffisent pas `a determiner enti`erement la loi de probabilite de lechantillon.
Cest pourquoi nous allons maintenant nous interesser a` lestimation de la fonction
de repartition et, si elle existe, de la densite de lechantillon. Par rapport au chapitre
precedent, il sagit maintenant destimer des fonctions, do`
u le nom destimation fonctionnelle. De plus lune comme lautre de ces fonctions caracterisent enti`erement la loi
de probabilite de lechantillon.
La fonction de repartition empirique est un estimateur simple et performant de la
fonction de repartition de lechantillon. Il est beaucoup plus difficile destimer une densite.
On connait dej`a lestimateur de base de la densite dun echantillon, lhistogramme. Bien
que tr`es connu et tr`es utilise, il est de mediocre qualite. Aussi allons-nous proposer une
methode destimation de densite bien plus performante, la methode du noyau.
Remarquons que lestimation des quantiles peut etre consideree comme de lestimation
fonctionnelle dans la mesure o`
u estimer qp = F 1 (p) quel que soit p revient a` estimer la
fonction F 1 .
Estimer une fonction g, cest dabord estimer g(x) pour tout x donne. Il faut ensuite
juger de la qualite de lestimation de g(x) pour chaque x, puis de lestimation de g dans
son ensemble.
Si g(x) est un estimateur de g(x), la qualite de lestimation pour un x donne est
usuellement mesuree par le biais, la variance et lErreur Quadratique Moyenne (ou risque
quadratique), quon notera EQMx (
g) :
2
EQMx (
g ) = E (
g (x) g(x))2 = E(
g (x)) g(x) + V ar(
g (x)).
On voit que lerreur quadratique moyenne se decompose en un terme de biais et un
terme de variance. Si g(x) est un estimateur sans biais de g(x), lerreur quadratique
moyenne se reduit `a la variance. On verra que, si on peut trouver facilement un estimateur
sans biais pour la fonction de repartition en un point x, il nen est pas de meme pour la
74
densite. Aussi utilisera-t-on lerreur quadratique moyenne plutot que la variance dans ce
cas.
Pour juger de la qualite de lestimation de g dans son ensemble, il faut utiliser des
mesures de lecart entre g et g. Suivant les cas, on utilisera :
lErreur Quadratique Moyenne Int
egr
ee (EQMI) :
Z +
Z +
Z
2
EQM I(
g) =
EQMx (
g ) dx =
E(
g (x)) g(x) dx +
V ar(
g (x)) dx.
7.1
7.1.1
Estimation de la fonction de r
epartition
Estimation ponctuelle
Rappelons que la fonction de repartition empirique IFn de lechantillon est definie par :
n
1X
11{Xi x} = pourcentage dobservations inferieures a` x
IFn (x) =
n i=1
0.0
0.2
0.4
Fn(x)
0.6
0.8
1.0
ecdf(x)
50
100
150
200
250
n
X
i=1
tes et de meme loi de Bernouilli de param`etre P (Xi x) = F (x), donc cest une variable
aleatoire de loi B(n, F (x)).
75
On peut dire aussi que nIFn (x) est le nombre de Xi inferieurs a` x, qui peut sinterpreter
comme le nombre de fois o`
u, en n experiences identiques et independantes, un ev`enement
de probabilite P (Xi x) = F (x) sest produit. Donc cest une variable aleatoire de loi
B(n, F (x)).
On en deduit facilement les qualites de lestimation de F (x) par IFn (x).
Propri
et
e 21 . x IR , IFn (x) est un estimateur sans biais et convergent en moyenne
quadratique de F (x).
1
1
E(nIFn (x)) = nF (x) = F (x).
n
n
1
1
V ar(IFn (x)) =
V
ar(nI
F
(x))
=
nF (x)(1 F (x))
n
n2
n2
F (x)(1 F (x))
,
=
n
qui tend vers 0 quand n tend vers linfini.
PS
Demonstration. Il suffit dappliquer la loi des grands nombres aux variables aleatoires de
loi de Bernoulli 11{Xi x} :
n
1 X
PS
IFn (x) =
11{Xi x} E 11{Xi x} = F (x).
n i=1
Vue sous cet angle, la loi des grands nombres dit que la probabilite dun ev`enement
est la limite de la frequence doccurrence de cet ev`enement dans une suite dexperiences
identiques et independantes. On en deduit que lon peut estimer la probabilite que X
soit inferieure a` x, F (x), par le pourcentage dobservations inferieures a` x, IFn (x). Cette
estimation est dexcellente qualite.
Pour juger de la qualite globale de lestimation de F par IFn , on utilise le theor`eme de
Glivenko-Cantelli, qui dit que IFn est un estimateur convergent uniformement et presque
s
urement de F :
Th
eor`
eme 18 . Th
eor`
eme de Glivenko-Cantelli.
PS
On ne peut pas calculer explicitement cette erreur, mais on sait quelle tend vers 0
quand n tend vers linfini a` la vitesse 1/n.
76
7.1.2
Intervalle de confiance
Soit x fixe. Un intervalle de confiance de seuil pour F (x) est un intervalle aleatoire
I tel que P (F (x) I) = 1 .
Si on reprend la demarche vue en 6.2.2. pour lesperance de lechantillon, on va chercher
un intervalle de confiance de la forme I = [IFn (x) a , IFn (x) + a ], o`
u a est determine
en ecrivant :
P (F (x) I) = P (IFn (x) a F (x) IFn (x) + a )
= P (F (x) a IFn (x) F (x) + a )
= P (n(F (x) a ) nIFn (x) n(F (x) + a ))
bn(F (x)+a )c
= 1
On ne peut pas deduire la valeur de a de cette expression car elle implique F (x), qui
est inconnue. En revanche, on peut obtenir un resultat asymptotique par un raisonnement
similaire `a celui que lon a utilise pour lesperance.
En effet, lapplication du theor`eme central-limite sur les 11{Xi x} , variables aleatoires
independantes de loi de Bernoulli, desperance F (x) et de variance F (x)(1 F (x)) permet
decrire :
n
X
11{Xi x} nE(11{Xi x} )
i=1
p
nV ar(11{Xi x} )
a
= P (|U | n p
)
IFn (x)(1 IFn (x))
= 1
o`
u U est de loi N (0, 1).
a
u p
Do`
u np
= u et a =
IFn (x)(1 IFn (x)).
n
IFn (x)(1 IFn (x))
Et on obtient finalement :
77
Propri
et
e 23 . x IR, un intervalle de confiance asymptotique de seuil pour F (x)
est :
u p
u p
IFn (x)
IFn (x)(1 IFn (x)) , IFn (x) +
IFn (x)(1 IFn (x)) .
n
n
En fait, on a des resultats sur les intervalles de confiance pour le param`etre de la loi
binomiale qui nous donnent directement le resultat suivant :
Th
eor`
eme 19 . x IR, un intervalle de confiance exact de seuil pour F (x) est :
1
1
,
nnIFn (x)+1
nnIFn (x)
1 + nIF (x) f2(nnIFn (x)+1),2nIFn (x),/2 1 + nIF (x)+1 f2(nnIFn (x)),2(nIFn (x)+1),1/2
n
n
o`
u f1 ,2 , est le quantile dordre 1 de la loi de Fisher-Snedecor `a (1 , 2 ) degres de
liberte.
7.2
Estimation de la densit
e
Dans cette section, on suppose que la loi de lechantillon est continue et on cherche `a
estimer sa densite f . f est la derivee de F , mais la fonction de repartition empirique IFn
nest pas derivable, puisque cest une fonction en escalier. On ne peut donc pas utiliser
directement les resultats sur la fonction de repartition empirique pour estimer la densite.
On peut se demander quelle est lutilite destimer la densite alors que lon a dej`a un tr`es
bon estimateur de la fonction de repartition. La principale raison est que la forme dune
densite est beaucoup plus facile a` interpreter que celle dune fonction de repartition. Par
exemple, on pourra facilement avoir, grace a` une estimation de densite, des informations
sur la symetrie ou la multimodalite de la loi de lechantillon, alors que ce nest pas du
tout facile au seul vu de la fonction de repartition empirique. De meme, une estimation de
densite est une aide importante au choix dun mod`ele approprie pour la loi de lechantillon.
Par exemple, une densite estimee en forme de cloche symetrique peut conduire `a ladoption
dun mod`ele de loi normale.
Nous allons commencer par donner des rappels sur la methode destimation de densite la plus elementaire, celle de lhistogramme. Puis nous presenterons la methode plus
sophistiquee du noyau.
7.2.1
On se fixe une borne inferieure de lechantillon a0 < x1 et une borne superieure ak > xn .
On partitionne lintervalle ]a0 , ak ], contenant toutes les observations, en k classes ]aj1 , aj ].
La largeur de la classe j est hj = aj aj1 .
Leffectif de la classe j est le nombre dobservations appartenant `a cette classe : nj =
n
P
nj
11]aj1 ,aj ] (xi ). La frequence de la classe j est .
n
i=1
Lhistogramme est constitue de rectangles dont les bases sont les classes et dont les
aires sont egales aux frequences de ces classes. Donc lhistogramme est la fonction en
78
nj
sur la classe ]aj1 , aj ]. Cette fonction
nhj
peut secrire :
f(x) =
k
n
k
X
X
1X 1
nj
11]a ,a ] (x) =
11]a ,a ] (x)
11]aj1 ,aj ] (xi ).
nhj j1 j
n j=1 hj j1 j
i=1
j=1
ak a0
Dans lhistogramme a` pas fixe, les classes sont de meme largeur h =
. Dans ce
k
cas, la hauteur dun rectangle est proportionnelle a` leffectif de sa classe.
On a vu en PMS quil etait plus pertinent de choisir un histogramme a` classes de
meme effectif. Admettons pour simplifier que n soit divisible par k. Alors chaque classe doit
contenir n/k observations. Les limites des classes seront alors les j/k quantiles empiriques :
1
aj = qn,j/k = (xnj + xnj +1 ), j = 1, . . . , k 1;
k
2 k
Les bornes des classes sont donc cette fois aleatoires, puisquelles sont fonction des
observations.
Enfin, le polygone des frequences est la ligne brisee reliant les milieux des sommets
des rectangles, et prolongee de part et dautre de lhistogramme de facon a` ce que laire
totale delimitee par le polygone soit egale `a 1, comme pour une densite.
0.08
0.04
0.02
0.04
0.00
0.0
0.02
Density
0.06
0.06
0.08
Histogram of bruit
55
60
65
70
75
50
55
60
65
70
75
bruit
Figure 7.2 Histogramme `a classes de meme largeur et a` classes de meme effectif pour
les niveaux de bruit a` Montreal
La forme de ces histogrammes est assez proche dune cloche symetrique, ce qui nous
am`ene a` envisager lhypoth`ese que les donnees proviennent dune loi normale.
7.2.2
La m
ethode du noyau
Les histogrammes et les polygones des frequences ne sont pas des estimations tr`es
satisfaisantes de la densite de lechantillon car ce sont des fonctions en escalier et des
79
lignes brisees alors que la densite a` estimer est en general plus lisse, avec au moins sa
derivee continue.
Dautre part, lalea du au choix du nombre de classes et des bornes des classes est un
element tr`es perturbant de lanalyse, puisque des choix differents peuvent aboutir a` des
histogrammes dallures assez nettement differentes.
Lestimation par noyau a pour but de repondre `a ces deux ecueils et de proposer des
estimations de densite ayant de bonnes proprietes.
Pour cela, on commence par remarquer que la densite est la derivee de la fonction de
repartition, ce qui permet decrire pour tout x :
F (x + h) F (x h)
F (x + h) F (x)
= lim
.
h0
h0
h
2h
Donc pour un h > 0 fixe petit, on peut penser a` estimer f (x) par :
n
1
1 X
f(x) =
11]xh,x+h] (Xi ).
IFn (x + h) IFn (x h) =
2h
2nh i=1
On a alors :
E[f(x)] =
1
1
E[IFn (x + h)] E[IFn (x h)] =
F (x + h) F (x h)
2h
2h
qui tend vers f (x) quand h tend vers 0. Il faut donc faire dependre h de la taille de
lechantillon, et le faire tendre vers 0 quand n tend vers linfini, de sorte que f(x) soit un
estimateur asymptotiquement sans biais de f (x). h sera donc dorenavant note hn .
Cette demarche est proche de celle de lhistogramme au sens o`
u cela revient a` mettre x
au centre dune classe de largeur 2h et a` calculer lestimateur histogramme correspondant.
La fonction f obtenue a des sauts aux points Xi h et est constante autrement.
La grande difference par rapport `a lhistogramme est quil ny a pas de classe fixee a`
lavance : on cree une classe en chaque point o`
u on veut estimer la densite.
Lestimateur f reste une fonction en escalier. Pour obtenir quelque chose de plus lisse,
on peut remarquer que :
f(x) =
n
n
1 X1
1 X
11]xhn ,x+hn ] (Xi ) =
11{xhn <Xi x+hn }
2nhn i=1
nhn i=1 2
n
n
1 X1
x Xi
1 X
x Xi
=
11[1,+1[
=
K
nhn i=1 2
hn
nhn i=1
hn
1
o`
u K(u) = 11[1,+1[ (u).
2
La m
ethode du noyau consiste a` generaliser cette approche a` dautres fonctions K.
D
efinition 25 . Un estimateur `
a noyau de la densite f est une fonction f definie par :
n
1 X
x Xi
f (x) =
K
nhn i=1
hn
80
o`
u {hn }n1 est une suite de reels positifs appeles param`
etres de lissage ou largeurs de
la fen
etre, qui tend vers 0 quand n tend vers linfini, et K est une densite de probabilite
appelee noyau.
Les noyaux les plus communs sont :
1
le noyau rectangulaire : K(u) = 11[1,+1[ (u). Cest celui qui donne lestimateur
2
de type histogramme.
le noyau triangulaire : K(u) = (1 |u|)11[1,+1[ (u).
1
2
le noyau gaussien : K(u) = eu /2 .
2
u2
3
le noyau dEpanechnikov : K(u) = 1
11
(u).
5 [ 5,+ 5[
4 5
Dans lestimation de f (x) par le noyau rectangulaire, le meme poids est accorde a`
toutes les observations comprises entre x h et x + h. Dans les 3 derniers noyaux, le poids
dune observation est dautant plus fort quelle est proche de x.
f a les memes proprietes de continuite et de differentiabilite que K. Par exemple, si
K est le noyau gaussien, f admet des derivees de tous ordres.
Propri
et
e 24 . Un estimateur `a noyau est une densite.
Demonstration.
Z +
f(x)dx =
n Z
1 X +
x Xi
K
dx
nhn i=1
hn
n Z
1 X +
x Xi
)
=
K(u)hn du (changement de variable u =
nhn i=1
hn
n Z
1
1 X +
K(u)du = n = 1.
=
n i=1
n
Pour choisir quel noyau prendre et surtout choisir le param`etre de lissage hn , il faut
etudier la qualite de lestimation de f par f.
Comme les expressions du biais et de la variance de lestimateur a` noyau ne sont pas
simples a` traiter, on en donne des equivalents pour pouvoir etudier leur comportement
asymptotique :
Propri
et
e 25 . Si K est la densite dune loi de probabilite symetrique par rapport `
a
lorigine et de variance 2 , si f admet des derivees continues de tous ordres, alors, quand
n tend vers linfini, on a :
81
h2n 2 00
f (x).
2
Z +
f
(x)
V ar[f(x)]
K(u)2 du.
nhn
Z +
4 2 Z +
h
1
n
2
00
2
EQM I(f)
f (x) dx +
K(u)2 du.
4
nh
n
E[f(x)] f (x)
On voit que, dans lerreur quadratique moyenne integree, le terme de biais est une
fonction croissante de hn , alors que le terme de variance est une fonction decroissante de
hn . Si hn est grand, la variance sera faible, mais le biais sera fort. Si hn est petit, cest
linverse. La valeur de hn optimale, qui minimise lEQMI, realise donc un compromis entre
biais et variance.
Cette valeur optimale est une fonction de f , qui est inconnue. On ne peut donc en
donner quune valeur approchee. En pratique, on choisit souvent :
hn =
1
4 1/5 1/5
n
min s0n ,
(
qn,3/4 qn,1/4 ) .
3
1.34
En fait, la valeur optimale de hn depend aussi de K. On montre que lerreur quadratique moyenne integree minimale est obtenue en choisissant le noyau dEpanechnikov.
Mais lecart de performance entre les differents noyaux usuels est assez faible, aussi on a
plutot tendance en pratique a` choisir le noyau le plus facile a` utiliser, qui est le noyau
gaussien.
Le biais etant un O(h2n ), on voit que le biais optimal est un O(n2/5 ). Par consequent,
f(x) est un estimateur asymptotiquement sans biais de f (x), mais la convergence est lente
car n2/5 tend lentement vers 0.
De la meme facon, la variance optimale est un O(n4/5 ). Donc f(x) est un estimateur
convergent de f (x), mais la convergence est plus lente que celle de IFn (x) vers F (x) car
n4/5 tend plus lentement que n1 vers 0.
Ces deux resultats font que, pour pouvoir estimer efficacement une densite, il faut
avoir beaucoup de donnees.
Dans lexemple des niveaux de bruit, lestimation de densite par la methode du noyau
gaussien avec le param`etre de lissage ci-dessus est donnee par la commande :
> lines(density(bruit,n=200))
On obtient la figure 7.3, la densite estimee semble bien proche de celle dune loi
normale.
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
82
50
55
60
65
70
75
80
Chapitre 8
Tests dad
equation bas
es sur la
fonction de r
epartition empirique
Grace aux methodes de statistique non parametrique, il est tout `a fait possible dextraire des informations pertinentes dun echantillon sans connaitre la loi de probabilite
dont il est issu. Cependant, si cest possible, il est quand meme preferable dadopter un
mod`ele probabiliste. En effet, les estimations seront toujours plus precises dans un cadre
parametrique que dans un cadre non parametrique. Par ailleurs, un grand nombre de
procedures statistiques standard ne sont utilisables que si on fait des hypoth`eses particuli`eres sur la loi de probabilite des observations (par exemple, les tests dans les mod`eles
lineaires gaussiens).
Par consequent, il est fondamental de disposer de methodes permettant de determiner
sil est vraisemblable de considerer que des observations proviennent dun mod`ele probabiliste donne. Ces methodes sont appelees les tests dad
equation. On a vu en PMS deux
types de methodes : les graphes de probabilite, qui sont des tests dadequation graphiques,
et les tests du 2 . Nous allons dans ce chapitre etudier des tests plus puissants, qui sont
bases sur la fonction de repartition empirique.
8.1
Probl
ematique des tests dad
equation
Tester lad
equation dun echantillon (x1 , . . . , xn ) `a une loi de probabilite donnee,
cest determiner sil est vraisemblable que x1 , . . . , xn soient les realisations de variables
aleatoires X1 , . . . , Xn independantes et de cette loi.
On note F la fonction de repartition inconnue de lechantillon, que lon supposera pour
simplifier continue. Dans le cas de lois discr`etes, les procedures presentees ici necessiteront
des amenagements, pas toujours simples.
On distinguera deux cas, suivant que lon veut tester ladequation de lechantillon a`
une loi de probabilite enti`erement specifiee ou `a une famille de lois de probabilite.
Cas 1 : Test dadequation a` une loi enti`erement specifiee.
Test de H0 : F = F0 contre H1 : F 6= F0 .
Par exemple, on se demande si les observations sont issues dune loi normale de
moyenne 10 et de variance 4.
84
8.2
0.0
0.2
0.4
0.6
0.8
1.0
55
60
65
70
75
85
observations est normale. De toutes facons, il est toujours difficile devaluer visuellement
la proximite de deux courbes.
Lidee des graphes de probabilite est de chercher, a` partir de la fonction de repartition
F , une relation lineaire caracteristique de la loi `a tester. On trace alors un nuage de points
qui, si la vraie fonction de repartition est F , devraient etre approximativement alignes.
Le probl`eme essentiel de cette procedure graphique est de determiner a` partir de quand
on peut considerer que des points sont suffisamment alignes. Une idee naturelle est de
determiner la droite des moindres carres pour le nuage de points, et de considerer que
ladequation est bonne si le coefficient de correlation lineaire empirique correspondant
depasse une certaine valeur. Malheureusement, la loi de probabilite de ce coefficient de
correlation sous H0 est trop complexe pour que lon puisse construire un test dadequation
statistique simple par ce moyen.
Les graphes de probabilite sont une premi`ere etape indispensable dans une etude statistique, car ils sont faciles `a mettre en oeuvre et permettent de rejeter facilement de trop
mauvais mod`eles. Il est cependant necessaire de les completer par des tests statistiques si
lon veut obtenir des resultats plus precis.
8.3
Z
=n
86
Th
eor`
eme 20 . Sous H0 , Kn converge en loi vers la loi de Kolmogorov-Smirnov, de
+
X
2 2
+
fonction de repartition : z IR , FKS (z) = 1 2 (1)k+1 e2k z .
k=1
Ce qui est remarquable dans ce theor`eme, cest que la loi limite de Kn est la meme,
quelle que soit la loi de lechantillon. Cest en cela que la procedure est non parametrique
et cest pour cela que lon peut construire un test.
Ainsi, dans la region critique definie plus haut, k est le quantile dordre 1 de la
loi de Kolmogorov-Smirnov.
Linconvenient de ce resultat est quil nest quasymptotique. En pratique, on ne peut
utiliser ce test tel quel que pour n > 80. Pour n 80, on peut utiliser les lois exactes de
Kn , qui ont ete tabulees pour tout n, mais cest fastidieux. On pref`ere utiliser le resultat
suivant.
Propri
et
e 26 . Pour tout n 5, la variable aleatoire Dn
0.11
n + 0.12 +
n
est ap-
0.11
1
n + 0.12 +
W = Dn
> FKS (1 )
n
On montre que, sous H0 , Wn2 et A2n convergent aussi en loi vers des lois qui ne dependent
pas de F . Mais cette fois, les fonctions de repartition des lois limites nont pas dexpressions
simples, et on est obliges de se referer `a des tables. Comme pour Kn , on dispose de resultats
permettant dappliquer les tests quelle que soit la loi de lechantillon :
Propri
et
e 27 . Pour tout n 5, on a, sous H0 :
0.4 0.6
1
2
+ 2
1+
est approximativement de loi de Cramer-von Mises.
Wn
n
n
n
A2n est approximativement de loi dAnderson-Darling.
La table 8.1 donne quelques quantiles usuels des lois limites de Kolmogorov-Smirnov,
Cramer-von Mises et Anderson-Darling.
Enfin, pour calculer facilement les statistiques de test, il est pratique dutiliser le
resultat suivant.
Propri
et
e 28 . Pour i {1, . . . , n}, on pose Ui = F0 (Xi ). On a :
i
i1
87
15% 10%
5%
2.5%
1%
KS 1.138 1.224 1.358 1.480 1.628
CM 0.284 0.347 0.461 0.581 0.743
AD 1.610 1.933 2.492 3.070 3.857
Table 8.1 Valeurs usuelles des quantiles des lois de KS, CM et AD dans le cas 1
Wn2
2
n
X
1
2i 1
.
=
+
Ui
2n
12n
i=1
A2n
1X
= n +
[(2i 1 2n) ln(1 Ui ) (2i 1) ln Ui ].
n i=1
8.4
88
m est un param`
etre de position (ou de localisation) si et seulement si la loi de
X m est independante de m ou bien si et seulement si la densite de X est de la
forme f (x; m) = g(x m).
X
est independante de
1 x
ou bien si et seulement si la densite de X est de la forme f (x; ) = g
.
est un param`
etre d
echelle si et seulement si la loi de
1
xm
est de la forme f (x; m, ) = g
.
Exemples :
1
loi normale : f (x; m, ) = e
2
echelle.
loi exponentielle : f (x; ) = ex .
loi gamma : f (x; , ) =
(x m)2
2 2 . (m, ) est un param`etre de position1
est un param`etre dechelle.
x 1
e x . (, ) nest pas un param`etre de position()
echelle.
Par consequent, les methodes KS, CM et AD permettent de tester ladequation dun
echantillon `a la loi normale et `a la loi exponentielle, mais pas a` la loi gamma.
Pour les lois dont le param`etre est de position-echelle, la loi limite des statistiques
de test ne depend pas de , mais elle depend du type de loi testee et de la procedure
destimation. Aucune des lois limites na dexpression explicite, donc il faut recourir a` des
tables. Dautre part, il existe encore des modifications des statistiques de test a` effectuer
pour pouvoir utiliser les tests meme pour de petits echantillons.
Exemple 1 : la loi normale.
Les estimateurs de maximum de vraisemblance de la moyenne et la variance pour
n2 = Sn2 . Donc Ui = F (Xi ; m
n,
n2 ) =
unechantillon
n = X n et
de loi normale sont m
Xi X n
. Les modifications des statistiques sont :
Sn
0.85
89
15% 10%
5%
2.5%
1%
KS 0.775 0.819 0.895 0.995 1.035
CM 0.091 0.104 0.126 0.148 0.179
AD 0.561 0.631 0.752 0.873 1.035
Table 8.2 Valeurs usuelles des quantiles des lois de KS, CM et AD dans le cas 2 pour
la loi normale avec estimation par maximum de vraisemblance
0.2
0.5
n
Statistique de Kolmogorov-Smirnov modifiee : D
n + 0.26 + .
n
n
n2 1 + 0.16 .
Statistique de Cramer-von Mises modifiee : W
n
0.6
2
.
Statistique dAnderson-Darling modifiee : An 1 +
n
Et les valeurs usuelles des quantiles sont donnees par la table 8.3.
15% 10%
5%
2.5%
1%
KS 0.926 0.995 1.094 1.184 1.298
CM 0.148 0.175 0.222 0.271 0.338
AD 0.916 1.062 1.321 1.591 1.959
Table 8.3 Valeurs usuelles des quantiles des lois de KS, CM et AD dans le cas 2 pour
la loi exponentielle avec estimation par maximum de vraisemblance
90
Chapitre 9
Tests non param
etriques sur un
echantillon
Comme precedemment, on suppose dans ce chapitre que les observations x1 , . . . , xn
sont des realisations de variables aleatoires reelles X1 , . . . , Xn . Dans les chapitres precedents, on a suppose que les Xi etaient independantes et de meme loi. Tout ce qui a ete
fait jusquici na de sens que si cette hypoth`ese est verifiee. Il est donc fondamental de
determiner si cette hypoth`ese est valide ou pas. Les tests qui permettent dy parvenir sont
appeles tests d
echantillon.
Si on a admis que les observations forment un echantillon, on peut utiliser les procedures
destimation des moments, quantiles, fonction de repartition et densite de lechantillon,
vues precedemment. Letape statistique suivante est deffectuer des tests dhypoth`eses
sur ces quantites. Par exemple, on peut vouloir faire un test de E(X) m contre
E(X) > m. Dans ce chapitre, on se contentera detudier des tests portant sur la moyenne
et la mediane de la loi de lechantillon.
Dans les deux cas, on supposera que la loi est continue et on utilisera les statistiques
de rang pour effectuer les tests. En effet, on a vu que, si la loi de lechantillon est continue,
alors la loi des statistiques de rang ne depend pas de la loi de lechantillon.
9.1
Tests d
echantillon
92
Ou bien, si les Xi sont les durees de bon fonctionnement successives entre les pannes
dun syst`eme reparable, lusure va faire en sorte que les pannes se produiront de plus en
plus souvent, donc les Xi seront de plus en plus petits (H2 ).
Il est necessaire de definir ce que lon entend par des variables aleatoires de plus en
plus grandes. Cela peut vouloir dire par exemple que la suite des E(Xi ) est croissante. On
peut en fait definir plusieurs ordres de ce type, appeles ordres stochastiques. Lordre
le plus frequemment retenu est le suivant :
D
efinition 26 . On dira que la suite de variables aleatoires {Xi }i1 est stochastiquement croissante (resp. decroissante) si et seulement si les fonctions de repartition des
Xi diminuent (resp. augmentent) au sens o`
u:
x IR,
En effet, pour nimporte quel x, si Xi est plus petit que Xj , Xi a une plus forte
chance que Xj detre inferieure `a x.
On se contentera ici detudier les hypoth`eses :
H1 : Les Xi sont stochastiquement croissantes
H2 : Les Xi sont stochastiquement decroissantes
sachant que dautres alternatives sont possibles comme par exemple :
Les Xi sont stochastiquement periodiques
Les Xi sont de meme moyenne mais de variances croissantes
Sous H0 , les Xi sont i.i.d. donc leur ordre na aucune importance. Ce nest evidemment
pas le cas sous H1 et H2 . Il semble donc logique dutiliser les statistiques dordre et de
rang pour construire les tests.
Remarque. Noublions pas que le resultat dun test nest probant que si on rejette H0 .
Donc on pourra eventuellement conclure quil nest pas improbable que les Xi forment un
echantillon, mais on ne pourra jamais accepter cette hypoth`ese.
9.1.1
Le test de Spearman
La premi`ere idee consiste a` etudier le lien entre les rangs Ri des observations et leurs
indices i. En effet, si les Xi sont strictement croissants, alors les observations sont directement ordonnees dans lordre croissant, donc i, Ri = i. Inversement, si les Xi sont
strictement decroissants, alors i, Ri = n i + 1.
Do`
u lidee dutiliser le coefficient de correlation lineaire empirique entre les rangs et
les indices, RRI,n . Sous H1 , RRI,n doit etre proche de 1, sous H2 il doit etre proche de -1,
et sous H0 , il doit etre proche de 0.
n
1X
nin
Ri i R
n i=1
cRI
=s
.
RRI,n =
n
n
sR sI
1 X 2 2 1 X 2 2
R Rn
i in
n i=1 i
n i=1
9.1 Tests d
echantillon
93
Par
de la forme
exemple, un
test de H0 contre H1 de seuil aura une region critique
W = RRI,n > k . k est determine en ecrivant que PH0 RRI,n > k = . Il faut donc
connaitre la loi de RRI,n sous H0 pour effectuer le test : k sera le quantile dordre 1
de cette loi.
n
n
n
1 n(n + 1)
n+1
1P
n = 1 P Ri = 1 P i = n + 1 , car, sil
i=
=
et R
On a in =
n i=1
n
2
2
n i=1
n i=1
2
n
n
P
P
ny a pas dex-aequos (loi continue), alors pour toute fonction ,
(Ri ) =
(i).
i=1
i=1
De meme,
n
s2R
s2I
1 X 2 2
1 n(n + 1)(2n + 1)
n + 1 2
=
i in =
n i=1
n
6
2
n + 1 2n + 1 n + 1 n + 1
(n + 1)(n 1)
=
[4n + 2 3n 3] =
2
3
2
12
12
n2 1
=
12
Do`
u RRI,n
1X
n + 1 2
Ri i
n
n
2
P
n+1
12
Ri i 3
.
= i=1 2
=
2
n 1
n(n 1) i=1
n1
12
Sachant que la loi du vecteur des rangs R = (R1 , . . . , Rn ) sous H0 est la loi uniforme
sur lensemble des permutations des entiers de 1 a` n, il est possible den deduire la loi de
RRI,n sous H0 . Cette loi est appelee loi de Spearman. Do`
u le test dechantillon suivant :
D
efinition 27 . Le test de Spearman est le test dechantillon base sur la statistique
n
P
12
n+1
RRI,n =
R
i
3
. Plus precisement, on a :
i
n(n2 1) i=1
n1
Test de H0 contre H1 (test de croissance) : W = RRI,n > sn, ,
Test de H0 contre H2 (test de decroissance) : W = RRI,n < sn,1 ,
o`
u sn, est le quantile dordre 1 de la loi de Spearman de param`etre n.
Il existe une table des quantiles de la loi de Spearman. Mais quand la taille de
lechantillon est suffisamment grande, on utilise les resultats suivants.
Propri
et
e 30 .
Sous H0 , pour n > 10,
n2 q
RRI,n
2
1 RRI,n
St(n 2).
L
Sous H0 , n 1 RRI,n N (0, 1).
94
En pratique, pour n < 10, on utilise la table de la loi de Spearman. Pour 11 n 30,
on utilise lapproximation de Student, et pour n > 30, on utilise lapproximation normale.
9.1.2
Le test de Kendall
Si les Xi sont strictement croissants, alors (i, j), i < j Xi < Xj . Inversement, si
les Xi sont strictement decroissants, alors (i, j), i < j Xi > Xj .
Do`
u lidee de compter le nombre Qn de couples (i, j) tels que i < j et Xi < Xj :
n1
n
P P
Qn =
11{Xi <Xj } . Le nombre total de couples (i, j) tels que i < j est le nombre de
i=1 j=i+1
n(n 1)
.
2
n(n 1)
, et sous H2 , Qn doit etre proche de
2
n(n 1)
1
.
0. Sous H0 , (i, j), P (Xi < Xj ) = . Donc Qn doit etre proche de
2
4
Donc, sous H1 , Qn doit etre proche de
4Qn
1.
n(n 1)
n est appelee le tau de Kendall. Sous H1 , n doit etre proche de 1, sous H2 , n doit etre
proche de -1 et sous H0 , n doit etre proche de 0. Ainsi linterpretation de n est similaire
a` celle du coefficient de correlation de Spearman. On peut determiner la loi de n sous
H0 , appelee loi de Kendall.
Pour rendre la statistique de test plus facile a` interpreter, on pose n =
D
efinition 28 . Le test de Kendall est le test dechantillon base sur la statistique
n1
n
P P
4
11{Xi <Xj } 1. Plus precisement, on a :
n =
n(n 1) i=1 j=i+1
Test de H0 contre H1 (test de croissance) : W = n > kn,
Test de H0 contre H2 (test de decroissance) : W = n < kn,1
o`
u kn, est le quantile dordre 1 de la loi de Kendall de param`etre n.
s
Propri
et
e 31 . Sous H0 ,
9n(n 1)
L
n N (0, 1).
2(2n + 5)
9.2
95
Dans cette section, on suppose que les observations forment un echantillon, ce qui a
pu etre confirme par les tests de la section precedente. On peut alors vouloir effectuer des
tests dhypoth`eses sur les diverses caracteristiques de la loi de lechantillon.
Les tests les plus utilises portent sur la valeur de lesperance de lechantillon. On a vu
dans le chapitre 2 que le moyenne empirique X n est un excellent estimateur de E(X). Il
est donc logique de construire des tests sur lesperance `a partir de la moyenne empirique.
Mais comme on ne connait que la loi asymptotique de X n , seuls des tests asymptotiques
seront possibles.
Au lieu de faire porter les tests sur lesperance de la loi, il est aussi interessant de les
faire porter sur la mediane de cette loi. Il sav`ere quil est plus facile de construire des
tests sur la mediane que des tests sur lesperance a` partir des statistiques de rang. Par
ailleurs, esperance et mediane sont egales dans le cas des lois symetriques.
9.2.1
Les hypoth`eses des tests portant sur lesperance de lechantillon sont les suivantes :
H0 : E(X) = m
H1 : E(X) 6= m
H2 : E(X) m
H3 : E(X) m
W =
96
X n E(X) k E(X)
sup P ( n
> n
)
Sn
Sn
E(X)m
k E(X)
1 n
, o`
u est la fonction
Sn
E(X)m
de repartition de la loi normale centree-reduite.
Donc asymptotiquement, =
sup
k E(X)
n
est une fonction croissante
Sn
de E(X). Par consequent, son maximum quand E(X) m est atteint pour E(X) = m.
k m
k m
= 1 (1 ) = u2 et
On en deduit que = 1 n
, do`
u n
Sn
Sn
u2 Sn
finalement k = m + .
n
est une fonction croissante, donc 1
u2 Sn
Le test de H3 contre H2 aura donc comme region critique W = X n > m +
,
n
Xn m
ce quon peut aussi ecrire sous la forme plus pratique W =
n > u2 .
Sn
Le test symetrique de H2 contre H3 setablit de la meme mani`ere et on obtient au
bout du compte la propriete suivante.
Propri
et
e 32 . Tests asymptotiques de seuil sur lesperance de lechantillon, parfois
appeles tests de Student :
Test de H3 : E(X) m contre H2 : E(X) > m : W =
Test de H2 : E(X) m contre H3 : E(X) < m : W =
Xn m
n > u2 .
Sn
Xn m
n < u2 .
Sn
X n m
Test de H0 : E(X) = m contre H1 : E(X) 6= m : W =
n > u .
Sn
Linconvenient de ces tests est quils sont asymptotiques, donc ils ne sont pas valables
pour des echantillons de petite taille.
En pratique, on peut disposer de tests valables meme pour de petits echantillons,
`a condition de supposer en plus que la loi de lechantillon est symetrique. Le principe
est deffectuer des tests portant sur la mediane, puisque, quand la loi est symetrique, la
mediane q1/2 est egale a` lesperance E(X).
9.2.2
97
Tests sur la m
ediane
Dans cette section, on va sinteresser `a des tests non parametriques portant sur la
mediane q1/2 . Quand la loi est symetrique, ces tests pourront etre consideres comme des
tests sur lesperance de lechantillon.
Les hypoth`eses des tests portant sur la mediane de lechantillon sont les suivantes :
H0 : q1/2 = m,
H1 : q1/2 6= m,
H2 : q1/2 m,
H3 : q1/2 m.
Sous H0 , il y a une chance sur deux quune observation soit inferieure `a m et une
chance sur deux quelle soit superieure a` m.
9.2.2.1. Le test du signe
Le principe de ce test est de considerer le nombre dobservations superieures `a m,
n
P
appele statistique du signe : Sn+ =
11{Xi >m} .
i=1
1
Sous H0 , puisque la probabilite quune observation soit superieure a` m est , Sn+ doit
2
n
+
+
etre proche de . Sous H2 , Sn doit etre grand et sous H3 , Sn doit etre petit. Sous
2
n
+
H1 , Sn doit etre eloigne de .
2
Propri
et
e 33 . Sn+ est de loi binomiale B(n, 1 F (m)). Sous H0 , Sn+ est de loi B n,
1
.
2
sup P (Sn+
H3
n
X
i=bk c+1
> k ) = sup
Cni
(k ) = 1 F
1F
q1/2 m
1 i
1 ni
1
1
= n
2
2
2
B n,1F (m)
n
X
B n, 21
(k )
Cni .
i=bk c+1
Le probl`eme est que la fonction de repartition de la loi binomiale nest pas inversible.
Donc il nest pas forcement possible, pour un donne, de trouver k verifiant lequation
ci-dessus. Cela signifie quon ne peut effectuer le test que pour quelques valeurs de bien
determinees.
98
>
)=1
n
n
n
2k n
n + nu2
1
do`
u
= (1 ) = u2 et k =
.
2
n
+
n + nu2
Le test de H3 contre H2 aura donc comme region critique W = Sn >
,
2
2Sn+ n
> u2 .
ce quon peut aussi ecrire sous la forme plus pratique W =
n
Finalement, on obtient :
= PH0 (Sn+ > k ) = PH0
D
efinition 29 . Le test du signe est le test sur la mediane base sur la statistique
n
X
11{Xi >m} . Plus precisement, on a, asymptotiquement :
Sn+ =
i=1
2Sn+ n
> m : W =
> u2 .
n
+
2Sn n
< m : W =
< u2 .
n
+
2Sn n
> u .
6= m : W =
n
En pratique, on admet que lapproximation normale est valide d`es que n > 10.
9.2.2.2. Le test des rangs sign
es de Wilcoxon
Dans cette section, on suppose que m = 0. Il est possible de generaliser a` m quelconque.
D
efinition 30 Le vecteur des rangs sign
es associe `a lechantillon (X1 , . . . , Xn ) est le
+
+
+
vecteur R = (R1 , . . . , Rn ) defini par :
i {1, . . . , n},
Ri+
= 1+
n
X
11{|Xj |<|Xi |}
j=1
99
Les rangs signes Ri+ sont aux |Xi | ce que les rangs Ri sont aux Xi .
Exemple : n = 5.
xi
xi
ri
|xi |
|xi |
ri+
D
efinition 31 . Le test des rangs sign
es de Wilcoxon est le test de nullite de la
mediane base sur la somme des rangs signes des observations strictement positives, appele
n
P
statistique des rangs sign
es de Wilcoxon : Wn+ =
Ri+ 11{Xi >0} .
i=1
Lidee est que, sous H2 : q1/2 > 0, il y aura plus de Xi positifs que de Xi negatifs,
et que les valeurs absolues des Xi positifs seront dans lensemble plus grandes que les
valeurs absolues des Xi negatifs. Donc, sous H2 , Wn+ sera grand. Reciproquement, sous
H3 , Wn+ sera petit.
Propri
et
e 34 .
n(n + 1)
Wn+ est `a valeurs dans 0, . . . ,
.
2
X
Wn+ =
11{Xi +Xj >0} .
1ijn
Wn+ =
1i<jn
Sous H0 , E(Wn+ ) =
n(n + 1)
n(n + 1)(2n + 1)
et V ar(Wn+ ) =
.
4
24
n(n + 1)
Wn+
L
4
Sous H0 , r
N (0, 1).
n(n + 1)(2n + 1)
24
En pratique, pour n 15, on utilise une table de la loi de Wn+ sous H0 . Pour n > 15,
on utilise lapproximation gaussienne.
On montre que le test des rangs signes est plus puissant que le test du signe. De plus,
il est utilisable sans probl`emes meme pour les tr`es petits echantillons. Donc il est conseille
dutiliser le test des rangs signes plutot que le test du signe.
100
Chapitre 10
Tests non param
etriques sur
plusieurs
echantillons
Dans ce chapitre, on suppose que lon dispose de plusieurs echantillons, que lon souhaite comparer. Par exemple, il peut sagir des resultats de lapplication de plusieurs
traitements dune meme maladie `a plusieurs groupes de malades. Il est important de
determiner si les traitements ont des efficacites comparables ou si lun sav`ere plus efficace que les autres. Mathematiquement, cela revient a` comparer les lois de probabilite
de chaque echantillon. Dans un contexte parametrique, on dispose pour cela de methodes
bien connues comme lanalyse de variance. On sinteressera dans ce chapitre a` un point
de vue non parametrique sur ce probl`eme.
La situation de base est la comparaison de deux echantillons independants, notes
X1 , . . . , Xn1 et Y1 , . . . , Yn2 . Les Xi sont supposes independants et de meme loi, de fonction
de repartition F inconnue, et les Yj sont supposes independants et de meme loi, de fonction
de repartition G inconnue. Tester lhypoth`ese que les deux echantillons sont issus de la
meme loi de probabilite, cest tester :
H0 : F = G contre H1 : F 6= G.
Mais on peut aussi sinteresser aux hypoth`eses :
H2 : F > G, qui signifie que les Xi sont stochastiquement inferieurs aux Yj .
H3 : F < G, qui signifie que les Xi sont stochastiquement superieurs aux Yj .
Cest ce genre dhypoth`eses que lon utilisera si on cherche a` determiner si un traitement est plus efficace quun autre.
Pour pouvoir utiliser les proprietes des statistiques de rang, on se contentera detudier
le cas o`
u les lois des echantillons sont continues.
10.1
Test de Kolmogorov-Smirnov
Si les deux echantillons proviennent de la meme loi, ils ont la meme fonction de
repartition, donc leurs fonctions de repartition empiriques IFn1 et Gn2 doivent etre tr`es
proches. Le test de Kolmogorov-Smirnov
consiste `a rejeter H0 : F = G si et seulement
si Dn1 ,n2 = sup IFn1 (x) Gn2 (x) est trop grand.
xIR
102
n1 n2
Dn ,n a une loi
n1 + n2 1 2
de probabilite qui ne depend pas de F et converge en loi vers la loi de Kolmogorov-Smirnov.
Donc le test de comparaison dechantillon resultant est similaire au test dadequation de
Kolmogorov-Smirnov.
Si n1 = n2 = m, la loi de Dm,m sous H0 est tr`es simple et a une expression explicite
meme pour m fini :
On montre alors que, sous H0 , la variable aleatoire Kn1 ,n2 =
bm/kc
X
(m!)2
k
=2
(1)j+1
k IN, P Dm,m
m
(m jk)!(m + jk)!
i=1
10.2
Tests de rang
Pour un seul echantillon, on a utilise le fait que le vecteur des rangs a une loi de
probabilite independante de la loi de lechantillon (loi uniforme sur lensemble n des
permutations des entiers de 1 a` n). Dans le cas de deux echantillons, on a une propriete
equivalente.
Th
eor`
eme 21 . Soient S et R les vecteurs des rangs respectifs de (X1 , . . . , Xn1 ) et
(Y1 , . . . , Yn2 ) lorsque ces n = n1 + n2 variables aleatoires sont ordonnees toutes ensemble.
Alors, sous H0 : F = G, on a :
(S, R) est de loi uniforme sur n .
n2 !
.
n!
n1 !
.
r = (r1 , . . . , rn2 ), {r1 , . . . , rn2 } {1, . . . , n}, P (R = r) =
n!
s = (s1 , . . . , sn1 ), {s1 , . . . , sn1 } {1, . . . , n}, P (S = s) =
10.2.1
Le test de la m
ediane
Lidee de ce test est que, si les Xi sont stochastiquement inferieurs aux Yj , alors les
rangs des Xi dans lechantillon complet (les Si ) seront dans lensemble inferieurs aux rangs
103
n2
X
j=1
Sous H2 , Mn1 ,n2 doit etre grand, sous H3 , Mn1 ,n2 doit etre petit, et sous H0 , Mn1 ,n2
doit etre ni grand, ni petit.
Propri
et
e 35 . Sous H0 , Mn1 ,n2 est de loi hypergeometrique :
n
H n, n2 ,
si n est pair.
2
n1
H n, n2 ,
si n est impair.
2
Demonstration. Rappelons quune variable aleatoire K est de loi hypergeometrique H(N,
m, n) si et seulement si on est dans la situation suivante : on a N objets dont m ont une
certaine caracteristique ; on tire n objets sans remise parmi ces N ; K represente alors le
nombre dobjets possedant la caracteristique en question parmi les n tires.
Ici, on a n observations parmi lesquelles n2 sont des Yj et Mn1 ,n2 represente le nombre
de Yj parmi les observations strictement superieures `a la mediane. Celles-ci sont au nombre
n1
n
de si n est pair et
si n est impair.
2
2
Connaissant lesperance et la variance de la loi hypergeometrique, on peut en deduire
celles de la statistique de la mediane sous H0 . Un argument de type theor`eme central-limite
permet den deduire la loi asymptotique de Mn1 ,n2 sous H0 .
Propri
et
e 36 . Sous H0 ,
2Mn1 ,n2 n2 L
n N (0, 1).
n1 n2
Finalement, on a :
D
efinition 33 : Le test de la m
ediane est le test de comparaison de deux echantillons
n2
P
base sur la statistique de la mediane Mn1 ,n2 =
11{Rj > n+1 } .
j=1
Les regions critiques des differents tests possibles sont etablis `a laide des quantiles des
lois hypergeometrique ou normale. En pratique, on consid`ere que lapproximation normale
est valide si n1 8 et n2 8.
104
10.2.2
Le test de Wilcoxon-Mann-Whitney
Le principe de ce test est similaire `a celui du test de la mediane : si les Yj sont dans
lensemble superieurs aux Xi , alors les rangs Rj des Yj seront dans lensemble superieurs
aux rangs Si des Xi dans lechantillon complet.
D
efinition 34 : La statistique de Wilcoxon Wn1 ,n2 est la somme des rangs des observations du deuxi`eme echantillon dans lechantillon complet :
Wn1 ,n2 =
n2
X
Rj .
j=1
n2
P
n2 (n2 + 1)
.
2
j=1
n1P
+n2
n2 (n2 + 1)
Inversement, si les Yj sont tous superieurs aux Xi , Wn1 ,n2 =
j=
+ n1 n2 .
2
j=n1 +1
Sous H0 , le melange des deux echantillons est homog`ene, donc Wn1 ,n2 devrait etre de
n2 (n2 + 1) n1 n2
n2 (n + 1)
lordre de
+
=
.
2
2
2
Par consequent, sous H2 , Wn1 ,n2 doit etre grand, sous H3 , Wn1 ,n2 doit etre petit,
n2 (n + 1)
.
et sous H0 , Wn1 ,n2 doit etre proche de
2
Dans le cas extreme o`
u les Yj sont tous inferieurs aux Xi , Wn1 ,n2 =
j=
D
efinition 35 . Le test de Wilcoxon est le test de comparaison de deux echantillons
base sur la statistique de Wilcoxon.
Propri
et
e 37 . Sous H0 ,
Quand n est petit, on utilise des tables de la loi de la statistique de Wilcoxon sous H0 .
En pratique, on consid`ere que lapproximation normale est valide si n1 8 et n2 8.
On peut aborder le probl`eme differemment, en remarquant que, sous H0 , comme les
1
Xi et les Yj sont independants et de meme loi, on a (i, j), P (Xi Yj ) = .
2
D
efinition 36 . La statistique de Mann-Whitney est le nombre de couples (i, j) tels
que Xi Yj :
n1 X
n2
X
Un1 ,n2 =
11{Xi Yj } .
i=1 j=1
Sous H0 , Un1 ,n2 doit etre de lordre de la moitie des couples (Xi , Yj ) possibles, `a savoir
n1 n2
. Sous H2 , Un1 ,n2 doit etre grand, et sous H3 , Un1 ,n2 doit etre petit.
2
105
D
efinition 37 . Le test de Mann-Whitney est le test de comparaison de deux echantillons
base sur la statistique de Mann-Whitney.
2Un ,n n1 n2 L
Propri
et
e 38 . Sous H0 , p 1 2
3 N (0, 1).
(n + 1)n1 n2
La condition de validite de lapproximation normale est la meme que pour les tests
precedents : n1 8 et n2 8.
Propri
et
e 39 . Un1 ,n2 = Wn1 ,n2
n2 (n2 + 1)
.
2
Cette propriete a pour consequence que les tests de Mann-Whitney et Wilcoxon sont en
fait equivalents, au sens o`
u ils donneront exactement la meme reponse. Cest pourquoi on
peut utiliser indifferemment lun ou lautre, en leur donnant le nom de test de WilcoxonMann-Whitney.
On montre que ce test est globalement plus puissant que le test de KolmogorovSmirnov et le test de la mediane.
10.2.3
Le test de Kruskal-Wallis
R =
ni
X
Rji = somme des rangs des observations du i`eme echantillon dans lechantillon
j=1
global.
D
efinition 38 . Le test de Kruskal-Wallis est le test de comparaison de k echantillons
base sur la statistique de Kruskal-Wallis :
k
X Ri
12
3(n + 1)
Kn =
n(n + 1) i=1 ni
106
Propri
et
e 40 . Sous H0 , Kn 2k1 .
En pratique, lapproximation par la loi du 2 est valide d`es quil y a au moins 5
observations par echantillon.
Le test de Kruskal-Wallis consiste a` rejeter lhypoth`ese degalite des k lois si Kn
est trop grand. Si lapproximation du 2 est valide, la region critique du test sera
W = {Kn > zk1, }, o`
u zk1, est le quantile dordre 1 de la loi 2k1 .
Chapitre 11
Annexe A : Rappels de probabilit
es
pour la statistique
Cette annexe rappelle quelques resultats de base du calcul des probabilites utiles pour
la statistique. Les notions sont presentees sans aucune demonstration. Les details sont a`
aller chercher dans le cours de Probabilites Appliquees de premi`ere annee.
11.1
Variables al
eatoires r
eelles
11.1.1
Loi de probabilit
e dune variable al
eatoire
Mathematiquement, une variable aleatoire est definie comme une application mesurable. On se contentera ici de la conception intuitive suivante.
Une variable al
eatoire est une grandeur dependant du resultat dune experience
aleatoire, cest-`a-dire non previsible a` lavance avec certitude. Par exemple, on peut dire
que la duree de vie dune ampoule electrique ou le resultat du lancer dun de sont des
variables aleatoires. Pour une experience donnee, ces grandeurs prendront une valeur
donnee, appelee realisation de la variable aleatoire. Si on recommence lexperience, on
obtiendra une realisation differente de la meme variable aleatoire.
On ne sinteresse ici quaux variables al
eatoires r
eelles, cest-`a-dire a` valeurs dans
IR ou un sous-ensemble de IR. On note traditionnellement une variable aleatoire par une
lettre majuscule (X) et sa realisation par une lettre minuscule (x).
Le calcul des probabilites va permettre de calculer des grandeurs comme la duree de vie
moyenne dune ampoule ou la probabilite dobtenir un 6 en lancant le de. Ces grandeurs
sont determinees par la loi de probabilit
e de ces variables aleatoires.
Il y a plusieurs moyens de caracteriser la loi de probabilite dune variable aleatoire. La
plus simple est la fonction de repartition.
On appelle fonction de r
epartition de la variable aleatoire X la fonction
FX : IR [0, 1]
x 7 FX (x) = P (X x)
FX est croissante, continue a` droite, telle que lim FX (x) = 0 et lim FX (x) = 1.
x
x+
108
11.1.2
Variables al
eatoires discr`
etes et continues
Une variable al
eatoire X est dite discr`
ete (v.a.d.) si et seulement si elle est a`
valeurs dans un ensemble E fini ou denombrable. On peut noter E = {x1 , x2 , ...}.
Exemples :
Face obtenue lors du lancer dun de : E = {1, 2, 3, 4, 5, 6}.
Nombre de bugs dans un programme : E = IN.
La loi de probabilite dune v.a.d. X est enti`erement determinee par les probabilites
elementaires P (X = xi ), xi E.
P
La fonction de repartition de X est alors FX (x) = P (X x) =
P (X = xi ).
xi x
Une variable al
eatoire X est dite continue (v.a.c.) si et seulement si sa fonction de
repartition FX est continue et presque partout derivable. Sa derivee fX est alors appelee
densite de probabilite de X, ou plus simplement densit
e de X. Une v.a.c. est forcement
a` valeurs dans un ensemble non denombrable.
Exemples :
Appel de la fonction Random dune calculatrice : E = [0, 1].
Duree de bon fonctionnement dun syst`eme : E = IR+ .
Rb
On a alors (a, b) IR2 , a < b, P (a < X b) = FX (b) FX (a) = a fX (x) dx.
R
Plus generalement, B IR, P (X B) = B fX (x) dx. Donc la densite determine
enti`erement la loi de probabilite de X.
R +
fX est une fonction positive telle que fX (x) dx = P (X IR) = 1.
Connaissant la loi de X, on est souvent amenes `a determiner celle de Y = (X). Quand
X est discr`ete, il suffit decrire P (Y = y) = P ((X) = y). Si est inversible, on obtient
P (Y = y) = P (X = 1 (y)). Quand X est continue, on commence par determiner la
fonction de repartition de Y en ecrivant FY (y) = P (Y y) = P ((X) y), puis on
en deduit sa densite par derivation. Quand est inversible, on obtient la formule du
changement de variable :
fY (y) =
|0
fX
(1 (y))|
1 (y)
Remarque : Il existe des lois de probabilite de variables aleatoires reelles qui ne sont ni
discr`etes ni continues. Par exemple, si X est la duree de bon fonctionnement dun syst`eme
qui a une probabilite non nulle p detre en panne a` linstant initial, on a lim FX (x) = 0
x0
11.1 Variables al
eatoires r
eelles
109
11.1.3
Si X est une variable aleatoire continue, son esperance mathematique est definie par :
Z
E(X) =
xfX (x) dx
Concr`etement, E(X) est ce quon sattend a` trouver comme moyenne des resultats
obtenus si on rep`ete lexperience un grand nombre de fois. Par exemple, si on lance une
pi`ece de monnaie 10 fois, on sattend a` trouver en moyenne 5 piles.
Plus generalement, on peut sinteresser a` lesperance mathematique dune fonction de
X :
P
Si X est une v.a.d., E [(X)] =
(xi )P (X = xi ).
xi E
R +
Si X est une v.a.c., sa fonction caract
eristique est definie par X (t) = E eitX =
R + itx
e fX (x) dx.
110
Soit p ]0, 1[. Le quantile dordre p (ou p-quantile) de la loi de X est tout reel qp
verifiant P (X < qp ) p P (X qp ).
Si F est continue et strictement croissante (donc inversible), on a simplement P (X <
qp ) = P (X qp ) = FX (qp ) = p, do`
u qp = FX1 (p).
Si FX est constante egale a` p sur un intervalle [a, b], nimporte quel reel de [a, b] est
un quantile dordre p. En general, on choisit de prendre le milieu de lintervalle :
a+b
.
qp =
2
Si FX est discontinue en q et telle que lim FX (x) < p FX (q), alors qp = q.
xq
Les tables fournies donnent les quantiles les plus usuels des lois normale, du chi-deux,
de Student et de Fisher-Snedecor.
11.2
Vecteurs al
eatoires r
eels
11.2.1
Loi de probabilit
e dun vecteur al
eatoire
La loi dun vecteur aleatoire (X1 , . . . , Xn ) est determinee par sa fonction de repartition :
F(X1 ,...,Xn ) (x1 , . . . , xn ) = P (X1 x1 , . . . , Xn xn )
Si les Xi sont discr`etes, cette loi est aussi determinee par les probabilites elementaires
P (X1 = x1 , . . . , Xn = xn ).
Si les Xi sont continues, la densite de (X1 , . . . , Xn ) est definie, si elle existe, par :
n
f(X1 ,...,Xn ) (x1 , . . . , xn ) =
F(X1 ,...,Xn ) (x1 , . . . , xn )
x1 ...xn
R
R
On a alors B IRn , P ((X1 , . . . , Xn ) B) = . . . B f(X1 ,...,Xn ) (x1 , . . . , xn ) dx1 ...dxn .
Les variables aleatoires X1 , . . . , Xn sont (mutuellement) ind
ependantes si et seulement si :
n
Y
F(X1 ,...,Xn ) (x1 , . . . , xn ) =
P (Xi xi )
i=1
11.2 Vecteurs al
eatoires r
eels
111
n
Q
n
Q
P (Xi = xi ).
i=1
fXi (xi ).
i=1
Concr`etement, lindependance signifie que la valeur prise par lune des variables na
aucune influence sur la valeur prise par les autres.
11.2.2
Esp
erance et matrice de covariance dun vecteur al
eatoire
Lesp
erance math
ematique dun vecteur aleatoire est le vecteur des esperances
mathematiques de ses composantes : E [(X1 , . . . , Xn )] = (E[X1 ], . . . , E[Xn ]).
Lequivalent de la variance en dimension n est la matrice de covariance du vecteur
(X1 , . . . , Xn ), notee K(X1 ,...,Xn ) ou K, dont les coefficients sont donnes par
kij = Cov(Xi , Xj ), (i, j) {1, ..., n}2
Cov(Xi , Xj ) est la covariance des variables aleatoires Xi et Xj et est definie par :
Cov(Xi , Xj ) = E [(Xi E(Xi )) (Xj E(Xj ))] = E(Xi Xj ) E(Xi )E(Xj )
Pour i = j, Cov(Xi , Xi ) = E (Xi2 ) [E(Xi )]2 = V ar(Xi ).
Pour i 6= j, la covariance de Xi et Xj traduit le degre de correlation entre ces deux
variables. En particulier, si Xi et Xj sont independantes, Cov(Xi , Xj ) = 0 (mais la
reciproque est fausse). Par consequent, si X1 , . . . , Xn sont independantes, leur matrice
de covariance K est diagonale.
Le coefficient de corr
elation lin
eaire entre Xi et Xj est (Xi , Xj ) =
Cov(Xi , Xj )
.
(Xi )(Xj )
On montre que :
(Xi , Xj ) [1, +1].
(Xi , Xj ) = +1 Xi = aXj + b, avec a > 0 et b IR.
(Xi , Xj ) = 1 Xi = aXj + b, avec a > 0 et b IR.
si (Xi , Xj ) > 0, Xi et Xj sont correlees positivement, ce qui signifie quelles varient
dans le meme sens. Par exemple, Xi et Xj peuvent etre la taille et le poids dindividus
pris au hasard.
si (Xi , Xj ) < 0, Xi et Xj sont correlees negativement, ce qui signifie quelles varient
en sens contraire. Par exemple, Xi et Xj peuvent etre lage et la resistance dun
materiau.
si (Xi , Xj ) = 0, il ny a pas de correlation lineaire entre Xi et Xj . Cela ne signifie
pas que Xi et Xj sont independantes. Il peut eventuellement y avoir une correlation
non lineaire.
Lesperance mathematique est lineaire : si X et Y sont des variables aleatoires et a, b
et c des reels, alors E(aX + bY + c) = aE(X) + bE(Y ) + c.
112
11.3
Convergences et applications
Deux des resultats les plus importants des probabilites sont le theor`eme central-limite
et la loi des grands nombres. Ces resultats necessitent dutiliser la notion de convergence
dune suite de variables aleatoires.
Une suite de variables aleatoires {Xn }n1 converge en loi vers la loi de probabilite
de fonction de repartition F si et seulement si lim FXn (x) = F (x) en tout point x o`
u
n
F est continue. Cela signifie que, quand n est grand, la loi de probabilite de Xn est
approximativement la loi de fonction de repartition F .
Th
eor`
eme Central-Limite : Soit {Xn }n1 une suite de variables al
eatoires reelles indep
pendantes et de meme loi, desperance E(X) et decart-type (X) = V ar(X) finis. Pour
tout n 1, on pose :
n
X
Zn =
Xi nE(X)
i=1
nV ar(X)
n E(X)
X
n
(X)
Alors la suite {Zn }n1 converge en loi vers la loi normale centree-reduite, ce qui secrit :
n E(X) L
X
n
N (0, 1)
(X)
Concr`etement, cela signifie que la loi de toute variable aleatoire egale a` la somme
dun nombre suffisamment grand de variables aleatoires independantes et de meme
n
P
loi est approximativement une loi normale. Plus precisement, pour n grand,
Xi est
i=1
11.4 Quelques r
esultats sur quelques lois de probabilit
e usuelles
113
Concr`etement, cela signifie que quand on fait un tr`es grand nombre dexperiences
identiques et independantes, la moyenne des realisations de la variable aleatoire a` laquelle
on sinteresse tend vers lesperance de sa loi. Ce resultat permet de justifier lidee naturelle
destimer une esperance par une moyenne et une probabilite par une proportion.
En fait, la convergence la plus utile en statistique est la convergence en moyenne
quadratique ou dans L2 . L2 est lensemble des variables aleatoires reelles X telles que
E (X 2 ) < . Une suite de variables aleatoires {Xn }n1 de L2 converge en moyenne
quadratique vers la variable aleatoire X si et seulement si lim E |Xn X|2 = 0.
n
11.4
Quelques r
esultats sur quelques lois de probabilit
e usuelles
Les tables de lois de probabilite fournies donnent notamment, pour les lois les plus
usuelles, les probabilites elementaires ou la densite, lesperance, la variance, et la fonction generatrice ou la fonction caracteristique. On presente dans cette section quelques
proprietes supplementaires de quelques unes de ces lois.
11.4.1
Loi binomiale
Une variable aleatoire K est de loi binomiale B(n, p) si et seulement si elle est a` valeurs
dans {0, 1, ..., n} et P (K = k) = Cnk pk (1 p)nk .
Le nombre de fois o`
u, en n experiences identiques et independantes, un ev`enement de
probabilite p sest produit, est une variable aleatoire de loi B(n, p).
La loi de Bernoulli B(p) est la loi B(1, p).
Si X1 , . . . , Xn sont independantes et de meme loi B(m, p), alors
n
P
Xi est de loi
i=1
B(nm, p). En particulier, la somme de n v.a. independantes et de meme loi B(p) est
de loi B(n, p).
114
11.4.2
Loi g
eom
etrique
Une variable aleatoire K est de loi geometrique G(p) si et seulement si elle est a` valeurs
dans IN et P (K = k) = p (1 p)k1 .
Dans une suite dexperiences identiques et independantes, le nombre dexperiences
necessaires pour que se produise pour la premi`ere fois un ev`enement de probabilite p, est
une variable aleatoire de loi G(p).
Si X1 , . . . , Xn sont independantes et de meme loi G(p), alors
n
P
i=1
11.4.3
Loi de Poisson
Une variable aleatoire K est de loi de Poisson P() si et seulement si elle est a` valeurs
k
dans IN et P (K = k) = e .
k!
Pour n 50 et p 0.1, la loi binomiale B(n, p) peut etre approchee par la loi de
Poisson P(np). On dit que la loi de Poisson est la loi des ev`enements rares : loi du nombre
de fois o`
u un evenement de probabilite tr`es faible se produit au cours dun tr`es grand
nombre dexperiences identiques et independantes.
n
P
Si X1 , . . . , Xn sont independantes et de meme loi P(), alors
Xi est de loi P(n).
i=1
11.4.4
Loi exponentielle
Une variable aleatoire X est de loi exponentielle exp() si et seulement si elle est a`
valeurs dans IR+ et fX (x) = ex .
2
La loi exponentielle est dite sans memoire : (t, x) IR+ , P (X > t + x|X > t) =
P (X > x).
Si X1 , . . . , Xn sont independantes et de meme loi exp(), alors
n
P
i=1
G(n, ).
Si X1 , . . . , Xn sont independantes et de meme loi exp(), et representent les durees
entre occurrences successives dun meme evenement, alors le nombre dev`enements survenus sur une periode de longueur t est une variable aleatoire de loi de Poisson P(t).
11.4.5
Une variable aleatoire X est de loi gamma G(a, ) si et seulement si elle est a` valeurs
a x a1
e x . Les proprietes de la fonction gamma sont rappelees
dans IR+ et fX (x) =
(a)
sur les tables.
La loi G(1, ) est la loi exp().
11.4 Quelques r
esultats sur quelques lois de probabilit
e usuelles
La loi G
n 1
,
2 2
115
.
Si X est de loi G(a, ) et est un reel strictement positif, alors X est de loi G a,
11.4.6
Loi normale
Une variable aleatoire X est de loi normale N (m, 2 ) si et seulement si elle est a`
(x m)2
1
2 2 .
valeurs dans IR et fX (x) = e
2
Si X est de loi N (m, 2 ), alors aX + b est de loi N (am + b, a2 2 ). En particulier,
X m
est de loi N (0, 1).
P (X [m , m + ]) = 68.3%.
P (X [m 2, m + 2]) = 95.4%.
P (X [m 3, m + 3]) = 99.7%.
Si X est de loi N (0, 1), alors X 2 est de loi 21 .
Si (X1 , X2 ) est un vecteur gaussien tel que X1 est de loi N (m1 , 12 ) et X2 est de loi
N (m2 , 22 ), alors aX1 + bX2 est de loi N (am1 + bm2 , a2 12 + 2abCov(X1 , X2 ) + b2 22 ).
Th
eor`
eme de Fisher. Si X1 , . . . , Xn sont independantes et de meme loi N (m, 2 ),
n
n
n = 1 P Xi et Sn2 = 1 P (Xi X
n )2 , on a :
alors, en posant X
n i=1
n i=1
n
P
n est de loi N
X
2
m,
.
n
n
1 P
(Xi m)2 est de loi 2n .
2 i=1
2
n
1 P
n )2 = nSn est de loi 2 .
(X
X
i
n1
2 i=1
2
n m
X
n1
est de loi de Student St(n 1).
Sn
116
11.4.7
Soit U une variable aleatoire de loi N (0, 1) et X une variable aleatoire de loi 2n . Si U
U
et X sont independantes, alors n est de loi de Student a` n degres de liberte St(n).
X
Soit X une variable aleatoire de loi 2n et Y une variable aleatoire de loi 2m . Si X et
mX
Y sont independantes, alors
est de loi de Fisher-Snedecor F (n, m).
nY
Ces deux definitions entrainent que si T est de loi St(n), alors T 2 est de loi F (1, n).
Les lois de Student et de Fisher-Snedecor sont toujours utilisees par lintermediaire
de tables ou `a laide dun logiciel de statistique. Il nest donc pas necessaire de donner
lexpression de leur densite.
Chapitre 12
Annexe B : Lois de probabilit
e
usuelles
12.1
Caract
eristiques des lois usuelles
12.1.1
Variables al
eatoires r
eelles discr`
etes
Loi et Symbole
Probabilites
E(X)
Var (X)
Fonction
caracteristique
X (t) = E(eitX )
Bernouilli
B(p)
P (X = 0) = 1 p
P (X = 1) = p
p(1 p)
1 p + peit
Binomiale
B(n, p)
np
np(1 p)
(1 p + peit )n
Binomiale negative
n1 n
P (X = k) = Ck1
p (1 p)kn 11{n,...} (k)
n
p
n(1p)
p2
1
p
1p
p2
nm
N
nm(N n)(N m)
N 2 (N 1)
peit
1(1p)eit
n
BN (n, p)
Poisson
P()
Geometrique
G(p)
Hypergeometrique
H(N, m, n)
(m, n) {1, . . . , N }2
P (X = k) = e k!
11IN (k)
P (X = k) =
k C nk
Cm
N m
n
CN
11{0,...,min(m,n)} (k)
e(e
it 1)
peit
1(1p)eit
118
12.1.2
Variables al
eatoires r
eelles continues
(n) = (n 1)! ,
R +
ex xa1 dx .
= ,
2
(1) = 1 ,
Loi et Symbole
Densite
Esperance
Var (X)
Fonction
caracteristique
X (t) = E(eitX )
a+b
2
(ba)2
12
eitb eita
it(ba)
eitm
1
2
it 1
11IR+ (x)
it
11IR+ (x)
2n
(1 2it) 2
1
1+t2
X
Loi Uniforme
U[a, b]
Loi Normale
N (m, 2 )
Loi Exponentielle
exp() = G(1, )
fX (x) =
fX (x) =
1
ba
1 e
2
11[a,b] (x)
(xm)2
2 2
Loi Gamma
G(, )
fX (x) =
x 1
x
() e
Loi du Chi-deux
fX (x) =
2 2 x2 n
x 2 1
( n
)e
2
2n = G( n2 , 12 )
11IR (x)
2 t2
2
12.1 Caract
eristiques des lois usuelles
119
Loi et Symbole
X
Densite
fX (x) =
1
a1 (1
(a,b) x
fX (x) =
Loi de Weibull
fX (x) =
E(X)
Var (X)
a
a+b
ab
(a+b)2 (a+b+1)
a
b1
a(a+b1)
(b1)2 (b2)
si b > 1
si b > 2
(1 + 1 )
h
i
2 (1 + 2 ) (1 + 1 )2
1
xa1
(a,b) (1+x)a+b
11IR+ (x)
x
1
x
e
11IR+ (x)
W(, )
12.1.3
Vecteurs al
eatoires dans INd et dans IRd
d
P
pi = 1 et k = (k1 , k2 , . . . , kd ) INd ,
i=1
d
P
ki = n.
i=1
m IRd et Md,d .
Loi et Symbole
X
Probabilites ou Densite
Loi Multinomiale
k1 k2
n!
k1 !...kd ! p1 p2
P (X = k) =
. . . pkdd
E(X)
11INd (k)
Nd (m, )
Fonction
Caracteristique
np
ci,i = npi (1 pi )
d
P
n
p i zi
i=1
Md (n, p)
Loi normale
Matrice
de covariance
ci,j = npi pj , i 6= j
fX (x) =
1
e
det( 2)d
1t
(xm)1 (xm)
2
ei
t mt 1 t tt
2
120
12.2
Tables de lois
12.2.1
U etant une variable aleatoire de loi N (0, 1), la table donne la valeur de (u) = P (U
u). En R, la commande correspondante est pnorm(u).
0.0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
Grandes valeurs de u
u
(u)
3.0
0.9987
3.5
0.99977
4.0
0.999968
4.5
0.999997
12.2.2
121
U etant une variablealeatoire de loi N (0, 1) et un reel de [0, 1], la table donne la valeur de u = 1 1 2 telle que P (|U | > u ) = . En R, la commande correspondante
est qnorm(1-alpha/2).
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.0
+
1.6449
1.2816
1.0364
0.8416
0.6745
0.5244
0.3853
0.2533
0.1257
0.01
2.5758
1.5982
1.2536
1.0152
0.8239
0.6588
0.5101
0.3719
0.2404
0.1130
0.02
2.3263
1.5548
1.2265
0.9945
0.8064
0.6433
0.4959
0.3585
0.2275
0.1004
0.03
2.1701
1.5141
1.2004
0.9741
0.7892
0.6280
0.4817
0.3451
0.2147
0.0878
0.04
2.0537
1.4758
1.1750
0.9542
0.7722
0.6128
0.4677
0.3319
0.2019
0.0753
0.05
1.96
1.4395
1.1503
0.9346
0.7554
0.5978
0.4538
0.3186
0.1891
0.0627
0.06
1.8808
1.4051
1.1264
0.9154
0.7388
0.5828
0.4399
0.3055
0.1764
0.0502
0.07
1.8119
1.3722
1.1031
0.8965
0.7225
0.5681
0.4261
0.2924
0.1637
0.0376
0.08
1.7507
1.3408
1.0803
0.8779
0.7063
0.5534
0.4125
0.2793
0.1510
0.0251
107
5.3267
108
5.7307
109
6.1094
0.002
3.0902
0.001
3.2905
104
3.8906
105
4.4171
106
4.8916
1
Pour p < , 1 (p) = u2p .
2
1
Pour p , 1 (p) = u2(1p) .
2
0.09
1.6954
1.3106
1.0581
0.8596
0.6903
0.5388
0.3989
0.2663
0.1383
0.0125
122
12.2.3
Table de la loi du 2
0.995
0.990
0.975
0.95
0.9
0.8
0.7
0.5
0.3
0.2
0.1
0.05
0.025
0.01
0.005
0.001
1
2
3
4
5
6
7
8
9
10
0.00004
0.01
0.07
0.21
0.41
0.68
0.99
1.34
1.73
2.16
0.0002
0.02
0.11
0.30
0.55
0.87
1.24
1.65
2.09
2.56
0.001
0.05
0.22
0.48
0.83
1.24
1.69
2.18
2.70
3.25
0.004
0.10
0.35
0.71
1.15
1.64
2.17
2.73
3.33
3.94
0.02
0.21
0.58
1.06
1.61
2.20
2.83
3.49
4.17
4.87
0.06
0.45
1.01
1.65
2.34
3.07
3.82
4.59
5.38
6.18
0.15
0.71
1.42
2.19
3.00
3.83
4.67
5.53
6.39
7.27
0.45
1.39
2.37
3.36
4.35
5.35
6.35
7.34
8.34
9.34
1.07
2.41
3.66
4.88
6.06
7.23
8.38
9.52
10.66
11.78
1.64
3.22
4.64
5.99
7.29
8.56
9.80
11.03
12.24
13.44
2.71
4.61
6.25
7.78
9.24
10.64
12.02
13.36
14.68
15.99
3.84
5.99
7.81
9.49
11.07
12.59
14.07
15.51
16.92
18.31
5.02
7.38
9.35
11.14
12.83
14.45
16.01
17.53
19.02
20.48
6.63
9.21
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21
7.88
10.6
12.84
14.86
16.75
18.55
20.28
21.95
23.59
25.19
10.83
13.82
16.27
18.47
20.52
22.46
24.32
26.12
27.88
29.59
11
12
13
14
15
16
17
18
19
20
2.60
3.07
3.57
4.07
4.60
5.14
5.70
6.26
6.84
7.43
3.05
3.57
4.11
4.66
5.23
5.81
6.41
7.01
7.63
8.26
3.82
4.40
5.01
5.63
6.26
6.91
7.56
8.23
8.91
9.59
4.57
5.23
5.89
6.57
7.26
7.96
8.67
9.39
10.12
10.85
5.58
6.30
7.04
7.79
8.55
9.31
10.09
10.86
11.65
12.44
6.99
7.81
8.63
9.47
10.31
11.15
12.00
12.86
13.72
14.58
8.15
9.03
9.93
10.82
11.72
12.62
13.53
14.44
15.35
16.27
10.34
11.34
12.34
13.34
14.34
15.34
16.34
17.34
18.34
19.34
12.90
14.01
15.12
16.22
17.32
18.42
19.51
20.60
21.69
22.77
14.63
15.81
16.98
18.15
19.31
20.47
21.61
22.76
23.90
25.04
17.28
18.55
19.81
21.06
22.31
23.54
24.77
25.99
27.20
28.41
19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
30.14
31.41
21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
32.85
34.17
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
26.76
28.30
29.82
31.32
32.80
34.27
35.72
37.16
38.58
40.00
31.26
32.91
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.31
21
22
23
24
25
26
27
28
29
30
8.03
8.64
9.26
9.89
10.52
11.16
11.81
12.46
13.12
13.79
8.90
9.54
10.20
10.86
11.52
12.20
12.88
13.56
14.26
14.95
10.28
10.98
11.69
12.40
13.12
13.84
14.57
15.31
16.05
16.79
11.59
12.34
13.09
13.85
14.61
15.38
16.15
16.93
17.71
18.49
13.24
14.04
14.85
15.66
16.47
17.29
18.11
18.94
19.77
20.60
15.44
16.31
17.19
18.06
18.94
19.82
20.70
21.59
22.48
23.36
17.18
18.10
19.02
19.94
20.87
21.79
22.72
23.65
24.58
25.51
20.34
21.34
22.34
23.34
24.34
25.34
26.34
27.34
28.34
29.34
23.86
24.94
26.02
27.10
28.17
29.25
30.32
31.39
32.46
33.53
26.17
27.30
28.43
29.55
30.68
31.79
32.91
34.03
35.14
36.25
29.62
30.81
32.01
33.20
34.38
35.56
36.74
37.92
39.09
40.26
32.67
33.92
35.17
36.42
37.65
38.89
40.11
41.34
42.56
43.77
35.48
36.78
38.08
39.36
40.65
41.92
43.19
44.46
45.72
46.98
38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59
50.89
41.40
42.80
44.18
45.56
46.93
48.29
49.64
50.99
52.34
53.67
46.80
48.27
49.73
51.18
52.62
54.05
55.48
56.89
58.30
59.70
2
1
1
u2 + 2n 1
si <
2
2
2
1 p
1
2n) u2(1)
si .
2
2
12.2.4
123
0.90
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0.05
0.02
0.01
0.001
1
2
3
4
5
6
7
8
9
10
0.158
0.142
0.137
0.134
0.132
0.131
0.130
0.130
0.129
0.129
0.325
0.289
0.277
0.271
0.267
0.265
0.263
0.262
0.261
0.260
0.510
0.445
0.424
0.414
0.408
0.404
0.402
0.399
0.398
0.397
0.727
0.617
0.584
0.569
0.559
0.553
0.549
0.546
0.543
0.542
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
1.376
1.061
0.978
0.941
0.920
0.906
0.896
0.889
0.883
0.879
1.963
1.386
1.250
1.190
1.156
1.134
1.119
1.108
1.100
1.093
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
636.619
31.599
12.924
8.610
6.869
5.959
5.408
5.041
4.781
4.587
11
12
13
14
15
16
17
18
19
20
0.129
0.128
0.128
0.128
0.128
0.128
0.128
0.127
0.127
0.127
0.260
0.259
0.259
0.258
0.258
0.258
0.257
0.257
0.257
0.257
0.396
0.395
0.394
0.393
0.393
0.392
0.392
0.392
0.391
0.391
0.540
0.539
0.538
0.537
0.536
0.535
0.534
0.534
0.533
0.533
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.687
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.861
0.860
1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.064
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
21
22
23
24
25
26
27
28
29
30
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.257
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.391
0.390
0.390
0.390
0.390
0.390
0.389
0.389
0.389
0.389
0.532
0.532
0.532
0.531
0.531
0.531
0.531
0.530
0.530
0.530
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
3.819
3.792
3.768
3.745
3.725
3.707
3.690
3.674
3.659
3.646
40
80
120
+
0.126
0.126
0.126
0.126
0.255
0.254
0.254
0.253
0.388
0.387
0.386
0.385
0.529
0.526
0.526
0.524
0.681
0.678
0.677
0.674
0.851
0.846
0.845
0.842
1.050
1.043
1.041
1.036
1.303
1.292
1.289
1.282
1.684
1.664
1.658
1.645
2.021
1.990
1.980
1.960
2.423
2.374
2.358
2.326
2.704
2.639
2.617
2.576
3.551
3.416
3.373
3.291
124
12.2.5
X etant une variable aleatoire de loi F (1 , 2 ), les tables donnent les valeurs de
f1 ,2 , = FF1(1 ,2 ) (1 ) telles que P (X > f1 ,2 , ) = pour = 5% et = 1%.
1
En R, la commande correspondante est qf(1-alpha, nu1, nu2). f2 ,1 , =
.
f1 ,2 ,1
Table 1 : = 5%.
1
10
12
16
20
24
40
60
100
1
2
3
4
5
6
7
8
9
10
161.4
18.51
10.13
7.71
6.61
5.99
5.59
5.32
5.12
4.96
199.5
19.00
9.55
6.94
5.79
5.14
4.74
4.46
4.26
4.10
215.7
19.16
9.28
6.59
5.41
4.76
4.35
4.07
3.86
3.71
224.6
19.25
9.12
6.39
5.19
4.53
4.12
3.84
3.63
3.48
230.2
19.30
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
234
19.33
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22
236.8
19.35
8.89
6.09
4.88
4.21
3.79
3.50
3.29
3.14
238.9
19.37
8.85
6.04
4.82
4.15
3.73
3.44
3.23
3.07
241.9
19.40
8.79
5.96
4.74
4.06
3.64
3.35
3.14
2.98
243.9
19.41
8.74
5.91
4.68
4.00
3.57
3.28
3.07
2.91
246.5
19.43
8.69
5.84
4.60
3.92
3.49
3.20
2.99
2.83
248
19.45
8.66
5.80
4.56
3.87
3.44
3.15
2.94
2.77
249
19.45
8.64
5.77
4.53
3.84
3.41
3.12
2.90
2.74
251.1
19.47
8.59
5.72
4.46
3.77
3.34
3.04
2.83
2.66
252.2
19.48
8.57
5.69
4.43
3.74
3.30
3.01
2.79
2.62
253
19.49
8.55
5.66
4.41
3.71
3.27
2.97
2.76
2.59
254.3
19.49
8.53
5.63
4.36
3.67
3.23
2.93
2.71
2.54
11
12
13
14
15
16
17
18
19
20
4.84
4.75
4.67
4.60
4.54
4.49
4.45
4.41
4.38
4.35
3.98
3.89
3.81
3.74
3.68
3.63
3.59
3.55
3.52
3.49
3.59
3.49
3.41
3.34
3.29
3.24
3.20
3.16
3.13
3.10
3.36
3.26
3.18
3.11
3.06
3.01
2.96
2.93
2.90
2.87
3.20
3.11
3.03
2.96
2.90
2.85
2.81
2.77
2.74
2.71
3.09
3.00
2.92
2.85
2.79
2.74
2.70
2.66
2.63
2.60
3.01
2.91
2.83
2.76
2.71
2.66
2.61
2.58
2.54
2.51
2.95
2.85
2.77
2.70
2.64
2.59
2.55
2.51
2.48
2.45
2.85
2.75
2.67
2.60
2.54
2.49
2.45
2.41
2.38
2.35
2.79
2.69
2.60
2.53
2.48
2.42
2.38
2.34
2.31
2.28
2.70
2.60
2.51
2.44
2.38
2.33
2.29
2.25
2.21
2.18
2.65
2.54
2.46
2.39
2.33
2.28
2.23
2.19
2.16
2.12
2.61
2.51
2.42
2.35
2.29
2.24
2.19
2.15
2.11
2.08
2.53
2.43
2.34
2.27
2.20
2.15
2.10
2.06
2.03
1.99
2.49
2.38
2.30
2.22
2.16
2.11
2.06
2.02
1.98
1.95
2.46
2.35
2.26
2.19
2.12
2.07
2.02
1.98
1.94
1.91
2.40
2.30
2.21
2.13
2.07
2.01
1.96
1.92
1.88
1.84
21
22
23
24
25
30
4.32
4.30
4.28
4.26
4.24
4.17
3.47
3.44
3.42
3.40
3.39
3.32
3.07
3.05
3.03
3.01
2.99
2.92
2.84
2.82
2.80
2.78
2.76
2.69
2.68
2.66
2.64
2.62
2.60
2.53
2.57
2.55
2.53
2.51
2.49
2.42
2.49
2.46
2.44
2.42
2.40
2.33
2.42
2.40
2.37
2.36
2.34
2.27
2.32
2.30
2.27
2.25
2.24
2.16
2.25
2.23
2.20
2.18
2.16
2.09
2.16
2.13
2.11
2.09
2.07
1.99
2.10
2.07
2.05
2.03
2.01
1.93
2.05
2.03
2.01
1.98
1.96
1.89
1.96
1.94
1.91
1.89
1.87
1.79
1.92
1.89
1.86
1.84
1.82
1.74
1.88
1.85
1.82
1.80
1.78
1.70
1.81
1.78
1.76
1.73
1.71
1.62
40
50
60
80
100
+
4.08
4.03
4.00
3.96
3.94
3.84
3.23
3.18
3.15
3.11
3.09
3.00
2.84
2.79
2.76
2.72
2.70
2.60
2.61
2.56
2.53
2.49
2.46
2.37
2.45
2.40
2.37
2.33
2.31
2.21
2.34
2.29
2.25
2.21
2.19
2.10
2.25
2.20
2.17
2.13
2.10
2.01
2.18
2.13
2.10
2.06
2.03
1.94
2.08
2.03
1.99
1.95
1.93
1.83
2.00
1.95
1.92
1.88
1.85
1.75
1.90
1.85
1.82
1.77
1.75
1.64
1.84
1.78
1.75
1.70
1.68
1.57
1.79
1.74
1.70
1.65
1.63
1.52
1.69
1.63
1.59
1.54
1.52
1.39
1.64
1.58
1.53
1.48
1.45
1.32
1.59
1.52
1.48
1.43
1.39
1.24
1.51
1.44
1.39
1.32
1.28
1.00
125
Table 2 : = 1%.
10
12
16
20
24
40
60
100
1
2
3
4
5
6
7
8
9
10
4052
98.5
34.12
21.20
16.26
13.75
12.25
11.26
10.56
10.04
4999
99.0
30.82
18.00
13.27
10.92
9.55
8.65
8.02
7.56
5403
99.17
29.46
16.69
12.06
9.78
8.45
7.59
6.99
6.55
5625
99.25
28.71
15.98
11.39
9.15
7.85
7.01
6.42
5.99
5764
99.3
28.24
15.52
10.97
8.75
7.46
6.63
6.06
5.64
5859
99.33
27.91
15.21
10.67
8.47
7.19
6.37
5.80
5.39
5928
99.36
27.67
14.98
10.46
8.26
6.99
6.18
5.61
5.20
5981
99.37
27.49
14.80
10.29
8.10
6.84
6.03
5.47
5.06
6056
99.4
27.23
14.55
10.05
7.87
6.62
5.81
5.26
4.85
6106
99.42
27.05
14.37
9.89
7.72
6.47
5.67
5.11
4.71
6170
99.44
26.83
14.15
9.68
7.52
6.28
5.48
4.92
4.52
6209
99.45
26.69
14.02
9.55
7.40
6.16
5.36
4.81
4.41
6235
99.46
26.60
13.93
9.47
7.31
6.07
5.28
4.73
4.33
6287
99.47
26.41
13.75
9.29
7.14
5.91
5.12
4.57
4.17
6313
99.48
26.32
13.65
9.20
7.06
5.82
5.03
4.48
4.08
6334
99.49
26.24
13.58
9.13
6.99
5.75
4.96
4.41
4.01
6366
99.5
26.13
13.46
9.02
6.88
5.65
4.86
4.31
3.91
11
12
13
14
15
16
17
18
19
20
9.65
9.33
9.07
8.86
8.68
8.53
8.40
8.29
8.18
8.10
7.21
6.93
6.70
6.51
6.36
6.23
6.11
6.01
5.93
5.85
6.22
5.95
5.74
5.56
5.42
5.29
5.18
5.09
5.01
4.94
5.67
5.41
5.21
5.04
4.89
4.77
4.67
4.58
4.50
4.43
5.32
5.06
4.86
4.69
4.56
4.44
4.34
4.25
4.17
4.10
5.07
4.82
4.62
4.46
4.32
4.20
4.10
4.01
3.94
3.87
4.89
4.64
4.44
4.28
4.14
4.03
3.93
3.84
3.77
3.70
4.74
4.50
4.30
4.14
4.00
3.89
3.79
3.71
3.63
3.56
4.54
4.30
4.10
3.94
3.80
3.69
3.59
3.51
3.43
3.37
4.40
4.16
3.96
3.80
3.67
3.55
3.46
3.37
3.30
3.23
4.21
3.97
3.78
3.62
3.49
3.37
3.27
3.19
3.12
3.05
4.10
3.86
3.66
3.51
3.37
3.26
3.16
3.08
3.00
2.94
4.02
3.78
3.59
3.43
3.29
3.18
3.08
3.00
2.92
2.86
3.86
3.62
3.43
3.27
3.13
3.02
2.92
2.84
2.76
2.69
3.78
3.54
3.34
3.18
3.05
2.93
2.83
2.75
2.67
2.61
3.71
3.47
3.27
3.11
2.98
2.86
2.76
2.68
2.60
2.54
3.60
3.36
3.17
3.00
2.87
2.75
2.65
2.57
2.49
2.42
21
22
23
24
25
30
8.02
7.95
7.88
7.82
7.77
7.56
5.78
5.72
5.66
5.61
5.57
5.39
4.87
4.82
4.76
4.72
4.68
4.51
4.37
4.31
4.26
4.22
4.18
4.02
4.04
3.99
3.94
3.90
3.85
3.70
3.81
3.76
3.71
3.67
3.63
3.47
3.64
3.59
3.54
3.50
3.46
3.30
3.51
3.45
3.41
3.36
3.32
3.17
3.31
3.26
3.21
3.17
3.13
2.98
3.17
3.12
3.07
3.03
2.99
2.84
2.99
2.94
2.89
2.85
2.81
2.66
2.88
2.83
2.78
2.74
2.70
2.55
2.80
2.75
2.70
2.66
2.62
2.47
2.64
2.58
2.54
2.49
2.45
2.30
2.55
2.50
2.45
2.40
2.36
2.21
2.48
2.42
2.37
2.33
2.29
2.13
2.36
2.31
2.26
2.21
2.17
2.01
40
50
60
80
100
+
7.31
7.17
7.08
6.96
6.90
6.63
5.18
5.06
4.98
4.88
4.82
4.61
4.31
4.20
4.13
4.04
3.98
3.78
3.83
3.72
3.65
3.56
3.51
3.32
3.51
3.41
3.34
3.26
3.21
3.02
3.29
3.19
3.12
3.04
2.99
2.80
3.12
3.02
2.95
2.87
2.82
2.64
2.99
2.89
2.82
2.74
2.69
2.51
2.80
2.70
2.63
2.55
2.50
2.32
2.66
2.56
2.50
2.42
2.37
2.18
2.48
2.38
2.31
2.23
2.19
2.00
2.37
2.27
2.20
2.12
2.07
1.88
2.29
2.18
2.12
2.03
1.98
1.79
2.11
2.01
1.94
1.85
1.80
1.59
2.02
1.91
1.84
1.75
1.69
1.47
1.94
1.82
1.75
1.65
1.60
1.36
1.80
1.68
1.60
1.49
1.43
1.00
126
Chapitre 13
Annexe C : Introduction `
aR
Ce chapitre fournit une introduction elementaire a` R. Pour plus de details, voir les
liens presentes sur le Kiosk.
13.1
Les bases de R
128
> a[a>6]
[1] 9 7
R peut etre complete en ecrivant de nouvelles fonctions. Voici un exemple o`
u lon souhaite
n
X
1
ln xi o`
u i, xi > 0. On pourra definir une
calculer la statistique stat.log(x) =
n i=1
fonction de la facon suivante (meme si lon peut faire bien plus rapide en pratique) :
>
+
+
+
+
+
+
La fonction stat.log pourra etre desormais utilisee comme une fonction standard de
R. Dun point de vue pratique, on peut editer ses fonctions dans un editeur externe (nedit,
emacs, . . .) puis faire du copier/coller vers R ou bien utiliser la commande source.
13.2
Pour enregistrer une figure dans un fichier au format postscript, commencer par rediriger la sortie graphique vers le fichier de sauvegarde, ici nomfichier.eps :
postscript("nomfichier.ps", horizontal=FALSE)
Puis tracer la figure voulue, par exemple un histogramme :
hist(x)
Et enfin rediriger la sortie graphique vers la fenetre initiale :
dev.off()
Meme chose en pdf avec pdf("nomfichier.pdf").
Pour tracer un histogramme des donnees x dont laire est egale `a 1, les bornes des
classes sont donnees par le vecteur bornes, et les plages de valeurs des abscisses par le
vecteur xlim :
histx <- hist(x, prob=T, breaks=bornes, xlim=xlim, ...)
Pour un histogramme `a classes de meme effectif, les bornes des classes peuvent etre
calculees comme des quantiles empiriques, `a laide dune commande du type :
breaks <- c(a0, quantile(x,seq(1,k-1)/k),ak)
129
La droite de regression lineaire sur le nuage des points dabcisses abs et dordonnees
ord est obtenue `a laide de :
reg <- lm(ordabs)
La pente de la droite des moindres carres est donnee par reg$coefficient[2] et
lordonnee a` lorigine par reg$coefficient[1].
Pour tracer la droite obtenue, lune des commandes suivantes pourra etre utilisee :
lines(abs, fitted.values(reg)) ou abline(reg).
13.3
help(mean)
x <- c(3,14,15,9)
n <- length(x)
sum(x^2)
130
13.4
Toutes les lois de probabilite usuelles ont ete implementees en R. Chaque loi est identifiee par une abreviation :
loi binomiale : binom
loi de Poisson : pois
loi geometrique : geom. Attention, la commande geom concerne en fait la loi de X 1,
o`
u X est de loi geometrique.
loi exponentielle : exp
loi gamma : gamma
loi du chi 2 : chisq
loi normale : norm
loi de Student : t
loi de Fisher-Snedecor : f
Loi uniforme : unif
Loi beta de premi`ere esp`ece : beta
Loi de Cauchy : cauchy
Loi hypergeometrique : hyper
Loi log-normale : lnorm
Loi logistique : logis
Loi negative binomiale : nbinom
Loi de Weibull : weibull
Loi de Wilcoxon : wilcox
Pour chaque loi, 4 fonctions sont disponibles, identifiees par un prefixe :
Une commande R pour une loi de probabilite est constituee dun prefixe suivi de
labreviation de la loi. Les param`etres dependent de la loi choisie.
131
Exemples :
pnorm(u) donne la fonction de repartition de la loi normale centree-reduite N (0, 1)
au point u, (u). On retrouve la table 1 de la loi normale.
> pnorm(0.61)
[1] 0.7290691
dnorm(x, m, ) donne la densite de la loi normale N (m, 2 ) au point x.
> dnorm(1.2,2,5)
[1] 0.07877367
qnorm(p) donne le quantile dordre p de la loi N (0, 1), 1 (p). On retrouve la table
2 de la loi normale en prenant p = 1 /2.
> qnorm(1-0.05/2)
[1] 1.959964
rnorm(n, m, ) simule un echantillon de taille n de la loi N (m, 2 ).
> rnorm(10, 20, 1)
[1] 21.63128 20.16724 17.21667 18.76593 20.48102 20.46236 20.41822
[8] 19.91344 21.19312 19.89164
dbinom(k, n, p) donne P (K = k) quand K est de loi binomiale B(n, p).
> dbinom(3,5,0.2)
[1] 0.0512
rpois(n, ) simule un echantillon de taille n de la loi de Poisson P().
> rpois(15,4)
[1] 8 3 2 1 6 6 7 5 3 3 4 4 6 1 1
qchisq(p,n) donne le quantile dordre p de la loi du chi 2 2n . On retrouve la table
de la loi du chi 2 en prenant p = 1 .
> qchisq(1-0.05,20)
[1] 31.41043
qt(p,n) donne le quantile dordre p de la loi de Student St(n). On retrouve la table
de la loi de Student en prenant p = 1 /2.
> qt(1-0.3/2,12)
[1] 1.083211
qf(p,1 ,2 ) donne le quantile dordre p de la loi de Fisher-Snedecor F (1 , 2 ). On
retrouve la table de la loi de Fisher-Snedecor en prenant p = 1 .
> qf(1-0.05,8,22)
[1] 2.396503
132
13.5
t.test(x,...)
binom.test()
var.test(x,y,...)
t.test(x,y,...)
prop.test()
chisq.test(x,...)
ks.test(x,...)
13.6
13.6.1
Graphique simple
Le script suivant en R permet de tracer un nuage de 100 points dont les coordonnees
sont des variables aleatoires independantes et de meme loi normale centree-reduite N (0, 1),
et de le sauvegarder au format postscript dans le fichier rnorm.ps.
postscript("rnorm.ps")
plot(rnorm(100),rnorm(100))
dev.off()
Les instructions suivantes permettent dinserer cette figure dans un document Latex
et de pouvoir la referencer sous le nom de figure 13.1.
\begin{figure}[htbp]
\begin{center}
% Requires \usepackage{graphicx}
\includegraphics[width=8 cm, angle=270]{rnorm.ps}\\
\caption{{\it Utilisation de rnorm}}\label{rnorm}
\end{center}
\end{figure}
133
rnorm(100)
3
2
1
0
rnorm(100)
1
2
13.6.2
abline(h=u)
abline(v=u)
legend(x,y,legend,...)
text(x,y,labels,...)
axis(side,at, labels..)
arrows(x0,y0,x1,y1,...)
symbols(x,y,....)
box(...)
polygon(x,y)
ajoute un polygone
134
13.6.3
Param
etrage de la commande plot
Le script suivant :
postscript("graphesR.ps")
x<- seq(-2*pi,2*pi,0.05)
y <- sin(x)
par(mfrow=c(2,2))
plot(x,y,xlab="x",ylab="Sinus de x")
plot(x,y,type="l", main="trait continu")
plot(x[seq(5,1000,by=5)],y[seq(5,1000,by=5)], type="b",axes=F)
plot(x,y,type="n", ylim=c(-2,1))
text(0,0.05,"Divers param
etrages de la fonction plot")
dev.off()
permet dobtenir la figure 13.2.
1.0
0.5
0.0
1.0
0.5
0.0
1.0
0.5
Sinus de x
0.5
1.0
trait continu
2.0
1.0
6
x[seq(5, 1000, by = 5)]
Bibliographie
[1] Fourdrinier D., Statistique inferentielle, Dunod, 2002.
[2] Lejeune M., Statistique, la theorie et ses applications, Springer, 2004.
[3] Monfort A., Cours de statistique mathematique, Economica, 1997.
[4] Rice J.A., Mathematical Statistics and Data Analysis, Duxbury Press, 1995.
[5] Saporta G., Probabilites, analyse des donnees et statistique, Technip, 2006.
[6] Shao J., Mathematical statistics, Springer, 1998.
[7] Tassi P., Methodes statistiques, Economica, 1989.