Documente Academic
Documente Profesional
Documente Cultură
D PARTEMENT G.I.S.
Statistiques infrentielles
Julien JACQUES
http://labomath.univ-lille1.fr/jacques/
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
7
7
9
9
9
9
10
10
10
12
12
12
14
14
14
14
15
15
15
16
16
Estimation
et V 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Prambule : tude des statistiques X
2.1.1 Etude de la statistique X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Etude de la statistique V 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.3 Dfinition des lois du 2 , de Student et de Fisher-Snedecor . . . . . . . . . . . . . . . . .
2.1.4 Cas des chantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Notion destimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Qualit dun estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Estimateur exhaustif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Estimation sans biais de variance minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6 Mthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7 Estimation par intervalles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7.1 Intervalle de confiance sur lesprance . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7.1.1 Intervalle de confiance sur lesprance dune loi normale avec variance connue .
2.7.1.2 Intervalle de confiance sur lesprance dune loi normale avec variance inconnue
2.7.1.3 Si la loi de X nest pas une loi normale . . . . . . . . . . . . . . . . . . . . . .
2.7.2 Intervalle de confiance sur la variance dune loi normale . . . . . . . . . . . . . . . . . .
2.7.2.1 Intervalle de confiance sur la variance dune loi normale lorsque est connue .
2.7.2.2 Intervalle de confiance sur la variance dune loi normale lorsque est inconnue
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
19
20
21
21
22
22
23
24
25
25
26
26
27
28
28
28
28
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.8
2.9
Tests statistiques
3.1 Thorie des tests paramtriques . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Introduction : test sur lesprance dune loi normale de variance connue .
3.1.2 Vocabulaire des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.3 Probabilit derreur et risque, puissance de test . . . . . . . . . . . . . .
3.1.4 Choix optimal de la statistique de test et de la rgion de rejet . . . . . . .
3.1.5 Utilisation de la puissance de test . . . . . . . . . . . . . . . . . . . . .
3.1.6 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.7 p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Tests sur une population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Test sur le caractre central dune population . . . . . . . . . . . . . . .
3.2.1.1 Cas dun chantillon grand ou gaussien . . . . . . . . . . . . .
Test H0 : = 0 contre H1 : 6= 0 lorsque 2 est connue . . .
Test H0 : = 0 contre H1 : 6= 0 lorsque 2 est inconnue . .
3.2.1.2 Cas dun petit chantillon non gaussien . . . . . . . . . . . . .
Statistique de rang . . . . . . . . . . . . . . . . . . . . . . . . .
Test des rangs signs (Wilcoxon un chantillon) . . . . . . . . .
Test du signe . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Test des scores normaux . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Test sur la variance dune population gaussienne . . . . . . . . . . . . .
3.2.2.1 Test H0 : 2 = 02 contre H1 : 2 6= 02 , moyenne connue .
3.2.2.2 Test H0 : 2 = 02 contre H1 : 2 6= 02 , moyenne inconnue
3.2.2.3 Tests unilatraux sur la variance . . . . . . . . . . . . . . . . .
3.2.3 Test sur une proportion pour un grand chantillon . . . . . . . . . . . . .
3.2.3.1 Test H0 : p = p0 contre H1 : p 6= p0 . . . . . . . . . . . . . .
3.2.3.2 Tests unilatraux sur une proportion . . . . . . . . . . . . . .
3.2.4 Test de lalatoire dun chantillon . . . . . . . . . . . . . . . . . . . . .
3.2.4.1 Test de corrlation des rangs de Spearman . . . . . . . . . . .
3.2.4.2 Test des changements de signes . . . . . . . . . . . . . . . . .
3.2.5 Tests dajustement une loi de probabilit spcifie . . . . . . . . . . . .
3.2.5.1 Quelques mthodes empiriques . . . . . . . . . . . . . . . . .
La forme de lhistogramme . . . . . . . . . . . . . . . . . . . . .
La nature du phnomne . . . . . . . . . . . . . . . . . . . . . .
Utilisation des moments . . . . . . . . . . . . . . . . . . . . . .
3.2.5.2 Ajustement graphiques . . . . . . . . . . . . . . . . . . . . .
Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . .
Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.3 Test dajustement du 2 . . . . . . . . . . . . . . . . . . . . .
Si des estimations sont ncessaires . . . . . . . . . . . . . . . . .
Effectif minimal dune classe . . . . . . . . . . . . . . . . . . .
3.2.5.4 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . .
3.2.5.5 Test de Shapiro-Wilk (normalit) . . . . . . . . . . . . . . . .
3.2.6 Test dindpendance entre deux variables alatoires . . . . . . . . . . . .
3.2.6.1 Cas de deux variables alatoires quantitatives . . . . . . . . . .
Test de corrlation linaire . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
29
30
30
.
.
.
.
.
30
30
31
31
31
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
33
33
34
34
35
36
36
37
37
37
37
37
38
38
38
39
39
40
40
40
40
41
41
41
41
41
41
42
42
42
42
42
42
42
42
43
43
43
43
44
44
44
44
44
3.3
3.4
Annexes
4.1 Rappel sur les convergences des suites de variables alatoires
4.1.0.3 Loi faible des grands nombres . . . . . . .
4.1.0.4 Loi forte des grands nombres . . . . . . .
4.1.0.5 Thorme centrale limite . . . . . . . . .
4.2 Tables statistiques pour test . . . . . . . . . . . . . . . . . .
4.2.1 Test des rangs signs . . . . . . . . . . . . . . . . .
4.2.2 Test du signe . . . . . . . . . . . . . . . . . . . . .
4.2.3 Test de Wilcoxon (2 populations) . . . . . . . . . .
4.2.4 Test de Shapiro-Wilk (normalit) . . . . . . . . . . .
4.2.5 Test de Friedman . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
45
45
46
47
47
47
48
48
48
49
49
49
50
50
50
50
50
51
51
51
51
52
52
52
52
52
53
54
54
54
55
57
57
57
57
57
58
58
59
60
61
63
Chapitre 1
1.1 chantillon
Un chantillonnage correspond des tirages indpendants et quiprobables dindividus au sein de la population.
On associe alors chaque individu i une variable alatoire Xi , dont on observe une seule ralisation xi .
Dfinition 1.1.1. Un chantillon X1 ; : : : ; Xn est un n-uplet
dantes et identiquement distribues (mme loi).
indpen-
Par simplicit nous utiliserons rgulirement le terme chantillon pour signifier la fois lchantillon dobservations x1 ; : : : ; xn et le n-uplet alatoire (X1 ; : : : ; Xn ).
Il est frquent de caractriser un chantillon par des quantits telle que la moyenne, variance, etc. Ces quantits sont
elles-mmes des variables alatoires fonction de X1 ; : : : ; Xn .
Dfinition 1.1.2. Une statistique T est une variable alatoire fonction (mesurable) de X1 ; : : : ; Xn .
1. http://labomath.univ-lille1.fr/ jacques/
8
numero
1
nom de la variable
tat du compte chque (en DM)
2
3
but du crdit
5
6
valeur
A11 : < 0
A12 : [0; 200[
A13 : 200 ou versement des salaires pendant au moins un an
A14 : pas de compte chque
2
2N
2R
2
2
2R
8
9
taux dapport
tat marital
10
11
12
dure dhabitation
dans la rsidence actuelle (an)
biens
13
14
ge (an)
autre demande de crdits
15
16
17
18
19
20
travailleur tranger
2
2
2N
A121 : immobilier
A122 : si pas A121 : placement (assurance vie ou part dans la banque)
A123 : si pas A121 et A122 : voiture ou autre, non compris dans la variable 6
A124 : inconnu
2N
A141 : banque
A142 : magasins
A143 : aucun
A151 : locataire
A152 : propritaire
A153 : occupant titre gratuit
2N
2N
A191 : aucun
A192 : oui, enregistr au nom du client
A201 : oui
A202 : non
n
1X
X =
X:
n i=1 i
Attention, cette quantit est trs sensible aux valeurs extrmes.
Beaucoup moins sensible aux extrmes, la mdiane M est la valeur qui partage lchantillon, rang dans lordre
croissant X1 X2 : : : Xn (ou dcroissant), en deux parties gales. Si n est impair la mdiane sera X n+1 ,
2
X n +X n +1
sinon ce sera par convention 2 2 2 . La fonction de rpartition vaut 0.5 en la mdiane : F (M ) = 0:5.
Lorsque les donnes sont entires, on utilise parfois le mode qui est la valeur la plus frquente.
1.3.2.2 Caractristiques de dispersion
Ltendue, ou intervalle de variation est la diffrence entre les deux valeurs extrmes : Xmax Xmin . Attention,
les variables Xmin et Xmax nont plus la mme distribution que les variables X1 ; : : : ; Xn de lchantillon. En effet,
on montre (exercice) que leur fonction de rpartition sont respectivement :
et
Les 1er et 3me quartiles Q1 et Q3 sont dfinis par F (Q1 ) = 0:25 et F (Q3 ) = 0:75. Lintervalle inter-quartile
[Q1 ; Q3 contient donc 50% des donnes.
Bien que lintervalle inter-quartile soit moins sensible aux valeurs extrmes que ltendue, il nest pas trs souvent
utilis. On utilise plus souvent la variance empirique V 2 et sa racine carr V lcart-type :
V2 =
n
1X
(X
n i=1 i
n
1X
X )2 =
X 2 X 2:
n i=1 i
1 =
1 Pn
n p i=1 (Xi
X )3
;
( n=(n 1)V )3
lintrt du facteur n=(n 1) au dnominateur sera prcis au chapitre 2. Il est nul pour une distribution symtrique. Un
1 positif indique une distribution dcale vers la gauche avec une queue de distribution tendue vers la
droite.
Le coefficient daplatissement
2 (kurtosis) renseigne sur la diffusion de la distribution :
2 =
1 Pn (
i=1
Xi X )4
:
(n=(n 1))2 V 4
Il vaut 3 pour une distribution gaussienne. Si la distribution est plus aplatie quune gaussienne, le coefficient daplatissement sera suprieur 3.
Attention : certains logiciels et/ou auteurs soustraient 3
2 pour le comparer directement 0.
10
1:5(q3
20
30
40
50
60
70
Une bote moustaches (figure 1.1) rsume la srie de donnes laide des caractristiques suivantes :
la mdiane est le trait centr au milieu de la bote,
la bote est forme par les 1er quartile q1 et 3me quartile q3 ,
les moustaches sont dfinies par les valeurs observes les plus extrmes dans lintervalle [q1
q1 ); q3 + 1:5(q3 q1 ),
les reprsentent les valeurs extrmes non contenues dans lintervalle prcdent.
F IGURE 1.1 Bote moustaches illustrant la distribution des ges des clients.
Cette reprsentation permet galement de comparer facilement la distribution de diffrentes variables, ou encore de
la mme variable pour diffrentes modalits dune variable qualitative (figure 1.2). On remarque ainsi que parmi les
clients de la banque allemande les femmes divorces, spares ou maries ainsi que les hommes maris ou veufs
sont gnralement moins gs que les hommes clibataires, divorcs ou spars.
1.3.3.2 Histogramme
Un histogramme est un graphique en barres verticales accoles obtenu aprs dcoupage en classes de lintervalle
de variation des donnes. La surface de chaque barre est proportionnelle la frquence de la classe. Pour des classes
de mme largeur (souvent utilises dans les logiciels), cest donc la hauteur de la barre qui est proportionnelle la
frquence de la classe. La surface de lensemble des barres vaut 1.
Lhistogramme dune srie de donnes peut tre vue comme une version discontinue empirique de la courbe de
densit dune variable alatoire. Ainsi, sa visualisation permet davoir un avis sur la nature de la distribution des
donnes. Par exemple (figure 1.3), la variable ge ne semble pas suivre une loi normale.
Attention : sur un histogramme figurent en ordonnes des frquences et non pas des effectifs, comme ont tendance
le faire beaucoup de logiciels !
20
30
40
50
60
70
11
A91
A92
A93
A94
F IGURE 1.2 Bote moustaches illustrant la distribution des ges des clients suivant les diffrents statut maritaux.
0.02
0.01
0.00
Density
0.03
0.04
20
30
40
50
60
70
data[, 13]
12
N
Fn (x) = x
n
0.0
0.2
0.4
Fn(x)
0.6
0.8
1.0
ecdf(x)
20
30
40
50
60
70
80
Nj = #fXi : Xi = mj ; 1 i ng
le nombre doccurrences (effectif) de la modalit mj dans lchantillon (
pondante :
Pp
j Nj
N
Fj = j :
n
1.3.5 Reprsentation graphique dune variable qualitative
Les variables qualitatives nominales sont gnralement reprsentes sous la forme de camemberts (pie-chart,
figure 1.5) ou diagramme en barres horizontales (figure 1.6). On utilisera des diagrammes en barres verticales
lorsque les variables sont qualitatives ordinales.
13
A92
A91
A94
A93
A91
A92
A93
A94
100
200
300
400
500
14
10000
0
5000
data[, 5]
15000
Nuage de points. Ltude graphique du nuage de points reprsentant les deux variables X et Y dintrts permet
de mettre en vidence un certain lien entre les variables :
une liaison linaire positive ou ngative,
une liaison non linaire,
une absence de liaison,
ou encore des structures de liaison plus particulires (absence de liaison en moyenne mais pas en dispersion).
On devine sur lexemple bancaire (figure 1.7) une liaison linaire linaire positive entre la dure et le montant du
crdit.
10
20
30
40
50
60
70
data[, 2]
Coefficient de corrlation linaire Lindice de liaison utilis est le coefficient de corrlation linaire, dfini
par :
VXY
VX VY
o VX et VY sont les cart-types des variables X et Y , et VXY
XY =
par :
VXY =
n
1X
(X
n i=1 i
X )(Yi
n
1X
Y ) =
XY
n i=1 i i
Y , dfinie
X Y
15
Attention : si les variables X et Y sont indpendantes, leur covariance est nulle et donc leur coefficient de corrlation linaire galement. Mais la rciproque est fausse !
Coefficient de corrlation partielle Il arrive parfois que lon constate une corrlation tonnante entre deux
variables. Ce phnomne arrive lorsque la corrlation est en fait due une troisime variable. On cite souvent
lexemple du nombre de maladies mentales (X ) corrl positivement avec le nombre de postes de radio (Y ), corrlation purement fictive tant en fait due une troisime variable non alatoire, le temps (T ). Pour remdier ce
phnomne on utilise le coefficient de corrlation partielle (ou conditionnel) de X et Y conditionnellement T :
XY T =
XY XT Y T
(1 2XT )(1 2Y T )
V2 =
R
1X
N (Y
n j=1 j j
Y )2
{z
R
1X
N V2
n j=1 j j
{z
Cette formule danalyse de variance est lanalogue empirique, dans le cas o X est une variable alatoire qualitative,
de la formule vue en probabilit :
V (Y ) = V (E [Y jX ) + E [V (Y jX ):
On peut alors dfinir comme indice de liaison le rapport de corrlation :
r
RY jX =
VX2
:
V2
Le carr de ce rapport est appel coefficient de dtermination, et est galement utilis par la suite pour exprimer
le degr de liaison entre deux variables quantitatives.
contingence :
Les Nr et N
sont les marges, ou effectifs marginaux, en lignes et en colonnes.
On appelle r-me profil-ligne lensemble des frquences de la variables Y conditionnelles la modalits mr de
X:
r
r
16
m1
..
.
mr
..
.
mR
sommes
o1
N11
..
.
Nr1
..
.
NR1
N1
o
oC
N 1
N 1C
..
.
Nr
..
.
sommes
..
.
NrC
..
.
NR
NRC
N
NC
N1
..
.
Nr
..
.
NR
n
Lorsque aucune liaison nexiste entre les deux variables qualitatives, tous les profils-lignes sont gaux entre eux,
ainsi que tous les profils-colonnes. On a ainsi
N N
Nr
= r
n
81 r R; 1 C:
Une mesure de la liaison entre les deux variables peut tre faite en valuant lcart cette situation de non liaison,
par lindice suivant :
=
2
R X
C
X
r=1
=1
Nr
N r N
2
n
Nr N
n
"
R X
C
X
2
Nr
=n
r=1
=1 Nr N
Le 2 est toujours positif ou nul, et il est dautant plus grand que la liaison est forte. Malheureusement cet indice
dpend des dimensions R et C ainsi que de leffectif total n. Dautres indicateurs sont alors utiliss comme :
2
le 2 = n qui dpend encore de C et de R,
le V de Cramer
s
V=
qui est compris entre 0 et 1,
le T de Tschuprow
T=
2
inf (R; C ) 1
2
(R 1)(C
1)
1
= Y tY
n
17
o Y est le tableau des donnes centres, obtenu par Y = AX avec A la matrice n n de terme gnral aij vrifiant
aij = 1Ii=j 1=n.
18
Chapitre 2
Estimation
Soit un chantillon X1 ; : : : ; Xn de variables alatoires indpendantes et identiquement distribues, desprance
et de variance 2 .
Lestimation statistique consiste donner une valeur approche une caractristique dune population, partir dun
chantillon dobservations issus de cette population. Nous nous intressons dans un premier temps lestimation de
paramtres de la population (esprance, variance, proportion...). Dans un second temps, nous chercherons dcrire
de faon encore plus fine le comportement dune population statistique en estimant la fonction de rpartition et la
densit de probabilit dune variable alatoire quantitative.
X V2
E [X =
2
V (X ) = :
n
et
1 (X ) =
p 1n
2 (X ) = 3 +
et
!
X L
p ! N (0; 1)
= n
1. le coefficient dasymtrie ou skewness est dfinit pour une variable alatoire X de moyenne et de variance 2 par
1 =
et est nul si la loi de X est symtrique
2. le coefficient daplatissement ou kurtosis est dfinit par
2 =
densit est plus aplatie quune gaussienne
E [(X )3 ,
3
19
CHAPITRE 2. ESTIMATION
20
Application 1 : sondage lectoral
Considrons le sondage dune population visant dterminer la proportion p dlecteurs votant pour un certain
candidat C. Nous supposons (ce qui nest gnralement pas le cas dans la ralit) que les diffrents sondeurs agissent
indpendamment, alatoirement et ne relve pas lidentit des personnes sondes.
Soit Xi la variable alatoire qui vaut 1 si le sond i dclare voter pour C et 0 sinon. Soit n le nombre de personnes
interroges.
Avec ces notations, la frquence empirique des personnes dclarant voter pour C, dfinie par F =
1 Pn
,
X
n i=1 i nest autre que X .
Les variables (X1 ; : : : ; Xn ) constituent un chantillon de loi de Bernoulli de paramtre p. Ainsi, si n est grand, le
thorme central limite nous permet de considrer que F suit une loi normale de moyenne p et de variance p(1n p) .
Exercice. On suppose que 1000 personnes sondes, 300 ont dclar voter pour C.
Sachant que la probabilit pour quune variable alatoire de loi normale centre rduite appartienne [ 1:96; 1:96
a 95% de chance dappartenir.
est de 0.95, donner un intervalle (de confiance) auquel la variable alatoire X
Rponse : IC (p)95%
= [0:2716; 0:3284
V 2 p:s:
! 2 ;
mais
E [V 2 =
n 1 2
:
n
n 1
[(n 1)4 (n 3)4 :
n3
Enfin, un thorme limite nous assure que la statistique V 2 converge en loi vers une loi normale :
V 2 nn 1 2 L
p
! N (0; 1)
V (V 2 )
V (V 2 ) =
4
A noter que lorsque n ! 1, on a lquivalence V (V 2 ) 4 n , do lapproximation suivante :
V 2 2 L
! N (0; 1)
4 4
et V 2 est :
Proprit 2.1.1. La corrlation entre X
V 2) =
(X;
4
3
n
n
3 4
1
ET V 2
2.1. PRAMBULE : TUDE DES STATISTIQUES X
21
E [2n = n
V (2n ) = 2n
et
x n2 1
f (x) = n n2 e
( 2 )2
o
x
2
1Ifx>0g
R
(a) = 01 e xxa 1 dx
Dfinition 2.1.2. Soient X et Y deux variables alatoires indpendantes de lois du 2n et 2p . On appelle loi de
Fisher de paramtres n et p, note Fn;p , la loi de la variable
F = Yn :
p
E [F =
p 2
V (F ) =
et
2p2 (n + p 2)
pour tout p > 4:
n(p 2)2 (p 4)
Dfinition 2.1.3. Soient U une variable alatoire normale centre rduite et X une variable alatoire de loi du
2n , indpendante de U . On appelle loi de Student n degrs de libert, note tn , la loi de la variable alatoire
Tn = pUX
n
E [Tn = 0 si n > 1
et
V (Tn ) =
n
si n > 2:
n 2
V2 =
do, en multipliant par n2 :
n
1X
(X
n i=1 i
n
X
i=1
X
( i
)2 =
)2
(X
)2 ;
n 2 X 2
V + ( p )
2
n
En appliquant le thorme de Cochran sur les formes quadratiques cette dcomposition, on en dduit les deux
thormes suivants.
Thorme 2.1.1.
Thorme 2.1.2.
1.
CHAPITRE 2. ESTIMATION
22
X p:s:
!
et
V 2 p:s:
! 2
De mme la frquence empirique f dun vnement est une bonne estimation de sa probabilit p.
, V 2 et F sont des estimateurs de , 2 et p.
Les variables alatoires X
Dfinition 2.2.1. On appelle estimateur dun paramtre dune population, toute fonction
Tn = f (X1 ; : : : ; Xn )
Un estimateur est une variable alatoire (cest une fonction de variable alatoire).
Il est cependant possible dutiliser plusieurs estimateurs pour une mme quantit (pour une distribution symtrique, la mdiane est galement un estimateur de ). Nous allons donc prsenter dans le paragraphe suivant les
diffrentes qualits dun estimateur qui nous guideront dans son choix.
8 > 0
IP(jTn
j ) n!1
!0
Un estimateur Tn est fortement consistant sil converge presque-srement vers quand n tend vers linfini
IP
lim T = = 1
n!1 n
, V 2 et S 2 ?
Exemple. Que dire des estimateurs X
On mesure galement la prcision dun estimateur Tn par lerreur quadratique moyenne E [(Tn
dcompose sous la forme
)2 , qui se
= n1
Pn
i=1 (Xi
Exercice. Proposer 2 estimateurs pour le paramtre dune loi de Poisson et dterminer le meilleur.
23
L(x1 ; : : : ; xn ; ) =
Qn
Qin=1 f (xi ; )
i=1 IP(Xi
= xi ; )
Soit Tn une statistique fonction de X1 ; : : : ; Xn de loi g (t; ) (densit dans le cas continu, P (T
discret).
= t) dans le cas
.
= t ne dpend pas de
Ce qui signifie que si T est connue, lchantillon napportera plus aucune autre information supplmentaire sur
Pn
i=1 (Xi
Thorme 2.4.1 (de Darmois). Soit X1 ; : : : ; Xn un chantillon dont le domaine de dfinition de la loi ne dpend
pas de . Une condition ncessaire et suffisante pour que lchantillon admette une statistique exhaustive est que la
densit soit de la forme :
In () = E
"
lnL
2 #
In () = E
2
lnL
2
CHAPITRE 2. ESTIMATION
24
Proprit 2.4.1.
(i) Si le domaine de dfinition de la loi de lchantillon ne dpend pas de , In () = nI1 ()
2
= E lng(t;)
linformation de Fisher apporte par la statistique T , avec g (t; ) la
densit de T , on a IT () In (). On a galit si T est exhaustive, et rciproquement si le domaine de
dfinition de la loi de lchantillon est indpendant de .
La proprit 1 dit que chaque observation a la mme importance, ce qui nest pas le cas lorsque le domaine de
dfinition dpend de , comme pour une loi uniforme sur [0; , o la plus grande valeur de lchantillon apporte
plus dinformation que les autres sur .
La proprit 2 nous assure linformation apporte par une observation est dautant plus grande que la dispersion est
petite.
Thorme 2.5.2 (Rao-Blackwell). Soit T un estimateur sans biais de et U une statistique exhaustive pour .
Alors T = E [T jU est un estimateur sans biais de au moins aussi bon que T (dun point de vue variance).
Thorme 2.5.3. Sil existe une statistique exhaustive U , alors lunique estimateur T de sans biais de variance
minimale ne dpend que de U .
Dfinition 2.5.1. Une statistique U est complte si E [h(U ) = 0
8 ) h = 0p.s.
Thorme 2.5.4 (Lehmann-Scheff). Si T est un estimateur sans biais de dpendant dune statistique exhaustive
complte U alors T est lunique estimateur sans biais de variance minimale. En particulier si lon dispose dun
estimateur T sans biais de , T = E [T jU .
Exemple. Le nombre de bug informatique par semaine dun logiciel donn suit une loi de Poisson de paramtre
. On cherche valuer la probabilit de navoir aucune panne pendant une semaine P (X = 0) = e . Que
proposez-vous ?
Le rsultat suivant nous indique une borne laquelle ne peut tre infrieure la variance dun estimateur.
Thorme 2.5.5 (Ingalit de Frchet-Darmois-Cramer-Rao). Si le domaine de dfinition de la loi de lchantillon
ne dpend pas de , tout estimateur T vrifie
V (T )
et si T est un estimateur sans biais de h()
V (T )
1
In ()
[h0 ()2
In ()
Dfinition 2.5.2. Un estimateur qui atteint la borne de Cramer-Rao est dit efficace. Autrement dit, un estimateur
est efficace sil nest pas possible de trouver un estimateur sans biais de variance plus faible.
Thorme 2.5.6 (efficacit).
la borne de Cramer-Rao ne peut tre atteinte que si la loi de lchantillon
est de la famille exponentielle :
25
T=
0 ()
0 ()
h() =
Lestimateur de h() est alors
n
1X
a(Xi )
n i=1
V (T ) =
h0 ()
n0 ()
lnL(X1; : : : ; Xn ; ) = 0
2 lnL(X ; : : : ; X ; ^) < 0. Un certain nombre de proprit nous prouve lintrt de cette estimateur.
vrifiant
2
1
n
Proprit 2.6.1.
(iii) Il existe une suite ^n de racines de lquation de vraisemblance qui converge presque srement vers . de
plus, il existe un rang partir duquel le maximum est atteint.
(iv) ^n
L! N (;
In () ).
1
La dernire proprit nous assure que lEMV est asymptotiquement efficace. Il est donc important davoir un
chantillon important pour utiliser cet estimateur.
Lorsque le modle comporte plusieurs paramtres 1 ; : : : ; p , il sera ncessaire de rsoudre le systme dquation
simultanes
lnL = 0
i
81 i p
Remarque 2.6.1.
Lquation de vraisemblance na pas ncessairement une unique racine.
La solution de lquation de vraisemblance nest pas toujours calculable analytiquement. Dans ce cas,
des algorithmes de recherche de maximum (de type Newton) peuvent tre utiliss.
CHAPITRE 2. ESTIMATION
26
Considrons un estimateur T de dont on connait la loi de probabilit. On prendra bien entendu le meilleur
estimateur possible, ds lors que sa loi est connue. Connaissant la loi de T qui dpend de , pour une valeur estime
t de il est possible de dterminer un intervalle tel que :
(ii) lintervalle de confiance est galement fonction de . Plus est petit, plus le niveau de confiance est grand,
et donc plus lintervalle slargit.
(iii) lorsque la taille de lchantillon grandit, lestimateur
lintervalle se rtrcit.
Soit a et b les bornes dun intervalle de confiance IC1 () de niveau de confiance 1
On a :
p(a b) = 1 et donc p( < a) + p( > b) =
V (T ) diminue, et
pour le paramtre .
En posant = 1 + 2 , il existe une infinit de choix possibles pour 1 et 2 , et donc de choix pour a et b. Nous ne
considrerons que le cas dun intervalle bilatral risques symtriques, pour lesquels le risque est partag en deux
parts gales 1 = 2 = 2 . Nanmoins, il arrive en pratique que lon sintresse des risque unilatraux, mais nous
en parlerons plus en dtail dans le chapitre 3 sur les tests statistiques.
Dans la suite de ce chapitre, nous dcrivons les intervalles de confiance les plus classiques. Mais il faut garder
lesprit que ce ne sont pas les seuls, et que ds lors que lon connait la loi de lestimateur, il est possible de donner
un intervalle de confiance.
N (; 2 ) avec connu. Le meilleur estimateur de est X . Comme X est de loi normale,
X
T = p
n
N (0; 1):
En prenant des risques symtriques, on peut lire dans les tables les quantiles u 2 et u1 2 de la loi normale centre
rduite dordres respectifs 2 et 1 2 , tels que :
IP(u 2
ou encore
IP(T
T u1
)
2
=1
u ) = p(T u1
2
)
2
= :
2
q ) = ;
u1
= u 2 :
(2.1)
27
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
4
u2
u21
Ces quantiles sont donns par les tables statistiques. Par exemple, pour
1:96.
Daprs (2.1),
IP(u 2 T u1 2 ) = 1 ;
do on tire
IP(u 2
IP(X
peut scrire
T u ) = 1 ;
2
+ u 2 p
n
X u pn ) = 1 ;
2
do lintervalle de confiance :
IC1 () = [X + u 2 p ; X u 2 p :
n
n
Pour une ralisation numrique x1 ; :::; xn du n-chantillon X1 ; :::; Xn , on obtient lintervalle de confiance sur m au
niveau de confiance 1 :
IC1 () = [x + u 2 p ; x u 2 p :
(2.2)
n
n
qui donne pour = 0:05 :
[x 1:96 p ; x + 1:96 p
n
n
2.7.1.2 Intervalle de confiance sur lesprance dune loi normale avec variance inconnue
Si la variance 2 est inconnue, on utilise a sa place son meilleur estimateur S 2 .
Comme on sait que n2 V 2 suit une loi du 2 n 1 degrs de libert, n21 S 2 aussi.
La statistique que lon utilise est donc
Tn
Tn
X
:
pSn
X
pn
n 1 S2
2
CHAPITRE 2. ESTIMATION
28
on trouve quelle suit une loi de Student n 1 degrs de libert, comme rapport dune loi normale centre rduite
sur la racine dun 2 divis par son degr de libert.
Comme prcdemment, on obtient lintervalle de confiance :
S
S
IC1 () = [x + tn 1; 2 p ; x tn 1; 2 p ;
n
n
o tn
1;
2
1 degrs de libert.
i=1 (Xi
V2 =
)2
2
Or, (Xi2 ) = n2 V2 suit une loi du 2 n degrs de libert en tant que somme de n carrs de loi normale centre
rduite indpendantes.
Il est possible dobtenir un intervalle de confiance sur 2 , en fixant le niveau de confiance 1 dans lingalit :
IP(2n; 2
)
2
= 1 ;
IC1 (2 ) = [
nV2
2n;1
nV2
2n; 2
On obtient une estimation numrique de cet intervalle en remplaant V2 par sa valeur sur le n-chantillon de
obtenu par exprience.
2.7.2.2 Intervalle de confiance sur la variance dune loi normale lorsque est inconnue
Si est inconnue, on utilise lestimateur de 2 :
S =
2
Pn
i=1 (Xi
n 1
IC1 (2 ) = [
X )2
(n 1)S 2 (n 1)S 2
;
;
2n 1;1 2 2n 1; 2
IC1 (2 ) = [
(n 1)s2 (n 1)s2
;
:
2n 1;1 2 2n 1; 2
Remarque 2.7.2. Ces intervalles de confiance ne sont valables que pour une loi normale. Il nest pas possible
dtendre ces rsultats au cas dautre loi comme pour les intervalles de confiance sur la moyenne.
29
F = X =
Pn
i=1 Xi ;
Xi =
Pn
Comme X suit une loi de Bernoulli B (p), nF = i=1 Xi suit une loi binomiale B (n; p).
Si n est faible, on utilisera les tables de la loi binomiale (ou des abaques).
Si n est suffisamment grand, de sorte que np > 5 et n(1 p) > 5, on peut considrer (loi des grands nombres) que
Pn
p(1 p)
F p
i=1 Xi suit une loi normale N (np; np(1 p)), do F suit une loi normale N (p; n ), et donc T = p(1 p)
IC1 (p) = [F + u 2
p(1 p)
;F
n
u 2
p(1 p)
:
n
Cet intervalle recouvre p avec la probabilit 1 , mais il est toutefois inoprant puisque ses bornes dpendent de
p. En pratique, il existe trois faons dobtenir lintervalle de confiance. Nous retiendrons celle qui remplace p par
son estimateur F .
Ainsi, on obtient lintervalle de confiance sur la proportion p en fonction de la valeur f de F sur notre chantillon :
r
IC1 (p) = [f + u 2
f (1 f )
;f
n
u 2
f (1 f )
:
n
2.7.4 Rcapitulatif
Intervalle de confiance dune moyenne
IC1 ()
loi normale ou n 30
2 connue
[x + u 2 pn ; x u 2 pn
2 inconnue
[x + tn 1; 2 pSn ; x tn 1; 2 pSn
IC1 (2 )
loi normale
connue
2
[ 2 ; nV
2n ;
2
n;1 2
nV2
inconnue
2
; (n2 1)s
[ 2
n 1 ;1 2
n 1; 2
(n 1)s2
IC1 (p)
np > 5 et n(1 p) > 5
[f + u 2
f (1 f ) ; f
n
u 2
f (1 f )
n
CHAPITRE 2. ESTIMATION
30
g(jX1 = x1 ; : : : ; Xn = xn ) =
L(x1 ; : : : ; xn ; )g()
:
R L(x1 ; : : : ; xn ; )g ()d
2.8.1.1 Application : estimation baysienne de la moyenne dune loi normale de variance connue
On suppose que la loi de lchantillon conditionnellement est N (; 2 ), et que la loi a priori de
galement une loi normale N (0 ; 02 ).
Le calcul de la loi a posteriori donne une loi normale desprance et de variance :
E [ j X1 ; : : : ; X n =
2 + 2 X
0
n 0
2 + 2
0
n
et
est
2 02
n
V (jX1 ; : : : ; Xn) = 2
2
n + 0
Lestimateur baysien de , qui est lesprance a posteriori est donc une moyenne pondre de lesprance a priori
et de la moyenne empirique des observations.
Introduisons le concept de prcision, comme linverse de la variance. La prcision a priori sur est 1 = 12 et sur la
0
+2 X
1
moyenne empirique elle est 2 = n2 . On voit alors que E [jX1 ; : : : ; Xn = 1 10+
2 et V (jX1 ;:::;Xn ) = 1 + 2 .
Lestimateur baysien de est donc la moyenne pondre des deux estimations (a priori et empirique) pondres
par leur prcision. Si linformation a priori est trs prcise, les observations nauront que peu dinfluence dans
lestimateur baysien. Au contraire si la prcision a priori tend vers 0 ou si n tend vers linfini, lestimateur baysien
.
est lestimateur classique X
Cette application fonctionne trs bien car la loi a posteriori se calcule facilement. Mais pour des lois quelconques, les calculs sont gnralement beaucoup plus compliqus, et la loi a posteriori doit tre estime par des
algorithmes spcifiques.
La statistique baysienne peut tre vu comme un raffinement de la statistique classique, mais le choix de la loi
a priori peut tre trs problmatique et reste toujours subjectif. Nanmoins, pour les problmes statistique dans
lesquels on dispose de peu de donnes (fiabilit de systmes trs rarement dfaillant par exemple), lincorporation
dune information a priori ( jugement dexpert ) peut savrer trs intressante.
de lesprance dune distribution symtrique est trs sensibles des valeurs extrmes aberLestimation x
rantes .
Lorsque des valeurs aberrantes sont prsentes (ou souponnes), un estimateur robuste de lesprance peut tre
utilis : la moyenne tronque dordre , qui est la moyenne arithmtique obtenue en liminant de lchantillon les
n plus grandes et plus petites valeurs. Une valeur gnralement recommande est = 15%.
La mdiane est le cas extrme de cet estimateur pour = 50%, et est trs robuste.
Au lieu dliminer les n plus grandes valeurs, il est galement possible de toutes les fixer la plus grande valeur
conserves : cest ce quon appelle la winzorization .
Dautres approches existent galement, comme celle des M -estimateurs, qui consistent chercher une estimation qui minimise une fonction du type
n
X
xi
i=1
31
o s est une estimation robuste de la dispersion. Toute une famille destimateur est ainsi dfinie en fonction du
choix de h. Pour h(x) = lnf (x), avec f la densit des donnes, on retrouve les estimateurs du maximum de
vraisemblance.
X1 ; : : : ; Xn infrieures ou gales x :
#fXi : Xi x; 1 i ng
n
est un estimateur de la fonction de rpartition F (x) = p(X t).
Fn (x) =
(2.3)
Cest une variable alatoire, en tant que fonction des variables alatoires X1 ; : : : ; Xn . A un chantillon dobservations x1 ; : : : ; xn correspond une ralisation de cette fonction alatoire, qui est une fonction en escalier de sauts
1=n.
Thorme 2.9.1 (Glivenko-Cantelli). Soit Fn la fonction de rpartition empirique dun chantillon (X1 ; : : : ; Xn )
o les Xi ont pour fonction de rpartition F . Alors
8x 2 R;
Fn (x) p:s:
! F (x)
p:s:
jjFn F jj1 ! 0
Preuve. Le premier point est dmontr en cours, le second point est admis. Pour un rappel sur les diffrents modes
de convergence dune suite de variables alatoires, se reporter lannexe 4.1.
Le second point de ce thorme nous assure que pour une taille assez grande dchantillon, la fonction de
rpartition thorique peut tre approxime par la fonction de rpartition empirique.
MISE = E
Z
Soit X1 : : : Xn un chantillon, rang dans lordre croissant, de la variable alatoire dont on cherche estimer
la densit. Sachant que la fonction de densit est la drive de la fonction de rpartition, on a
F (x + h) F (x h)
;
2h
et on peut donc approcher f , pour de petite valeur de h par
f (x) = lim
h!0
fn(x) '
F (x + h) F (x h)
2h
' Fn (x + h) 2h Fn (x h)
CHAPITRE 2. ESTIMATION
32
o Fn est la fonction de rpartition empirique. En remplaant Fn par son expression (2.3), on obtient lestimateur
par fentre mobile de la densit
fn (x) '
n
1 X
Xi x
1
1I[ 1;1
:
nh i=1 2
h
n
1 X
x xi
f^n (x) =
K
nh i=1
h
Chapitre 3
Tests statistiques
On distingue diffrentes catgories de tests :
les tests paramtriques ont pour objet de tester une certaine hypothse relative un ou plusieurs paramtres
dune variable alatoire de loi spcifie (gnralement suppose normale). Lorsque le test est toujours valide
pour des variables non gaussiennes, on dit que le test est robuste ( la loi).
les tests non paramtriques qui portent gnralement sur la fonction de rpartition de la variable alatoire,
sa densit...
les tests libres (distributions free) qui ne supposent rien sur la loi de probabilit de la variable alatoire
tudie (et qui sont donc robuste). Ces tests sont souvent non paramtriques, mais pas toujours.
Dans ce cours, nous classons les tests en fonction de leur fonctionnalit :
Tests sur une population :
test sur le caractre centrale dune population,
test sur la variance,
test sur une proportion,
test de lalatoire dun chantillon,
test dajustement une loi spcifie,
test de liaison entre variables (quantitatives, qualitatives, mixtes)
Tests de comparaison de deux populations
H0 : = 0
contre
H1 : 6= 0
T=
Ainsi, si
[u 2 ; u1
H0
X
0
pn :
est vraie, la valeur de cette statistique pour lchantillon observ devrait appartenir lintervalle
. Ce qui revient dire que la ralisation de X appartient lintervalle
avec la probabilit 1
2
[0 + u 2 p ; 0 + u1
n
pn
34
H0 : = 0
o 0 est une valeur donne du paramtre. Le choix de cette hypothse est fait de manire conservative : si on
test un mdicament, on prendra H0 lhypothse o le mdicament na pas deffet. Cest galement souvent la plus
importante des deux hypothses puisque cest celle dont on contrle le risque. Lhypothse alternative H1 est quant
elle gnralement composite :
H1 : 2 1
o 1 est une partie de R non ncessairement rduite un lment. Cette hypothse se ramne souvent un des cas
suivants : < 0 , > 0 (test unilatraux) ou 6= 0 (test bilatral).
Suivant la justesse de la dcision prise lissue du test, on est en prsence de 4 cas de figure (tableau 3.1).
XXXXX Vrit
XXXXX
Dcision
H0
H1
H0
H1
conclusion correcte
erreur de premire espce
Exemple (Importance du choix des hypothses). Considrons le test des hypothses suivantes :
hypothse H0 : le patient doit tre hospitalis,
hypothse alternative H1 : le patient ne doit pas tre hospitalis.
Lerreur de premire espce consiste ne pas hospitaliser un patient qui en avait besoin. Cette erreur est trs grave,
puisquelle peut conduire au dcs du patient. Le risque de deuxime espce, qui consiste hospitaliser un patient
qui nen avait pas besoin peut savrer moins grave.
Pour lexemple du mdicament, lerreur de premire espce consiste mettre sur le march un mdicament qui na
pas deffet.
XXXX
XXXVrit
XXX
Dcision
H0
H1
H0
niveau de confiance 1
risque
H1
risque
35
Une fois que lon a fix raisonnablement , il faut choisir une variable de dcision, qui doit apport le maximum
dinformation sur le problme pos, et dont la loi sera diffrente selon que H0 ou H1 est vraie. La loi sous H0 doit
tre connue. On dfinit alors la rgion critique W qui est lensemble des valeurs de la variable de dcision qui
conduisent rejeter H0 au profit de H1 . Sa forme est dtermine par la nature de H1 , et sa dtermination exacte est
.
donne par p(W jH0 ) = . La rgion dacceptation est son complmentaire W
H0 : = 0 contre H1 : = 1
Neyman et Pearson (1933) ont montr que le test du rapport de vraisemblance est le test le plus puissant au
niveau de confiance .
Thorme 3.1.1 (Neyman et Pearson). La rgion critique optimale est dfinie par les points
vrifiant
x = (x1 ; : : : ; xn )
L(x; 1 )
>
g
L(x; 0 )
La constante
, qui dpend de , est dtermine par = IP0 (x 2 W ).
W = fx :
0.25
0.2
0.15
0.1
0.05
0
10
5 m0
k0
m15
10
H0 : = 0
On suppose 0
contre
H1 : = 1 :
do le rapport de vraisemblance
n
1 X
L(x; 1 )
2( )x
= exp
L(x; 0 )
22 i=1 1 0 i
n 2
(
22 1
2
0)
(x;1 )
1 +0 = C , o la constante C est dtermine
2
Ainsi, L
L(x;0 ) >
est quivalent x > log(
) n(1 0 ) + 2
x > C ) = . La rgion critique optimale du test de Neyman-Pearson est donc
IP0 (x 2 W ) = IP0 (
W = fx : x > 0 + u1 p g
n
36
Dans le cas o lhypothse alternative est composite ( 2 1 ), la puissance du test est fonction de : 1 ()
est appele la fonction puissance du test.
Un test est dit uniformment le plus puissant (UPP) si quelque soit la valeur de appartenant lhypothse
alternative, sa puissance est suprieure celle de tout autre test.
Exemple. On a vu prcdemment pour le test H0 : = 0 contre H1 : = 1 > 0 que la rgion critique ne
dpend pas de 1 , et quelle est donc la mme pour tout 1 > 0 . Le test est donc UPP pour H0 : = 0 contre
H1 : > 0 .
Si cette fois 1 < 0 , on obtient encore un test UPP H0 : = 0 contre H1 : < 0 , mais diffrent du prcdent.
Il nexiste donc pas de test UPP pour H0 : = 0 contre H1 : 6= 0 .
H0 : = 0
contre
H1 : = 0 + ;
W = fx : x > 0 + u1 p g:
n
On peut calculer le risque de second espce :
n
):
= p(dcider H0 jH1 ) = (u1
La puissance du test, 1 , est donc fonction de , n et . En considrant et n fixs, on peut reprsenter la courbe
3.1.6 Rsum
La dmarche de construction dun test est la suivante :
choix de H0 et H1 ,
dtermination de la variable de dcision,
37
3.1.7 p-value
En pratique, plutt que de calculer la rgion critique en fonction de , on prfre donner un seuil critique ,
appele p-value, qui est la plus grande valeur de conduisant ne pas rejeter H0 . Cette information permet au
lecteur de conclure lacceptation de H0 pour tout risque de premire espce , et son rejet pour tout
> .
U=
X
0
pn :
Sous H0 , cette statistique suit une loi normale centre rduite daprs les conditions prcdentes (via le thorme
centrale limite si seule la seconde condition est satisfaite).
0 j > u p , o u est le quantile de la loi normale
La rgion critique, dfinie par jU j > k , se traduit par jX
n
2
2
centre rduite dordre 2 .
Ainsi,
on rejette H0 si jx
0 j > u 2 pn .
ds que jx p0 j > u 2 . La p-value est la
n
2 jxp0 j avec la fonction de rpartition de
H0
H0 .
pn
u 2 > u 2 et donc
u 2 et on conserve
Remarque 3.2.2 (Tests unilatraux). Si le test est unilatral, H0 : = 0 contre H1 : < 0 , on rejette H0 si la
< 0 + u pn .
vraie valeur de est trop loigne infrieurement de 0 , ce qui se traduit par x
Si le test est H0 : = 0 contre H1 : > 0 , on rejette H0 si x
> 0 u pn .
38
Test H0 : = 0 contre H1 : 6= 0 lorsque 2 est inconnue Ce test est gnralement connu sous le nom de
test de Student.
Dans ce cas la variance 2 est estime par son estimateur S 2 . La statistique de test est
T=
X
0
pSn
1;
2
0 j > tn 1; 2 psn ,
1 degrs de libert, et s2 =
Pni
xi x)2
=1 (
Remarque : les vecteurs des rangs R et des anti-rangs D sont tous deux des permutations des n premiers entiers.
De plus, R et D sont des permutations inverses : R = D 1 .
La suite des rangs R = (R1 ; : : : ; Rn ) est donc une suite de variable alatoire identiquement distribues mais
non indpendantes. On a pour tout 1 i n :
E [Ri =
n+1
2
V (Ri ) =
n2 1
12
Cas des ex-quo : lorsque plusieurs variables sont ex-quo, on leur associe gnralement le rang moyen des
rangs partags par ces variables. Par exemple, si on a 4 variables ex-quo avec 5 autres variables plus petites et 4
plus grandes, elles partageront les rangs 6, 7, 8 et 9 et on leur associera donc le rang moyen 7:5.
Tous les test bass sur les statistiques de rangs prsents dans ce cours supposent labsence dex-quo. Dans le cas
contraire, les tests doivent subir des modifications, qui ne seront pas abordes dans ce cours, sauf pour le test de
Wilcoxon de comparaison de deux chantillons (cf. section 3.3.2.1).
Statistique de rangs signs. On appelle rang sign Ri+ de la variable Xi le rang de jXi j dans le classement
des jX1 j; : : : ; jXn j par ordre croissant.
39
Nous serons par la suite amens travailler avec diffrentes statistiques de test associes aux rangs signs, dfinie
par
S=
o a est une fonction de f1; 2; : : : ; ng dans R.
n
X
i=1
a(Ri+ )1IXi 0
Dfinition 3.2.1. Une variable alatoire a une distribution symtrique par rapport 0 si pour tout x 2 R :
p(X 0 + x) = p(X 0
x)
E [S =
n
X
i=1
a(i)=2
V (S ) =
n
X
i=1
a2 (i)=4:
Lorsque n est grand le thorme central limite nous permet de considrer que S est distribu suivant une loi normale.
Lorsque n est petit, la statistique S a t tabule pour diffrentes fonctions a.
Nous prsentons ci-aprs trois tests bass sur trois choix de la fonction a.
Test des rangs signs (Wilcoxon un chantillon) Pour le test des rangs signs, il faut supprimer de lchantillon
les valeurs nulles. On choisit ensuite a(i) = i et la statistique de test devient
W =
+
n
X
i=1
Ri+ 1IXi 0
ou n est le nombre de valeurs non nulles de lchantillon. Cette statistique admet comme esprance et variance
sous H0 :
A noter quen prsence dex-quo, lesprance est identique mais la variance est diffrente.
jW + E [W + j > u .
Si la taille dchantillon n est suffisamment grande, on rejetera H0 si p H0 +
1 2
VH0 (W )
Si n est petit, on utilisera les tables statistiques ddies ce test (Annexe 4.2.1). Ces tables donne, pour un risque
de 5% et 1%, les quantiles de la statistique de Wilcoxon dordre =2 et 1 =2. Ces tables sont toujours valables
en prsence dex-quo.
La mme dmarche sera applique pour les deux tests suivants.
Logiciel R : fonction wilcox.test.
Logiciel SAS : proc univariate. Attention, SAS utilise une statistique de test W + centre.
Test du signe Pour le test du signe, il faut supprimer de lchantillon les valeurs nulles. On choisit ensuite a(i) = 1
et la statistique de test devient
S =
+
n
X
i=1
1IXi >0
ou n est le nombre de valeurs non nulles de lchantillon. La statistique S + , qui est le nombre de valeurs positives
dans lchantillon, suit, sous lhypothse H0 de symtrie par rapport 0, une loi binomiale de paramtre n et 1=2.
On peut donc facilement dduire la p-value correspondant la valeur observe sur lchantillon de la statistique
S + . Ces p-values ont t tabule et figurent en Annexe 4.2.2.
En outre, lesprance et la variance de S + sous H0 sont :
EH0 [S + = n=2
VH0 (S + ) = n=4:
40
Ce test est plus puissant que le test de Wilcoxon lorsque les queues de distributions sont trs diffuses.
Remarquons enfin que la prsence dex-quo ne pose aucun problme pour ce test.
Logiciel R : fonction SIGN.test du package BSDA.
Logiciel SAS : proc univariate. Attention, SAS utilise une statistique de test S + centre.
Test des scores normaux En choisissant a(i) =
SN + =
n
X
i=1
EH0 [SN + =
n
X
i=1
VH0 (SN + ) =
1 (i=(n + 1)) =2
n
X
i=1
2
Lorsque la moyenne est connue, la statistique V2 est la meilleure estimation de la variance (cf. exercice en TD) :
V2 =
n
1X
(X
n i=1 i
)2 :
Sous lhypothse H0 , comme lchantillon est gaussien, n2 V2 suit une loi du 2n (en tant que somme de carrs de
0
N (0; 1)). Ainsi,
on rejette H0 si V2
= n1
Pn
i=1 (xi
2
)2 < n0 2n; 2
o si V2
2
> n0 2n;1
,
2
o 2n; et 2n;1 sont les quantiles dordre 2 et 1 2 de la loi de 2 n degrs de libert. Attention, contrairement
2
2
la loi de Student et la loi normale, la loi du 2 nest pas symtrique.
3.2.2.2 Test H0
S2
X . La
n 1 2
S
02
suit sous H0 une loi du 2 n 1 degrs de libert.
La conclusion du test est alors la suivante :
on rejette H0 si S 2
= n1 1
Pn
i=1 (xi
2
x)2 < n01 2n 1; 2
ou si S 2
2
> n01 2n 1;1
.
2
41
: p = p0 contre H1 : p 6= p0
La statistique du test est donc la frquence empirique F qui suit sous H0 une loi N (p0 ; p0 (1n p0 ) ).
on rejette H0 si jf
p0 j >
u1 2
p0 (1 p0 ) .
n
Exemple. Sur un chantillon de 200 individus dune commune, 45% sont favorables limplantation dun centre
commercial. Ceci contredit-il lhypothse quun habitant sur deux y est favorable ?
On test H0 : p = 0:5 contre H1 : p 6= 0:5 avec un risque = 0:05, do u1 2 = 1:96. On rejette H0 si
q
jf 0:5j > 1:96 0:52 ' 0:07, or ici jf 0:5j = 0:05 donc on ne rejette pas H , un habitant sur deux est bien
0
200
RS =
qP
Pn
i=1 (Ri
n (R
i=1 i
R )(i i)
P
R)2 ni=1 (i i)2
42
= i = (n + 1)=2 et
avec R
En remarquant que
Pn
i=1 (i
i)2 = n(n2
RS = 1
1)=12.
P
6 ni=1 (Ri i)2
n(n2 1)
on voit que la statistique de test RS sera gale 1 dans le cas dune tendance dcroissante (Ri
1 pour une tendance croissante (Ri = i).
On peut montrer que cette statistique admet les moments suivant :
E [RS = 0
V (RS ) =
= n + 1 i) et
1
:
n 1
Sous lhypothse H0
p 1 qui suit une N (0; 1),
si n 30, on utilise la statistique RS n q
si 10 < n < 30, on utilise la statistique RS 1n R22 qui est approximativement distribue selon une tn
S
2.
43
x) = ( x )
D =
2
K
X
(Ni
i=1
npi )2
;
npi
et qui est asymptotiquement distribu, lorsque n ! 1, comme une loi du 2 K 1 degrs de libert.
La variable D2 pouvant tre interprte comme une mesure de lcart alatoire entre les effectifs empirique et
thorique, le test du 2 consiste rejeter H0 si la valeur d2 de D2 sur lchantillon est trop grande :
on rejette H0 si d2
44
3.2.5.4 Test de Kolmogorov-Smirnov
Le test du 2 convient trs bien aux variables discrtes, qui ne ncessitent aucune discrtisation. Par contre,
lorsque les variables sont continues, on prfre gnralement utiliser le test de Kolmogorov-Smirnov.
Ladquation une loi donne porte cette fois sur les fonctions de rpartition :
H0 : F (x) = F0 (x) pour tout x 2 R
contre H1 : 9x 2 R; F (x) 6= F0 (x)
La statistique de test utilise est
Il existe alors des tables de cette statistique KS sur lesquelles se baser pour conduire rejeter ou non H0 .
Logiciel R : le test de Kolmogorov-Smirnov peut tre ralis laide de la fonction ks.test.
3.2.5.5 Test de Shapiro-Wilk (normalit)
Le test de Shapiro-Wilk est le test le plus recommand pour tester la normalit dune srie de donnes. Il est
particulirement puissant pour les petits effectifs.
Supposons les Xi rangs par ordre croissant.La statistique du test scrit :
W=
o
P
( n ai Xi )2
Pn i=1
i=1 (Xi
(X ))2
P[ n2
2
Xi )
n
o m = (m1 ; : : : ; mn )t sont les esprances des statistiques dordre dun chantillon de variables indpendantes et identiquement distribue suivant une loi normale, et V est la matrice de variance-covariance de ces
statistiques dordre.
La statistique W peut donc tre interprte comme le coefficient de dtermination entre la srie des quantiles
gnrs partir de la loi normale et les quantiles empiriques obtenus partir des donnes. Plus W est lev, plus la
compatibilit avec la loi normale est crdible. La rgion critique, rejet de la normalit, scrit :
on rejette la normalit si W
< w;n ,
la valeur critique w;n tant lue dans les tables de Shapiro-Wilk (Annexe 4.2.4) en fonction du risque de premire
espce et de la taille dchantillon n.
Logiciel R : le test de Shapiro-Wilk peut tre ralis laide de la fonction shapiro.test.
XY =
Son estimateur est
RXY =
Pn
Cov(X; Y )
:
V ar(X )V ar(Y )
X )(Yi Y )
:
2 Pni=1 (Yi Y )2
i=1 (Xi X )
(Xi
qP i=1
n
Y,
45
p
R
T = n 2 p XY 2
1 RXY
qui suit une loi de Student tn 2 permet de tester la nullit du coefficient de corrlation linaire, en rejetant lhypothse nulle XY = 0 si la valeur t de cette statistique est trop grande ou trop petite, autrement dit si elle vrifie :
t > tn 2;1
ou
t < tn 2; 2 :
Il conviendra donc de tester la nullit de ce coefficient de corrlation linaire avant de tenter de modliser
fonction de X par une relation linaire (cours de Modlisation GIS4).
en
X Y
modalit 1
modalit 2
modalit k
total
n11
n:1
n12
n:2
modalit 1
modalit 2
..
.
n11
n21
n12
n22
:::
modalit r
n1r
n2r
total
n1:
n2:
n1r
n:r
n1:
n
nij estP
le nombre dindividus ayant la modalit i de X et la modalit j de Y ,
ni: = rj=1 nij est le nombre total dindividus ayant la modalit i de X ,
Pk
n:j = i=1 nij est le nombre total dindividus ayant la modalit j de Y ,
Pk Pr
n = i=1 j =1 nij est le nombre dindividus total.
Le test consiste tester H0 : les deux variables sont indpendantes .
X
Si H0 est vrai, cela a un sens de considrer les probabilits pX
1 ; : : : ; pk davoir les modalits 1; : : : ; k de la variable
Y
Y
X et les probabilits p1 ; : : : ; pr davoir les modalits 1; : : : ; r de la variable Y .
Le test consiste, comme pour le test dajustement, comparer les effectifs empiriques nij aux effectifs thoriques
Y
X
Y
pX
i pj que lon devrait observer si X et Y taient indpendantes. Les pi et pj tant inconnues, on les estime par
n
ni:
:j
Y
p^X
i = n et p^j = n .
d2 =
k X
r
X
i=1 j =1
(nij
ni: n:j )2
n
ni: n:j
n
0
k X
r
X
= n
n2ij
i=1 j =1 ni: n:j
1A
qui est la ralisation dune statistique dont la loi peut tre approxime par une loi de 2 (k 1)(r
n n
libert, lorsque les effectifs sont de tailles suffisantes ( i:n :j > 5 pour tout i; j ).
Le test consiste donc rejeter H0 si d2 est trop grand, comme pour un test dajustement du 2 .
1) degrs de
3.2.6.3 Cas de deux variables alatoires binaires et de petits chantillons : Test exact de Fisher
Dans le cas dchantillons de petites tailles (effectifs thoriques infrieurs 5 par croisement de variables), une
alternative consiste utiliser le test exact de Fisher.
46
Lorsque les variables sont binaires, sous lhypothse
leffectif n11 est donne :
H0
dindpendance de
et
Y,
la probabilit dobserver
C n11 C n21
n1: !n2: !n:1 !n:2 !
= n1: n:1n2: :
n!n11 !n21 !n21 !n22 !
Cn
On reconnait une variable alatoire de loi Hypergomtrique (tirage de n individus parmi n dont ). Le test peut donc
IP(N11
3.2.6.4 Cas dune variable qualitative et dune variable quantitative : ANOVA 1 facteur
Soient X une variable quantitative que lon observe pour diffrentes modalits (niveaux) dune variable qualitative A (facteur). On dispose de K chantillons indpendants de X de tailles n1 nK correspondant chacun un
niveau diffrent du facteur A :
X11 ; X12 ; : : : ; X1n1 correspondant au niveau A1 du facteur A,
X21 ; X22 ; : : : ; X2n2 correspondant au niveau A2 du facteur A,
:::
1 ; X 2 ; : : : ; X nK correspondant au niveau A du facteur A.
XK
K
K
K
On suppose que le facteur A influe uniquement sur la moyenne des chantillons et non sur leur dispersion. Ainsi,
chaque chantillon est suppos suivre une loi normale N (k ; 2 ).
Le problme est donc de tester
H0 : 1 = : : : = K =
contre H1 : 91 i; j K t.q. i 6= j :
la moyenne empirique globale :
Pour cela on appelle Xk la moyenne empirique de lchantillon k et X
nk
1 X
Xi
Xk =
nk i=1 k
P
o n = K
k=1 nk .
En remarquant que Xki
X = Xki
nk
K X
1X
(X i
n k=1 i=1 k
{z
VT2
Xk + Xk
et
K
1X
X )2 =
n (X
n k=1 k k
}
nk
K X
1X
Xi ;
X =
n k=1 i=1 k
{z
VA2
nk
K X
X
1
(X i
X )2 +
n k=1 i=1 k
}
{z
VR2
Xk )2
}
qui reprsente la dcomposition de la variance totale VT2 en la variance VA2 due au facteur A (variance intergroupe) plus la variance rsiduelle VR2 (ou variance intra-groupe).
Remarque 3.2.3. Cette formule est lquivalente empirique de la formule vue en cours de probabilit :
V (X ) = E [V (X jA) + V (E [X jA):
1 Pnk
n 2 PK nk Vk2
i
2
2
2
k=1 nk Vk o Vk = nk i=1 (Xk Xk ) , on montre que 2 VR = k=1 2
n V2
suit une loi du 2 n K degrs de libert, car chaque k2 k suit une loi du 2 nk 1 degrs de libert.
nV 2
De mme, sous H0 cette fois, 2T suit une loi du 2 n 1 degrs de libert (car VT2 est la variance dun nnV 2
chantillon de loi N (; 2 )) et 2A suit une loi du 2 K 1 degrs de libert (car VA2 peut tre vue comme la
1 ; : : : ; XK )).
variance du K-chantillon (X
Lquation de lanalyse de variance revient alors 2n 1 = 2K 1 + 2n K , ce qui permet en outre de conclure via
le thorme de Cochran que VA2 et VR2 sont indpendantes.
La statistique du test est donc
VA2
K
F = V 21
R
n K
= n1
PK
1;n
47
Zki = jXki
nk
1 X
Xk j; Zk =
Zi
nk i=1 k
et
nk
K X
1X
Z =
Zi :
n k=1 i=1 k
Sous lhypothse H0 : 1 = : : : = K , cette statistique suit une loi de Fisher-Snedecor FK 1;n K . Nous rejetons
donc lhypothse H0 si la statistique F est suprieure au quantile de la loi FK 1;n K dordre 1 .
Logiciel R : fonction levene.test du package lawstat.
Comparaison des moyennes deux deux
Rejeter H0 permet de dire que toutes les moyennes ne sont pas gales. Il peut cependant tre intressant de tester
lgalit des moyennes deux deux.
Pour cela, on effectue un test de comparaison multiple des moyennes (pour 1 k; k 0 K ) :
H0 : k = k0 :
Un rsultat d Scheff montre que
p jXk
Xk0
(k
k0 )j SR (K
1
1
1)fK 1;n K;1
=1
+
nk nk0
1 et n K dordre 1 .
r
1
1
1)fK 1;n K;1
+ :
nk nk0
48
T=
X1
X 2 (1 2 )
;
12 22
+
n1 n2
2
2
jx1 x2 j > u n1 + n2 :
2
Dans le cas le plus courant, les variances sont inconnues. On doit alors tester dans un premier temps si elles sont
gales ou non (test de Fisher) avant de pouvoir effectuer le test de comparaison des moyennes (test de Student).
3.3.1.1 Test de comparaison des variances de Fisher
Nous testons
n1 V12
12
Ainsi, sous lhypothse H0 que 12
2n
n2 V22
22
et
F=
n1 V12
n1 1
n2 V22
n2 1
2n 1 :
2
S12
S22
1;n2 1
:
(3.1)
Cette variable de dcision sinterprte comme le rapport des estimateurs de 12 et 22 . Elle doit donc ne pas tre trop
diffrentes de 1 si H0 est vrifie. En pratique on met toujours au numrateur la plus grande des deux quantits, ou
autrement dit on suppose que S12 > S22 (sinon on permute les indices).
La rgion de rejet sera donc de la forme F > k avec k plus grand que 1 :
n1 V12
on rejette H0 si nn21V 21
2
n2 1
o fn1
1;n2 1;1
1;n2 1
dordre 1
H0 : 1 = 2 contre H1 : 1 6= 2 ;
en supposant les variances gales 12 = 22 = 2 .
On a pour i = 1; 2 :
ni Vi2
2
2
):
X
N
(
;
et
i
i
ni 1
2
ni
Ainsi, la statistique
T=
suit une loi de Student n1 + n2
X1
X 2 (1
nV nV
n n
2
2
1 1 + 2 2
1+ 2 2
2 )
1
n1 + n2
1
;
r
2;
2
49
1
n1 + n2
1
: 1 = 2 contre H1 :
1
n =
2
(1
)2
n1 1 + n2 1
o =
v12
n1 1
v12
n1 1
+ n2v2 1
2
S=
n1
X
i=1
a(Ri )
o a est une fonction de f1; : : : ; n1 + n2 g dans R. A noter que seuls les rangs du premier chantillon sont utiliss
dans la statistique S puisque la somme sarrte n1 .
Lorsque les tailles dchantillons n1 et n2 sont petites (< 30), il existe des tables suivant la fonction a choisie
(Wilcoxon, mdiane, scores normaux). Lorsque les tailles sont plus grandes (cas dans lequel les tests paramtriques
sont galement utilisables), la statistique S est approximativement distribue suivant une loi normale.
Les moments de S sont :
E [S =
o a
= n1 +1 n2
1 +n2
n1 nX
a(i)
n1 + n2 i=1
Pn1 +n2
i=1
a(i)
V (S ) =
n1 n2
(n1 + n2 )(n1 + n2
nX
1 +n2
1) i=1
(a(i) a)2
50
3.3.2.1 Test de Wilcoxon
On supposera ici que n1
n1
X
i=1
Ri
et correspond la somme des rangs du premier chantillon (le plus petit en nombre dobservations).
n (n + n + 1)
EH0 [W = 1 1 2
2
n1 n2 (n1 + n2 + 1)
VH0 (W ) =
12
La loi de cette statistique a t tabule pour de petites tailles dchantillons (moins de 10), et la table en Annexe
4.2.3 donne les bornes critiques de W pour des risques de premire espce de 5% et 1%.
Pour de plus grandes tailles dchantillons, la loi de W peut tre approche par une loi normale.
Cas des ex-quo Nous avons vu section 3.2.1.2 quen prsence dex-quo nous remplacions les rangs des exquo par le rang moyen des rangs quils devraient occuper. Si les tailles dchantillons sont infrieures 10, les
tables sont toujours utilisable. Pour de plus grandes tailles, lapproximation gaussienne est toujours valable mais la
variance de W nest plus identique celle donne prcdemment.
Soit e le nombre de valeurs distinctes dans lchantillon (X1 ; : : : ; Xn1 +n2 ), et soit V1 ; : : : ; Ve ces valeurs distinctes.
Soit Dj le nombre dapparitions de la valeur Vj dans lchantillon (1 j e). La statistique W a alors pour
variance :
P
n1 n2 ej=1 (Dj3 Dj )
:
VH0 (W ) = V (W )
12(n1 + n2 )(n1 + n2 + 1)
i
n1 +n2 +1 la statistique de test devient
n1
X
SN = 1 (Ri =(n1 + n2 + 1)) :
i=1
51
KS =
n1 n2
max jF^ 1 (x) F^n22 (x)j
n1 + n2 x2R n1
o F^n1 et F^n2 sont les fonctions de rpartitions empiriques des deux chantillons.
On relve dans deux chantillons de tailles n1 et n2 les proportions f1 et f2 dindividus ayant ce caractre. Les
tailles sont supposes suffisamment grandes (ni pi > 5 et ni (1 pi ) > 5 pour i = 1; 2).
Ainsi les lois des frquences empiriques F1 et F2 peuvent tre approximes par des lois normales, do la statistique
du test
U=
F1 F2
;
p(1 p)( n11 + n12 )
p^ =
n1 f1 + n2 f2
;
n1 + n2
= u 2 , do
f2 j > u1
K populations
PK
On note n = k=1 nk est le nombre total dobservations.
Le test que lon cherche dfinir est le suivant :
H0 : les K populations Pk sont identiquement distribues,
H1 : 9i; j telle que les populations Pi et Pj soient diffrentes.
Lhypothse primordiale dfinissant le type de tests effectuer est lindpendance des populations entre elles. Nous
prsentons ci-aprs des tests paramtriques et non paramtriques dans le cas de populations indpendantes, puis
nous examinerons le cas dune dpendance particulire, celle des mesures rptes.
52
H0 : F 1 = : : : = F K ;
le rang moyen R:k de chaque population doit tre proche de E [Rjk = n+1
2 .
La statistique du test de Kruskal-Wallis est
K
12 X
KW =
R
n(n + 1) k=1 :k
n+1
2
2
qui suit sous H0 , lorsque les tailles nk des chantillons tendent vers linfini, approximativement une loi du 2
K 1 degrs de libert. Cette approximation est valable lorsque K > 3 et min(n1 ; : : : ; nK ) > 5, et des tables
existent lorsque ce nest pas le cas.
Remarque. On retrouve le test de Wilcoxon lorsque K
= 2.
En prsence dex-aequo, les rangs seront remplacs par les rangs moyens et les lois de la statistique
donnes ci-dessus restent approximativement valable.
Logiciel R : fonction kruskal.test
KW
53
Lobjectif de lanalyse de variance deux facteurs consiste tudier les liens ventuels entre une variable
continue X et deux facteurs A et B J et K niveaux.
On note :
Xjk la variable X observe pour les j -me et k -me valeurs respectives des facteurs A et B ,
Xijk la variable alatoire correspondant la i-me observation de Xjk ,
njk le nombre dobservations Xijk ,
PK
PJ
PJ PK
nj: = k=1 njk , n:k = j =1 njk et n = j =1 k=1 njk .
On suppose que Xjk N (jk ; 2 ) et que les njk sont constants (njk = r plan quilibr ou quirpt).
Dans le modle le plus gnral pour la moyenne jk , on suppose quelle peut scrire comme une somme dun
terme constant et de termes dpendants du facteur A, du facteur B et de linteraction entre les facteurs A et B :
P
jk = + j + k + jk ;
jk
1 X
X ;
X:jk =
njk i=1 ijk
k k
k jk
J
1 X
X::k =
X ;
n:k j=1 :jk
j jk
(3.2)
= 0.
n
K
1 X
X:j: =
X
nj: k=1 :jk
et
jk
J X
K X
1X
X :
X ::: =
n j=1 k=1 i=1 ijk
SST =
njk
J X
K X
X
(Xijk
j =1 k=1 i=1
J X
K
X
SSAB =
j =1 k=1
X:::)2 ;
njk (X:jk
SSA =
J
X
j =1
et
SSB =
SSR =
K
X
k=1
n
jk
J
K
XXX
j =1 k=1 i=1
n:k (X::k
(Xijk
X:::)2 ;
X :jk )2 ;
o SST est la somme des carrs totale, SSA est la somme des carrs relatifs au facteur A, SSB est la somme des
carrs relatifs au facteur B , SSAB est la somme des carrs relatifs linteraction entre les facteurs A et B et SSR
est la somme des carrs rsiduels.
njk
J X
K X
X
2
Xijk
nX:::2 , on obtient lquation danalyse de la
En remarquant que que lon peut crire SST =
j =1 k=1 i=1
variance deux facteurs :
Ainsi, on peut donc tester lexistence des effets principaux des deux facteurs et de leur interaction en comparant ces
statistiques aux quantiles de la loi de Fisher : si les valeurs observes de ces statistiques sont suprieures au quantile
de la loi de Fisher dordre 1 on conclura un effet significatif.
On prsente usuellement lanalyse de variance sous la forme du tableau suivant
P
j = x:j: x::: ;
k = x::k
x:::
et
jk = x:jk
x:j:
x::k + x:::
0,
les
54
Facteur
Somme
des carrs
SSA
SSB
SSAB
SSR
SST
B
Interaction AB
Rsidu
Total
degrs de
libert
carr
moyen
SSA=(J 1)
J 1
SSA=(J 1)
FA = SSR=
(n JK )
SSB=(K 1)
K 1
SSB=(K 1)
FB = SSR=
(n JK )
(K 1)(J
(J 1)(K 1) SSAB=(K 1)(J 1) FAB = SSAB=
SSR=(n JK )
n JK
SSR=(n JK )
n 1
1)
H0 : F 1 = : : : = F K :
1 Pn
Soit R:k = n
(K + 1)=2.
F=
K
12n X
R
K (K + 1) k=1 :k
K+1
2
2
K
X
12
R2
nK (K + 1) k=1 :k
3n(K + 1)
qui suit asymptotiquement sous H0 une loi du 2 K 1 degrs de libert. Puisquon sintresse gnralement
des chantillons de petites tailles, la distribution asymptotique de F nest rarement utilisable et on se rfrera
gnralement la table statistique tabulant ses valeurs (Annexe 4.2.5). A noter que dans ces tables,
En prsence dex-quo, il faut corriger la statistique F en la divisant par
C =1
Ps
i=1 (ti
n(K 3
ti )
K)
o s est le nombre de sries de valeurs ex-aequo et ti le nombre dlments de la ime srie dex-aequo.
Logiciel R : fonction friedman.test
Test de Quade Le test de Friedman peut tre amlior en prenant en compte les diffrences de valeurs Xjk pour
un mme individu. Pour cela, on introduit ltendue Ej = maxk (Xjk ) mink (Xjk ) qui est la diffrence entre la
valeur maximale et la valeur minimale pour un individu.
Soit Sj le rang de ltendue Ej dans le classement des tendues intra-individu E1 ; : : : ; En (rang moyen en prsence
55
dex-quo).
On remplace chaque observation Xjk par
K +1
)
2
Qjk = Sj (Rjk
et soit Qk
Pn
jk .
j =1 QP
PK
n PK
Les statistiques T = j =1 k=1 Q2jk et B = k=1 Q2k peuvent tre interprtes comme reprsentant respectivement les variations intra-individu et inter-individus.
La statistique du test de Quade est
Q=
(n 1)B
T B
1 et (n 1)(K
1) degrs de liberts.
H1 : F1 > : : : > FK :
Ce type de test peut tre intressant pour tester une volution monotone de la variable X au sein des populations/conditions P1 ; : : : ; PK (volution temporelle dans le cas o les populations/conditions sont indexes par le
temps).
La statistique du test de Page est
P=
K
X
k=1
kR:k
qui suit sous H0 , lorsque n > 12, une loi normale de moments :
E [P =
Logiciel R : test implmenter.
K (K + 1)2
4
et
V (P ) =
144(K 1)n
:
(K 3 K )2
56
Chapitre 4
Annexes
4.1 Rappel sur les convergences des suites de variables alatoires
Soit (Xn ) une suite de variables alatoires relles.
Dfinition 1. La suite (Xn ) converge en probabilit vers une variables alatoire X si 8; positifs, il existe n0 tel
que
8n > n0 ; P (jXn X j > ) <
Dfinition 2. La suite (Xn ) converge presque srement vers la variable alatoire X si
P (f!j nlim
!1 Xn (!) 6= X (!)g) = 0
Dfinition 3. La suite (Xn ) converge en moyenne dordre p vers la variable alatoire X si
E [ j Xn X j p ! 0
Dfinition 4. La suite (Xn ) converge en loi vers la variable alatoire X de fonction de rpartition
point de continuit de F , la suite Fn des fonctions de rpartition de Xn converge vers F
si en tout
Proprit 1.
(Xn ) p:s:
!X
(Xn )
moyenne ordre p
&
X
(Xn ) P! X
! (Xn ) L! X
= et V (Xi ) = 2 <
!
X p:s:
!
4.1.0.5 Thorme centrale limite
Soit (X1 ; : : : ; Xn ) un chantillon indpendant et identiquement distribu, avec E [Xi
1. On a alors
2
X L! N (; )
n
57
= et V (Xi ) = 2 <
58
CHAPITRE 4. ANNEXES
59
60
CHAPITRE 4. ANNEXES
61
n
2
1
0,7071
2
3
4
5
i
1
2
3
4
5
6
7
8
9
10
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
C. Chesneau
10
0,7071
0,6872
0,1677
0,6646
0,2413
0,6431
0,2806
0,0875
0,6233
0,3031
0,1401
0,6052
0,3164
0,1743
0,0561
0,5888
0,3244
0,1976
0,0947
0,5739
0,3291
0,2141
0,1224
0,0399
11
12
13
14
15
16
17
18
19
20
0,5601
0,3315
0,2260
0,1429
0,0695
0,5475
0,3325
0,2347
0,1586
0,0922
0,0303
0,5359
0,3325
0,2412
0,1707
0,1099
0,0539
0,5251
0,3318
0,2460
0,1802
0,1240
0,0727
0,0240
0,5150
0,3306
0,2495
0,1878
0,1353
0,0880
0,0433
0,5056
0,3290
0,2521
0,1939
0,1447
0,1005
0,0593
0,0196
0,4963
0,3273
0,2540
0,1988
0,1524
0,1109
0,0725
0,0359
0,4886
0,3253
0,2553
0,2027
0,1587
0,1197
0,0837
0,0496
0,0163
0,4808
0,3232
0,2561
0,2059
0,1641
0,1271
0,0932
0,0612
0,0303
0,4734
0,3211
0,2565
0,2085
0,1686
0,1334
0,1013
0,0711
0,0422
0,0140
21
22
23
24
25
26
27
28
29
30
0,4643
0,3185
0,2578
0,2119
0,1736
0,1399
0,1092
0,0804
0,0530
0,0263
0,4590
0,3156
0,2571
0,2131
0,1764
0,1443
0,1150
0,0878
0,0618
0,0368
0,0122
0,4542
0,3126
0,2563
0,2139
0,1787
0,1480
0,1201
0,0941
0,0696
0,0459
0,0228
0,4493
0,3098
0,2554
0,2145
0,1807
0,1512
0,1245
0,0997
0,0764
0,0539
0,0321
0,0107
0,4450
0,3069
0,2543
0,2148
0,1822
0,1539
0,1283
0,1046
0,0823
0,0610
0,0403
0,0200
0,4407
0,3043
0,2533
0,2151
0,1836
0,1563
0,1316
0,1089
0,0876
0,0672
0,0476
0,0284
0,0094
0,4366
0,3018
0,2522
0,2152
0,1848
0,1584
0,1346
0,1128
0,0923
0,0728
0,0540
0,0358
0,0178
0,4328
0,2992
0,2510
0,2151
0,1857
0,1601
0,1372
0,1162
0,0965
0,0778
0,0598
0,0424
0,0253
0,0084
0,4291
0,2968
0,2499
0,2150
0,1064
0,1616
0,1395
0,1192
0,1002
0,0822
0,0650
0,0483
0,0320
0,0159
0,4254
0,2944
0,2487
0,2148
0,1870
0,1630
0,1415
0,1219
0,1036
0,0862
0,0697
0,0537
0,0381
0,0227
0,0076
CHAPITRE 4. ANNEXES
62
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
C. Chesneau
0, 05
0, 01
0,767
0,748
0,762
0,788
0,803
0,818
0,829
0,842
0,850
0,859
0,856
0,874
0,881
0,837
0,892
0,897
0,901
0,905
0,908
0,911
0,914
0,916
0,918
0,920
0,753
0,687
0,686
0,713
0,730
0,749
0,764
0,781
0,792
0,805
0,814
0,825
0,835
0,844
0,851
0,858
0,863
0,868
0,873
0,878
0,881
0,884
0,888
0,891
0, 05
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
10
0,923
0,924
0,926
0,927
0,929
0,930
0,931
0,933
0,934
0,935
0,936
0,938
0,939
0,940
0,941
0,942
0,943
0,944
0,945
0,945
0,946
0,947
0,947
0,947
0, 01
0,894
0,896
0,898
0,900
0,902
0,904
0,906
0,908
0,910
0,912
0,914
0,916
0,917
0,919
0,920
0,922
0,923
0,924
0,926
0,927
0,928
0,929
0,929
0,930
63
12
R2j 3n(k + 1)
nk (k + 1)
k=3
n
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
=5%
6.000
6.500
6.400
7.000
7.143
6.250
6.222
6.200
6.545
6.500
6.615
6.143
6.400
6.500
6.118
6.333
6.421
6.300
5.991
k=4
=1%
8.000
8.400
9.000
8.857
9.000
9.556
9.600
9.455
9.500
9.385
9.143
8.933
9.375
9.294
9.000
9.579
9.300
9.210
=5%
6.000
7.400
7.800
7.800
7.600
7.800
7.650
7.667
7.680
7.691
7.700
7.800
7.714
7.720
7.800
7.800
7.733
7.863
7.800
7.815
k=5
=1%
9.000
9.600
9.960
10.200
10.540
10.500
10.730
10.680
10.750
10.800
10.850
10.890
10.920
10.950
10.050
10.930
11.020
11.100
11.340
=5%
7.600
8.533
8.800
8.960
9.067
9.143
9.200
9.244
9.280
9.309
9.333
9.354
9.371
9.387
9.400
9.412
9.422
9.432
9.400
9.488
k=6
=1%
8.000
10.130
11.200
11.680
11.870
12.110
13.200
12.440
12.480
12.580
12.600
12.680
12.740
12.800
12.800
12.850
12.890
12.880
12.920
13.280
=5%
9.143
9.857
10.290
10.490
10.570
10.670
10.710
10.780
10.800
10.840
10.860
10.890
10.900
10.920
10.960
10.950
10.950
11.000
11.000
11.070
=1%
9.714
11.760
12.710
13.230
13.620
13.860
14.000
14.140
14.230
14.320
14.380
14.450
14.490
14.540
14.570
14.610
14.630
14.670
14.660
15.090
For values of n greater than 20 and/or values of k greater than 6, use 2 tables with k-1 degrees
of freedom
64
CHAPITRE 4. ANNEXES
Bibliographie
[1] M. Carbon, C. Franck. Estimation non paramtrique de la densit et de la rgression - Prvision non paramtrique. La revue MODULAD, numro 15, juin 1995.
[2] G. Saporta. Probabilits, analyse de donnes et statistique. 2me dition, Editions Technip, 2006.
[3] D.J. Sheskin. Handbook of parametric and nonparametric statistical procedures. Fifth edition. Chapman &
Hall/CRC, 2011.
65