Documente Academic
Documente Profesional
Documente Cultură
Pr. A. Zoglat
Automne 2019
Chapitre 1
Généralités
Introduction
L’inférence Statistique est une méthodologie qui a pour but de découvrir les lois statistiques à partir des
résultats d’une expérience aléatoire. L’aléatoire fait partie de notre quotidien. Le temps qu’il fera demain, le
prix d’une action en bourse, le poids d’un nouveau-né, la durée de vie d’une lampe électrique . . . etc. sont des
variables imprévisibles. Ces variables sont associées à des expériences aléatoires contrôlées ou non contrôlées.
Variables aléatoires
Une variable aléatoire (v.a.) est une fonction mesurable définie sur (Ω,F) vers un espace mesurable (S,S).
Souvent S est une partie de Rd et S est sa σ−algèbre borelienne.
Soit X : (Ω, F, P) −→ (R, BR ) une v.a. réelle. On appelle loi de X la probabilité notée PX et définie sur
(R, BR ) par :
∀B ∈ BR , PX (B) = P{X −1 (B).}
1
FSR A. ZOGLAT Chapitre 1
Si la f.r. FX est dérivable, on note fX sa fonction dérivée et on l’appelle fonction densité de probabilité (f.d.p.)
de X.
Modèle Statistique
En inférence statistique on cherche à déterminer la loi de probabilité PX d’une v.a. X. Il y a deux cas de
figure :
• On connait la f.r. FX modulo un paramètre θ ∈ Rd . On dit alors qu’il s’agit d’un modèle paramétrique.
• On ne sait rien ou très peu de choses sur la f.r. FX . On dit alors qu’il s’agit d’un modèle non-paramétrique.
Dans un modèle paramétrique on cherche à “déterminer” les paramètres qui caractérisent la loi de probabilité
de la v.a.
Pour un modèle paramétrique, les méthodes inférentielles dépendent fortement de la loi de probabilité
considérée. Une méthode peut être optimale pour une famille de lois de probabilité mais pas pour une autre.
Par contre les méthodes inférentielles pour un modèle non-paramétrique peuvent paraitre raisonnables pour
plusieurs familles de loi de probabilité sans être optimale pour aucune d’entre elles.
En général, une procédure non-paramétrique permet de faire de l’inférence statistique avec peu d’hypothèses
sur la loi qui régit la population. Depuis plusieurs décennies, les procédures de la statistique non-paramétrique
continuent de se développer grâce aux avantages suivants :
- Les méthodes non-paramétriques ne requièrent que peu de conditions sur le modèle statistique.
- Elles sont souvent assez simples à comprendre et utiliser.
- Elles sont presque aussi efficaces que les méthodes paramétriques.
- Elles sont peu sensibles aux valeurs extrêmes.
- Elles sont devenues très accessibles grâce au développement de l’outil informatique.
2
FSR A. ZOGLAT Chapitre 1
(construites dans les mêmes conditions) qui contiennent le vrai paramètre lorsqu’on répète l’expérience un très
grand nombre de fois.
Tests d’hypothèses
Il s’agit ici de savoir si les données contredisent ou ne contredisent pas une proposition. Pour cela on doit
d’abord formuler une hypothèse nulle, H0 , et d’une hypothèse alternative, H1 . Voici quelques exemples :
- On aimerait savoir si la moyenne µ d’une population est égale à une valeur donnée µ0 . On considère alors
les hypothèses :
H0 : µ = µ0 versus H1 : µ 6= µ0 .
- Est-ce que la moyenne µA de la populations A est inférieure à la moyenne µB de la population B ? Pour
répondre à cette question on considère les hypothèses : H0 : µA ≥ µB versus H1 : µA < µ0 .
- On prétend que l’échantillon provient d’une loi normale N (µ, σ 2 ) de f.r. Φµ,σ . Pour vérifier cela, on
considère les hypothèses :
H0 : FX = Φµ,σ versus H1 : FX 6= Φµ,σ ,
où FX est la f.r. de l’échantillon.
Quand on teste des hypothèses, la conclusion est toujours formulée sur l’hypothèse nulle : soit on ne rejette pas
H0 , soit on rejette H0 .
Quelle que soit notre décision, il y a toujours un risque d’erreur.
Comme il est impossible de maîtriser simultanément ces deux erreurs, les statisticiens ont opté pour maintenir
l’erreur de type 1 sous contrôle et de choisir la procédure qui minimise le risque d’erreur de type 2.
Les notations classiques pour les probabilités de ces erreurs sont α et β pour l’erreur de type 1 et l’erreur
de type 2 respectivement.
La puissance d’un test est égale à 1 − β. C’est la probabilité de rejeter une hypothèse nulle alors qu’elle est
fausse. L’idéal pour réaliser un test d’hypothèse est donc de choisir le test uniformément le plus puissant, i.e.
celui ayant, pour tout α, la plus grande puissance.
Exemple
Dans un établissement bancaire, on accepte d’accorder un prêt si un certain score S est supérieur ou égal à 3.
Pour un client i quelconque (de score Si ) il convient donc de tester H0 : Si ≥ 3 versus H1 : Si < 3.
3
FSR A. ZOGLAT Chapitre 1
Exemple (suite)
• L’erreur de type 1 est de ne pas accorder de crédit à un client que l’on aurait dû accepter, et donc de
perdre un bon client.
• L’erreur de type 2 est d’accorder un crédit à un client auquel on aurait dû le refuser, et donc d’accroître
le risque pour la banque.
• La puissance du test est la probabilité de ne pas accorder de crédit à un client qui n’est pas solvable.
La p-value
La probabilité critique où p-value est la probabilité, sous H0 , d’observer des valeurs aussi extrêmes que
celles qui ont conduit au rejet de H0 . Naturellement, une petite valeur de la p-value est une indication que
l’échantillon contredit H0 . La règle de décision est alors la suivante :
• Les tests paramétriques ne s’appliquent que lorsque les variables de travail sont mesurées sur une échelle
d’intervalle ou sur une échelle de ratio.
• Les tests non-paramétriques sont les seuls à pouvoir être mis en œuvre pour des variables de type nomi-
nales ou ordinales.
• En pratique, il est donc important de connaître l’échelle de mesure des variables de travail.
4
Chapitre 2
Introduction
Considérons un échantillon X1 , . . . , Xn issu d’une loi de probabilité dont la f.r., notée F , est inconnue. Nous
chercherons à répondre aux questions du genre,
- est-ce que θ0 est une médiane pour F ?
- est-ce que F est une f.r. symétrique ?
- est-ce que F ≡ F0 ?, où F0 est une f.r. donnée.
Dans ce chapitre, nous allons développer des outils statistiques qui nous permettront, entre autres, de répondre
à ces questions.
n
X
Soit la statistique S− = 1LI{Xi ≤θ0 } , où 1LIA (ω) = 1 si ω ∈ A et 0 sinon.
i=1
Par le lemme de Neyman-Pearson, le test uniformément le plus puissant, au niveau α, est celui qui rejette
H0 si S − > cα , où cα est une constante telle que P{S − > cα , mF = θ0 } = α.
S − − n/2 L
Sous H0 , S − suit la loi Binomiale(n, 0.5) et on a √ −→ Z, où Z suit la loi N (0, 1). Donc, pour n
n/2
assez grand (ici n ≥ 20), on rejette H0 si
S − − n/2
√ > zα ,
n/2
où zα est le réel tel que P{Z > zα } = α.
5
FSR A. ZOGLAT Chapitre 2
Exemple
Un four micro onde est conforme aux normes si le niveau d’émission de radiations, lorsqu’il est fermé, ne
dépasse pas 0.15. Les données suivantes sont les niveaux de radiations observés pour 20 fours choisis au hasard :
0.09 ; 0.18 ; 0.10 ; 0.05 ; 0.12 ; 0.40 ; 0.10 ; 0.05 ; 0.03 ; 0.20 ; 0.08 ; 0.10 ; 0.30 ; 0.20 ; 0.02 ; 0.01 ; 0.10 ; 0.08 ;
0.16 ; 0.11
À partir de ces données, peut-on conclure que plus de 50% des fours sont conformes aux normes ?
Cette question est équivalente à “est-ce que la médiane est inférieure ou égale à θ0 = 0.15 ?”
Exemple (suite)
n
X
On teste alors H0 : mF = 0.15 versus H1 : mF < 0.15. On rejette H0 si la valeur de S − = 1LI{Xi ≤0.15}
i=1
est “trop grande”. La valeur observée de la statistique S − vaut 6, et la p-value=P{S − ≥ 6} = 0.0219. Au seuil
de signification α = 0.05, on rejette H0 .
Le teste du signe ne prend pas en considération l’ampleur de la déviation d’une observation par rapport à
la médiane. On peut donc espérer l’améliorer en intégrant l’information relative à l’amplitude des écarts des
observations par rapport à la médiane.
Nous présentons ici une autre procédure pour tester l’hypothèse que la médiane est égale à une valeur
donnée θ0 . Cette fois nous allons supposer que la loi de probabilité est symétrique par rapport à la médiane :
f (mF − x) = f (mF + x) pour tout x ∈ R, où f désigne la fonction masse ou densité de probabilité.
Les Ψi sont des v.a. de Bernoulli de paramètre p = P{Ei > 0} alors que W + est la somme des rangs des écarts
strictement positifs.
n i n2 (n + 1)2
hX n(n + 1)(2n + 1)
Var(W + ) = E i 2 Ψi − = .
i=1
16 24
6
FSR A. ZOGLAT Chapitre 2
Comportement asymptotique de W +
W + − n(n + 1)/4 L
Théorème 1. Sous l’hypothèse H0 , on a : p −−−−→ Z.
n(n + 1)(2n + 1)/24 n→∞
Démonstration. Il suffit de vérifier que la condition du TCL de Lindeberg est vérifiée.
Remarque 2. Pour n assez grand (≥ 25), on pourra utiliser le comportement asymptotique de W + pour
déterminer “approximativement” la valeur critique pour tester H0 : mF = θ0 versus H0 : mF > θ0 .
• Ce test peut être utilisé pour vérifier l’efficacité d’un traitement. Pour deux échantillon appariés, l’échan-
tillon des différences suit une loi symétrique de moyenne 0 sous H0 : “le traitement est sans effet”.
• Dans le cas d’un échantillon X1 , . . . , Xn issu d’une est symétrique par rapport à θ0 , on se ramène au cas
d’une symétrie par rapport à 0 en considérant l’échantillon Y1 , . . . , Yn , avec Yi = Xi − θ0 .
• Notons que rejeter H0 : mF = θ0 peut signifier :
- La médiane est différente de θ0 , ou
- la loi de l’échantillon n’est pas symétrique.
Exemple
Dans cet exemple, nous disposons de 15 temps d’attente d’usagers dans un service public : 9, 5, 6, 10, 10, 6,
8, 3, 15, 6, 7, 17, 8, 20, 10.
Le temps d’attente est la durée en minutes séparant l’instant où une personne rejoint la file et le moment
où il se présente à un guichet. La question est de savoir si la médiane de la distribution des durées d’attente est
de 10 minutes.
Exemple
Remarque 3. La procédure “wilcox.test” ignore les écarts nuls dans le calcul de la statistique W + (notée V
par R.)
7
FSR A. ZOGLAT Chapitre 2
Étudt 1 2 3 4 5 6 7 8 9 10
Note 1 13 6.5 5 12 9 10.5 11 3.5 14.5 12
Note 2 13 7 6 14 8.5 11 11 6 14 13.5
Étudt 11 12 13 14 15 16 17 18 19 20
Note 1 8.5 11 10.5 9 11.5 10 14 7.5 10.5 11
Note 2 8 10.5 11.5 10 10 11.5 16 9 10.5 9.5
Étudt 21 22 23 24 25 26 27 28 29 30
Note 1 8.5 12 4.5 9.5 12 10 8 8 7.5 12.5
Note 2 11.5 13.5 5.5 11 11 9.5 8.5 9 10 11
Étudt 31 32 33 34 35 36 37 38 39 40
Note 1 10.5 9 5 10 8 7.5 9 15.5 12 0.5
Note 2 11 9.5 5 11 9 7 9.5 15 13 0
Remarque 4. Pour le calcul de V, R ne tient pas compte des différences nulles. De plus, la valeur de V est
égale à min(W+ , W− ).
Le test de McNemar
Souvent utilisé pour statuer sur d’éventuelles modifications des opinions d’individus à la suite d’un ap-
port d’informations. En théorie, ce n’est rien d’autre qu’un test du signe sur échantillon apparié tel que vu
précédemment.
Les individus constituant l’échantillon sont initialement répartis en deux sous-groupes, l’un ayant une carac-
téristique A, l’autre une caractéristique B. Ils subissent ensuite une action à l’issue de laquelle on reconstruit
la répartition entre les deux sous groupes A et B. Pour chaque individu, quatre configurations sont donc
envisageables :
8
FSR A. ZOGLAT Chapitre 2
Techniquement, si on représente par un signe “+” les individus passant du sous-groupe A au sous-groupe
B, par un signe “-” ceux faisant le chemin opposé et si on ne considère pas ceux restant dans leur sous-groupe
initial après l’événement intermédiaire, alors sous l’hypothèse nulle d’absence d’impact de l’action intermédiaire,
la probabilité d’observer un changement de sous-groupe dans un sens ou dans l’autre est p = 1/2.
Soient n+ et n− les nombres respectifs de “+” et de “-” et n = n+ + n− . Sous H0 :”absence d’impact de
n+ − np n+ − n− L
l’action intermédiaire”, n+ suit une Binomiale(n, p = 1/2) et on a : p = √ −−−−→ Z. D’où
np(1 − p) n n→∞
(n+ − n− )2 L
T = −−−−→ χ21 et on rejette H0 pour les grandes valeurs de T .
n n→∞
Exemple
Nous disposons des notes données par deux correcteurs différents sur des copies de bac de français. Les
variables noteA et noteB contiennent les notes attribuées par chaque correcteur aux 30 copies. Les variables
supA et supB valent 1 lorsque la note de la copie est supérieure à 10, et 0 sinon.
supB
supA 0 1 Total
Le tableau suivant résume ces données : 0 13 8 21
1 0 9 9
Total 13 17 30
Est-ce que l’effectif d’élèves qui ont une note supérieure à la moyenne dépend du correcteur ?
Exemple (suite)
Calculs par R
qchisq(0.975, 1, ncp = 0, lower.tail = TRUE, log.p = FALSE) [1] 5.023886
pchisq(8, 1, ncp = 0, lower.tail = FALSE, log.p = FALSE) [1] 0.004677735
9
FSR A. ZOGLAT Chapitre 2
Introduction
Plusieurs tests permettant de tester si un échantillon est issu d’une distribution donnée. Nous allons en pré-
senter trois qui sont fondés sur la fonction de répartition empirique : Kolmogorov-Smirnov (K-S), Anderson-
Darling (A-D)et Cramer-vonMises (C-vM). Un autre test, basé sur une logique différente et uniquement
dédié à la normalité des observations, est le test de Shapiro-Wilk.
Certaines méthodes graphiques (histogrammes, P-P Plots, ...) peuvent également s’avérer utiles (malgré leur
coté subjectif) pour compléter cette étude sur la loi régissant un échantillon.
Théorème 2. Si X est une variable aléatoire de fonction de répartition F , alors Y = F (X) est une variable
uniforme sur l’intervalle [0, 1].
Démonstration. Soit y ∈ [0, 1[, P{Y ≤ y} = P{F (X) ≤ y} = P{X ≤ F −1 (y)} = F (F −1 (y)) = y.
Statistique de Kolmogorov-Smirnov
Soit X1 , . . . , Xn un échantillon issu d’une loi de probabilité dont la f.r. F est continue. La statistique D − n,
définie par
Dn = sup |Fn (x) − F (x)|,
x
10
FSR A. ZOGLAT Chapitre 2
est appelée la statistique de Kolmogorov-Smirnov. Elle est très utile dans le contexte non-paramétrique
car sa loi ne dépend pas de F .
Les statistiques Dn+ et Dn− définies par
Démonstration. Notons X(1) , . . . , X(n) les statistiques d’ordre associées à l’échantillon X1 , . . . , Xn , X(0) = ∞ et
i
X(n+1) = ∞. On a alors Fn (x) = , pour X(i) ≤ x < X(i+1) , i = 0, 1, . . . , n.
n
n
Dn+ = sup(Fn (x) − F (x)) = max sup Fn (x) − F (x)
x i=0 X(i) ≤x<X(i+1)
n
i n
i
= max sup − F (x) = max − inf F (x)
i=0 X(i) ≤x<X(i+1) n i=0 n X(i) ≤x<X(i+1)
n i n i
= max max − F (X(i) ) , 0 = max max − U(i) , 0
i=1 n i=1 n
où les U(i) sont les statistique d’ordre de la loi uniforme sur [0, 1].
n o
1
Théorème 4. Pour Dn = supx |Fn (x) − F (x)|, où F est une f.r. continue, on a P Dn < 2n +ν =
0 pour ν ≤ 0,
1 2n−1
2n +ν 2n +ν
Z Z
2n−1
... f (u1 , . . . , un ) du1 . . . dun pour 0 < ν < 2n ,
1 2n−1
2n −ν 2n −ν
2n−1
1 pour ν ≥ 2n ,
n!
pour 0 < u1 < u2 < . . . < un < 1,
où f (u1 , . . . , un ) =
0
sinon.
Démonstration. En toute généralité, supposons que F est la f.r. de la loi Uniforme[0, 1]. Nous allons d’abord
déterminer le domaine adéquat pour ν. Puisque Dn est à valeurs dans [0, 1], on ne considérera que les ν tels que
1
0 < + ν < 1.
n i 1 2n − 1 h
Posons X(0) = 0 et X(n+1) = 1 et soit ν ∈ − , .
2n 2n
n 1 o n 1 o
P Dn < + ν = P | sup |Fn (x) − x| < +ν
2n x 2n
n n i 1 o
= P max sup | − x| < + ν|
i=0 X(i) ≤x<X(i+1) n 2n
n 2i − 1 2i + 1
= P −ν <x< + ν,
2n 2n o
X(i) ≤ x < X(i+1) , ∀ i = 0, 1, 2, . . . , n
11
FSR A. ZOGLAT Chapitre 2
n o
2i−1 2i+1
Pour 0 ≤ i < n, Ai = 2n −ν <x< 2n + ν, X(i) ≤ x < X(i+1) et
Démonstration (suite)
n o
Ai+1 = 2i+1
2n − ν < x < 2i+3
2n + ν, X (i+1) ≤ x < X (i+2) . Comme X(i+1) est la v. a. commune à Ai et Ai+1 et
2i + 1 2i + 1
les x communs sont tels que −ν <x< + ν, on déduit que :
2n 2n
n 2i + 1 2i + 1 o
∀0 ≤ i ≤ n − 1, ∀ν ≥ 0, Ai ∩ Ai+1 = − ν < X(i+1) < +ν .
2n 2n
En d’autres termes
2i + 1 2i + 1
−ν <x< + ν, X(i) ≤ x < X(i+1) , ∀ 0 ≤ i ≤ n, ssi,
2n 2n
2i + 1 2i + 1
− ν < X(i+1) < + ν, ∀ 0 ≤ i ≤ n − 1, ∀ν ≥ 0.
2n 2n
D’autre part fX(1) ,...,X(n) (x1 , . . . , xn ) = n! pour x1 < x2 < . . . < xn .
Démonstration (suite)
En mettant tous ces arguments ensemble, on obtient
n 1 o 1 2n − 1
P Dn < +ν ; − <ν<
2n 2n 2n
n 2i + 1 2i + 1 o 2n − 1
= P − ν < X(i+1) < + ν, i ≤ n − 1 , 0 ≤ ν <
2n 2n 2n
n 1 1 2n + 1 2n − 1 o
= P − ν < X(1) < + ν, . . . , − ν < X(n) < +ν ,
2n 2n 2n 2n
2n − 1
∀0 ≤ ν < .
2n
Le calcul de l’intégrale dans le théorème ci-dessus est loin d’être simple (même pour n = 2). Le résultat
suivant précise le comportement asymptotique en loi de Dn .
En 1948, Smirnov a établi une table des valeurs de L(d) dont voici un extrait :
n √ o
P Dn ≤ d/ n 0.20 0.15 0.10 0.05 0.01
d 1.07 1.14 1.22 1.36 1.63
Il a été constaté que l’approximation est satisfaisante dès que n ≥ 35. Pour les tests non-paramétrique unilaté-
raux, il est utile de connaitre les lois des statistique Dn+ et Dn− .
12
FSR A. ZOGLAT Chapitre 2
n
Théorème 6. Pour Dn+ = sup Fn (x)−F (x) , où F est une fonction de répartition continue, on a : P Dn+ <
o x
c =
0 pour c ≤ 0,
Z 1 Z u n
Z u3 Z u2
... f (u1 , . . . , un ) du1 . . . dun pour 0 < c < 1
n−1 2 1
1−c n−c n−c n−c
1 pour c ≥ 1,
n!
pour 0 < u1 < u2 < . . . < un < 1,
où f (u1 , . . . , un ) =
0
sinon.
Démonstration. Comme avant, nous supposons que F est la f.r. de la loi Uniforme[0, 1]. On peut alors écrire
i
Dn+ = max max − X(i) , 0 et ∀ 0 < c < 1, on a
1≤i≤n n
n i o
P{Dn+ < c} = P max − X(i) < c
1≤i≤n n
n i o
= P X(i) > − c, 1 ≤ i ≤ n
n
Théorème 7. Soit Dn+ = sup Fn (x) − F (x) , où F est une fonction de répartition continue. Alors pour tout
x
d > 0, on a
n √ o 2
lim P Dn+ < d/ n = 1 − e−2d .
n→∞
L
V = 4n Dn+ −−−−→ χ22 .
n→∞
Exemple
Un échantillon de 12 personnes ont été interrogées dans le but d’estimer le revenu annuel médian de la popu-
lation d’une région en récession économique. Utiliser les données ci-dessous pour tester l’hypothèse que le revenu
dans cette région suit une loi normale. 9800 ;10200 ;9300 ;8700 ;15200 ;6900 ;8600 ;9600 ;12200 ;15500 ;11600 ;7200.
13
FSR A. ZOGLAT Chapitre 2
Résultats
> X<- c(9800,10200,9300,8700,15200,6900,8600,9600,12200,15500,11600,7200)
> Z<-(rev-mean(X))/sd(X)
> ks.test(Z,"pnorm",mean=0, sd=1)
One-sample Kolmogorov-Smirnov test
data : Z
D = 0.1954, p-value = 0.6805
alternative hypothesis : two-sided
Exemple
Les données suivantes constituent un échantillon issu d’une Uniforme[0, 1]. 0.0123; 0.1039; 0.1954; 0.2621; 0.2802; 0.3217; 0.36
0.5139; 0.5846; 0.6275; 0.6541; 0.6889; 0.7621; 0.8320; 0.8871; 0.9249; 0.9634 Déterminer Dn et tester l’hypothèse
H0 :”les racines carrées de ces données est un échantillon issu d’une loi Uniforme[0, 1].” X2<-c(0.0123,0.1039,0.1954,0.2621,0.2802,0
0.5139,0.5846,0.6275,0.6541,0.6889,0.7621,0.8320,0.8871,0.9249,0.9634)
> SQX2<-sqrt(X2) ; > ks.test(SQX2,"punif",exact="FALSE")
Le test de Cramer-vonMises
Comme le test précédent, le est basé sur la distance entre la f.r. empirique et la f.r. hypothétique. La
statistique du test de C-vM st donnée par
Z ∞ 2
W2 = Fn (x) − F (x) dF (x),
−∞
L’avantage de cette statistique est qu’elle prend en considération l’ensemble des observations au lieu des distances
maximales de la statistique de Kolmogorov-Smirnov.
Le test d’Anderson-Darling
Ce test est, comme le précédent, basé sur la distance entre la f.r. empirique et la f.r. hypothétique. La
statistique du test d’AD est donnée par
Z ∞
2 1
A2 = Fn (x) − F (x) dF (x),
−∞ F (x) 1 − F (x)
Remarque 6. Le test de Cramer-vonMises donne un même poids à toutes les observations alors que le test
d’Anderson-Darling donne plus de poids aux observations situées dans les queues de la distribution.
Le test de Shapiro-Wilk
Il s’agit d’un test qui fait appel aux L-statistiques (combinaison linéaire des statistiques d’ordre) et se base
sur une comparaison de la variance empirique avec un estimateur de la variance des Xi qui a de bonnes propriétés
sous l’hypothèse de normalité.
14
FSR A. ZOGLAT Chapitre 2
Soit X1 , . . . , Xn un échantillon issu d’une loi de moyenne µ et de variance σ 2 . On pose Yi = (Xi − µ)/σ et
on note X(1) , . . . , X(n) les statistiques d’ordre. Il est clair que Y(i) = (X(i) − µ)/σ. Pour i, j = 1, . . . , n, on note
αi = E Y(i) , σij = Cov Y(i) , Y(j) , et Σ = σij 1≤i,j≤n
.
On peut alors écrire X(i) = µ + αi σ + i avec E[i ] = 0. Les i ne sont pas indépendantes et la ma-
trice de variances-covariances du vecteur = (1 , . . . , n ) est Σ. On pose 10 = (1, 1, . . . , 1) ∈ Rn et α0 =
n 0
2 , . . . , αn ) ∈ R et A la matrice n × 2 définie par A= (1, α) . On a alors, X(.) := (X(1) , . . . , X(n) ) =
(α1, α
µ
A + . L’estimateur des moindres carrés pondérés de (µ, σ) s’obtient en minimisant, par rapport à (µ, σ),
σ
0
µ µ
la quantité X(.) − A Σ−1 X(.) − A .
σ σ
µ −1 0 −1
On obtient comme solution : = A0 Σ−1 A
b
A Σ X(.) .
σ
b
L L
Démonstration. Si la loi de Yi est symétrique alors −Yi = Yi (i.e. −Yi et Yi ont la même loi) d’où −Y(n) = Y(1)
et plus généralement
L
−Y(n+1−i) = Y(i) .
1≤i≤n 1≤i≤n
Définition 2. Le test de Shapiro-Wilk pour tester l’hypothèse de normalité des Xi est basé sur la statistique :
b2 (α0 Σ−1 α)2
σ
SW = Pn 2 0 −1 Σ−1 α)
i=1 (Xi − X) (α Σ
Σ−1 α
En posant a = √ , cette statistique s’écrit alors
α0 Σ−1 Σ−1 α
(a0 X(.) )2
SW = Pn
i=1 (Xi − X)2
Sous cette forme on peut voir que SW est invariable par opérations linéaires sur les Xi .
15
FSR A. ZOGLAT Chapitre 2
• La statistique SW est toujours comprise entre 0 et 1. Une valeur de SW proche de 1 est favorable à
l’hypothèse H0 : “l’échantillon est issu d’une loi normale”, alors qu’une valeur proche de 0 conduit plutôt
à son rejet .
• En pratique, pour calculer cette statistique, il est nécessaire de connaître les ai . Ces valeurs sont tabulées
pour n ≤ 50.
• Le logiciel R permet d’effectuer le test de normalité de Shapiro-Wilk en exécutant la commande :
shapiro.test(x).
Exemples
Un échantillon de 12 personnes ont été interrogées dans le but d’estimer le revenu annuel moyen de la popu-
lation d’une région en récession économique. Utiliser les données ci-dessous pour tester l’hypothèse que le revenu
dans cette région suit une loi normale. 9800 ;10200 ;9300 ;8700 ;15200 ;6900 ;8600 ;9600 ;12200 ;15500 ;11600 ;7200.
RCodes et Résultats
> install.packages("nortest")
revenu<- c(9.8,10.2,9.3,8.7,15.2,6.9,8.6,9.6,12.2,15.5,11.6,7.2)
RCodes et Résultats
> shapiro.test(revenu)
Shapiro-Wilk normality test
data: revenu
W = 0.9077, p-value = 0.199
Test de Khi-deux
Soit X1 , . . . , Xn un échantillon aléatoire à valeurs dans {a1 , . . . , ar }, avec r > 1, et supposons que ∀i =
1, . . . , r, pi := P{X1 = ai } > 0.
16
FSR A. ZOGLAT Chapitre 2
Démonstration
Lemme[Théorème de Cramér-Wald]
La suite (Yn )n de vecteurs aléatoires dans Rk converge en loi vers le vecteur aléatoire Y ∈ Rk si, et seulement
si,
L
∀(α1 , . . . , αk )0 ∈ Rk , (α1 , . . . , αk )0 Yn −−−−→ (α1 , . . . , αk )0 Y.
n→∞
Démonstration (suite)
Preuve de la Proposition
r
X
Pn
Soit α ∈ Rr , α0 (Nn − np) = k=1 1I{Xk =ai } − pi ) . Les ξk sont indépendante et identiquement distri-
αi (L
i=1
| {z }
=ξk
Pr
buées, avec E[ξk ] = 0 et Var(ξi ) = i=1 αi2 pi (1 − pi ) − i6=j αi αj pi pj := σξ2 . Par le théorème central limite
P
Pn
ξk L Nn − np L
classique, on alors k=1 −−−−→ N (0, σξ2 ). D’après le Théorème de Cramér-Wald,
√ √ −−−−→ N 0, Γ .
n n→∞ n n→∞
La matrice Γ doit être telle que Var(α0 N 0, Γ ) = σξ2 . On en déduit que Γ = (γij )1≤i,j≤r avec γii = pi (1−pi )
Théorème 8 (Théorème de Pearson). Si le vecteur aléatoire Nn = (N1n , ..., Nrn ) suit la loi multinomiale de
paramètres n et p = (p1 , p2 , . . . , pr )0 , alors
r 2
X Nin − npi L
Qn := −−−−→ χ2r−1 .
i=1
npi n→∞
17
FSR A. ZOGLAT Chapitre 2
Démonstration.
r
X x2i N − np
n L
Soit f : Rr → [0, ∞[ la fonction définie par f (x1 , . . . , xr ) = . Comme f est continue, on a f √ −−−−→
i=1
p i n n→∞
f N 0, Γ .
Nous allons déterminer la loi de f N 0, Γ .
Démonstration (suite). Soit η = (η1 , . . . , ηr )0 un vecteur aléatoire qui suit la loi N 0, Γ et soit V = (V1 , . . . , Vr )0
r
√ X γij √ √ √
où Vi = ηi / pi . Alors f (η) = Vi2 , V ∼ N (0, ΓV ) et Cov(Vi , Vj ) = √ . Notons p = ( p1 , . . . , pr )0 .
i=1
p p
i j
√ √
Puisque || p|| = 1, ∃A ∈ Rr × Rr telle que AA0 = I et A p = (0, 0, . . . , 1)0 ∈ Rr (On peut construire A selon
le procédé de Gram-Schmidth.) On a alors AV ∼ N (0, ΓAV ), avec ΓAV = AΓV A0 = diag(1, . . . , 1, 0) ∈ Rr × Rr .
Ainsi AV est de même loi que (Z1 , . . . , Zr−1 , 0)0 et on a :
r−1
L
X
f (η) = ||V||2 = ||AV||2 = V’A’AV = Zi2 ∼ χ2r−1
i=1
Remarque 7. L’approximation de la loi de Qn par une loi de χ2r−1 ne serait pas “bonne” si les probabilités
sous l’hypothèse H0 sont trop petites.
Comme règle générale, la plupart des statisticiens recommandent que n ainsi que chaque pi soient assez
grands se sortent que min npi ≥ 5.
i
Lorsque les effectifs correspondants à certaines valeurs sont inférieurs à 5, on procède au regroupent de ces
valeurs dans une seule classe.
Exemple
Valeurs 0 1 2 3 4 5
Fréquence 11 17 10 9 2 1
Exemple (suite)
18
FSR A. ZOGLAT Chapitre 2
(Nin −npi )2
i pi = P{X = i} npi npi Nin (Nin − npi )2 npi
Après regroupement, on a r = 4. D’autre part, pour α = 0.05, χ2r−1,α = 7.815. On doit donc rejeter
l’hypothèse H0 .
Exemple
Les données suivantes sont les nombre tours sur un circuit effectués par un 22 voitures électriques avant de
s’arrêter pour recharger les batteries.
On aimerait tester l’hypothèse H0 : La durée de vie d’une batterie suit une loi exponentielle de moyenne 1/λ.
On partitionne l’ensemble des nombres tours en intervalles puis on calcule les fréquences théoriques et
observées pour chaque intervalle. Ensuite on calcule la statistique Qn .
Notons pi la fréquence théorique de la classe [ai , ai+1 [. Sous H0 , On a
pi = e−λai+1 − e−λai .
Pour calculer les fréquences théoriques, on doit d’abord estimer λ. L’estimateur du maximum de vraisemblance
X
pour λ (sous H0 ) est λb = n/ xi = 0.0138.
Le tableau ci-dessous contient les valeurs qui permettent de calculer la statistique Qn .
Partition pbi nb
pi nb
pi Nin pi − Nin )2 /nb
(nb pi
0-40 0.424540 9.33988 9.33988 3 4.30349
40-80 0.244306 5.37473 5.37473 11 5.88748
80-120 0.140588 3.09294 5.89304 8 0.75331
120-160 0.080903 1.77987 Les classes dont l’effectif théorique
160-200 0.046556 1.02423 est < 5 ont été groupées.
Qn = 10.94428
19
FSR A. ZOGLAT Chapitre 2
Après regroupement, on a r = 3. D’autre part, pour α = 0.05, χ2r−1,α = 5.991. On doit donc rejeter l’hypothèse
H0 .
Le test d’indépendance
On considère ici un couple (X, Y ) de variables aléatoires. On suppose que X (resp. Y ) prend ses valeurs dans
l’ensemble {1, . . . , r} (resp. {1, . . . , c}). Si pij = P(X = i, Y = j), on représentera la loi du couple (X, Y ) par la
matrice P = (pij ) à r lignes et c colonnes. Le problème qui nous intéresse dans ici est de tester l’indépendance
des variables X et Y .
Rappelons que si P est connue, les variables X et Y sont indépendantes si et seulement si P est le produit
(tensoriel) de ses lois marginales i.e.
c
X r
X
∀i, j, pij = pi· × p·j , où pi·^ = pij et p·j = pij .
j=1 i=1
Prenons un échantillon (X1 , Y1 ), . . . , (Xn , Yn ) de la loi P et pour toute valeur (i, j) considérons la variable
aléatoire
n
X
Nij = 1LI(Xm ,Ym )=(i,j) ,
m=1
qui compte le nombre de fois que la valeur (i, j) apparait dans l’échantillon.
Nij
La variable aléatoire pn (i, j) = , est l’estimateur empirique de la probabilité pij et la loi empirique de
n
l’échantillon est la matrice Pn à k lignes et l colonnes donnée par Pn = pn (i, j) 1≤i≤r . Notons
1≤j≤c
L
χ2n (P, Pn ) −−−−→ χ2(r−1)(c−1) .
n→∞
Au seuil de signification α = 0.05, peut-on conclure que la couleurs des yeux est indépendante de la couleur des
cheveux ?
20
FSR A. ZOGLAT Chapitre 2
Figure 2.1 –
Exercice 1 (1). A quality control engineer has taken 50 samples of size 13 each from a production process. The
numbers of defectives for these samples are recorded below. Test the hypothesis that the number of defectives
follows : (a) The Poisson distribution (b) The binomial distribution
Number of Defectives Number of Samples
0 10
1 24
2 10
3 4
4 1
5 1
6 or more 0
Solution
obsrv<-c(0,1,2,3,4,5,6)
effctf<-c(10,24,10,4,1,1,0)
ceffctf<-c(10,24,10,6) Correction des effectifs des cellules
lmbd<-sum(obsrv*effctf)/40 proba<-c(dpois(0:5,lmbd),1-ppois(5,lmbd))
cproba<-c(dpois(0:2,lmbd),1-ppois(2,lmbd))
chisq.test(ceffctf, p = cproba)
Test de Randomisation
Considérons une file de 10 personnes (5 hommes(H) et 5 femmes(F)) devant un guichet de cinéma et sup-
posons qu’elles soient ordonnées comme suit : H,F,H,F,H,F,H,F,H,F.
21
FSR A. ZOGLAT Chapitre 2
Pouvons-nous considérer cet arrangement comme aléatoire ? La réponse intuitive est non ! Dans des situations
moins évidentes, la réponse à cette question découlerait d’un test statistique :“Test de Randomisation”.
Randomisation
Définition 3 (Séquence). Étant donnée une séries d’objets ordonnés, une séquence est bloc formé par un ou
plusieurs objets de même type.
Randomisation
Pour se prononcer sur la nature aléatoire ou non d’une succession, on examine le nombre se séquences. Un
nombre trop grand ou trop petit de nombre de séquences est une évidence de l’absence du hasard. Notons que
ces deux situations extrêmes peuvent indiquer deux types d’absence de hasard. Dans le cas de la file devant le
guichet de cinéma, trop de séquences peut indiquer qu’il s’agit d’un film que les gens viennent voir en couples.
Alors que trop peu de séquences peu indiquer qu’il s’agit de film que les gens viennent voir entre amis.
Randomisation
Lorsque la nature aléatoire des données est suspecte, l’information sur l’ordre peut s’avérer utile pour
conduire un test de randomisation.
Les objets utilisés pour l’étude peuvent s’imposer de manière naturelle (comme dans l’exemple de la file
devant le guichet du cinéma) ou imposer artificiellement suivant un critère dichotomique. Ainsi un test de
randomisation (ou test de séquences) s’applique aussi bien pour des variables qualitatives que quantitatives.
Pour ces dernières, la dichotomie est généralement atteinte en comparant les données à une valeur donnée
(souvent la moyenne ou la médiane).
Randomisation
On considère n1 objets de type 1 et n2 objets de type 2 dans un arrangement. On note r1 le nombre de
séquences d’objets de type 1, r2 le nombre de séquences d’objets de type 2 et r = r1 + r2 le nombre total de
séquences.
Randomisation
Afin de pouvoir construire un test de séquences basé sur R le nombre total de séquences, on doit connaître
la loi de R sous H0 .
22
FSR A. ZOGLAT Chapitre 2
On détermine d’abord la loi du couple (R1 , R2 ) des nombres de séquences de type 1 et de type 2.
Sous l’hypothèse H0 :”les arrangements des n = n1 +n2 objets sont équiprobables, la probabilité P{(R1 , R2 ) =
(r1 , r2 )} est égale au nombre d’arrangements avec r1 séquences d’objets de type 1 et r2 séquences d’objets de
type 2 divisé par le nombre total d’arrangements.
Randomisation
Lemme 1. Le nombre de rangements distincts de n objets identiques dans r cases distinctes de sorte qu’aucune
case ne reste vide est égal à : n−1
r−1 , avec n ≥ r.
Pour obtenir r1 séquences de n1 objets identiques de type 1, on doit placer les n1 objets dans les r1 cases
−1
(sans laisser de case vide). Il y a donc nr11−1
possibilités.
Randomisation
n1 −1 n2 −1
Le nombre total d’arrangements est égal à r1 −1 r2 −1 . Comme les séquences de type 1 et de type 2
s’alternent, on doit avoir r1 = r2 ± 1 ou r1 = r2 . Si r2 = r1 − 1 (resp. r1 = r2 − 1 ) alors l’arrangement commence
par une séquence de type 1 (resp. type 2) et si r2 = r1 alors l’arrangement commence par une séquence de type
1 ou une séquence de type 2.
On a alors le résultat suivant :
Randomisation
Théorème 10. Soit R1 (resp. R2 ) le nombres de séquences de n1 (resp. n2 ) objets identiques de type 1 (resp.
type 2) dans un arrangement aléatoire. La loi conjointe de R1 er R2 est donnée par
n1 − 1 n2 − 1
c
n o r1 − 1 r2 − 1
P (R1 , R2 ) = (r1 , r2 ) = ,
n1 + n2
n1
avec c = 2 si r1 = r2 et c = 1 si r1 = r2 ± 1.
Randomisation
Preuve
23
FSR A. ZOGLAT Chapitre 2
nn1 + n2 o
n1 − 1 n2 − 1 n1 − 1 n2 − 1
= 2 +
n1 P R1 = r1 r1 − 1 r1 − 1 r1 − 1 r1 − 2
n1 − 1 n2 − 1
+
r1 − 1 r1
h
n1 − 1 n2 − 1 n2 − 1 n2 − 1
= + +
r1 − 1 r1 − 1 r1 − 2 r1 − 1
n2 − 1 i
+
r1
i
n1 − 1 h n2 n2
= +
r1 − 1 r1 − 1 r1
n1 − 1 n2 + 1
=
r1 − 1 r1
Théorème 11. La loi de R = R1 + R2 , le nombre total de séquences de n1 objets de type 1 et n2 objets de type
2, dans un échantillon aléatoire est donnée pour tout r = 2, 3, . . . , n1 + n2 par
n1 −1 n2 −1
2
r/2−1 r/2−1
si r est pair
n1 +n2
n o
n1
P R=r =
n1 −1
n2 −1 n1 −1
n2 −1
(r−1)/2 (r−3)/2 + (r−3)/2 (r−1)/2
n1 +n2
si r est impair
n1
Démonstration. Pour r pair alors r1 = r2 = r/2. Pour r impair, alors r1 = r2 ± 1. Dans ce cas r1 = (r − 1)/2
et r2 = (r + 1)/2 ou r1 = (r + 1)/2 et r2 = (r − 1)/2.
Pour conclure, il suffit alors d’appliquer le théorème précédent.
n
Les 1LIk sont alors des variables de Bernoulli de paramètre p = n1 n2 / 2 et on a R = 1 + 1LI2 + . . . + 1LIn . On a
donc :
24
FSR A. ZOGLAT Chapitre 2
E[R] = 1 + E[L
1I2 + . . . + 1LIn ] = 1 + np, et,
X n XX
Var(R) = Var 1LIk = (n − 1)Var(L 1I2 ) + 1Ij , 1LIk )
Cov(L
2≤j6=k≤n
k=2
Loi asymptotique de R
On suppose que n → ∞ et qu’il existe λ ∈]0, 1[ tel que n1 /n → λ et n2 /n → 1 − λ. Alors,
√
lim E[R/n] = 2λ(1 − λ), et lim Var[R/ n] = 4λ2 (1 − λ)2 .
n n
D’où
R − 2nλ(1 − λ) L
√ −−−−→ Z ∼ N (0, 1).
2 nλ(1 − λ) n→∞
25
Chapitre 3
Introduction
Dans ce chapitre nous considérons le cas de deux échantillons issus de deux populations indépendantes.
Nous sommes en présence de deux populations dont les variables aléatoires sont X et Y . On désignera par
FX et FY leurs fonctions de répartition et on noter les échantillons X1 , . . . , Xm et Y1 , . . . , Yn .
Souvent, on cherche à savoir si les deux échantillons proviennent d’une même population et l’hypothèse à
tester est de la forme H0 : FX = FY .
En statistique paramétrique, dans le cadre de Neyman-Pearson, nous disposons de tests les plus performants.
Par exemple, pour des échantillons indépendants, le t-test pour tester l’égalité des moyennes et le F-test pour
tester l’égalité des variances sont les plus puissants au niveau de signification α donné.
Toutefois les tests paramétriques peuvent s’avérer vulnérables aux violations de certaines conditions. Par
exemple, le t-test et le F-test sont inappropriés en l’absence de la normalité. Dans ce cas, on a recours à un test
non-paramétrique.
Les hypothèses concernant les “paramètres de position” sont très fréquentes. De telles hypothèses expriment
que Y est une simple translation de X : L(Y ) = L(X + θ). Sous ce type d’hypothèses, les lois de X et de Y ont
la même forme, la même variance mais des moyennes et des médianes égales modulo θ.
D’autres hypothèses concernent les “paramètres d’échelle”. Elles expriment que les lois de X et de Y sont
“égales à un coefficient près” : L(Y ) = L(X/θ).
26
FSR A. ZOGLAT Chapitre 3
On note R le nombre total de séquences lorsque le deux échantillons sont mélangés puis ordonnés. Une petite
valeur de R est une évidence contre H0 : FX (x) = FY (x), ∀x et en faveur de H1 : FX (x) 6= FY (x), ∀x.
On rejette donc H0 : FX (x) = FY (x), ∀x, au niveau α, si R < cα .
Pour faire de l’inférence statistique, on a besoin de la loi de R.
Loi de R
Le nombre total d’arrangements distincts de m objets de type X et de n objets de type Y est égal à
Cm+n = (mm!
+ n)!
m
.
Le nombre de possibilités d’avoir r1 séquences de X est égale au nombre de façons de placer m objets identiques
dans r1 cases sans qu’aucune case ne reste vide.
Loi de R
Cela est égal au nombre de possibilités de choisir r1 − 1 places (pour les r − 1 barres internes) parmi les
m − 1 espace qui séparent les m objets X.
|XX|X|XXX| . . . |XX|
r1 −1
Le nombre répartitions est donc égal à Cm−1 .
Ainsi le nombre de possibilités d’avoir r1 séquences de X et r2 séquences de Y est égal à :
r1 −1 r2 −1
Cm−1 × Cn−1 .
27
FSR A. ZOGLAT Chapitre 3
Exemple
Considérons un échantillon X1 , . . . , X5 et un échantillon Y1 , . . . , Y3 . Supposons que FX = FY et calculons P{R ≤
3}.
Notons que R = 3 ⇔ r1 = 1, r2 = 2 ou r1 = 2, r1 , d’où
5!3!4!2! 5!3!4!2!
P{R = 3} = +
8!0!1!4!1! 8!1!0!3!2!
5!3!2! 5!4!
= + = 0.107.
8! 8!
5!3!4!2! 5!3!4!2!
P{R = 2} = +
8!0!0!4!2! 8!0!0!4!2!
5!3!2! 5!4!
= + = 0.036.
8! 8!
P{R ≤ 3} = 0.143.
Loi asymptotique de R
R − E[R] L
p → Z, lorsque m, n → ∞
Var(R)
Exemple. On sait que, pour k assez grand, une v.a. qui suit une loi χ2k est approximativement normale de
moyenne k et de variance 2k. On aimerait vérifier ce résultat pour un k modéré. On génère deux échantillons
indépendants de taille 8 issus respectivement d’une loi normale standard et d’une loi χ218
Exemple (suite)
Test de la médiane
La statistique de test, notée S, est la somme des scores de l’échantillon de référence. Il s’agit donc simplement
du nombre d’observations de cet échantillon qui sont supérieures à la médiane. Si X est cet échantillon de
référence, on a
N
X
S= ξi s(ri ),
i=1
29
FSR A. ZOGLAT Chapitre 3
Test de la médiane
La probabilité critique asymptotique, est obtenue grâce au théorème central limite :
S − E[S] L
p −−−−→ Z.
Var(S) n→∞
Notons que S suit une loi hypergéométrique, et par conséquent il est possible d’obtenir la valeur exacte de la
Hypothèse alternative Région critique p-value
0
H1 : FX < FY sobs. > c (a) P{S > sobs. }
probabilité critique.
H1 : FX > FY sobs. < c0 (b) P{S < sobs. }
H1 : FX 6= FY sobs. < c ou sobs. > c0 2 × min{(a), (b)}
Exemple. Le responsable de production d’une petite entreprise pense que la diffusion de musique douce pendant
les heures de travail réduirait le nombre de d’articles non conformes produits. Un groupe d’ouvriers possédants
des compétences identiques est sélectionné et 5 d’entre eux sont choisis hasard et affectés à la chaîne de pro-
duction avec musique alors que quatre autres sont choisis au hasard et affectés à la chaîne de production sans
musique. Les nombre d’articles défectueux produits par les neuf ouvriers durant une matinée de travail sont :
30
FSR A. ZOGLAT Chapitre 3
Exemple (Exemples de mélanges d’échantillons). (1) On constate que les valeurs de X occupent plutôt les
rangs extrêmes dans le mélange. On peut soupçonner que la distribution de X est plus étalée que celle de
Y. Les deux v. a. pourraient avoir un même centre, mais la variance de Y serait plus petite que la variance
de X.
31
FSR A. ZOGLAT Chapitre 3
(2) Dans ce mélange, on constate que les rangs des observations de X sont plutôt faibles. Cela laisse croire
que la v. a. X est stochastiquement inférieure à Y .
(3) Dans ce cas les observations de X occupent en majorité des rangs élevés dans le mélange. Cela suggère
la v. a. X est stochastiquement supérieure à Y .
Le test de Mann-Whitney
Le test de Mann-Whitney est simplement le nombre de fois où les observations de X dépassent les observa-
tions de Y :
m X
X n
UX = 1LI{xi >yj } .
i=1 j=1
Le test de Mann-Whitney
Les faibles et les fortes valeurs de la statistique UX suggèrent un décalage d’une loi par rapport à l’autre.
Lorsque les centres des deux lois sont voisins, et si l’hypothèse H0 est vraie, alors la valeur de U est voisine de
m(m + 1)
.
2
Notons WX (resp. WY ) la somme des rangs des observations de X (resp. de Y ) dans l’échantillon mélangé.
On a les relations suivantes :
m(m + 1) n(n + 1)
UX = WX − , et UY = WY − .
2 2
Démonstration. Notons X(1) , . . . , X(m) les statistiques d’ordre de l’échantillon X1 , . . . , Xm et, pour i1 < i2 <
. . . < im , Xi1 , . . . , Xim les rangs de l’échantillon X dans l’échantillon mélangé X1 , . . . , Xm , Y1 , . . . , Yn . Il y a
i1 − 1 variables Y qui sont inférieures à Xi1 et i2 − 2 variables Y qui sont inférieures à Xi2 , et d’une manière
générale, il y a ij − j variables Y qui sont inférieures à Xij . Ainsi, on a
m(m + 1)
UX = (i1 − 1) + (i2 − 2) + . . . + (im − m) = WX − .
2
Remarque 8. Le test de Mann-Whitney est bien dapté pour détecter des situations où fX (x) = fY (x + θ), ∀x ∈
∈ R. Il est: plutôt
R, θRemarque moins performant
La statistique pour tester
de Mann-Whitney est notée 6= pour
fX (x)W ∀x ∈ R lorsque les moyennes sont très
fY (x),R.
proches.
Le test de Wilcoxon
Comme pour la statistique de Mann-Whitney, on mélange les deux échantillon, on les ordonne puis on calcule
la somme des rangs des X. Cette somme est la statistique de Wilcoxon, on notera WX . La loi de W est bien
connue sous l’hypothèse H0 : FX = FY . En effet, l’échantillon mélangé peut-être ordonné de (N = m + n)! façons,
32
FSR A. ZOGLAT Chapitre 3
m
le nombre de façons de placer les xi est égal à CN et puisque tous les arrangements sont équiprobables, on a :
kw
P{WX = w} = m , où kw est le nombre d’arrangements des xi dont la somme est w.
CN
Pour les faibles valeurs de m et n, ce calcul est faisable et des tables de la loi de WX sont disponibles. Pour
les grandes valeurs de m et n, le théorème central limite permet de faire des approximations.
Notons ξi la v. a. qui vaut 1 si une valeur de X est au ième rang, et 0 sinon. Les ξi sont de même loi et on
a alors,
N N
hX i X m N (N + 1) m(N + 1)
E[WX ] = E i ξi = E[ξ1 ] i= = .
i=1 i=1
N 2 2
mn(N + 1)
Par un calcul similaire, on obtient : Var(WX ) = .
12
m(N +1)
WX − 2 L
Ainsi, on a : q −−−−−→ N (0, 1)
mn(N +1) m,n→∞
12
Relation entre U et W
m(m + 1)
Nous avons déjà vu que UX = WX − et par conséquent le test de Mann-Whitney est équivalent
2
au test de somme des rangs de Wilcoxon. D’autre part, puisque WX + WY = N (N2+1) est une constante, une
grande valeur de WX correspond à une petite valeur de WY et vice-versa. Ainsi pour tester H0 : FX = FY contre
H1 : FX 6= FY , on rejette H0 si la valeur de W = min(WX , WY ) est supérieure au seuil critique.
Exemple. On cherche à vérifier l’efficacité d’un programme d’aide à l’apprentissage pour les étudiants en
première année. On a choisit au hasard 10 étudiants parmi ceux ayant suivi le programme et 10 parmi les
autres. Les moyennes générales de ces étudiants sont dans le tableau ci-dessous :
33
FSR A. ZOGLAT Chapitre 3
La statistique Dm,n est indépendante de la loi commune de X et Y . Des tables pour la loi de Dm,n pour les
petites valeurs de m et n sont disponibles.
Remarque 9. Théoriquement, les égalités des observations sont de probabilité nulle. Pour le calcul de Dm,n
les observations égales sont écartées.
Le test de K-S est évidemment plus performant que le runs.test.
On a constaté que le test de K-S est très conservateur dans le cas de lois discrètes.
La grande p-value confirme l’hypothèse H0 : “La loi de χ2k est approximativement une loi Normale pour k
assez grand”.
34