CH1 2 3 A19 PDF

Statistiques Non-Paramétriques
Pr. A. Zoglat
Automne 2019
Chapitre 1
Généralités
Introduction
L’inférence Statistique est une méthodologie qui a pour but de découvrir les lois statistiques à partir des
résultats d’une expérience aléatoire. L’aléatoire fait partie de notre quotidien. Le temps qu’il fera demain, le
prix d’une action en bourse, le poids d’un nouveau-né, la durée de vie d’une lampe électrique . . . etc. sont des
variables imprévisibles. Ces variables sont associées à des expériences aléatoires contrôlées ou non contrôlées.
Structure mathématique d’une expérience aléatoire

Pour chaque expérience à l’étude on suppose que l’ensemble des résultats possibles est bien défini et connu. Il
est souvent noté Ω, ses éléments sont notés ω, et est muni d’une σ−algèbre F. Sur l’espace mesurable (Ω,F) on
dispose d’une mesure P qui quantifie la vraisemblance des éléments de F appelée probabilité. Le triplet (Ω,F,P)
est un espace probabilisé. L’inférence statistique a pour but de “déterminer” P.
Variables aléatoires
Une variable aléatoire (v.a.) est une fonction mesurable définie sur (Ω,F) vers un espace mesurable (S,S).
Souvent S est une partie de Rd et S est sa σ−algèbre borelienne.
Soit X : (Ω, F, P) −→ (R, BR ) une v.a. réelle. On appelle loi de X la probabilité notée PX et définie sur
(R, BR ) par :
∀B ∈ BR , PX (B) = P{X −1 (B).}
La fonction FX : R −→ [0, 1] définie par
FX (x) = PX (] − ∞, x]) = P{X ≤ x}
s’appelle la fonction de répartition (f.r.) de X.
Proposition 1. La loi de X est parfaitement déterminée par la détermination de sa f.r. FX .
Proposition 2. La f.r. FX possède les propriétés suivantes :
1. Croissante et continue à droite,
2. lim FX (x) = 0 et lim FX (x) = 1.

−∞ ∞
1
FSR A. ZOGLAT Chapitre 1
Si la f.r. FX est dérivable, on note fX sa fonction dérivée et on l’appelle fonction densité de probabilité (f.d.p.)
de X.
Proposition 3. La loi de X est parfaitement déterminée par la détermination de sa f.d.p. fX , et on a

Z x
∀x ∈ R, FX (x) = fX (t) dt.
−∞
Remarque 1. La f.d.p de X possède le propriété suivantes :
1. Pour tout x ∈ R, fX (x) ≥ 0,

Z ∞
2. fX (t) dt = 1.
−∞
Modèle Statistique
En inférence statistique on cherche à déterminer la loi de probabilité PX d’une v.a. X. Il y a deux cas de
figure :
• On connait la f.r. FX modulo un paramètre θ ∈ Rd . On dit alors qu’il s’agit d’un modèle paramétrique.
• On ne sait rien ou très peu de choses sur la f.r. FX . On dit alors qu’il s’agit d’un modèle non-paramétrique.
Dans un modèle paramétrique on cherche à “déterminer” les paramètres qui caractérisent la loi de probabilité
de la v.a.
Pour un modèle paramétrique, les méthodes inférentielles dépendent fortement de la loi de probabilité
considérée. Une méthode peut être optimale pour une famille de lois de probabilité mais pas pour une autre.
Par contre les méthodes inférentielles pour un modèle non-paramétrique peuvent paraitre raisonnables pour
plusieurs familles de loi de probabilité sans être optimale pour aucune d’entre elles.
En général, une procédure non-paramétrique permet de faire de l’inférence statistique avec peu d’hypothèses
sur la loi qui régit la population. Depuis plusieurs décennies, les procédures de la statistique non-paramétrique
continuent de se développer grâce aux avantages suivants :
- Les méthodes non-paramétriques ne requièrent que peu de conditions sur le modèle statistique.
- Elles sont souvent assez simples à comprendre et utiliser.
- Elles sont presque aussi efficaces que les méthodes paramétriques.
- Elles sont peu sensibles aux valeurs extrêmes.
- Elles sont devenues très accessibles grâce au développement de l’outil informatique.
Estimation des paramètres

Le but de l’inférence statistique est d’identifier la loi de probabilité qui régit le modèle. Dans un modèle
paramétrique, un estimateur ponctuel du paramètre est obtenu à partir d’un échantillon. La qualité de cet
estimateur est évaluée à partir de son biais et de son erreur standard. Il est souvent possible de construire, à
partir de cet estimateur, une région de confiance. Une région de confiance dépend bien entendu de l’échantillon
et du niveau de confiance. Le niveau de confiance (souvent 90%, 95% ou 99%) est le pourcentage de régions
2
(construites dans les mêmes conditions) qui contiennent le vrai paramètre lorsqu’on répète l’expérience un très
grand nombre de fois.
Tests d’hypothèses
Il s’agit ici de savoir si les données contredisent ou ne contredisent pas une proposition. Pour cela on doit
d’abord formuler une hypothèse nulle, H0 , et d’une hypothèse alternative, H1 . Voici quelques exemples :
- On aimerait savoir si la moyenne µ d’une population est égale à une valeur donnée µ0 . On considère alors
les hypothèses :
H0 : µ = µ0 versus H1 : µ 6= µ0 .
- Est-ce que la moyenne µA de la populations A est inférieure à la moyenne µB de la population B ? Pour
répondre à cette question on considère les hypothèses : H0 : µA ≥ µB versus H1 : µA < µ0 .
- On prétend que l’échantillon provient d’une loi normale N (µ, σ 2 ) de f.r. Φµ,σ . Pour vérifier cela, on
considère les hypothèses :
H0 : FX = Φµ,σ versus H1 : FX 6= Φµ,σ ,
où FX est la f.r. de l’échantillon.
Quand on teste des hypothèses, la conclusion est toujours formulée sur l’hypothèse nulle : soit on ne rejette pas
H0 , soit on rejette H0 .
Quelle que soit notre décision, il y a toujours un risque d’erreur.
Il y a en fait deux types d’erreur :
1. L’erreur de type 1 qui consiste à rejeter H0 alors qu’elle est vraie, et
2. l’erreur de type 2 qui consiste à accepter H0 alors qu’elle est fausse.
Comme il est impossible de maîtriser simultanément ces deux erreurs, les statisticiens ont opté pour maintenir
l’erreur de type 1 sous contrôle et de choisir la procédure qui minimise le risque d’erreur de type 2.
Les notations classiques pour les probabilités de ces erreurs sont α et β pour l’erreur de type 1 et l’erreur
de type 2 respectivement.
La puissance d’un test est égale à 1 − β. C’est la probabilité de rejeter une hypothèse nulle alors qu’elle est
fausse. L’idéal pour réaliser un test d’hypothèse est donc de choisir le test uniformément le plus puissant, i.e.
celui ayant, pour tout α, la plus grande puissance.
Exemple
Dans un établissement bancaire, on accepte d’accorder un prêt si un certain score S est supérieur ou égal à 3.
Pour un client i quelconque (de score Si ) il convient donc de tester H0 : Si ≥ 3 versus H1 : Si < 3.
3
Exemple (suite)
• L’erreur de type 1 est de ne pas accorder de crédit à un client que l’on aurait dû accepter, et donc de
perdre un bon client.
• L’erreur de type 2 est d’accorder un crédit à un client auquel on aurait dû le refuser, et donc d’accroître
le risque pour la banque.
• La puissance du test est la probabilité de ne pas accorder de crédit à un client qui n’est pas solvable.
La p-value
La probabilité critique où p-value est la probabilité, sous H0 , d’observer des valeurs aussi extrêmes que
celles qui ont conduit au rejet de H0 . Naturellement, une petite valeur de la p-value est une indication que
l’échantillon contredit H0 . La règle de décision est alors la suivante :
Rejeter H0 au niveau α ⇐⇒ α > p-value.
Tests paramétriques et non paramétriques

Un test est dit paramétrique ou non-paramétrique selon la nature paramétrique ou non du modèle statistique
choisi. Voici quelques avantages et désavantages des uns et des autres :
• La validité des tests paramétriques dépend de la validité des hypothèses du modèle paramétrique.
• Les tests non paramétriques n’impose aucune condition sur la loi de probabilité dont sont tirées les
observations.
• Lorsque les hypothèses du modèle paramétrique sont satisfaites, les tests paramétriques sont plus puissants
que les non paramétriques.
• Les tests paramétriques ne s’appliquent que lorsque les variables de travail sont mesurées sur une échelle
d’intervalle ou sur une échelle de ratio.
• Les tests non-paramétriques sont les seuls à pouvoir être mis en œuvre pour des variables de type nomi-
nales ou ordinales.
• En pratique, il est donc important de connaître l’échelle de mesure des variables de travail.
4
Chapitre 2
Tests pour un seul échantillon
Introduction
Considérons un échantillon X1 , . . . , Xn issu d’une loi de probabilité dont la f.r., notée F , est inconnue. Nous
chercherons à répondre aux questions du genre,
- est-ce que θ0 est une médiane pour F ?
- est-ce que F est une f.r. symétrique ?
- est-ce que F ≡ F0 ?, où F0 est une f.r. donnée.
Dans ce chapitre, nous allons développer des outils statistiques qui nous permettront, entre autres, de répondre
à ces questions.
2.1 Tests sur la médiane
2.1.1 Test de signe pour la médiane
Test de signe pour la médiane

La médiane pour une f.r. F , notée mF , est une mesure de tendance centrale. Elle est définie par
mF = inf{x : F (x) ≥ 0.5}.
Proposition 4. Si F est strictement croissante, alors F est continue en mF et on a F (mF ) = 0.5.
Considérons les hypothèses H0 : mF = θ0 versus H0 : mF < θ0 , où θ0 est un réel donné.
n
X
Soit la statistique S− = 1LI{Xi ≤θ0 } , où 1LIA (ω) = 1 si ω ∈ A et 0 sinon.
i=1
Par le lemme de Neyman-Pearson, le test uniformément le plus puissant, au niveau α, est celui qui rejette
H0 si S − > cα , où cα est une constante telle que P{S − > cα , mF = θ0 } = α.
S − − n/2 L
Sous H0 , S − suit la loi Binomiale(n, 0.5) et on a √ −→ Z, où Z suit la loi N (0, 1). Donc, pour n
n/2
assez grand (ici n ≥ 20), on rejette H0 si
S − − n/2
√ > zα ,
n/2
où zα est le réel tel que P{Z > zα } = α.
5
Exemple
Un four micro onde est conforme aux normes si le niveau d’émission de radiations, lorsqu’il est fermé, ne
dépasse pas 0.15. Les données suivantes sont les niveaux de radiations observés pour 20 fours choisis au hasard :
0.09 ; 0.18 ; 0.10 ; 0.05 ; 0.12 ; 0.40 ; 0.10 ; 0.05 ; 0.03 ; 0.20 ; 0.08 ; 0.10 ; 0.30 ; 0.20 ; 0.02 ; 0.01 ; 0.10 ; 0.08 ;
0.16 ; 0.11
À partir de ces données, peut-on conclure que plus de 50% des fours sont conformes aux normes ?
Cette question est équivalente à “est-ce que la médiane est inférieure ou égale à θ0 = 0.15 ?”
Exemple (suite)
n
X
On teste alors H0 : mF = 0.15 versus H1 : mF < 0.15. On rejette H0 si la valeur de S − = 1LI{Xi ≤0.15}
i=1
est “trop grande”. La valeur observée de la statistique S − vaut 6, et la p-value=P{S − ≥ 6} = 0.0219. Au seuil
de signification α = 0.05, on rejette H0 .
2.1.2 Test des rangs signés de Wilcoxon
Test des rangs signés de Wilcoxon
Le teste du signe ne prend pas en considération l’ampleur de la déviation d’une observation par rapport à
la médiane. On peut donc espérer l’améliorer en intégrant l’information relative à l’amplitude des écarts des
observations par rapport à la médiane.
Nous présentons ici une autre procédure pour tester l’hypothèse que la médiane est égale à une valeur
donnée θ0 . Cette fois nous allons supposer que la loi de probabilité est symétrique par rapport à la médiane :
f (mF − x) = f (mF + x) pour tout x ∈ R, où f désigne la fonction masse ou densité de probabilité.

Soit θ0 un réel donné. Pour i = 1, . . . , n, notons Ei = Xi − θ0 l’écart de Xi par rapport à θ0 et Ri son rang
parmi |E1 |, |E2 |, . . . , |En | ordonnés du plus petit au plus grand. On définit les statistiques :
n
X
Ψi = 1LI{Ei >0} et W+ = Ψi Ri .
i=1
Les Ψi sont des v.a. de Bernoulli de paramètre p = P{Ei > 0} alors que W + est la somme des rangs des écarts
strictement positifs.

En supposant l’absence d’écarts de même rang et que θ0 = mF , on a p = 0.5 et
n n
hX i X n(n + 1)
E W+ = E

i Ψi = 0.5 i= , et
i=1 i=1
4
n i n2 (n + 1)2
hX n(n + 1)(2n + 1)
Var(W + ) = E i 2 Ψi − = .
i=1
16 24
6
Comportement asymptotique de W +
W + − n(n + 1)/4 L
Théorème 1. Sous l’hypothèse H0 , on a : p −−−−→ Z.
n(n + 1)(2n + 1)/24 n→∞
Démonstration. Il suffit de vérifier que la condition du TCL de Lindeberg est vérifiée.
Remarque 2. Pour n assez grand (≥ 25), on pourra utiliser le comportement asymptotique de W + pour
déterminer “approximativement” la valeur critique pour tester H0 : mF = θ0 versus H0 : mF > θ0 .
• Ce test peut être utilisé pour vérifier l’efficacité d’un traitement. Pour deux échantillon appariés, l’échan-
tillon des différences suit une loi symétrique de moyenne 0 sous H0 : “le traitement est sans effet”.
• Dans le cas d’un échantillon X1 , . . . , Xn issu d’une est symétrique par rapport à θ0 , on se ramène au cas
d’une symétrie par rapport à 0 en considérant l’échantillon Y1 , . . . , Yn , avec Yi = Xi − θ0 .
• Notons que rejeter H0 : mF = θ0 peut signifier :
- La médiane est différente de θ0 , ou
- la loi de l’échantillon n’est pas symétrique.
Exemple
Dans cet exemple, nous disposons de 15 temps d’attente d’usagers dans un service public : 9, 5, 6, 10, 10, 6,
8, 3, 15, 6, 7, 17, 8, 20, 10.
Le temps d’attente est la durée en minutes séparant l’instant où une personne rejoint la file et le moment
où il se présente à un guichet. La question est de savoir si la médiane de la distribution des durées d’attente est
de 10 minutes.
Code du test dans R

x<-c(9, 5, 6, 10, 10, 6, 8, 3, 15, 6, 7, 17, 8, 20, 10) wilcox.test(x,alternative="two.sided",mu=10,exac
Exemple
Résultat du test par R

Wilcoxon signed rank test with continuity correction
data: x V = 31, p-value = 0.5552 alternative hypothesis: true location is not equal to 10
Remarque 3. La procédure “wilcox.test” ignore les écarts nuls dans le calcul de la statistique W + (notée V
par R.)
Exemple : application à un échantillon apparié

La variable note1 contient les évaluations obtenues à une première épreuve par 40 étudiants, et note2 celles
obtenues par les mêmes étudiants à la seconde épreuve, après une séance de correction de la première. On va
admettre que le niveau de difficulté des deux examens est identique, et la question est donc celle de l’efficacité de
la séance de correction : a-t’elle été profitable aux étudiants ? Dans l’affirmative, la valeur centrale de la variable
d’écart devrait être positive pour chaque étudiant. Il s’agit de vérifier cela sur les réalisations “note2-note1”.
7
Étudt 1 2 3 4 5 6 7 8 9 10
Note 1 13 6.5 5 12 9 10.5 11 3.5 14.5 12
Note 2 13 7 6 14 8.5 11 11 6 14 13.5
Étudt 11 12 13 14 15 16 17 18 19 20
Note 1 8.5 11 10.5 9 11.5 10 14 7.5 10.5 11
Note 2 8 10.5 11.5 10 10 11.5 16 9 10.5 9.5
Étudt 21 22 23 24 25 26 27 28 29 30
Note 1 8.5 12 4.5 9.5 12 10 8 8 7.5 12.5
Note 2 11.5 13.5 5.5 11 11 9.5 8.5 9 10 11
Étudt 31 32 33 34 35 36 37 38 39 40
Note 1 10.5 9 5 10 8 7.5 9 15.5 12 0.5
Note 2 11 9.5 5 11 9 7 9.5 15 13 0
Code du test dans R

Note1<-c(13, 6.5, 5, 12, 9, 10.5, 11, 3.5, 14.5, 12,8.5, 11, 10.5, 9, 11.5, 10, 14, 7.5, 10.5,
11,8.5, 12, 4.5, 9.5, 12, 10, 8, 8, 7.5, 12.5,10.5, 9, 5, 10,8, 7.5, 9, 15.5, 12, 0.5)
Note2<-c(13, 7, 6, 14, 8.5, 11, 11, 6, 14, 13.5, 8, 10.5, 11.5, 10, 10, 11.5, 16, 9, 10.5,
9.5,11.5, 13.5, 5.5, 11,11, 9.5, 8.5, 9,10,11,11, 9.5, 5, 11, 9, 7, 9.5, 15,13, 0)
wilcox.test(Note1, Note2, paired = TRUE, alternative = "two.sided",mu=0,exact=FALSE)
Résultat du test par R

> wilcox.test(Note1, Note2, paired = TRUE, alternative = "two.sided",mu=0,exact=FALSE)
Wilcoxon signed rank test with continuity correction
data: Note1 and Note2 V = 161.5, p-value = 0.006641 alternative hypothesis: true location shift
isn’t equal to 0
Remarque 4. Pour le calcul de V, R ne tient pas compte des différences nulles. De plus, la valeur de V est
égale à min(W+ , W− ).
2.1.3 Le test de McNemar
Le test de McNemar
Souvent utilisé pour statuer sur d’éventuelles modifications des opinions d’individus à la suite d’un ap-
port d’informations. En théorie, ce n’est rien d’autre qu’un test du signe sur échantillon apparié tel que vu
précédemment.
Les individus constituant l’échantillon sont initialement répartis en deux sous-groupes, l’un ayant une carac-
téristique A, l’autre une caractéristique B. Ils subissent ensuite une action à l’issue de laquelle on reconstruit
la répartition entre les deux sous groupes A et B. Pour chaque individu, quatre configurations sont donc
envisageables :
(1) A−→A ; (2) A−→B ; (3) B−→B ; (4) A−→A.
8
Les exemples d’applications sont évidemment nombreux :

- choix entre deux candidats à une élection avant et après un débat télévisé les opposant,
- choix d’une marque avant et après un message publicitaire,
- choix des études avant et après la rencontre d’un conseiller d’orientation,
- ....
Dans tous les cas, on veut savoir si l’action intermédiaire a eu un effet net sur les opinions. Par effet net, il faut
comprendre que ne sera considéré que l’écart des effectifs des configurations (A−→B) et (B−→A).
Techniquement, si on représente par un signe “+” les individus passant du sous-groupe A au sous-groupe
B, par un signe “-” ceux faisant le chemin opposé et si on ne considère pas ceux restant dans leur sous-groupe
initial après l’événement intermédiaire, alors sous l’hypothèse nulle d’absence d’impact de l’action intermédiaire,
la probabilité d’observer un changement de sous-groupe dans un sens ou dans l’autre est p = 1/2.
Soient n+ et n− les nombres respectifs de “+” et de “-” et n = n+ + n− . Sous H0 :”absence d’impact de
n+ − np n+ − n− L
l’action intermédiaire”, n+ suit une Binomiale(n, p = 1/2) et on a : p = √ −−−−→ Z. D’où
np(1 − p) n n→∞
(n+ − n− )2 L
T = −−−−→ χ21 et on rejette H0 pour les grandes valeurs de T .
n n→∞
Exemple
Nous disposons des notes données par deux correcteurs différents sur des copies de bac de français. Les
variables noteA et noteB contiennent les notes attribuées par chaque correcteur aux 30 copies. Les variables
supA et supB valent 1 lorsque la note de la copie est supérieure à 10, et 0 sinon.
supB
supA 0 1 Total
Le tableau suivant résume ces données : 0 13 8 21
1 0 9 9
Total 13 17 30
Est-ce que l’effectif d’élèves qui ont une note supérieure à la moyenne dépend du correcteur ?
Exemple (suite)
On a n+ = 8 et n− = 0, d’où T = 8. On cherche à tester H0 :”L’effectif d’élèves ayant la moyenne ou plus ne

dépend pas du correcteur” versus H1 : ”L’effectif d’élèves ayant la moyenne ou plus dépend du correcteur”. La
valeur critique “asymptotique” au niveau α = 0.05 est égale à χ21,α/2 = 5.024 (la p-value est inférieure à 0.005.)
On rejette alors H0 .
Calculs par R
qchisq(0.975, 1, ncp = 0, lower.tail = TRUE, log.p = FALSE) [1] 5.023886
pchisq(8, 1, ncp = 0, lower.tail = FALSE, log.p = FALSE) [1] 0.004677735
9
2.2 Tests d’adéquation

Tests d’adéquation
Plusieurs raisons peuvent nous amener à vouloir réaliser un test concernant la nature de la loi de probabilité
à l’origine de l’échantillon. Par exemple, pour des raisons théoriques on peut avoir un a priori sur la loi dont
seraient issues les données, et on veut vérifier que cet a priori est raisonnable. On peut aussi vouloir vérifier que
les conditions d’emploi d’un test dont la validité suppose une distribution particulière ne sont pas rejetées (la
question de l’adéquation d’une loi gaussienne est la plus courante.)
Introduction
Plusieurs tests permettant de tester si un échantillon est issu d’une distribution donnée. Nous allons en pré-
senter trois qui sont fondés sur la fonction de répartition empirique : Kolmogorov-Smirnov (K-S), Anderson-
Darling (A-D)et Cramer-vonMises (C-vM). Un autre test, basé sur une logique différente et uniquement
dédié à la normalité des observations, est le test de Shapiro-Wilk.
Certaines méthodes graphiques (histogrammes, P-P Plots, ...) peuvent également s’avérer utiles (malgré leur
coté subjectif) pour compléter cette étude sur la loi régissant un échantillon.
2.2.1 Tests de K-S, A-D et C-vM
Tests de K-S, A-D et C-vM

Le principe de ces tests est de comparer la fonction de répartition théorique F (x) spécifiée sous H0 , et la
n
1 X
fonction de répartition empirique, Fn (x) définie par : ∀x ∈ R, Fn (x) = 1LI]−∞,x] (Xi ).
n i=1
p.s.
D’après la loi forte des grands nombres, Fn (x) −−→ F (x), ∀x ∈ R.
n
Avant de développer les statistiques pour ces tests nous allons établir quelques résultats préliminaires sur la
fonction de répartition d’une variable aléatoire.
Définition 1. Soit F une fonction de répartition. On définit sa fonction inverse F −1 par : ∀y ∈

[0, 1], F −1 (y) = inf{x ∈ R : F (x) ≥ y}, (avec inf ∅ = ∞.)
Remarque 5. - ∀x ∈ R, F −1 (F (x)) = inf{x0 : F (x0 ) ≥ F (x)} = inf{x0 : x0 ≥ x} = x
Théorème 2. Si X est une variable aléatoire de fonction de répartition F , alors Y = F (X) est une variable
uniforme sur l’intervalle [0, 1].
Démonstration. Soit y ∈ [0, 1[, P{Y ≤ y} = P{F (X) ≤ y} = P{X ≤ F −1 (y)} = F (F −1 (y)) = y.
Statistique de Kolmogorov-Smirnov
Soit X1 , . . . , Xn un échantillon issu d’une loi de probabilité dont la f.r. F est continue. La statistique D − n,
définie par
Dn = sup |Fn (x) − F (x)|,
x
10
est appelée la statistique de Kolmogorov-Smirnov. Elle est très utile dans le contexte non-paramétrique
car sa loi ne dépend pas de F .
Les statistiques Dn+ et Dn− définies par
Dn+ = sup(Fn (x) − F (x)), et Dn− = sup(F (x) − Fn (x)),

x x
sont dites les statistiques unilatérales de Kolmogorov-Smirnov. On a alors : Dn = max(Dn+ , Dn− ).
Théorème 3. Les loi de Dn , Dn+ et Dn− ne dépendent pas de la f.r. F .
Démonstration. Notons X(1) , . . . , X(n) les statistiques d’ordre associées à l’échantillon X1 , . . . , Xn , X(0) = ∞ et
i
X(n+1) = ∞. On a alors Fn (x) = , pour X(i) ≤ x < X(i+1) , i = 0, 1, . . . , n.
n
n

Dn+ = sup(Fn (x) − F (x)) = max sup Fn (x) − F (x)
x i=0 X(i) ≤x<X(i+1)
n
i n
i
= max sup − F (x) = max − inf F (x)
i=0 X(i) ≤x<X(i+1) n i=0 n X(i) ≤x<X(i+1)
n i n i
= max max − F (X(i) ) , 0 = max max − U(i) , 0
i=1 n i=1 n
où les U(i) sont les statistique d’ordre de la loi uniforme sur [0, 1].
n o
1
Théorème 4. Pour Dn = supx |Fn (x) − F (x)|, où F est une f.r. continue, on a P Dn < 2n +ν =

0 pour ν ≤ 0,




 1 2n−1
2n +ν 2n +ν

Z Z
2n−1
... f (u1 , . . . , un ) du1 . . . dun pour 0 < ν < 2n ,
1 2n−1
2n −ν 2n −ν




 2n−1
1 pour ν ≥ 2n ,


n!

pour 0 < u1 < u2 < . . . < un < 1,
où f (u1 , . . . , un ) =
0

sinon.
Démonstration. En toute généralité, supposons que F est la f.r. de la loi Uniforme[0, 1]. Nous allons d’abord
déterminer le domaine adéquat pour ν. Puisque Dn est à valeurs dans [0, 1], on ne considérera que les ν tels que
1
0 < + ν < 1.
n i 1 2n − 1 h
Posons X(0) = 0 et X(n+1) = 1 et soit ν ∈ − , .
2n 2n
n 1 o n 1 o
P Dn < + ν = P | sup |Fn (x) − x| < +ν
2n x 2n
n n i 1 o
= P max sup | − x| < + ν|
i=0 X(i) ≤x<X(i+1) n 2n
n 2i − 1 2i + 1
= P −ν <x< + ν,
2n 2n o
X(i) ≤ x < X(i+1) , ∀ i = 0, 1, 2, . . . , n
11
n o
2i−1 2i+1
Pour 0 ≤ i < n, Ai = 2n −ν <x< 2n + ν, X(i) ≤ x < X(i+1) et
Démonstration (suite)
n o
Ai+1 = 2i+1
2n − ν < x < 2i+3
2n + ν, X (i+1) ≤ x < X (i+2) . Comme X(i+1) est la v. a. commune à Ai et Ai+1 et
2i + 1 2i + 1
les x communs sont tels que −ν <x< + ν, on déduit que :
2n 2n
n 2i + 1 2i + 1 o
∀0 ≤ i ≤ n − 1, ∀ν ≥ 0, Ai ∩ Ai+1 = − ν < X(i+1) < +ν .
2n 2n
En d’autres termes
2i + 1 2i + 1
−ν <x< + ν, X(i) ≤ x < X(i+1) , ∀ 0 ≤ i ≤ n, ssi,
2n 2n
2i + 1 2i + 1
− ν < X(i+1) < + ν, ∀ 0 ≤ i ≤ n − 1, ∀ν ≥ 0.
2n 2n
D’autre part fX(1) ,...,X(n) (x1 , . . . , xn ) = n! pour x1 < x2 < . . . < xn .
En mettant tous ces arguments ensemble, on obtient
n 1 o 1 2n − 1
P Dn < +ν ; − <ν<
2n 2n 2n
n 2i + 1 2i + 1 o 2n − 1
= P − ν < X(i+1) < + ν, i ≤ n − 1 , 0 ≤ ν <
2n 2n 2n
n 1 1 2n + 1 2n − 1 o
= P − ν < X(1) < + ν, . . . , − ν < X(n) < +ν ,
2n 2n 2n 2n
2n − 1
∀0 ≤ ν < .
2n

Le calcul de l’intégrale dans le théorème ci-dessus est loin d’être simple (même pour n = 2). Le résultat
suivant précise le comportement asymptotique en loi de Dn .
Théorème 5 (Kolmogorov, 1933). Si F est une f.r. continue, alors

n √ o X 2 2
∀d > 0, lim P Dn ≤ d/ n = L(d) := 1 − (−1)k−1 e−2k d .
n→∞
k≥1
En 1948, Smirnov a établi une table des valeurs de L(d) dont voici un extrait :
n √ o
P Dn ≤ d/ n 0.20 0.15 0.10 0.05 0.01
d 1.07 1.14 1.22 1.36 1.63
Il a été constaté que l’approximation est satisfaisante dès que n ≥ 35. Pour les tests non-paramétrique unilaté-
raux, il est utile de connaitre les lois des statistique Dn+ et Dn− .
12
n
Théorème 6. Pour Dn+ = sup Fn (x)−F (x) , où F est une fonction de répartition continue, on a : P Dn+ <
o x
c =

0 pour c ≤ 0,




Z 1 Z u n
 Z u3 Z u2
... f (u1 , . . . , un ) du1 . . . dun pour 0 < c < 1
n−1 2 1

 1−c n−c n−c n−c



1 pour c ≥ 1,


n!

pour 0 < u1 < u2 < . . . < un < 1,
où f (u1 , . . . , un ) =
0

sinon.
Démonstration. Comme avant, nous supposons que F est la f.r. de la loi Uniforme[0, 1]. On peut alors écrire
i
Dn+ = max max − X(i) , 0 et ∀ 0 < c < 1, on a
1≤i≤n n
n i o
P{Dn+ < c} = P max − X(i) < c
1≤i≤n n
n i o
= P X(i) > − c, 1 ≤ i ≤ n
n
Pour le comportement asymptotique en loi de Dn+ , on a le résultat suivant

Théorème 7. Soit Dn+ = sup Fn (x) − F (x) , où F est une fonction de répartition continue. Alors pour tout
x
d > 0, on a
n √ o 2
lim P Dn+ < d/ n = 1 − e−2d .
n→∞
De ce théorème découle le corollaire important suivant,
Corollaire 1. Dans les mêmes conditions que le théorème précédent, on
L
V = 4n Dn+ −−−−→ χ22 .
n→∞
Exemple
Un échantillon de 12 personnes ont été interrogées dans le but d’estimer le revenu annuel médian de la popu-
lation d’une région en récession économique. Utiliser les données ci-dessous pour tester l’hypothèse que le revenu
dans cette région suit une loi normale. 9800 ;10200 ;9300 ;8700 ;15200 ;6900 ;8600 ;9600 ;12200 ;15500 ;11600 ;7200.
Code du KS-Test dans R

X<- c(9800,10200,9300,8700,15200,6900,8600,9600,12200,15500,11600,7200)
Z<-(rev-mean(X))/sd(X)
ks.test(Z,"pnorm",mean=0, sd=1)
13
Résultats
> X<- c(9800,10200,9300,8700,15200,6900,8600,9600,12200,15500,11600,7200)
> Z<-(rev-mean(X))/sd(X)
> ks.test(Z,"pnorm",mean=0, sd=1)
One-sample Kolmogorov-Smirnov test
data : Z
D = 0.1954, p-value = 0.6805
alternative hypothesis : two-sided
Exemple
Les données suivantes constituent un échantillon issu d’une Uniforme[0, 1]. 0.0123; 0.1039; 0.1954; 0.2621; 0.2802; 0.3217; 0.36
0.5139; 0.5846; 0.6275; 0.6541; 0.6889; 0.7621; 0.8320; 0.8871; 0.9249; 0.9634 Déterminer Dn et tester l’hypothèse
H0 :”les racines carrées de ces données est un échantillon issu d’une loi Uniforme[0, 1].” X2<-c(0.0123,0.1039,0.1954,0.2621,0.2802,0
0.5139,0.5846,0.6275,0.6541,0.6889,0.7621,0.8320,0.8871,0.9249,0.9634)
> SQX2<-sqrt(X2) ; > ks.test(SQX2,"punif",exact="FALSE")
One-sample Kolmogorov-Smirnov test data : SQX2

D = 0.362, p-value = 0.0106 alternative hypothesis : two-sided
Le test de Cramer-vonMises
Comme le test précédent, le est basé sur la distance entre la f.r. empirique et la f.r. hypothétique. La
statistique du test de C-vM st donnée par
Z ∞ 2
W2 = Fn (x) − F (x) dF (x),
−∞
L’avantage de cette statistique est qu’elle prend en considération l’ensemble des observations au lieu des distances
maximales de la statistique de Kolmogorov-Smirnov.
Le test d’Anderson-Darling
Ce test est, comme le précédent, basé sur la distance entre la f.r. empirique et la f.r. hypothétique. La
statistique du test d’AD est donnée par
Z ∞
2 1
A2 = Fn (x) − F (x) dF (x),
−∞ F (x) 1 − F (x)
Remarque 6. Le test de Cramer-vonMises donne un même poids à toutes les observations alors que le test
d’Anderson-Darling donne plus de poids aux observations situées dans les queues de la distribution.
2.2.2 Le test de Shapiro-Wilk
Le test de Shapiro-Wilk
Il s’agit d’un test qui fait appel aux L-statistiques (combinaison linéaire des statistiques d’ordre) et se base
sur une comparaison de la variance empirique avec un estimateur de la variance des Xi qui a de bonnes propriétés
sous l’hypothèse de normalité.
14
Soit X1 , . . . , Xn un échantillon issu d’une loi de moyenne µ et de variance σ 2 . On pose Yi = (Xi − µ)/σ et
on note X(1) , . . . , X(n) les statistiques d’ordre. Il est clair que Y(i) = (X(i) − µ)/σ. Pour i, j = 1, . . . , n, on note

αi = E Y(i) , σij = Cov Y(i) , Y(j) , et Σ = σij 1≤i,j≤n
.
On peut alors écrire X(i) = µ + αi σ + i avec E[i ] = 0. Les i ne sont pas indépendantes et la ma-
trice de variances-covariances du vecteur = (1 , . . . , n ) est Σ. On pose 10 = (1, 1, . . . , 1) ∈ Rn et α0 =
n 0
2 , . . . , αn ) ∈ R et A la matrice n × 2 définie par A= (1, α) . On a alors, X(.) := (X(1) , . . . , X(n) ) =
(α1, α
µ
A   + . L’estimateur des moindres carrés pondérés de (µ, σ) s’obtient en minimisant, par rapport à (µ, σ),
σ
  0   
µ µ
la quantité X(.) − A   Σ−1 X(.) − A   .
σ σ
 
µ −1 0 −1
On obtient comme solution :   = A0 Σ−1 A
b
A Σ X(.) .
σ
b
Lemme 1. Lorsque la loi des Yi est symétrique, 10 Σ−1 α = 0, et on a

 
0 −1
1 Σ 1 0
A0 Σ−1 A =  .
0 α0 Σ−1 α
L L
Démonstration. Si la loi de Yi est symétrique alors −Yi = Yi (i.e. −Yi et Yi ont la même loi) d’où −Y(n) = Y(1)
et plus généralement

L
−Y(n+1−i) = Y(i) .
1≤i≤n 1≤i≤n
Ainsi, ∀1 ≤ i, j ≤ n, on a : αi = −αn+1−i et σij = σ(n+1−i)(n+1−j) . Cette dernière propriété est également

vérifiée par les entrées de la matrice Σ−1 . On en déduit que 10 Σ−1 α = 0.
10 Σ−1 X(.) α0 Σ−1 X(.)

Lemme 2. Si la loi de Yi est symétrique alors : µ
b= et σ = .
10 Σ−1 1 α0 Σ−1 α
b
Définition 2. Le test de Shapiro-Wilk pour tester l’hypothèse de normalité des Xi est basé sur la statistique :
b2 (α0 Σ−1 α)2
σ
SW = Pn 2 0 −1 Σ−1 α)
i=1 (Xi − X) (α Σ
Σ−1 α
En posant a = √ , cette statistique s’écrit alors
α0 Σ−1 Σ−1 α
(a0 X(.) )2
SW = Pn
i=1 (Xi − X)2
Sous cette forme on peut voir que SW est invariable par opérations linéaires sur les Xi .
15
• La statistique SW est toujours comprise entre 0 et 1. Une valeur de SW proche de 1 est favorable à
l’hypothèse H0 : “l’échantillon est issu d’une loi normale”, alors qu’une valeur proche de 0 conduit plutôt
à son rejet .
• En pratique, pour calculer cette statistique, il est nécessaire de connaître les ai . Ces valeurs sont tabulées
pour n ≤ 50.
• Le logiciel R permet d’effectuer le test de normalité de Shapiro-Wilk en exécutant la commande :
shapiro.test(x).
Exemples
Un échantillon de 12 personnes ont été interrogées dans le but d’estimer le revenu annuel moyen de la popu-
lation d’une région en récession économique. Utiliser les données ci-dessous pour tester l’hypothèse que le revenu
dans cette région suit une loi normale. 9800 ;10200 ;9300 ;8700 ;15200 ;6900 ;8600 ;9600 ;12200 ;15500 ;11600 ;7200.
RCodes et Résultats
> install.packages("nortest")
revenu<- c(9.8,10.2,9.3,8.7,15.2,6.9,8.6,9.6,12.2,15.5,11.6,7.2)
> nortest :: ad.test(revenu)

Anderson-Darling normality test
data: revenu
A = 0.4588, p-value = 0.2152
> nortest :: cvm.test(revenu)

Cramer-von Mises normality test
W = 0.0707, p-value = 0.2503
RCodes et Résultats
> shapiro.test(revenu)
Shapiro-Wilk normality test
data: revenu
W = 0.9077, p-value = 0.199
2.3 Test de Khi-deux
Test de Khi-deux
Soit X1 , . . . , Xn un échantillon aléatoire à valeurs dans {a1 , . . . , ar }, avec r > 1, et supposons que ∀i =
1, . . . , r, pi := P{X1 = ai } > 0.
16
On souhaite tester l’hypothèse H0 : p = π 0 contre l’alternative H1 : p 6= π 0 , où p = (p1 , . . . , pr )0 et

r
X
π 0 = (π1 , . . . , πr )0 ∈]0, 1[r est un vecteur donnée tel que πi = 1.
i=1
n
X
Pour i = 1, . . . , r, on pose Nin = 1LI{Xk =ai } .
k=1
Proposition 5. La v.a. Nn = (N1n , . . . , Nrn )0 suit une loi multinomiale : ∀n1 , . . . , nr ∈ N,


 n! n1 nr
Pr
n1 !...nr ! p1 . . . pr si i=1 ni = n

P{N1n = n1 , . . . , Nrn = nr } =
0

sinon.
Proposition 6. Avec les notations précédentes, on

N − np Nrn − npr L
1n 1
Yn = √ ,..., √ −−−−→ N (0, Γ),
n n n→∞
où Γ = (γij )1≤i,j≤r avec γii = pi (1 − pi ) et, pour i 6= j, γij = −pi pj .
Démonstration
Lemme[Théorème de Cramér-Wald]
La suite (Yn )n de vecteurs aléatoires dans Rk converge en loi vers le vecteur aléatoire Y ∈ Rk si, et seulement
si,
L
∀(α1 , . . . , αk )0 ∈ Rk , (α1 , . . . , αk )0 Yn −−−−→ (α1 , . . . , αk )0 Y.
n→∞
Preuve du lemme. Utiliser le résultat sur les fonctions caractéristiques :

L
Xn −−−−→ X ⇔ ϕXn −−−−→ ϕX .
n→∞ n→∞
Preuve de la Proposition
r
X
Pn
Soit α ∈ Rr , α0 (Nn − np) = k=1 1I{Xk =ai } − pi ) . Les ξk sont indépendante et identiquement distri-
αi (L
i=1
| {z }
=ξk
Pr
buées, avec E[ξk ] = 0 et Var(ξi ) = i=1 αi2 pi (1 − pi ) − i6=j αi αj pi pj := σξ2 . Par le théorème central limite
P
Pn
ξk L Nn − np L
classique, on alors k=1 −−−−→ N (0, σξ2 ). D’après le Théorème de Cramér-Wald,

√ √ −−−−→ N 0, Γ .
n n→∞ n n→∞
La matrice Γ doit être telle que Var(α0 N 0, Γ ) = σξ2 . On en déduit que Γ = (γij )1≤i,j≤r avec γii = pi (1−pi )

et, pour i 6= j, γij = −pi pj .
Théorème 8 (Théorème de Pearson). Si le vecteur aléatoire Nn = (N1n , ..., Nrn ) suit la loi multinomiale de
paramètres n et p = (p1 , p2 , . . . , pr )0 , alors
r 2
X Nin − npi L
Qn := −−−−→ χ2r−1 .
i=1
npi n→∞
17
Démonstration.
r
X x2i N − np
n L
Soit f : Rr → [0, ∞[ la fonction définie par f (x1 , . . . , xr ) = . Comme f est continue, on a f √ −−−−→
i=1
p i n n→∞

f N 0, Γ .

Nous allons déterminer la loi de f N 0, Γ .
Démonstration (suite). Soit η = (η1 , . . . , ηr )0 un vecteur aléatoire qui suit la loi N 0, Γ et soit V = (V1 , . . . , Vr )0

r
√ X γij √ √ √
où Vi = ηi / pi . Alors f (η) = Vi2 , V ∼ N (0, ΓV ) et Cov(Vi , Vj ) = √ . Notons p = ( p1 , . . . , pr )0 .
i=1
p p
i j
√ √
Puisque || p|| = 1, ∃A ∈ Rr × Rr telle que AA0 = I et A p = (0, 0, . . . , 1)0 ∈ Rr (On peut construire A selon
le procédé de Gram-Schmidth.) On a alors AV ∼ N (0, ΓAV ), avec ΓAV = AΓV A0 = diag(1, . . . , 1, 0) ∈ Rr × Rr .
Ainsi AV est de même loi que (Z1 , . . . , Zr−1 , 0)0 et on a :
r−1
L
X
f (η) = ||V||2 = ||AV||2 = V’A’AV = Zi2 ∼ χ2r−1
i=1
Remarque 7. L’approximation de la loi de Qn par une loi de χ2r−1 ne serait pas “bonne” si les probabilités
sous l’hypothèse H0 sont trop petites.
Comme règle générale, la plupart des statisticiens recommandent que n ainsi que chaque pi soient assez
grands se sortent que min npi ≥ 5.
i
Lorsque les effectifs correspondants à certaines valeurs sont inférieurs à 5, on procède au regroupent de ces
valeurs dans une seule classe.
Exemple
L’échantillon suivant est issu d’une loi dont la f.r. est F .
Valeurs 0 1 2 3 4 5
Fréquence 11 17 10 9 2 1
On veut tester l’hypothèse H0 : F = F0 , où F0 est la f.r. d’une loi de Poisson(1).

Le tableau ci-dessous contient les valeurs qui permettent de calculer la statistique Qn .
Exemple (suite)
18
(Nin −npi )2
i pi = P{X = i} npi npi Nin (Nin − npi )2 npi
0 0.367879 18.3940 18.3940 11 54.6712 2.9722

1 0.367879 18.3940 18.3940 17 1.9432 0.1056
2 0.183940 9.1970 9.1970 10 0.6448 0.0701
3 0.061313 3.0657 3.9654 12 64.5548 16.2795
4 0.015328 0.7664 On regroupe les valeurs 3, 4 et 5 dans
5 0.003066 0.1533 une seule classe.
Qn 19.4284
Après regroupement, on a r = 4. D’autre part, pour α = 0.05, χ2r−1,α = 7.815. On doit donc rejeter
l’hypothèse H0 .
Exemple
Les données suivantes sont les nombre tours sur un circuit effectués par un 22 voitures électriques avant de
s’arrêter pour recharger les batteries.
17.88 28.92 33.00 41.52 42.12

45.60 48.48 51.84 51.96 54.12
55.56 67.40 68.64 68.88 84.12
93.12 98.64 105.12 105.84 127.92
128.04 173.40
On aimerait tester l’hypothèse H0 : La durée de vie d’une batterie suit une loi exponentielle de moyenne 1/λ.
On partitionne l’ensemble des nombres tours en intervalles puis on calcule les fréquences théoriques et
observées pour chaque intervalle. Ensuite on calcule la statistique Qn .
Notons pi la fréquence théorique de la classe [ai , ai+1 [. Sous H0 , On a
pi = e−λai+1 − e−λai .
Pour calculer les fréquences théoriques, on doit d’abord estimer λ. L’estimateur du maximum de vraisemblance
X
pour λ (sous H0 ) est λb = n/ xi = 0.0138.
Le tableau ci-dessous contient les valeurs qui permettent de calculer la statistique Qn .
Partition pbi nb
pi nb
pi Nin pi − Nin )2 /nb
(nb pi
0-40 0.424540 9.33988 9.33988 3 4.30349
40-80 0.244306 5.37473 5.37473 11 5.88748
80-120 0.140588 3.09294 5.89304 8 0.75331
120-160 0.080903 1.77987 Les classes dont l’effectif théorique
160-200 0.046556 1.02423 est < 5 ont été groupées.
Qn = 10.94428
19
Après regroupement, on a r = 3. D’autre part, pour α = 0.05, χ2r−1,α = 5.991. On doit donc rejeter l’hypothèse
H0 .
Le test d’indépendance
On considère ici un couple (X, Y ) de variables aléatoires. On suppose que X (resp. Y ) prend ses valeurs dans
l’ensemble {1, . . . , r} (resp. {1, . . . , c}). Si pij = P(X = i, Y = j), on représentera la loi du couple (X, Y ) par la
matrice P = (pij ) à r lignes et c colonnes. Le problème qui nous intéresse dans ici est de tester l’indépendance
des variables X et Y .
Rappelons que si P est connue, les variables X et Y sont indépendantes si et seulement si P est le produit
(tensoriel) de ses lois marginales i.e.
c
X r
X
∀i, j, pij = pi· × p·j , où pi·^ = pij et p·j = pij .
j=1 i=1
Prenons un échantillon (X1 , Y1 ), . . . , (Xn , Yn ) de la loi P et pour toute valeur (i, j) considérons la variable
aléatoire
n
X
Nij = 1LI(Xm ,Ym )=(i,j) ,
m=1
qui compte le nombre de fois que la valeur (i, j) apparait dans l’échantillon.
Nij
La variable aléatoire pn (i, j) = , est l’estimateur empirique de la probabilité pij et la loi empirique de
n
l’échantillon est la matrice Pn à k lignes et l colonnes donnée par Pn = pn (i, j) 1≤i≤r . Notons
1≤j≤c
X (pij − Nij /n)2

χ2n (P, Pn ) = n .
i,j
pij
Théorème 9. Sous l’hypothèse d’indépendance de X et Y , on a
L
χ2n (P, Pn ) −−−−→ χ2(r−1)(c−1) .
n→∞
Exemple (Yeux et cheveux)

Depuis une terrasse de café ensoleillée, un statisticien en plein travail a noté les couleurs des yeux et des
cheveux de 124 passants.
PP
PP Cheveux
P PP blonds bruns roux noirs
Yeux PP
PP
bleus 15 9 7 3
gris 13 17 7 10
marrons 7 13 5 8
Au seuil de signification α = 0.05, peut-on conclure que la couleurs des yeux est indépendante de la couleur des
cheveux ?
20
Figure 2.1 –
Exemple (Yeux et cheveux)

Code R et résultat
Exercice 1 (1). A quality control engineer has taken 50 samples of size 13 each from a production process. The
numbers of defectives for these samples are recorded below. Test the hypothesis that the number of defectives
follows : (a) The Poisson distribution (b) The binomial distribution
Number of Defectives Number of Samples
0 10
1 24
2 10
3 4
4 1
5 1
6 or more 0
Solution
obsrv<-c(0,1,2,3,4,5,6)
effctf<-c(10,24,10,4,1,1,0)
ceffctf<-c(10,24,10,6) Correction des effectifs des cellules
lmbd<-sum(obsrv*effctf)/40 proba<-c(dpois(0:5,lmbd),1-ppois(5,lmbd))
cproba<-c(dpois(0:2,lmbd),1-ppois(2,lmbd))
chisq.test(ceffctf, p = cproba)
Test de Randomisation
Considérons une file de 10 personnes (5 hommes(H) et 5 femmes(F)) devant un guichet de cinéma et sup-
posons qu’elles soient ordonnées comme suit : H,F,H,F,H,F,H,F,H,F.
21
Pouvons-nous considérer cet arrangement comme aléatoire ? La réponse intuitive est non ! Dans des situations
moins évidentes, la réponse à cette question découlerait d’un test statistique :“Test de Randomisation”.
Randomisation
Définition 3 (Séquence). Étant donnée une séries d’objets ordonnés, une séquence est bloc formé par un ou
plusieurs objets de même type.
Exemple. Considérons les successions suivantes :

1- AABBBBA : Ici on a trois (3) séquences.
2- AAABBBB : Ici on a deux (2) séquences.
2- ABABABB : Ici on a six (6) séquences.s.
2- ABABABB : Ici on a sept (6) séquences.
Randomisation
Pour se prononcer sur la nature aléatoire ou non d’une succession, on examine le nombre se séquences. Un
nombre trop grand ou trop petit de nombre de séquences est une évidence de l’absence du hasard. Notons que
ces deux situations extrêmes peuvent indiquer deux types d’absence de hasard. Dans le cas de la file devant le
guichet de cinéma, trop de séquences peut indiquer qu’il s’agit d’un film que les gens viennent voir en couples.
Alors que trop peu de séquences peu indiquer qu’il s’agit de film que les gens viennent voir entre amis.
Randomisation
Lorsque la nature aléatoire des données est suspecte, l’information sur l’ordre peut s’avérer utile pour
conduire un test de randomisation.
Les objets utilisés pour l’étude peuvent s’imposer de manière naturelle (comme dans l’exemple de la file
devant le guichet du cinéma) ou imposer artificiellement suivant un critère dichotomique. Ainsi un test de
randomisation (ou test de séquences) s’applique aussi bien pour des variables qualitatives que quantitatives.
Pour ces dernières, la dichotomie est généralement atteinte en comparant les données à une valeur donnée
(souvent la moyenne ou la médiane).
Randomisation
On considère n1 objets de type 1 et n2 objets de type 2 dans un arrangement. On note r1 le nombre de
séquences d’objets de type 1, r2 le nombre de séquences d’objets de type 2 et r = r1 + r2 le nombre total de
séquences.
Exemple. Considérons les successions suivantes :

1- AABBBBA : Ici on a trois (3) séquences. Deux séquences de type A et une de type B.
2- AAABBBB : Ici on une séquence de type A et une de type B.
2- ABABABB : Ici on trois séquences de type A et trois de type B.
Randomisation
Afin de pouvoir construire un test de séquences basé sur R le nombre total de séquences, on doit connaître
la loi de R sous H0 .
22
On détermine d’abord la loi du couple (R1 , R2 ) des nombres de séquences de type 1 et de type 2.
Sous l’hypothèse H0 :”les arrangements des n = n1 +n2 objets sont équiprobables, la probabilité P{(R1 , R2 ) =
(r1 , r2 )} est égale au nombre d’arrangements avec r1 séquences d’objets de type 1 et r2 séquences d’objets de
type 2 divisé par le nombre total d’arrangements.
Randomisation
Lemme 1. Le nombre de rangements distincts de n objets identiques dans r cases distinctes de sorte qu’aucune
case ne reste vide est égal à : n−1

r−1 , avec n ≥ r.
Pour obtenir r1 séquences de n1 objets identiques de type 1, on doit placer les n1 objets dans les r1 cases
−1
(sans laisser de case vide). Il y a donc nr11−1

possibilités.
Randomisation
n1 −1 n2 −1

Le nombre total d’arrangements est égal à r1 −1 r2 −1 . Comme les séquences de type 1 et de type 2
s’alternent, on doit avoir r1 = r2 ± 1 ou r1 = r2 . Si r2 = r1 − 1 (resp. r1 = r2 − 1 ) alors l’arrangement commence
par une séquence de type 1 (resp. type 2) et si r2 = r1 alors l’arrangement commence par une séquence de type
1 ou une séquence de type 2.
On a alors le résultat suivant :
Randomisation
Théorème 10. Soit R1 (resp. R2 ) le nombres de séquences de n1 (resp. n2 ) objets identiques de type 1 (resp.
type 2) dans un arrangement aléatoire. La loi conjointe de R1 er R2 est donnée par
  
n1 − 1 n2 − 1
c  
n o r1 − 1 r2 − 1
P (R1 , R2 ) = (r1 , r2 ) =   ,
n1 + n2
 
n1
avec c = 2 si r1 = r2 et c = 1 si r1 = r2 ± 1.
Randomisation
Corollaire 2. La loi marginale de R1 est donnée par

  
n1 − 1 n2 + 1
  
n o r1 − 1 r1
∀r1 = 1, 2, . . . n1 , P R1 = r1 =   .
n1 + n2
 
n1
Preuve
23
Notant que les seules valeurs de r2 sont r1 , r1 − 1 et r1 + 1, on a
nn1 + n2 o

n1 − 1 n2 − 1 n1 − 1 n2 − 1
= 2 +
n1 P R1 = r1 r1 − 1 r1 − 1 r1 − 1 r1 − 2

n1 − 1 n2 − 1
+
r1 − 1 r1
h
n1 − 1 n2 − 1 n2 − 1 n2 − 1
= + +
r1 − 1 r1 − 1 r1 − 2 r1 − 1

n2 − 1 i
+
r1
i
n1 − 1 h n2 n2
= +
r1 − 1 r1 − 1 r1

n1 − 1 n2 + 1
=
r1 − 1 r1
Théorème 11. La loi de R = R1 + R2 , le nombre total de séquences de n1 objets de type 1 et n2 objets de type
2, dans un échantillon aléatoire est donnée pour tout r = 2, 3, . . . , n1 + n2 par
 n1 −1 n2 −1
2
 r/2−1 r/2−1

si r est pair
n1 +n2



n o 

 n1
P R=r =

n1 −1
 n2 −1 n1 −1
n2 −1
(r−1)/2 (r−3)/2 + (r−3)/2 (r−1)/2





 n1 +n2
si r est impair
n1
Démonstration. Pour r pair alors r1 = r2 = r/2. Pour r impair, alors r1 = r2 ± 1. Dans ce cas r1 = (r − 1)/2
et r2 = (r + 1)/2 ou r1 = (r + 1)/2 et r2 = (r − 1)/2.
Pour conclure, il suffit alors d’appliquer le théorème précédent.
Exemple. Pour n1 =5 et

n2 = 4, on a
4 3
4
- P{R = 9} = 9
3 = 1/126 = 0.008.
4
4 3
2 3 3
- P{R = 8} = 9
= 8/126 = 0.063.
4
Considérons l’arrangement de n1 objets de type 1 et n2 objets de type 2. Pour k = 2, 3, . . . , n = n1 + n2 , on

pose

1 si le k ème élément 6= du (k − 1)ème élément,

1LIk =
0 sinon

n

Les 1LIk sont alors des variables de Bernoulli de paramètre p = n1 n2 / 2 et on a R = 1 + 1LI2 + . . . + 1LIn . On a
donc :
24
E[R] = 1 + E[L
1I2 + . . . + 1LIn ] = 1 + np, et,
X n XX
Var(R) = Var 1LIk = (n − 1)Var(L 1I2 ) + 1Ij , 1LIk )
Cov(L
2≤j6=k≤n
k=2
Loi asymptotique de R
On suppose que n → ∞ et qu’il existe λ ∈]0, 1[ tel que n1 /n → λ et n2 /n → 1 − λ. Alors,
√
lim E[R/n] = 2λ(1 − λ), et lim Var[R/ n] = 4λ2 (1 − λ)2 .
n n
D’où
R − 2nλ(1 − λ) L
√ −−−−→ Z ∼ N (0, 1).
2 nλ(1 − λ) n→∞
25
Chapitre 3
Tests pour deux échantillons indépendants
Introduction
Dans ce chapitre nous considérons le cas de deux échantillons issus de deux populations indépendantes.
Nous sommes en présence de deux populations dont les variables aléatoires sont X et Y . On désignera par
FX et FY leurs fonctions de répartition et on noter les échantillons X1 , . . . , Xm et Y1 , . . . , Yn .
Souvent, on cherche à savoir si les deux échantillons proviennent d’une même population et l’hypothèse à
tester est de la forme H0 : FX = FY .
En statistique paramétrique, dans le cadre de Neyman-Pearson, nous disposons de tests les plus performants.
Par exemple, pour des échantillons indépendants, le t-test pour tester l’égalité des moyennes et le F-test pour
tester l’égalité des variances sont les plus puissants au niveau de signification α donné.
Toutefois les tests paramétriques peuvent s’avérer vulnérables aux violations de certaines conditions. Par
exemple, le t-test et le F-test sont inappropriés en l’absence de la normalité. Dans ce cas, on a recours à un test
non-paramétrique.
Les hypothèses concernant les “paramètres de position” sont très fréquentes. De telles hypothèses expriment
que Y est une simple translation de X : L(Y ) = L(X + θ). Sous ce type d’hypothèses, les lois de X et de Y ont
la même forme, la même variance mais des moyennes et des médianes égales modulo θ.
D’autres hypothèses concernent les “paramètres d’échelle”. Elles expriment que les lois de X et de Y sont
“égales à un coefficient près” : L(Y ) = L(X/θ).
Indépendamment du modèle considéré, en statistique non-paramétrique, l’hypothèse nulle exprime souvent

que les populations sont de même loi. Bien que cette loi est inconnue, on supposera qu’elle admet une densité.
Ainsi, sous l’hypothèse nulle, les deux échantillons sont mélangés pour former un seul échantillon de taille
N

N = n + m issu d’une loi continue mais inconnue. Les m arrangements du nouvel échantillon sont alors
équiprobables. Les hypothèses alternatives sont généralement de la forme : H1 : FX (x) 6= FY (x), ∀x, H1 : FX (x) ≥
FY (x), ∀x et ∃x0 : FX (x0 ) > FY (x0 ), ou H1 : FX (x) ≤ FY (x), ∀x et ∃x0 : FX (x0 ) < FY (x0 ).
26
Pour le dernier cas, la v.a. X est dite stochastiquement supérieure à Y .
3.1 Wald-Wolfowitz Test de Séquences

Wald-Wolfowitz Test de Séquences
On mélange les deux échantillons X1 , . . . , Xm et Y1 , . . . , Yn puis on ordonne le nouvel échantillon. On note
r1 le nombre de séquences de X, r2 le nombre de séquences de Y et R = r1 + r2 le nombre total de séquences.
Exemple. Considérons les échantillons x1 , . . . , x4 et y1 , . . . , y5 et supposons qu’on a l’arrangement suivant :

x(1) x(2) x(3) x(4) y(1) y(2) y(3) y(4) y(5)
Le nombre de séquences ici R = 2 est trop petit. Il indique que X a tendance à être stochastiquement
inférieure à Y .
On note R le nombre total de séquences lorsque le deux échantillons sont mélangés puis ordonnés. Une petite
valeur de R est une évidence contre H0 : FX (x) = FY (x), ∀x et en faveur de H1 : FX (x) 6= FY (x), ∀x.
On rejette donc H0 : FX (x) = FY (x), ∀x, au niveau α, si R < cα .
Pour faire de l’inférence statistique, on a besoin de la loi de R.
Loi de R
Le nombre total d’arrangements distincts de m objets de type X et de n objets de type Y est égal à
Cm+n = (mm!
+ n)!
m
.
Le nombre de possibilités d’avoir r1 séquences de X est égale au nombre de façons de placer m objets identiques
dans r1 cases sans qu’aucune case ne reste vide.
Loi de R
Cela est égal au nombre de possibilités de choisir r1 − 1 places (pour les r − 1 barres internes) parmi les
m − 1 espace qui séparent les m objets X.
|XX|X|XXX| . . . |XX|
r1 −1
Le nombre répartitions est donc égal à Cm−1 .
Ainsi le nombre de possibilités d’avoir r1 séquences de X et r2 séquences de Y est égal à :
r1 −1 r2 −1
Cm−1 × Cn−1 .
On mélange les deux échantillons X1 , . . . , Xm et Y1 , . . . , Yn puis on ordonne le nouvel échantillon. On note

r1 le nombre de séquences de X, r2 le nombre de séquences de Y et R = r1 + r2 le nombre total de séquences.
27
Sous l’hypothèse H0 : FX = FY , toutes les séquences sont équiprobables et on a ∀r ∈ {2, 3, . . . , n + m},

r1 −1 r2 −1
X Cm−1 × Cn−1
P{R = r} = m
r1 +r2 =r Cm+n
X m!n!(m − 1)!(n − 1)!
=
r1 +r2 =r
(n + m)!(r1 − 1)!(r2 − 1)!(m − r1 )!(n − r2 )!
Exemple
Considérons un échantillon X1 , . . . , X5 et un échantillon Y1 , . . . , Y3 . Supposons que FX = FY et calculons P{R ≤
3}.
Notons que R = 3 ⇔ r1 = 1, r2 = 2 ou r1 = 2, r1 , d’où
5!3!4!2! 5!3!4!2!
P{R = 3} = +
8!0!1!4!1! 8!1!0!3!2!
5!3!2! 5!4!
= + = 0.107.
8! 8!
5!3!4!2! 5!3!4!2!
P{R = 2} = +
8!0!0!4!2! 8!0!0!4!2!
5!3!2! 5!4!
= + = 0.036.
8! 8!
P{R ≤ 3} = 0.143.
Loi asymptotique de R
On mélange les deux échantillons X1 , . . . , Xm et Y1 , . . . , Yn puis on ordonne le nouvel échantillon et on note R

le nombre de séquences.
Sous l’hypothèse H0 : FX = FY ,
R − E[R] L
p → Z, lorsque m, n → ∞
Var(R)
2n1 n2 2n1 n2 (2n1 n2 − n1 − n2 )

où E[R] = 1 + et Var(R) = .
2n1 + n2 (n1 + n2 )2 (n1 + n2 − 1)
Cette approximation est assez bonne à partir m ≥ 10 et n ≥ 10.
Exemple. On sait que, pour k assez grand, une v.a. qui suit une loi χ2k est approximativement normale de
moyenne k et de variance 2k. On aimerait vérifier ce résultat pour un k modéré. On génère deux échantillons
indépendants de taille 8 issus respectivement d’une loi normale standard et d’une loi χ218
Exemple (suite). Voici les résultats d’une simulation :

La grande p-value confirme le résultat.
Normale -1.91 -1.22 -0.96 -0.72 0.14 0.82 1.45 1.86
28
Khi-deux 4.90 7.25 8.04 14.10 18.30 21.21 23.10 28.12
Exemple (suite)
3.2 Test de la médiane

Test de la médiane
On dispose de deux échantillons X1 , . . . , Xm et Y1 , . . . , Yn pour tester l’hypothèse nulle Ho : FX = FY versus
l’une des alternatives H1 : FX 6= FY , H1 : FX > FY ou H1 : FX < FY . Pour réaliser ce test, on crée des scores, s(ri )
à partir des rangs des N = n + m observations de l’échantillon mélangé. Ces scores sont définis par :

1 si ri > (N + 1)/2

s(ri ) =
0 si ri ≤ (N + 1)/2,

où ri est le rang de la ième observation.
Test de la médiane
La statistique de test, notée S, est la somme des scores de l’échantillon de référence. Il s’agit donc simplement
du nombre d’observations de cet échantillon qui sont supérieures à la médiane. Si X est cet échantillon de
référence, on a
N
X
S= ξi s(ri ),
i=1
où ξi = 1 si ri est le rang d’une observation provenant de X, et 0 sinon. On a alors

N N h i2
mX mn X
E[S] = s(ri ), et Var(S) = s(ri ) − s .
N i=1 N (N − 1) i=1
29
Test de la médiane
La probabilité critique asymptotique, est obtenue grâce au théorème central limite :
S − E[S] L
p −−−−→ Z.
Var(S) n→∞
Notons que S suit une loi hypergéométrique, et par conséquent il est possible d’obtenir la valeur exacte de la
Hypothèse alternative Région critique p-value
0
H1 : FX < FY sobs. > c (a) P{S > sobs. }
probabilité critique.
H1 : FX > FY sobs. < c0 (b) P{S < sobs. }
H1 : FX 6= FY sobs. < c ou sobs. > c0 2 × min{(a), (b)}
Exemple. Le responsable de production d’une petite entreprise pense que la diffusion de musique douce pendant
les heures de travail réduirait le nombre de d’articles non conformes produits. Un groupe d’ouvriers possédants
des compétences identiques est sélectionné et 5 d’entre eux sont choisis hasard et affectés à la chaîne de pro-
duction avec musique alors que quatre autres sont choisis au hasard et affectés à la chaîne de production sans
musique. Les nombre d’articles défectueux produits par les neuf ouvriers durant une matinée de travail sont :
Échantillon 1 : Sans musique Échantillon 2 : Avec musique

3, 4, 9, 10 1, 2, 5, 7, 8
Code R pour le test de la médiane

library("agricolae",lib.loc="/Library/...) Grp1<- c(3, 4, 9, 10) Grp2<- c( 1, 2, 5, 7, 8) Grp12<- c(Grp1,Grp2)
trt<- c(1,1,1,1,2,2,2,2,2) Median.test(Grp12,trt,simulate.p.value = FALSE, group = FALSE)
Résultat du test de la médiane
30
3.3 Mann-Whitney et Somme des Rangs de Wilcoxon

Le test de Mann-Whitney
On mélange les deux échantillons X1 , . . . , Xm et Y1 , . . . , Yn puis on ordonne le nouvel échantillon. Si l’hypo-
thèse nulle Ho : FX = FY est vraie, on devrait observer une alternance assez régulière des valeurs de X avec les
valeurs de Y . L’apparition d’une zone de concentration des valeurs de X est un constat défavorable à H0 .
Exemple (Exemples de mélanges d’échantillons). (1) On constate que les valeurs de X occupent plutôt les
rangs extrêmes dans le mélange. On peut soupçonner que la distribution de X est plus étalée que celle de
Y. Les deux v. a. pourraient avoir un même centre, mais la variance de Y serait plus petite que la variance
de X.
Exemples de mélanges d’échantillons
31
(2) Dans ce mélange, on constate que les rangs des observations de X sont plutôt faibles. Cela laisse croire
que la v. a. X est stochastiquement inférieure à Y .
(3) Dans ce cas les observations de X occupent en majorité des rangs élevés dans le mélange. Cela suggère
la v. a. X est stochastiquement supérieure à Y .
Le test de Mann-Whitney est simplement le nombre de fois où les observations de X dépassent les observa-
tions de Y :
m X
X n
UX = 1LI{xi >yj } .
i=1 j=1
Calcul de U pour les exemples ci-dessus :

(1) U = 0 + 0 + 0 + 1 + 5 + 5 + 5 = 16
(2) U = 0 + 0 + 0 + 1 + 1 + 1 + 1 = 4
(3) U = 3 + 5 + 5 + 5 + 5 + 5 + 5 = 33
Les faibles et les fortes valeurs de la statistique UX suggèrent un décalage d’une loi par rapport à l’autre.
Lorsque les centres des deux lois sont voisins, et si l’hypothèse H0 est vraie, alors la valeur de U est voisine de
m(m + 1)
.
2
Notons WX (resp. WY ) la somme des rangs des observations de X (resp. de Y ) dans l’échantillon mélangé.
On a les relations suivantes :
m(m + 1) n(n + 1)
UX = WX − , et UY = WY − .
2 2
Démonstration. Notons X(1) , . . . , X(m) les statistiques d’ordre de l’échantillon X1 , . . . , Xm et, pour i1 < i2 <
. . . < im , Xi1 , . . . , Xim les rangs de l’échantillon X dans l’échantillon mélangé X1 , . . . , Xm , Y1 , . . . , Yn . Il y a
i1 − 1 variables Y qui sont inférieures à Xi1 et i2 − 2 variables Y qui sont inférieures à Xi2 , et d’une manière
générale, il y a ij − j variables Y qui sont inférieures à Xij . Ainsi, on a
m(m + 1)
UX = (i1 − 1) + (i2 − 2) + . . . + (im − m) = WX − .
2
Remarque 8. Le test de Mann-Whitney est bien dapté pour détecter des situations où fX (x) = fY (x + θ), ∀x ∈
∈ R. Il est: plutôt
R, θRemarque moins performant
La statistique pour tester
de Mann-Whitney est notée 6= pour
fX (x)W ∀x ∈ R lorsque les moyennes sont très
fY (x),R.
proches.
Le test de Wilcoxon
Comme pour la statistique de Mann-Whitney, on mélange les deux échantillon, on les ordonne puis on calcule
la somme des rangs des X. Cette somme est la statistique de Wilcoxon, on notera WX . La loi de W est bien
connue sous l’hypothèse H0 : FX = FY . En effet, l’échantillon mélangé peut-être ordonné de (N = m + n)! façons,
32
Figure 3.1 – Moyennes voisines mais très différents Écart-types
m
le nombre de façons de placer les xi est égal à CN et puisque tous les arrangements sont équiprobables, on a :
kw
P{WX = w} = m , où kw est le nombre d’arrangements des xi dont la somme est w.
CN
Pour les faibles valeurs de m et n, ce calcul est faisable et des tables de la loi de WX sont disponibles. Pour
les grandes valeurs de m et n, le théorème central limite permet de faire des approximations.
Notons ξi la v. a. qui vaut 1 si une valeur de X est au ième rang, et 0 sinon. Les ξi sont de même loi et on
a alors,
N N
hX i X m N (N + 1) m(N + 1)
E[WX ] = E i ξi = E[ξ1 ] i= = .
i=1 i=1
N 2 2
mn(N + 1)
Par un calcul similaire, on obtient : Var(WX ) = .
12
m(N +1)
WX − 2 L
Ainsi, on a : q −−−−−→ N (0, 1)
mn(N +1) m,n→∞
12
Relation entre U et W
m(m + 1)
Nous avons déjà vu que UX = WX − et par conséquent le test de Mann-Whitney est équivalent
2
au test de somme des rangs de Wilcoxon. D’autre part, puisque WX + WY = N (N2+1) est une constante, une
grande valeur de WX correspond à une petite valeur de WY et vice-versa. Ainsi pour tester H0 : FX = FY contre
H1 : FX 6= FY , on rejette H0 si la valeur de W = min(WX , WY ) est supérieure au seuil critique.
Exemple. On cherche à vérifier l’efficacité d’un programme d’aide à l’apprentissage pour les étudiants en
première année. On a choisit au hasard 10 étudiants parmi ceux ayant suivi le programme et 10 parmi les
autres. Les moyennes générales de ces étudiants sont dans le tableau ci-dessous :
Programme Moyenne Générales sur 4

Oui 3.98 3.45 3.66 3.78 3.90 4.00 3.12 3.45 3.97 3.78
Non 3.42 2.56 2.00 3.19 3.00 3.56 4.00 2.78 3.44 3.56
33
3.4 Le test de K-S pour deux échantillons indépendants

Le test de K-S pour 2 échantillons indépendants
La statistique de Kolmogorov-Smirnov est un autre test qui, utilisé dans le cas d’un seul échantillon, s’adapte
de manière naturelle au cas de deux échantillons indépendants. Avec les notations du paragraphe précédent,
X(1) , . . . , X(m) et Y(1) , . . . , Y(n) désignent les statistiques d’ordre alors que FX ,m et FY ,n sont les fonctions de
répartition empiriques :




0 si x < X(1)

k

FX ,m (x) = si X(k) ≤ x < X(k+1) pour 1 ≤ k ≤ m − 1.


 m

1 si x ≥ X(m)

La fonction FY ,n est définie de la même manière.
3.4.1 Le test de K-S pour 2 échantillons indépendants
Le test de K-S pour 2 échantillons indépendants

Pour le mélange ordonné des deux échantillons, FX ,m (x) (resp. FY ,n (x)) est la proportion des X (resp.
Y ) qui ne dépassent pas x. Sous l’hypothèse nulle H0 : FX ,m (x) = FY ,n (x), ∀x, les deux proportions sont
approximativement égales. On rejette alors H0 pour les grandes valeurs de
Dn,m = max |FX ,m (x) − FY ,n (x)|.

x
La statistique Dm,n est indépendante de la loi commune de X et Y . Des tables pour la loi de Dm,n pour les
petites valeurs de m et n sont disponibles.
Remarque 9. Théoriquement, les égalités des observations sont de probabilité nulle. Pour le calcul de Dm,n
les observations égales sont écartées.
Le test de K-S est évidemment plus performant que le runs.test.
On a constaté que le test de K-S est très conservateur dans le cas de lois discrètes.
Exemple. Considérons la situation de l’exemple précédent. Voici le résultat du test de Kolmogorov-Smirnov :
La grande p-value confirme l’hypothèse H0 : “La loi de χ2k est approximativement une loi Normale pour k
assez grand”.
34

CH1 2 3 A19 PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

CH1 2 3 A19 PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Statistiques Non-Paramétriques

Structure mathématique d’une expérience aléatoire

La fonction FX : R −→ [0, 1] définie par

FX (x) = PX (] − ∞, x]) = P{X ≤ x}

s’appelle la fonction de répartition (f.r.) de X.

Proposition 1. La loi de X est parfaitement déterminée par la détermination de sa f.r. FX .

Proposition 2. La f.r. FX possède les propriétés suivantes :

1. Croissante et continue à droite,

2. lim FX (x) = 0 et lim FX (x) = 1.

Proposition 3. La loi de X est parfaitement déterminée par la détermination de sa f.d.p. fX , et on a

Remarque 1. La f.d.p de X possède le propriété suivantes :

1. Pour tout x ∈ R, fX (x) ≥ 0,

Estimation des paramètres

Il y a en fait deux types d’erreur :

1. L’erreur de type 1 qui consiste à rejeter H0 alors qu’elle est vraie, et

2. l’erreur de type 2 qui consiste à accepter H0 alors qu’elle est fausse.

Rejeter H0 au niveau α ⇐⇒ α > p-value.

Tests paramétriques et non paramétriques

Tests pour un seul échantillon

2.1 Tests sur la médiane

2.1.1 Test de signe pour la médiane

Test de signe pour la médiane

mF = inf{x : F (x) ≥ 0.5}.

Proposition 4. Si F est strictement croissante, alors F est continue en mF et on a F (mF ) = 0.5.

Considérons les hypothèses H0 : mF = θ0 versus H0 : mF < θ0 , où θ0 est un réel donné.

2.1.2 Test des rangs signés de Wilcoxon

Test des rangs signés de Wilcoxon

Test des rangs signés de Wilcoxon

Test des rangs signés de Wilcoxon

Test des rangs signés de Wilcoxon

Code du test dans R

Résultat du test par R

Exemple : application à un échantillon apparié

Code du test dans R

Résultat du test par R

2.1.3 Le test de McNemar

(1) A−→A ; (2) A−→B ; (3) B−→B ; (4) A−→A.

Les exemples d’applications sont évidemment nombreux :

On a n+ = 8 et n− = 0, d’où T = 8. On cherche à tester H0 :”L’effectif d’élèves ayant la moyenne ou plus ne

2.2 Tests d’adéquation

2.2.1 Tests de K-S, A-D et C-vM

Tests de K-S, A-D et C-vM

Définition 1. Soit F une fonction de répartition. On définit sa fonction inverse F −1 par : ∀y ∈

Remarque 5. - ∀x ∈ R, F −1 (F (x)) = inf{x0 : F (x0 ) ≥ F (x)} = inf{x0 : x0 ≥ x} = x

Dn+ = sup(Fn (x) − F (x)), et Dn− = sup(F (x) − Fn (x)),

sont dites les statistiques unilatérales de Kolmogorov-Smirnov. On a alors : Dn = max(Dn+ , Dn− ).

Théorème 3. Les loi de Dn , Dn+ et Dn− ne dépendent pas de la f.r. F .

Théorème 5 (Kolmogorov, 1933). Si F est une f.r. continue, alors

Pour le comportement asymptotique en loi de Dn+ , on a le résultat suivant

De ce théorème découle le corollaire important suivant,

Corollaire 1. Dans les mêmes conditions que le théorème précédent, on

Code du KS-Test dans R

One-sample Kolmogorov-Smirnov test data : SQX2

2.2.2 Le test de Shapiro-Wilk

Lemme 1. Lorsque la loi des Yi est symétrique, 10 Σ−1 α = 0, et on a

Ainsi, ∀1 ≤ i, j ≤ n, on a : αi = −αn+1−i et σij = σ(n+1−i)(n+1−j) . Cette dernière propriété est également

10 Σ−1 X(.) α0 Σ−1 X(.)

> nortest :: ad.test(revenu)

> nortest :: cvm.test(revenu)

2.3 Test de Khi-deux

On souhaite tester l’hypothèse H0 : p = π 0 contre l’alternative H1 : p 6= π 0 , où p = (p1 , . . . , pr )0 et

Proposition 5. La v.a. Nn = (N1n , . . . , Nrn )0 suit une loi multinomiale : ∀n1 , . . . , nr ∈ N,

Proposition 6. Avec les notations précédentes, on