Methode Statistique Pour L'ingénieur

ENSIMAG 2
me
anne
METHODES STATISTIQUES
POUR LINGENIEUR
Olivier Gaudoin
0 20 40 60 80 100
0
5
0
1
0
0
1
5
0
Mthodes statistiques pour lingnieur 3
Table des matires 3
Chapitre 1 : Introduction 7
1.1. Utilit des mthodes statistiques pour lingnieur ...................................................................7
1.2. Statistique et probabilits ...........................................................................................................8
1.3. Plan du cours ...............................................................................................................................9
Chapitre 2 : Statistique descriptive 11
2.1. Population, individus et variables............................................................................................11
2.2. Reprsentations graphiques .....................................................................................................12
2.2.1. Variables discrtes................................................................................................................12
2.2.1.1. Variables qualitatives .....................................................................................................12
2.2.1.2. Variables quantitatives ...................................................................................................14
2.2.1.3. Choix dun modle probabiliste discret .........................................................................14
2.2.2. Variables continues ..............................................................................................................15
2.2.2.1. Histogramme et polygone des frquences......................................................................16
2.2.2.2. Fonction de rpartition empirique..................................................................................20
2.2.2.3. Les graphes de probabilits............................................................................................21
2.3. Indicateurs statistiques .............................................................................................................25
2.3.1. Indicateurs de localisation ou de tendance centrale .............................................................25
2.3.1.1. La moyenne empirique...................................................................................................25
2.3.1.2. Les valeurs extrmes......................................................................................................25
2.3.1.3. La mdiane empirique....................................................................................................26
2.3.1.4. Caractrisation des indicateurs de localisation..............................................................26
2.3.2. Indicateurs de dispersion ou de variabilit ...........................................................................27
2.3.2.1. Variance et cart-type empiriques ..................................................................................28
2.3.2.2. Ltendue........................................................................................................................29
2.3.2.3. Les quantiles empiriques................................................................................................29
2.3.3. Indicateurs statistiques pour des donnes groupes .............................................................30
Chapitre 3. Estimation paramtrique 31
3.1. Introduction...............................................................................................................................31
3.2. Principes gnraux de lestimation..........................................................................................31
3.2.1. Dfinition et qualit dun estimateur....................................................................................31
3.2.2. Fonction de vraisemblance, efficacit dun estimateur ........................................................33
3.3. Mthodes destimation..............................................................................................................35
3.3.1. La mthode des moments .....................................................................................................35
3.3.1.1. Estimation dune esprance ...........................................................................................35
3.3.1.2. Estimation dune variance..............................................................................................36
Table des matires
4 Mthodes statistiques pour lingnieur
3.3.1.3. Exemples ........................................................................................................................37
Exemple 1 : loi normale ..............................................................................................................37
Exemple 2 : loi exponentielle......................................................................................................37
3.3.2. La mthode du maximum de vraisemblance.........................................................................37
3.3.2.1. Dfinition .......................................................................................................................37
3.3.2.2. Exemples ........................................................................................................................39
Exemple 1 : loi de Poisson..........................................................................................................39
Exemple 2 : loi exponentielle......................................................................................................39
Exemple 3 : loi normale ..............................................................................................................39
3.4. Intervalles de confiance.............................................................................................................41
3.4.1. Dfinition..............................................................................................................................41
3.4.2. Intervalles de confiance pour les paramtres de la loi normale............................................42
3.4.2.1. Intervalle de confiance pour la moyenne .......................................................................42
3.4.2.2. Intervalle de confiance pour la variance ........................................................................44
3.4.3. Estimation et intervalle de confiance pour une proportion...................................................45
3.4.3.1. Estimation ponctuelle.....................................................................................................45
3.4.3.2. Intervalle de confiance ...................................................................................................46
Chapitre 4 : Tests dhypothses 51
4.1. Introduction : le problme de dcision....................................................................................51
4.2. Tests paramtriques sur un chantillon..................................................................................53
4.2.1. Formalisation du problme ...................................................................................................53
4.2.1.1. Tests dhypothses simples ............................................................................................53
4.2.1.2. Tests dhypothses composites ......................................................................................54
4.2.2. Exemple introductif : tests sur la moyenne dune loi normale .............................................54
4.2.2.1. Modlisation...................................................................................................................54
4.2.2.2. Premire ide..................................................................................................................55
4.2.2.3. Deuxime ide................................................................................................................56
4.2.2.4. Troisime ide................................................................................................................56
4.2.2.5. Exemple..........................................................................................................................57
4.2.2.6. Remarques......................................................................................................................58
4.2.2.7. Le test de Student ...........................................................................................................59
4.2.3. Lien entre tests dhypothses et intervalles de confiance.....................................................60
4.2.4. Comment construire un test dhypothses............................................................................61
4.2.5. Tests sur la variance dune loi normale................................................................................61
4.2.6. Tests sur une proportion .......................................................................................................63
4.3. Tests paramtriques sur deux chantillons.............................................................................65
4.3.1. Comparaison de deux chantillons gaussiens indpendants.................................................65
4.3.1.1. Test de Fisher de comparaison des variances.................................................................66
4.3.1.2. Test de Student de comparaison des moyennes .............................................................68
4.3.2. Comparaison de deux proportions ........................................................................................71
4.3.3. Comparaison dchantillons gaussiens apparis...................................................................73
4.4. Quelques tests non paramtriques...........................................................................................75
4.4.1. Tests dadquation pour un chantillon................................................................................75
4.4.1.1. Le test du
2
sur les probabilits dvnements ..........................................................75
4.4.1.2. Le test du
2
dadquation une famille de lois de probabilit..................................77
4.4.1.3. Les tests bass sur la fonction de rpartition empirique ................................................79
4.4.2. Tests non paramtriques de comparaison de deux chantillons...........................................80
4.4.2.1. Test de Kolmogorov-Smirnov........................................................................................80
4.4.2.2. Test de Wilcoxon-Mann-Whitney..................................................................................81
Chapitre 5 : La rgression linaire 85
5.1. Introduction...............................................................................................................................85
5.2. Le modle de rgression linaire..............................................................................................85
5.3. Estimation des paramtres : la mthode des moindres carrs..............................................87
5.4. Intervalles de confiance et tests dhypothses dans le modle linaire gaussien.................92
Annexe A : Rappels de probabilits pour la statistique 99
A.1. Variables alatoires relles ......................................................................................................99
A.1.1. Loi de probabilit dune variable alatoire..........................................................................99
A.1.2. Variables alatoires discrtes et continues ........................................................................100
A.1.3. Moments dune variable alatoire relle ...........................................................................101
A.2. Vecteurs alatoires rels ........................................................................................................102
A.2.1. Loi de probabilit dun vecteur alatoire...........................................................................102
A.2.2. Esprance et matrice de covariance dun vecteur alatoire...............................................102
A.3. Convergences et applications ................................................................................................103
A.4. Quelques rsultats sur quelques lois de probabilit usuelles .............................................105
A.4.1. Loi binomiale.....................................................................................................................105
A.4.2. Loi gomtrique.................................................................................................................105
A.4.3. Loi de Poisson....................................................................................................................105
A.4.4. Loi exponentielle ...............................................................................................................106
A.4.5. Loi gamma et loi du khi-2..................................................................................................106
A.4.6. Loi normale........................................................................................................................106
Annexe B : Tables de lois de probabilits usuelles 108
1.1. Utilit des mthodes statistiques pour lingnieur
La statistique est lensemble des mthodes et techniques utilises dans le but dextraire de
linformation de donnes . Ces donnes peuvent tre issues :
de lobservation de phnomnes naturels (mtorologie,)
de rsultats dexpriences scientifiques (mdecine, chimie,)
denqutes socio-conomiques
etc
Dans la plupart des cas, les donnes sont entaches dincertitudes et prsentent des variations pour
plusieurs raisons :
le rsultat des expriences effectues nest pas prvisible lavance avec certitude
toute mesure est entache derreur
une enqute est faite sur quelques individus et on doit extrapoler les conclusions de ltude
toute une population
etc
Il y a donc intervention du hasard et des probabilits. Lobjectif essentiel de la statistique est de ma-
triser au mieux cette incertitude pour extraire des informations utiles des donnes, via lanalyse des
variations dans les observations.
Les mthodes statistiques se rpartissent en deux classes :
la statistique descriptive (ou statistique exploratoire ou analyse des donnes) a pour but de
rsumer linformation contenue dans les donnes de faon synthtique et efficace. Elle uti-
lise pour cela des reprsentations de donnes sous forme de graphiques, de tableaux et
dindicateurs numriques. Elle permet de dgager les caractristiques essentielles du phno-
mne tudi et de suggrer des hypothses pour une tude ultrieure plus sophistique. Les
probabilits nont ici quun rle mineur.
la statistique infrentielle a pour but de faire des prvisions et de prendre des dcisions au
vu des observations. En gnral, il faut pour cela proposer des modles probabilistes du
comportement du phnomne alatoire tudi et savoir grer les risques derreurs. Les proba-
bilits jouent ici un rle fondamental.
Les mthodes statistiques sont utilises dans de trs nombreux domaines. Citons quelques exemples :
ingnierie : contrle de qualit des procds de fabrication, sret de fonctionnement (fiabili-
t, scurit,)
mdecine : exprimentation de nouveaux traitements ou mdicaments
conomie : prvisions conomtriques, tudes quantitatives de marchs
prvisions de tous ordres : mtorologiques, dmographiques, sociologiques,
politique : sondages dopinion
Chapitre 1 : Introduction
biologie : volution des espces, caractrisation des populations naturelles
physique : thorie cintique des gaz, mouvements des particules
agriculture : rendement des cultures, exprimentation de nouvelles espces,
etc
On sintressera ici particulirement aux applications de la statistique linformatique :
qualit et sret de fonctionnement des systmes informatiques
valuation des performances des systmes informatiques
valuation et prvision du trafic sur les rseaux
dbruitage dimages
etc
Dautre part, linformatique est souvent dfinie comme la science et la technique du traitement des
donnes. Lanalogie avec la dfinition de la statistique est frappante.
Enfin, tout ingnieur est amen prendre des dcisions au vu de certaines informations, dans des
contextes o de nombreuses incertitudes demeurent. Il importe donc quun ingnieur soit form aux
techniques de gestion du hasard et de traitement de donnes exprimentales.
1.2. Statistique et probabilits
La statistique et les probabilits sont les deux aspects complmentaires de ltude des phnomnes
alatoires. Ils sont cependant de natures bien diffrentes.
Les probabilits peuvent tre envisages comme une branche des mathmatiques pures, base sur la
thorie de la mesure, abstraite et compltement dconnecte de la ralit.
Les probabilits appliques proposent des modles probabilistes du comportement de phnomnes
alatoires concrets. On peut alors, pralablement toute exprience, faire des prvisions sur ce qui
va se produire.
Par exemple, il est usuel de modliser la dure de bon fonctionnement dun systme par une variable
alatoire X de loi exponentielle de paramtre . Ayant adopt ce modle, on dira que la probabilit
que le systme ne soit pas encore tomb en panne la date t est
t
e t X P

> ) ( . On prvoira aussi
que si n systmes identiques et indpendants sont mis en route en mme temps, en moyenne
) 1 (
t
e n

dentre eux seront tombs en panne la date t (car le nombre dappareils en panne entre
0 et t est alors une variable alatoire de loi binomiale ) 1 , (
t
e n B

, desprance ) 1 (
t
e n

).
Dans la pratique, lutilisateur dun tel systme est trs intress par ces rsultats. Il souhaite videm-
ment avoir une valuation de la dure de bon fonctionnement de ce systme, de la probabilit quil
fonctionne correctement pendant plus dun mois, un an, etc Mais si lon veut utiliser les rsultats
thoriques noncs plus haut, il faut dune part pouvoir sassurer que la dure de vie de ce systme est
bien une variable alatoire de loi exponentielle, et, dautre part, pouvoir calculer dune manire ou
dune autre la valeur du paramtre . Cest la statistique qui va permettre de rsoudre ces problmes.
Exemple : Dans le but dtudier la densit du trafic sur internet, on a mesur les dures de transfert, en
millisecondes, dun mme message entre deux sites, 10 moments diffrents dune mme journe :
91.6 35.7 251.3 24.3 5.4 67.3 170.9 9.5 118.4 57.1
On souhaite connatre la dure moyenne de transfert, la probabilit quun transfert se fasse en moins
de 10 ms ou en plus de 200 ms, etc
Notons
n
x x ,...,
1
) 10 ( n ces observations. A cause des variations de densit du trafic sur internet,
la dure de transfert dun message nest pas prvisible avec certitude lavance. On va donc consid-
rer que
n
x x ,...,
1
sont les ralisations de variables alatoires
n
X X ,...,
1
. Puisque le message est tou-
jours le mme, il est naturel de supposer que les
i
X sont de mme loi. Si les transferts se sont faits
indpendamment les uns des autres, on pourra supposer que les
i
X sont des variables alatoires ind-
pendantes. On peut alors se poser les questions suivantes :
Au vu de ces observations, est-il raisonnable de supposer que la dure de transfert dun mes-
sage est une variable alatoire de loi exponentielle ?
Si non, quelle autre loi serait plus approprie ?
Comment proposer une valeur (ou un ensemble de valeurs) vraisemblable pour les paramtres
de cette loi ?
Que peut-on garantir aux usagers dinternet sur la dure de transfert des messages ? Sur un
paquet de 100 messages, combien seront transfrs en moins de 50 ms ?
Notons que, pour rpondre ces questions, on doit prendre des dcisions : dcider si la loi est expo-
nentielle, dcider si la valeur du paramtre est dans tel intervalle, dcider quun objectif de densit de
trafic est bien atteint. A chaque fois, il est possible que lon se trompe en prenant ces dcisions. Donc,
toute rponse statistique, il faudra associer le degr de confiance que lon peut accorder cette
rponse.
Pour rsumer, la dmarche probabiliste suppose que la nature du hasard est connue. Cela signifie que
lon adopte un modle probabiliste particulier (ici la loi exponentielle), qui permettra deffectuer des
prvisions sur les observations futures. Dans la pratique, la nature du hasard est inconnue. La statisti-
que va, au vu des observations, formuler des hypothses sur la nature du phnomne alatoire tudi.
Matriser au mieux cette incertitude permettra de traiter les donnes disponibles. Probabilits et sta-
tistiques agissent donc en aller-retour dans le traitement mathmatique des phnomnes alatoires.
1.3. Plan du cours
Ce cours a pour but de prsenter les principales mthodes statistiques utilises par les ingnieurs. Ces
mthodes seront toujours illustres par des problmes concrets, issus de linformatique, la mdecine,
le contrle de qualit, etc Il ne sagit pas de donner un catalogue de recettes. Les mthodes statisti-
ques seront la plupart du temps justifies mathmatiquement, ce qui permettra dviter un certain
nombre derreurs dinterprtation des rsultats, frquentes dans la pratique.
Toutes les mthodes dcrites ici peuvent tre mises en uvre laide du logiciel S+, quelles soient
dj prprogrammes ou pas. En gnral, on associera chaque mthode la syntaxe et les sorties (ta-
bleaux, graphiques) correspondantes de S+.
Le chapitre 2 prsente les techniques de base en statistique descriptive, reprsentations graphiques et
indicateurs statistiques. Le chapitre 3 est consacr aux problmes destimation, ponctuelle et par in-
tervalles de confiance. Le chapitre 4 traite des tests dhypothses, tests paramtriques et non param-
triques, sur un ou deux chantillons. Le dernier chapitre est consacr une des mthodes statistiques
les plus utilises, la rgression linaire. Enfin, des annexes donnent quelques rappels de probabilits
utiles en statistique, ainsi que des tables des lois de probabilit usuelles.
La statistique descriptive a pour but de rsumer linformation contenue dans les donnes de faon
en dgager les caractristiques essentielles sous une forme simple et intelligible. Les deux princi-
paux outils de la statistique descriptive sont les reprsentations graphiques et les indicateurs statis-
tiques.
2.1. Population, individus et variables
Les donnes dont nous disposons sont des mesures faites sur des individus (ou units statistiques)
issus dune population. On sintresse une ou plusieurs particularits des individus appeles varia-
bles ou caractres. Lensemble des individus constitue lchantillon tudi.
Exemple : si lchantillon est un groupe de TD lENSIMAG,
un individu est un tudiant
la population peut tre lensemble des tudiants de lENSIMAG, des coles dingnieur, des
habitants de Grenoble, etc
la variable tudie peut tre la taille, la filire choisie, la moyenne danne, la couleur des
yeux,
Si lchantillon est constitu de tous les individus de la population, on dit que lon fait un recense-
ment. Il est extrmement rare que lon se trouve dans cette situation, essentiellement pour des raisons
de cot. Quand lchantillon nest quune partie de la population, on parle de sondage. Le principe
des sondages est dtendre lensemble de la population les enseignements tirs de ltude de
lchantillon. Pour que cela ait un sens, il faut que lchantillon soit reprsentatif de la population. Il
existe des mthodes pour y parvenir, dont nous ne parlerons pas ici.
Remarque : le mot variable dsigne la fois la grandeur que lon veut tudier (variable statistique)
et lobjet mathmatique qui la reprsente (variable alatoire).
Une variable statistique peut tre discrte ou continue, qualitative ou quantitative. Les mthodes de
reprsentation des donnes diffrent suivant la nature des variables tudies.
Dans ce chapitre, on ne sintresse quau cas o on ne mesure quune seule variable sur les individus.
On dit alors que lon fait de la statistique unidimensionnelle. Dans ce cas, les donnes sont sous la
forme de la srie des valeurs prises par la variable pour les n individus, notes
n
x x ,...,
1
. On suppose-
ra que ces donnes sont n ralisations indpendantes de la mme variable alatoire X
1
, ou, ce qui
revient au mme, les ralisations de n variables alatoires
n
X X ,...,
1
indpendantes et de mme loi
(cest la mme distinction quentre la dure de transfert dun message en gnral et la dure de trans-
fert du i
me
message). Le terme dchantillon dsignera la fois les sries
n
x x ,...,
1
et
n
X X ,...,
1
.

1

En toute rigueur, il faudrait dire que les donnes proviennent de la mme loi de probabilit et que X est une notation
pour une variable alatoire de cette loi.
Chapitre 2 : Statistique descriptive
Quand on mesure plusieurs variables sur les mmes individus, on dit que lon fait de la statistique
multidimensionnelle. Des donnes de ce type seront traites dans le chapitre consacr aux modles
linaires.
2.2. Reprsentations graphiques
2.2.1. Variables discrtes
Une variable discrte est une variable valeurs dans un ensemble fini ou dnombrable. Mais
lensemble des valeurs prises par cette variable dans un chantillon de taille n est forcment fini. Les
variables qui sexpriment par des nombres rels sont appeles variables quantitatives ou numriques
(ex : longueur, dure,). Les variables qui sexpriment par lappartenance une catgorie sont ap-
peles variables qualitatives (ex : couleur, catgorie socio-professionnelle, ).
2.2.1.1. Variables qualitatives
Si la variable est qualitative, on appelle modalits les valeurs possibles de cette variable. Lensemble
des modalits est not
m
e e E ,...,
1
.
Par exemple, si la variable est la couleur des yeux dun individu, lensemble des modalits est E =
{vert, bleu, brun, gris, noir }. Si on interroge n = 200 personnes, les donnes brutes se prsenteront
sous la forme dune suite du type : brun, vert, vert, bleu, ..., gris, vert. Cette suite nest pas lisible. La
meilleure manire de reprsenter ces donnes est dutiliser les frquences absolues et relatives.
Dfinition : On appelle frquence absolue de la modalit
i
e le nombre total
i
n dindividus de
lchantillon pour lesquels la variable a pris la modalit
i
e :

) ( 1
1
j
n
j
e i
x n
i
.
On appelle frquence relative de la modalit
i
e le pourcentage n n
i
/ dindividus de
lchantillon pour lesquels la variable a pris la modalit
i
e .
Dans lexemple, on obtient un tableau de ce type :
couleur des yeux vert bleu brun gris noir
frquences absolues 66 34 80 15 5
frquences relatives 33% 17% 40% 7.5% 2.5%
Tableau 2.1. : couleur des yeux dun chantillon de 200 personnes
De mme, dans le cas des rsultats dlection en France, les individus sont les n = 20 millions
dlecteurs et la variable est la personne ou la liste pour laquelle lindividu a vot. La suite des 20
millions de votes na aucun intrt. Le rsultat est exprim directement sous forme du tableau des
frquences relatives. Par exemple, le tableau 2.2. donne le rsultat du premier tour des lections lgi-
slatives de mai 1997 :
Listes Blancs
+ nuls
Ext.
Gauche
PC PS +
DvG
Verts DvD UDF RPR FN
% Voix 2.2 2.2 9.9 26.5 6.2 6.6 14.7 16.8 14.9
Tableau 2.2. : rsultat du premier tour des lections lgislatives de mai 1997
Les reprsentations graphiques correspondantes sont de deux types :
diagrammes en colonnes ou en btons : chaque modalit correspond un rectangle vertical
dont la hauteur est proportionnelle la frquence relative de cette modalit
diagrammes sectoriels ou camemberts : chaque modalit correspond un secteur de disque
dont laire (ou langle au centre) est proportionnelle la frquence relative de cette modalit
B+N ExtG PC PS+DvG Verts DvD UDF RPR FN
0
5
1
0
1
5
2
0
2
5
Figure 2.1. : lections lgislatives, diagramme en colonnes
B+N
ExtG
PC
PS+DvG
Verts
DvD
UDF
RPR
FN
Figure 2.2. : lections lgislatives, diagramme sectoriel
Les commandes S+ pour les diagrammes en colonnes et sectoriels sont barplot(x) et pie(x). Dans
lexemple des lections, les figures 2.1 et 2.2. sont obtenues laide des commandes :
> x<-c(2.2,2.2,9.9,26.5,6.2,6.6,14.7,16.8,14.9)
> partis<-c("B+N","ExtG","PC","PS+DvG","Verts","DvD","UDF","RPR","FN")
> barplot(x,names=partis,col=1:10)
> pie(x,names=partis,rotate=F,inner=1.5)
2.2.1.2. Variables quantitatives
Quand la variable est quantitative, on utilise les mmes reprsentations laide des frquences abso-
lues et relatives. La diffrence fondamentale entre les reprsentations pour des variables qualitatives
et quantitatives tient au fait quil existe un ordre naturel sur les modalits (qui sont des nombres rels)
pour les variables quantitatives, alors quaucun ordre nest prdfini pour les variables qualitatives.
Cest pourquoi les diagrammes en btons sont toujours utiliss (avec une seule couleur pour les b-
tons), mais pas les diagrammes sectoriels.
Par exemple, on a effectu une enqute auprs de 1000 couples en leur demandant notamment leur
nombre denfants. Le tableau des frquences et le diagramme en btons sont reprsents ci-dessous.
Nombre denfants 0 1 2 3 4 5 6 > 6
frquence absolue 235 183 285 139 88 67 3 0
frquence relative 23.5% 18.3% 28.5% 13.9% 8.8% 6.7% 3% 0
Tableau 2.3. : nombre denfants de 1000 couples
0 1 2 3 4 5 6
0
5
1
0
1
5
2
0
2
5
Figure 2.3. : nombre denfants de 1000 couples, diagramme en btons
2.2.1.3. Choix dun modle probabiliste discret
Les reprsentations graphiques effectues permettent de guider le statisticien dans le choix dun mo-
dle probabiliste adapt aux donnes. En effet, la frquence relative n n
i
/ , pourcentage
dobservation de la modalit
i
e dans lchantillon, est une estimation naturelle de la probabilit que
la variable prenne la modalit
i
e , ) (
i
e X P . Une loi de probabilit vraisemblable pour X est une loi
telle que le diagramme des ) (
i
e X P soit proche, en un certain sens, du diagramme en btons.
Par exemple, pour le nombre denfants par famille, une loi gomtrique est impossible car une varia-
ble alatoire de loi gomtrique ne peut pas prendre la valeur 0. Une loi binomiale est envisageable,
par exemple la loi ) , 6 ( p B ou la loi ) , 7 ( p B . Le problme est de savoir sil existe un paramtre p
dans [0,1] tel que le diagramme des ) ( i X P ait une allure proche de celle de la figure 2.3. Une loi
de Poisson est aussi possible a priori.
Pour pouvoir choisir un modle par cette mthode, il faudrait donc connatre au moins les formes des
diagrammes des probabilits lmentaires des lois binomiale et de Poisson. Ce nest pas simple du fait
de la complexit des expressions de ces probabilits. De plus, la forme de ces diagrammes peut chan-
ger assez sensiblement suivant la valeur des paramtres. Il est donc difficile de proposer un modle
probabiliste vraisemblable au seul vu dun diagramme en btons. On verra que cest beaucoup plus
facile quand la variable est continue.
Finalement, le diagramme en btons sert plus visualiser lallure gnrale de la distribution qu v-
ritablement aider choisir un modle probabiliste pertinent.
2.2.2. Variables continues
Quand la variable tudie est continue, les reprsentations du type diagramme en btons sont sans
intrt, car les donnes sont en gnral toutes distinctes, donc les frquences absolues sont toutes
gales 1.
On considrera ici deux types de reprsentations graphiques :
lhistogramme et le polygone des frquences qui lui est associ
la fonction de rpartition empirique, qui permet notamment de construire des graphes de
probabilits
Ces deux types de reprsentations ncessitent dordonner les donnes. Si lchantillon initial est not
n
x x ,...,
1
, lchantillon ordonn sera not
* *
1
,...,
n
x x .
Dans lexemple du trafic sur internet, lchantillon initial est :
91.6 35.7 251.3 24.3 5.4 67.3 170.9 9.5 118.4 57.1
et lchantillon ordonn est :
5.4 9.5 24.3 35.7 57.1 67.3 91.6 118.4 170.9 251.3
On a donc, par exemple,
1
x = 91.6 = dure de transfert du message n1
i
x x min
*
1
= 5.4 = plus petite des dures de transfert des 10 messages
Sous S+, lchantillon x est cr par la commande :
x<-c(91.6, 35.7, 251.3, 24.3, 5.4, 67.3, 170.9, 9.5, 118.4, 57.1)
La i
me
observation est donne par x[i].
Lchantillon ordonn est obtenu par la commande sort(x).
2.2.2.1. Histogramme et polygone des frquences
Le principe de cette reprsentation est de regrouper les observations proches . Pour cela, on se fixe
une borne infrieure de lchantillon
*
1
x a
o
< et une borne suprieure
*
n k
x a > . On partitionne
lintervalle ] , ]
k o
a a en k intervalles ] , ]
1 i i
a a

appels classes. La largeur de la classe i est
1

i i i
a a . Les classes ne sont pas forcment toutes de mme largeur.
On appelle effectif de la classe i le nombre dobservations appartenant cette classe :
n
j
j a a i
x n
i i
1
] , ]
) ( 1
1
.
La frquence (ou frquence relative) de la classe i est n n
i
/ .
Lhistogramme est la figure constitue des rectangles dont les bases sont les classes et dont les sur-
faces sont gales aux frquences de ces classes. Autrement dit, la hauteur du i
me
rectangle est
i
i
n
n
.
Notons F la fonction de rpartition de la variable alatoire relle observe X et f sa densit. La
proportion n n
i
/ dobservations dans la classe i est une estimation naturelle de la probabilit quune
observation appartienne cette classe : ( ) ) ( ) ( ] , ]
1 1

i i i i
a F a F a a X P . Or, la densit de X au
point x est [ ] ) ( ) (
1
lim
) ( ) (
0
x F dx x F
dx
x F x f
dx
+
.
Do, pour dx petit, ) ( ) ( ) ( x F dx x F dx x f + . En prenant
1
i
a x et
i
dx , on obtient
[ ]
i
i
i i
i
i
n
n
a F a F a f

) ( ) (
1
) (
1 1
.
Par consquent, lhistogramme fournit une approximation grossire de la densit des observa-
tions. Lallure de lhistogramme permettra donc de proposer des modles probabilistes vraisembla-
bles pour la loi de X .
A priori, on a toute libert pour le choix des classes : bornes infrieure et suprieure, nombre et lar-
geur, ce qui fait que plusieurs histogrammes peuvent tre dessins partir des mmes donnes, et
peuvent parfois avoir des allures assez diffrentes. Il est donc bon de suivre quelques rgles :
Il est recommand davoir entre 5 et 12 classes, jamais moins de 5 ni plus de 20. La rgle em-
pirique de Sturges prconise un nombre de classes gal 2 ln / ln 1 log 1
2
n n k + + , ce qui
donne par exemple 5 k pour 22 n , 6 k pour 45 23 n , etc
Le choix des bornes
o
a et
k
a nest pas normalis. Il doit tre fait de sorte que toutes les clas-
ses soient homognes, en largeur ou en effectif. Un choix frquent est
) ( 025 . 0
*
1
* *
1
x x x a
n o
et ) ( 025 . 0
*
1
* *
x x x a
n n k
+ .
En ce qui concerne la largeur des classes, le choix le plus frquent consiste prendre des clas-
ses de mme largeur. Dans ce cas, la hauteur des rectangles est proportionnelle leffectif
des classes. Mais il est en gnral plus intressant de choisir des classes de mme effectif.
Dans lexemple du trafic sur internet, 10 n donc on choisit 5 k classes. Il semble raisonnable de
prendre comme bornes
o
a = 0 et
5
a = 260. Dessinons dans un premier temps un histogramme 5
classes de mme largeur. Cette largeur est donc = 260/5 = 52. On obtient alors le tableau suivant :
classes ] , ]
1 i i
a a

]0, 52] ]52, 104] ]104, 156] ]156, 208] ]208, 260]
effectifs
i
n
4 3 1 1 1
frquences n n
i
/
40% 30% 10% 10% 10%
hauteurs
i i
n n /
7.7 10
-3
5.8 10
-3
1.9 10
-3
1.9 10
-3
1.9 10
-3
Tableau 2.4. : trafic sur internet, rpartition en classes de mme largeur
Lhistogramme correspondant est donn par la figure 2.4. Les commandes S+ permettant de cons-
truire cette figure sont :
> x<-c(91.6,35.7,251.3,24.3,5.4,67.3,170.9,9.5,118.4,57.1)
> abs<-c(0,26,78,130,182,234,275)
> ord<-c(0.0082,0.0077,0.0058,0.0019,0.0019,0.0019,0)
> hist(x,probability=T,breaks=seq(0,260,52),col=0,xlim=c(0,300),
ylim=c(0,0.009))
> lines(abs,ord,lwd=5)
0 50 100 150 200 250 300
0
.
0
0
.
0
0
2
0
.
0
0
4
0
.
0
0
6
0
.
0
0
8
Figure 2.4. : trafic sur internet, histogramme classes de mme largeur
et polygone des frquences
Le mode est le milieu de la classe correspondant au rectangle le plus haut (estimation du maximum de
la densit). Ici, le mode est 26.
Lhistogramme fournit bien une visualisation de la rpartition des donnes. Ici, le phnomne mar-
quant est la concentration des observations sur les petites valeurs et le fait que, plus la dure de trans-
fert grandit, moins il y a dobservations. Autrement dit, la densit de la variable alatoire reprsentant
la dure de transfert dun message est une fonction dcroissante.
Lhistogramme nest pas une approximation satisfaisante de la densit dans la mesure o cest une
fonction en escalier, alors que la densit est en gnral une fonction continue. Une meilleure ap-
proximation est le polygone des frquences, cest dire la ligne brise reliant les milieux des som-
mets des rectangles, et prolonge de part et dautre des bornes de lhistogramme de sorte que laire
sous le polygone soit gale 1 (comme une densit). Le polygone des frquences est reprsent en
gras dans la figure 2.4.
Avec lhistogramme, on estime quil y a 40% de chances que la dure de transfert dun message soit
infrieure 52 ms, 10% quelle soit suprieure 208 ms, etc Avec le polygone des frquences, on
peut calculer des valeurs analogues en des points qui ne sont pas forcement des bornes de classes.
Le choix de classes de mme largeur fait que certaines classes peuvent tre trs charges et dautres
pratiquement vides. Pour connatre la rpartition des observations dans les classes charges, on a en-
vie de scinder celles-ci. De mme, on peut regrouper des classes trop peu charges. A la limite, on
peut faire en sorte que toutes les classes aient le mme effectif. Dans ce cas, elles ne peuvent pas tre
de mme largeur.
Dans lexemple du trafic sur internet, on peut faire en sorte davoir 2 observations par classe. On d-
termine par exemple les limites des classes en prenant le milieu de deux observations ordonnes suc-
cessives. On obtient alors le tableau et lhistogramme 2.5.
classes ] , ]
1 i i
a a

]0, 17] ]17, 46] ]46, 79] ]79, 145] ]145, 260]
largeur
i
17 29 33 66 115
effectifs
i
n
2 2 2 2 2
frquences n n
i
/
20% 20% 20% 20% 20%
hauteurs
i i
n n /
11.8 10
-3
6.9 10
-3
6.1 10
-3
3.0 10
-3
1.7 10
-3
Tableau 2.5. : trafic sur internet, rpartition en classes de mme effectif
0 50 100 150 200 250 300
0
.
0
0
.
0
0
2
0
.
0
0
4
0
.
0
0
6
0
.
0
0
8
0
.
0
1
0
0
.
0
1
2
Figure 2.5. : trafic sur internet, histogramme classes de mme effectif
et polygone des frquences
On constate que cet histogramme dcrit plus finement la distribution que le prcdent. Cest toujours
le cas des histogrammes classes de mme effectif. Mais leur usage est moins rpandu que celui des
histogrammes classes de mme largeur, car ils sont moins faciles tracer.
On voit que des histogrammes distincts sur les mmes donnes peuvent tre sensiblement diffrents.
Donc il faudra se mfier des histogrammes si on veut estimer la densit des observations. On se
contentera de dire que lhistogramme et, mieux encore, le polygone des frquences, donnent une al-
lure gnrale de cette densit.
Par exemple ici, il est clair que la forme des deux histogrammes et polygones nest pas trs loigne
de la densit dune loi exponentielle (
x
e x f

) ( ). En revanche, ils ne ressemblent pas du tout la
densit dune loi normale (en forme de cloche). On en conclura quil est trs peu probable que la du-
re de transfert dun message soit de loi normale, et quil est possible, voire vraisemblable, quelle
soit de loi exponentielle. Ce jugement est pour linstant purement visuel. Il faudra laffiner par des
techniques quantitatives plus prcises.
Remarque 1 : Si au lieu des effectifs
i
n , on considre les effectifs cumuls
i
j
j i
n m
1
, on construit
un histogramme et un polygone des frquences cumules, qui fournissent une approximation de la
fonction de rpartition de la variable tudie.
Remarque 2 : Il est frquent quon ne dispose pas de lintgralit des donnes brutes, mais de donnes
dj groupes. Par exemple, pour mesurer linfluence dun certain type de grain sur la croissance des
poulets, on a mesur le poids de 1000 poulets nourris avec ce grain. Au lieu davoir le dtail des 1000
poids, les donnes sont directement sous forme deffectifs de classes, dans le tableau 2.6.
poids (en kg)
1.8-2.0 2.0-2.2 2.2-2.4 2.4-2.5 2.5-2.6 2.6-2.8 2.8-3.0 3.0-3.2
nombre de poulets
i
n
64 86 140 232 168 160 90 60
Tableau 2.6. : poids de poulets, rpartition en classes
Lhistogramme peut alors se faire directement de la mme manire que prcdemment, en remarquant
que les classes sont dtermines par les donnes et quelles ne sont pas toutes de mme largeur.
2.0 2.5 3.0
0
.
0
0
.
5
1
.
0
1
.
5
2
.
0
Figure 2.6. : poids de poulets, histogramme
La forme de cet histogramme nous amne envisager lhypothse que le poids des poulets est distri-
bu selon une loi normale.
2.2.2.2. Fonction de rpartition empirique
On a vu que le polygone des frquences cumules tait une approximation de la fonction de rparti-
tion des observations. La fonction de rpartition empirique en est une autre, de meilleure qualit.
Dfinition : La fonction de rpartition empirique (FdRE) associe un chantillon
n
x x ,...,
1
est la fonction dfinie par :

si
si
si
1
/
0
1
1
) (
] 1 , 0 [ :
*
*
1
*
*
1
1
<
<

n
i i
n
i
x x n
n
x x
x x x
x x
n i
n
x F x
R F
i
) (x F
n
est le pourcentage dobservations de lchantillon infrieures ou gales x.
La fonction de rpartition empirique est une fonction en escalier qui fait des sauts de hauteur n / 1 en
chaque point de lchantillon. Par exemple, la figure 2.7. reprsente la fonction de rpartition empiri-
que de lchantillon des dures de transfert. Les commandes S+ permettant de tracer cette fonction
pour cet exemple sont :
> x<-c(91.6,35.7,251.3,24.3,5.4,67.3,170.9,9.5,118.4,57.1)
> fdr<-seq(0.1,1,1/10)
> plot(sort(x),fdr,xlim=c(0,260),ylim=c(0,1.1),xlab="durees de transfert",
ylab="")
> abs<-c(0,sort(x),260)
> ord<-c(0,fdr)
> for (i in 1:11) lines(c(abs[i],abs[i+1]),c(ord[i],ord[i]))
durees de transfert
0 50 100 150 200 250
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Figure 2.7. : trafic sur internet, fonction de rpartition empirique
Il est clair que ) (x F
n
, pourcentage dobservations infrieures ou gales x , est une estimation de la
probabilit quune observation soit infrieure x , cest dire ) (x F . La qualit de cette estimation est
donne par le :
Thorme de Glivenko-Cantelli : 0 ) ( ) ( sup
n
n
x F x F
R x
p.s.
Cela signifie que la fonction de rpartition empirique converge uniformment et presque srement
vers la vraie fonction de rpartition de la variable tudie. Cest donc une approximation dexcellente
qualit de celle-ci.
2.2.2.3. Les graphes de probabilits
La fonction de rpartition empirique est trs utile en statistique. Intressons-nous ici uniquement son
utilisation pour dterminer un modle probabiliste acceptable pour les observations.
A priori, la premire ide est de tracer le graphe de la fonction de rpartition empirique et de dtermi-
ner si ce graphe ressemble celui de la fonction de rpartition dune loi connue. En fait, il est trs
difficile de procder ainsi car les fonctions de rpartition de toutes les lois de probabilit se ressem-
blent : vue dil, il ny a pas de grande diffrence entre les fonctions de rpartition des lois normale
et exponentielle.
Une seconde ide est alors dappliquer une transformation la fonction de rpartition empirique qui
permette de reconnatre visuellement une caractristique dune loi de probabilit. Un graphe de pro-
babilits est un nuage de points trac partir de la fonction de rpartition empirique, tel que les
points doivent tre approximativement aligns si les observations proviennent dune loi de probabilit
bien prcise.
Construisons les graphes de probabilits pour deux exemples simples, la loi exponentielle et la loi
normale.
* Graphe de probabilits pour la loi exponentielle
La fonction de rpartition de la loi exponentielle de paramtre est
x
e x F

1 ) ( . On a donc
( ) x x F ) ( 1 ln .
On sait que ) (x F
n
est une excellente approximation de ) (x F . Donc, si les observations proviennent
bien dune loi exponentielle, on aura pour tout x , ( ) x x F
n
) ( 1 ln . Par consquent, si lchan-
tillon est issu dune loi exponentielle, le graphe de la fonction ( ) ) ( 1 ln x F x
n
doit tre approxima-
tivement une droite de pente ngative et passant par lorigine. On considre cette fonction aux points
*
i
x x , pour lesquels n i x F
i n
/ ) (
*
.
Le graphe de probabilits pour la loi exponentielle est le nuage des points ( ) ) / 1 ln( ,
*
n i x
i
, pour
1 .. 1 n i (on ne prend pas en compte le cas n i car ) / 1 ln( n n ).
Si les points de ce nuage sont approximativement aligns sur une droite de pente ngative et passant
par lorigine, on pourra considrer que la loi exponentielle est un modle probabiliste vraisemblable
pour ces observations. Inversement, si ce nest pas le cas, il est probable que les observations ne sont
pas issues dune loi exponentielle.
La figure 2.8., construite partir du tableau 2.7., prsente le graphe de probabilits pour la loi expo-
nentielle, pour lexemple du trafic sur internet.
*
i
x 5.4 9.5 24.3 35.7 57.1 67.3 91.6 118.4 170.9
) / 1 ln( n i
- 0.105 - 0.223 - 0.357 - 0.511 - 0.693 - 0.916 - 1.204 - 1.609 - 2.303
Tableau 2.7. : trafic sur internet, tableau du graphe de probabilits pour la loi exponentielle
xi*
l
n
(
1
-
i
/
n
)
0 50 100 150
-
2
.
5
-
2
.
0
-
1
.
5
-
1
.
0
-
0
.
5
0
.
0
Figure 2.8. : trafic sur internet, graphe de probabilits pour la loi exponentielle
Les points semblent bien aligns sur une droite de pente ngative et passant par lorigine. Il est donc
vraisemblable que la dure de transfert dun message soit une variable alatoire de loi exponentielle.
Cette conclusion est cohrente avec celle des histogrammes.
Remarque : la droite en question a pour quation x y . Sa pente fournit donc une estimation du
paramtre . Pour dterminer cette pente, la mthode la plus usuelle est la mthode des moindres
carrs, qui sera tudie dans le chapitre consacr aux modles linaires. On obtient ici une pente de
lordre de 0.013.
* Graphe de probabilits pour la loi normale
Si X est de loi normale ) , (
2
m N , alors
m X
U

est de loi ) 1 , 0 ( N . Donc la fonction de rparti-
tion de la loi ) , (
2
m N peut scrire (
,
\
,
(
j
(
,
\
,
(
j

m x m x
U P x X P x F ) ( ) ( , o est la
fonction de rpartition de la loi normale centre-rduite.
Etant donn que est strictement croissante, elle est inversible.
On a alors ( )

m
x
m x
x F
1
) (
1
.
Par consquent, si lchantillon est issu dune loi normale, le graphe de la fonction ( ) ) (
1
x F x
n

doit tre approximativement une droite de pente positive et dordonne lorigine ngative.
Le graphe de probabilits pour la loi normale est le nuage des points ( ) ) / ( ,
1 *
n i x
i

, pour 1 .. 1 n i
(on ne prend pas en compte le cas n i car +
) 1 (
1
).
Les valeurs ) / (
1
n i
se calculent facilement laide de S+ grce la commande qnorm(x), ou sont

lire dans des tables de la loi normale (voir pages 110 et 111).
Si les points sont aligns sur une droite de pente positive et dordonne lorigine ngative, on
conclura que la loi normale est une loi vraisemblable pour les observations. La droite en question est
alors appele droite de Henry. Son quation permet dobtenir des estimations de m et .
Sous S+, la commande qqnorm(x) donne le graphe de probabilits pour la loi normale, moyennant
une permutation des abscisses et des ordonnes.
Pour lexemple du trafic sur internet, on obtient le tableau 2.8 et la figure 2.9.
*
i
x 5.4 9.5 24.3 35.7 57.1 67.3 91.6 118.4 170.9
( ) n i /
1
- 1.282 - 0.842 - 0.524 - 0.253 0 0.253 0.524 0.842 1.282

Tableau 2.8. : trafic sur internet, tableau du graphe de probabilits pour la loi normale
xi*
p
h
i
-
1
(
i
/
n
)
0 50 100 150
-
1
.
5
-
1
.
0
-
0
.
5
0
.
0
0
.
5
1
.
0
1
.
5
Figure 2.9. : trafic sur internet, graphe de probabilits pour la loi normale
Le graphe de probabilits semble plus proche dun logarithme que dune droite. On en conclura donc
que la loi normale nest pas un modle appropri pour ces donnes.
On constate ici le principal dfaut de la mthode : comment juger visuellement si des points sont plus
ou moins aligns ? La rponse est soumise la subjectivit de lutilisateur. Il est donc ncessaire
dutiliser des techniques objectives que nous tudierons ultrieurement : les tests dadquation.
* Principe gnral des graphes de probabilits
Le principe gnral des graphes de probabilits est de chercher une transformation de la fonction de
rpartition de la loi tester de la forme ( ) ) ( ) ( ) ( ) ( + x g x F h , o h et g sont des fonctions qui
ne dpendent pas du paramtre de la loi.
Le graphe de probabilits est alors le nuage des points ( ) ) / ( ), (
*
n i h x g
i
dont on souhaite quils soient
aligns. A chaque fois, il sagit de faire un changement dchelle en abscisse et en ordonne partir
du nuage ) / , (
*
n i x
i
, qui nest autre que le graphe de la fonction de rpartition empirique.
Il existe des papiers spciaux, dits papiers dAlan Plait, pour lesquels ce changement dchelle est
dj fait, et il ne reste plus qu reprsenter directement les points ) / , (
*
n i x
i
. Par exemple, on parle de
papier gausso-arithmtique pour la loi normale et de papier Weibull pour la loi de Weibull.
Remarque : Ce principe, appliqu ici la fonction de rpartition, peut sappliquer aussi dautres
caractristiques des lois de probabilit, comme par exemple les probabilits lmentaires ) ( x X P
pour les lois discrtes.
2.3. Indicateurs statistiques
Les reprsentations graphiques prsentes dans la section prcdente ne permettent quune analyse
visuelle de la rpartition des donnes. Pour des variables quantitatives, il est intressant de donner des
indicateurs numriques permettant de caractriser au mieux ces donnes. On donne en gnral deux
indicateurs : un indicateur de localisation et un indicateur de dispersion.
2.3.1. Indicateurs de localisation ou de tendance centrale
Le but est de donner un ordre de grandeur gnral des observations, un nombre unique qui rsume au
mieux les donnes. On pense immdiatement la moyenne des observations.
2.3.1.1. La moyenne empirique
La moyenne empirique de lchantillon est la moyenne arithmtique des observations, note
n
i
i n
x
n
x
1
1
. Son interprtation est vidente. La commande S+ correspondante est mean(x).
Pour lexemple du trafic sur internet,
10
x = 83.15, donc on dira que la dure moyenne de transfert
dun message est de 83.15 ms. Les reprsentations graphiques nous ont amens admettre que la du-
re de transfert dun message tait une variable alatoire de loi exponentielle. On rappelle que
lesprance de la loi ) exp( est / 1 . Daprs la loi des grands nombres, la moyenne empirique
converge presque srement vers lesprance de la loi. Il est donc logique de considrer quune valeur
vraisemblable de (ce quon appellera plus tard une estimation de ) est 1/
10
x = 0.012. Cette valeur
est cohrente avec la valeur trouve laide du graphe de probabilits, 0.013. On retrouvera ce prin-
cipe destimation plus tard, sous le nom de mthode des moments.
2.3.1.2. Les valeurs extrmes
La plus petite valeur
i
x x min
*
1
et la plus grande valeur
i n
x x max
*
dun chantillon sont vi-
demment des indications intressantes. Leur moyenne ) (
2
1
* *
1 n
x x + est un indicateur de localisation.
Sous S+, on peut utiliser les commandes min(x) et max(x).
Pour le trafic sur internet, ) (
2
1
* *
1 n
x x + = 128.35.
Problme : Les deux indicateurs que lon vient de dfinir sont trs sensibles aux valeurs extrmes. En
particulier, il arrive parfois quune srie statistique prsente des valeurs aberrantes, cest dire des
valeurs exagrment grandes ou petites par rapport aux autres valeurs de lchantillon. Par exemple,
ce serait le cas si une dure de transfert tait gale 0.01 ou 10 000. En gnral, la prsence dune
valeur aberrante est due une erreur de saisie ou une erreur dans lexprience ayant abouti cette
observation. Il faut alors lliminer avant deffectuer lanalyse statistique. Il existe des mthodes de
dtection des valeurs aberrantes, mais il est souvent difficile de dcider si une valeur est aberrante ou
pas. Aussi est-il important de disposer dindicateurs qui ne soient pas trop sensibles aux valeurs aber-
rantes. Or la moyenne est trs sensible : si une des observations est extrmement grande, elle va tirer
la moyenne vers le haut. La mdiane empirique est un indicateur de localisation construit pour tre
insensible aux valeurs aberrantes.
2.3.1.3. La mdiane empirique
La mdiane empirique de lchantillon, note
n
x
~
ou
2 / 1
~
x , est un rel qui partage lchantillon or-
donn en deux parties de mme effectif. La moiti des observations sont infrieures
n
x
~
et lautre
moiti lui sont suprieures. Il y a donc une chance sur deux pour quune observation soit infrieure
la mdiane, et videmment une chance sur deux pour quune observation soit suprieure la mdiane.
Si n est impair, la mdiane empirique est la valeur situe au centre de lchantillon ordonn :
*
2 / ) 1 (
~
+
n n
x x .
Si n est pair, nimporte quel nombre compris entre
*
2 / n
x et
*
1 ) 2 / ( + n
x vrifie la dfinition de la m-
diane. Par convention, on prend en gnral le milieu de cet intervalle : ) (
2
1
~ *
1 ) 2 / (
*
2 / +
+
n n n
x x x .
La commande S+ pour la mdiane empirique est median(x).
Lexpression de la mdiane montre bien que cest un indicateur qui nest pas sensible aux valeurs
aberrantes. Pour lillustrer, considrons les deux chantillons suivants :
1 3 5 8 10 et 1 3 5 8 10 000
La mdiane empirique est gale 5 pour les deux chantillons, alors que la moyenne empirique vaut
5.4 pour le premier chantillon et 2 003.4 pour le second. La moyenne est fortement influence par la
valeur aberrante 10 000 du deuxime chantillon, alors que la mdiane ne lest pas du tout.
Dans lexemple du trafic sur internet, 2 . 62 ) 3 . 67 1 . 57 (
2
1
~
10
+ x .
On constate que la mdiane est ici nettement infrieure la moyenne : la dure moyenne de transfert
est de 83.1 ms, et pourtant un message sur deux sera transfr en moins de 62.2 ms. Cette proprit est
caractristique des distributions non symtriques dites queues lourdes : un petit nombre de mes-
sages auront une dure de transfert nettement suprieure la majeure partie des autres. Cest ce quon
avait dj observ sur lhistogramme, et qui peut se remarquer directement sur les donnes.
Le mme phnomne se produit si la variable tudie est le salaire des franais. En 1999, le salaire net
mensuel moyen tait de 10 930 F, alors que le salaire net mensuel mdian tait de 8 875 F. Un fran-
ais sur deux touchait donc moins de 8 875 F par mois, mais un petit nombre de salaris gagnaient
beaucoup dargent, ce qui fait remonter la moyenne.
On voit donc que la connaissance simultane de la moyenne et de la mdiane peut tre riche densei-
gnements.
Quand la distribution est symtrique, moyenne et mdiane empiriques sont proches (pour une variable
alatoire de loi symtrique, lesprance et la mdiane thoriques sont gales).
2.3.1.4. Caractrisation des indicateurs de localisation
Un indicateur de localisation c est fait pour rsumer au mieux lui seul lensemble des observations.
Lerreur commise en rsumant lobservation
i
x par c peut tre quantifie par une distance ) , ( c x d
i
.
Lerreur moyenne commise sur tout lchantillon est
n
i
i
c x d
n
e
1
) , (
1
. Un bon indicateur de localisa-
tion doit minimiser cette erreur globale.
Si on choisit la distance euclidienne,

n
i
i
c x
n
e
1
) (
1
. La valeur de c qui minimise cette er-
reur est obtenue en annulant la drive de e par rapport c . On obtient
n
x c . La moyenne
empirique est donc la valeur qui rsume le mieux lchantillon au sens dit des moindres car-
rs .
Si on prend

n
i
i
c x
n
e
1
1
, on trouve
n
x c
~
.
Si on prend c x
n
e
i
n
i

sup
1
1
, on trouve ) (
2
1
* *
1 n
x x c + .
Il est donc justifi dutiliser ces 3 quantits comme indicateurs de localisation.
2.3.2. Indicateurs de dispersion ou de variabilit
Pour exprimer les caractristiques dun chantillon, il est ncessaire de complter les indicateurs de
localisation par des indicateurs de dispersion, qui mesureront la variabilit des donnes.
Par exemple, le tableau 2.9 donne les tempratures mensuelles moyennes, en degrs Celsius, New-
York et San Francisco, calcules sur une priode de 30 ans.
J F M A M J J A S O N D
New-York 0 1 5 12 17 22 25 24 20 14 8 2
San Francisco 9 11 12 13 14 16 17 17 18 16 13 9
Tableau 2.9. : tempratures mensuelles moyennes New-York et San Francisco
La temprature annuelle moyenne est de 12.5 New-York et de 13.7 San Francisco. En se basant
uniquement sur ces moyennes, on pourrait croire que les climats de ces deux villes sont similaires. Or
il est clair que la diffrence de temprature entre lhiver et lt est beaucoup plus forte New-York
qu San Francisco. Pour le dceler, il suffit de calculer un indicateur qui exprime la variabilit des
observations.
Or, daprs la section 2.3.1.4., lerreur moyenne commise en rsumant lchantillon par un indicateur
de localisation c est
n
i
i
c x d
n
e
1
) , (
1
. e exprime bien la variabilit de lchantillon autour de c . On
pourra donc construire des indicateurs de dispersion partir de e en considrant diffrentes distan-
ces.
2.3.2.1. Variance et cart-type empiriques
Si on choisit la distance euclidienne, on a vu que
n
x c . Lindicateur de dispersion correspondant est
donc
2
1
2
) (
1
n
n
i
i n
x x
n
s

. Il est appel variance empirique de lchantillon, et mesure lcart qua-

dratique moyen de lchantillon sa moyenne.
Il est facile de montrer que la variance empirique peut aussi scrire
2
1
2 2
1
n
n
i
i n
x x
n
s

.
Lcart-type empirique de lchantillon est
2
n n
s s . Il sexprime dans la mme unit que les don-
nes, ce qui rend son interprtation plus facile que celle de la variance. Ainsi, lcart-type des temp-
ratures annuelles est de 8.8 New-York et de 3 San Francisco, ce qui exprime bien la diffrence
de variabilit des tempratures entre les deux villes.
Cependant, la variabilit doit toujours se comparer la valeur moyenne. En effet, une variabilit de
10 na pas le mme sens si la temprature moyenne de rfrence est 12 ou 10 000. Des donnes
prsentent une forte variabilit si lcart-type est fort par rapport la moyenne.
On est donc amens dfinir le coefficient de variation empirique de lchantillon, comme le rap-
port entre lcart-type empirique et la moyenne empirique :
n
n
n
x
s
cv . On considre en gnral que
lchantillon possde une variabilit significative si % 15 >
n
cv . Si % 15
n
cv , les donnes prsentent
peu de variabilit et on considre que la moyenne empirique elle seule est un bon rsum de tout
lchantillon.
Dans nos exemples, on obtient :

n
x
2
n
s
n
s
n
cv
dures de transfert 83.15 5540.2 74.4 89.5 %
t New-York 12.5 77.7 8.8 70.4 %
t San Francisco 13.7 8.9 3.0 21.8 %
On remarque donc une trs forte variabilit des deux premiers chantillons et une variabilit assez
faible du troisime.
Remarque :
2
1
2 2
1
1
) (
1
n
n
i
i n
n
i
i
x x
n
x x
n

voque [ ] [ ]
2 2 2
) ( ) ( )) ( ( ) ( X E X E X E X E X Var .
Les similitudes dans les noms et les formules suggrent que la variance empirique est trs lie la
variance de la loi de probabilit de la variable alatoire sous-jacente. On reviendra sur ce point au
chapitre suivant.
Sous S+, la commande var(x) donne
2
1
n
s
n
n
au lieu de
2
n
s . On en verra lexplication au chapitre
suivant. Il ny a pas de commandes prdfinies pour lcart-type et le coefficient de variation empiri-
ques.
2.3.2.2. Ltendue
Ltendue dun chantillon est
*
1
*
x x e
n n
. Cet indicateur est moins riche que la variance empirique
et est videmment trs sensible aux valeurs aberrantes. Il est employ couramment en contrle de
qualit, notamment pour dtecter ces valeurs aberrantes.
2.3.2.3. Les quantiles empiriques
Les quantiles empiriques sont des valeurs qui partagent lchantillon ordonn en un certain nombre
de parties de mme effectif.
sil y a 2 parties, on retrouve la mdiane empirique
~
x
n
sil y a 4 parties, on parle de quartiles, nots
4 / 1 ,
~
n
q ,
2 / 1 ,
~
n
q et
4 / 3 ,
~
n
q ; on a
2 / 1 ,
~
n
q =
n
x
~
sil y a 10 parties, on parle de dciles, nots
10 / 1 ,
~
n
q ,...,
10 / 9 ,
~
n
q
sil y a 100 parties, on parle de centiles, nots
100 / 1 ,
~
n
q ,,
100 / 99 ,
~
n
q
etc
Dfinition : Le quantile empirique dordre p de lchantillon est dfini par :
]
+
+
sinon
entier est si ) (
2
1

~
*
1
*
1
*
,
np
np np
p n
x
np x x
q
Dans lexemple du trafic sur internet, on na que 10 donnes, donc seuls les quartiles ont un sens. On
connat dj la mdiane empirique
2 / 1 ,
~
n
q =
n
x
~
= 62.2. On obtient
*
3 4 / 1 ,
~
x q
n
= 24.3, et
*
8 4 / 3 ,
~
x q
n

= 118.4.
La distance inter-quartiles
4 / 1 , 4 / 3 ,
~ ~
n n
q q est un indicateur de dispersion. Son principal intrt est
dtre insensible aux valeurs aberrantes. Dans lexemple, elle vaut 94.1 ms. On dfinit de la mme
manire des distances inter-dciles, inter-centiles, etc
Les quantiles sont trs utiles pour analyser des phnomnes concernant les extrmits des chantil-
lons. Par exemple, une enqute de lINSEE sur le patrimoine des familles en France en 1997 a obtenu
entre autres les rsultats suivants :
le patrimoine moyen des familles tait de 900 000 F
5% des familles avaient un patrimoine infrieur 25 000 F
5% des familles avaient un patrimoine suprieur 1 800 000 F ; ces 5% possdaient 40% du
patrimoine total.
Les chiffres fournis ici sont
n
x ,
100 / 5 ,
~
n
q et
100 / 95 ,
~
n
q .
Sous S+, la commande quantile(x,p) donne une version du quantile empirique dordre p lgre-
ment diffrente de celle dcrite ici. La commande summary(x) donne en une seule fois les minimum,
premier quartile, mdiane, moyenne, troisime quartile et maximum de lchantillon.
2.3.3. Indicateurs statistiques pour des donnes groupes
Quand on ne dispose pas de la totalit des donnes brutes, mais de donnes dj groupes en classes,
le calcul exact des indicateurs statistiques est impossible. On peut en proposer une approximation en
faisant comme si toutes les donnes appartenant une classe taient gales au centre de la classe.
Pour illustrer cette dmarche, reprenons lexemple des poids de poulets vu en section 2.3.2.1. En
conservant les notations utilises pour lhistogramme, on a k classes ] , ]
1 i i
a a

. Les centres des clas-
ses sont les ) (
2
1
1 i i i
a a c +

. Leffectif de la classe i est
i
n .
poids ] , ]
1 i i
a a

]1.8, 2.0] ]2.0, 2.2] ]2.2, 2.4] ]2.4, 2.5] ]2.5, 2.6] ]2.6, 2.8] ]2.8, 3.0] ]3.0, 3.2]
centres des classes
i
c
1.9 2.1 2.3 2.45 2.55 2.7 2.9 3.1
nombre de poulets
i
n
64 86 140 232 168 160 90 60
Tableau 2.10. : poids de poulets, calcul des indicateurs statistiques
Une approximation de la moyenne empirique est
k
i
i i a n
c n
n
x
1
,
1
.
Une approximation de la variance empirique est

k
i
a n i i a n
x c n
n
s
1
2
,
2
,
) (
1
.
Ici, on obtient
a n
x
,
= 2.498 et
a n
s
,
= 0.29.
Pour estimer la mdiane empirique, on commence par dterminer la classe mdiane, cest dire celle
qui contient la mdiane de lchantillon. Ici, cest la classe ]2.4, 2.5] : 29% des donnes sont infrieu-
res 2.4 et 47.8% des donnes sont suprieures 2.5.
Dans un premier temps, on peut approcher la mdiane empirique par le centre de la classe mdiane,
ici 2.45. Mais on voit que ceci ne tient pas compte du dsquilibre ventuel entre les effectifs des
classes infrieures et suprieures la classe mdiane. Dans lexemple, il est logique de dire que la
mdiane est plus proche de 2.5 que de 2.4 car 47.8% est nettement suprieur 29%. On peut alors
procder par interpolation linaire.
On obtient : ) (
2
1
~
1
1
1
1 ,

(
(
,
\
,
,
(
j
+
i i
i
j
j
i
i a n
a a n
n
n
a x , o i est le numro de la classe mdiane.
Dans lexemple,
a n
x
,
~
= 2.49. Le fait que la moyenne et la mdiane empiriques soient quasiment
identiques confirme la symtrie de la distribution, dj observe sur lhistogramme.
3.1. Introduction
Dans ce chapitre, on suppose que les donnes
n
x x ,...,
1
sont n ralisations indpendantes dune
mme variable alatoire X , appele variable parente. Il est quivalent de supposer que
n
x x ,...,
1
sont
les ralisations de variables alatoires
n
X X ,...,
1
indpendantes et de mme loi. Nous adopterons ici
la seconde formulation, qui est plus pratique manipuler.
Les techniques de statistique descriptive, comme lhistogramme ou le graphe de probabilits, permet-
tent de faire des hypothses sur la nature de la loi de probabilit des
i
X . Des techniques statistiques
plus sophistiques, appeles tests dadquation, permettent de valider ou pas ces hypothses.
On supposera ici que ces techniques ont permis dadopter une famille de lois de probabilit bien pr-
cises (par exemple, loi normale, loi binomiale, etc ...) pour la loi des
i
X , mais que la valeur du ou des
paramtres de cette loi est inconnue.
On notera le paramtre inconnu. A priori, peut-tre un paramtre plusieurs dimensions, mais
on supposera ici que est un rel. Pour
p
R , 2 p , toutes les notions de ce chapitre sont gn-
ralisables, mais la complexit des rsultats augmente notablement.
On notera ) ; ( x F la fonction de rpartition des
i
X . Pour les variables alatoires discrtes on notera
) ; ( x X P les probabilits lmentaires, et pour les variables alatoires continues on notera ) ; ( x f
la densit.
Le problme trait dans ce chapitre est celui de lestimation du paramtre . Il sagit de donner, au
vu des observations
n
x x ,...,
1
, une approximation de que lon espre la plus proche possible de la
vraie valeur inconnue. On pourra proposer une unique valeur vraisemblable pour (estimation
ponctuelle) ou un ensemble de valeurs vraisemblables (estimation ensembliste ou intervalle de
confiance).
3.2. Principes gnraux de lestimation
3.2.1. Dfinition et qualit dun estimateur
Dfinition : Une statistique s est une fonction des observations
n
x x ,...,
1
.
) ... ( ) ... (
:
1 1 n n
m n
x x s x x
R R s
Par exemple,
n
i
i n
x
n
x
1
1
,
i
x x min
*
1
, ) ln 2 , , (
6 4 3 1
x x x x + sont des statistiques.
Remarque : Puisque
n
x x ,...,
1
sont des ralisations des variables alatoires
n
X X ,...,
1
, ) ,..., (
1 n
x x s est
Chapitre 3. Estimation paramtrique
une ralisation de la variable alatoire ) ,..., (
1 n
X X s . Par exemple,
n
i
i n
x
n
x
1
1
est une ralisation de
n
i
i n
X
n
X
1
1
.
Pour simplifier les critures, on note souvent ) ,..., (
1 n n
x x s s et ) ,..., (
1 n n
X X s S . Par abus, on
donne le mme nom de statistique aux deux quantits.
Dfinition : Un estimateur dune grandeur est une statistique
n
S valeurs dans lensemble
des valeurs possibles de . Une estimation de est une ralisation
n
s de lestimateur
n
S .
A priori, nimporte quelle fonction des observations valeurs dans lensemble des valeurs possibles
de est un estimateur de . Mais un estimateur
n
S de ne sera satisfaisant que si, pour nimporte
quelle observation
n
x x ,...,
1
,
n
s est proche , en un certain sens, de .
Pour cela, il faut dabord que, si on rpte plusieurs fois lexprience, la moyenne des estimations
obtenues soit trs proche, et dans lidal gale . Cela revient souhaiter que lesprance de
lestimateur soit gale .
Dfinition : Un estimateur
n
S de est sans biais si et seulement si ) (
n
S E . Il est biais si
et seulement si ) (
n
S E .
Ensuite, il est souhaitable que, plus on a dobservations, meilleure soit lestimation. Cela signifie que
lestimateur
n
S doit converger vers la valeur estimer .
Il sagit en fait dtudier la convergence de la suite de variables alatoires
1 n
n
S vers la constante
. Dans labsolu, la convergence la plus forte est la convergence presque sre. Dans la pratique, on
se contente de la convergence en moyenne quadratique (ou convergence dans
2
L ) :
0 ] ) [(
lim

2

n
MQ
n
S E S
n
] ) [(
2

n
S E est appele lerreur quadratique moyenne. Elle mesure lerreur que lon fait si on
estime par
n
S , cest dire la prcision de lestimateur
n
S . Elle doit donc tre la plus petite possi-
ble.
Dfinition : Un estimateur
n
S de est convergent si et seulement si
n
S converge en moyenne
quadratique vers quand n tend vers linfini.
On remarque que si
n
S est sans biais, ] )) ( [( ] ) [(
2 2
n n n
S E S E S E ) (
n
S Var . Do :
Un estimateur sans biais est convergent si et seulement si sa variance tend vers 0 quand n
tend vers linfini.
De deux estimateurs sans biais, le meilleur est celui qui a la plus petite variance.
Cest logique : il faut non seulement que la moyenne des estimations soit proche de , mais aussi que
chaque estimation soit la plus proche possible de , donc que la variabilit de lestimateur
n
S soit
faible.
Finalement, on considrera que le meilleur estimateur possible de est un estimateur sans biais et
de variance minimum (ESBVM). Un tel estimateur nexiste pas forcment.
Il existe des mthodes pour dterminer directement un ESBVM dans certains cas. Elles sont bases
sur des techniques sophistiques (exhaustivit, compltion, esprance conditionnelle), qui ne seront
pas abordes dans ce cours. Cependant, on pourra parfois montrer facilement quun estimateur est un
ESBVM en utilisant la quantit dinformation de Fisher, dfinie dans la section suivante.
Remarque 1 : Un estimateur biais peut tre intressant si son erreur quadratique moyenne est inf-
rieure la variance dun estimateur sans biais.
Remarque 2 : Ce nest pas parce que
n
S est un bon estimateur de que ) (
n
S est un bon estimateur
de ) ( . Par exemple, on peut avoir ) (
n
S E et ) ( )] ( [
n
S E .
3.2.2. Fonction de vraisemblance, efficacit dun estimateur
Dfinition : Quand les observations sont toutes discrtes ou toutes continues, on appelle fonc-
tion de vraisemblance de lchantillon
n
x x ,...,
1
pour le paramtre la fonction :
continues sont les si ) ; ,..., (

discrtes sont les si ) ; ,..., (
) ,..., ; (
1 ) ,..., (
1 1
1
1
i n X X
i n n
n
X x x f
X x X x X P
x x
n

L
Remarque : La probabilit et la densit utilises dans cette dfinition sont des fonctions des observa-
tions
n
x x ,...,
1
, dpendant du paramtre . A linverse, la fonction de vraisemblance est considre
comme une fonction de dpendant des observations
n
x x ,...,
1
, ce qui permet, par exemple, de dri-
ver cette fonction par rapport .
Dfinition : On appelle quantit dinformation de Fisher sur apporte par lchantillon
n
X X ,...,
1
, la quantit (si elle existe) :
]
]
]
,
,
) ,..., ; ( ln ) (
1 n n
X X Var I
L
Proprits :
On peut montrer que 0 ) ,..., ; ( ln
1

]
]
]
,
,
n
X X E
L . Par consquent, la quantit dinformation

peut aussi scrire sous la forme
]
]
]
]
,
,
,
(
,
\
,
(
j
2
1
) ,..., ; ( ln ) (
n n
X X E
L I .
Si le domaine de dfinition des
i
X ne dpend pas de , on montre que lon a galement
]
]
]
]
,
,
,
) ,..., ; ( ln ) (
1
2
2
n n
X X E
L I . Cette criture peut savrer pratique pour les calculs.

Lintrt de la quantit dinformation de Fisher est quelle fournit une borne infrieure pour la va-
riance de nimporte quel estimateur de . Ce rsultat sexprime sous la forme du thorme suivant :
Ingalit de Frchet-Darmois-Cramer-Rao (FDCR) : Si le domaine de dfinition des
i
X ne
dpend pas de , alors pour toute statistique
n
S on a :
) (
] [
) (
2
n
n
n
S E
S Var
I
]
]
]
,
La quantit
) (
] [
2
n
n
S E
I
]
]
]
,
,
est appele la borne de Cramer-Rao. Lingalit FDCR dit donc que la
variance dun estimateur quelconque de est forcment suprieure cette borne.
Dfinition : on appelle efficacit dun estimateur
n
S la quantit
) ( ) (
] [
) (
2
n n
n
n
S Var
S E
S Eff
I
]
]
]
,
,
.
On a 1 ) ( 0
n
S Eff .
n
S est dit un estimateur efficace si 1 ) (
n
S Eff .
n
S est dit asymptotiquement efficace si 1 ) (
lim

+
n
n
S Eff .
Proprits :
Si un estimateur est efficace, sa variance est gale la borne de Cramer-Rao, donc il est for-
cment de variance minimum.
Il est possible quil nexiste pas destimateur efficace de . Alors, sil existe un ESBVM de
, sa variance est strictement suprieure la borne de Cramer-Rao.
Si
n
S est un estimateur sans biais de , alors
) (
1
) (
n
n
S Var
I
et
) ( ) (
1
) (
n n
n
S Var
S Eff
I
.
Si la valeur de la borne de Cramer-Rao est trs grande, il est impossible destimer correc-
tement car tous les estimateurs possibles auront une forte variance.
Remarque : La dfinition de la quantit dinformation ci-dessus est une dfinition gnrale, applicable
quelle que soit la nature des variables alatoires observes. Quand celles-ci sont indpendantes et de
mme loi, il est facile de voir que ) ( ) (
1
nI I
n
.
Dans cette section, nous avons discut des proprits que devrait avoir un estimateur de , mais nous
navons pas encore donn de mthodes pour trouver un estimateur de . Cest lobjet de la section
suivante.
3.3. Mthodes destimation
Il existe de nombreuses mthodes pour estimer un paramtre . Par exemple, nous avons dj vu des
estimations graphiques partir des graphes de probabilit. Nous avons aussi utilis le principe quune
probabilit peut sestimer par une proportion.
Dans cette section, nous ne nous intressons quaux deux mthodes destimation les plus usuelles, la
mthode des moments et la mthode du maximum de vraisemblance.
3.3.1. La mthode des moments
Cest la mthode la plus naturelle, que nous avons dj utilise sans la formaliser.
3.3.1.1. Estimation dune esprance
Le principe de la mthode des moments est que, si le paramtre estimer est lesprance de la loi des
i
X , alors on peut lestimer par la moyenne empirique de lchantillon. Autrement dit, si ) ( X E ,
alors lestimateur de par la mthode des moments (EMM) est

n
i
i n n
X
n
X
1
1 ~
.
La justification de ce principe est la loi des grands nombres, qui dit que X
n
converge presque sre-
ment vers ) ( X E . Donc, si ) ( X E , X
n
est un estimateur de convergent presque srement.
On peut en fait montrer facilement que
n
X est un bon estimateur de ) ( X E , sans utiliser la loi des
grands nombres.

]
]
]
]
,
,

n
n
X E
n
X
n
E X E
n
i
i
n
i
i n
1
) (
1 1
) (
1 1
, donc
n
X est un estimateur sans biais de .

]
]
]
]
,
,
]
]
]
]
,
,

n
i
i
n
i
i n
X Var
n
X
n
Var X Var
1
2
1
1 1
) (

n
i
i
X Var
n
1
2
) (
1
car les
i
X sont indpendantes
) (
1
) (
1
2
X Var
n
X nVar
n
, qui tend bien vers 0 quand n tend vers linfini.
Donc
n
X est un estimateur sans biais et convergent de ) ( X E .
Plus gnralement, si ) ( ) ( X E , o est une fonction inversible, alors lestimateur de par la
mthode des moments est ) (
~
1
n n
X
.
3.3.1.2. Estimation dune variance
De la mme manire, on a envie destimer la variance de la loi des
i
X par la variance empirique de
lchantillon

n
i
n i
n
i
n i n
X X
n
X X
n
S
1
2 2
1
2 2
1
) (
1
.
Dterminons le biais de cet estimateur.
[ ] ) (
1
) (
1
) ( )] ( [ ) ( )] ( [ ) (
) ( ) ( ) ( ) (
1 1
) (
2 2
2 2
1
2 2
1
2 2 2
X Var
n
n
X Var
n
X Var X E X Var X E X Var
X E X E X E X E
n
X X
n
E S E
n n
n
n
i
n i
n
i
n i n
+ +

(
(
,
\
,
,
(
j

On a ) ( ) (
2
X Var S E
n
, donc, contrairement ce quon pourrait croire, la variance empirique nest
pas un estimateur sans biais de la variance des observations. Cet estimateur nest quasymptotique-
ment sans biais.
En revanche, on voit que ) (
1
2
X Var S
n
n
E
n

]
]
]
,
. Soit donc

n
i
n i n n
X X
n
S
n
n
S
1
2 2 2
) (
1
1
1
.
2
n
S est appele variance estime de lchantillon. Cest un estimateur sans biais de ) ( X Var .
On montre que [ ] [ ]
2 4
3
2
) ( ) 3 ( )) ( ( ) 1 (
1
) ( X Var n X E X E n
n
n
S Var
n

, qui tend bien vers 0 quand

n tend vers linfini.
Donc
2
n
S est un estimateur sans biais et convergent de ) ( X Var .
Cest pour cela que la commande var(x) sous S+ donne la variance estime, et non pas la variance
empirique de lchantillon x.
On peut montrer galement que
2
n
S et
2
n
S convergent toutes les deux presque srement vers
) ( X Var .
Remarque 1 : On na pas de rsultat gnral sur la qualit de
n
S comme estimateur de lcart-type de
la loi, ) ( ) ( X Var X .
Remarque 2 : [ ]
3
2
2
)) ( (
1
) , ( X E X E
n
n
S X Cov
n n

, donc
n
X et
2
n
S sont asymptotiquement non
corrles. La moyenne et la variance empirique ne sont indpendantes que si les observations sont de
loi normale.
Plus gnralement, si la loi des
i
X a deux paramtres
1
et
2
tels que ( ) ) , ( ) ( ), (
2 1
X Var X E ,
o est une fonction inversible, alors les estimateurs de
1
et
2
par la mthode des moments sont
) , ( )
~
,
~
(
2 1
2 1 n n n n
S X
. Ce principe peut naturellement se gnraliser aux moments de tous ordres,

centrs ou non centrs : [ ]
k
X E X E )) ( ( et ) (
k
X E , 1 k .
Le simple exemple de la variance montre quun estimateur des moments nest pas forcment sans
biais. On peut montrer quil est asymptotiquement sans biais et convergent presque srement.
3.3.1.3. Exemples
Exemple 1 : loi normale
Si
n
X X ,...,
1
sont indpendantes et de mme loi normale ) , (
2
m N , les estimateurs de m et
2
par
la mthode des moments sont videmment
n n
X m
~
et
2 2 ~
n n
S , et on sait quil vaut mieux estimer
2
par
2
n
S . Il est facile de montrer que
n
X est un ESBVM de m.
2
n
S est galement un ESBVM
de
2
, mais la dmonstration est moins immdiate.
Exemple 2 : loi exponentielle
Si
n
X X ,...,
1
sont indpendantes et de mme loi exponentielle ) exp( , on sait que / 1 ) ( X E .
Donc lestimateur de par la mthode des moments est
n n
X / 1
~
.
Exercice : montrer que
n
~
est biais, trouver un estimateur
n

~
sans biais, montrer quil est
convergent, asymptotiquement efficace, mais pas efficace.
En fait, on peut montrer quil nexiste pas destimateur efficace de et que
n

~
est lESBVM de .
Dans lexemple du trafic sur internet, on obtient
n
~
= 0.012 et
n

~
= 0.0108. Rappelons que lesti-
mation graphique obtenue laide des graphes de probabilit tait 0.013. Ces rsultats sont bien coh-
rents.
Remarque : Lusage veut que la mme notation
n
~
dsigne la fois lestimateur de (variable ala-
toire) et lestimation correspondante (ralisation de cette variable alatoire sur lexprience consid-
re). Par exemple, dans le cas de la loi exponentielle,
n
~
dsigne aussi bien
n
X / 1 que
n
x / 1 . Il fau-
dra prendre garde ne pas confondre les deux notions.
3.3.2. La mthode du maximum de vraisemblance
3.3.2.1. Dfinition
Principe : Si les
i
X sont des variables alatoires discrtes, la fonction de vraisemblance de lchan-
tillon est ) ; ,..., ( ) ,..., ; (
1 1 1

n n n
x X x X P x x L . Cest la probabilit que lon observe les rali-
sations
n
x x ,...,
1
quand la vraie valeur du paramtre est . Pour certaines valeurs de , cette proba-
bilit sera petite : il y a peu de chances dobserver
n
x x ,...,
1
. Pour dautres valeurs de , cette proba-
bilit sera forte : il y a de fortes chances dobserver
n
x x ,...,
1
. Il est logique de dire quune valeur
vraisemblable pour est la valeur pour laquelle la probabilit dobserver
n
x x ,...,
1
est la plus forte
possible. Cela revient faire comme si ctait lventualit la plus probable qui stait produite au
cours de lexprience.
Mathmatiquement, on obtient la dfinition suivante :
Dfinition : Lestimateur de maximum de vraisemblance (EMV) de est la valeur
n
de
qui rend maximale la vraisemblance ) ,..., ; (
1 n
X X L .
Dans la plupart des cas, la fonction de vraisemblance sexprime comme un produit. Il est alors plus
commode de remarquer que la valeur qui rend maximale une fonction rend aussi maximal son loga-
rithme. Par consquent,
n
sera en gnral calcul en annulant la drive du logarithme de la vrai-

semblance ) ... ; ( ln
1 n
X X
L . On remarque que ce calcul est galement utile pour dterminer la

quantit dinformation de Fisher.
Quand
p
p
R ) ,..., (
1
,
n
est solution du systme dquations :

..p i X X
n
i
1 , 0 ) ... ; ( ln
1

L
Un estimateur de maximum de vraisemblance nest pas forcment unique (la vraisemblance peut avoir
plusieurs maxima), ni sans biais, ni de variance minimale, ni efficace. Il na pas forcment
dexpression explicite (il faut alors rsoudre numriquement les quations de vraisemblance).
En revanche, on peut montrer que :

n
converge presque srement vers

) 1 , 0 ( )
( ) ( N I
L
n n
, ce qui signifie que, quand n est grand,
n
est approximative-
ment de loi
(
(
,
\
,
,
(
j
) (
1
,
n
I
N . On en dduit que
n
est asymptotiquement sans biais et efficace.

Cette proprit peut aussi scrire
(
(
,
\
,
,
(
j

) (
1
, 0 )
(
1

I
N n
L
n
si
n
est lEMV de , alors )
(
n
est lEMV de ) ( ; de plus, si est drivable,
[ ]
(
(
,
\
,
,
(
j

) (
) (
, 0 ) ( )
(
1
2

I
N n
L
n
en gnral, lEMV est meilleur que lEMM au sens o )
~
( )
(
n n
Var Var
3.3.2.2. Exemples
Exemple 1 : loi de Poisson
Si les
i
X sont de loi ) ( P , la fonction de vraisemblance est :
!
!
) ; ( ) ; ,..., ( ) ,..., ; (
1
1
1
1 1 1
1
n
i
i
x
n
n
i
i
x
n
i
i i n n n
x
e
x
e
x X P x X x X P x x
n
i
i
i

L
Do

+
n
i
i
n
i
i n
x x n x x
1 1
1
! ln . ln ) ,..., ; ( ln L
Alors
n
i
i n
x n x x
1
1
1
) ,..., ; ( ln
L , qui vaut 0 pour

n
n
i
i
x x
n

1
1
.
Par consquent, lEMV du paramtre de la loi de Poisson est
n n
X
.
Remarquons que, puisque ) ( X E ,
n
X est galement lEMM de . On peut montrer que cet esti-
mateur est en fait un ESBVM de .
Exemple 2 : loi exponentielle
Si les
i
X sont de loi ) exp( , le calcul fait plus haut de lefficacit de lEMM a permis dtablir que
n
i
i n
x
n
x x
1
1
) ,..., ; ( ln
L , ce qui prouve immdiatement que

n n
X / 1
. L encore, EMM et
EMV sont identiques.
Exemple 3 : loi normale
Si les
i
X sont de loi ) , (
2
m N , la fonction de vraisemblance est :
( )
n
i
i
i
i n
m x
n
n
i
m x
n
i
i X n X X n
e e
m x f m x x f x x m
1
2
2
2
2
1
) (
2
1
1
2
) (
1
2 2
1 ) ..., ( 1
2
2
1
2
1
) , ; ( ) , ; ,..., ( ) ,..., ; , (

L
Do
n
i
i n
m x
n n
x x m
1
2 2
1
2
) (
2
1
2 ln
2
ln
2
) ,..., ; , ( ln
L .
On doit annuler les drives partielles de ce logarithme par rapport m et
2
. On a :
(
(
,
\
,
,
(
j

n
i
i
n
i
i n
nm x m x x x m
m
1
2
1
2
1
2
1
) ( 2
2
1
) ,..., ; , ( ln

L , qui sannule pour
n
i
i
x
n
m
1
1
.
+
n
i
i n
m x
n
x x m
1
2
4 2
1
2
2
) (
2
1
2
) ,..., ; , ( ln

n
i
i
m x
n
1
2 2
) (
1
.
n
m et
2
n
sont les valeurs de m et
2
qui vrifient les deux conditions en mme temps. On a donc
n n
X m et
2
1
2 2
) (
1
n
n
i
n i n
S X X
n

.
Remarque 1 :
2
n
S est un ESBVM de
2
, mais
n
S nest pas un ESBVM de (ce nest mme pas un
estimateur sans biais). On montre quen fait, un ESBVM de est
n
S
n
n
n

(
,
\
,
(
j
(
,
\
,
(
j
2
2
1
2
1
.
Remarque 2 : Dans les trois exemples prsents ici, la mthode des moments et la mthode du maxi-
mum de vraisemblance donnent les mmes rsultats. Cest parce que les exemples traits sont l-
mentaires. En fait, dans la plupart des cas, les deux mthodes fournissent des estimateurs diffrents
(voir par exemple le cas de la loi uniforme sur [ ] , 0 ).
3.4. Intervalles de confiance
3.4.1. Dfinition
Jusqu prsent, on a estim un paramtre par une unique valeur
n
(estimation ponctuelle). Si
lestimateur
n
est sans biais et de faible variance, on peut sattendre ce que chaque ralisation de
n
soit proche de la vraie valeur de . Cependant,

n
ne sera srement pas exactement gal .

Donc, plutt que destimer par la seule valeur
n
, il semble raisonnable de donner un ensemble de

valeurs vraisemblables pour , toutes proches de
n
. Comme on supposera ici que R , on donne-

ra un intervalle (une fourchette ) ayant une forte probabilit de contenir la vraie valeur de .
Dfinition : Un intervalle de confiance de seuil (ou niveau de signification) ] 1 , 0 [ pour un
paramtre , est un intervalle alatoire I tel que 1 ) ( I P .
est la probabilit que le paramtre nappartienne pas lintervalle I , cest dire la probabilit
que lon se trompe en affirmant que I . Cest donc une probabilit derreur, qui doit tre assez
petite. Les valeurs usuelles de sont 10%, 5%, 1%, etc
Remarque fondamentale : Les intervalles de confiance suscitent souvent des erreurs dinterprtation
et des abus de langage. La raison essentielle est la suivante.
Dans lcriture ) ( I P , est une grandeur inconnue mais non alatoire. Ce sont les bornes de
lintervalle I qui sont alatoires. Posons ] , [
2 1
Z Z I .
1
Z et
2
Z sont des variables alatoires. Soient
1
z et
2
z les ralisations de
1
Z et
2
Z pour une exprience donne.
A titre indicatif, prenons lexemple des particules de la fiche dexercices n2, pour lequel b . Ad-
mettons que
1
z = 440 et
2
z = 460. Il est correct de dire une phrase du type : b a 95% de chances
dtre compris entre
1
Z et
2
Z , mais il est incorrect de dire : b a 95% de chances dtre compris
entre 440 et 460. En effet, dans cette dernire criture, il ny a rien dalatoire. b est ou nest pas
dans lintervalle [440, 460]. La probabilit que b soit compris entre 440 et 460 est donc 0 ou 1, mais
pas 95%.
En fait, si on recommence 100 fois lexprience, on aura 100 ralisations du couple ) , (
2 1
Z Z , et donc
100 intervalles de confiance diffrents. En moyenne, b sera dans 95 de ces intervalles.
Par consquent, il vaut mieux dire : on a une confiance de 95% dans le fait que b soit compris en-
tre 440 et 460 .
Quand
p
R , 1 > p , on ne peut plus parler dintervalle de confiance. Lensemble des valeurs ad-
missibles pour est appel une rgion de confiance. Cest souvent un ellipsode de
p
R .
Il semble logique de chercher un intervalle de confiance pour de la forme ]
[ +
n n
, o
n
est un estimateur de . Il reste alors dterminer de sorte que + 1 )

(
n n
P .
Mais cette dmarche ne va pas toujours aboutir car le calcul de peut savrer trs complexe. Le
problme est que la loi de probabilit de
n
dpend de , alors que est un rel fix lavance qui,

lui, ne doit pas dpendre de . Or ) |
| ( )
( )

( + +
n n n n
P P P .
Donc on ne peut dterminer un , ne dpendant que des observations et pas de , et tel que
1 ) |
| (
n
P , que si la loi de probabilit de
n
ne dpend pas de , ce qui nest pas

toujours le cas.
Pour trouver un intervalle de confiance, la mthode la plus efficace consiste chercher une fonction
pivotale, cest dire une variable alatoire fonction la fois du paramtre et des observations
n
X X ,...,
1
, dont la loi de probabilit ne dpende pas de . Les sections suivantes ont pour but
dillustrer cette mthodologie par des exemples.
3.4.2. Intervalles de confiance pour les paramtres de la loi normale
3.4.2.1. Intervalle de confiance pour la moyenne
Si
n
X X ,...,
1
sont indpendantes et de mme loi normale ) , (
2
m N , on sait que lESBVM de m est
n
X . La premire ide est donc de chercher un intervalle de confiance pour m de la forme
] , [ +
n n
X X . Conformment ce qui prcde, le problme revient, pour fix, chercher
tel que 1 ) | | ( m X P
n
.
Les proprits lmentaires de la loi normale permettent dtablir que
n
i
i
X
1
est de loi ) , (
2
n nm N
et que
n
X est de loi ) , (
2
n
m N

. Par consquent, n
m X
n
m X
U
n n
/
2
est de loi ) 1 , 0 ( N .
Alors
> 1 ) | | ( 1 ) | | ( ) | | (
n
U P
n
U P m X P
n
. Or la table 2 de la loi normale
donne la valeur
u telle que
> ) | | ( u U P . Par consquent,
u
n
, donc
u
n
. Do le
rsultat :
Proprit : Un intervalle de confiance de seuil pour le paramtre m de la loi ) , (
2
m N est
] , [

u
n
X u
n
X
n n
+
Le problme est que cet intervalle nest utilisable que si on connat la valeur de . Or, dans la prati-
que, on ne connat jamais les vraies valeurs des paramtres.
Une ide naturelle est alors de remplacer par un estimateur, par exemple
n
S .
Mais si on fait cela, ) ( ) (

n
S
m X
P u
n
S
X m u
n
S
X P
n
n n
n
n
n
nest pas gale
1 , car n
S
m X
n
n
nest pas de loi ) 1 , 0 ( N , donc ] , [

u
n
S
X u
n
S
X
n
n
n
n

+
nest pas un inter-

valle de confiance de seuil pour m.
On peut cependant rsoudre le problme en utilisant le thorme de Fisher :
Thorme de Fisher : Si
n
X X ,...,
1
sont n variables alatoires indpendantes et de mme loi
normale ) , (
2
m N , alors :

n
X est de loi ) , (
2
n
m N

2
2
n
nS
est de loi du khi deux 1 n degrs de liberts
2
1 n

n
X et
2
n
S sont indpendantes
1
n
S
m X
n
S
m X
n
n
n
n
est de loi de Student ) 1 ( n St
On peut alors crire ) | | ( 1 ) | | ( ) | | (
n n
n
S
n
Y P
S
n
Y P m X P
>

, o Y est une variable ala-
toire de loi ) 1 ( n St . Or la table de la loi de Student donne la valeur
, 1 n
t telle que
>

) | | (
, 1 n
t Y P . Par consquent,
, 1
n
n
t
S
n
, donc
, 1
n
n
t
n
S
. Do le rsultat :
Proprit : Un intervalle de confiance de seuil pour le paramtre m de la loi ) , (
2
m N est
]
1
,
1
[ ] , [
, 1 , 1 , 1 , 1
n
n
n n
n
n n
n
n n
n
n
t
n
S
X t
n
S
X t
n
S
X t
n
S
X
Dans lexemple des niveaux de bruit de la fiche dexercices 1, on a n = 20,
n
x = 64.2 et
n
s = 5.02.
Pour = 5%, la table de la loi de Student donne
05 . 0 , 19
t = 2.093. On en dduit quun intervalle de
confiance de seuil 5% pour le niveau de bruit moyen est [61.8, 66.6].
Interprtation : La meilleure estimation possible du niveau de bruit moyen est 64.2 db. De plus, on a
une confiance de 95% dans le fait que ce niveau de bruit moyen est compris entre 61.8 db et 66.6 db.
Sous S+,
u est obtenu par la commande qnorm(1-alpha/2) et

, n
t par la commande qt(1-
alpha/2,n).
Remarque 1 : Rien noblige prendre un intervalle de confiance du type ] , [ +
n n
X X (intervalle
de confiance bilatral). Tout intervalle I tel que 1 ) ( I m P convient. Par exemple, des inter-
valles de la forme [ , [ + A et ] , ] B (intervalles de confiance unilatraux) fournissent des bornes
infrieure et suprieure pour lestimation de m.
Remarque 2 : La largeur de lintervalle de confiance est
, 1
2

n
n
t
n
S
. La table de la loi de Student
permet de constater que cest une fonction dcroissante en n comme en , ce qui est logique. En
effet, plus on a dobservations, plus on a dinformations, donc plus lincertitude sur le paramtre di-
minue et plus lintervalle de confiance est troit. Dautre part, plus est petit, moins on veut prendre
de risques de se tromper en disant que m est dans lintervalle, donc plus on aura tendance prendre
des intervalles larges. A la limite, on ne prend aucun risque ( = 0) en proposant comme intervalle de
confiance R tout entier !
En pratique, un intervalle de confiance trop large na aucun intrt, donc il faut parfois accepter un
risque derreur relativement fort pour obtenir un intervalle de confiance utilisable.
Remarque 3 : La variable alatoire n
S
m X
n
n
est une fonction des observations

n
X X ,...,
1
et du
paramtre m pour lequel on recherche un intervalle de confiance, dont la loi de probabilit ne dpend
pas des paramtres du modle m et
2
. Cest ce quon a appel une fonction pivotale et cest ce
que nous utiliserons partir de maintenant pour construire des intervalles de confiance.
3.4.2.2. Intervalle de confiance pour la variance
Conformment ce qui prcde, on recherche une fonction pivotale, cest dire une fonction des
observations
n
X X ,...,
1
et de
2
, dont la loi de probabilit ne dpend ni de m ni de
2
. Une telle
fonction est donne par le thorme de Fisher :
2
2
n
nS
est de loi
2
1 n
.
On a donc, quels que soient les rels a et b , b a < < 0 :
) ( ) ( ) ( ) (
2
1
2
1
2
2
2
2
2
a F b F
a
nS
b
nS
P b
nS
a P
n n
n n n

Il y a une infinit de faons de choisir a et b de sorte que cette probabilit soit gale 1 . On
montre que les valeurs pour lesquelles a b est minimum (on cherche obtenir lintervalle de
confiance le plus troit possible) sont telles que
2
1 ) (
2
1
b F
n
et
2
) (
2
1
a F
n
.
La table de la loi du
2
donne la valeur
, n
z telle que, quand Z est une variable alatoire de loi
2
n
, alors
> ) ( 1 ) (
, , 2 n n
z F z Z P
n
.
Alors, pour
2 / , 1
n
z b et
2 / 1 , 1
n
z a , on a bien 1 ) (
2
2
2
a
nS
b
nS
P
n n
. Do le rsultat :
Proprit : Un intervalle de confiance de seuil pour le paramtre
2
de la loi ) , (
2
m N
est
]
]
]
]
,
,
]
]
]
]
,
,
,
2 / 1 , 1
2
2 / , 1
2
2 / 1 , 1
2
2 / , 1
2
) 1 (
,
) 1 (
,
n
n
n
n
n
n
n
n
z
S n
z
S n
z
nS
z
nS
Dans lexemple des niveaux de bruit, on a n = 20 et
2
n
s = 25.2.
Pour = 5%, on obtient
025 . 0 , 19
z = 32.85 et
975 . 0 , 19
z = 8.91. On en dduit quun intervalle de
confiance de seuil 5% pour la variance du niveau de bruit est [15.3, 56.6].
On constate que cet intervalle de confiance est trs large : lestimation de la variance est moins pr-
cise que celle de la moyenne.
Sous S+,
, n
z est obtenu par la commande qchisq(1-alpha,n).
Remarque 1 : ) ( ) (
2
b a P b a P , donc un intervalle de confiance de seuil pour
lcart-type est
]
]
]
]
,
,
,

n
n
n
n
S
z
n
S
z
n
2 / 1 , 1 2 / , 1
,

.
Remarque 2 : Lintervalle de confiance est de la forme ] , [
2
1
2
1 n n
S S et non pas ] , [
2 2
+
n n
S S .
Cest parce que la loi de probabilit de
2
n
S est plus facile manipuler que celle de +
2
n
S .
Exercice : Montrer quun intervalle de confiance de seuil pour le paramtre de la loi ex-
ponentielle est
]
]
]
]
]
]
]
,
,
,
,
,
n
i
i
n
n
i
i
n
X
z
X
z
1
2 / , 2
1
2 / 1 , 2
2
,
2

. Quobtient-on pour lexemple des dures de transfert ?
3.4.3. Estimation et intervalle de confiance pour une proportion
On dsire valuer la probabilit p quun vnement A se produise au cours dune exprience don-
ne : ) ( A P p . Pour cela, on fait n expriences identiques et indpendantes et on compte le nombre
x de fois o A sest produit. x est la ralisation dune variable alatoire X quon sait tre de loi
binomiale ) , ( p n B .
Exemple : Une lection oppose deux candidats A et B. Un institut de sondage interroge 800 personnes
sur leurs intentions de vote. 420 dclarent voter pour A et 380 pour B. Estimer le rsultat de
llection, cest estimer le pourcentage p de voix quobtiendra le candidat A. En supposant que les
rponses des 800 personnes interroges sont indpendantes, on est bien dans le cas de figure de
lestimation dune proportion.
3.4.3.1. Estimation ponctuelle
Remarquons que nous navons ici quune seule ralisation de X , cest dire un chantillon de taille
1. Pour une fois, la notation n ne dsigne pas la taille de lchantillon.
Il est naturel destimer la probabilit p que A se produise par le pourcentage
n
X
de fois o A sest
produit au cours des n expriences.
Par la mthode des moments, on a np X E ) ( , donc lEMM de p est
n
X
.
Par la mthode du maximum de vraisemblance, on a
x n x x
n
p p C x X P x p

) 1 ( ) ( ) ; ( L .
Do ) 1 ln( ) ( ln ln ) ; ( ln p x n p x C x p
x
n
+ + L .
Alors
) 1 ( 1
) ; ( ln
p p
np x
p
x n
p
x
x p
p

n
x
p .
Par consquent, lEMV, lEMM et lestimateur naturel sont tous gaux
n
X
p . Dterminons les
qualits de cet estimateur.
Biais : p np
n
X E
n n
X
E p E
1
) (
1
) ( ) ( , donc p est sans biais.
Convergence :
n
p p
p np
n
X Var
n
n
X
Var p Var
) 1 (
) 1 (
1
) (
1
) ( ) (
2 2

donc p est convergent.
Efficacit :
) 1 ( ) ( ) ( ) (
) (
) (
2
p p p I
n
p Var p I
p E
p
p Eff
]
]
]
,
,
avec
) 1 (
) 1 (
) 1 (
) 1 (
) (
) 1 (
) ; ( ln ) (
2 2 2 2
p p
n
p p
p np
p p
X Var
p p
np X
Var X p
p
Var p I
]
]
]
,
]
]
]
,
L ,
do 1 ) ( p Eff : p est un estimateur efficace. Do le rsultat :
Proprit :
n
X
p est lESBVM de p
3.4.3.2. Intervalle de confiance
Une fonction pivotale est une fonction de X et p dont la loi ne dpend pas de p . Il nen existe pas
de simple. On montre le rsultat suivant :
Proprit : Un intervalle de confiance exact de seuil pour p est :
]
]
]
]
]
]
,
,
,
,
,
+
+
+
+
+ + 2 / 1 ), 1 ( 2 ), ( 2 2 / , 2 ), 1 ( 2
1
1
1
,
1
1
1
X X n X X n
f
X
X n
f
X
X n
o les
, ,
2 1
f sont lire dans des tables de la loi de Fisher-Snedecor
Sous S+,
, ,
2 1
f est obtenu par la commande qf(1-alpha,nu1,nu2).
Si on ne dispose pas de logiciel, cet intervalle nest pas facile utiliser car il ncessite lemploi de
nombreuses tables. Cest pourquoi on utilise souvent un intervalle de confiance approch, bas sur
lapproximation de la loi binomiale par la loi normale.
En effet, si 5 np et 5 ) 1 ( p n , on peut approcher la loi binomiale ) , ( p n B par la loi normale
)) 1 ( , ( p np np N . Donc
) 1 ( p np
np X
est approximativement de loi ) 1 , 0 ( N , ce qui fournit la fonction

pivotale cherche.
On crit alors

(
(
,
\
,
,
(
j
1
) 1 (
u
p np
np X
P . Pour en dduire un intervalle de confiance, il suffit
dcrire
X np
np p
u

( ) 1

sous la forme B p A . On a :
0 ) 2 ( ) (
) 1 (
) (

) 1 (
2
2 2 2 2
2
+ + +
n
X
u X p u n p u
p np
np X
u
p np
np X

Ce trinme en p est toujours positif sauf entre ses racines. Donc ces deux racines sont les bornes de
lintervalle de confiance cherch. Puisque lapproximation de la loi binomiale par la loi normale nest
valable que quand n est suffisamment grand, cet intervalle porte le nom dintervalle de confiance
asymptotique.
Proprit : Un intervalle de confiance asymptotique de seuil pour p est :
]
]
]
]
]
]
]
,
,
,
,
,
,
+
+ + +
+
+ +
n
u
n
X n X
n
u
u
n
u
n
X
n
u
n
X n X
n
u
u
n
u
n
X
2
3 2
2 2
2
3 2
2 2
1
) (
4
2
,
1
) (
4
2
Souvent on nglige
2
u par rapport n , et on obtient un intervalle de confiance asymptotique

approch de seuil pour p :
]
]
]
]
,
,
,

+
3 3
) (
,
) (
n
X n X
u
n
X
n
X n X
u
n
X

Exemple du sondage : lESBVM de p est
n
X
p . Ici, % 5 . 52
800
420
p , donc linstitut de sondage
estime que le candidat A va gagner llection. Un intervalle de confiance exact de seuil pour p
est :
]
]
]
]
]
]
,
,
,
,
,
+ +
2 / 1 , 842 , 760 2 / , 840 , 762
421
380
1
1
,
420
381
1
1

f f
.
La table de la loi de Fisher-Snedecor permet de voir que, pour les valeurs usuelles de ,
2 / , 840 , 762
f
et
2 / 1 , 842 , 760
f sont de lordre de 1. Pour = 5%, on trouve en fait
025 . 0 , 840 , 762
f = 1.1486 et
975 . 0 , 842 , 760
f = 0.8702. On obtient alors comme intervalle de confiance exact [0.4896, 0.5600].
Pour = 5%,
05 . 0
u = 1.96. Lintervalle de confiance asymptotique de seuil 5% est alors [0.49036,
0.55940]. Mais
2
05 . 0
u = 3.8 est ngligeable par rapport n = 800. On peut donc utiliser lintervalle de
confiance asymptotique approch [0.49039, 0.55960].
On constate que lcart entre les trois intervalles est ngligeable. Cest souvent le cas, ce qui fait que
lintervalle asymptotique approch est trs largement utilis.
Pour simplifier, on peut dire que lon a une confiance de 95% dans le fait que le pourcentage de voix
obtenu par le candidat A sera compris entre 49% et 56%.
Le problme est que cet intervalle de confiance nest pas entirement situ au-dessus de 50%. Il sem-
ble donc possible que, malgr lestimation de 52.5%, le candidat A soit battu. On voit donc que ce qui
importe dans cette situation, ce nest pas vraiment destimer p , mais de dterminer si on peut admet-
tre avec une confiance raisonnable que p est suprieur 50%. Cest, entre autres, lobjet de la tho-
rie des tests dhypothses, qui sera aborde au chapitre suivant.
Une autre possibilit pour rsoudre le problme est de dterminer quelle condition lintervalle de
confiance pour p sera entirement au-dessus des 50%. Il sagit donc de rduire la taille de lintervalle
de confiance. Si on prend lintervalle asymptotique approch, sa largeur est
3
) (
2
n
X n X
u

. Donc,
pour diminuer cette largeur, on peut, au choix, diminuer
u ou augmenter n .
Diminuer
u , cest augmenter , donc augmenter la probabilit de se tromper en affirmant que le

candidat est lu. On retrouve ce qui a dj t dit : pour obtenir des intervalles de confiance exploi-
tables, il faut parfois accepter un risque derreur assez lev.
Augmenter n , cest augmenter le nombre de personnes interroges. On peut mme, fix, dter-
miner n de faon obtenir la largeur que lon veut pour lintervalle de confiance.
Soit l une largeur objectif :
n
p p
u
n
X n X
u l
) 1 (
2
) (
2
3

.
Or
4
1
) 1 ( ], 1 , 0 [ p p p , donc
n
u
n
p p
u

) 1 (
2 . Par consquent, si on dtermine n tel que
l
n
u
<
, cest dire
2
2
l
u
n

> , on est sr que la largeur de lintervalle de confiance sera infrieure l .
Pour = 5% et n = 800, % 7
800
96 . 1

n
u
. La prcision sur lestimation de p est donc, avec une

confiance de 95%, de plus ou moins 3.5%. Si on veut, avec le mme niveau de confiance, avoir une
prcision infrieure 1%, il faudra interroger au moins 38416
01 . 0
96 . 1
2
2
2
2

l
u
personnes. Cest rare-

ment le cas dans les sondages, pour lesquels le nombre de personnes interroges est en gnral de
lordre de 1000.
En conclusion, il faut toujours tenir compte du nombre de personnes interroges pour interprter les
rsultats dun sondage. Cest pour cela quil est obligatoire de prciser ce nombre quand les rsultats
du sondage sont publis.
4.1. Introduction : le problme de dcision
Dans tous les domaines, de lexprimentation scientifique la vie quotidienne, on est amens pren-
dre des dcisions au vu de rsultats dexpriences ou dobservation de phnomnes. Par exemple :
contrle de qualit : au vu du nombre dobjets dfectueux produits par une machine, on doit
dcider si ce nombre est conforme une certaine norme, dcider si la machine est remplacer
ou pas.
essais thrapeutiques : dcider si un nouveau traitement mdical est meilleur quun ancien au
vu du rsultat de son exprimentation sur des malades.
justice : dcider si laccus est innocent ou coupable partir des informations acquises pen-
dant le procs.
Dans chaque cas, le problme de dcision consiste trancher, au vu dobservations, entre une hypo-
thse appele hypothse nulle, note
0
H , et une autre hypothse dite hypothse alternative, note
1
H . En gnral, on suppose quune et une seule de ces deux hypothses est vraie.
Un test dhypothses est une procdure qui permet de choisir entre ces deux hypothses.
Dans un problme de dcision, deux types derreurs sont possibles :
erreur de premire espce : dcider que
1
H est vraie alors que
0
H est vraie.
erreur de seconde espce : dcider que
0
H est vraie alors que
1
H est vraie.
Les consquences de ces deux erreurs peuvent tre dimportances diverses. En gnral, une des er-
reurs est plus grave que lautre :
contrle de qualit : si on dcide tort que la machine nest pas aux normes, on engagera des
dpenses inutiles de rparation ou de changement de matriel; si on dcide tort quelle est
aux normes, on risque de produire de mauvaises pices, ce qui peut aboutir un mcontente-
ment des clients, voire des problmes de scurit.
essais thrapeutiques : on peut adopter un nouveau traitement moins efficace, voire pire que
lancien, ou se priver dun nouveau traitement plus efficace que lancien.
justice : on peut condamner un innocent ou acquitter un coupable.
A toute dcision correspond une probabilit de dcider juste et une probabilit de se tromper :
la probabilit de lerreur de premire espce, qui est la probabilit de rejeter tort
0
H , est
note et est appele seuil ou niveau de signification du test. Cest la mme terminologie
que pour les intervalles de confiance, ce qui nest pas un hasard, comme nous le verrons plus
loin. Dans certains contextes, cette probabilit est appele risque fournisseur.
la probabilit de lerreur de deuxime espce est note 1 et est parfois appele risque
client.
est la probabilit de dcider
1
H ou de rejeter
0
H raison. Elle est appele puissance du
test.
1 est parfois appele niveau de confiance du test.
Chapitre 4 : Tests dhypothses
Le tableau 4.1. rsume simplement le rle de ces probabilits.
Vrit
Dcision
0
H
1
H
0
H
1
1
1
H

Tableau 4.1. : probabilits de bonne et mauvaise dcision dans un test dhypothses
Lidal serait de diminuer les deux risques derreur en mme temps. Malheureusement, on montre
quils varient en sens inverse, cest--dire que toute procdure diminuant va augmenter 1 et
rciproquement. Dans la pratique, on va donc considrer que lune des deux erreurs est plus impor-
tante que lautre, et tacher dviter que cette erreur se produise. Il est alors possible que lautre erreur
survienne. Par exemple, dans le cas du procs, on fait en gnral tout pour viter de condamner un
innocent, quitte prendre le risque dacquitter un coupable.
On va choisir
0
H et
1
H de sorte que lerreur que lon cherche viter soit lerreur de premire es-
pce. Mathmatiquement cela revient se fixer la valeur du seuil du test . Plus la consquence de
lerreur est grave, plus sera choisi petit. Les valeurs usuelles de sont 10%, 5%, 1%,
On appelle rgle de dcision une rgle qui permette de choisir entre
0
H et
1
H au vu des observa-
tions
n
x x ,...,
1
, sous la contrainte que la probabilit de rejeter tort
0
H est gale fix. Une ide
naturelle est de conclure que
0
H est fausse si il est trs peu probable dobserver
n
x x ,...,
1
quand
0
H
est vraie.
On appelle rgion critique du test, et on note W , lensemble des valeurs des observations
n
x x ,...,
1
pour lesquelles on rejettera
0
H . La rgion critique est souvent dtermine laide du bon sens. Si-
non, on utilisera une fonction pivotale ou des thormes doptimalit. W dpend du seuil et est
dtermine a priori, indpendamment de la valeur des observations. Ensuite, si les observations ap-
partiennent W , on rejette
0
H , sinon on ne la rejette pas.
Remarque : il vaut mieux dire ne pas rejeter
0
H que accepter
0
H . En effet, si on rejette
0
H ,
cest que les observations sont telles quil est trs improbable que
0
H soit vraie. Si on ne rejette pas
0
H , cest quon ne dispose pas de critres suffisants pour pouvoir dire que
0
H est fausse. Mais cela
ne veut pas dire que
0
H est vraie. Un test permet de dire quune hypothse est trs probablement
fausse ou seulement peut-tre vraie.
Par consquent, dans un problme de test, il faut choisir les hypothses
0
H et
1
H de faon ce que
ce qui soit vraiment intressant, cest de rejeter
0
H .
Rcapitulons lensemble de la dmarche suivre pour effectuer un test dhypothses :
1. Choisir
0
H et
1
H de sorte que ce qui importe, cest le rejet de
0
H .
2. Se fixer selon la gravit des consquences de lerreur de premire espce.
3. Dterminer la rgion critique W .
4. Regarder si les observations se trouvent ou pas dans W .
5. Conclure au rejet ou au non-rejet de
0
H .
Pour le mme problme de dcision, plusieurs tests (cest--dire plusieurs rgions critiques) de mme
seuil sont souvent possibles. Dans ce cas, le meilleur de ces tests est celui qui minimisera la probabi-
lit de lerreur de seconde espce, cest dire celui qui maximisera la puissance . Le meilleur des
tests possibles de seuil fix est le test le plus puissant. Il arrive, mais pas toujours, que lon puisse le
dterminer.
Dans de nombreux cas, les hypothses dun test peuvent se traduire sur la valeur dun paramtre
dune loi de probabilit. Les tests de ce type sont appels tests paramtriques. Dans lexemple de
llection, le problme est de trancher entre les deux hypothses 2 / 1 p et 2 / 1 > p .
On sintressera ici des tests paramtriques portant sur un chantillon et des tests portant sur deux
chantillons. Ces derniers tests permettent de comparer deux populations. On pourra par exemple
rpondre des questions du type :
Le nouveau traitement est-il plus efficace que lancien ?
Les processeurs de la nouvelle gnration sont-ils plus rapides que les anciens ?
Les tests qui ne portent pas sur la valeur dun paramtre sont appels tests non paramtriques. Il en
existe de tous les types. On ne sintressera ici quaux tests permettant de :
- dterminer si un chantillon provient dune loi de probabilit donne : tests dadquation
- dterminer si deux chantillons proviennent de la mme loi de probabilit : tests de comparaison
dchantillons.
4.2. Tests paramtriques sur un chantillon
4.2.1. Formalisation du problme
Dans cette section, on supposera que les observations
n
x x ,...,
1
sont les ralisations de variables
alatoires
n
X X ,...,
1
indpendantes et de mme loi, dpendant dun paramtre inconnu . On suppo-
sera que est un rel. Si est un paramtre vectoriel, on fera des tests sur chacune de ses compo-
santes. Par exemple, on fera des tests sur la moyenne de la loi normale, puis des tests sur la variance,
mais pas sur les deux en mme temps.
Une hypothse est simple si elle est du type
0
, o
0
est un rel fix. Une hypothse est
composite si elle est du type A o A est une partie de R non rduite un lment.
4.2.1.1. Tests dhypothses simples
Un test dhypothses simples est un test du type
0
H :
0
contre
1
H :
1
.
Un tel test est un cas dcole : il permet de dire laquelle des deux valeurs
0
et
1
est la plus vrai-
semblable au vu des observations. Mais il ne correspond pas un problme de dcision tel quil a t
formul plus haut, dans lequel une des deux hypothses doit tre vraie. Ici, il est possible que ne
soit gal ni
0
ni
1
.
Le seuil du test est la probabilit de rejeter tort
0
H : ( )
0 1
; ) ,..., ( W X X P
n
.
La puissance du test est la probabilit de rejeter raison
0
H : ( )
1 1
; ) ,..., ( W X X P
n
.
4.2.1.2. Tests dhypothses composites
Un test dhypothses composites est un test dans lequel lune au moins des deux hypothses est
composite. Les tests les plus usuels sont du type :
test bilatral :
0
H :
0
contre
1
H :
0
(seule
1
H est composite).
test unilatral :
0
H :
0
contre
1
H :
0
>
ou
0
H :
0
contre
1
H :
0
< (
0
H et
1
H sont composites).
On pourrait aussi imaginer des tests du type
0
H : [ ]
2 1
, contre
1
H :
2 1
ou > < .
Toutes les variantes sont envisageables.
Quand une hypothse est composite, la notion de puissance est reprciser. En effet, a t dfinie
comme la probabilit de rejeter
0
H raison, cest dire de rejeter
0
H quand
1
H est vraie. Or, dans
les exemples ci-dessus, il y a une infinit de valeurs de pour lesquelles
1
H est vraie. Donc la puis-
sance du test doit dpendre de la vraie valeur de , ce qui nous amne redfinir la puissance et le
seuil dun test :
Dfinition : La puissance dun test portant sur la valeur dun paramtre rel est la fonction
de dfinie par :
( )
; ) ,..., ( ) (
] 1 , 0 [ :
1
W X X P
R
n

Le seuil du test est ) (

0
Sup
H
.
) ( est la probabilit de rejeter
0
H quand la vraie valeur du paramtre est .
) (
0
Sup
H
est la probabilit maximale de rejeter
0
H alors que
0
H est vraie, cest dire la plus
forte probabilit de rejeter tort
0
H . Par exemple, pour un test bilatral, ) (
0
, et pour le pre-
mier test unilatral prsent, ) (
0

Sup
.
Une fois
0
H et
1
H dtermines et fix, il faut construire la rgion critique W . Lexemple intro-
ductif suivant va permettre de comprendre comment on peut dterminer une rgion critique.
4.2.2. Exemple introductif : tests sur la moyenne dune loi normale
4.2.2.1. Modlisation
Pour apaiser un certain type de maux de tte, on a lhabitude de traiter les malades avec un mdica-
ment A. Une tude statistique a montr que le temps de disparition de la douleur chez les malades
traits avec A tait une variable alatoire de loi normale ) , (
2
0 0
m N , avec 30
0
m mn et 5
0

mn. Un laboratoire pharmaceutique a conu un nouveau mdicament B et dsire tester son efficacit.
Pour cela, le nouveau mdicament a t administr n malades cobayes, et on a mesur le temps de
disparition de la douleur pour chacun dentre eux :
n
x x ,...,
1
. Une tude de statistique descriptive sur
ces donnes a amen les bio-pharmaciens considrer que ce temps tait une variable alatoire de loi
normale ) , (
2
m N .
Remarque : En toute rigueur, on ne devrait pas modliser une dure (positive) par une variable ala-
toire qui, comme pour la loi normale, peut prendre des valeurs ngatives. En pratique, on peut le faire
quand, pour les lois considres, la probabilit que la variable soit ngative est ngligeable.
Leffet du nouveau mdicament se traduit facilement sur la valeur de la dure moyenne de disparition
de la douleur :

0
m m : le mdicament B a en moyenne le mme effet que le mdicament A

0
m m < : le mdicament B est en moyenne plus efficace que le mdicament A

0
m m > : le mdicament B est en moyenne moins efficace que le mdicament A
Nous reviendrons ultrieurement sur linterprtation de la valeur de lcart-type en termes
defficacit du mdicament.
Pour savoir sil faut commercialiser B, il faut trancher entre ces 3 hypothses. Limportant est de ne
pas se tromper si on dcide de changer de mdicament : il est prfrable de conserver un mdicament
moins performant que le nouveau que dadopter un mdicament moins performant que lancien. Il faut
donc que lhypothse
0
m m < corresponde au rejet de
0
H .
Par consquent, nous allons tester
0
H :
0
m m contre
1
H :
0
m m < au vu de n ralisations
indpendantes
n
x x ,...,
1
de la loi ) , (
2
m N .
4.2.2.2. Premire ide
Puisque
n
X est lESBVM de m, une premire ide est de conclure que
0
m m < si et seulement si
0
m x
n
< : la dure moyenne de disparition de la douleur sur les malades traits avec B est plus petite
que ce quelle est sur les malades traits avec A.
Cela revient proposer comme rgion critique du test
0 1
; ) ,..., ( m x x x W
n n
< .
Si
n
x est beaucoup plus petit que
0
m , il est en effet trs probable que B soit plus efficace que A.
Mais si
n
x est proche de
0
m tout en tant plus petit, on risque de se tromper si on affirme que
0
m m < . La probabilit de cette erreur, qui nest autre que le risque de premire espce , est trs
facile calculer :
(
,
\
,
(
j
(
(
,
\
,
,
(
j
<
<

n
m m
Sup m n
m m
n
m X
P Sup
m m X P Sup m Sup
m m
n
m m
n
m m H

0 0
0
0 0
0 0
;
) ; ( ) (
o est la fonction de rpartition de la loi normale centre-rduite. En effet, si
n
X X ,...,
1
sont ind-
pendantes et de mme loi ) , (
2
m N , alors
n
X est de loi ) , (
2
n
m N

et n
m X
n
est de loi
) 1 , 0 ( N .
) (u est une fonction croissante de u , donc (
,
\
,
(
j
n
m m
m

0
) ( est une fonction dcroissante de
m.
Par consquent,
2
1
) 0 ( ) ( ) (
0
0

m m Sup
m m
.
Il y a donc une chance sur deux de se tromper si on dcide que B est plus efficace que A quand
0
m x
n
< . Cest videmment beaucoup trop.
4.2.2.3. Deuxime ide
On voit quil faut en fait rejeter
0
H quand
n
x est significativement plus petit que
0
m . Cela revient
prendre une rgion critique de la forme
l x x x W
n n
< ; ) ,..., (
1
, o
0
m l <
.
La borne
l dpend du seuil que lon sest fix. Moins on veut risquer de rejeter tort
0
H , plus
sera petit, et plus
l sera petit. Le sens de lexpression significativement plus petit est li la va-

leur de .
Un calcul analogue au prcdent montre que :
(
,
\
,
(
j
(
,
\
,
(
j
<

n
m l
n
m l
Sup m l X P Sup m Sup
m m
n
m m H

0
0 0 0
) ; ( ) (
On obtient donc ) (
1 0

n
m l
, do

2 0
1
0
) ( u
n
m
n
m l +

, avec les nota-
tions habituelles pour les quantiles de la loi normale.
En conclusion, on a :
Proprit : Un test de seuil de
0
H :
0
m m contre
1
H :
0
m m < est dtermin par la
rgion critique
<

2 0 1
; ) ,..., ( u
n
m x x x W
n n
4.2.2.4. Troisime ide
La rgion critique propose ci-dessus pose un problme dj rencontr propos des intervalles de
confiance : ce test est inutilisable si on ne connat pas la vraie valeur de , ce qui est toujours le cas
en pratique. Pour pallier cet inconvnient, on utilise la mme procdure que pour les intervalles de
confiance : on remplace par son estimateur
n
S , ce qui ncessite de remplacer la loi normale par la
loi de Student.
Rappelons en effet que si
n
X X ,...,
1
sont indpendantes et de mme loi ) , (
2
m N , n
S
m X
n
n
est
de loi ) 1 ( n St . Alors, partir dune rgion critique de la forme
l x x x W
n n
< ; ) ,..., (
1
, on ob-
tient :
(
(
,
\
,
,
(
j
(
(
,
\
,
,
(
j
(
(
,
\
,
,
(
j
<
<

n
S
m l
F n
S
m l
F Sup
m n
S
m l
n
S
m X
P Sup m l X P Sup m Sup
n
n St
n
n St
m m
n n
n
m m
n
m m H
0
) 1 ( ) 1 (
0
0 0 0
; ) ; ( ) (

Do
2 , 1
1 0
) (
) 1 (

n
n
t F n
S
m l
n St
, avec les notations habituelles pour les quantiles de la loi
de Student, et finalement
2 , 1 0

n
n
t
n
S
m l .
En conclusion, on a :
Proprit : Un test de seuil de
0
H :
0
m m contre
1
H :
0
m m < est dtermin par la
rgion critique

<
2 , 1 0 1
; ) ,..., (
n
n
n n
t
n
s
m x x x W
Remarque : La rgion critique peut aussi scrire
<
2 , 1
0
1
; ) ,..., (
n
n
n
n
t n
s
m x
x x W .
4.2.2.5. Exemple
Avec le mdicament A, la dure moyenne de disparition de la douleur tait 30 mn. On a administr le
mdicament B 12 malades et relev les dures de disparition de la douleur suivants :
25 28 20 32 17 24 41 28 25 30 27 24
La moyenne empirique de ces donnes est
n
x = 26.75 et lcart-type estim est
n
s

= 6.08.
On dcide de ne commercialiser B que si on est sr 95% quil est plus efficace que A. Cela revient
donc faire un test de
0
H : 30 m contre
1
H : 30 < m au seuil = 5%.
On voit quil sagit finalement de dterminer si 26.75 est suffisamment infrieur 30 pour que lon
puisse conclure que le mdicament B rduit vraiment la dure de disparition de la douleur.
Daprs ce qui prcde, on rejettera
0
H si
2 , 1
0
<
n
n
n
t n
s
m x
.
Or 853 . 1 12
08 . 6
30 75 . 26
0

n
s
m x
n
n
et 796 . 1
1 . 0 , 11 2 , 1

t t
n
.
-1.853 < -1.796 , donc les observations sont dans la rgion critique. On rejette donc
0
H , ce qui signi-
fie que lon conclut que B est plus efficace que A, avec moins de 5% de chances de se tromper. Par
consquent, on peut lancer la commercialisation du mdicament B.
4.2.2.6. Remarques
Remarque 1 : On voit ici le rle fondamental du seuil . Si on avait pris = 1%, on aurait eu
718 . 2
02 . 0 , 11
t . Comme - 1.853 > - 2.718, on naurait pas rejet
0
H , donc on naurait pas adopt le
mdicament B.
Ce phnomne est normal : se fixer un seuil petit revient viter au maximum dadopter tort le
mdicament B. Or un bon moyen de ne pas prendre ce risque, cest de conserver le mdicament A. Le
test de seuil = 0 consiste conserver le mdicament A quelles que soient les observations : la pro-
babilit de rejeter tort
0
H est nulle quand on ne rejette jamais
0
H ! En pratique, plus est petit,
moins on aura tendance rejeter
0
H .
Il est donc fondamental de bien savoir valuer les risques et de choisir en connaissance de cause.
Remarque 2 : La remarque prcdente met en vidence lexistence dun seuil critique
c
tel que pour
tout seuil suprieur
c
, on rejettera
0
H , et pour tout seuil infrieur
c
, on ne rejettera pas
0
H .
c
vrifie
c
n
n
n
t n
s
m x
2 , 1
0
. Sur lexemple, la table de la loi de Student permet de

constater que
1 . 0 , 11 05 . 0 , 11
1.796 - 853 . 1 201 . 2 t t < < . On en dduit que 5% < 2
c
< 10%,
do 2.5% <
c
< 5%. Cette valeur est appele la p-valeur. Cest elle qui est calcule par les logi-
ciels de statistique.
Sous S+, la commande permettant deffectuer un test sur la moyenne dune loi normale est t.test.
Loption alternative permet de prciser lequel du test bilatral et des deux tests unilatraux on
choisit. Sur lexemple, on obtient :
> t.test(x,alternative="less",mu=30)
One-sample t-Test
data: x
t = -1.8526, df = 11, p-value = 0.0455
alternative hypothesis: true mean is less than 30
95 percent confidence interval:
NA 29.90056
sample estimates:
mean of x
26.75
La p-valeur est ici
c
= 4.55%. Cela signifie que, pour tout seuil suprieur 4.55% (cest le cas de
5%), on rejettera
0
H , donc on conclura que B est plus efficace que A, et pour tout seuil infrieur
4.55% (cest le cas de 1%), on ne rejettera pas
0
H , donc on conclura que B nest pas plus efficace
que A.
Remarque 3 : Pour des raisons de symtrie, un test de
0
m m contre
0
m m > aura pour rgion
critique
>
2 , 1
0
1
; ) ,..., (
n
n
n
n
t n
s
m x
x x W .
Remarque 4 : Pour le test bilatral de
0
H :
0
m m contre
1
H :
0
m m , le bon sens veut que
lon rejette
0
H si
n
x est significativement loign de
0
m . On prendra donc une rgion critique du
type
l m x x x W
n n
>
0 1
; ) ,..., ( . Alors, comme prcdemment on obtient :
(
(
,
\
,
,
(
j
>
> >
0
0
0 0 0
; ) ; ( ) ; (
0
m n
S
l
n
S
m X
P m l m X P m l m X P Sup
n n
n
n n
m m
On en dduit que
, 1
n
n
t n
S
l
, do
, 1
n
n
t
n
S
l . On obtient donc comme rgion critique :
>

>
, 1
0
1 , 1 0 1
; ) ,..., ( ; ) ,..., (
n
n
n
n n
n
n n
t n
s
m x
x x t
n
s
m x x x W
Remarque 5 : Pour viter dalourdir les critures, on crit souvent une rgion critique en omettant
lexpression ; ) ,..., (
1 n
x x , ce qui donne par exemple
<
2 , 1
0
n
n
n
t n
s
m x
W . Mais il faut tou-
jours garder lesprit que la rgion critique est lensemble des valeurs des observations pour lesquel-
les on rejettera
0
H .
4.2.2.7. Le test de Student
Finalement, on dispose dune procdure permettant deffectuer le test bilatral et les deux tests unila-
traux portant sur la moyenne de la loi normale. Ces trois tests sont connus sous le nom unique de test
de Student.
Rcapitulatif : Test de Student sur la moyenne dune loi normale :
Test de
0
m m contre
0
m m > :
>
2 , 1
0
n
n
n
t n
s
m x
W
Test de
0
m m contre
0
m m < :
<
2 , 1
0
n
n
n
t n
s
m x
W
Test de
0
m m contre
0
m m :
>
, 1
0
n
n
n
t n
s
m x
W
Remarque : Les tests ci-dessus ont t prsents comme des tests portant sur la valeur de la moyenne
dune loi normale. En fait, grce au thorme central-limite, on sait que, quand n est assez grand,
n
X
est approximativement de loi normale, quelle que soit la loi de probabilit des observations.
Cette proprit permet de montrer quen pratique, pour 30 n , on pourra utiliser le test de Student
pour faire un test sur la valeur de la moyenne de nimporte quelle loi de probabilit. On dit que le test
de Student est robuste la non-normalit.
4.2.3. Lien entre tests dhypothses et intervalles de confiance
Dans le test bilatral, on rejette lhypothse
0
m m condition que
, 1
0
>
n
n
n
t n
s
m x
. Or :
,
ou
ou
, 1 , 1 0
, 1 0 , 1 0
, 1 0 , 1 0 , 1
0
]
]
]
,
,
+
+ >
<
>
< >

n
n
n n
n
n
n
n
n n
n
n
n
n
n n
n
n n
n
n
t
n
s
x t
n
s
x m
t
n
s
x m t
n
s
x m
t
n
s
m x t
n
s
m x t n
s
m x
Cet intervalle nest autre que lintervalle de confiance usuel pour la moyenne de la loi normale, vu en
3.4.2.1. Il y a donc un lien troit entre les tests dhypothses et les intervalles de confiance.
Cest logique : on a une confiance 1 dans le fait que m appartient lintervalle de confiance. Si
0
m nappartient pas cet intervalle, il est vraiment douteux que
0
m m . On a mme une confiance
1 dans le fait que
0
m m . On peut donc construire un test dhypothses sur la valeur dun para-
mtre partir dun intervalle de confiance pour ce paramtre.
Or, pour construire un tel intervalle, on a eu besoin dune fonction pivotale. Par consquent, pour
construire un test paramtrique, il suffit de connatre une fonction pivotale. Dans le cas de la moyenne
de la loi normale, la fonction pivotale est n
S
m X
n
n
.
La dualit entre intervalles de confiance et tests dhypothses fait que, sous S+, la commande t.test
permet la fois deffectuer un test et dobtenir un intervalle de confiance sur la moyenne de la loi
normale. Ainsi, la commande t.test(x,conf.level=0.95) effectue par dfaut le test de 0 m
contre 0 m , et donne un intervalle de confiance pour m au seuil 5%.
Dans lexemple des niveaux de bruit, on obtient :
> t.test(x,conf.level=0.95)
One-sample t-Test
data: x
t = 55.7889, df = 19, p-value = 0
alternative hypothesis: true mean is not equal to 0
61.82992 66.65008
sample estimates:
mean of x
64.24
Lintervalle de confiance de seuil 5% pour m est [61.82992, 66.65008], ce qui est bien le rsultat
dj nonc dans la section 3.4.2.1. Etant donn que 0 nest pas, et de loin, dans cet intervalle,
lhypothse 0 m est trs largement rejete : la p-valeur vaut 0 (en fait un nombre extrmement
proche de 0).
4.2.4. Comment construire un test dhypothses
Finalement, le plus simple pour construire un test dhypothses portant sur la valeur dun paramtre
est de se fier son bon sens. Si on connat un estimateur
n
de , on procdera de la faon sui-

vante :
Test de
0
contre
0
> : on rejette
0
H si
n
est trop grand .
l W
n
>
.
Test de
0
contre
0
< : on rejette
0
H si
n
est trop petit .
l W
n
<
.
Test de
0
contre
0
: on rejette
0
H si
0

n
est trop grand ou bien si
n
est soit trop grand soit trop petit .

, 2 , 1 0
ou

l l l W
n n n
> < > .
Pour dterminer
, 2 , 1
, , l l l , il faut crire ( ) ; ) ,..., (
1
0
W X X P Sup
n
H
. Par exemple, dans le pre-
mier cas, )
(
0

l P Sup
n
>
. Pour pouvoir calculer )
(

l P
n
> , il faut utiliser une fonction pivo-
tale.
Malheureusement, cette procdure de bon sens ne permet pas toujours de rsoudre le problme. Cest
le cas par exemple quand la loi de probabilit de
n
sous
0
H est complexe et quon ne peut pas trou-
ver de fonction pivotale. Dautre part, le test obtenu par cette approche nest pas forcment optimal,
au sens o il peut en exister de plus puissants.
Il existe en fait des mthodes statistiques sophistiques permettant de rpondre ces deux problmes.
Le rsultat le plus important est le thorme de Neyman-Pearson. Mais ces procdures dbordent du
cadre de ce cours et ne seront pas voques ici.
4.2.5. Tests sur la variance dune loi normale
On suppose ici que les observations
n
x x ,...,
1
sont les ralisations de variables alatoires
n
X X ,...,
1
indpendantes et de mme loi normale ) , (
2
m N . On souhaite tester par exemple
0
H :
2
0
2

contre
1
H :
2
0
2
> .
Puisque lESBVM de
2
est
2
n
S , il est naturel de rejeter
0
H si
2
n
S est trop grand , donc de
considrer une rgion critique de la forme
l s W
n
>
2
. Pour calculer ) (
2
0

l S P Sup
n
H
> , on
utilise la fonction pivotale
2
2
) 1 (
n
S n
, qui est de loi
2
1 n
. On obtient :
(
(
,
\
,
,
(
j

]
]
]
,
,
(
(
,
\
,
,
(
j

(
(
,
\
,
,
(
j

>

>

2
0
2
2 2
2
2
) 1 (
1
) 1 (
1
) 1 ( ) 1 (
) (
2
1
2
1
2
0
2
2
0
2 2
0
2

l n
F
l n
F Sup
l n S n
P Sup l S P Sup
n n
n
n
Do
, 1
2
0 1
2
0
1
) 1 (
1
2
1

n
z
n
F
n
l
n
, et la rgion critique du test est
>

, 1
2
0 2
1
n n
z
n
s W
ou
>

, 1
2
0
2
) 1 (
n
n
z
s n
W .
On aboutirait au mme rsultat en partant dun intervalle de confiance de seuil pour
2
du type
[ ] a , 0 .
Exercice : construire le deuxime test unilatral et le test bilatral.
Finalement, on obtient :
Proprit : Tests sur la variance dune loi normale :
Test de
2
0
2
contre
2
0
2
> :
>

, 1
2
0
2
) 1 (
n
n
z
s n
W
Test de
2
0
2
contre
2
0
2
< :
<

1 , 1
2
0
2
) 1 (
n
n
z
s n
W
Test de
2
0
2
contre
2
0
2
:
>

<

2 / , 1
2
0
2
2 / 1 , 1
2
0
2
) 1 (
ou
) 1 (

n
n
n
n
z
s n
z
s n
W
Remarque : Contrairement ce qui se passait pour la moyenne, ces tests ne sont pas gnralisables
des tests sur la variance dune loi non normale, car on na pas lquivalent du thorme central-limite
pour
2
n
S .
Dans lexemple de lessai thrapeutique, la variance mesure la variabilit de leffet du mdicament.
La variabilit est faible si leffet du mdicament est peu prs le mme pour tout le monde, et elle est
forte si les effets peuvent tre trs diffrents dun individu un autre. On a videmment intrt avoir
une variabilit assez faible pour bien contrler les effets dun traitement. Cette variabilit se traduit
sur la variance de la loi normale qui modlise le temps de disparition de la douleur chez les malades
traits.
Avec le mdicament A, lcart-type tait 5
0
mn, ce qui signifie que, pour 95% des malades, la
douleur disparat entre 20 2
0
0
m mn et 40 2
0
0
+ m mn. Avec le mdicament B, on estime
par
n
s = 6.08 mn. La variabilit du second mdicament est-elle significativement suprieure
celle du premier ?
Cest un test de 5 contre 5 > , videmment identique au test de 25
2
contre
25
2
> . La rgion critique est
>

, 1
2
0
2
) 1 (
n
n
z
s n
W .
Au seuil = 5%, on a 7 . 19
% 5 , 11
z . 3 . 16
25
08 . 6 11
) 1 (
2
2
0
2
n
s n
.
Comme 16.3 < 19.7, on nest pas dans la rgion critique, donc on ne rejette pas
0
H : on na pas de
preuves suffisantes pour conclure que la variabilit de leffet de B est suprieure celle de A. La dif-
frence entre 6.08 et 5 nest pas significative au seuil choisi.
Exercice : Construire les trois tests usuels portant sur le paramtre de la loi exponentielle.
4.2.6. Tests sur une proportion
On dsire faire des tests sur la probabilit ) ( A P p quun vnement A se produise au vu du nombre
x de fois o A sest produit au cours dune srie de n expriences identiques et indpendantes. On a
dj vu en 3.4.3. que x est la ralisation dune variable alatoire X de loi binomiale ) , ( p n B et que
lESBVM de p est
n
X
p .
Pour construire des tests, on peut partir de lintervalle de confiance exact vu en 3.4.3.2. Mais compte-
tenu de sa complexit, on se contentera de lintervalle de confiance asymptotique, bas sur
lapproximation de la loi binomiale ) , ( p n B par la loi normale )) 1 ( , ( p np np N .
) 1 ( p np
np X
est ap-
proximativement de loi ) 1 , 0 ( N , ce qui fournit la fonction pivotale cherche et permet de donner di-
rectement les tests sur une proportion :
Proprit : Tests asymptotiques sur une proportion :
Test de
0
p p contre
0
p p > :
>
2
0 0
0
) 1 (
u
p np
np x
W
Test de
0
p p contre
0
p p < :
<
2
0 0
0
) 1 (
u
p np
np x
W
Test de
0
p p contre
0
p p :
>

u
p np
np x
W
) 1 (
0 0
0
Dans lexemple du sondage de la section 3.4.3., on a interrog n = 800 personnes et x = 420 dentre
elles ont dclar vouloir voter pour A. On a donc estim le pourcentage p de voix quobtiendra le
candidat A par % 5 . 52
800
420
p . Mais on a vu quun intervalle de confiance de seuil 5% pour ce
pourcentage est [49%, 56%], dont une partie est situe sous les 50%.
En fait, la seule chose qui intresse le candidat A, cest de savoir sil va tre lu ou pas. Il sagit donc
de faire un test dans lequel le rejet de
0
H correspond llection de A. Par consquent, on va tester
2 / 1 p contre 2 / 1 > p .
414 . 1
4 / 800
2 / 800 420
) 1 (
0 0
0

p np
np x
. Au seuil 5%, 645 . 1
1 . 0
u .
1.414 < 1.645, donc on nest pas dans la rgion critique, donc on ne rejette pas
0
H : on ne peut pas
affirmer que A sera lu avec moins de 5% de chances de se tromper.
La p-valeur du test est la valeur
c
de telle que 414 . 1
) 1 (
) 1 (
0 0
0 1
2

p np
np x
u
c
c

. On a
donc % 86 . 7 ) 414 . 1 ( 1
c
.
Sous S+, on peut effectuer le test exact grce la commande binom.test. On obtient sur lexemple
du sondage :
> binom.test(420,800,p=0.5,alternative="greater")
Exact binomial test
data: 420 out of 800
number of successes = 420, n = 800, p-value = 0.0839
alternative hypothesis: true p is greater than 0.5
La p-valeur est 8.39 %, ce qui est bien cohrent avec la valeur donne par le test asymptotique.
En conclusion, si on dcide de conclure, au vu du sondage, que le candidat A sera lu, on a environ
8% de chances de se tromper. Tout ce qui vient dtre dit nest videmment valable que si les rsultats
du sondage sont bien reprsentatifs de ce qui se passera le jour de llection, ce qui est loin dtre
certain.
4.3. Tests paramtriques sur deux chantillons
Dans lexemple de lessai thrapeutique, nous avons suppos que la dure de disparition de la douleur
avec le mdicament A tait de loi normale ) , (
2
0 0
m N , o
0
m et
0
taient connus. En ralit,
0
m
et
0
ne sont pas connus mais estims partir dobservations faites sur des malades traits avec le
mdicament A. Les donnes sont donc en fait constitues de deux chantillons correspondant aux
deux mdicaments.
Si les traitements ont t appliqus sur deux groupes de personnes diffrentes, on peut raisonnable-
ment considrer que les chantillons sont indpendants. Mais il est possible que lon donne successi-
vement les deux mdicaments aux mmes malades, pour dterminer lequel est le plus efficace. La
premier cas correspond un test sur deux chantillons indpendants et le second un test sur deux
chantillons apparis.
4.3.1. Comparaison de deux chantillons gaussiens indpendants
Il est trs frquent que lon ait comparer deux populations selon un critre quantitatif particulier. Par
exemple :
performances de deux produits concurrents
occurrences de maladies chez les fumeurs et les non-fumeurs
rsultats scolaires des filles et des garons
Statistiquement, cela signifie que lon dispose dobservations de variables alatoires
1
,...,
1 n
X X ind-
pendantes et de mme loi constituant le premier chantillon, et de variables alatoires
2
,...,
1 n
Y Y ind-
pendantes et de mme loi constituant le deuxime chantillon, les
i
X et les
j
Y tant indpendants.
Un problme important est de dterminer si les deux chantillons sont issus de la mme loi de proba-
bilit. Ce problme ne peut se traiter que de faon non-paramtrique, ce qui sera fait en 4.4.2.
Dans cette section, on supposera que les deux chantillons sont de loi normale et on comparera leurs
moyennes et leur variances.
1
,...,
1 n
X X sont supposes de loi ) , (
2
1 1
m N et
2
,...,
1 n
Y Y de loi ) , (
2
2 2
m N .
Les moyennes empiriques, variances empiriques et variances estimes des deux chantillons sont
notes respectivement
1
n
X ,
2
1
S ,
2
1
S ,
2
n
Y ,
2
2
S et
2
2
S .
Exemple : deux groupes dtudiants de tailles respectives 25
1
n et 31
2
n ont suivi le mme cours
de statistique et pass le mme examen. Les moyennes et carts-types empiriques des notes obtenues
dans les deux groupes sont respectivement :
Premier groupe : 8 . 12
1

n
x , 4 . 3
1
s .
Deuxime groupe : 3 . 11
2

n
y , 9 . 2
2
s .
On suppose que les notes sont rparties dans les deux groupes selon des lois normales et quelles sont
toutes indpendantes.
Peut-on considrer que le premier groupe est meilleur que le deuxime, cest--dire quun point et
demi dcart entre les moyennes est significatif dune diffrence de niveau ?
La procdure suivre consiste tester dabord lgalit des variances, puis lgalit des moyennes.
4.3.1.1. Test de Fisher de comparaison des variances
Comparer les variances des deux chantillons, cest tester
0
H :
2
2
2
1
contre
1
H :
2
2
2
1
.
Il est naturel de rejeter lhypothse dgalit des variances si les variances empiriques ou estimes des
deux chantillons sont significativement diffrentes. On peut penser une rgion critique de la forme

l s s W >
2
2
2
1
, mais la loi de probabilit de
2
2
2
1
S S savre complexe.
En revanche, celle de
2
2
2
1
S
S
est simple. On utilisera donc plutt une rgion critique de la forme
>
<
, 2
2
2
2
1
, 1
2
2
2
1
ou l
s
s
l
s
s
W , avec
, 2 , 1
l l < : on rejettera lgalit des variances si le rapport
des deux variances estimes est soit trop grand soit trop petit .
Daprs le thorme de Fisher,
2
1
2
1 1
2
1
2
1 1
) 1 (

S n S n
est de loi
2
1
1
n
et
2
2
2
2 2
2
2
2
2 2
) 1 (

S n S n
est de loi
2
1
2
n
, ces deux variables alatoires tant indpendantes. Or si X est de loi
2
n
, Y est de loi
2
m
, et
X et Y sont indpendantes, alors
nY
mX
est de loi de Fisher-Snedecor ) , ( m n F .
Par consquent,
2
1
2
2
2
2
2
1
2
2
2
2 2
1
2
1
2
1 1
2
) 1 (
) 1 (
) 1 (
) 1 (
S
S
S n
n
S n
n
est de loi ) 1 , 1 (
2 1
n n F .
Sous lhypothse
0
H ,
2
2
2
1
donc
2
2
2
1
S
S
est de loi ) 1 , 1 (
2 1
n n F .
Le seuil du test est donc :
) ( 1 ) (
ou
, 2 ) 1 , 1 ( , 1 ) 1 , 1 (
, 2
2
2
2
1
, 1
2
2
2
1
, 2
2
2
2
1
, 1
2
2
2
1
2 1 2 1
0 0 0

l F l F
l
S
S
P l
S
S
P l
S
S
l
S
S
P
n n F n n F
H H H

+
(
(
,
\
,
,
(
j
>
+
(
(
,
\
,
,
(
j
<
(
(
,
\
,
,
(
j
>
<

En quilibrant les risques, on choisira
, 1
l et
, 2
l de sorte que
2
) (
, 1 ) 1 , 1 (
2 1

l F
n n F
et
2
1 ) (
, 2 ) 1 , 1 (
2 1

l F
n n F
, cest dire
2 / 1 , 1 , 1 , 1
2 1

n n
f l et
2 / , 1 , 1 , 2
2 1

n n
f l .
La rgion critique du test scrit donc
>
<
2 / , 1 , 1
2
2
2
1
2 / 1 , 1 , 1
2
2
2
1
2 1 2 1
ou
n n n n
f
s
s
f
s
s
W . On
peut simplifier les choses en remarquant que :
1.
2 / , 1 , 1
2 / 1 , 1 , 1
1 2
2 1
1

n n
n n
f
f , donc
>
>
2 / , 1 , 1
2
2
2
1
2 / , 1 , 1
2
1
2
2
2 1 1 2
ou
n n n n
f
s
s
f
s
s
W
2. Des deux rapports
2
2
2
1
s
s
et
2
1
2
2
s
s
, un seul est plus grand que 1. Or on peut montrer que pour

2 / 1 < , 1
, ,
>
m n
f . Donc, dans la rgion critique, il suffit de retenir celui des deux rapports qui
est suprieur 1.
Par consquent, la rgion critique du test peut scrire simplement sous la forme ci-dessous. Ce test
est appel test de Fisher.
Proprit : Test de Fisher dgalit des variances de deux chantillons gaussiens indpen-
dants:
Test de
2
2
2
1
contre
2
2
2
1
:
- si
2
2
2
1
s s > ,
>
2 / , 1 , 1
2
2
2
1
2 1
n n
f
s
s
W
- si
2
2
2
1
s s < ,
>
2 / , 1 , 1
2
1
2
2
1 2
n n
f
s
s
W
Remarque : Le fait que
2
1
2
2
2
2
2
1
S
S
soit de loi ) 1 , 1 (
2 1
n n F permet dobtenir facilement un intervalle
de confiance pour le rapport
2
2
2
1
:
]
]
]
]
,
,
2 / , 1 , 1
2
2
2
1
2 / 1 , 1 , 1
2
2
2
1
1 2 1 2
,
n n n n
f
s
s
f
s
s
.
Dans lexemple,
2
2
2
1
s s > et
2
2
2
1
s
s
= 1.37. La table de la loi de Fisher ne fournit des quantiles que

pour 2 / = 5% ou 1%. On choisit donc de faire le test de Fisher au seuil = 10%. Alors
05 . 0 , 30 , 24
f
= 1.89.
1.37 < 1.89, donc on nest pas dans la rgion critique. On ne peut donc pas conclure que les variances
des deux chantillons sont diffrentes.
Sous S+, la commande permettant deffectuer un test de Fisher est var.test. Loption conf.level
prcise le seuil de lintervalle de confiance pour le rapport des variances.
> var.test(x, y, alternative="two.sided", conf.level=.95)
F test for variance equality
data: x and y
F = 1.3746, num df = 24, denom df = 30, p-value = 0.4058
alternative hypothesis: true ratio of variances is not equal to 1
0.6435544 3.0363564
sample estimates:
variance of x variance of y
11.56 8.41
La p-valeur vaut 40.58 %. Cela signifie que, mme en prenant un risque derreur trs grand comme
40%, on ne rejettera pas lhypothse dgalit des variances. Par consquent, on est trs loin de rejeter
cette hypothse. On constate par ailleurs que lintervalle de confiance de seuil 5% pour le rapport des
deux variances est [0.644, 3.036], qui contient bien la valeur 1.
Remarque : Le test de Fisher peut se gnraliser la comparaison des variances de k chantillons
gaussiens indpendants, de tailles respectives
k
n n n ,..., ,
2 1
.
Soit
k
i
i
n n
1
. Le test de Bartlett est bas sur le fait que, sous lhypothse
2 2
2
2
1
...
k
, la
variable aleatoire

(
(
,
\
,
,
(
j

k
i
i i
k
i
i i
S n S n
k n
k n
1
2
1
2
ln ) 1 ( ) 1 (
1
ln ) ( est approximativement de loi
2
1 k
.
Exercice : Construire les tests de
2
2
2
1
contre
2
2
2
1
> et
2
2
2
1
contre
2
2
2
1
< .
4.3.1.2. Test de Student de comparaison des moyennes
On veut tester
0
H :
2 1
m m contre
1
H :
2 1
m m .
Lide naturelle est de rejeter
2 1
m m quand la diffrence entre les moyennes empiriques des deux
chantillons est trop grande, do une rgion critique de la forme
l y x W
n n
>
2 1
.
Pour dterminer
l , on a besoin de la loi de probabilit de

2 1
n n
Y X sous
0
H . Or on sait que
1
n
X
est de loi ) , (
1
2
1
1
n
m N

et
2
n
Y est de loi ) , (
2
2
2
2
n
m N

. Ces deux variables alatoires tant indpendan-
tes, on en dduit que
2 1
n n
Y X est de loi ) , (
2
2
2
1
2
1
2 1
n n
m m N

+ .
Donc finalement, la variable alatoire
( ) ( )
2
2
2
1
2
1
2 1
2 1
n n
m m Y X
U
n n

+

est de loi ) 1 , 0 ( N et, sous
0
H ,
2
2
2
1
2
1
2 1
n n
Y X
n n

+
est de loi ) 1 , 0 ( N .
2
1
et
2
2
tant inconnues, on ne peut pas utiliser directement cette variable alatoire pour construire
le test. On va alors construire lquivalent dun test de Student.
Pour cela, on pose
2
2
2
2 2
2
1
2
1 1
) 1 ( ) 1 (

S n S n
Z

+

. Etant donn que
2
1
2
1 1
) 1 (
S n
est de loi
2
1
1
n
,
2
2
2
2 2
) 1 (
S n
est de loi
2
1
2
n
et que ces deux variables alatoires sont indpendantes, Z est de loi
2
2
2 1
+n n
. Le thorme de Fisher permet dtablir que U et Z sont indpendants.
Par consquent, par dfinition de la loi de Student, la variable alatoire
( ) ( )
2
) 1 ( ) 1 (
2
2 1
2
2
2
2 2
2
1
2
1 1
2
2
2
1
2
1
2 1
2 1
2 1
+

+

+

+ n n
S n S n
n n
m m Y X
n n
Z
U n n

est de loi de ) 2 (
2 1
+ n n St .
Dans cette expression, les paramtres inconnus
2
1
et
2
2
subsistent. Mais on remarque que, sous
lhypothse
2
2
2
1
, ils disparaissent. Pour savoir si cette hypothse est valide, il suffit
dappliquer le test de Fisher vu prcdemment.
Par consquent, la dmarche suivre consiste tester dabord lgalit des variances. Si le test de
Fisher ne rejette pas lgalit des variances, on considrera que
2
2
2
1
. Alors, la variable alatoire
( ) ( )
2
) 1 ( ) 1 (
1 1
2 1
2
2 2
2
1 1
2 1
2 1
2 1
+
+ +

n n
S n S n
n n
m m Y X
n n
est de loi ) 2 (
2 1
+ n n St , et, sous lhypothse
2 1
m m ,
] ) 1 ( ) 1 )[( (
) 2 (
) (
2
2
2
2
1
1 2 1
2 1 2 1
2 1
S n S n n n
n n n n
Y X T
n n
+ +
+
est de loi ) 2 (
2 1
+ n n St , ce
qui fournit la fonction pivotale cherche.
Proprit : Test de Student dgalit des moyennes de deux chantillons gaussiens indpen-
dants de mme variance
Test de
2 1
m m contre
2 1
m m :
>
+ +
+

+ , 2
2
2
2
2
1
1 2 1
2 1 2 1
2 1 2 1
] ) 1 ( ) 1 )[( (
) 2 (
n n n n
t
s n s n n n
n n n n
y x W
Remarque 1 : Dans cette approche, on commet une faute de raisonnement. En effet, si le test de Fisher
ne rejette pas lgalit des variances, on peut en conclure quon na pas de preuves suffisantes pour
considrer que les variances sont diffrentes, mais on ne peut pas pour autant considrer quelles sont
gales : cest un exemple de la diffrence entre ne pas rejeter
0
H et accepter
0
H . Pour bien faire, il
faudrait pouvoir tester
2
2
2
1
contre
2
2
2
1
. Mais cest impossible car lhypothse nulle est
trop vaste pour que lon puisse calculer le seuil dun tel test. On est donc contraints dadopter la d-
marche prsente ici. Le rsultat ne sera alors quapproximatif.
Remarque 2 : A partir du test, on peut facilement construire un intervalle de confiance pour la diff-
rence des moyennes
2 1
m m :
]
]
]
]
]
,
,
,
,
+
+ +
+
+
+ +

+ +
) 2 (
] ) 1 ( ) 1 )[( (
,
) 2 (
] ) 1 ( ) 1 )[( (
2 1 2 1
2
2
2
2
1
1 2 1
, 2
2 1 2 1
2
2
2
2
1
1 2 1
, 2
2 1 2 1 2 1 2 1
n n n n
S n S n n n
t Y X
n n n n
S n S n n n
t Y X
n n n n n n n n
Remarque 3 : A priori, si le test de Fisher rejette lgalit des variances, on ne peut pas appliquer le
test. En fait, le thorme central-limite permet de montrer que, si
1
n et
2
n sont suffisamment grands
(suprieurs 30), alors la loi de T est approximativement la loi ) 1 , 0 ( N mme si les deux variances
sont diffrentes et en fait mme si les deux chantillons ne sont pas de loi normale.
Par consquent, si on a beaucoup dobservations, on peut comparer les moyennes dchantillons issus
de nimporte quelle loi de probabilit. En revanche, si on a peu dobservations, ce test ne fonctionne
pas. On utilise alors dautres tests comme le test de Smith-Satterthwaite ou le test dAspin-Welch.
Remarque 4 : La gnralisation de ce problme la comparaison des moyennes de k chantillons
gaussiens fait lobjet dun domaine important de la statistique appel lanalyse de variance.
Exercice : Construire les tests de
2 1
m m contre
2 1
m m > et
2 1
m m contre
2 1
m m < .
Dans lexemple, on na pas rejet lgalit des variances, donc on peut appliquer le test de Student.
Comme il sagit de dterminer si le premier groupe est meilleur que le deuxime et que cette hypo-
thse doit correspondre au rejet de
0
H , on voit quil sagit ici de tester
2 1
m m contre
2 1
m m > .
La rgion critique est
>
+ +
+

+ 2 , 2
2
2
2
2
1
1 2 1
2 1 2 1
2 1 2 1
] ) 1 ( ) 1 )[( (
) 2 (
) (
n n n n
t
s n s n n n
n n n n
y x W .
Ici, 78 . 1
] ) 1 ( ) 1 )[( (
) 2 (
) (
2
2
2
2
1
1 2 1
2 1 2 1
2 1

+ +
+

s n s n n n
n n n n
y x t
n n
.
Pour un seuil de 5%, on a 68 . 1
1 . 0 , 54 1 . 0 , 2 31 25

+
t t .
1.78 > 1.68, donc on est dans la rgion critique, donc on rejette
0
H . On conclut que la diffrence de
moyenne entre les deux groupes dtudiants est significative au seuil 5%.
Sous S+, la commande t.test dj vue pour effectuer des tests sur la moyenne dun chantillon
gaussien, permet galement de comparer les moyennes de deux chantillons gaussiens indpendants :
> t.test(x,y,alternative="greater",conf.level=0.95)
Standard Two-Sample t-Test
data: x and y
t = 1.7816, df = 54, p-value = 0.0402
alternative hypothesis: true difference in means is greater than 0
0.09097004 NA
sample estimates:
mean of x mean of y
12.8 11.3
On retrouve que 7816 . 1 t . La p-valeur du test est 4.02%. Donc au seuil 5%, on rejettera bien
0
H ,
par contre on ne la rejettera pas au seuil 1%.
4.3.2. Comparaison de deux proportions
Le problme se pose quand on veut comparer deux populations selon un critre qui est une propor-
tion. Par exemple :
comparer les performances de deux machines au vu de la proportion de pices dfectueuses
quelles produisent
comparer les frquences doccurrences de cancers selon que lon habite ou pas proximit
dune centrale nuclaire
Mathmatiquement, on a une premire population de taille
1
n et une seconde de taille
2
n . On note
1
X et
2
X les nombres dindividus dans chaque population prsentant une certaine caractristique
(pice dfectueuse, habitant malade), et
1
p et
2
p les probabilits quun individu de chaque popula-
tion prsente cette caractristique. On souhaite comparer
1
p et
2
p , cest--dire effectuer des tests du
type
2 1
p p contre
2 1
p p > ou
2 1
p p contre
2 1
p p .
Exemple : La machine 1 a produit 96 pices dont 12 dfectueuses. La machine 2 a produit 55 pices
dont 10 dfectueuses. Les pourcentages de pices dfectueuses produites par ces machines sont res-
pectivement % 5 . 12
96
12
et % 2 . 18
55
10
. Peut-on en conclure que la machine 1 est significativement
plus performante que la machine 2 ?
Si les occurrences des vnements qui nous intressent sur chaque individu sont indpendantes, les
variables alatoires
1
X et
2
X sont de lois binomiales, respectivement ) , (
1 1
p n B et ) , (
2 2
p n B . On
se contentera ici de supposer que les tailles dchantillons sont suffisamment grandes pour que lon
puisse faire lapproximation de la loi binomiale par la loi normale : 5
1 1
> p n , 5 ) 1 (
1 1
> p n ,
5
2 2
> p n , et 5 ) 1 (
2 2
> p n . Alors on peut considrer que
1
X et
2
X sont des variables alatoires
indpendantes et approximativement de lois normales, respectivement ( ) ) 1 ( ,
1 1 1 1 1
p p n p n N et
( ) ) 1 ( ,
2 2 2 2 2
p p n p n N .
Les ESBVM de
1
p et
2
p sont
1
1
n
X
et
2
2
n
X
. Si on veut tester
0
H :
2 1
p p contre
1
H :
2 1
p p , il est logique de rejeter
0
H si
2
2
1
1
n
X
n
X
est trop grand , donc de choisir une rgion
critique de la forme
>

l
n
x
n
x
W
2
2
1
1
.
1
1
n
X
et
2
2
n
X
sont indpendantes et de lois respectives
(
(
,
\
,
,
(
j
1
1 1
1
) 1 (
,
n
p p
p N et
(
(
,
\
,
,
(
j
2
2 2
2
) 1 (
,
n
p p
p N ,
donc
2
2
1
1
n
X
n
X
est de loi
(
(
,
\
,
,
(
j
+
2
2 2
1
1 1
2 1
) 1 ( ) 1 (
,
n
p p
n
p p
p p N . Sous
0
H :
2 1
p p , posons
2 1
p p p . Alors
2
2
1
1
n
X
n
X
est de loi
(
(
,
\
,
,
(
j
(
(
,
\
,
,
(
j
+
2 1
1 1
) 1 ( , 0
n n
p p N et
(
(
,
\
,
,
(
j
+
2 1
2
2
1
1
1 1
) 1 (
n n
p p
n
X
n
X
est de
loi ( ) 1 , 0 N .
Comme p est inconnu, cette variable alatoire ne peut pas servir de fonction pivotale. Mais, comme
les tailles dchantillon sont grandes, on peut montrer que le rsultat reste approximativement vrai
quand on remplace p par son estimateur
2 1
2 1
n n
X X
p
+
+
.
Donc finalement, sous
0
H , la variable alatoire
(
(
,
\
,
,
(
j
+
(
(
,
\
,
,
(
j
+
+
+
+
2 1 2 1
2 1
2 1
2 1
2
2
1
1
1 1
1
n n n n
X X
n n
X X
n
X
n
X
U est ap-
proximativement de loi ( ) 1 , 0 N , ce qui permet de construire le test.
Proprit : Test de comparaison de deux proportions :
Test de
2 1
p p contre
2 1
p p :
u u W >
Test de
2 1
p p contre
2 1
p p > :
2
u u W >
Test de
2 1
p p contre
2 1
p p < :
2
u u W <
Dans lexemple, il sagit de tester
2 1
p p contre
2 1
p p < , avec % 5 . 12
1
1

n
x
et % 2 . 18
2
2

n
x
. On
trouve % 6 . 14
151
22
2 1
2 1

+
+
n n
x x
, do 95 . 0
55
1
96
1
) 146 . 0 1 ( 146 . 0
182 . 0 125 . 0

(
,
\
,
(
j
+
u . Au seuil 5% on a
645 . 1
2

u .
-0.95 > -1.645, donc on ne rejette pas
0
H : la diffrence entre les deux proportions de pices dfec-
tueuses nest pas significative au seuil 5%.
Sous S+, le test seffectue laide de la commande prop.test et fournit en mme temps un inter-
valle de confiance pour
2 1
p p .
> prop.test(c(12,10),c(96,55),alternative="less",conf.level=0.95,correct=F)
2-sample test for equality of proportions without continuity correction
data: c(12, 10) out of c(96, 55)
X-square = 0.9069, df = 1, p-value = 0.1705
alternative hypothesis: less
-1.00000000 0.04516349
sample estimates:
prop'n in Group 1 prop'n in Group 2
0.125 0.1818182
La statistique de test calcule (X-square) est en fait
2
U qui, sous
0
H , est de loi
2
1
. La p-valeur
vaut 17%, donc pour rejeter
0
H , il faudrait prendre un risque derreur assez grand (suprieur 17%).
On est donc assez confiant dans le fait que la diffrence des deux proportions nest pas significative.
4.3.3. Comparaison dchantillons gaussiens apparis
Deux chantillons sont dits apparis si et seulement si ils sont constitus de deux mesures successives
de la mme variable sur les mmes individus.
Exemple : Afin de mesurer les effets dun nouveau rgime amaigrissant, celui-ci a t test sur 15
individus pris au hasard dans une population. Le tableau 4.2 donne leur poids en kg avant et aprs le
rgime. Le rgime est-il efficace ?
avant 70 75 80 60 64 66 70 74 78 80 82 90 101 84 77
aprs 68 76 74 58 65 60 70 70 75 79 78 95 103 80 74
Tableau 4.2. : poids avant et aprs un rgime amaigrissant de 15 individus
Mathmatiquement, les observations sont deux chantillons de mme taille n ,
n
X X ,...,
1
et
n
Y Y ,...,
1
.
Les
i
X sont indpendants entre eux, les
j
Y aussi, mais
i
X et
i
Y ne sont pas indpendants.
On se contentera ici de supposer que les deux chantillons sont gaussiens, les
i
X de loi ) , (
2
1 1
m N
et les
j
Y de loi ) , (
2
2 2
m N . La procdure sappliquera galement des chantillons de lois quel-
conques mais de grande taille, en vertu du thorme central-limite.
Pour tout i , posons
i i i
Y X Z . Le test se base sur lhypothse que les
i
Z sont indpendants et de
mme loi normale desprance m m m Y E X E
i i

2 1
) ( ) ( . Mais ceci nest vrai que si le vecteur
) , (
i i
Y X est gaussien. Il faut donc rajouter cette hypothse.
Alors, tester
2 1
m m sur les deux chantillons, cest tester 0 m sur le troisime chantillon.
Comme cest un chantillon gaussien, on peut le faire grce au test de Student usuel.
Dans lexemple, le rgime est efficace si le poids moyen aprs rgime est infrieur au poids moyen
avant rgime. On doit donc faire un test de
2 1
m m contre
2 1
m m > , ce qui revient faire un
test de 0 m contre 0 > m sur lchantillon des diffrences de poids avant et aprs le rgime :
2 -1 6 2 -1 6 0 4 3 1 4 -5 -2 4 3
La rgion critique est
>
2 , 1
0
n
n
n
t n
s
x
W ,
n
x et
n
s tant calcules sur le troisime chantil-
lon.
Ici, 15 n , 73 . 1
n
x et 08 . 3
n
s , donc 18 . 2
n
s
x
n
n
. Pour % 5 , 76 . 1
1 . 0 , 14
t .
2.18 > 1.76, donc on rejette
0
H et on conclut que le rgime est bien efficace, avec moins de 5% de
chances de se tromper.
Sous S+, on peut soit crer le troisime chantillon et faire un test de Student usuel comme en 4.2.2.,
soit partir des deux chantillons et prciser dans lappel du test quils sont apparis. On obtient ga-
lement un intervalle de confiance pour
2 1
m m .
> t.test(x,y,alternative="greater",paired=T,conf.level=0.95)
Paired t-Test
data: x and y
t = 2.1786, df = 14, p-value = 0.0235
alternative hypothesis: true mean of differences is greater than 0
0.3319946 NA
sample estimates:
mean of x - y
1.733333
La p-valeur vaut 2.35%, donc on rejette bien
0
H au seuil 5%, mais on ne la rejetterait pas au seuil
1%.
4.4. Quelques tests non paramtriques
Un test non paramtrique est un test qui ne porte pas sur la valeur dun paramtre dune loi de proba-
bilit. Il peut donc y en avoir de toutes sortes. Nous nous contenterons ici de dcrire quelques uns des
plus usuels de ces tests.
4.4.1. Tests dadquation pour un chantillon
Le problme est de dterminer si les observations
n
x x ,...,
1
peuvent tre considres comme des rali-
sations de variables alatoires indpendantes de loi donne (normale, exponentielle, binomiale,).
Nous avons dj vu que lhistogramme et le graphe de probabilits permettent de rpondre cette
question. Mais cette rponse nest que qualitative et est base sur un jugement visuel : deux personnes
peuvent avoir des conclusions diffrentes au vu du mme histogramme. De plus, on ne sait pas quanti-
fier lerreur que lon fait si on refuse telle ou telle loi de probabilit au vu de lchantillon.
Or il est parfaitement possible de construire un test statistique pour rpondre ce problme. Un tel
test est appel test dadquation ou test dajustement. On distinguera deux cas, suivant que lon
veut tester ladquation de lchantillon une loi de probabilit entirement spcifie (par exemple la
loi ] 1 , 0 [ U ou ) 9 , 2 ( N ), ou une famille de lois de probabilit (par exemple la famille des lois expo-
nentielles).
Soit F la fonction de rpartition inconnue des
i
X .
Cas 1 : Il sagit de tester
0
H :
0
F F contre
1
H :
0
F F .
Cas 2 : Il sagit de tester
0
H : F F contre
1
H : F F , o F est une famille de lois de pro-
babilit, dpendant en gnral dun paramtre : ; ) (., F F .
Remarque : La complexit de lhypothse alternative fait quil sera impossible de calculer de manire
gnrale la puissance dun test dadquation. On pourra dterminer une puissance contre certaines
alternatives spcifies, par exemple
1
H :
1
F F .
Limportant dans un test tant de rejeter
0
H , on voit que ces tests permettront essentiellement de
rejeter des modles trs peu vraisemblables au vu des observations.
4.4.1.1. Le test du
2
sur les probabilits dvnements
Exemple introductif : On jette un d 204 fois. On obtient les rsultats suivants :
1 2 3 4 5 6
40 30 38 34 35 27
Tableau 4.3. : rsultat de 204 lancers dun d
Peut-on en conclure que le d est quilibr ?
Une ide naturelle est de dire que, si le d est quilibr, on devrait avoir peu prs 204/6=34 fois
chaque face. Si le rsultat sloigne trop de 34 sur quelques unes des faces, on peut douter du fait que
le d est quilibr. On peut donc penser rejeter lhypothse que le d est quilibr si la distance
entre le vecteur (40, 30, 38, 34, 35, 27) et le vecteur (34, 34, 34, 34, 34, 34) est trop grande . Il
reste choisir une distance approprie.
Plus gnralement, on considre une exprience qui a k issues possibles. On sait que, sous une cer-
taine hypothse
0
H , les probabilits dapparition de ces k issues sont
k
p p ,...,
1
, avec 1
1

k
i
i
p . On
fait n expriences identiques et indpendantes, et on compte les nombres
i
n de fois o chaque issue
i sest produite. On a forcment n n
k
i
i

1
. Le problme est de dcider si lobservation de
k
n n ,...,
1
est compatible avec lhypothse
0
H que les probabilits des issues sont
k
p p ,...,
1
.
Sous
0
H , on sattend observer en moyenne
i
np fois lissue i . Il sagit donc de dterminer si les
i
n
sont significativement proches ou loigns des
i
np . On peut alors penser une rgion critique de la
forme
>

l np n W
k
i
i i
1
2
) ( . Pour dterminer
l , il faut connatre la loi de probabilit sous

0
H
de
k
i
i i
np N
1
2
) ( , ou dune variable alatoire analogue.
Il est clair que, pour tout i ,
i
N est de loi binomiale ) , (
i
p n B . Si n est suffisamment grand, on fait
lapproximation de la loi binomiale par la loi normale.
i
N est donc approximativement de loi normale
( ) ) 1 ( ,
i i i
p np np N . Alors,
) 1 (
i i
i i
p np
np N
est approximativement de loi ) 1 , 0 ( N , et

) 1 (
) (
2
i i
i i
p np
np N
est
approximativement de loi
2
1
. Si les
i
N taient indpendantes, on en dduirait que
k
i
i i
i i
p np
np N
1
2
) 1 (
) (
est approximativement de loi
2
k
. Mais elles ne sont pas indpendantes puisque n N
k
i
i

1
. Il y a
donc une correction faire, qui est donne par le thorme de Pearson :
Thorme de Pearson : Sous
0
H : les probabilits des k issues sont
k
p p ,...,
1
, la variable
alatoire
k
i
i
i i
n
np
np N
D
1
2
2
) (
converge en loi vers la loi
2
1 k
.
On en dduit alors facilement un test , appel test du khi-deux :
Test du
2
: Test de
0
H : les probabilits des k issues sont
k
p p ,...,
1
contre
0 1
H H :
>
k
i
k
i
i i
z
np
np n
W
1
, 1
2
) (

Sur lexemple du d, 47 . 3
34
) 34 27 (
...
34
) 34 40 (
2 2
2

+ +
n
d . Au seuil 5%, 07 . 11
05 . 0 , 5
z .
3.47 << 11.07, donc on ne rejette pas
0
H : rien nindique que le d nest pas quilibr.
Remarque 1 : La table de la loi du
2
indique que la p-valeur est comprise entre 50% et 70%. Donc
pour rejeter
0
H , il faudrait tolrer une probabilit derreur exagrment grande. Il y a donc toutes les
raisons de penser que le d est quilibr.
Remarque 2 : Le test repose sur lapproximation de la loi binomiale par la loi normale. Pour
lappliquer, on doit donc avoir pour tout i , 5
i
np et 5 ) 1 (
i
p n . En pratique, on considre que
lon peut effectuer un test du
2
si, pour tout i , 5
i
n .
4.4.1.2. Le test du
2
dadquation une famille de lois de probabilit
La dmarche prcdente peut tre utilise pour effectuer un test dadquation pour un chantillon.
Quand les variables observes
n
x x ,...,
1
sont discrtes, on peut se demander si elles sont issues dune
loi de probabilit discrte comme la loi binomiale, loi de Poisson, etc Les n observations
n
x x ,...,
1
ont pris k valeurs diffrentes
k
e e ,...,
1
. Soit

) ( 1
1
j
n
j
e i
x n
i
le nombre dobservations gales

i
e .
Sous lhypothse
0
H que les
j
X sont indpendantes et de loi donne, on connat les
) (
i i
e X P p . Alors le thorme de Pearson sapplique et on peut utiliser le test du
2
pour tester
ladquation de lchantillon cette loi.
Quand les variables observes
n
x x ,...,
1
sont continues, on peut se demander si elles sont issues dune
loi de probabilit continue comme la loi exponentielle, loi normale, etc Revenons alors la cons-
truction de lhistogramme vue en 2.2.2.1. On a choisi k intervalles ] , ]
1 i i
a a

et compt les nombres
n
j
j a a i
x n
i i
1
] , ]
) ( 1
1
dobservations appartenant chaque intervalle. Sous lhypothse
0
H que les
j
X sont indpendantes et de loi donne, la probabilit quune observation appartienne la classe i
est ( ) ) ( ) ( ] , ]
1 1

i i i i i
a F a F a a X P p . Le thorme de Pearson permet alors dutiliser le test du
2
pour tester ladquation de lchantillon cette loi.
Remarque : Le nombre de classes conseill pour effectuer un test du
2
nest pas le mme que le
nombre de classes conseill pour dessiner un histogramme. On prendra en gnral
5 / 2
2n k . Dautre
part, il est conseill de neffectuer le test que si on a au moins 5 observations par classe.
Rappelons que, dans les tests dadquation, deux cas sont considrer selon que lon connat parfai-
tement ou pas la loi tester.
Dans le cas 1, sous
0
H :
0
F F , ) ( ) (
1 0 0

i i i
a F a F p pour tout i . Les
i
p sont parfaitement
connus et on peut appliquer le test tel quel.
Dans le cas 2, sous
0
H : ; ) (., F F F , ) , ( ) , (
1

i i i
a F a F p pour tout i . Les
i
p
dpendent dun paramtre inconnu, donc on ne peut pas utiliser directement le test. Lide natu-
relle est de remplacer par un estimateur
n
et de remplacer
i
p par le
i
p correspondant.
On montre alors que, si
n
est lestimateur de maximum de vraisemblance de , la variable alatoire
k
i
i
i i
n
p n
p n N
D
1
2
2
) (
converge approximativement en loi vers la loi

2
1 p k
, o p est la dimension
de . Do le rsultat final :
Test du
2
dadquation une famille de lois : Test de
0
H : ; ) (., F F F
contre
0 1
H H :
>

k
i
p k
i
i i
z
p n
p n n
W
1
, 1
2
) (
Exemple : Reprenons lexemple des donnes sur les niveaux de bruit Montral. On souhaite tester
0
H : Les observations proviennent dune loi normale contre
1
H : Les observations ne provien-
nent pas dune loi normale . La loi normale a p = 2 paramtres. Les estimations de maximum de
vraisemblance de m et
2
sont respectivement 2 . 64
n
x et 2 . 25
2

n
s . Notons quil faut bien utili-
ser lestimateur de maximum de vraisemblance de
2
, mme sil nest pas optimal.
Nous avons construit un histogramme k = 5 classes de mme effectif. Nous ne sommes pas tout
fait dans les conditions dapplication du test puisquil faudrait en thorie au moins 5 observations par
classe et que nous nen avons que 4. Appliquons nanmoins le test pour comprendre son fonctionne-
ment.
On a (
,
\
,
(
j
(
,
\
,
(
j
(
,
\
,
(
j
<
<

m a m a m a m X m a
P a X a P p
i i i i
i i i
1 1
1
) ( ,
do
(
(
,
\
,
,
(
j
(
(
,
\
,
,
(
j

n
n i
n
n i
i
s
x a
s
x a
p
1
.
Le test dadquation la loi normale aura donc pour rgion critique
>
5
1
, 2
2
20
) 20 4 (
i
i
i
z
p
p
W

.
Le vecteur des
i
p est (0.170, 0.232, 0.181, 0.211, 0.155), do 514 . 0
20
) 20 4 (
5
1
2
2

i
i
i
n
p
p
d .
Au seuil 5%, 99 . 5
05 . 0 , 2
z . 0.514 << 5.99, donc on ne rejette pas
0
H , et de loin. On peut donc avoir
une bonne confiance dans la normalit des observations.
Sous S+, la commande permettant deffectuer un test du
2
est chisq.gof(x). Il faut prciser le
nombre et les bornes des classes, la loi tester, le nombre de paramtres estimer et comment on
estime ces paramtres. Pour lexemple, on obtient :
> chisq.gof(x,n.classes=5,cut.points=c(54.3,59.9,63.3,65.6,68.8,73.9),
distribution="normal",n.param.est=2,mean=mean(x),
sd=sqrt(var(x,unbiased=F)))
Chi-square Goodness of Fit Test
data: x
Chi-square = 0.5141, df = 2, p-value = 0.7733
alternative hypothesis: True cdf does not equal the normal Distn. for at
least one sample point.
Warning messages:
Expected counts < 5. Chi-squared approximation may not be appropriate
On retrouve que
2
n
d vaut 0.514. La p-valeur est 77.33%, qui est trs leve. On est donc en effet bien
loin de rejeter
0
H . S+ signale quil faudrait pour bien faire avoir au moins 5 observations par classe.
4.4.1.3. Les tests bass sur la fonction de rpartition empirique
On a vu que la fonction de rpartition empirique
n
F tait un excellent estimateur de la vraie fonction
de rpartition inconnue des observations. Il est donc naturel de rejeter lhypothse
0
H :
0
F F si
les fonctions
n
F et
0
F sont significativement loignes. Il y a plusieurs faons de mesurer cet cart :
statistique de Kolmogorov-Smirnov : ) ( ) (
0
x F x F Sup n K
n
R x
n

statistique de Cramer-von Mises : ( )
+

) ( ) ( ) (
0
2
0
2
x dF x F x F n W
n n
statistique dAnderson-Darling :
( )
) (
)) ( 1 )( (
) ( ) (
0
0 0
2
0 2
x dF
x F x F
x F x F
n A
n
n
On montre que, sous
0
H ,
n
K ,
2
n
W et
2
n
A convergent en loi vers des lois de probabilit indpendan-
tes de
0
F , ce qui permet de raliser des tests dadquation, avec des rgions critiques du type

l K W
n
> . Mais les lois limites ont des expressions complexes ou mme pas dexpressions ex-
plicites. On est donc obligs de se rfrer des tables ou des logiciels de statistique.
Dautre part, si on teste
0
H : ; ) (., F F F , il faut remplacer par un estimateur
n
.
Les lois limites des statistiques correspondantes
n
K
,
2
n
W et
2
n
A ne sont alors plus les mmes que
prcdemment, et sont en plus diffrentes suivant le type de loi teste.
On voit donc que ces tests peuvent trs difficilement tre effectus la main . Heureusement, ils
sont implments dans certains logiciels. Sous S+, le test de Kolmogorov-Smirnov peut seffectuer
laide de la commande ks.gof. Pour lexemple des niveaux de bruit, on obtient :
> ks.gof(x,distribution="normal",mean=mean(x),
sd= sqrt(var(x,unbiased=F)))
One-sample Kolmogorov-Smirnov Test
Hypothesized distribution = normal
data: x
ks = 0.0758, p-value = 0.9993
alternative hypothesis: True cdf is not the normal distn. with the speci-
fied parameters
La p-valeur est de 99.93%, ce qui signifie quon est trs loin de rejeter
0
H . Donc on conclut la
normalit des observations, ce qui est cohrent avec le rsultat obtenu par le test du
2
.
Les tests bass sur la fonction de rpartition empirique sont nettement plus complexes mettre en
uvre que le test du
2
, mais ils sont plus puissants, car ils vitent la perte dinformation due au
regroupement en classes dans le test du
2
. Il est donc conseill de les utiliser.
Notons pour terminer quil existe des tests dadquation spcifiques certaines familles de lois. Par
exemple, le meilleur des tests dadquation la loi normale est le test de Shapiro-Wilk. Mais ce test
nest pas implment dans S+.
4.4.2. Tests non paramtriques de comparaison de deux chantillons
Dans cette section, on suppose que lon dispose de deux chantillons indpendants
1
,...,
1 n
X X et
2
,...,
1 n
Y Y . On dsire savoir si les
i
X et les
j
Y ont mme loi, sans faire dhypothses sur cette loi. Le
problme est donc de tester
0
H :
Y X
F F contre
1
H :
Y X
F F . On a vu que lon sait rpon-
dre cette question si on suppose que les deux chantillons sont gaussiens.
4.4.2.1. Test de Kolmogorov-Smirnov
Si les deux chantillons proviennent de la mme loi, ils ont mme fonction de rpartition, donc leurs
fonctions de rpartition empiriques doivent tre trs proches. Le test de Kolmogorov-Smirnov
consiste rejeter lhypothse
0
H :
Y X
F F si et seulement si ) ( ) (
2 1
, ,
x F x F Sup
n Y n X
R x

est trop
grand . On utilise pour cela le fait que, sous
0
H , la variable alatoire
) ( ) (
2 1
, ,
2 1
2 1
x F x F Sup
n n
n n
n Y n X
R x

+

converge en loi vers la mme loi limite que la statistique
n
K du
test de Kolmogorov-Smirnov sur un chantillon.
Sous S+, on peut comparer visuellement les deux fonctions de rpartition empiriques laide de la
commande cdf.compare. Le test de Kolmogorov-Smirnov seffectue laide de la commande
ks.gof, comme dans le cas dun seul chantillon. Mais cette fois, il est inutile de prciser une loi de
probabilit que lon dsire tester.
Exemple : Un mme logiciel a t vendu deux socits, 8 exemplaires la socit A et 10 exemplai-
res la socit B. On a relev le nombre dutilisations de chaque exemplaire, sur la mme priode de
temps :
Socit A : 110 82 121 47 103 78 97 143
Socit B : 92 101 38 71 52 108 65 64 88 111
Peut-on en conclure que le logiciel est utilis de faon similaire dans les deux socits ?
Des histogrammes et des tests dadquation montrent que ces deux chantillons ne sont pas gaussiens.
Il est donc ncessaire dadopter une dmarche non paramtrique.
Commenons par comparer visuellement les deux fonctions de rpartition empiriques :
> a<-c(110,82,121,47,103,78,97,143)
> b<-c(92,101,38,71,52,108,65,64,88,111)
> cdf.compare(a,b)
Comparison of Empirical cdfs of a and b
dotted line is cdf of b
40 60 80 100 120 140
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
1
.
0
Figure 4.1. : Comparaison des fonctions de rpartition empiriques des deux chantillons a et b
On constate quil est assez difficile de dduire quoi que ce soit de cette figure. On effectue alors un
test de Kolmogorov-Smirnov qui va, en fait, dterminer si la distance verticale maximum entre ces
deux fonctions est significative dune diffrence entre les deux lois.
> ks.gof(a,b, alternative="two.sided")
Two-Sample Kolmogorov-Smirnov Test
data: a and b
ks = 0.375, p-value = 0.4853
alternative hypothesis:
cdf of a does not equal the
cdf of b for at least one sample point.
La p-valeur est 48.53%. Elle est leve, donc on ne va pas rejeter
0
H : rien ne prouve que le logiciel
est utilis diffremment dans les deux socits.
4.4.2.2. Test de Wilcoxon-Mann-Whitney
Le principe de ce test est que, si les
i
X et les
j
Y ont mme loi, alors si on mlange les deux sries de
valeurs, on doit obtenir un mlange homogne. Plus prcisment, soit U le nombre de couples ) , ( j i
pour lesquels
j i
Y X . Il y a en tout
2 1
n n couples ) , ( j i . Comme les
i
X et les
j
Y sont indpendan-
tes, si elles ont mme loi on aura
2
1
) (
j i
Y X P , donc U devrait tre de lordre de
2
2 1
n n
. Le test
de Mann-Whitney consiste alors rejeter
0
H :
Y X
F F si et seulement si
2
2 1
n n
U est trop
grand .
Pour dterminer la rgion critique, on doit connatre la loi de U sous
0
H . Pour de petits chantillons,
on utilise des tables de cette loi. Pour de grands chantillons ( 8
1
n et 8
2
n ), on utilise une ap-
proximation normale : sous
0
H , U est approximativement de loi (
,
\
,
(
j + +
12
) 1 (
,
2
2 1 2 1 2 1
n n n n n n
N . On
en dduit le test :
Test de Mann-Whitney : Test de
0
H :
Y X
F F contre
1
H :
Y X
F F :
>
+ +

u
n n n n
n n
u
W
12
) 1 (
2
2 1 2 1
2 1
Dans lexemple, on obtient u = 1+5+0+9+2+5+3+0=25. Comme on a plus de 8 observations par
chantillon, on peut utiliser lapproximation gaussienne.
33 . 1
12
) 1 (
2
2 1 2 1
2 1

+ +
n n n n
n n
u
. Au seuil 5%, 96 . 1
05 . 0
u .
96 . 1 33 . 1 < , donc on ne rejette pas
0
H : comme avec le test de Kolmogorov-Smirnov, on conclut
que rien ne prouve que le logiciel est utilis diffremment dans les deux socits.
Une autre faon de tester lgalit des lois dans les deux chantillons est de compter la somme W des
rangs des observations de lchantillon
1
,...,
1 n
X X dans la srie rsultant du mlange des deux
chantillons initiaux. Le test correspondant est appel test de Wilcoxon. En fait, on montre que
W
n n n
U
+ +
2
) 1 2 (
2 1 1
, ce qui prouve que les tests de Mann-Whitney et de Wilcoxon sont qui-
valents. On emploie souvent le terme de test de Wilcoxon-Mann-Whitney.
Sous S+, cest le test de Wilcoxon qui a t retenu, avec la commande wilcox.test. Dans notre
exemple, on obtient :
> wilcox.test(a,b,alternative="two.sided")
Exact Wilcoxon rank-sum test
data: a and b
rank-sum statistic W = 91, n = 8, m = 10, p-value = 0.2031
alternative hypothesis: true mu is not equal to 0
On retrouve bien que u w
n n n

+ +
25 91 116
2
) 1 2 (
2 1 1
. La p-valeur du test est 20.31%, donc
on ne rejette pas
0
H , ce qui est bien le rsultat dj trouv.
Remarque 1 : On montre que le test de Wilcoxon-Mann-Whitney est plus puissant que le test de Kol-
mogorov-Smirnov, ce qui signifie quil dtectera plus facilement si les deux lois ne sont pas les m-
mes. Il est donc recommand demployer le test de Wilcoxon-Mann-Whitney.
Remarque 2 : Les deux tests prsents ici sont des tests de
Y X
F F contre
Y X
F F . Il est trs
facile den dduire des tests de
Y X
F F contre
Y X
F F > et de
Y X
F F contre
Y X
F F < .
5.1. Introduction
Dans la quasi-totalit de ce cours, on a considr que les observations taient unidimensionnelles,
cest--dire que les variables alatoires tudies taient valeurs dans R ou un sous-ensemble de R .
On a commenc aborder le cas de donnes bidimensionnelles quand il a t question de comparai-
son dchantillons apparis :
n
X X ,...,
1
et
n
Y Y ,...,
1
. En effet, on peut considrer que lon dispose en
fait de lobservation dun seul chantillon de n couples alatoires : ) , ( ),..., , (
1 1 n n
Y X Y X . Si les
i
X et
les
i
Y sont indpendants, le traitement se ramne celui de donnes unidimensionnelles. Quand les
i
X et les
i
Y ne sont pas indpendants, il faut utiliser des mthodes spcifiques.
Le problme principal est ltude de la dpendance entre
i
X et
i
Y . Un problme de rgression
consiste chercher une fonction f telle que pour tout i ,
i
Y est approximativement gal ) (
i
X f .
Le cas le plus simple est celui de la rgression linaire, o on cherche f de la forme b ax x f + ) ( .
Dans ce cadre, les problmes usuels sont lestimation de a et b , ponctuelle et par intervalle de
confiance, et la construction de tests dhypothses portant sur a et b . La mthode destimation est
bien connue sous le nom de mthode des moindres carrs.
Exemple : Pour tester la performance du systme de freinage dune voiture, on la fait rouler jusqu
atteindre une vitesse x , laquelle on freine. On mesure alors la distance de freinage y . On fait
lexprience pour n vitesses diffrentes
n
x x ,...,
1
et on mesure les n distances de freinage corres-
pondantes
n
y y ,...,
1
. On obtient le tableau 5.1. :
vitesse (m/s) 5 10 15 20 25 30 35 40
distance de freinage (m) 3.42 5.96 31.14 41.76 74.54 94.92 133.78 169.16
Tableau 5.1. : vitesse et distance de freinage dune voiture
Quel modle de dpendance entre la distance de freinage et la vitesse peut-on proposer ? Peut-on es-
timer la distance de freinage dune voiture lance 50 m/s ? Avec quelle prcision ?
5.2. Le modle de rgression linaire
On dispose de donnes bidimensionnelles, qui sont n couples ) , (
i i
y x . Cest le cas de lexemple. On
souhaite modliser la dpendance entre la vitesse x et la distance de freinage y . Il est clair que y
dpend de x , mais pas seulement : ltat de la route, la mto, la nervosit du conducteur, peuvent
influer sur la distance de freinage. En tous cas, mme quand on connat x , y nest pas prvisible
avec certitude lavance. Par consquent, on considrera que la distance de freinage y est la ralisa-
tion dune variable alatoire Y . Dans lexemple, il est clair que la vitesse laquelle on freine est
contrle par le conducteur, donc nest pas alatoire. Aussi on supposera que x est une constante
Chapitre 5 : La rgression linaire
connue. Mais tout ce qui est dit dans ce chapitre se gnralisera au cas o x est la ralisation dune
variable alatoire X .
Il faut donc exprimer le fait que la variable alatoire Y dpend de la grandeur mesure x et dun
certain nombre dautres facteurs imprvisibles et non mesurs. Le modle de rgression suppose que
leffet de tous les facteurs autres que x est alatoire et sajoute leffet de x :
Dfinition : Le modle de rgression de Y sur x est dfini par
+ ) (x f Y
o :
Y est la variable explique ou variable observe
x est la variable explicative ou prdicteur
est lerreur de prdiction de Y par x ou rsidu
Les donnes consistent en plusieurs observations de Y , obtenues pour diffrentes valeurs de x . Le
modle de rgression scrit alors
i i i
x f Y + ) ( , n i ,..., 1 . On suppose en gnral que les varia-
bles alatoires
i
Y sont indpendantes.
Pour signifier que les facteurs autres que le prdicteur x ont des effets qui se compensent, on consi-
dre en gnral que les rsidus
i
sont centrs : 0 ) ( ,
i
E i . Pour signifier que les expriences ont
toutes t faites dans les mmes conditions, on suppose en gnral que les rsidus sont de mme loi, et
on note
2
leur variance.
Enfin, on dfinit le modle de rgression linaire quand, en plus de ces hypothses, on suppose que
f est linaire.
Dfinition : Le modle de rgression linaire simple est dfini par :
n i ,..., 1 ,
i i i
b ax Y + +
o les rsidus
i
sont indpendants, de mme loi, centrs et de variance
2
.
On a alors :
n i ,..., 1 , b ax E b ax b ax E Y E
i i i i i i
+ + + + + ) ( ) ( ) (
n i ,..., 1 ,
2
) ( ) ( ) ( + +
i i i i
Var b ax Var Y Var
2
mesure le bruit, ou le poids des facteurs autres que le prdicteur. Plus
2
est lev, plus
i
Y
fluctue autour de b ax
i
+ .
On verra que lon peut estimer a , b et
2
sans connatre plus prcisment la loi des rsidus. Cepen-
dant, dans de nombreux cas, il est raisonnable de supposer que les
i
sont de loi normale. Dans notre
exemple, on peut considrer que les facteurs autres que la vitesse sont trs nombreux et sajoutent, ce
qui aboutit une hypothse de loi normale grce au thorme central-limite. On obtient alors le mo-
dle linaire gaussien :
Dfinition : Le modle linaire simple gaussien est dfini par : n i ,..., 1 , les variables
alatoires
i
Y sont indpendantes et de lois de probabilit respectives ) , (
2
b ax N
i
+
Remarque fondamentale : ce qui compte en fait, cest que la fonction de rgression f soit linaire
par rapport aux paramtres a et b , pas par rapport au prdicteur x . Ainsi, laide dune gnralisa-
tion simple, on pourra considrer que les modles suivants sont, contrairement aux apparences, des
modles linaires :

i i i i
c bx ax Y + + +
2

i i i
b x a Y + + ln

i
b
i i
ax Y , car
i i i
x b a Y ln ln ln ln + +
En revanche, le modle
i
ax
i
b e Y
i
+ + nest pas un modle linaire.
5.3. Estimation des paramtres : la mthode des moindres carrs
Considrons le modle de rgression linaire simple
i i i
b ax Y + + .
La premire chose faire est de dessiner le nuage des points ) , (
i i
y x n i ,..., 1 , de manire
sassurer visuellement quune hypothse de dpendance linaire entre x et y nest pas absurde.
Sous S+, la fonction plot(x,y) permet de dessiner ce nuage. Sur lexemple, on obtient :
> x<-c(5,10,15,20,25,30,35,40)
> y<-c(3.42,5.96,31.14,41.76,74.54,94.92,133.78,169.16)
> plot(x,y)
x
y
10 20 30 40
0
5
0
1
0
0
1
5
0
A premire vue, lhypothse de dpendance linaire peut tre retenue pour ces donnes. En fait, il
existe des mthodes statistiques permettant de juger de la pertinence de cette hypothse plus prcis-
ment que par une simple impression visuelle.
Le problme maintenant est de dterminer la droite la plus proche de ce nuage de points, en un
certain sens. La mthode la plus couramment utilise est la mthode des moindres carrs, due
Gauss. Elle consiste retenir la droite pour laquelle la somme des distances verticales des points la
droite est minimum.
Autrement dit, il faut trouver a et b tels que

n
i
i i
b ax y
1
2
) ( soit minimum. Cest ce qui justifie
le nom de moindres carrs pour cette mthode. On prfre en fait, ce qui revient au mme, mini-
miser lerreur quadratique moyenne

n
i
i i
b ax y
n
1
2 2
) (
1
. Pour cela, on annulle les drives
partielles de
2
par rapport a et b :
]
]
]
]
,
,

n
i
i
n
i
i
n
i
i i
n
i
i i i
x
n
b
x
n
a
y x
n
b ax y x
n a
1 1
2
1 1
2
1
2 ) (
2
[ ] b x a y
n
nb
x
n
a
y
n
b ax y
n b
n n
n
i
i
n
i
i
n
i
i i

]
]
]
]
,
,

2
1
2 ) (
2
1 1 1
2
b x a y
b
n n
+
0
2
. Par consquent, la droite des moindres carrs passe par le centre de gravit
du nuage, le point ) , (
n n
y x .
Outre les notations habituelles
n
i
i n
x
n
x
1
1
et
n
i
i n
y
n
y
1
1
, il faut faire intervenir de nouvelles no-
tations :

2
1
2
1
2 2
1
) (
1
n
n
i
i
n
i
n i x
x x
n
x x
n
s

est la variance empirique des
i
x

2
1
2
1
2 2
1
) (
1
n
n
i
i
n
i
n i y
y y
n
y y
n
s

est la variance empirique des
j
y

n
n
i
n i i n i
n
i
n i xy
y x y x
n
y y x x
n
c

1 1
1
) ( ) (
1
est la covariance empirique entre les
i
x et
les
j
y

y x
xy
xy
s s
c
r est le coefficient de corrlation linaire empirique entre les
i
x et les
j
y
xy
c et
xy
r sont les versions empiriques de la covariance ) ( ) ( ) ( ) , ( Y E X E XY E Y X Cov et du coef-
ficient de corrlation linaire
) ( ) (
) , (
) , (
Y X
Y X Cov
Y X

(voir annexe de probabilits). On peut montrer en
particulier que
xy
r vrifie des proprits analogues celles de ) , ( Y X :
[ ] 1 , 1 +
xy
r
1 +
xy
r les points ) , (
i i
y x sont aligns sur une droite de pente positive
1
xy
r les points ) , (
i i
y x sont aligns sur une droite de pente ngative
si y ne dpend pas de x ,
xy
r doit tre proche de 0. Rciproquement, si
xy
r est proche de 0,
alors il ny a pas de dpendance linaire entre x et y , mais il est possible quil existe une d-
pendance non linaire.
Sous S+,
2
x
s est donne par var(x,unbiased=F) (rappelons en effet que var(x) donne la variance
empirique dbiaise),
xy
c par var(x,y,unbiased=F) et
xy
r par cor(x,y).
Grce ces notations, on peut crire :
0 ) (
0
1 1 1
0
2 2
1 1
2
1
2
+ +

n n x n n xy
n
i
i
n
i
i
n
i
i i
x b x s a y x c
x
n
b x
n
a y x
n a
et en prenant en compte le fait que b x a y

n n
+ , on obtient :
0
2 2 2 2
+ +
x xy n n x n n xy
as c x b x a as x b x a c
do
2
x
xy
s
c
a et
n
x
xy
n
x
s
c
y b
2
. Le problme est rsolu.
Dfinition : La droite des moindres carrs est la droite dquation
n n
b x a y
+ , o
2
x
xy
n
s
c
a
et
n
x
xy
n n
x
s
c
y b
2
. Elle peut aussi scrire

n n
x
xy
y x x
s
c
y + ) (
2
.
Lerreur quadratique moyenne minimum est alors :
) 1 ( 2
) )( (
1
2 ) (
1
) (
1
) (
1
)
(
1
2 2 2 2 2
2
2
2
2
2
2
2
2
1
2
1
2
4
2
1
2
1
2
2
1
2 2
min
xy y y xy y
x
xy
y
x
xy
x
xy
y
n
i
n i n i
x
xy
n
i
n i
x
xy
n
i
n i
n
i
n n i
x
xy
i
n
i
n i n i
r s s r s
s
c
s
s
c
s
c
s
x x y y
n
s
c
x x
n
s
c
y y
n
y x x
s
c
y
n
b x a y
n
+
+
(
(
,
\
,
,
(
j

On retrouve le fait que lerreur quadratique moyenne est nulle si et seulement si 1

2

xy
r , cest--dire
si et seulement si les points sont aligns.
Comme dhabitude, les quantits que lon vient de manipuler sont des ralisations des variables ala-
toires correspondantes. Notons ici que les
i
y sont des ralisations des variables
i
Y , tandis que les
i
x
sont des constantes connues. On pose alors
n
n
i
n i i xY
Y x Y x
n
c

1
1
et
2
1
2 2
1
n
n
i
i Y
Y Y
n
s

et on ob-
tient :
Dfinition : Dans le modle de rgression linaire simple
i i i
b ax Y + + , n i ,..., 1 , les
estimateurs des moindres carrs de a et b sont
2
x
xY
n
s
c
A et
n
x
xY
n n
x
s
c
Y B
2
.
Il reste maintenant dterminer si ces estimateurs sont de bonne qualit. Etudions leur biais et leur
variance.
]
]
]
]
,
,
,

(
(
,
\
,
,
(
j

(
(
,
\
,
,
(
j

) ( ) (
1 1 1 1
)
(
1
2
1
2 2
n
n
i
n i i
x
n
n
i
n i i
x x
xY
n
Y E x Y E x
n
s
Y x Y x
n
E
s s
c
E A E .
Or b ax Y E
i i
+ ) ( et b x a Y E
n
Y E
n
n
i
i n
+

1
) (
1
) ( , do :
a as
s
x b x b x x
n
a
s
x b x a bx ax
n
s
A E
x
x
n n n
n
i
i
x
n n
n
i
i i
x
n

]
]
]
]
,
,
,
+
(
(
,
\
,
,
(
j

]
]
]
]
,
,
,
+

2
2
2
1
2
2
2
1
2
2
1 1 1
) (
1 1
)
( .
Dautre part, b x a b x a x A E Y E B E
n n n n n n
+ )
( ) ( )
( .
Par consquent,
n
A
et
n
B
sont des estimateurs sans biais de a et b .

De la mme faon, on montre que
2
2
)
(
x
n
ns
A Var

et
(
(
,
\
,
,
(
j
+
2
2
1 )
(
x
n
n
s
x
n
B Var

, ce qui prouve que ces
estimateurs sont convergents.
En fait, on a un rsultat beaucoup plus fort :
Thorme de Gauss-Markov :
n
A
et
n
B
sont les estimateurs sans biais et de variance mini-

mum de a et b parmi tous les estimateurs sans biais qui scrivent comme des combinaisons
linaires des
i
Y .
Nous avons estim a et b , il reste maintenant estimer la variance
2
. On sait que, pour tout i ,
2
) ( ) ( b ax Y Var Var
i i i
. Les rsidus b ax Y
i i i
sont naturellement estims par les
rsidus empiriques
n i n i i
B x A Y

. Une ide naturelle pour estimer
2
est de prendre la va-
riance empirique des rsidus empiriques. Cette variance est :
) 1 (

car )

(
1
)

( )

(
1

1
2 2 2
min
1
2
2
1
2 2
1
2 2
xY Y
n n n n
n
i
n i n i
n n n n
n
i
n i n i n
n
i
i
r s
B x A Y B x A Y
n
B x A Y B x A Y
n n
s

+

Dans le cas dun chantillon, la variance empirique est un estimateur biais de la variance de
lchantillon. Pour la dbiaiser, on la multiplie par
1 n
n
. Ici, on a deux chantillons et deux param-
tres estimer. On peut montrer qualors la variance empirique ci-dessus est un estimateur biais de
2
, et que, pour la dbiaiser, il faut la multiplier par
2 n
n
. Do finalement :
Proprit :
n
i
n i n i xY Y n
B x A Y
n
r s
n
n
1
2 2 2 2
)

(
2
1
) 1 (
2
est un estimateur sans biais
de
2
.
On na pas de rsultat particulier sur la variance de cet estimateur dans le cas gnral.
Remarque : Il est important de noter que toutes les proprits nonces dans cette section sont vala-
bles quelle que soit la loi des rsidus
i
. Quand on rajoute une hypothse sur cette loi, on peut donner
des prcisions sur la loi des estimateurs, leur qualit (efficacit), et construire des intervalles de
confiance et des tests dhypothses sur les paramtres du modle.
Revenons maintenant lexemple sur la liaison entre vitesse et distance de freinage. Les indicateurs
statistiques sont :
n
x = 22.5
n
y = 69.33
2
x
s = 131.25
2
y
s = 3172.54
xy
c = 632.31
xy
r = 0.9799
Le fait que
xy
r soit trs proche de 1 indique une forte corrlation linaire positive, ce qui se voit clai-
rement sur le nuage de points.
Les estimations des paramtres du modle de rgression linaire simple sont donnes par :
2
x
xy
n
s
c
a = 4.82
n
x
xy
n n
x
s
c
y b
2
= 39.06 ) 1 (
2
2 2 2
xy y n
r s
n
n
= 168.4
La droite des moindres carrs a donc pour quation 39.06 82 . 4 x y . On peut la superposer au
nuage des points grce la commande S+ abline(a,b) :
> achapeau <- var(x,y,unbiased=F)/var(x,unbiased=F)
> achapeau
[1] 4.817619
> bchapeau <- mean(y)-achapeau*mean(x)
> bchapeau
[1] -39.06143
> sigma2chapeau <- n/(n-2) * var(y,unbiased=F)*(1-cor(x,y)^2)
> sigma2chapeau
[1] 168.3939
> abline(achapeau,bchapeau)
x
y
10 20 30 40
0
5
0
1
0
0
1
5
0
On peut alors facilement prvoir la distance de freinage dune voiture lance 50 m/s :
4.82 x 50 39.06 = 201.9 m
5.4. Intervalles de confiance et tests dhypothses dans le modle linaire
gaussien
On supposera dans cette section que le modle linaire est gaussien, cest--dire que les variables
alatoires
i
Y sont indpendantes et de lois de probabilit respectives ) , (
2
b ax N
i
+ . Les rsidus
i
sont indpendants et de mme loi ) , 0 (

2
N .
Proprits :

n
A
est de loi
(
(
,
\
,
,
(
j
2
2
,
x
ns
a N

n
B
est de loi et
(
(
,
\
,
,
(
j
(
(
,
\
,
,
(
j
+
2
2
1 ,
x
n
s
x
n
b N

2
2
)
(
x
n
n n
ns
x
B A Cov

, ce qui entrane que
n
A
et
n
B
ne sont pas indpendants

2
2
2
n
n
est de loi
2
2 n
n
est indpendant de
n
A
et
n
B

n
A
,
n
B
et
2
n
sont les ESBVM de a , b et
2

Les rsultats pour
n
A
et
n
B
se dmontrent facilement en utilisant le fait que toute combinaison li-

naire de variables alatoires indpendantes et de lois normales (les
i
Y ) est une variable alatoire de
loi normale. Les rsultats sur
2
n
sont plus complexes dmontrer et peuvent se comprendre comme
une gnralisation du thorme de Fisher.
Proprit :
n
A
,
n
B
et
2
2
n
n
n
sont les estimateurs de maximum de vraisemblance de a , b

et
2
.
Dmonstration : La fonction de vraisemblance est :

n
i
i i
i i
i
b ax y
n n
n
i
b ax y
n
i
i Y n
e e y f y y b a
1
2
2
2
2
) (
2
1
1
2
) (
1
1
2
) 2 (
1
2
1
) ( ) ,..., ; , , (

L
Do

n
i
i i n
b ax y
n n
y y b a
1
2
2
2
1
2
) (
2
1
2 ln
2
ln
2
) ,..., ; , , ( ln
L .
Maximiser ) ,..., ; , , ( ln
1
2
n
y y b a L en a et b revient minimiser

n
i
i i
b ax y
1
2
) ( en a et b . On
voit que lon retrouve bien les estimateurs des moindres carrs.
Quant
2
, on a :
n
i
i i n
b ax y
n
y y b a
1
2
4 2
1
2
2
) (
2
1
2
) ,..., ; , , ( ln

L , qui vaut 0 pour

n
i
i i
b ax y
n
1
2 2
) (
1
.
Donc lestimateur de maximum de vraisemblance de
2
est
2
1
2
2
)

(
1
n
n
i
n i n i
n
n
B x A Y
n

.
CQFD
Le fait de connatre la loi de probabilit de
n
A
,
n
B
et
2
2
2
n
n
permet dobtenir facilement des in-

tervalles de confiance pour les paramtres.
En effet, la dfinition de la loi de Student permet dtablir directement que n s
a A
x
n
n

est de loi
) 2 ( n St et n s
x s
b B
x
n x n
n
2 2
de loi ) 2 ( n St , do on en dduit les intervalles de confiance sui-

vants :
Proprits :
Un intervalle de confiance de seuil pour a est :
]
]
]
]
,
,
,
+

n s
t
A
n s
t
A
x
n n
n
x
n n
n

, 2 , 2
Un intervalle de confiance de seuil pour b est :
]
]
]
]
]
,
,
,
,
+
+
+

n s
x s t
B
n s
x s t
B
x
n x n n
n
x
n x n n
n
2 2
, 2
2 2
, 2

Un intervalle de confiance de seuil pour
2
est :
]
]
]
]
,
,
,

2 / 1 , 2
2
2 / , 2
2
) 2 (
,
) 2 (

n
n
n
n
z
n
z
n
Dans lexemple, choisissons pour seuil = 10%. On a 943 . 1
1 . 0 , 6
t , 6 . 12
05 . 0 , 6
z et 64 . 1
95 . 0 , 6
z .
On obtient donc : ] 60 . 5 , 04 . 4 [ ) ( a IC , ] 41 . 19 , 71 . 58 [ ) ( b IC , ] 8 . 617 , 2 . 80 [ ) (
2
IC .
Les intervalles de confiance pour b et
2
sont larges, ce qui traduit le fait que ces paramtres sont
plutt mal estims, essentiellement cause du faible nombre de donnes. En revanche, a semble
assez bien estim.
Compte-tenu de la dualit entre intervalles de confiance et tests dhypothses, on peut de la mme
manire construire des tests dhypothses sur la valeur des paramtres a , b et
2
.
Par exemple, admettons que lon veuille tester
0
H :
0
a a contre
1
H :
0
a a . Le bon sens dit
que lon rejettera
0
H si et seulement si
0
a a
n
est trop grand , donc on propose une rgion cri-
tique de la forme
l a a W
n
>
0
.
Or, sous
0
H , n s
a A
x
n
n
est de loi ) 2 ( n St . On obtient donc :

( )
(
(
,
\
,
,
(
j
>
> n s
l
n s
a A
P l a A P
x
n
x
n
n
H n H

0
0
0 0
,
do
, 2
n x
n
t n s
l
et
n s
t l
x
n
n

, 2
.
On constate quil ne sagit que dune variante du test de Student. On peut donc facilement construire
des tests dhypothses sur les paramtres du modle. La proprit suivante donne les tests bilatraux
sur a , b et
2
.
Proprit :
Test de seuil de
0
H :
0
a a contre
1
H :
0
a a :
>
, 2
0

n x
n
n
t n s
a a
W
Test de seuil de
0
H :
0
b b contre
1
H :
0
b b :
>
+
, 2
2 2
0

n
n x
x
n
n
t
x s
n s b b
W
Test de seuil de
0
H :
2
0
2
contre
1
H :
2
0
2
:
>
<
2 / , 2
2
2
0
2 / 1 , 2
2
2
0
2
ou
2

n n n n
z
n
z
n
W
Parmi les autres hypothses intressantes tester figure videmment celle qui fonde le modle : y a-t-
il vraiment une dpendance linaire entre y et x ? On a vu que, si cest le cas, le coefficient de
corrlation linaire empirique
xy
r doit tre proche de 1. Inversement, si
xy
r est proche de 0,
lhypothse de dpendance linaire doit tre rejete. Il est donc naturel de construire un test, dit test
de pertinence de la rgression, qui consiste considrer que lhypothse de dpendance linaire est
pertinente si et seulement si
xy
r est significativement proche de 1 ou significativement loign de 0.
En pratique, cela revient se demander pour quelle valeur de
xy
r on peut considrer que des points
sont approximativement aligns.
Pour cela, on remarque que
x
Y
xY
x
xY
n
s
s
r
s
c
A
2
. Donc quand
xy
r est proche de 0,
n
A
est aussi pro-

che de 0. Ou bien, quand
xy
r est significativement loign de 0,
n
A
est aussi significativement loi-

gn de 0. Do lide que la rgion critique du test de pertinence de la rgression pourrait tre de la
forme
l a W
n
> . On constate quil sagit simplement deffectuer le test de
0
H : 0 a contre
1
H : 0 a , qui est dcrit ci-dessus.
On a alors
>
>
>

, 2 , 2 , 2

n y
n
xy
n x
x
y
n
xy
n x
n
n
t n s
r
t n s
s
s r
t n s
a
W .
Mais on a aussi ) 1 (
2
2 2 2
xy y n
r s
n
n
,
do
>
>
, 2
2
, 2
2 2
2
1
) 1 (
2

n
xy
xy
n y
xy y
xy
t n
r
r
t n s
r s
n
n
r
W .
Enfin,
2
) 1 ( ) 2 ( 2
1
2
, 2
2
, 2
2 2
, 2
2 2
, 2
2
+
> > >

n t
t
r t r r n t n
r
r
n
n
xy n xy xy n
xy
xy

.
Or on sait que si T est de loi ) 2 ( n St , alors
2
T est de loi ) 2 , 1 ( n F , do
, 2 , 1
2
, 2

n n
f t .
La rgion critique du test peut donc finalement scrire
>
, 2 , 1
2
2
1
) 2 (
n
xy
xy
f
r
r n
W ou
+
>
2
, 2 , 1
, 2 , 1
2
n f
f
r W
n
n
xy
.
Proprit : Le test de pertinence de la rgression est le test de
0
H : 0 a contre
1
H :
0 a . Sa rgion critique peut scrire sous les formes suivantes :
+
>
>
>
2 1
) 2 (

, 2 , 1
, 2 , 1
2
, 2 , 1
2
2
, 2
n f
f
r f
r
r n
t n s
a
W
n
n
xy
n
xy
xy
n x
n
n
Dans lexemple,
2
2
1
) 2 (
xy
xy
r
r n
= 144.7. La table de la loi de Fisher-Snedecor donne 99 . 5

05 . 0 , 6 , 1
f et
8 . 13
01 . 0 , 6 , 1
f . Mme au seuil 1%, on est trs largement dans la rgion critique, donc on conclut que
la rgression linaire est ici trs pertinente.
Sous S+, la commande permettant deffectuer une rgression linaire de y sur x est lm(y~x). Le
rsultat dune rgression est donn grce la commande summary. Sur lexemple, on obtient :
> reg <- lm(y~x)
> summary(reg)
Call: lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-15.53 -7.766 -2.609 7.048 18.39
Coefficients:
Value Std. Error t value Pr(>|t|)
(Intercept) -39.0614 10.1113 -3.8631 0.0083
x 4.8176 0.4005 12.0300 0.0000
Residual standard error: 12.98 on 6 degrees of freedom
Multiple R-Squared: 0.9602
F-statistic: 144.7 on 1 and 6 degrees of freedom, the p-value is 0.00002002
Correlation of Coefficients:
(Intercept)
x -0.8911
La colonne Value donne les estimations des moindres carrs de b et a ,
n
b
= -39.06 et
n
a = 4.82.
La colonne Std.error donne les valeurs de
n s
x s
x
n x n
2 2
+
et
n s
x
n
, ce qui permet de dterminer

des intervalles de confiance pour b et a .
La colonne t value donne les valeurs de
2 2
n x
x
n
n
x s
n s b
+
et n s
a
x
n
n
, ce qui permet deffectuer

les tests de 0 b contre 0 b et 0 a contre 0 a .
La colonne Pr(>|t|) donne les p-valeurs de ces tests. Dans lexemple, ces p-valeurs sont trs fai-
bles, donc les hypothses 0 b et 0 a sont largement rejetes. Cest logique puisque 0
nappartient pas aux intervalles de confiance dtermins pour b et a .
La Residual standard error est
n
, ce qui permet de retrouver
2
n
= 12.98
2
= 168.4.
Le Multiple R-Squared est
2
xy
r , ce qui permet de faire le test de pertinence de la rgression. La
F-statistic est la statistique de ce test,
2
2
1
) 2 (
xy
xy
r
r n
. On retrouve quelle vaut 144.7. La p-value

fournie est la p-valeur de ce test. Elle est trs faible, donc on conclut bien que la rgression linaire
est pertinente sur notre exemple.
Les commandes plot(x,y) puis lines(x,fitted.values(reg)) permettent de retrouver la
figure de la section 5.3. reprsentant le nuage de points et la droite des moindres carrs.
Le modle de rgression linaire simple gaussien semble donc satisfaisant pour lexemple. Cependant,
on saperoit que ce modle prvoit une distance de freinage ngative pour toute vitesse infrieure
8.1 m/s ! Dautre part, la forme du nuage peut voquer plus un polynme quune droite, et des raisons
physiques incitent penser que la distance de freinage est plutt une fonction quadratique de la vi-
tesse. Enfin, il est obligatoire que la distance de freinage correspondant une vitesse nulle soit zro.
Tous ces arguments amnent penser que le modle
i i i
b ax Y + + pourrait tre avantageusement
remplac par le modle
i i i i
bx ax Y + +
2
. On peut montrer que cest encore un modle linaire, qui
se traite de faon similaire au prcdent. Nous navons pas le temps dtudier thoriquement ce mo-
dle, mais il est facile de le mettre en oeuvre grce S+. On obtient sur lexemple :
> reg2<-lm(y~x^2+x-1)
> summary(reg2)
Call: lm(formula = y ~ x^2 + x - 1)
Residuals:
Min 1Q Median 3Q Max
-6.557 -3.04 -0.9151 2.734 5.561
Coefficients:
Value Std. Error t value Pr(>|t|)
I(x^2) 0.1005 0.0078 12.8417 0.0000
x 0.2467 0.2566 0.9615 0.3734
Residual standard error: 4.54 on 6 degrees of freedom
Multiple R-Squared: 0.9981
F-statistic: 1545 on 2 and 6 degrees of freedom, the p-value is 7.275e-009
Correlation of Coefficients:
I(x^2)
x -0.9688
On a donc
n
a = 0.1005,
n
b
= 0.2467 et
2
n
= 4.54
2
= 20.51.
Graphiquement, on obtient :
> plot(x,y)
> lines(x,fitted.values(reg2))
x
y
10 20 30 40
0
5
0
1
0
0
1
5
0
Le coefficient de corrlation linaire empirique est 99905 . 0 9981 . 0
xy
r . Il est nettement plus
proche de 1 que celui du modle prcdent, qui valait 0.9799. De la mme faon, la p-valeur du test
de pertinence de la rgression vaut 7.3 10
-9
, qui est nettement plus petite que celle que lon avait ob-
tenue dans le modle prcdent, 2 10
-5
. Ces deux arguments montrent que le nouveau modle est
meilleur que le prcdent.
La prvision de distance de freinage la vitesse de 50 m/s est maintenant de 0.100 x 50
2
+ 0.247 x 50
= 263.6 m, alors quelle tait de 201.9 m pour le modle prcdent. Cette importante diffrence peut
avoir de grandes consquences pratiques et met en vidence limportance du choix dun bon modle
de rgression.
Cette annexe rappelle quelques rsultats de base du calcul des probabilits utiles pour la statistique.
Les notions sont prsentes sans aucune dmonstration. Les dtails sont aller chercher dans le cours
de Probabilits Appliques de premire anne.
A.1. Variables alatoires relles
A.1.1. Loi de probabilit dune variable alatoire
Mathmatiquement, une variable alatoire est dfinie comme une application mesurable. On se
contentera ici de la conception intuitive suivante :
Une variable alatoire est une grandeur dpendant du rsultat dune exprience alatoire, cest--dire
non prvisible lavance avec certitude. Par exemple, on peut dire que la dure de bon fonctionne-
ment dune ampoule lectrique ou le rsultat du lancer dun d sont des variables alatoires. Pour une
exprience donne, ces grandeurs prendront une valeur donne, appele ralisation de la variable
alatoire. Si on recommence lexprience, on obtiendra une ralisation diffrente de la mme variable
alatoire.
On ne sintresse ici quaux variables alatoires relles, cest--dire valeurs dans R ou un sous-
ensemble de R .
On note traditionnellement une variable alatoire par une lettre majuscule ( X ) et sa ralisation par
une lettre minuscule ( x ).
Le calcul des probabilits va permettre de calculer des grandeurs comme la dure de vie moyenne
dune ampoule ou la probabilit dobtenir un 6 en lanant le d. Ces grandeurs sont dtermines par la
loi de probabilit de ces variables alatoires.
Il y a plusieurs moyens de caractriser la loi de probabilit dune variable alatoire. La plus simple est
la fonction de rpartition :
On appelle fonction de rpartition de la variable alatoire X la fonction
) ( ) (
] 1 , 0 [ :
x X P x F x
R F
X
X

X
F est une fonction croissante, continue droite, telle que 0 ) ( lim

x F
X
x
et 1 ) ( lim
+
x F
X
x
. Elle
permet de calculer la probabilit que X appartienne nimporte quel intervalle de R :
) ( ) ( ) ( , , ) , (
2
a F b F b X a P b a R b a
x X
< <
Les variables alatoires peuvent tre classes selon le type densemble dans lequel elles prennent
leurs valeurs. Dans la pratique, on ne sintressera qu deux catgories : les variables alatoires dis-
crtes et les variables alatoires continues (ou densit).
Annexe A : Rappels de probabilits
pour la statistique
A.1.2. Variables alatoires discrtes et continues
Une variable alatoire X est dite discrte (v.a.d.) si et seulement si elle est valeurs dans un ensem-
ble E fini ou dnombrable. On peut noter ,... ,
2 1
x x E .
Exemples :
Face obtenue lors du lancer dun d : 6 , 5 , 4 , 3 , 2 , 1 E
Nombre de bugs dans un programme : N E
La loi de probabilit dune v.a.d. X est entirement dtermine par les probabilits lmentaires
) (
i
x X P , E x
i
.
La fonction de rpartition de X est alors

x x
i X
i
x X P x X P x F ) ( ) ( ) ( .
Une variable alatoire X est dite continue (v.a.c.) si et seulement si sa fonction de rpartition
X
F
est partout drivable. Sa drive
X
f est alors appele densit de probabilit de X , ou plus simple-
ment densit de X . Une v.a.c. est forcment valeurs dans un ensemble non dnombrable.
Exemples :
Appel de la fonction Random dune calculatrice : ] 1 , 0 [ E
Dure de bon fonctionnement dun systme :
+
R E
On a alors
< <
b
a
X x X
dx x f a F b F b X a P b a R b a ) ( ) ( ) ( ) ( , , ) , (
2
.
Plus gnralement,

D
X
dx x f D P R D ) ( ) (X , . Donc la densit dtermine entirement la loi de
probabilit de X .
X
f est une fonction positive telle que 1 ) ( ) (
+

R X P dx x f
X
Connaissant la loi de X , on est souvent amens dterminer celle de ) ( X Y . Quand X est dis-
crte, il suffit dcrire ) ) ( ( ) ( y X P y Y P . Quand X est continue, on commence par dterminer
la fonction de rpartition de Y en crivant ) ) ( ( ) ( ) ( y X P y Y P y F
Y
, puis on en dduit sa
densit par drivation.
Remarque : Il existe des lois de probabilit de variables alatoires relles qui ne sont ni discrtes ni
continues. Par exemple, si X est la dure de bon fonctionnement dun systme qui a une probabilit
non nulle p dtre en panne linstant initial, on a :
0 ) ( lim
0

x F
X
x
(une dure ne peut pas tre ngative) et p X P X P F
X
) 0 ( ) 0 ( ) 0 ( .
Par consquent
X
F nest pas continue en 0, donc pas drivable en 0. La loi de X ne peut donc pas
tre continue, et elle nest pas non plus discrte. Ce type de variable alatoire ne sera pas tudi ici.
A.1.3. Moments dune variable alatoire relle
Si X est une variable alatoire discrte, son esprance mathmatique est dfinie par

E x
i i
i
x X P x X E ) ( ) (
Si X est une variable alatoire continue, son esprance mathmatique est dfinie par
+

dx x xf X E
X
) ( ) (
Concrtement, ) ( X E est ce quon sattend trouver comme moyenne des rsultats obtenus si on r-
pte lexprience un grand nombre de fois. Par exemple, si on lance une pice de monnaie 10 fois, on
sattend trouver en moyenne 5 piles.
Plus gnralement, on peut sintresser lesprance mathmatique dune fonction de X :
Si X est une v.a.d., [ ]

E x
i i
i
x X P x X E ) ( ) ( ) (
Si X est une v.a.c., [ ]

+

dx x f x X E
X
) ( ) ( ) (
Ce rsultat permet de calculer lesprance de ) ( X sans avoir dterminer entirement sa loi.
Soit k un entier naturel quelconque. Le moment dordre k de X est ) (
k
X E et le moment centr
dordre k est [ ]
k
X E X E )) ( ( .
De tous les moments, le plus important est le moment centr dordre 2, appel aussi variance :
La variance de X est [ ]
2
)) ( ( ) ( X E X E X Var , qui se calcule plus facilement sous la forme
[ ]
2 2
) ( ) ( ) ( X E X E X Var .
Lcart-type de X est ) ( ) ( X Var X .
La variance et lcart-type sont des indicateurs de la dispersion de X : plus la variance de X est
petite, plus les ralisations de X seront concentres autour de son esprance.
Le coefficient de variation de X est
) (
) (
) (
X E
X
X CV

. Cest galement un indicateur de dispersion,
dont lavantage est dtre sans dimension. Il permet de comparer les dispersions de variables alatoi-
res dordres de grandeur diffrents ou exprimes dans des units diffrentes. En pratique, on consi-
dre que, quand ) ( X CV est infrieur 15%, lesprance peut tre considre comme un bon rsum
de la loi.
Soit ] [ 1 , 0 p . Si
X
F est inversible, le quantile dordre p de X est ) (
1
p F q
X p

.
A.2. Vecteurs alatoires rels
On ne sintressera ici quaux vecteurs alatoires ( )
n
X X ,...,
1
constitus de n variables alatoires
relles toutes discrtes ou toutes continues.
A.2.1. Loi de probabilit dun vecteur alatoire
La loi dun vecteur alatoire ( )
n
X X ,...,
1
est dtermine par sa fonction de rpartition :
( ) ] [ ... ] [ ) ,..., ( ) ,..., (
] 1 , 0 [ :
1 1 1 ) ,..., ( 1
) ,..., (
1
1
n n n X X n
n
X X
x X x X P x x F x x
R F
n
n

Si les
i
X sont discrtes, la loi de ( )
n
X X ,...,
1
est aussi dtermine par les probabilits lmentaires
( ) ] [ ... ] [
1 1 n n
x X x X P .
Si les
i
X sont continues, la densit de ( )
n
X X ,...,
1
est dfinie, si elle existe, par :
) ,..., (
...
) ,..., (
1 ) ... (
1
1 ) ,..., (
1 1
n X X
n
n
n X X
x x F
x x
x x f
n n

On a alors ( )
n
D
n X X n
n
dx dx x x f D X X P R D
n
... ) ,..., ( ... ) ,..., ( ,
1 1 ) ,..., ( 1
1

.
Les variables alatoires
n
X X ,...,
1
sont (mutuellement) indpendantes si et seulement si :

n
i
i i n X X
x X P x x F
n
1
1 ) ,..., (
) ( ) ,..., (
1
Pour des variables discrtes cela donne ( )

n
i
i i n n
x X P x X x X P
1
1 1
) ( ] [ ... ] [ .
Et pour des variables continues,
n
i
i X n X X
x f x x f
i n
1
1 ) ,..., (
) ( ) ,..., (
1
.
Concrtement, lindpendance signifie que la valeur prise par lune des variables na aucune influence
sur la valeur prise par les autres.
A.2.2. Esprance et matrice de covariance dun vecteur alatoire
Lesprance mathmatique dun vecteur alatoire ( )
n
X X ,...,
1
est le vecteur des esprances math-
matiques de ses composantes : ( ) ( ) ) ( ),..., ( ) ,..., (
1 1 n n
X E X E X X E .
Lquivalent de la variance en dimension n est la matrice de covariance du vecteur ( )
n
X X ,...,
1
,
note
) ,..., (
1 n
X X
K ou K , dont llment j i est ) , (
j i ij
X X Cov k ,
2
,..., 1 ) , ( n j i .
) , (
j i
X X Cov est la covariance des variables alatoires
i
X et
j
X et est dfinie par :
) ( ) ( ) ( ) , (
j i j i j i
X E X E X X E X X Cov
Pour j i , ) ( ) ( ) ( ) , (
2 2
i i i i i
X Var X E X E X X Cov .
Pour j i , la covariance de
i
X et
j
X traduit le degr de corrlation entre ces deux variables. En
particulier, si
i
X et
j
X sont indpendantes, 0 ) , (
j i
X X Cov (mais la rciproque est fausse). Par
consquent, si
n
X X ,...,
1
sont indpendantes, leur matrice de covariance K est diagonale.
Le coefficient de corrlation linaire entre
i
X et
j
X est
) ( ) (
) , (
) , (
j i
j i
j i
X X
X X Cov
X X

. On montre
que :
[ ] 1 , 1 ) , ( +
j i
X X
R b a b aX X X X
j i j i
> + + , 0 , 1 ) , (
R b a b aX X X X
j i j i
> + , 0 , 1 ) , (
si 0 ) , ( >
j i
X X ,
i
X et
j
X sont corrles positivement, ce qui signifie quelles varient dans
le mme sens. Par exemple,
i
X et
j
X peuvent tre la taille et le poids dindividus pris au ha-
sard
si 0 ) , ( <
j i
X X ,
i
X et
j
X sont corrles ngativement, ce qui signifie quelles varient en
sens contraire. Par exemple,
i
X et
j
X peuvent tre lge et la rsistance dun matriau
si 0 ) , (
j i
X X , il ny a pas de corrlation linaire entre
i
X et
j
X . Cela ne signifie pas que
i
X et
j
X sont indpendantes. Il peut ventuellement y avoir une corrlation non linaire
Lesprance mathmatique est linaire : si X et Y sont des variables alatoires et a , b et c des
rels, alors c Y bE X aE c bY aX E + + + + ) ( ) ( ) ( .
En revanche, la variance nest pas linaire : si X et Y sont des variables alatoires et a , b et c des
rels, alors ) ( ) , ( 2 ) ( ) (
2 2
Y Var b Y X abCov X Var a c bY aX Var + + + + .
Si X et Y sont indpendantes, 0 ) , (
j i
X X Cov , donc ) ( ) ( ) (
2 2
Y Var b X Var a c bY aX Var + + + .
En particulier, la variance de la somme de variables alatoires indpendantes est gale la somme des
variances de ces variables. Mais ce rsultat est faux si les variables ne sont pas indpendantes.
A.3. Convergences et applications
Deux des rsultats les plus importants des probabilits sont le thorme central-limite et la loi des
grands nombres. Ces rsultats ncessitent dutiliser la notion de convergence dune suite de variables
alatoires.
Une suite de variables alatoires
1
) (
n n
X converge en loi vers la loi de probabilit de fonction de
rpartition F si et seulement si ) ( ) ( lim x F x F
n
X
n

en tout point x o F est continue. Cela signifie
que, quand n est grand, la loi de probabilit de
n
X est approximativement la loi de fonction de r-
partition F .
Thorme central-limite : Soit
1
) (
n n
X une suite de variables alatoires indpendantes et de mme
loi desprance m et de variance
2
finies. Alors la suite de variables alatoires
n
nm X
n
i
i
1
converge en loi vers la loi normale centre rduite ) 1 , 0 ( N .
Concrtement, cela signifie que la loi de toute variable alatoire gale la somme dun nombre
suffisamment grand de variables alatoires indpendantes et de mme loi est approximativement
une loi normale. Plus prcisment, pour n grand,
n
i
i
X
1
est approximativement de loi ) , (
2
n nm N .
Ce qui est remarquable, cest que ce rsultat est vrai quelle que soit la loi des
i
X .
De trs nombreux phnomnes naturels sont la rsultante dun grand nombre de phnomnes l-
mentaires identiques, indpendants et additifs ce qui justifie limportance (et le nom) de la loi nor-
male.
La plus forte des convergences de suites de variables alatoires est la convergence presque sre. Ce
concept ncessite davoir dfini une variable alatoire comme une application mesurable dun espace
probabilis dans un autre. Une suite de variables alatoires
1
) (
n n
X converge presque srement
vers la variable alatoire X si et seulement si 1 ) ( ) ( lim ; (
,
\
,
(
j

X X P
n
n
.
Une suite de variables alatoires
1
) (
n n
X converge en probabilit vers la variable alatoire X si et
seulement si 0 ) ( lim , 0 > >

X X P
n
n
.
On montre que la convergence presque sre entrane la convergence en probabilit, qui elle-mme
entrane la convergence en loi.
Loi des grands nombres : Soit
1
) (
n n
X une suite de variables alatoires indpendantes et de mme
loi desprance m. Alors la suite des variables alatoires
n
i
i n
X
n
X
1
1
converge presque srement
vers m.
Concrtement, cela signifie que quand on fait un trs grand nombre dexpriences identiques et ind-
pendantes, la moyenne des ralisations de la variable alatoire laquelle on sintresse tend vers
lesprance de sa loi.
Ce rsultat permet de justifier lide naturelle destimer une esprance par une moyenne et une proba-
bilit par une proportion.
En fait, la convergence la plus utile en statistique est la convergence en moyenne quadratique ou dans
2
L .
2
L est lensemble des variables alatoires relles X telles que < ) (
2
X E . Une suite de varia-
bles alatoires
1
) (
n n
X de
2
L converge en moyenne quadratique vers la variable alatoire X si et
seulement si 0 ) ( lim
2

X X E
n
n
.
On montre que la convergence en moyenne quadratique entrane la convergence en probabilit, qui
elle-mme entrane la convergence en loi. Mais il ny a pas de lien entre la convergence en moyenne
quadratique et la convergence presque sre.
A.4. Quelques rsultats sur quelques lois de probabilit usuelles
Les tables de lois de probabilit fournies donnent notamment, pour les lois les plus usuelles, les pro-
babilits lmentaires ou la densit, lesprance et la variance. On prsente dans cette section quel-
ques proprits supplmentaires de quelques unes de ces lois.
A.4.1. Loi binomiale
Une variable alatoire K est de loi binomiale ) , ( p n B si et seulement si elle est valeurs dans
n ,..., 1 , 0 et
k n k k
n
p p C k K P

) 1 ( ) ( .
Le nombre de fois o, en n expriences identiques et indpendantes, un vnement de probabilit p
sest produit, est une variable alatoire de loi ) , ( p n B .
Si
n
X X ,...,
1
sont indpendantes et de mme loi ) , ( p m B , alors
n
i
i
X
1
est de loi ) , ( p nm B .
A.4.2. Loi gomtrique
Une variable alatoire K est de loi gomtrique ) ( p G si et seulement si elle est valeurs dans
*
N et

1
) 1 ( ) (

k
p p k K P .
Dans une suite dexpriences identiques et indpendantes, le nombre dexpriences ncessaires pour
que se produise pour la premire fois un vnement de probabilit p , est une variable alatoire de loi
) ( p G .
A.4.3. Loi de Poisson
Une variable alatoire K est de loi de Poisson ) ( P si et seulement si elle est valeurs dans N et

!
) (
k
e k K P
k

.
Pour 50 n et 1 . 0 p , la loi binomiale ) , ( p n B peut tre approche par la loi de Poisson ) (np P . On
dit que la loi de Poisson est la loi des vnements rares : loi du nombre de fois o un vnement de
probabilit trs faible se produit au cours dun trs grand nombre dexpriences identiques et ind-
pendantes.
Si
n
X X ,...,
1
sont indpendantes et de mme loi ) ( P , alors
n
i
i
X
1
est de loi ) ( n P .
A.4.4. Loi exponentielle
Une variable alatoire X est de loi exponentielle ) exp( si et seulement si elle est valeurs dans
+
R
et
x
e x f

) ( .
La loi exponentielle est sans mmoire : ( ) ) ( ) ( , ,
2
x X P t X x t X P R x t > > + >
+
.
Si
n
X X ,...,
1
sont indpendantes et de mme loi ) exp( , alors
n
i
i
X
1
est de loi gamma ) , ( n G .
Si
n
X X ,...,
1
sont indpendantes et de mme loi ) exp( , et reprsentent les dures entre occurrences
successives dun mme vnement, alors le nombre dvnements survenus sur une priode de lon-
gueur t est une variable alatoire de loi de Poisson ) ( t P .
A.4.5. Loi gamma et loi du khi-2
Une variable alatoire X est de loi gamma ) , ( G si et seulement si elle est valeurs dans
+
R et

1
) (
) (

x e x f
x
. Les proprits de la fonction gamma sont rappeles sur les tables.
La loi )
2
1
,
2
(
n
G est appele loi du khi-2 n degrs de libert, note
2
n
.
Si X est de loi ) , ( G et a est un rel strictement positif, alors aX est de loi ) , (
a
G

.
Si X et Y sont des variables alatoires indpendantes de lois respectives ) , ( G et ) , ( G , alors
Y X + est de loi ) , ( + G . En particulier, si X et Y sont indpendantes et de lois respectives
2
n
et
2
m
, alors Y X + est de loi
2
m n+
.
A.4.6. Loi normale
Une variable alatoire X est de loi normale ) , (
2
m N si et seulement si elle est valeurs dans R et

2
2
2
) (
2
1
) (

m x
e x f

.
Si X est de loi ) , (
2
m N , alors b aX + est de loi ) , (
2 2
a b am N + . En particulier,
m X
est de
loi ) 1 , 0 ( N .
Si X est de loi ) 1 , 0 ( N , alors
2
X est de loi
2
1
.
Si
n
X X ,...,
1
sont indpendantes et de mme loi ) , (
2
m N , alors :

n
i
i
X
1
est de loi ) , (
2
n nm N

n
i
i n
X
n
X
1
1
est de loi ) , (
2
n
m N

n
i
i
m X
1
2
2
) (
1
est de loi
2
n
n
i
n i
X X
1
2
2
) (
1
est de loi
2
1 n
Si ) , (
2 1
X X est un vecteur gaussien tel que
1
X est de loi ) , (
2
1 1
m N et
2
X est de loi ) , (
2
2 2
m N ,
alors
2 1
bX aX + est de loi ( ) ) , ( 2 ,
2 1
2
2
2 2
1
2
2 1
X X abCov b a bm am N + + + .
Enfin, les lois de probabilit de Student et de Fisher-Snedecor sont trs utilises en statistique. Elles
sont lies la loi normale travers les rsultats suivants.
Soit U une variable alatoire de loi ) 1 , 0 ( N et X une variable alatoire de loi
2
n
. Si U et X sont
indpendantes, alors n
X
U
est de loi de Student n degrs de libert ) (n St .
Soit X une variable alatoire de loi
2
n
et Y une variable alatoire de loi
2
m
. Si X et Y sont in-
dpendantes, alors
nY
mX
est de loi de Fisher-Snedecor ) , ( m n F .
Ces deux dfinitions entrainent que si T est de loi ) (n St , alors
2
T est de loi ) , 1 ( n F .
Les lois de Student et de Fisher-Snedecor sont toujours utilises par lintermdiaire de tables ou
laide dun logiciel de statistique. Il nest donc pas ncessaire de donner lexpression de leur densit.
Ces tableaux prsentent les lois de probabilit les plus usuelles pour une variable alatoire relle X .
Pour chaque loi de probabilit, on donne son nom usuel, son symbole, son support, sa dfinition
laide de probabilits lmentaires pour les lois discrtes ou de densit pour les lois continues, son
esprance et sa variance.
Les fonctions spciales suivantes sont utilises :
la fonction Gamma est dfinie pour 0 > a par
+

0
1
) ( dx x e a
a x
.
Proprits : n
*
, )! 1 ( ) ( n n , 1 ) 1 ( , ) 2 / 1 ( , ) 1 ( ) 1 ( ) ( , 1 > a a a a .
la fonction Bta est dfinie pour 0 > a et 0 > b par
1
0
1 1
) 1 (
) (
) ( ) (
) , ( dx x x
b a
b a
b a
b a
.
Tableau 1 : Variables alatoires discrtes
Nom Symbole Support Probabilits lmentaires Esprance Variance
Loi de Bernoulli
] [ 1 , 0 p
) ( p B 1 , 0
p X P
p X P

) 1 (
1 ) 0 (
p ) 1 ( p p
Loi binomiale
] [ 1 , 0 p , n
*
) , ( p n B n ,..., 1 , 0
k n k k
n
p p C k X P

) 1 ( ) (
np ) 1 ( p np
Loi binomiale ngative
] [ 1 , 0 p , n
*
) , ( p n BN ,... 1 , + n n
n k n n
k
p p C k X P

) 1 ( ) (
1
1
p
n
2
) 1 (
p
p n
Loi de Poisson

+*
) ( P

!
) (
k
e k X P
k

Loi gomtrique
] [ 1 , 0 p
) ( p G

*
1
) 1 ( ) (

k
p p k X P
p
1
2
1
p
p
Loi hypergomtrique
N
*
,
2
,..., 1 ) , ( N n m
) , , ( n m N H ) , min( ,..., 0 n m
n
N
k n
m N
k
m
C
C C
k X P

) (
N
nm
) 1 (
) )( (
2

N N
m N n N nm
Annexe B : Tables de lois de probabilits usuelles
Tableau 2 : Variables alatoires continues
Nom Symbole Support Densit Esprance Variance
Loi uniforme
[ ] b a,
[ ] b a U , [ ] b a,
a b
x f
X
1
) ( 1 ) (
] , [
x
b a
2
b a +
12
) (
2
a b
Loi normale ou de Gauss
m ,
+*
) , (
2
m N

2
2
2
) (
2
1
) (

m x
e x f
X
m
2
Loi gamma

+*
,
+*
) , ( G

+
1
) (
) (

x e x f
x
X

Loi exponentielle

+*
) exp(
) , 1 ( G

+
x
e x f
X

) (

1
2
1
Loi du chi-deux
n
*
2
n
(
,
\
,
(
j
2
1
,
2
n
G

+
1
2
2
2
2
2
1
) (

(
,
\
,
(
j
n
n
X
x e
n
x f
x
n n 2
Loi bta de 1
re
espce
a
+*
, b
+*
) , (
1
b a [ ] 1 , 0
1
) 1 (
) , (
1
) (
1

b
x x
b a
x f
a
X
1 ) (
] 1 , 0 [
x
b a
a
+
) 1 ( ) (
2
+ + + b a b a
ab
Loi bta de 2
me
espce
a
+*
, b
+*
) , (
2
b a
+
b a
a
X
x
x
b a
x f
+
) 1 (
) , (
1
) (
1
1 b
a
si 1 > b
) 2 ( ) 1 (
) 1 (
2

+
b b
b a a
si 2 > b
Loi de Weibull

+*
,
+*
) , ( W

+

(
(
,
\
,
,
(
j
x
X
e x x f
1
) (
(
(
,
\
,
,
(
j
+
1
1
]
]
]
]
,
,
,
(
(
,
\
,
,
(
j
+
(
(
,
\
,
,
(
j
+
2
2
1
1
2
1


TABLE 1 DE LA LOI NORMALE CENTREE REDUITE
U tant une variable alatoire de loi ) 1 , 0 ( N , la table donne la valeur de ) ( ) ( u U P u .
Sous S+, la commande correspondante est pnorm(u).
x
d
n
o
r
m
(
x
)
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
u 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
Grandes valeurs de u
u 3.0 3.5 4.0 4.5
) (u 0.9987 0.99977 0.999968 0.999997
(u)
u
TABLE 2 DE LA LOI NORMALE CENTREE REDUITE
U tant une variable alatoire de loi ) 1 , 0 ( N et

un rel de [0,1], la table donne la valeur
(
,
\
,
(
j

2
1
1

u
,
telle que
> ) ( u U P .
Sous S+, la commande correspondante est qnorm(1-alpha/2).
x
d
n
o
r
m
(
x
)
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 + 2.5758 2.3263 2.1701 2.0537 1.9600 1.8808 1.8119 1.7507 1.6954
0.1 1.6449 1.5982 1.5548 1.5141 1.4758 1.4395 1.4051 1.3722 1.3408 1.3106
0.2 1.2816 1.2536 1.2265 1.2004 1.1750 1.1503 1.1264 1.1031 1.0803 1.0581
0.3 1.0364 1.0152 0.9945 0.9741 0.9542 0.9346 0.9154 0.8965 0.8779 0.8596
0.4 0.8416 0.8239 0.8064 0.7892 0.7722 0.7554 0.7388 0.7225 0.7063 0.6903
0.5 0.6745 0.6588 0.6433 0.6280 0.6128 0.5978 0.5828 0.5681 0.5534 0.5388
0.6 0.5244 0.5101 0.4959 0.4817 0.4677 0.4538 0.4399 0.4261 0.4125 0.3989
0.7 0.3853 0.3719 0.3585 0.3451 0.3319 0.3186 0.3055 0.2924 0.2793 0.2663
0.8 0.2533 0.2404 0.2275 0.2147 0.2019 0.1891 0.1764 0.1637 0.1510 0.1383
0.9 0.1257 0.1130 0.1004 0.0878 0.0753 0.0627 0.0502 0.0376 0.0251 0.0125
Petites valeurs de
0.002 0.001 10
-4
10
-5
10
-6
10
-7
10
-8
10
-9
u 3.0902 3.2905 3.8906 4.4171 4.8916 5.3267 5.7307 6.1094

Pour
2
1
< p
,
( )
p
u p
2
1

Pour
2
1
p
,
( )
) 1 ( 2
1
p
u p

u -u

/2 /2
1
TABLE DE LA LOI DU
2
X

tant une variable alatoire de loi du
2
n degrs de libert, et

un rel de [0,1],
la table donne la valeur ) 1 (
1
,
2

n
F z
n ,
telle que ( )
>
, n
z X P .
Sous S+, la commande correspondante est qchisq(1-alpha,n).
x
d
c
h
is
q
(
x
,

8
)
0 5 10 15 20 25
0
.
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
0
.
1
0
0
.
1
2

n
0.995 0.990 0.975 0.95 0.9 0.8 0.7 0.5 0.3 0.2 0.1 0.05 0.025 0.01 0.005 0.001
1 0.00004 0.0002 0.001 0.004 0.02 0.06 0.15 0.46 1.07 1.64 2.71 3.84 5.02 6.63 7.88 10.80
2 0.01 0.02 0.05 0.10 0.21 0.45 0.71 1.39 2.41 3.22 4.61 5.99 7.38 9.21 10.60 13.82
3 0.07 0.11 0.22 0.35 0.58 1.01 1.42 2.37 3.66 4.64 6.25 7.81 9.35 11.34 12.84 16.27
4 0.21 0.30 0.48 0.71 1.06 1.65 2.19 3.36 4.88 5.99 7.78 9.49 11.14 13.28 14.86 18.47
5 0.41 0.55 0.83 1.15 1.61 2.34 3.00 4.35 6.06 7.29 9.24 11.07 12.83 15.09 16.75 20.52
6 0.68 0.87 1.24 1.64 2.20 3.07 3.83 5.35 7.23 8.56 10.64 12.59 14.45 16.81 18.55 22.46
7 0.99 1.24 1.69 2.17 2.83 3.82 4.67 6.35 8.38 9.80 12.02 14.07 16.01 18.48 20.28 24.32
8 1.34 1.65 2.18 2.73 3.49 4.59 5.53 7.34 9.52 11.03 13.36 15.51 17.53 20.09 21.95 26.12
9 1.73 2.09 2.70 3.33 4.17 5.38 6.39 8.34 10.66 12.24 14.68 16.92 19.02 21.67 23.59 27.88
10 2.16 2.56 3.25 3.94 4.87 6.18 7.27 9.34 11.78 13.44 15.99 18.31 20.48 23.21 25.19 29.59
11 2.60 3.05 3.82 4.57 5.58 6.99 8.15 10.34 12.90 14.63 17.28 19.68 21.92 24.72 26.76 31.26
12 3.07 3.57 4.40 5.23 6.30 7.81 9.03 11.34 14.01 15.81 18.55 21.03 23.34 26.22 28.30 32.91
13 3.57 4.11 5.01 5.89 7.04 8.63 9.93 12.34 15.12 16.98 19.81 22.36 24.74 27.69 29.82 34.53
14 4.07 4.66 5.63 6.57 7.79 9.47 10.82 13.34 16.22 18.15 21.06 23.68 26.12 29.14 31.32 36.12
15 4.60 5.23 6.26 7.26 8.55 10.31 11.72 14.34 17.32 19.31 22.31 25.00 27.49 30.58 32.80 37.70
16 5.14 5.81 6.91 7.96 9.31 11.15 12.62 15.34 18.42 20.47 23.54 26.30 28.85 32.00 34.27 39.25
17 5.70 6.41 7.56 8.67 10.09 12.00 13.53 16.34 19.51 21.61 24.77 27.59 30.19 33.41 35.72 40.79
18 6.26 7.01 8.23 9.39 10.86 12.86 14.44 17.34 20.60 22.76 25.99 28.87 31.53 34.81 37.16 42.31
19 6.84 7.63 8.91 10.12 11.65 13.72 15.35 18.34 21.69 23.90 27.20 30.14 32.85 36.19 38.58 43.82
20 7.43 8.26 9.59 10.85 12.44 14.58 16.27 19.34 22.77 25.04 28.41 31.41 34.17 37.57 40.00 45.31
21 8.03 8.90 10.28 11.59 13.24 15.44 17.18 20.34 23.86 26.17 29.62 32.67 35.48 38.93 41.40 46.80
22 8.64 9.54 10.98 12.34 14.04 16.31 18.10 21.34 24.94 27.30 30.81 33.92 36.78 40.29 42.80 48.27
23 9.26 10.20 11.69 13.09 14.85 17.19 19.02 22.34 26.02 28.43 32.01 35.17 38.08 41.64 44.18 49.73
24 9.89 10.86 12.40 13.85 15.66 18.06 19.94 23.34 27.10 29.55 33.20 36.42 39.36 42.98 45.56 51.18
25 10.52 11.52 13.12 14.61 16.47 18.94 20.87 24.34 28.17 30.68 34.38 37.65 40.65 44.31 46.93 52.62
26 11.16 12.20 13.84 15.38 17.29 19.82 21.79 25.34 29.25 31.79 35.56 38.89 41.92 45.64 48.29 54.05
27 11.81 12.88 14.57 16.15 18.11 20.70 22.72 26.34 30.32 32.91 36.74 40.11 43.19 46.96 49.64 55.48
28 12.46 13.56 15.31 16.93 18.94 21.59 23.65 27.34 31.39 34.03 37.92 41.34 44.46 48.28 50.99 56.89
29 13.12 14.26 16.05 17.71 19.77 22.48 24.58 28.34 32.46 35.14 39.09 42.56 45.72 49.59 52.34 58.30
30 13.79 14.95 16.79 18.49 20.60 23.36 25.51 29.34 33.53 36.25 40.26 43.77 46.98 50.89 53.67 59.70
Pour 30 > n , on admet que : ( )
2
2 ,
1 2
2
1
+ n u z
n
si
2
1
<
( )
2
) 1 ( 2 ,
1 2
2
1

u n z
n
si
2
1

1
n,
z
TABLE DE LA LOI DE STUDENT
X tant une variable alatoire de loi ) (n St

et

un rel de [0,1],
la table donne la valeur (
,
\
,
(
j

2
1
1
) (
,

n St
n
F t telle que
> ) (
, n
t X P .
Sous S+, la commande correspondante est qt(1-alpha/2,n).

u t
+ ,
x
d
t
(
x
,

3
)
-4 -2 0 2 4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4

n 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.05 0.02 0.01 0.001
1
0.158 0.325 0.510 0.727 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657 636.62
2 0.142 0.289 0.445 0.617 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 31.599
3 0.137 0.277 0.424 0.584 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 12.924
4 0.134 0.271 0.414 0.569 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 8.610
5 0.132 0.267 0.408 0.559 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 6.869
6 0.131 0.265 0.404 0.553 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 5.959
7 0.130 0.263 0.402 0.549 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 5.408
8 0.130 0.262 0.399 0.546 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 5.041
9 0.129 0.261 0.398 0.543 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250 4.781
10 0.129 0.260 0.397 0.542 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.587
11 0.129 0.260 0.396 0.540 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 4.437
12 0.128 0.259 0.395 0.539 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 4.318
13 0.128 0.259 0.394 0.538 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 4.221
14 0.128 0.258 0.393 0.537 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 4.140
15 0.128 0.258 0.393 0.536 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 4.073
16 0.128 0.258 0.392 0.535 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 4.015
17 0.128 0.257 0.392 0.534 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.965
18 0.127 0.257 0.392 0.534 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.922
19 0.127 0.257 0.391 0.533 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861 3.883
20 0.127 0.257 0.391 0.533 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.850
21 0.127 0.257 0.391 0.532 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.819
22 0.127 0.256 0.390 0.532 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.792
23 0.127 0.256 0.390 0.532 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.768
24 0.127 0.256 0.390 0.531 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.745
25 0.127 0.256 0.390 0.531 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.725
26 0.127 0.256 0.390 0.531 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.707
27 0.127 0.256 0.389 0.531 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.690
28 0.127 0.256 0.389 0.530 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.674
29 0.127 0.256 0.389 0.530 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.659
30 0.127 0.256 0.389 0.530 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.646
40 0.126 0.255 0.388 0.529 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 3.551
80 0.126 0.254 0.387 0.527 0.678 0.846 1.043 1.292 1.664 1.990 2.374 2.639 3.416
120 0.126 0.254 0.386 0.526 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617 3.373
+ 0.126 0.253 0.385 0.524 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576 3.291
/2 /2
t -t
n, n,
TABLES DE LA LOI DE FISHER-SNEDECOR
X tant une variable alatoire de loi ) , (
2 1
F , les tables donnent les valeurs
) 1 (
1
) , (
, ,
2 1
2 1

F
F f telles que

> ) (
, ,
2 1
f X P

pour % 5 et % 1 .
Sous S+, la commande correspondante est qf(1-alpha,nu1,nu2).

1 , ,
, ,
2 1
1 2
1
f
f
x
d
f
(
x
,

4
,

1
0
)
0 1 2 3 4 5 6
0
.
0
0
.
2
0
.
4
0
.
6
Table 1 : % 5

1
1 2 3 4 5 6 7 8 10 12 16 20 24 40 60 100 +
1 161.5 199.5 215.7 224.6 230.2 234.0 236.8 238.9 241.9 243.9 246.5 248.0 249.1 251.1 252.2 253.0 254.2
2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.40 19.41 19.43 19.45 19.45 19.47 19.48 19.49 19.49
3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.79 8.74 8.69 8.66 8.64 8.59 8.57 8.55 8.53
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 5.96 5.91 5.84 5.80 5.77 5.72 5.69 5.66 5.63
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.74 4.68 4.60 4.56 4.53 4.46 4.43 4.41 4.37
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.06 4.00 3.92 3.87 3.84 3.77 3.74 3.71 3.67
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.64 3.57 3.49 3.44 3.41 3.34 3.30 3.27 3.23
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.35 3.28 3.20 3.15 3.12 3.04 3.01 2.97 2.93
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.14 3.07 2.99 2.94 2.90 2.83 2.79 2.76 2.71
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 2.98 2.91 2.83 2.77 2.74 2.66 2.62 2.59 2.54
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.85 2.79 2.70 2.65 2.61 2.53 2.49 2.46 2.40
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.75 2.69 2.60 2.54 2.51 2.43 2.38 2.35 2.30
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.67 2.60 2.51 2.46 2.42 2.34 2.30 2.26 2.21
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.60 2.53 2.44 2.39 2.35 2.27 2.22 2.19 2.13
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.54 2.48 2.38 2.33 2.29 2.20 2.16 2.12 2.07
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.49 2.42 2.33 2.28 2.24 2.15 2.11 2.07 2.01
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.45 2.38 2.29 2.23 2.19 2.10 2.06 2.02 1.96
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.41 2.34 2.25 2.19 2.15 2.06 2.02 1.98 1.92
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.38 2.31 2.21 2.16 2.11 2.03 1.98 1.94 1.88
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.35 2.28 2.18 2.12 2.08 1.99 1.95 1.91 1.84
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.32 2.25 2.16 2.10 2.05 1.96 1.92 1.88 1.81
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.30 2.23 2.13 2.07 2.03 1.94 1.89 1.85 1.78
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.27 2.20 2.11 2.05 2.01 1.91 1.86 1.82 1.76
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.25 2.18 2.09 2.03 1.98 1.89 1.84 1.80 1.73
25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.24 2.16 2.07 2.01 1.96 1.87 1.82 1.78 1.71
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.16 2.09 1.99 1.93 1.89 1.79 1.74 1.70 1.62
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.08 2.00 1.90 1.84 1.79 1.69 1.64 1.59 1.51
50 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.03 1.95 1.85 1.78 1.74 1.63 1.58 1.52 1.44
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 1.99 1.92 1.82 1.75 1.70 1.59 1.53 1.48 1.39
80 3.96 3.11 2.72 2.49 2.33 2.21 2.13 2.06 1.95 1.88 1.77 1.70 1.65 1.54 1.48 1.43 1.32
100 3.94 3.09 2.70 2.46 2.31 2.19 2.10 2.03 1.93 1.85 1.75 1.68 1.63 1.52 1.45 1.39 1.28
+ 3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.83 1.75 1.64 1.57 1.52 1.39 1.32 1.24 1.00
1
f
, ,
1 2
Table 2 : % 1

1
1 2 3 4 5 6 7 8 10 12 16 20 24 40 60 100 +
1 4052 4999 5403 5624 5764 5859 5928 5981 6056 6106 6170 6209 6235 6287 6313 6334 6368
2 98.5 99.0 99.2 99.2 99.3 99.3 99.4 99.4 99.4 99.4 99.4 99.4 99.5 99.5 99.5 99.5 99.5
3 34.1 30.9 29.5 28.7 28.2 27.9 27.7 27.5 27.2 27.1 26.8 26.7 26.6 26.4 26.3 26.2 26.1
4 21.2 18.0 16.7 16.0 15.5 15.2 15.0 14.8 14.6 14.4 14.2 14.0 13.9 13.8 13.7 13.6 13.5
5 16.3 13.3 12.1 11.4 11.0 10.7 10.5 10.3 10.0 9.89 9.68 9.55 9.47 9.29 9.20 9.13 9.02
6 13.8 10.9 9.78 9.15 8.75 8.47 8.26 8.10 7.87 7.72 7.52 7.40 7.31 7.14 7.06 6.99 6.88
7 12.3 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.62 6.47 6.28 6.16 6.07 5.91 5.82 5.75 5.65
8 11.3 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.81 5.67 5.48 5.36 5.28 5.12 5.03 4.96 4.86
9 10.6 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.26 5.11 4.92 4.81 4.73 4.57 4.48 4.41 4.31
10 10.0 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.85 4.71 4.52 4.41 4.33 4.17 4.08 4.01 3.91
11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.54 4.40 4.21 4.10 4.02 3.86 3.78 3.71 3.60
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.30 4.16 3.97 3.86 3.78 3.62 3.54 3.47 3.36
13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.10 3.96 3.78 3.66 3.59 3.43 3.34 3.27 3.17
14 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 3.94 3.80 3.62 3.51 3.43 3.27 3.18 3.11 3.00
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.80 3.67 3.49 3.37 3.29 3.13 3.05 2.98 2.87
16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.69 3.55 3.37 3.26 3.18 3.02 2.93 2.86 2.75
17 8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.59 3.46 3.27 3.16 3.08 2.92 2.83 2.76 2.65
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.51 3.37 3.19 3.08 3.00 2.84 2.75 2.68 2.57
19 8.18 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.43 3.30 3.12 3.00 2.92 2.76 2.67 2.60 2.49
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.37 3.23 3.05 2.94 2.86 2.69 2.61 2.54 2.42
21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.31 3.17 2.99 2.88 2.80 2.64 2.55 2.48 2.36
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.26 3.12 2.94 2.83 2.75 2.58 2.50 2.42 2.31
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.21 3.07 2.89 2.78 2.70 2.54 2.45 2.37 2.26
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.17 3.03 2.85 2.74 2.66 2.49 2.40 2.33 2.21
25 7.77 5.57 4.68 4.18 3.85 3.63 3.46 3.32 3.13 2.99 2.81 2.70 2.62 2.45 2.36 2.29 2.17
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 2.98 2.84 2.66 2.55 2.47 2.30 2.21 2.13 2.01
40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.80 2.66 2.48 2.37 2.29 2.11 2.02 1.94 1.80
50 7.17 5.06 4.20 3.72 3.41 3.19 3.02 2.89 2.70 2.56 2.38 2.27 2.18 2.01 1.91 1.82 1.68
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.63 2.50 2.31 2.20 2.12 1.94 1.84 1.75 1.60
80 6.96 4.88 4.04 3.56 3.26 3.04 2.87 2.74 2.55 2.42 2.23 2.12 2.03 1.85 1.75 1.65 1.49
100 6.90 4.82 3.98 3.51 3.21 2.99 2.82 2.69 2.50 2.37 2.19 2.07 1.98 1.80 1.69 1.60 1.43
+ 6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.32 2.18 2.00 1.88 1.79 1.59 1.47 1.36 1.00

Methode Statistique Pour L'ingénieur

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Methode Statistique Pour L'ingénieur

Încărcat de

Drepturi de autor:

Formate disponibile

ENSIMAG 2

se calculent facilement laide de S+ grce la commande qnorm(x), ou sont

- 1.282 - 0.842 - 0.524 - 0.253 0 0.253 0.524 0.842 1.282

. Il est appel variance empirique de lchantillon, et mesure lcart qua-

continues sont les si ) ; ,..., (

L . Par consquent, la quantit dinformation

L I . Cette criture peut savrer pratique pour les calculs.

, qui tend bien vers 0 quand

. Ce principe peut naturellement se gnraliser aux moments de tous ordres,

sera en gnral calcul en annulant la drive du logarithme de la vrai-

L . On remarque que ce calcul est galement utile pour dterminer la

est solution du systme dquations :

converge presque srement vers

est asymptotiquement sans biais et efficace.

est lEMV de , alors )

L , qui vaut 0 pour

L , ce qui prouve immdiatement que

L , qui sannule pour

soit proche de la vraie valeur de . Cependant,

ne sera srement pas exactement gal .

, il semble raisonnable de donner un ensemble de

. Comme on supposera ici que R , on donne-

est un estimateur de . Il reste alors dterminer de sorte que + 1 )

dpend de , alors que est un rel fix lavance qui,

ne dpend pas de , ce qui nest pas

> ) | | ( u U P . Par consquent,

nest pas de loi ) 1 , 0 ( N , donc ] , [

nest pas un inter-

u est obtenu par la commande qnorm(1-alpha/2) et

est une fonction des observations

L , qui sannule pour

est approximativement de loi ) 1 , 0 ( N , ce qui fournit la fonction

u par rapport n , et on obtient un intervalle de confiance asymptotique

u , cest augmenter , donc augmenter la probabilit de se tromper en affirmant que le

. La prcision sur lestimation de p est donc, avec une

personnes. Cest rare-

Le seuil du test est ) (

l sera petit. Le sens de lexpression significativement plus petit est li la va-

. Sur lexemple, la table de la loi de Student permet de

de , on procdera de la faon sui-

est trop grand .

est trop petit .

est soit trop grand soit trop petit .

. Pour pouvoir calculer )

est simple. On utilisera donc plutt une rgion critique de la forme

Mthodes statistiques pour lingnieur 67

, un seul est plus grand que 1. Or on peut montrer que pour

= 1.37. La table de la loi de Fisher ne fournit des quantiles que

l , on a besoin de la loi de probabilit de

l , il faut connatre la loi de probabilit sous

est approximativement de loi ) 1 , 0 ( N , et

Mthodes statistiques pour lingnieur 77

le nombre dobservations gales

est lestimateur de maximum de vraisemblance de , la variable alatoire

converge approximativement en loi vers la loi

statistique de Cramer-von Mises : ( )

et en prenant en compte le fait que b x a y

. Elle peut aussi scrire

On retrouve le fait que lerreur quadratique moyenne est nulle si et seulement si 1

sont des estimateurs sans biais de a et b .

sont les estimateurs sans biais et de variance mini-

sont indpendants et de mme loi ) , 0 (

ne sont pas indpendants