Documente Academic
Documente Profesional
Documente Cultură
Introduction
la mthode
statistique
Bernard Goldfarb
Catherine Pardoux
6
e
dition
P001-002R-9782100549412.indd 1 24/11/10 11:59
Dunod, Paris, 2011
ISBN 978-2-10-055892-6
P001-002R-9782100549412.indd 2 24/11/10 11:59
TABLE DES MATIRES
III
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
T
able des matires
Avant-propos IX
1. Distributions statistiques un caractre 1
I. Dfinitions 1
A. Population, individu, chantillon 1
B. Variables 2
II. Reprsentations graphiques 3
A. Distributions statistiqueset reprsentations graphiques 4
B. Le diagramme branche et feuille 10
III. Les indicateurs statistiques 13
A. Conditions de Yule 13
B. Les indicateurs de tendance centrale et de position 14
C. Les indicateurs de dispersion 23
D. Les caractristiques de forme 26
E. Les caractristiques de dispersion relative 29
IV. La bote de distribution 33
A. Rsum dune distribution par des quantiles 33
B. Reprsentation dune bote de distribution 34
C. Interprtation dune bote de distribution 36
V. Bilan 37
Testez-vous
39
Exercices
41
2. Indices statistiques 47
I. Indices lmentaires 47
A. Dfinition 47
B. Proprits 48
P003-008R-9782100549412.fm Page III Jeudi, 18. novembre 2010 11:59 11
IV
INTRODUCTION LA MTHODE STATISTIQUE
II. Indices synthtiques 49
A. Indices synthtiques de Laspeyres et Paasche :
premires formules 50
B. Formules dveloppes 51
C. Comparaison des indices de Laspeyres et de Paasche 52
D. Indice de Fisher 54
E. Proprits des indices de Fisher, Laspeyres et Paasche 55
F. Utilisation de ces trois indices 56
III. Indices-chanes 56
A. Raccord dindices 56
B. Les indices-chanes 57
C. Indices publis par lINSEE 58
IV. Traitement statistique des indices 58
A. chelle logarithmique 59
B. Proprits dun graphique ordonne logarithmique 60
V. Bilan 61
Testez-vous
62
Exercices
63
3. Distributions statistiques deux caractres 67
I. Distributions statistiques deux variables 67
A. Distribution conjointe 67
B. Distributions marginales 69
C. Distributions conditionnelles 69
D. Dpendance et indpendance statistique 71
II. Deux variables quantitatives 72
A. Caractristiques dun couple
de deux variables quantitatives 73
B. Ajustement linaire dun nuage de points 74
C. Interprtation du coefficient de corrlation linaire 76
D. Comparaison des deux droites des moindres carrs 81
E. Le coefficient r et la qualit de lajustement linaire 82
III. Une variable qualitative et une variable quantitative 86
A. Mesure de la liaison par le rapport de corrlation 87
B. Comparaison du coefficient de corrlation linaire
et des rapports de corrlation 89
P003-008R-9782100549412.fm Page IV Jeudi, 18. novembre 2010 11:59 11
TABLE DES MATIRES
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
IV. Deux variables qualitatives 90
V. Bilan 92
Testez-vous
94
Exercices
97
4. Sries chronologiques et prvision 103
I. lments constitutifs dune srie chronologique 103
A. La tendance long terme 103
B. Le mouvement saisonnier 104
C. Les irrgularits 104
D. Les perturbations 104
II. Les modles de composition dune srie chronologique 105
III. Analyse de la tendance 108
A. Ajustement de la tendance par une fonction analytique 108
B. Dfinition dune moyenne mobile 109
C. Dtermination de la tendance par la mthode
des moyennes mobiles 110
D. Inconvnients de la mthode des moyennes mobiles 112
IV. Correction des variations saisonnires 113
A. Modle additif 113
B. Modle multiplicatif 114
C. Autres approches 115
V. Un exemple de dcomposition dune srie chronologique 115
A. Schma additif 116
B. Schma multiplicatif 118
VI. Les mthodes de lissage exponentiel 120
A. Le lissage exponentiel simple 120
B. Le lissage exponentiel double 125
Testez-vous
127
Exercices
128
5. Modle probabiliste et variable alatoire 131
I. lments de calcul des probabilits 133
A. Notion de probabilit 133
B. Probabilits conditionnelles 136
P003-008R-9782100549412.fm Page V Jeudi, 18. novembre 2010 11:59 11
VI
INTRODUCTION LA MTHODE STATISTIQUE
II. Variables alatoires une dimension 142
A. Dfinitions 142
B. Loi de probabilit dune variable alatoire 144
C. Loi dune fonction de variable alatoire 149
III. Couple de variables alatoires 151
A. Fonction de rpartition dun couple alatoire 151
B. Loi dun couple alatoire discret 151
C. Loi dun couple de variables alatoires continues 154
IV. Indicateurs des variables alatoires 155
A. Mode 156
B. Esprance mathmatique 156
C. Variance 160
D. Covariance de deux variables alatoires,
coefficient de corrlation linaire 162
E. Moment, fonction gnratrice des moments 163
F. Indicateurs de forme 164
G. Quantiles 165
V. Convergence des variables alatoires relles 166
Testez-vous
172
Exercices
176
6. Les principaux modles statistiques discrets 179
I. Les modles lmentaires 181
A. Le schma de Bernoulli 181
B. La loi uniforme discrte 183
II. Les schmas de Bernoulli itratifs 184
A. Le schma binomial 185
B. Le schma hypergomtrique 191
C. La loi gomtrique et la loi de Pascal 193
III. La loi de Poisson 198
A. Dfinitions et proprits 199
B. Abord statistique 203
C. Abord probabiliste 203
Exercices
207
P003-008R-9782100549412.fm Page VI Jeudi, 18. novembre 2010 11:59 11
TABLE DES MATIRES
VII
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
7. Les principaux modles statistiques continus 211
I. Modles continus simples 211
A. La loi uniforme continue 211
B. La loi exponentielle 214
II. La loi normale ou loi de Laplace-Gauss 219
A. La loi normale centre rduite 219
B. La loi normale
(
m,
) 220
C. Usage des tables 226
D. Abord statistique de la loi normale 233
E. Abord probabiliste de la loi normale 235
F. Correction de continuit 239
III. Les lois drives de la loi normale 240
A. La loi du khi-deux 240
B. La loi de Student
247
C. La loi de Fisher-Snedecor 252
IV. Quelques autres modles continus courants 256
A. La loi log-normale 256
B. La loi de Pareto 260
C. La loi de Weibull 265
D. La loi logistique 268
V. Bilan 271
Testez-vous
273
Exercices
276
Rponses aux questionnaires Testez-vous 283
Corrigs des exercices 289
Annexes 335
I. Formulaire lmentaire de combinatoire 335
A. Ensemble des parties dun ensemble 335
B. Arrangements avec rptition 335
C. Permutations 336
D. Arrangements sans rptition 336
E. Combinaisons sans rptition 337
F. Coefficients multinomiaux 339
P003-008R-9782100549412.fm Page VII Jeudi, 18. novembre 2010 11:59 11
VIII
INTRODUCTION LA MTHODE STATISTIQUE
II. Principaux modles de probabilits : mthodes de calculs 339
A. Loi binomiale 339
B. Loi de Poisson 340
C. Loi de Gauss centre rduite 340
D. Loi du khi-deux 341
E. Loi de Student 341
F. Loi de Fisher-Snedecor 342
III. Introduction la simulation des lois de probabilit 343
A. La place des mthodes de simulation 343
B. Les principes de la simulation sur tableur 343
C. Simulation de lois discrtes 344
D. Simulations de lois continues 344
E. Quelques exemples et applications 346
IV. Tables 351
Bibliographie 361
Lexique anglais/franais 363
Lexique franais/anglais 367
Index 371
P003-008R-9782100549412.fm Page VIII Jeudi, 18. novembre 2010 11:59 11
AVANT-PROPOS
IX
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
A
vant-propos
Tout le monde sait et dit que celui qui observe sans ide, observe en vain.
lments de philosophie
, Alain (1868 1951)
Le recueil, le traitement et lanalyse de linformation sont au cur de tous
les processus de gestion et de dcision. Les mthodes de description, de pr-
vision et de dcision se sont considrablement enrichies et dveloppes, ce
qui place la statistique applique
1
au carrefour de lobservation et de la mod-
lisation.
Lutilisation des mthodes statistiques sest gnralise avec le dveloppe-
ment et linterprtation de logiciels et progiciels (gnralistes ou spcialiss),
assurant la gestion des donnes, les calculs, les reprsentations graphiques
Plusieurs gnrations de logiciels statistiques
2
se sont succd en modi-
fiant considrablement, dabord, lanalyse des donnes statistiques et main-
tenant, lenseignement de la statistique. Sous peine dtre noy, non plus
dans les calculs mais dans les rsultats, lutilisateur doit disposer dides pr-
cises sur les outils, leurs fonctions et leurs champs dapplication.
Nous avons ainsi voulu guider les futurs consommateurs et utilisateurs
de donnes vers les descriptions statistiques majeures et les reprsentations
courantes des phnomnes rencontrs dans tous les domaines de lactivit
humaine.
La visualisation par tableaux et graphiques
3
est une clef indispensable
pour traiter et comprendre efficacement les multiples ensembles de donnes
statistiques ; lusage gnralis qui en est fait pour tous les publics et par de
nombreux mdias confirme son importance.
Dans cette sixime dition, nous avons maintenu toute notre attention sur
les visualisations, ainsi que sur la pratique et lutilisation du tableur Excel
largement rpandu.
1. laquelle les programmes, tant de lenseignement secondaire que de lenseignement sup-
rieur, accordent une place de plus en plus importante.
2. Sans compter les versions volues des langages de programmation scientifique qui mettent
lapplication de traitements trs sophistiqus la porte du plus grand nombre.
3. La reprsentation visuelle est remarquablement mise en valeur dans le trs bel ouvrage de
Edward R. Tufte (1991) :
The Visual Display of Quantitative Information
, Graphics Press,
Cheshire, Connecticut
P009-010R-9782100549412.fm Page IX Jeudi, 18. novembre 2010 12:00 12
X
INTRODUCTION LA MTHODE STATISTIQUE
La thorie reste volontairement limite pour donner toute son importance
lapproche interprtative des donnes. Le lecteur, selon ses connaissances
pralables et son intrt pour la formalisation, pourra en premire lecture pas-
ser outre la prsentation de certains supports thoriques. Ce livre nest quune
introduction la mthode statistique, et nous donnons quelques rfrences
douvrages pour largir ides et connaissances.
Dans cette sixime dition, nous avons remis jour, partir des recueils
les plus rcents, les donnes de nombreux exemples et des exercices (com-
plts et enrichis). Nous avons galement inclus une trs brve introduction
illustre la pratique et lusage de la simulation, outil de plus en plus incon-
tournable dans des secteurs tels que la logistique, la stratgie, ou encore
lanalyse financire
Issu de nombreuses expriences denseignement en formation initiale
comme en formation continue pour des tudiants en sciences conomiques,
en sciences de gestion et en informatique de gestion, ce livre tient compte de
leurs besoins et des dernires volutions. Nous pensons quil correspond bien
aux exigences actuelles. Nous remercions par avance les lectrices et les lec-
teurs qui voudront bien nous faire part de leurs remarques ou suggestions.
Bernard Goldfarb
Catherine Pardoux
P009-010R-9782100549412.fm Page X Jeudi, 18. novembre 2010 12:00 12
DISTRIBUTIONS STATISTIQUES UN CARACTRE
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
1. D
istributions
statistiques
un caractre
Le savant doit ordonner ; on fait la science avec des faits
comme une maison avec des pierres ;
mais une accumulation de faits nest pas plus une science
quun tas de pierres nest une maison.
La Science et lhypothse,
Henri Poincar (1854-1912)
a statistique descriptive est un ensemble de mthodes permettant
de dcrire, prsenter, rsumer des donnes souvent trs nom-
breuses. Ces mthodes peuvent tre numriques (tris, laboration
de tableaux, calcul de moyennes) et/ou mener des reprsentations
graphiques.
I. D
finitions
A. P
opulation, individu, chantillon
Une
population
est lensemble des lments auxquels se rapportent les
don-
nes
tudies. En statistique, le terme population sapplique des ensem-
bles de toute nature : tudiants dune acadmie, production dune usine,
poissons dune rivire, entreprises dun secteur donn
Des enqutes de lOffice statistique des communauts europennes don-
nent la dure hebdomadaire moyenne du travail des salaris temps com-
plet pour 15 pays membres. Les rsultats de ces enqutes ne donnent pas
dinformation atomise un niveau plus bas que le pays ; la population
de rfrence nest donc pas ici lensemble (plusieurs millions) de tous les
salaris des 15 pays. Ltude de ces 15 observations concerne un ensemble
L
P001-046-9782100549412.fm Page 1 Mercredi, 24. novembre 2010 9:46 09
2
INTRODUCTION LA MTHODE STATISTIQUE
de 15
units
(
statistiques
), les 15 pays slectionns qui constituent la
popu-
lation
de ltude.
Dans une population donne, chaque lment est appel individu
ou
unit statistique .
La collecte dinformations sur une population peut tre effectue sur la
totalit des individus ; on parle alors denqutes
exhaustives
. Lorsque la
taille de la population tudie est leve, de telles enqutes sont fort co-
teuses ou impossibles, et le cas chant, leurs rsultats souvent trs longs
rassembler peuvent tre dpasss avant mme la fin de lenqute. Cest
la raison pour laquelle on a souvent recours aux enqutes par
sondage
qui
portent sur une partie de la population appele
chantillon.
Les observa-
tions obtenues sur une population ou sur un chantillon constituent un
ensemble de donnes auxquelles sappliquent les mthodes de la statistique
descriptive dont le but est de dcrire le plus compltement et le plus sim-
plement lensemble des observations quelles soient relatives toute la
population ou seulement un sous-ensemble.
B. V
ariables
Chaque individu dune population peut tre dcrit selon une ou plusieurs
variables
qui peuvent tre des caractristiques qualitatives ou prendre des
valeurs numriques.
Une variable est dite
qualitative
si ses diffrentes ralisations (modalits)
ne sont pas numriques. Ainsi : le sexe, la situation matrimoniale, la catgorie
socioprofessionnelle sont des variables qualitatives. On peut toujours rendre
numrique une telle variable en associant un nombre chaque modalit ; on
dit alors que les modalits sont codes. Bien entendu, les valeurs numriques
nont dans ce cas aucune signification particulire, et effectuer des oprations
algbriques sur ces valeurs numriques na pas de sens.
Une variable est dite
quantitative
lorsquelle est intrinsquement numri-
que : effectuer des oprations algbriques (addition, multiplication) sur une
telle variable a alors un sens. Une variable quantitative peut tre une variable
statistique discrte ou continue.
Les
variables statistiques discrtes
sont des variables qui ne peuvent pren-
dre que des valeurs isoles, discrtes. Le nombre denfants dune famille, le
nombre de ptales dune fleur, le nombre de buts marqus lors dune rencon-
tre de football sont des variables quantitatives discrtes. Le plus frquem-
ment, les valeurs possibles sont des nombres entiers.
Les
variables statistiques continues
peuvent prendre toutes les valeurs
numriques possibles dun ensemble inclus dans
: le revenu, la taille, le
taux de natalit sont des variables continues.
P001-046-9782100549412.fm Page 2 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
La distinction entre variables quantitatives discrtes et continues peut
paratre factice, car toute mesure est discrte en raison dune prcision tou-
jours limite ; et inversement, lorsquune variable discrte peut prendre un
grand nombre de valeurs et que la taille de la population (ou de lchantillon)
tudie est leve, on regroupera des valeurs voisines et la variable sera, par
extension, traite comme une variable continue. En pratique, lorsque les
valeurs dune variable sont regroupes en
k
classes, la variable est traite
comme une variable quantitative continue, mais elle peut aussi tre envisage
comme une variable qualitative
k
modalits.
Les donnes dont on dispose sont les modalits ou valeurs prises par
plusieurs variables qualitatives ou quantitatives sur les individus dune
population ou dun chantillon ; pour une population dentreprises, on peut
disposer, par exemple, de donnes sur le chiffre daffaire, le bnfice net,
le nombre demploys, la masse salariale annuelle, le secteur dactivit
principale
On peut, dans un premier temps, dcrire chaque variable sparment, puis
ensuite, tudier les relations ou liaisons existantes entre elles. Ainsi, dans ce
livre, nous envisagerons dabord les populations statistiques dcrites selon
une seule variable, puis selon deux variables. Ltude des populations carac-
trises par plus de deux variables nest pas aborde dans cet ouvrage.
II. R
eprsentations graphiques
Deux mthodes de reprsentation des donnes vont tre exposes. On com-
mencera par celles adaptes aux donnes nombreuses et/ou anonymes, cest-
-dire pour lesquelles lidentit des individus na pas t releve ou ne pr-
sente pas dintrt tre conserve pour linterprtation. Ceci nest pas le cas
lorsque les individus sont peu nombreux (rgions, pays), o on dfinira un
nouveau mode de reprsentation graphique d J.W. Tukey ( II.B.). Ltude
dune population selon une variable sera restreinte au cas des variables quan-
titatives, car la description dune population selon une variable qualitative est
totalement rsume dans un tableau de pourcentages ou dans un diagramme
circulaire, appel aussi diagramme en camembert (
cf
. figure 1.1).
P001-046-9782100549412.fm Page 3 Mercredi, 24. novembre 2010 9:46 09
4
INTRODUCTION LA MTHODE STATISTIQUE
A. D
istributions statistiques
et reprsentations graphiques
Considrons une variable observe sur une population
de
n
individus. Si
la variable
X
prend
k
valeurs ou ensembles de valeurs (appels dans ce qui
suit, modalits), le premier traitement des donnes brutes consiste compter
le nombre
n
i
dindividus qui prsentent la
i
e
modalit (
i =
1, 2
, , k
).
1) Variables statistiques discrtes
Les rsultats concernant les observations de la variable
X
dont lensemble des
valeurs est {
x
i
, i =
1
, , k
}, sont prsents dans le tableau des effectifs (
x
i
, n
i
)
ou dans le tableau des frquences (
x
i
, f
i
) avec
f
i
= n
i
/n
(on utilise souvent le
pourcentage 100
f
i
). Il est prfrable de calculer les frquences partir des
effectifs cumuls ( II.A.3) afin que des erreurs successives darrondis ne
donnent pas une somme totale de frquences diffrente de 1.
Pomme de table
Prune
Pche et nectarine
Noix
Olives
Abricot
Autres fruits
Poire de table
Cerise
24 %
8,8 %
8 %
6 % 5 %
5 %
10 %
12 %
10 %
10 %
10 %
Pomme cidre
Figure 1.1 Surface du verger franais en 2005
Extrait de Agreste, GraphAgri 2006,
Ministre de lAgriculture et de la Pche.
P001-046-9782100549412.fm Page 4 Mercredi, 24. novembre 2010 12:55 12
DISTRIBUTIONS STATISTIQUES UN CARACTRE
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
On prsente logiquement les modalits numriques en ordre croissant. On
peut associer ces tableaux une reprsentation graphique appele
diagramme en btons .
Un
diagramme en btons
(
cf.
figure 1.2) est construit dans un systme
daxes rectangulaires ; les valeurs de la variable statistique
X
sont portes en
abscisse ; partir de chaque valeur
x
i
, on trace un segment de droite vertical
et dont la hauteur est proportionnelle leffectif correspondant. On peut rete-
nir indiffremment une chelle qui explicite les effectifs
n
i
, ou une chelle
qui explicite les frquences
f
i
. Pour les distributions du tableau 1.1, on pour-
rait reprsenter sur le mme graphique les diagrammes en btons de plusieurs
pays avec des couleurs diffrentes, chaque couleur correspondant un pays,
ce qui permettrait de comparer les distributions du nombre de personnes par
mnage.
Source
:
Tableaux de lconomie Franaise 1999-2000, INSEE.
Tableau des effectifs Tableau des frquences
Modalit Effectif Modalit Frquence
x
1
.
.
.
x
i
.
.
.
x
k
n
1
.
.
.
n
i
.
.
.
n
k
x
1
.
.
.
x
i
.
.
.
x
k
f
1
=
n
1
/
n
.
.
.
f
i
=
n
i
/
n
.
.
.
f
k
=
n
k
/
n
Tableau 1.1 Mnages suivant le nombre de personnes du mnage
dans quelques pays en 1995 (%)
Allemagne Espagne Finlande France Grce Irlande Italie Pays-Bas Portugal
Mnages de :
1 personne
2 personnes
3 personnes
4 personnes
5 personnes et plus
Ensemble (en milliers)
34,4
32,3
16,0
12,6
4,7
34 413
12,7
24,5
21,8
24,0
17,0
12 112
37,4
31,0
14,4
11,9
5,3
2 222
29,2
31,8
16,8
14,2
8,0
23 126
20,7
28,9
19,8
21,7
8,9
3 756
22,8
23,1
15,6
17,1
21,4
1 146
22,7
23,1
15,6
17,1
21,4
1 146
30,6
34,0
13,4
15,9
6,2
6 425
13,7
26,4
24,7
22,8
12,4
3 275
n
i
i 1 =
k
n =
f
i
i 1 =
k
1 =
P001-046-9782100549412.fm Page 5 Mercredi, 24. novembre 2010 9:46 09
6
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
On verra par la suite quune difficult du travail avec des sries classes
est le choix des limites pour les classes extrmes, indispensable aussi pour le
trac de lhistogramme.
la i
e
classe, correspond un rectangle dont la base est lintervalle [ x
i 1
, x
i
[
et dont la surface est proportionnelle la frquence f
i
(ou leffectif n
i
). Si
les classes ont toutes la mme amplitude, les hauteurs des rectangles sont
proportionnelles aux frquences. Dans le cas o les classes sont damplitudes
ingales, la hauteur du rectangle correspondant la i
e
classe damplitude a
i
sera h
i
= f
i
/a
i.
La surface du rectangle reprsentant la i
e
classe sera ainsi gale
f
i
Pour une srie dobservations relatives une variable statistique X dis-
crte ou continue classe, la donne des modalits et de leurs frquences est
appele distribution statistique de la variable X.
Tableau 1.2 Chmeurs BIT selon le sexe et lanciennet de chmage en septembre 2006
Distribution en milliers Distribution en pourcentage
Anciennet dinscription Hommes Femmes Hommes Femmes
Moins dun mois 180,3 181,0 16,5 16,8
Dun moins de trois mois 203,9 204,9 18,6 19,0
De trois moins de six mois 169,3 163,1 15,5 15,1
De six mois moins dun an 202,1 191,1 18,5 17,7
Dun moins de deux ans 197,3 199,3 18,0 18,5
De deux moins de trois ans 74,5 75,4 6,8 7,0
Trois ans ou plus 67,1 62,9 6,1 5,8
Ensemble 1 094,5 1 077,7 100,1 100,1
Anciennet moyenne en jours 341,5 334,5
Source : Bulletin Mensuel des Statistiques du Travail, www.travail.gouv.fr, octobre 2006.
P001-046-9782100549412.fm Page 7 Mercredi, 24. novembre 2010 9:46 09
8
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Les tableaux deffectifs cumuls ou de frquences cumules se dduisent
des tableaux deffectifs ou de frquences (non cumuls) en substituant aux
effectifs ou frquences non cumuls les effectifs ou frquences cumuls. Les
deux types de tableaux sont donc quivalents (cf. figures 1.2 et 1.4).
b) Fonction cumulative et courbe cumulative
La courbe cumulative ou courbe des frquences cumules est la reprsentation
graphique des frquences cumules. Plus prcisment, la courbe cumulative
est la reprsentation graphique de la proportion F(t) des individus de la popu-
lation dont le caractre prend une valeur infrieure t. Cette fonction, appele
fonction cumulative ou fonction de rpartition, est :
1. dfinie pour tout t
2. croissante (mais non strictement croissante)
3. nulle pour t infrieur min x
i
1in
4. gale 1 pour t au moins gal max x
i
1in
Pour une variable statistique discrte, cette fonction est une fonction en
escalier, prsentant en chacune des valeurs possibles x
i
, un saut gal la fr-
quence correspondante f
i
(cf. figure 1.4).
Dans le cas dune variable statistique continue, la fonction cumulative
nest connue que pour les valeurs de X gales aux extrmits des classes.
Lhypothse dquirpartition ( II.A.2) implique que la fonction F est
linaire entre ces valeurs ( cf. figure 1.5). Cette fonction est donc continue et
linaire par morceaux. Ici encore, il est ncessaire de choisir des limites pour
les classes extrmes.
Ces frquences cumules sont des frquences cumules ascendantes, car
elles ont t obtenues en calculant les frquences F
i
dindividus pour lesquel-
les le caractre tudi X est au plus gal x
i
; on peut aussi dfinir les fr-
1 2 3 4 5 et +
100 %
t F(t) (%)
< 1 0
[1 ; 2[ 29,2
[2 ; 3[ 61,0
[3 ; 4[ 77,8
[4 ; 5[ 92,0
5 100
Figure 1.4 Graphe des frquences cumules de la distribution reprsente la figure 1.2
P001-046-9782100549412.fm Page 9 Mercredi, 24. novembre 2010 9:46 09
10
11
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Source : Tableaux de lconomie Franaise, INSEE.
Le nombre de pays tant impair et gal 15, il y a deux valeurs de pro-
fondeur 1, 2, 3, 4, 5, 6, 7 et une seule valeur de profondeur 8 (cf. tableau 1.4).
Tableau 1.4 Pays ordonns selon la dure hebdomadaire du travail des salaris
temps complet en 2000
Tableau 1.3 Dure hebdomadaire du travail des salaris temps complet
dans lUnion europenne (heures)
1990 1995 2000
Allemagne
Autriche
Belgique
Danemark
Espagne
Finlande
France
Grce
Irlande
Italie
Luxembourg
Pays-Bas
Portugal
Royaume-Uni
Sude
39,9
40,1
38
39
40,7
38,4
39,6
40,2
40,4
38,6
39,9
39
41,9
43,7
40,7
39,7
39,3
38,4
39
40,7
38,6
39,9
40,3
40,2
38,4
39,5
39,5
41,2
43,9
40
40,1
40,1
38,5
39,3
40,6
39,3
38,9
40,9
39,9
38,6
39,8
39
40,3
43,6
40
Rang
croissant
Rang
dcroissant
Profondeur Dure (heures) Pays
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
1
2
3
4
5
6
7
8
7
6
5
4
3
2
1
38,5
38,6
38,9
39,0
39,3
39,3
39,8
39,9
40,0
40,1
40,1
40,3
40,6
40,9
43,6
Belgique
Italie
France
Pays-Bas
Danemark
Finlande
Luxembourg
Irlande
Sude
Allemagne
Autriche
Portugal
Espagne
Grce
Royaume-Uni
P001-046-9782100549412.fm Page 11 Mercredi, 24. novembre 2010 9:46 09
12
13
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
III. Les indicateurs statistiques
Le tableau de distribution dune variable statistique prsente linformation
recueillie sur cette variable. Une reprsentation graphique en fournit un por-
trait pour apprhender plus facilement la globalit de linformation. On peut
dsirer aller plus loin en cherchant caractriser la reprsentation visuelle
par des lments synthtiques sur :
la valeur de la variable situe au centre de la distribution : la ten-
dance centrale et, plus gnralement, un indicateur de position non
ncessairement centrale, lie un rang donn ;
la variation des valeurs : la dispersion ;
la forme de la distribution ;
les aspects particuliers : valeurs extrmes, groupes de valeurs
Ces indicateurs tant exprims dans les units de la variable tudie, on
verra quil peut tre intressant pour comparer plusieurs distributions entre
elles de calculer des caractristiques de dispersion relative.
A. Conditions de Yule
Le statisticien britannique Yule
1
a nonc un certain nombre de proprits
souhaites pour les indicateurs des sries statistiques ; ceux-ci doivent tre
dune part, des rsums maniables et dautre part, les plus exhaustifs pos-
sibles relativement linformation contenue dans les donnes.
Frequency Stem & Leaf
3,00
6,00
4,00
1,00
1,00
Fin It Bel
Fr All P.Bas Lux Aut Dk
Esp Gr Irl Sud
Por
R-U
38 . 446
39 . 035579
40 . 0237
41. 2
Extremes (> = 43,9)
Stem width : 1,0
Each leaf : 1 case(s)
Figure 1.7 Diagramme Branche et feuille complt par lidentit des pays (1995)
1. G. Udny Yule et M. G. Kendall, An Introduction to the Theory of Statistics, Charles Griffin
& Co, 14
e
dition, 1950.
P001-046-9782100549412.fm Page 13 Mercredi, 24. novembre 2010 9:46 09
14
x
1
n
---
n
i
x
i
i 1 =
k
f
i
x
i
i 1 =
k
= =
n
i
fois
P001-046-9782100549412.fm Page 14 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
15
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
o
k
dsigne le nombre de valeurs
distinctes
de
X
et
Lorsquon a une variable statistique continue, on ne connat pas les valeurs
exactes prises par la variable, mais seulement le nombre dobservations
lintrieur de chaque classe. Pour calculer la moyenne arithmtique dune
telle variable, on ramne
chaque observation au centre de sa classe,
ceci en
raison de lhypothse dquirpartition lintrieur des classes, et cel revient
considrer la moyenne des individus de la
i
e
classe gale
(
x
i
1
+ x
i
)/2.
Dans le cas des classes extrmes non limites, le choix des limites de ces
classes influe videmment sur la valeur de la moyenne arithmtique. Ces
limites devront tre choisies en fonction des connaissances sur les donnes
et en noubliant pas lhypothse de base : lhomognit lintrieur des
classes. Pour une classe extrme dans laquelle on sait quil ny a pas quir-
partition, les observations tant vraisemblablement en majorit regroupes
sur une partie de la classe, il conviendra de choisir la borne extrme :
moins faible que la borne relle (suppose) sil sagit de la premire
classe ;
plus faible que la borne relle (suppose) sil sagit de la dernire classe.
Cest ce qui a t fait pour la srie prsente au tableau 1.2 et la figure 1.3,
lanciennet moyenne du chmage a t considre gale 48 mois pour ceux
dont lanciennet tait au moins gale 36 mois et la borne suprieure de la
dernire classe a t de ce fait fixe 60 mois (lhypothse dquirpartition
amne considrer que la moyenne des observations dune classe est gale au
centre de la classe).
Proprits
1.
La moyenne est une caractristique qui satisfait toutes les conditions
de Yule, sauf la conditions 5 : une observation extrme (exceptionnel-
lement leve ou faible) peut avoir une forte incidence sur sa valeur.
2.
La somme algbrique des carts des valeurs dune variable statisti-
que sa moyenne arithmtique est nulle :
3.
Lorsquon fait subir une variable statistique X une transformation
affine, cest--dire un changement dorigine et dunit {
Y = aX + x
0
}, sa
moyenne arithmtique subit la mme transformation :
4.
Soit une population
de taille
n
partage en deux sous-populations
1
de taille
n
1
et
2
de taille
n
2
.
Soit
X
, une variable statistique observe sur la population
, on peut
exprimer sa moyenne en fonction de ses moyennes sur
1
et sur
f
i
n
i
n
---- =
f
i
i 1 =
k
x
i
x ( )
0 =
y ax x
0
+ =
x x
1
x
2
P001-046-9782100549412.fm Page 15 Mercredi, 24. novembre 2010 9:46 09
16
INTRODUCTION LA MTHODE STATISTIQUE
Exemple
Lanciennet moyenne dinscription au chmage pour hommes et femmes
runis en septembre 2006 est gale (
cf.
tableau 1.2 pour les donnes) :
338 jours
2) Dautres moyennes
a) La moyenne gomtrique
Cest la moyenne applicable des mesures de grandeurs dont la croissance
est gomtrique ou exponentielle.
La
moyenne gomtrique conserve le produit des x
i
: si on modifie les
valeurs de deux observations tout en conservant leur produit, la moyenne
gomtrique sera inchange.
La moyenne gomtrique
G
de la srie de valeurs
x
1
, , x
i
, , x
n
sup-
poses toutes positives (strictement), est dfinie ainsi :
Lorsque la distribution de la variable statistique est donne par les
k
couples
(
x
i
,n
i
), les
x
i
tant tous positifs ; la moyenne gomtrique a pour expression :
Exemple
Supposons que pendant une dcennie, les salaires aient t multiplis
par 2 et que pendant la dcennie sui vante, ils aient t multiplis par 4 ;
le coefcient multiplicateur moyen par dcennie est gal :
La moyenne arithmtique (= 3) nest pas gale au coefcient demand.
2
en remarquant que la somme totale sobtient en additionnant
:
Ce rsultat se gnralise une partition en k sous-populations (k 2) :
nx
n
1
x
1
et n
2
x
2
x
1
n
--- n
1
x
1
n
2
x
2
+ ( ) =
x
1
n
---
n
i
x
i
i 1 =
k
=
x
1
2 172,2
------------------ 1 094,5 341 1 077,7 + 334 ( ) =
G
x
i
i 1 =
n
n
= ln G ( )
1
n
---
ln x
i
( )
i
1 =
n
=
G x
i
n
i
i 1 =
k
n
x
i
f
i
i
1
=
k
= = ln G ( )
f
i
ln x
i
( )
i
1 =
k
=
2 4 8 2,83 =
P001-046-9782100549412.fm Page 16 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
17
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Prenons, par exemple, un salaire de 300
au dbut de la premire dcennie,
il sera de 300
4 = 2 400
au bout des vingt ans, ce qui qui vaut
300
(2,83)
2
, soit un coefcient multiplicateur moyen de 2,83 par dcennie.
b) La moyenne harmonique
La
moyenne harmonique
est linverse de la moyenne arithmtique des inverses
des valeurs. L
inverse de la moyenne harmonique conserve ainsi la somme des
inverses des x
i
: si on modifie les valeurs de deux observations tout en conser-
vant la somme de leurs inverses, la moyenne harmonique sera inchange.
ou
La moyenne harmonique peut tre utilise lorquil est possible dattribuer
un sens rel aux inverses des donnes en particulier pour les taux de change,
les taux dquipement, le pouvoir dachat, les vitesses. Elle est notamment
utilise dans les calculs d
indices
.
Exemple
On achte des dollars une premire fois pour 100
au cours de 1,23
le
dollar, une seconde fois pour 100
au cours de 0,97
le dollar.
Le cours mo yen du dollar pour lensemble de ces deux oprations est
gal :
La moyenne arithmtique (= 1,1) ne reprsente pas le cours mo yen du
dollar.
Comparaison des 3 moyennes tudies
On montre que si les
x
i
sont tous positifs :
min
x
i
max x
i
lin lin
Lgalit de deux de ces moyennes entre elles entrane leur galit dans
leur ensemble, et dans ce cas, toutes les valeurs x
i
sont gales.
3) Le mode
Pour obtenir une mesure de la tendance centrale non influence par les
valeurs extrmes de la distribution, on peut prendre la valeur ou la classe
de valeurs du caractre pour laquelle le diagramme en btons respective-
ment lhistogramme prsente son maximum : cest le mode respectivement
lintervalle modal de la distribution ; dans le cas o le diagramme en btons
ou lhistogramme prsente aussi un maximum local, il y a deux modes
respectivement deux classes modales.
H
n
1
x
i
----
i 1 =
n
------------ = H
1
f
i
x
i
----
i 1 =
k
------------ =
200
100
1,23
----------
100
0,97
---------- +
--------------------------- 1,085
x
P001-046-9782100549412.fm Page 17 Mercredi, 24. novembre 2010 9:46 09
18
19
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
distributions de salaires ou de revenus en donnent des exemples typiques .
Il est vident que, dans de tels cas, nous avons besoin dune mesure de la
tendance centrale qui ne soit pas influence par un nombre relativement petit
de valeurs extrmes se situant en queue de la distribution.
a) La mdiane
La mdiane est la valeur de la variable statistique telle quil y ait autant
dobservations suprieures et dobservations infrieures cette valeur. Elle
partage la srie statistique en deux parties dgal effectif. Elle se dtermine
soit partir de la srie des valeurs ordonnes, soit partir de la fonction
cumulative ( II.A.3).
Pour les variables statistiques discrtes , la mdiane est dtermine
laide de la profondeur .
Dans le cas o la srie comporte un nombre impair n dobservations, la
mdiane est gale la valeur de profondeur maximum (n + 1)/2 : pour la srie
des 15 valeurs du tableau 4, la mdiane est gale la valeur de profondeur
8, soit 39,9 h.
Dans le cas o la srie comporte un nombre pair n dobservations, la
mdiane est la moyenne arithmtique des deux valeurs de profondeur n/2 et
est ainsi dfinie comme la valeur de profondeur ( n + 1)/2.
La mdiane est ainsi dans tous les cas la valeur de profondeur (n + 1)/2.
Lorsque les donnes dune variable statistique discrte sont classes, il
nexiste gnralement pas une valeur mdiane Me pour laquelle la fonction
cumulative vaut 50 %. Il faut dans ce cas utiliser dautres valeurs typiques
pour caractriser la tendance centrale de la srie : ceci est le cas pour la dis-
tribution du nombre de personnes par mnage dont la fonction cumulative est
reprsente la figure 1.4.
Pour les variables statistiques continues , la valeur mdiane Me est
telle que F(Me) = 50%. On commence par chercher la classe mdiane
laide des frquences cumules, la classe mdiane [x
i 1
, x
i
[ tant telle que
F
i 1
< 50% et F
i
> 50%. La valeur de la mdiane sobtient ensuite par inter-
polation linaire en raison de lhypothse dquirpartition lintrieur des
classes. Cette dtermination peut se faire par le calcul ou graphiquement
(cf. figure 1.9) :
Pour la distribution de lanciennet du chmage des femmes (tableau 1.2
et figure 1.5), la mdiane appartient la classe [3 ; 6[ :
Me x
i 1
x
i
x
i 1
-----------------------
0 5 , F
i 1
f
i
------------------------ = Me x =
i 1
x
i
x
i 1
( ) +
0,5 F
i
1
f
i
-----------------------
Me 3 3 +
50 35,8
15,1
---------------------- 5,8 mois =
P001-046-9782100549412.fm Page 19 Mercredi, 24. novembre 2010 9:46 09
20
INTRODUCTION LA MTHODE STATISTIQUE
La mdiane peut aussi tre dtermine partir de la courbe des frquences
cumules comme labscisse du point dordonne 50 %.
Une
seule
observation trs leve (ou trs faible) peut influencer fortement
la moyenne, alors que la mdiane peut supporter sans tre modifie quune
moiti des observations soit trs leve (ou trs faible) : on dit que la mdiane
est
rsistante.
La mdiane satisfait aux conditions 1, 3, 4 et 5 de Yule.
Dans le cas de distribution unimodale, la mdiane est frquemment com-
prise entre la moyenne arithmtique et le mode, et plus prs de la moyenne
que du mode. Si la distribution est symtrique, ces
trois caractristiques
de
tendance centrale sont
confondues
(
cf.
figure 1.10).
F
i-1
0,5
F
i
Me x
i
x
i-1
f
i
0,5- F
i-1
Figure 1.9 Dtermination graphique de la mdiane pour une variable continue
{ Mo = Me = x }
x
x
x Mo Me
Distribution tale
vers la droite
x
x Mo Me
Distribution tale
vers la gauche
Distribution
symtrique
Figure 1.10 Positions respectives du mode, de la mdiane et de la moyenne
P001-046-9782100549412.fm Page 20 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
21
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
b) Les quantiles
Les
quantiles
sont des
indicateurs de position
.
Le
quantile dordre
(0
1), not
x
,
est tel quune proportion
des individus ait une valeur du caractre
X
infrieure ou gale
x
Le quantile
x
0,5
est gal la mdiane.
On utilise couramment les quantiles dordre 1/4, 1/2 et 3/4. Ils sont ainsi
nots et
nomms :
Q
1
= premier quartile = x
0,25
Q
2
= deuxime quartile = mdiane = x
0,5
Q
3
= troisime quartile = x
0,75
Les quartiles se dterminent, comme la mdiane, laide de la profondeur
(variable discrte), ou laide des frquences cumules (variable continue).
Dans le cas dune variable statistique
discrte
, le premier quartile
Q
1
et le troi-
sime quartile
Q
3
sont des lments de
mme profondeur gale
(
m +
1)/2 o
m
dsigne la
partie entire de la profondeur de la mdiane. On peut aussi
considrer Q
1
comme la mdiane des m premires valeurs de la srie et Q
3
comme la mdiane des m dernires valeurs. Ainsi par exemple, pour une srie
de 39 observations, la mdiane a une profondeur gale 20, et les quartiles
Q
1
et Q
3
sont de profondeur 10,5 ; pour une srie de 50 observations, la
mdiane a une profondeur de 25,5 et la partie entire de cette profondeur
tant 25, les quartiles Q
1
et Q
3
sont de profondeur 13.
La pratique de la dtermination des quartiles ne respecte pas toujours la
dfinition prcdente due Tukey. Ainsi les calculatrices de poche (TI,
Casio,) dterminent le 1
er
quartile (resp. le 3
e
quartile) comme la mdiane
des valeurs de profondeur infrieure (resp. suprieure) la profondeur de la
mdiane. Le rsultat diffre de celui calcul avec la dfinition de Tukey dans
le cas dun nombre impair dobservations. Le logiciel SPSS dtermine deux
types de quartiles : Valeurs charnires selon la dfinition de Tukey, et
Moyenne pondre laide dune formule dinterpolation linaire
[Dodge, 1993]. La dtermination des premier et troisime quartiles nest pas
standardise.
Pour la distribution de la dure hebdomadaire du travail dans les 15 pays
de lUnion europenne en 2000 ( cf. tableau 1.4), les premier et troisime
quartiles sont les valeurs de profondeur 4,5 :
Q
1
= 39,15 h et Q
3
= 40,2 h
Dans le cas dune variable statistique continue, on a F(Q
1
) = 0,25 et
F(Q
3
) = 0,75 et on calcule les quartiles par interpolation linaire, en raison
de lhypothse dquirpartition. Pour la distribution de lanciennet du ch-
mage des femmes ( cf. figure 1.5) :
P001-046-9782100549412.fm Page 21 Mercredi, 24. novembre 2010 9:46 09
22
et x
1-
dfinissent un intervalle dont le milieu peut tre considr comme un para-
mtre de tendance centrale.
De la mme faon, on dfinit les dciles D
1
,
D
2
, , D
9
qui sont les quan-
tiles x
i/10
(i = 1 9), les vingtiles, quantiles x
i/20
( i = 1 19), les centiles, etc.
Les classes dune variable statistique continue sont souvent dfinies
laide des dciles. Dans ce cas, on a 10 classes contenant chacune 10 % de
leffectif total ( cf. tableau 1.5 et figure 1.11).
Tableau 1.5 Distribution des salaires annuels nets de tous prlvements
pour les salaris temps complet du secteur priv et semi-public
Dciles
*
(en euros courants)
Ensemble Hommes Femmes
2000 2006 2000 2006 2000 2006
D
1
D
2
D
3
D
4
Mdiane
D
6
D
7
D
8
D
9
10 790
12 220
13 520
14 910
16 500
18 410
20 890
24 780
32 810
12 718
14 219
15 545
16 977
18 631
20 685
23 430
27 826
36 941
11 230
12 760
14 140
15 580
17 270
19 330
22 170
26 660
35 020
13 181
14 776
16 209
17 729
19 466
21 657
24 734
29 787
40 305
10 190
11 420
12 500
13 710
15 130
16 810
18 850
21 620
26 950
12 075
13 431
14 531
15 715
17 141
18 924
21 300
24 590
30 962
D
9
/D
1
3 2,9 3,2 3,1 2,6 2,6
Salaire moyen 20 400 23 292 21 890 24 912 17 510 20 232
*
En 2006, 10 % des salaris temps complet du secteur priv et semi-public gagnent un salaire annuel
net infrieur 12 718 euros, 20 % infrieur 14 219 euros
Source : INSEE.
Q
1
1 2 +
25 16,8
19
---------------------- = 1,9 mois
Q
3
12 12 +
75 68,7
18,5
---------------------- = 16,1 mois
P001-046-9782100549412.fm Page 22 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
23
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
C. Les indicateurs de dispersion
1) Ltendue
Ltendue est la diffrence entre la plus grande et la plus petite des valeurs
observes :
tendue = max x
i
min x
i
lin lin
Cette mesure de la dispersion ne dpend que des valeurs extrmes souvent
exceptionnelles ; elle ne satisfait pas aux conditions 2 et 5 de Yule. Il faut
remarquer aussi que la forme de la distribution entre les valeurs extrmes
ninflue pas sur ltendue. Cependant, cette caractristique, tant facile cal-
culer et ayant une signification concrte facile comprendre, est frquem-
ment utilise en contrle industriel de fabrication.
2) Ltendue interquartile
De par la dfinition des quartiles, lintervalle interquartile [ Q
1
,
Q
3
] contient
50 % des observations. Sa longueur, note EIQ (tendue InterQuartile), est
un indicateur de dispersion :
EIQ = Q
3
Q
1
Le calcul de ltendue interquartile a lavantage par rapport celui de
ltendue dcarter les valeurs extrmes, souvent sans signification.
Plus gnralement, les longueurs des fourchettes dfinies par les dciles
extrmes, les centiles extrmes constituent des indicateurs de dispersion
contenant respectivement 80 % et 98 % des observations.
D
1
D
2
D
3
D
4
D
5
D
6
D
7
D
8
D
9
h
i
=
10
D
i
D
i 1
h
2
h
1
Figure 1.11 Histogramme de la distribution des salaires Ensemble en 2000
(voir tableau 1.5)
P001-046-9782100549412.fm Page 23 Mercredi, 24. novembre 2010 9:46 09
24
= e
Me
f
i
x
i
Me
i 1 =
k
=
e
x
1
n
---
x
i
x
i 1 =
n
= e
x
f
i
x
i
x
i 1 =
k
=
var X ( )
1
n
---
x
i
x ( )
2
i 1 =
n
= var X ( )
f
i
x
i
x ( )
2
i 1 =
k
= s
X
var X ( ) =
n 1
2
n
n 1
------------
n
2
=
P001-046-9782100549412.fm Page 24 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
25
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
ou
Dans le cas dune variable statistique continue, on ramne la valeur de cha-
que individu au milieu de sa classe daffectation. L encore, le choix des bornes
des classes extrmes non limites doit tre fait avec prcaution.
Mais, alors que pour le calcul de la moyenne, lerreur lie ce choix tait
faible dans le cas de distributions approximativement symtriques autour de
la moyenne, il nen est pas de mme pour le calcul de la variance o les
erreurs sajoutent et ne peuvent pas se compenser.
Lcart-type est exprim dans la mme unit que les observations, alors
que la variance sexprime dans le carr de cette unit.
On dmontre que lcart-type, donnant plus de poids aux observations
extrmes que lcart absolu moyen la moyenne, lui est toujours suprieur :
Proprits
1. Lcart-type satisfait aux conditions 1, 2 et 6 de Yule ; lcart-type
est plus sensible aux fluctuations dchantillonnage et aux valeurs extr-
mes que la moyenne, en raison des lvations au carr.
2. On montre que la variance est le plus petit cart quadratique moyen,
cest--dire :
pour tout C
3. Lorsque deux variables X et Y sont en correspondance par le chan-
gement dorigine x
0
et le changement dchelle a, les cart-types se cor-
respondent par le seul changement dchelle a pris en valeur absolue :
4. Soit une population de taille n compose de deux sous-populations
1
de taille n
1
et
2
de taille n
2
.
Soit X, une variable statistique observe
sur la population , on peut exprimer sa variance var( X) en fonction de
, , , var(X
1
) et var( X
2
) :
var X ( )
1
n
---
x
i
x ( )
2
i 1 =
n
1
n
---
x
i
2
i 1 =
n
x ( )
2
= =
var X ( ) f
i
i 1
k
x
i
x ( )
2
f
i
x
i
2
x ( )
2
i 1 =
k
= =
s
X
e
x
var X ( )
1
n
---
x
i
C ( )
2
i 1 =
n
Y aX x
0
+ = s
Y
a s
X
=
x x
1
x
2
var X ( )
1
n
--- n
1
var X
1
( ) n
2
var X
2
( ) n
1
x
1
x ( )
2
n
2
x
2
x ( )
2
+ + +
( ,
, (
j \
=
P001-046-9782100549412.fm Page 25 Mercredi, 24. novembre 2010 9:46 09
26
1
et
2
. Ce rsultat se gnralise une partition en k sous-populations
(k 2).
5. Les distributions statistiques symtriques telles quenviron :
2/3 de la distribution se situent moins dun cart-type de ;
95 % de la distribution se situent moins de deux carts-types de
sont dites normales (chapitre 7, II).
Le triplet ( ) est un rsum exhaustif des distributions de ce type.
Dans de nombreux cas, la normalit tant approximative, ( ) est alors
un rsum (quasi-exhaustif) qui prsente un intrt primordial.
x
x
n x s
X
, ,
n x s
X
, ,
x
x
1
+ ( )/2
P001-046-9782100549412.fm Page 26 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
27
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
1) Dfinition des moments centrs
Le moment centr dordre r dune distribution est gal la moyenne arith-
mtique des puissances dordre r des carts :
ou
Remarque
Le moment centr
1
est nul, et le moment centr
2
nest autre que la
variance et ne peut tre nul, comme tous les moments centrs dordre
pair, que si toutes les observations ont la mme valeur.
2) Lasymtrie
Pour une distribution symtrique, la moyenne arithmtique est gale la
mdiane et pour compris entre 0 et 0,5. Dautre part, les
moments centrs dordre impair sont nuls pour une distribution symtrique,
ngatifs pour une distribution unimodale tale gauche, positifs pour une
distribution unimodale tale droite. Ces proprits sont utilises pour dia-
gnostiquer et mesurer lasymtrie.
a) Diagnostic et mesure de lasymtrie laide des quantiles
Dans un cas dasymtrie, la comparaison des quantits ,
milieux des intervalles [x
,
x
1-
], pour diffrentes valeurs de (0 0,5)
donne une indication rapide sur le type de lasymtrie. Certains logiciels don-
nent la reprsentation graphique de ces quantits en fonction des amplitudes
. Pour une distribution symtrique, on obtient une droite parallle
laxe des abscisses puisque les termes sont tous gaux la
mdiane (et la moyenne !).
Pour la distribution des salaris masculins en 2000 ( cf. tableau 1.5), la
comparaison des milieux des intervalles des dciles symtriques par rapport
la mdiane montre quil sagit dune distribution tale vers la droite :
D
5
= 17 270 < = 17 455 < = 18 155 < = 19 710 < = 23 125
Le quotient suivant dfinit un coefficient dasymtrie, appel coefficient
de Yule et Kendall :
x
i
x ( )
r
1
n
---
x
1
x ( )
r
i 1 =
n
=
r
f
i
x
i
x ( )
r
i 1 =
k
=
x
x
1
+ ( )/2
x
x
1
+ ( )/2
x
1
x
( )
x
x
1
+ ( )/2
D
6
D
4
+
2
-------------------
D
7
D
3
+
2
-------------------
D
8
D
2
+
2
-------------------
D
9
D
1
+
2
-------------------
Q
3
Q
2
( ) Q
2
Q
1
( )
Q
3
Q
2
( ) Q
2
Q
1
( ) +
-----------------------------------------------------
Q
3
Q
1
2Q
2
+
Q
3
Q
1
----------------------------------- =
P001-046-9782100549412.fm Page 27 Mercredi, 24. novembre 2010 9:46 09
28
-----------------------------------
2
3 2
---------- =
2
0
1
= 0
1
< 0
1
> 0
Figure 1.12 Signe du coefficient dasymtrie
n
n 1 ( ) n 2 ( )
--------------------------------------
1
pour n 3
2
2
----- 3 =
2
0
P001-046-9782100549412.fm Page 28 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
29
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Ce coefficient est
nul
pour une
distribution normale
(chapitre 7), positif
ou ngatif selon que la distribution est plus ou moins aplatie que la distribu-
tion normale de mme moyenne et de mme cart-type.
Les coefficients calculs par les logiciels sont celui de Fisher ou des
variantes de mme interprtation.
Ces coefficients dasymtrie et daplatissement sont invariants par chan-
gement dorigine et dchelle, mais ils sont sensibles aux fluctuations
dchantillonnage puisquils font intervenir des moments dordre lev.
E. L
es caractristiques de dispersion relative
Ces caractristiques permettent de
comparer
les distributions statistiques de
plusieurs sous-ensembles dune mme population, ou de faire des comparai-
sons dans le temps ou dans lespace.
1) Le coefficient de variation et linterquartile relatif
Supposons que nous sachions que lcart-type de poids dune certaine popula-
tion est de 8 kg, limportance du degr de variabilit que cela suggre dpend
de la valeur du poids moyen : 10 kg, 50 kg ou plusieurs centaines de kg
Pour remdier cette difficult dinterprtation, il est naturel dexaminer
le rapport appel
coefficient de variation
et dfini en gnral pour des
variables
positives
.
Cest un nombre
sans dimension
, invariant si on effectue un changement
dunit de mesure.
Plus le coefficient de variation est lev, plus la dispersion autour de la
moyenne est leve.
Ce coefficient permet de comparer les dispersions de distributions qui ne
sont pas exprimes dans la mme unit (comme des distributions de salaires
de pays diffrents) ou de distributions dont les moyennes sont diffrentes
(comme des distributions de salaires pour diffrentes qualifications).
On peut construire dautres coefficients de ce type en utilisant les statis-
tiques dordre comme les quartiles et les dciles ; citons l
interquartile
relatif
: et l
interdcile relatif
:
Pour les distributions des salaires Hommes et Femmes en 2001 (
cf.
tableau 1.5), les interdciles relatifs valent respectivement 1,45 et 1,12.
s
X
x
Q
3
Q
1
Q
2
------------------
D
9
D
1
D
5
-------------------
P001-046-9782100549412.fm Page 29 Mercredi, 24. novembre 2010 9:46 09
30
INTRODUCTION LA MTHODE STATISTIQUE
2) Les caractristiques de concentration
La notion de
concentration
a t introduite propos des distributions de
salaires et de revenus. Cette notion est apparente celle de dispersion
puisquelle concerne lintensit du groupement des donnes.
Elle ne sapplique qu des variables
continues
valeurs
positives
, et pour
des ensembles statistiques dont chaque lment est affect dun caractre sus-
ceptible daddition :
un ensemble de mnages classs selon le revenu, lpargne, le
patrimoine ;
un ensemble dentreprises classes selon le chiffre daffaire, le nombre
de salaris, les montants des factures ;
un ensemble dexploitations agricoles classes selon la surface agricole
utilise.
Il est clair que la notion de concentration ne peut pas sappliquer, par
exemple, des ensembles dindividus classs selon lge, la taille ou le poids,
puisque la somme des ges, des tailles ou des poids dune population est sans
signification.
La concentration peut se caractriser, soit par un
procd graphique,
soit
par le
calcul
.
a) Construction de la courbe de concentration
Considrons la distribution des exploitations agricoles par classes de gran-
deurs des rgions Provence-Alpes-Cte dAzur (PACA) et Midi-Pyrnes en
2005 (
cf. tableau 1.6). Lintervalle de variation de la SAU (superficie agricole
utilise) est partag en k classes (ici, k = 9) dont les bornes suprieures sont
notes dans lordre : x
1
, , x
i
, , x
k
On calcule pour chaque classe ( i = 1 k) :
la proportion cumule p
i
des exploitations de SAU infrieure x
i
la proportion cumule q
i
de la SAU totale des exploitations de SAU inf-
rieure x
i
Sur un diagramme cartsien, on reprsente les k points de coordonnes
(p
i
, q
i
). Ces points sinscrivent dans un carr OABC dont la longueur des
cts est gale 1 (ou 100 si les proportions sont exprimes en pourcentage).
La courbe qui joint les points successifs est la courbe de concentration
ou courbe de Lorenz (cf. figure 1.13). La courbe, toujours en-dessous de la
bissectrice, permet de lire que les % des exploitations les moins bien
loties cultivent % de la SAU totale. Si toutes les exploitations ont une part
gale de SAU, la courbe se confond avec la bissectrice OB. La courbe sen
loigne lorsque lingalit saccrot.
P001-046-9782100549412.fm Page 30 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
31
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Ceci suggre dutiliser laire, dite aire de concentration , comprise entre
la courbe et la bissectrice OB comme indicateur dingalit.
Tableau 1.6 Distribution des exploitations agricoles par classes de grandeurs
en rgions PACA et Midi-Pyrnes
Midi-Pyrnes PACA
Midi-
Pyrnes
PACA
f
i
Proportion
SAU
f
i
Proportion
SAU
p
i
q
i
p
i
q
i
Moins de 5 ha 15,5 0,8 44,9 2,6 15,5 0,8 44,9 2,6
5 moins de 10 ha 9,0 1,4 12,5 3,1 24,6 2,2 57,4 5,7
10 moins de 20 ha 13,2 4,2 14,8 7,6 37,7 6,4 72,2 13,2
20 moins de 35 ha 15,7 9,2 9,3 8,6 53,4 15,7 81,5 21,9
35 moins de 50 ha 12,2 11,1 5,1 7,4 65,6 26,8 86,6 29,3
50 moins de 100 ha 23,1 35,1 7,2 17,6 88,7 61,9 93,8 46,9
100 moins de 200 ha 9,6 27,5 3,7 18,1 98,2 89,4 97,5 65,0
200 moins de 300 ha 1,3 6,6 1,4 11,5 99,5 96,0 98,9 76,5
300 ha ou plus 0,5 4,0 1,1 23,5 100,5 100,5 100,5 100,5
100,5 100,5 100,5 100,5
Source : agreste.agriculture.gouv.fr
p
q
C
0
A
B
I
G
1
2
100
80
60
40
20
0
0
20 40 60 80 100
PACA
Midi-Pyrnes
Figure 1.13 Courbe de Lorenz
Figure 1.14 Courbes de concentration des SAU
dans les rgions PACA et Midi-Pyrnes
P001-046-9782100549412.fm Page 31 Mercredi, 24. novembre 2010 9:46 09
32
j i 1 + =
n
i 1 =
n
n n 1 ( ) x
-------------------------------------- =
P001-046-9782100549412.fm Page 32 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
33
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Cet indice sapparente donc bien la notion de dispersion relative des
lments dune srie. Cest un nombre sans dimension. Cette caractristique
de dispersion ne fait pas appel au calcul dcarts la moyenne. Elle est ainsi
particulirement bien adapte ltude de distributions trs dissymtriques
pour lesquelles la notion dcart la moyenne est sans grande signification.
IV. La bote de distribution
La bote de distribution (box-plot en anglais, ou encore bote--pattes ,
bote moustaches , bote de dispersion en franais) est un outil pri-
vilgi de l analyse exploratoire des donnes . Elle fournit en un seul coup
doeil des informations sur sa tendance centrale, sa dispersion, son asymtrie,
limportance des valeurs extrmes. Elle est aussi particulirement intres-
sante pour la comparaison de distributions sur plusieurs de ces critres.
A. Rsum dune distribution par des quantiles
Les trois quartiles Q
1
, Q
2
et Q
3
et les deux valeurs extrmes fournissent pour
une distribution des informations sur sa tendance centrale par les quantits
Q
2
, e t
(
min x
i
+ max x
i
)
, sur sa dispersion par ltendue et
ltendue interquartile, et sur sa forme par la comparaison des trois indica-
teurs de tendance centrale.
En analyse exploratoire des donnes, ces cinq valeurs sont prsents avec
leur profondeur dans un tableau. Pour la distribution de la dure hebdoma-
daire du travail en 2000 ( cf. tableau 1.4) :
On peut complter ce tableau en indiquant ltendue interquartile, le
milieu de lintervalle interquartile, ltendue et le milieu de lintervalle dter-
min par les deux valeurs extrmes. On obtient ainsi un rsum des informa-
tions sur la dispersion et lasymtrie :
n = 15 Dure hebdomadaire
8 Me = 39,9 h
4,5 Q
1
= 39,15 Q
3
= 40,2
1 min x
i
= 38,5 max x
i
= 43,6
1
2
--- Q
1
Q
3
+ ( )
1
2
---
1in 1in
1in 1in
P001-046-9782100549412.fm Page 33 Mercredi, 24. novembre 2010 9:46 09
34
Q
1
), et on y situe la mdiane par un segment positionn la
valeur Q
2
, par rapport Q
3
et Q
1
; on a alors la bote,
b) on calcule ( Q
3
+ 1,5 EIQ) et ( Q
1
1,5 EIQ) et on cherche :
la dernire observation x
h
en de de la limite ( Q
3
+ 1,5 EIQ) soit
x
h
= max{x
i
x
i
Q
3
+ 1,5 EIQ}
la premire observation x
b
au del de la limite ( Q
1
1,5 EIQ) soit
x
b
= min {x
i
x
i
Q
1
1,5 EIQ}
c) on trace deux lignes allant des milieux des largeurs du rectangle aux
valeurs x
b
et x
h
Ainsi, pour la distribution reprsente la figure 1.16, la valeur
loigne associe au Royaume-Uni et mise en vidence sur le diagramme
Branche et feuille de la figure 1.6, est lextrieur de la bote de distribution.
n = 15 Dure
hebdomadaire
Dispersion Position
8 39,9 h
4,5 39,15 40,2 EIQ = 1,05
1 38,5 43,6 tendue = 5,1
min x
i
+ max x
i
= 41,05
1
2
--- Q
1
Q
3
+ ( ) 39,615 =
1
2
---
1in 1in
( )
P001-046-9782100549412.fm Page 34 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
35
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Ce type de diagramme permet aussi de
comparer
facilement plusieurs dis-
tributions en terme de mdiane, quartiles et valeurs loignes ou extrmes.
On peut reprsenter en parallle les botes de distribution de la dure heb-
domadaire du travail des salaris temps complet de lUnion europenne en
1990,1995 et 2000, et comparer les trois distributions (
cf
. figure 1.17).
38 39 40 41 42 43
*
Maximum Minimum x
b
Q
1
Me Q
3
x
h
Q
1
1,5 EIQ Q
3
+ 1,5 EIQ
tendue
Figure 1.16 Construction de la bote de distribution de la dure du travail en 2000
(tableau 1.4)
45
44
43
42
41
40
39
38
37
N =
R-Uni
R-Uni
R-Uni
15
1990
15
1995
15
2000
*
*
Figure 1.17 Reprsentation SPSS des botes de distribution du tableau 1.3
P001-046-9782100549412.fm Page 35 Mercredi, 24. novembre 2010 9:46 09
36
INTRODUCTION LA MTHODE STATISTIQUE
La mdiane nvolue pas de faon monotone, la dispersion diminue, le
Royaume-Uni passe de valeur loigne en 1990 valeur extrme en
1995 et 2000.
Pour les distributions prsentes par leurs dciles (
cf
. tableau 1.5), on ne
connat pas les valeurs individuelles. Dans ce cas, on peut convenir de
considrer
valeurs loignes
les valeurs infrieures au premier dcile ou
suprieures au neuvime dcile.
La reprsentation des botes de distribution des distributions de salaires en
2000 permet de comparer les salaires selon le sexe (
cf
. figure 1.18). La repr-
sentation par des histogrammes (
cf
. figure 1.11) ne permettrait pas de com-
parer aussi aisment les distributions, les histogrammes ne pouvant pas tre
superposs si on veut conserver la lisibilit, mais seulement juxtaposs.
C. I
nterprtation dune bote de distribution
Une bote de distribution rend compte de la tendance centrale, de la disper-
sion, des valeurs loignes ou extrmes et de la forme de la distribution (
cf
.
figure 1.19), mme si dautre modes de reprsentation (histogramme, branche
et feuille) peuvent apporter un complment dinformation sur la forme.
10 000
20 000
30 000
40 000
Euros
Ensemble Hommes
Femmes
Figure 1.18 Reprsentation des botes de distribution des salaires en 2000
P001-046-9782100549412.fm Page 36 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
37
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
En statistique descriptive, on a vu limportance du
triplet
(
n
, , s
X
).
Pour la distribution de la dure hebdomadaire du travail du tableau 1.4, ce
triplet prend les valeurs (15 ; 39,93 ; 1,2) pour lanne 2000. La
bote de
distribution
(
cf
. figures 1.15 et 1.16) est un complment qui se rvle int-
ressant puisquelle permet de dtecter lasymtrie, les valeurs extrmes, et
de reprer la mdiane et lintervalle interquartile qui contient la moiti des
observations.
Dans le cas dune asymtrie, lcart-type qui mesure la dispersion
sym-
triquement
par rapport la moyenne nest pas la mesure de dispersion la
mieux adapte, et peut tre complt par ltendue interquartile. Dautre part,
si la bote de distribution indique des valeurs loignes ou extrmes, on sait
que la moyenne et lcart-type sont particulirement influencs par ces
valeurs.
V. B
ilan
Avant toute tude formelle, il est ncessaire de procder une valuation
descriptive des donnes. Cette approche descriptive prsente deux difficults,
lune lie aux calculs, lautre la diversit des indicateurs. Si les calculatrices
de poche ont permis depuis longtemps dj de rendre aiss les calculs de
moyenne et cart-type, il a fallu attendre la gnralisation des moyens de calcul
Maximum
Minimum
1. 2. 3. 4.
Figure 1.19 Quelques types de botes de distribution :
1. Distribution symtrique
2. Distribution peu disperse
3. Distribution tale vers les valeurs leves
4. Distribution tale vers les valeurs faibles
x
P001-046-9782100549412.fm Page 37 Mercredi, 24. novembre 2010 9:46 09
38
INTRODUCTION LA MTHODE STATISTIQUE
automatique (en particulier, des logiciels statistiques sur m icro-ordinateurs)
pour que tous les indicateurs bass sur la notion de profondeur, et en parti-
culier la mdiane, soient facilement accessibles. Cest aussi lenvironnement
rcent des micro-ordinateurs qui a permis de dvelopper les modes de reprsen-
tation graphique par lesquels on peut apprhender des indicateurs trs divers.
Lapproche descriptive des donnes trouve dans la reprsentation graphique un
enrichissement et une aide linterprtation. Simplicit et inter activit de cette
dmarche en font une premire tape maintenant indispensable toute tude
statistique.
P001-046-9782100549412.fm Page 38 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
39
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Il y a
au moins
une rponse exacte par question.
1. Pour une srie dobservations dune variable statistique :
a) on peut calculer quatre quartiles
b) lintervalle interquartile contient 50 % des observations
c) le cinquime dcile est gal la mdiane
d) 50 % des observations sont suprieures au premier quartile
2. Pour une variable statistique de distribution symtrique :
a) la moyenne est gale la mdiane
b) 50 % des observations sont suprieures la moyenne
c) la bote de distribution contient toutes les observations
d) (
Q
3
Q
1
) = 2(
Me Q
1
)
3. Pour comparer des distributions de variables statistiques exprimes dans des
units diffrentes (par exemple des distributions de salaires exprims dans des
monnaies diffrentes), on peut utiliser les caractristiques suivantes :
a) la mdiane
b) ltendue interquartile
c) le coefficient de variation
d) le rapport
D
9
/
D
1
4. Pour une srie dobservations dune variable statistique :
a) la somme des carts la moyenne est nulle
b) lcart absolu moyen la moyenne est un indicateur de dispersion
c) la mdiane de la srie des carts absolus la moyenne est une mesure de lasymtrie
d) les trois quartiles sont des indicateurs de tendance centrale
5. Une tude des notes obtenues par deux classes dune cole un test commun
a fourni les rsultats suivants :
a) la note moyenne des deux classes runies est gale 11
b) lcart-type des notes des deux classes runies est gal 5
c) la mdiane des notes des deux classes runies est gale 12
d) lcart absolu moyen des notes la mdiane est infrieur ou gal 4 pour la classe 1
Classe Classe 1 Classe 2
Effectif
Moyenne
cart-type
Mdiane
20
12
4
12
30
10
6
12
Testez-vous (les rponses sont donnes page 283)
P001-046-9782100549412.fm Page 39 Mercredi, 24. novembre 2010 9:46 09
40
INTRODUCTION LA MTHODE STATISTIQUE
6. Si on veut minimiser linfluence des valeurs extrmes :
a) on prfre la mdiane la moyenne
b) on prfre lcart-type lcart absolu moyen la moyenne
c) on prfre ltendue ltendue interquartile
d) on prfre ltendue interdcile (
D
9
D
1
) ltendue
7. Soit une grandeur dont le taux de croissance au cours de 3 annes successives
a t de 0,5 % pour les 2 premires annes et de 2 % pour la dernire anne.
Le taux annuel moyen de croissance pendant ces 3 annes est gal :
a)
b)
c)
d) une moyenne harmonique
8. Pour la distribution dune variable statistique continue (ou suppose
continue) :
a) lhistogramme est la reprsentation graphique des frquences cumules
b) 15 % des observations sont comprises entre le troisime quartile et le neuvime
dcile
c) la mdiane peut se dterminer laide de la courbe cumulative
d) ltendue interdcile ( D
9
D
1
) contient 90 % des observations
9. Si les notes (comprises entre 4 et 16) obtenues une preuve de statistique
dans une classe de 30 lves sont toutes augmentes de 2 points :
a) la moyenne sera augmente de 2 points
b) lcart-type sera augment de 2 points
d) la mdiane sera augmente de 2 points
d) ltendue sera augmente de 2 points
0,005 ( )
2
0 02 , ( )
( ,
j \
1 3
1
3
--- 2 0,005 0,02 + ( )
1,005 ( )
2
1,02
( ,
j \
1 3
1
P001-046-9782100549412.fm Page 40 Mercredi, 24. novembre 2010 9:46 09
DISTRIBUTIONS STATISTIQUES UN CARACTRE
41
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Exercice 1.1
Le tableau suivant donne la rpartition des familles selon le nombre denfants et leur
ge de 1968 1999 :
Sources : Recensements de la population, INSEE
1. Dfinir les populations tudies, lunit statistique, le caractre tudi et sa nature.
2. Examinez lvolution du nombre total de familles sans enfant, du nombre de
familles avec enfants, avec un enfant, avec deux enfants
3. On considre dans cette dernire question les familles avec enfant(s).
3.1. Aprs avoir calcul les frquences, tracez les diagrammes en btons de ces
distributions, et indiquez le mode.
3.2. Pour chacune des cinq annes, calculez le nombre moyen denfants par
famille et lcart-type (on considrera le nombre moyen denfants des familles
ayant cinq enfants ou plus gal 6). Commentez les rsultats.
Exercice 1.2
Le tableau suivant donne la distribution du niveau de lindice de la qualit de lair
ATMO en agglomration parisienne de 2000 2006 (en nombre de jours par an).
1. Dfinir les populations tudies, lunit statistique, le caractre tudi et sa nature.
2. Tracez le diagramme en btons de la distribution en 2006, et indiquez le mode.
3. Calculez les niveaux annuels moyens de 2000 2006.
Enfants de 0 18 ans (milliers)
1968 1975 1982 1990 1999
Ensemble 12 063 13 176 14 119 15 391 16 097
sans enfant 5 302 5 836 6 508 7 900 8 679
avec enfants 6 760 7 340 7 610 7 491 7 418
1 enfant
2 enfants
3 enfants
4 enfants
5 enfants
ou plus
2 723
2 052
1 063
481
441
3 110
2 374
1 088
427
342
3 303
2 734
1 081
310
183
3 281
2 756
1 063
259
132
3 317
2 772
1 008
230
91
Nombre total
denfants
14 569 14 826 14 294 13 748 13 308
Exercices (corrigs page 289)
P001-046-9782100549412.fm Page 41 Mercredi, 24. novembre 2010 9:46 09
42
43
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Exercice 1.4
Afin dtudier les disparits de salaires entre hommes et femmes, une enqute a t
ralise auprs du personnel ouvrier dun secteur industriel. Les rsultats concernant
les salaires annuels nets en euros sont rsums dans les deux tableaux suivants :
1. Dfinir la population tudie, lunit statistique, le caractre tudi et sa nature.
2. Proposez pour la distribution du salaire des hommes en prcisant les valeurs cor-
respondantes :
trois indicateurs de tendance centrale ;
deux indicateurs de dispersion ;
deux indicateurs de dispersion relative.
3. Sachant que le salaire annuel moyen des femmes enqutes est gal 12 000 ,
dterminez leffectif n
4
de la dernire classe de la distribution du salaire des fem-
mes, ainsi que leffectif total N.
4. Dterminez lcart-type et le coefficient de variation de la distribution des
femmes.
5. Dterminez le salaire annuel moyen de lensemble des ouvriers hommes et
femmes de lenqute.
Exercice 1.5
Dans un atelier, le cot horaire de la main doeuvre est de 8 (base 35 h par
semaine). Une heure supplmentaire revient 10 , et le service de paie indique que
le cot total des heures supplmentaires reprsente 30 % du cot total de la main
doeuvre.
Calculez le cot horaire moyen et indiquez le type de moyenne utilise.
Exercice 1.6
Une mme somme S a t confie deux banques B
1
et B
2
pour une dure de 10 ans.
Les rendements successifs des placements effectus par les deux banques ont t les
suivants :
Tableau 1. Hommes
Effectif
Salaire moyen
cart-type
1
er
dcile
1
er
quartile
Mdiane
3
e
quartile
9
e
dcile
180
15 400
3 620
10 950
12 750
14 800
17 660
20 220
Tableau 2. Femmes
Salaire annuel
(en milliers d)
Nombre douvrires
[10 ; 12[
[12 ; 14[
[14 ; 16[
[16 ; 20]
82
34
12
n
4
Total N
P001-046-9782100549412.fm Page 43 Mercredi, 24. novembre 2010 9:46 09
44
45
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
4. Quel est lintrt de chacune de ces deux reprsentations graphiques comparative-
ment un histogramme ?
5. Reprendre la question 3 pour ltude de leffectif.
Exercice 1.8
Le tableau suivant donne le revenu annuel moyen des mnages, en euros, pour les
dix intervalles dfinis par les dciles, et la part de chaque intervalle dans le revenu
total.
Source : INSEE, Revenus fiscaux 1999, hors revenus du patrimoine.
1. Dfinir la population, lunit statistique, le caractre tudi et sa nature.
2. Calculez le revenu annuel moyen des mnages.
3. Est-il lgitime de faire lhypothse dquirpartition dans les classes dfinies par
les dciles ?
4. Proposez trois indicateurs de tendance centrale, un indicateur de dispersion et un
indicateur de dispersion relative. Donnez les valeurs de ces indicateurs.
5. Cette distribution de revenus est-elle symtrique ? (justifiez votre rponse)
6. Proposez un indicateur de disparit des revenus, et donnez sa valeur. Interprtez.
7. Quelle est la part de lensemble des revenus perus par les 4 diximes des mnages
aux revenus les plus faibles ?
8. Soit F
1
= 10 %, F
2
= 20 %, , F
10
= 100 %, et R
i
la part de lensemble des reve-
nus perus par lensemble des F
i
mnages aux revenus les plus faibles.
Valeur des dciles
(euros)
Intervalle
Revenu moyen
dans lintervalle
% de la masse totale
des revenus
dans lintervalle
D
1
= 7 304 < D
1
13 845 12
D
2
= 11 091 [D
1
; D
2
[ 19 318 13
D
3
= 14 099 [D
2
; D
3
[ 12 601 15
D
4
= 17 219 [D
3
; D
4
[ 15 640 16
D
5
= 20 631 [D
4
; D
5
[ 18 863 17
D
6
= 24 653 [D
5
; D
6
[ 22 579 19
D
7
= 29 361 [D
6
; D
7
[ 26 904 11
D
8
= 35 757 [D
7
; D
8
[ 32 324 13
D
9
= 46 642 [D
8
; D
9
[ 40 548 16
D
9
69 930 28
P001-046-9782100549412.fm Page 45 Mercredi, 24. novembre 2010 9:46 09
46
47
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
2. I
ndices statistiques
our ltude des problmes conomiques et sociaux, on a souvent
besoin de dcrire les variations de grandeurs simples telles que
le prix du baril de ptrole, la production de bl, le taux de
fcondit Ces comparaisons dans le temps (ou dans lespace) se font
gnralement en effectuant le rapport des valeurs de la grandeur consi-
dre deux dates diffrentes (ou en deux lieux distincts) ; on parle
d
indice statistique lmentaire.
Mais, il est important dtre en mesure de suivre les volutions de gran-
deurs complexes telles que le niveau gnral des prix, la production
industrielle, les exportations Celles-ci peuvent tre rsumes par une
caractrisque de tendance centrale dindices lmentaires, ce qui amne
la construction d
indices synthtiques.
Toute caractristique de tendance centrale, notamment les diffrents types
de moyennes, prsentant la fois des avantages et des inconvnients, il
nest pas possible de proposer une mthode unique de construction des
indices synthtiques. Il existe diffrentes formules. On va exposer les plus
utilises.
De par limportance que revtent ces indicateurs dvolution dans les dis-
cussions conomiques et politiques, il est ncessaire de bien comprendre
leur laboration, danalyser leurs modes de construction et dtudier
leurs proprits.
I. I
ndices lmentaires
A. D
finition
On appelle indice lmentaire de la grandeur simple
x
la date (ou priode)
t
, dite
date courante
, par rapport la date 0, dite
date de rfrence
, le
rapport :
P
I
t 0
x ( )
x
t
x
0
---- =
P047-066-9782100549412.fm Page 47 Jeudi, 18. novembre 2010 12:03 12
48
INTRODUCTION LA MTHODE STATISTIQUE
On a lhabitude, pour viter de traiter des valeurs dindice avec trop de
chiffres aprs la virgule de multiplier le rsultat par 100 et de laisser un chif-
fre aprs la virgule. Une variation ngative est repre par une valeur inf-
rieure 100.
Exemple
La population de la France mtropolitaine est passe de 53 731 milliers
dhabitants au 1
er
janvier 1980 56 577 milliers dhabitants au
1
er
janvier
1990 et 58 749 milliers dhabitants au 1
er
janvier
2000
(
source : Tableaux de lconomie franaise 2003-2004
, INSEE) :
La population franaise a augment de 5,3 % de 1980 1990 et de
9,3 % de 1980 2000.
B. P
roprits
1) Circularit (ou transitivit ou transfrabilit)
Cette formule permet de changer de base en passant de la date de rf-
rence 0 la date de rfrence
t
:
Lutilisateur a en effet souvent besoin de mesurer lvolution dune gran-
deur entre deux dates diffrentes de la date de rfrence.
De cette proprit, rsulte la proprit denchanement :
2) Rversibilit
Cette proprit est intressante dans le cas de comparaison gographique,
car le choix du lieu de rfrence est arbitraire.
I
1990 1980
P ( ) 100
56 577
53 731
----------------
105 3
,
=
I
2000 1980
P ( ) 100
58 749
53 731
----------------
109 3
,
=
I
t 0
x ( ) I
t t
x ( ) I
t 0
x ( ) =
I
t t
x ( )
I
t 0
x ( )
I
t 0
x ( )
----------------- =
I
t 0
x ( ) I
t t 1
x ( ) I
1 0
x ( ) =
I
0 t
x ( )
1
I
t 0
x ( )
---------------- =
P047-066-9782100549412.fm Page 48 Jeudi, 18. novembre 2010 12:03 12
INDICES STATISTIQUES
49
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
3) Multiplication
Si une grandeur simple
z
est le produit de deux grandeurs
x
et
y
, lindice
lmentaire de la grandeur produit est gal au produit des indices des gran-
deurs facteurs :
quel que soit
t
:
z
t
= x
t
y
t
I
t/0
(z) = I
t/0
(x) I
t/0
(y)
Cas particulier fondamental :
Valeur = Prix Quantit ou encore : Dpense = Prix Volume
Cette galit entrane :
Indice lmentaire de valeur =
Indice lmentaire de prix Indice lmentaire de quantit
Ces proprits immdiates dun indice lmentaire ne sont gnralement
pas satisfaites par un indice synthtique.
II. Indices synthtiques
Les indices lmentaires retracent lvolution dune seule grandeur parfaite-
ment dfinie et homogne.
Mais, le plus souvent, lconomiste ou le dirigeant dentreprise, si ce nest
le citoyen dsire suivre les variations de grandeurs complexes telles que les
prix, la production industrielle
Ces grandeurs complexes sont composes dun nombre plus ou moins
important de grandeurs simples dont lvolution est dcrite par un indice l-
mentaire.
On appelle indice synthtique, un indice faisant intervenir dans son calcul
plusieurs grandeurs intressant un mme phnomne conomique. Ce type
dindice rsulte dun calcul de moyenne .
Il est impossible de proposer une mthode unique et incontestable permet-
tant de dcrire lvolution dune grandeur complexe.
Les indices synthtiques ont linconvnient de ne pas prsenter gnrale-
ment les proprits de circularit et rversibilit. Or, ces proprits seraient
trs utiles au calcul conomique ; les changements de base et les raccorde-
ments dindices ne peuvent tre effectus de faon rigoureuse que sur des
indices possdant la proprit de circularit.
P047-066-9782100549412.fm Page 49 Jeudi, 18. novembre 2010 12:03 12
50
p
0
i
q
0
i
i
------------------- = =
L
t 0
q ( )
p
0
i
q
t
i
i
p
0
i
q
0
i
i
------------------- =
t 0
V
t 0
L
t 0
q ( )
t 0
p ( ) =
t 0
p ( )
p
t
i
q
t
i
i
p
0
i
q
t
i
i
------------------ =
V
t 0
L
t 0
p ( )
t 0
q ( )
p
t
i
q
0
i
i
p
0
i
q
0
i
i
-------------------
p
t
i
q
t
i
i
p
t
i
q
0
i
i
------------------ = =
P047-066-9782100549412.fm Page 50 Jeudi, 18. novembre 2010 12:03 12
INDICES STATISTIQUES
51
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
L(p) et L(q) sont les indices de Laspeyres des prix et des quantits, (p)
et (q) sont les indices de Paasche des prix et des quantits
1
.
Essayons dexprimer littrairement la diffrence entre lindice de Laspey-
res et lindice de Paasche. Pour un indice des prix par exemple :
indice de Laspeyres : on fige le panier
2
dans sa composition de la
priode de base et on compare la valeur quil aurait la priode courante
avec sa valeur relle la priode de base ;
indice de Paasche : on fige le panier dans sa composition de la priode
courante, on calcule rtrospectivement ce quaurait t sa valeur la
priode de base et on la compare avec sa valeur actuelle.
B. Formules dveloppes
1) Indice de Laspeyres
La pondration sinterprte dans un indice des prix
de dtail, comme le coefficient budgtaire (structure de valeurs) du produit
i , cest--dire la part de dpense totale qui lui est consacre, la priode
de base. On constate que la somme de ces pondrations est gale 1. Lindice
de Laspeyres des prix apparat comme une moyenne arithmtique pondre
des indices lmentaires des prix des biens individuels.
On montre de mme :
1. tienne Laspeyres (conomiste et statisticien allemand dorigine franaise) et Hermann
Paasche (statisticien allemand) proposrent ces formules respectivement en 1864 et 1874.
2. Panier : expression INSEE, le panier par rapport celui de la mnagre a la particularit
de contenir aussi des services immatriels (tickets dautobus, mois de loyer, biens durables
comme appareils mnagers).
L
t 0
p ( )
q
0
i
p
t
i
i
q
0
i
p
0
i
i
-------------------
q
0
i
p
0
i
q
0
i
p
0
i
i
-------------------
.
p
t
i
p
0
i
-----
i
= =
k
0
i
q
0
i
p
0
i
q
0
i
p
0
i
i
-------------------
q
0
i
p
0
i
v
0
----------- = =
L
t 0
q ( )
p
0
i
q
t
i
I
p
0
i
q
0
i
I
-------------------
p
0
i
q
0
i
p
0
i
q
0
i
i
-------------------
.
q
t
i
q
0
i
-----
i
= =
P047-066-9782100549412.fm Page 51 Jeudi, 18. novembre 2010 12:03 12
52
t 0
p ( )
q
t
i
p
t
i
i
q
t
i
p
0
i
i
------------------
q
t
i
p
t
i
i
q
t
i
p
t
i
.
p
0
i
p
t
i
-----
i
----------------------------- = =
1
t 0
p ( )
-------------------
q
t
i
p
t
i
q
t
i
p
t
i
i
-----------------
p
0
i
p
t
i
-----
i
=
q
0
i
p
t
i
i
53
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
moins de biens de prix levs et davantage de biens bon march. Il en rsulte
que le cot total sera infrieur celui donn par . Ainsi, l indice de
Laspeyres a tendance survaluer une hausse.
Dans le cas de lindice de Paasche, les rles jous par les quantits consom-
mes pendant lanne de rfrence et les quantits consommes pendant
lanne considre sont diamtralement opposs de ceux jous par ces mmes
quantits dans le cas de lindice de Laspeyres. Lindice de Paasche a donc ten-
dance sous-valuer une hausse.
Exemple
Entre janvier 2006 et janvier 2010, lvolution des prix et du nombre
dexemplaires de journaux vendus en un mois par une socit de presse
ditant trois journaux mensuels A, B et C a t la suivante :
i) La variation des recettes de la socit de presse entre janvier 2006 et
janvier 2010 est de 10,9 %, en effet :
ii) Cette variation fait intervenir un effet-quantit et un effet-prix quon
peut valuer en calculant les indices des prix et des quantits de
Laspeyres et de Paasche :
L
2010/2006
(p) = 117,4
2010/2006
(p) = 116,6
L
2010/2006
(p) >
2010/2006
(p)
L
2010/2006
(q) = 95,1
2010/2006
(q) = 94,4
L
2010/2006
(q) >
2010/2006
(q)
iii) La variation de la valeur globale peut tre dcompose en ses deux
effets prix et quantit. En effet, partir de la formule :
V
2010/2006
= L
2010/2006
(p)
2010/2006
(q) = L
2010/2006
(q)
2010/2006
(p)
Janvier 2006 Janvier 2010
Prix (en euros) Quantit Prix (en euros) Quantit
Journal A 2,5 8 000 3 6 500
Journal B 4 4 000 4,5 5 000
Journal C 5 2 000 6 1 500
q
0
i
p
t
i
i
V
2010 2006
100
51 000
46 000
----------------
100 110,9
=
P047-066-9782100549412.fm Page 53 Jeudi, 18. novembre 2010 12:03 12
54
INTRODUCTION LA MTHODE STATISTIQUE
On peut tablir le schma de dcomposition donn la figure 2.1.
Prix constants
Effet volume Effet prix
4,9 % 16,6 %
Valeur (janvier 2006) Valeur (janvier 2010)
Effet valeur
10,9 %
Effet prix Effet volume
17,4 % 5,5 %
Quantits constantes
Figure 2.1 Schma de dcomposition de lvolution dun indice de valeur
D. I
ndice de Fisher
Cet indice a t construit la suite de la recherche dun indice
idal
.
Dfinition
Cette dfinition provient du dveloppement suivant :
V
t
/0
=
L
t
/0
(
p
)
t
/0
(
q
) =
L
t
/0
(
q
)
t
/0
(
p
)
Les indices de Laspeyres et de Paasche tant des nombres positifs, on
peut crire :
Moyenne gomtrique des indices de Laspeyres et de Paasche, la valeur
de lindice de Fisher est comprise entre les valeurs de ces deux indices.
Comme lindice de Laspeyres a tendance surestimer une hausse de
prix, tandis que lindice de Paasche a tendance la sous-estimer, on en
dduit que lindice de Fisher doit donner une meilleure estimation dune
hausse des prix.
q
2010
i
p
2006
i
43 750 =
i
q
2006
i
p
2006
i
46 000 =
i
q
2010
i
p
2010
i
51 000 =
i
q
2006
i
p
2010
i
54 000 =
i
F
t 0
p ( ) L
t 0
p ( )
t 0
p ( ) =
V
t 0
2
L
t 0
p ( )
t 0
p ( ) L
t 0
q ( )
t 0
q ( ) = V
t 0
F
t 0
p ( ) F
t 0
q ( ) =
P047-066-9782100549412.fm Page 54 Jeudi, 18. novembre 2010 12:03 12
INDICES STATISTIQUES
55
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
E. P
roprits des indices de Fisher, Laspeyres et Paasche
Les indices de Laspeyres et de Paasche ne sont pas rversibles, mais :
Lindice de Fisher est donc
rversible
, ce qui en fait un outil privilgi
dans les comparaisons gographiques.
Ces trois indices ne sont pas transitifs.
Agrgation
Les indices de Laspeyres et de Paasche ont des structures de moyenne. On
peut calculer la moyenne arithmtique dun ensemble partir des moyennes des
sous-ensembles qui le composent. Il en rsulte que lindice de Laspeyres (resp.
de Paasche) dun ensemble peut sobtenir partir des indices des groupes for-
mant cet ensemble en leur appliquant la formule de Laspeyres (resp. de Paasche).
Les 303 postes de dpenses, rpartis en 159 groupes, servant aux calculs
des indices actuels des prix la consommation, base 100 en 1998, font lobjet
de regroupements en 12 fonctions (ex : 01 produits alimentaires et boissons
non alcoolises) et 37 sous-fonctions (ex : 01.1 produits alimentaires)
1
. Cest
la formule de Laspeyres qui est utilise. On commence par calculer lindice
de Laspeyres de chacun des regroupements. On obtient ensuite lindice
densemble en appliquant nouveau la formule de Laspeyres ces sous-indi-
ces, avec des coefficients de pondration gaux aux parts de chacun des
regroupements dans la valeur de la consommation totale. Cette proprit per-
met de publier non seulement un indice global, mais aussi des sous-indices
correspondant aux groupes et sous-groupes.
1. Le nouvel indice des prix la consommation, anne de base 1998 ,
Bulletin Mensuel de
la Statistique,
n 2-1999, INSEE.
Qualit Laspeyres Paasche Fisher
Rversibilit non
mais :
non
mais :
oui
Transitivit non non non
Agrgation oui oui non
Emploi couramment utilis peu utilis quasiment
inusit
t 0
1
L
0 t
---------
t 0
L
0 t
1 = =
L
0 t
1
t 0
----------- =
0 t
1
L
t 0
---------- =
P047-066-9782100549412.fm Page 55 Jeudi, 18. novembre 2010 12:03 12
56
INTRODUCTION LA MTHODE STATISTIQUE
F. U
tilisation de ces trois indices
Lindice de Laspeyres est le plus commode utiliser ; la plupart des indices
courants tablis par les instituts du monde entier sont du type Laspeyres .
Lindice de Paasche, symtrique de celui de Laspeyres quant sa signifi-
cation, prsente des inconvnients pratiques cause de la mise jour perma-
nente de ses pondrations. Il nest, de ce fait, pas utilis dans le calcul direct
des indices courants. Son calcul est nanmoins intressant pour obtenir avec
lindice de Laspeyres une
fourchette
destimation.
Lindice de Fisher est quasiment inusit, car son calcul ne peut pas se faire
par
agrgation
progressive.
Lorsquon divise un indice de valeur par un indice de Laspeyres de prix
(resp. de quantits), on obtient un indice de Paasche de quantits (resp. de
prix). Si on
dflate
1
lindice rendant compte de lvolution de la masse sala-
riale (indice de valeur) par un indice de Laspeyres des prix (se rapportant
videmment aux mmes dates), on obtient un indice de pouvoir dachat de la
masse salariale qui est un indice de Paasche des quantits consommables.
On dispose assez souvent de sries de valeur totale : chiffre daffaire,
montant des investissements Pour obtenir les indices de volume correspon-
dants reprsentatifs de lvolution relle compte tenu des variations des prix,
il faut diviser les indices de valeur par les indices de prix correspondants.
Mais, on nobtient pas un indice de Paasche de volume puisque lindice des
prix utilis en France et dans la plupart des pays trangers nest pas un
indice de Laspeyres, mais un indice-chane de Laspeyres.
III. I
ndices-chanes
A. R
accord dindices
Les indices ont une dure de vie limite en raison de lvolution des structures
conomiques. Lorsquon veut dcrire lvolution dune grandeur complexe
1.
Dflater :
annuler la hausse due leffet de linflation.
La
dflation du revenu nominal
par lindice des prix la consommation
permet de raisonner
en revenus constants en vitant lillusion montaire, et de comparer les niveaux de vie des
priodes diffrentes sans tenir compte dune augmentation du revenu ne compensant que la
hausse des prix.
P047-066-9782100549412.fm Page 56 Jeudi, 18. novembre 2010 12:03 12
INDICES STATISTIQUES
57
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
sur une longue priode, on est amen se poser le problme du raccord de
deux sries dindices synthtiques conscutives.
Soit un indice
I
, base 100 la date 0, calcul jusqu la date
t
o il a t
remplac par un indice
I
*. La valeur de
I
une date
t
postrieure la date
t
svalue en multipliant lindice
I
*
t/t
par lindice
I
t
/0
:
I
t
/0
=
I
*
t/t
I
t
/0
Cette formule, obtenu par un raccord dindice, nest quune approximation, car :
les indices synthtiques ne possdent pas la proprit de circularit ;
il est frquent que les indices
I
et I* naient ni le mme champ, ni la
mme composition (changement du nombre darticles d lintroduction
de produits nouveaux).
B. Les indices-chanes
Pour valuer lvolution dune grandeur complexe sur une longue priode,
lemploi de la formule de Laspeyres prsente un inconvnient, car la pond-
ration vieillit. Les prfrences des consommateurs comme les procds
auxquels recourent les producteurs se modifient : les articles choisis pour
reprsenter lvolution de certaines catgories de biens cessent dtre bien
adapts cet objectif et les pondrations de la priode de base et de la priode
courante deviennent trop diffrentes pour que la comparaison reste valable.
On a donc propos de calculer des indices dont la base changerait cha-
que priode.
Mais, comment comparer alors la situation entre deux dates o ont t calcu-
ls deux ou plusieurs indices ayant des bases diffrentes ? On adopte une solution
parfaitement empirique : le raccordement entre ces indices intermdiaires.
Les indices-chanes rsultent de la gnralisation de lopration de rac-
cord de deux indices. Ce sont des indices dfinis partir du produit des indi-
ces ayant pour base lanne prcdente. Lindice-chane de Laspeyres est un
produit dindices de Laspeyres, mais nest pas un indice de Laspeyres :
On dfinit de mme lindice-chane de Paasche.
Lindice-chane permet, mieux que les indices de Laspeyres ou de Paas-
che, de suivre lvolution de la grandeur tudie entre deux dates successives.
Si chaque maillon est calcul selon la formule de Laspeyres :
alors que :
CL
t 0
L
i i 1
CL
t 0
L
t t 1
= CL
t 1 0
i
1
=
t
=
CL
t 0
CL
t 1 0
------------------- L
t t 1
=
L
t 0
L
t 1 0
-------------- L
t t 1
P047-066-9782100549412.fm Page 57 Jeudi, 18. novembre 2010 12:03 12
58
INTRODUCTION LA MTHODE STATISTIQUE
On est donc dans dexcellentes conditions pour comparer deux priodes
successives.
On a la mme proprit si chaque maillon est un indice de Paasche. Par contre :
toute erreur sur lun des lments de la chane se retrouve dans tous les
indices suivants ;
lindice obtenu na pas une signification bien prcise, le rsultat dpen-
dant des modifications des pondrations dune priode lautre.
Un indice-chane sera donc moins bien adapt quun indice de Laspeyres
ou de Paasche pour tudier les variations survenues depuis la priode de base.
C. I
ndices publis par lINSEE
Les principaux indices publis par lINSEE
1
sont les suivants :
indices des prix : prix la consommation, prix de gros ;
indices du commerce extrieur ;
indices de la production industrielle ;
indices boursiers
Les indices des prix la consommation des mnages (IPC) calculs par
lINSEE sont des indices-chanes de Laspeyres. LINSEE publie chaque
mois plusieurs indices des prix, base 1998. Lindice des mnages urbains
dont le chef est ouvrier ou employ (mtropole et DOM) sert, dans sa version
hors tabac , lindexation du SMIC. Les autres indices concernant
lensemble des mnages ont un usage
conomique
dans leur version y com-
pris tabac et un usage
indexation
dans leur version hors tabac .
Lindice des prix la consommation harmonis (IPCH) sert aux compa-
raisons internationales.
IV. T raitement statistique des indices
Pour reprsenter certains phnomnes, on peut tre amen graduer les axes
selon des chelles particulires. Le papier semi-logarithmique est particuli-
rement adapt certains types de sries chronologiques, et les sries cono-
miques sont souvent des sries dindices.
1. www.insee.fr/fr/themes
P047-066-9782100549412.fm Page 58 Jeudi, 18. novembre 2010 12:03 12
INDICES STATISTIQUES
59
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
A.
chelle logarithmique
Le papier semi-logarithmique comporte un axe des abscisses chelle arith-
mtique et un axe des ordonnes chelle logarithmique. Sur laxe des abs-
cisses, on peut choisir lorigine et une unit de longueur quelconque. Mais
pour laxe des ordonnes, on utilise une chelle logarithmique ; la place des
nombres est fixe par leur
logarithme dcimal
(
cf.
figure 2.2) :
Sur une chelle logarithmique, la distance sparant
deux multiples succes-
sifs de dix
est toujours la mme puisque :
log 10
k
log 10
k
1
= log 10 log 10
k
+ 1
log 10
k
= log 10
Lintervalle entre deux puissances successives de 10 sappelle un
module
et lintrieur dun module, la place des nombres est donc fixe par leur
logarithme dcimal
(
cf.
figures 2.2 et 2.4).
Nombre 1 2 3 4 5 6 7 8 9 10
log 0 0,301 0,477 0,602 0,699 0,778 0,845 0,903 0,954 1
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1
2
3
4
5
6
8
7
10
9
10
20
30
40
50
60
80
70
100
90
100
200
300
400
500
600
800
700
1000
900
chelle
arithmtique
chelle
logarithmique
x 10 x 100
Figure 2.2 Construction dune chelle logarithmique
P047-066-9782100549412.fm Page 59 Jeudi, 18. novembre 2010 12:03 12
60
) offrent directe-
ment la possibilit dutiliser les chelles logarithmiques.
B. Proprits dun graphique ordonne logarithmique
Une grandeur dont le taux daccroissement (ou de diminution) est constant
sur des laps de temps gaux a son volution reprsente sur du papier
ordonne logarithmique par une suite de points aligns (cf. figure 2.3).
En effet, si une grandeur x a un taux de variation annuel i constant, la
valeur x
0
de x la date initiale prend, aprs t annes, la valeur x
t
telle que :
x
t
= x
0
(1 + i)
t
log x
t
= log x
0
+ t log(1 + i)
Une reprsentation avec une ordonne logarithmique permet :
la dtermination graphique du rapport entre deux valeurs de la variable
pour en dduire le taux de variation entre les deux dates considres ; une
diffrence de logarithme reprsentant un rapport, celui-ci est gal la dif-
frence des ordonnes entre les deux valeurs de la variable ;
la dtermination graphique du taux moyen de variation i, la pente de
la droite joignant les deux points extrmes ( cf. figure 2.4a) tant gale
(1 + i) ;
la comparaison graphique entre les taux de variation de deux grandeurs
reprsentes sur le mme graphique ordonne logarithmique ; deux droi-
tes parallles indiquent des taux de variation gaux ;
la reprsentation des sries aux variations importantes puiquavec qua-
tre modules, on peut reprsenter une srie variant de 1 10
4
.
0 1
10
1
2
3
4
5
6
7
8
x
t
= (1 + 0,5)
t
log x
t
1 2 3 4 5 t t 0 1 2 3 4 5 0
Ordonne logarithmique Ordonne arithmtique
Figure 2.3 Grandeur taux de croissance annuel constant
P047-066-9782100549412.fm Page 60 Jeudi, 18. novembre 2010 12:03 12
INDICES STATISTIQUES
61
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
V. Bilan
Un indice nest ni parfait, ni rigoureux, ni parfaitement reprsentatif ; en fait,
il existe autant dindices que le statisticien veut en construire, et chacun a la
signification qui rsulte de son calcul mme. Parmi tous ces indices, lco-
nomiste choisira celui qui lui parat le mieux correspondre lusage quil
veut en faire.
Pour construire un indice synthtique, on est amen faire quatre choix :
deux choix dordre conomique :
choix des grandeurs entrant dans la composition de lindice,
choix de la priode de rfrence ;
deux choix dordre statistique :
choix de la moyenne utiliser pour le calcul de lindice partir des
grandeurs composantes,
choix de la pondration appliquer aux valeurs des grandeurs afin de
tenir compte de leur importance relative.
P047-066-9782100549412.fm Page 61 Jeudi, 18. novembre 2010 12:03 12
62
63
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Exercice 2.1
Une entreprise utilise pour ses fabrications trois types de matires premires qui sont
notes respectivement A, B et C.
En 2000 et 2004, les prix observs et les quantits achetes par cette entreprise ont
t les suivants :
1. Calculez les indices lmentaires rendant compte de lvolution des prix de cha-
cune des matires premires entre 2000 et 2004.
2. Calculez la moyenne arithmtique des indices lmentaires prcdents pondre
par la part des dpenses engages par lentreprise pour chacune de ces matires
premires en 2000. De quel indice sagit-il ?
3. Effectuez le mme calcul pour rendre compte de lvolution des quantits entre
2000 et 2004.
4. Calculez lindice mesurant lvolution globale des dpenses de matires premires
entre 2000 et 2004.
5. Dterminez, en utilisant les rsultats des questions prcdentes, les taux de varia-
tion (exprims en pourcentage) des prix, des quantits et de la dpense totale.
Comment sexplique lvolution de la dpense totale ?
Exercice 2.2
Entre 1980 et 2000, les quantits de sel extraites dune mine ont t multiplies par
1,5 entre 1980 et 1985, sont passes de lindice 130 en 1985 lindice 168 en 1992
avant daugmenter de 6 % par an entre 1992 et 2000.
1. Quel est le taux annuel moyen de variation des quantits de sel extraites entre
1980 et 2000 ?
2. Au cours de la mme priode, le taux de variation annuel moyen du prix du sel a
t de 5 %. Quelle est la valeur de lindice du chiffre daffaire en 2000, base
1980 ?
Matires
premires
Prix par tonne
en euros 2000
Quantits achetes
en tonnes
en 2000
Prix par tonne
en euros 2004
Quantits achetes
en tonnes
en 2004
A
B
C
800
500
600
10
4
5
900
700
600
6
4
8
Exercices (corrigs page 297)
P047-066-9782100549412.fm Page 63 Jeudi, 18. novembre 2010 12:03 12
64
65
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
1. Donnez lindice de valeur de la production des Produits vgtaux en 2008,
base 100 en 2007. Mme question pour Olagineux, protagineux et pour
Vins .
2. Calculez lvolution 2008/2007 (en pourcentage) des prix la production des
Produits vgtaux . Mme question pour Olagineux, protagineux .
3. Calculez lvolution 2008/2007 (en pourcentage) du volume de la production des
Vins .
4. Commentez les rsultats obtenus.
Exercice 2.5
Considrons la consommation mdicale totale en France (en milliards deuros cou-
rants) de 1970 2000 ( Source : Tableaux de l'conomie franaise , INSEE).
1. Calculez la variation relative (en %) de la consommation mdicale entre 1970
et 2000.
2. Calculez la srie des indices de la consommation mdicale base 1970.
3. Reprsentez la srie des indices sur un graphique ordonne logarithmique, et
calculez le taux annuel de croissance de cet indice pendant la priode 1970-1982.
4. Reprsentez la srie des indices sur un graphique ordonne arithmtique, et cal-
culez laugmentation annuelle moyenne entre 1982 et 2000.
5. tude de lvolution de lindice en volume :
sachant que lindice des prix I
82/70
est gal 318,7, calculez la variation de
lindice en volume entre 1970 et 1982, et en dduire le taux annuel moyen de
variation de cet indice entre 1970 et 1982 ;
Anne CM
(milliards
d'euros)
Anne CM
(milliards
d'euros)
Anne CM
(milliards
d'euros)
1970 6,494
1971 7,516 1981 35,399 1991 87,430
1972 8,568 1982 41,146 1992 93,482
1973 9,833 1983 46,848 1993 98,665
1974 11,586 1984 52,000 1994 101,866
1975 14,452 1985 57,046 1995 106,257
1976 16,815 1986 61,711 1996 109,245
1977 18,812 1987 64,776 1997 111,059
1978 22,547 1988 70,447 1998 112,731
1979 26,084 1989 76,377 1999 117,093
1980 30,215 1990 81,911 2000 123,545
P047-066-9782100549412.fm Page 65 Jeudi, 18. novembre 2010 12:03 12
66
67
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
3.
D
istributions
statistiques
deux caractres
orsque les observations portent simultanment sur deux caract-
res, et lorsquelles sont trop nombreuses pour quon les cite une
une, on les prsente sous la forme dun
tableau double
entre
. On dfinit alors la distribution conjointe, les distributions margi-
nales et les distributions conditionnelles. Ltude de la distribution de
deux variables se pousuit par celle de leur
liaison
.
Ltude de la liaison entre les variables observes, appele commun-
ment ltude des corrlations, dpend de leur nature. On envisagera les
trois cas suivants :
deux variables quantitatives, une variable quantitative
et une variable qualitative, deux variables qualitatives
. Lorsque le
domaine de variation dune variable quantitative a t dcoup en clas-
ses et que les observations sont prsentes dans un tableau double
entre, alors cette variable peut tre traite comme une variable quali-
tative et dans ce cas, on a plusieurs mthodes pour ltude de la liaison.
I. D
istributions statistiques deux variables
A. D
istribution conjointe
Dsignons par
X
et
Y
les deux variables qui peuvent tre qualitatives ou quan-
titatives, et qui peuvent ne pas tre de mme nature. Les
k
modalits de
X
sont dsignes par
,
,
,
, ; les
l
modalits de
Y
sont dsignes par
,
,
,
, . La
i
e
modalit dune variable dsigne le centre de la
i
e
classe
dans le cas dune variable quantitative continue.
L
x
1
x
i
x
k
y
1
y
j
y
l
P067-102-9782100549412.fm Page 67 Mercredi, 24. novembre 2010 9:53 09
68
INTRODUCTION LA MTHODE STATISTIQUE
La rpartition des
n
observations, ou
distribution conjointe
, suivant les
modalits de
X
et
Y
se prsente sous forme dun tableau double entre,
appele
tableau de contingence
(
cf.
tableaux 3.1 et 3.2).
Leffectif
n
ij
dsigne le nombre de fois o la modalit
x
i
de la variable
X
et la modalit
y
j
de la variable
Y
ont t observes simultanment.
Leffectif
n
i
est le
nombre total dobservations de la modalit x
i
de X,
quelle que soit la modalit de Y
:
De mme, leffectif
n
j
est le
nombre total dobservations de la modalit y
j
de Y, quelle que soit la modalit de X
:
Tableau 3.1 Tableau de contingence : distribution conjointe de deux variables X et Y
Modalit de
Y
Modalit de
X
Total
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Total
n
Tableau 3.2 Exemple de tableau de contingence : distribution des notes de 100 tudiants
une preuve dun concours selon leur filire dorigine
Classe de notes
Y
Filire dorigine
X
[0 ; 6[
3
[6 ; 10[
8
[10 ; 14[
12
[14 ; 20]
17
Total
Filire
A
Filire
B
Filire
C
Filire
D
26
12
1
10
6
9
4
8
4
3
5
3
1
1
6
1
37
25
16
22
Total 49 27 15 9 100
y
1
y
j
y
l
x
1
x
i
x
k
n
11
n
i1
n
k1
n
1j
n
ij
n
kj
n
1l
n
il
n
kl
n
1
n
i
n
k
n
1
n
j
n
l
n
i
n
ij
j 1 =
l
=
n
j
n
ij
i 1 =
k
=
P067-102-9782100549412.fm Page 68 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES
69
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
On a videmment :
La distribution conjointe peut aussi tre dfinie par les frquences :
B. Distributions marginales
Les k couples (x
i
, n
i
) forment la distribution marginale de la variable X.
Les l couples (y
j
, n
j
) forment la distribution marginale de la variable Y.
Les distributions marginales peuvent aussi tre donnes sous forme de fr-
quences :
et
Disposant dune distribution conjointe, on peut dduire les distributions
marginales qui permettent dtudier sparment chaque variable en reprsen-
tant graphiquement sa distribution et sil sagit dune variable quantitative, en
calculant ses caractristiques de tendance centrale, de dispersion, de forme
C. Distributions conditionnelles
La distribution de la variable Y, la variable X tant gale x
i
, est appele
distribution conditionnelle de Y pour :
Cette distribution des n
i
observations, satisfaisant la condition ,
est prsente sous la forme de frquences conditionnelles :
avec :
Y/X = x
i
y
1
y
j
y
l
Total
Effectif
n
i1
n
ij
n
il
n
i
Y/X = x
i
y
1
y
j
y
l
Total
Frquence
f
1/i
f
j/i
f
l/i
1
n
i
i 1 =
k
j
j 1 =
l
n = =
f
ij
n
ij
n
----- =
f
i
n
i
n
------ = f
j
n
j
n
------ =
X x
i
=
X x
i
=
f
j/i
n
ij
n
i
------ = f
j/i
j 1 =
l
1 =
P067-102-9782100549412.fm Page 69 Mercredi, 24. novembre 2010 9:53 09
70
= s
i
2
f
j/i
y
j
y
i
( )
2
(
j 1 =
l
=
y
y
i
y f
i
y
i
i 1 =
k
=
f
i/ j
n
ij
n
j
------ = f
i/ j
i 1 =
k
1 =
x
j
x
j
f
i/ j
x
i
i 1 =
k
= s
j
2
f
i/j
x
i
x
j
( )
2
i 1 =
k
=
x
x
j
x f
j
x
j
j 1 =
l
=
P067-102-9782100549412.fm Page 70 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES
71
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
sommes en ligne sont gales 100 % ; ce tableau est appel tableau des pro-
fils en ligne (cf. tableau 3.3).
Bien videmment, on dfinit dune faon symtrique le tableau des profils
en colonne qui est le tableau des distributions conditionnelles de X avec des
sommes en colonne gales 1 ( cf. tableau 3.4).
D. Dpendance et indpendance statistique
Si tous les profils en colonne du tableau 3.4 sont identiques, cela signifie que
la distribution de la variable X ne dpend pas de la variable Y, on dit alors
que les variables X et Y sont statistiquement indpendantes dans lensemble
des n individus considrs, et dans ce cas toutes les distributions condition-
nelles de X sont identiques la distribution marginale de X.
Tableau 3.3 Tableau des profils en ligne correspondant au tableau de contingence 3.2
Classe de notes Y
Filire dorigine X
[0 ; 6[
3
[6 ; 10[
8
[10 ; 14[
12
[14 ; 20]
17 Total
Filire A
Filire B
Filire C
Filire D
70,3
48,0
6,3
45,5
16,2
36,0
25,0
36,4
10,8
12,0
31,2
13,6
2,7
4,0
37,5
4,5
100
100
100
100
Distribution marginale de Y 49,0 27,0 15,0 9,0 100
Tableau 3.4 Tableau des profils en colonne
Modalit de Y
Modalit de X
Distribution
marginale
de X
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Total 1 1 1 1
y
1
y
j
y
l
x
1
x
i
x
k
f
1/1
f
i/1
f
k/1
f
1/j
f
i/j
f
k/j
f
1/l
f
i/l
f
k/l
f
1
f
i
f
k
P067-102-9782100549412.fm Page 71 Mercredi, 24. novembre 2010 9:53 09
72
f
ij
f
j
------- f
i
f
ij
f
i
f
j
n
ij
n
i
n
j
n
-------------- = = = =
f
j/i
f
j
=
y
y
i
x
i
x 0
M
i
P067-102-9782100549412.fm Page 72 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES
73
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
A. Caractristiques dun couple
de deux variables quantitatives
1) Moyenne dune somme de deux variables statistiques
On montre sans difficult le rsultat suivant :
2) Covariance entre deux variables statistiques
Cas de donnes individuelles :
cov(X,Y)
Cas de donnes groupes dans un tableau de contingence (covariance
pondre) :
cov(X,Y) =
Les proprits 1 et 2 sont videntes. Montrons la proprit 3 dans le cas
de donnes individuelles, la dmonstration pour des donnes groupes dans
un tableau de contingence se faisant de la mme faon en utilisant les formu-
les pondres par les frquences :
Proprits de la covariance
1. cov(X,Y) = cov(Y, X)
2. cov(X, X) = var(X)
3. var(X + Y) = var(X) + var(Y) + 2 cov(X, Y)
4. a, b, c, x
0
, y
0
: cov(aX + x
0
, bY + y
0
) = ab cov(X,Y)
var(aX + bY + c) = a
2
var(X) + b
2
var(Y) + 2ab cov(X,Y)
5.
x y + x y + =
a, b, c ax by c + + a x by c + + =
1
n
---
x
i
x ( ) y
i
y ( )
i 1 =
n
1
n
---
x
i
y
i
x y
i 1 =
n
= =
f
ij
j 1 =
l
i 1 =
k
x
i
x ( ) y
j
y ( )
f
ij
j 1 =
l
i 1 =
k
x
i
y
i
x y
=
1
n
---
x
i
y
i
x y + + ( )
2
i 1 =
n
= =
1
n
---
x
i
x ( )
2
i 1 =
n
y
i
y ( )
2
i 1 =
n
2
x
i
x ( ) y
i
y ( )
i 1 =
n
+ +
( ,
, (
j \
=
var X ( ) var Y ( ) 2cov X Y , ( ) + + =
P067-102-9782100549412.fm Page 73 Mercredi, 24. novembre 2010 9:53 09
74
------------------------ =
r aX x
0
, bY y
0
+ + ( )
cov aX x
0
, bY y
0
+ + ( )
s
aX x
0
+
s
bY y
0
+
--------------------------------------------------------
abcov X Y , ( )
ab s
X
s
Y
------------------------------- = =
"" r X Y , ( ) +
r X Y , ( )
=
si a et b de mme signe
si a et b de signe oppos
x
i
y
i
, ( )
M
i
H
i
2
i 1 =
n
75
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Les distances sont comptes paralllement lun des axes des coordon-
nes ; nous avons choisi ici laxe des ordonnes ( cf. figure 3.2).
Il sagit de dterminer la droite dquation telle que :
soit minimum
Nos inconnues sont a et b.
Commenons par chercher le minimum de F(a, b) relativement b lorsque
a est fix. On peut crire F(a, b) comme un trinme du second degr en b :
Quand a est fix, le dernier membre constitue une fonction de b qui atteint
son minimum pour tel que , soit :
1
re
consquence : la droite des moindres carrs passe par le point de
coordonnes quon appelle parfois le centre de gravit ou point
moyen du nuage.
y
y
i
x
i
x
ax
i
+ b
y = ax + b
M
2
H
2
M
i
H
i
H
1
M
1
Figure 3.2 Interprtation gomtrique de la droite des moindres carrs
y ax b + =
F a b , ( )
y
i
ax
i
b + ( )
( ,
j \
2
i 1 =
n
=
F a b , ( )
y
i
ax
i
( ) b
( ,
j \
2
i 1 =
n
y
i
ax
i
( )
2
2b y
i
ax
i
( ) b
2
+
( ,
j \
i 1 =
n
= =
y
i
ax
i
( )
2
i 1 =
n
2b y
i
ax
i
( ) nb
2
+
i 1 =
n
=
b b
=
F
b
------- a b
, ( ) 0 =
F
b
------- a b
, ( ) 2
y
i
ax
i
( ) nb
i 1 =
n
( ,
, (
j \
0 = =
b
1
n
---
y
i
ax
i
( )
i 1 =
n
y ax = =
x y , ( )
P067-102-9782100549412.fm Page 75 Mercredi, 24. novembre 2010 9:53 09
76
, ( )
F a b
, ( ) y
i
y ( ) a x
i
x ( )
( ,
j \
2
i 1 =
n
=
y
i
y ( )
2
i 1 =
n
2a y
i
y ( ) x
i
x ( ) a
2
x
i
x ( )
2
i 1 =
n
+
i 1 =
n
=
F a b
, ( ) n a
2
var X ( ) 2a cov X Y , ( ) var Y ( ) +
( ,
j \
=
a
2
a a
=
a
cov X Y , ( )
var X ( )
------------------------ =
a
, ( ) b
y a
x =
y a
x b + =
y y
cov X Y , ( )
var X ( )
------------------------ x x ( ) =
y
i
a
x
i
b
+ = y
i
P067-102-9782100549412.fm Page 76 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES
77
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
sera plus faible
En remplaant a par son estimation , on obtient :
et comme :
on a :
ce qui implique :
et
La quantit , appele Somme des Carrs Rsiduelle (SC
rs
),
est dautant plus faible que r
2
est proche de 1.
Elle est nulle pour r = + 1 et dans ce cas, on a une liaison linaire entre X et
Y, car si { pour tout i}, alors les n points (x
i
, y
i
) sont aligns.
La quantit tant appele Somme des Carrs Totale (SC
tot
)
de Y, il sensuit :
la quantit est gale la proportion de variation de Y non expli-
que par la droite des moindres carrs (cf. figures 3.3 et 3.4) .
M
i
H
i
2
i 1 =
n
F a b
, ( )
y
i
y
i
( )
2
i 1 =
n
= =
a
F a b
, ( )
y
i
y
i
( )
2
i 1 =
n
= n
cov X Y , ( ) ( )
2
var X ( )
------------------------------- 2
cov X Y , ( ) ( )
2
var X ( )
------------------------------- var Y ( ) +
( ,
, (
j \
=
n var Y ( )
cov X Y , ( ) ( )
2
var X ( )
-------------------------------
( ,
, (
j \
=
r
2
cov X Y , ( ) ( )
2
var X ( ) var Y ( )
-------------------------------------- =
y
i
y
i
( )
2
i 1 =
n
n var Y ( ) 1 r
2
( )
y
i
y
i
( )
2
i 1 =
n
y
i
y ( )
2
1 r
2
( )
i 1 =
n
= =
1 r
2
0 r +1 cov X Y , ( ) var X ( ) var Y ( )
y
i
y
i
( )
2
i 1 =
n
i
y
i
=
y
i
y ( )
2
i 1 =
n
1 r
2
y
i
y
i
( )
2
i 1 =
n
y
i
y ( )
2
i 1 =
n
------------------------------
SC
rs
SC
tot
------------ = =
1 r
2
P067-102-9782100549412.fm Page 77 Mercredi, 24. novembre 2010 9:53 09
78
SC
tot
=
y
i
x
i
y
i
y
i
y
i
( )
2
i 1 =
n
SC
rs
=
y a
x b
+ =
y
i
a
x
i
b
( )
i 1 =
n
0 =
y
i
y
i
( )
i 1 =
n
0 =
y
i
y y =
x y , (
y
i
y ( )
2
i 1 =
n
y
i
y
i
y
i
y + ( )
2
i 1 =
n
=
y
i
y
i
( )
2
i 1 =
n
i
y ( )
2
i 1 =
n
2
y
i
y
i
( ) y
i
y ( )
i 1 =
n
+ + =
P067-102-9782100549412.fm Page 78 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES
79
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Montrons que le 3
e
terme du dernier membre est nul. On peut crire :
et
ce qui donne une nouvelle expression de ce 3
e
terme :
puisque
La quantit tant appele Somme des Carrs Explique (SC
expl
),
on obtient l quation de la dcomposition de la variation totale de Y :
et une autre interprtation de r
2
, complmentaire celle de :
le carr r
2
du coefficient de corrlation linaire est gal la proportion de
la variation de Y explique par la droite des moindres carrs
Conclusion sur linterprtation de la valeur du coefficient de corrlation
linaire :
les n points (x
i
, y
i
) sont aligns
pas de liaison linaire, mais possibilit dune liaison
dun autre type
y
i
y a
x
i
x ( ) = y
i
y
i
y
i
y y
i
y ( ) y
i
y a
x
i
x ( ) = =
y
i
y
i
( ) y
i
y ( )
i 1 =
n
a
y
i
y a
x
i
x ( )
( ,
j \
x
i
x ( )
i 1 =
n
=
a
y
i
y ( ) x
i
x ( ) a
x
i
x ( )
2
i 1 =
n
i 1 =
n
( ,
, (
j \
=
y
i
y
i
( ) y
i
y ( )
i 1 =
n
n a
cov X Y , ( ) a
var X ( )
( ,
j \
0 = =
a
cov X Y , ( )
var X ( )
------------------------ =
y
i
y ( )
2
i 1 =
n
y
i
y ( )
2
i 1 =
n
i
y ( )
2
i 1 =
n
y
i
y
i
( )
2
i 1 =
n
+ = SC
tot
SC
expl
SC
rs
+ =
1 r
2
( )
r
2
y
i
y ( )
2
i 1 =
n
y
i
y ( )
2
i 1 =
n
------------------------------
SC
expl
SC
tot
-------------- = =
r 1 = y
i
y
i
a
x
i
b
i + = =
r 1 =
r 0 =
P067-102-9782100549412.fm Page 79 Mercredi, 24. novembre 2010 9:53 09
80
Dans toute ltude prcdente, on a fait jouer des rles non symtriques X
et Y. On a procd comme si la variable X pouvait tre mesure, et quon
cherchait prvoir la variable Y.
Inversement, la droite des moindres carrs pour laquelle les distances sont
comptes paralllement laxe des abscisses ( cf. figure 3.5) a pour quation :
Mais, dans certains cas, comme celui o la variable X dsigne le temps,
seule la droite a un sens.
Le coefficient r tant symtrique par rapport X et Y, la Somme des
Carrs Rsiduelle associe la droite est gale :
X 2 1 0 1 2
Y 4 1 0 1 4
X et Y indpendantes r(X, Y) = 0
r X Y , ( ) 0 =
n 5 = x 0 = y 2 =
x
i
y
i
i 1 =
n
0 = r X Y , ( ) 0 = Y X
2
=
x x
cov X Y , ( )
var Y ( )
------------------------ y y ( ) = y y
var Y ( )
cov X Y , ( )
------------------------ x x ( ) =
M
i
G
i
2
i 1 =
n
x
i
x
i
( )
2
i 1 =
n
n var X ( ) 1 r
2
( ) = =
y
y
i
x
i
x x
i
M
i
G
i
Figure 3.5 Interprtation gomtrique de la droite des moindres carrs
P067-102-9782100549412.fm Page 80 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES
81
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
D. Comparaison des deux droites des moindres carrs
Les deux droites et sont gnralement distinctes. Elles se coupent au
point moyen du nuage, et leurs coefficients directeurs sont de mme signe et
du signe de r :
et
De plus, la valeur absolue du coefficient de corrlation r tant comprise
entre 0 et 1, la valeur absolue de la pente de la droite est toujours inf-
rieure ou gale celle de la droite (cf. figure 3.6).
Ces deux droites seront confondues si et seulement si les variables X et Y
sont lies par une relation linaire :
r = 1/r r = 1
cov X Y , ( )
var X ( )
------------------------ r
var Y ( )
var X ( )
---------------- =
var Y ( )
cov X Y , ( )
------------------------
1
r
---
var Y ( )
var X ( )
---------------- =
G
'
G
'
G
'
y
y
x x
r = -1
y
y
x x
-1 < r < 0
y
y
x x
r = +1
G
'
y
y
x x
0 < r < +1
G
'
y
x
r = 0
y
x
Figure 3.6 Positions respectives des droites des moindres carrs selon les valeurs de r
P067-102-9782100549412.fm Page 81 Mercredi, 24. novembre 2010 9:53 09
82
83
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Le coefficient de corrlation linaire entre les deux composants minraux
est gal 0,90. Cette valeur assez proche de 1 peut conduire considrer que
la droite des moindres carrs ( cf. figure 3.8) permet dvaluer approximati-
vement la teneur Y en sodium en fonction de la teneur X en fluorures :
puisque et
Mais la reprsentation graphique du nuage des 21 points ( cf. figure 3.8)
montre deux points caractriss par une minralit particulirement leve :
Vichy-Clestins et Saint-Yorre .
La reprsentation des botes de distribution des deux variables Fluorures
et Sodium (cf. figure 3.9) confirme que ces deux eaux minrales ont respec-
tivement des valeurs loigne et extrme pour les deux composants
minraux (chapitre 1, IV).
Tableau 3.5 Donnes extraites du journal Que Choisir ?, n 422 bis, 2005
Eau minrale Fluorures Sodium
Arcens
Arvie
Badoit
Beckerich
Chteauneuf
Eau de Perrier
Faustine
La Salvetat
Perrier
Puits St-Georges
Pyrnes
Quzac
San Pellegrino
St-Diry
St-Jean
St-Pierre
St-Yorre
Vernet
Vernire
Vichy-Clestins
Wattwiller
1,3
0,9
1
0,6
3
0,05
2
0,25
0,05
0,5
0,05
2,1
0,6
0,3
1,1
1,7
9
1,3
0,05
5
1,6
439
650
150
34
651
11,5
230
7
11,5
434
31
255
35
385
228
383
1 708
120
154
1 172
3
Moyenne 1,55 338
cart-type 2,03 417
Y 185X 51 + r
s
Y
s
X
----- 185 y 185x 51
P067-102-9782100549412.fm Page 83 Mercredi, 24. novembre 2010 9:53 09
84
85
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
En supprimant ces deux points et en ralisant lajustement sur les
19 autres points, on obtient :
et
Le coefficient r est pass de 0,9 0,5, et il faut aussi remarquer que les
coefficients de la droite des moindres carrs sont passs respectivement de
185 129 et de 51 96.87
Quel crdit apporter un ajustement pour lequel deux points ont une telle
influence ? On est donc oblig dabandonner lide dune relation linaire
entre les deux composants minraux.
Cet exemple nous montre que le calcul du coefficient de corrlation
linaire doit toujours tre complt par un examen graphique.
Lanalyse exploratoire des donnes propose dautres mthodes et dautres
coefficients pour lajustement linaire. Voici un exemple de coefficient pro-
pos pour la mesure de la qualit de lajustement et pouvant tre considr
comme un quivalent du carr du coefficient de corrlation linaire qui,
rappelons-le, peut tre ainsi dfini :
Le deuxime terme de cette galit peut tre interprt comme le rapport
de la variance des carts , puisque ceux-ci sont de moyenne nulle,
la variance des y
i
. Lanalyse exploratoire des donnes propose de mesurer
les dispersions de ces quantits par leur tendue interquartile , do le
coefficient :
Si les points du nuage sont aligns, ce coefficient est gal 1, et plus la
dispersion des carts la droite sera faible (cest le cas lorsque lajustement
linaire du nuage est adapt), plus il sera proche de 1. Pour lajustement des
donnes Eaux minrales gazeuses ralis par la mthode des moindres
carrs, ce coefficient est gal : 1 221/400 0,45
Au cas o lexamen graphique naurait pas t fait, cette valeur trs dif-
frente de 1 doit amener remettre en cause lajustement linaire.
Tous ces rsultats montrent quil ne faut jamais conclure sur la dpen-
dance entre deux variables quantitatives au seul examen de la valeur du coef-
ficient de corrlation linaire.
r 0,50 a
129 = b
96 =
r
2
1
y
i
y
i
( )
2
i 1 =
n
y
i
y ( )
2
i 1 =
n
------------------------------ =
y
i
y
i
( )
1
EIQ y
i
y
i
( )
EIQ y
i
( )
------------------------------
P067-102-9782100549412.fm Page 85 Mercredi, 24. novembre 2010 9:53 09
86
87
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
A. Mesure de la liaison par le rapport de corrlation
1) Dfinition du rapport de corrlation
Pour les n
i
(i = 1, , k) observations de chaque modalit x
i
de la variable X,
on calcule la moyenne conditionnelle et la somme des carrs des carts
la moyenne ( cf. tableau 3.6). On supposera tous les effectifs n
i
(ou les fr-
quences f
i
= n
i
/n) non nuls, cette hypothse impliquant la suppression des
modalits pour lesquelles on ne dispose pas dobservations.
La moyenne tant la moyenne de Y pour X = x
i
, on a
(I.C), et pour notre exemple,
On dfinit la Somme des Carrs Intraclasse , la Somme des Carrs Inter-
classe et la Somme des Carrs Totale :
On montre que : SC
tot
= SC
intra
+ SC
inter
Le rapport de corrlation de Y en x est ainsi dfini :
2) Interprtation du rapport de corrlation
Ce rapport est toujours positif et infrieur ou gal 1. Il est gal 0 si la
somme des carrs interclasse est nulle, cest--dire si les moyennes condition-
nelles sont toutes gales , mais cette condition nest pas suffisante
lindpendance des variables X et Y.
Tableau 3.6 Caractristiques de Y conditionnellement X
pour les donnes des tableaux 2 et 3
Modalit de X
n
i
Filire A
Filire B
Filire C
Filire D
37
25
16
22
5,16
6,44
12,31
6,68
496,91
368,25
293,44
340,78
y
i
y
i
n
ij
y
ij
y
i
( )
2
j 1 =
n
y
i
y
f
i
y
i
i 1 =
k
=
y 6,96 =
SC
intra
n
ij
j 1 =
l
i 1 =
k
x
ij
y
i
( )
2
= SC
inter
n
i
i 1 =
k
y
i
y ( )
2
=
SC
tot
n
ij
j 1 =
l
i 1 =
k
y
ij
y ( )
2
=
Y/ X
2
Y/ X
2
SC
inter
SC
tot
-------------- =
y
i
y
P067-102-9782100549412.fm Page 87 Mercredi, 24. novembre 2010 9:53 09
88
Y/X
2
0 =
y
i
Y/ X
2
1 =
Y/ X
2
0,28 =
y
i
y
i
Y/ X
2
1 =
P067-102-9782100549412.fm Page 88 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES
89
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
La variable X tant quantitative, on peut aussi calculer le rapport de cor-
rlation de X en y. Les moyennes conditionnelles de X tant gales, la somme
des carrs interclasse est nulle et le rapport de corrlation est nul.
Il y a donc absence de corrlation entre la variable X et toute fonction de
Y. Cet exemple montre quon peut avoir la fois Y li fonctionnellement X
et absence de corrlation entre X et toute fonction de Y.
On remarquera que le rapport de corrlation de cet exemple est nul
quelles que soient les valeurs n
11
, n
22
, n
31
et x
1
, x
2
, x
3
telles que les moyennes
et soient gales, cest--dire si :
B. Comparaison du coefficient de corrlation linaire
et des rapports de corrlation
Si la variable X est une variable quantitative k modalits, on peut repr-
senter graphiquement les moyennes conditionnelles en fonction des moda-
lits de la variable X. On obtient k points quon peut joindre, dans lordre,
par des segments de droite. On appelle la ligne brise obtenue courbe de
rgression de Y en x (cf. figure 3.10).
Tableau 3.8 Valeurs particulires pour les effectifs du tableau 3.7
Y
X
y
1
y
2
1
4
6
20
0
30
0
50
0
y
1
y
2
y
1
4 4
y
i
x
j
Y/ X
2
Y/ X
2
x
1
x
2
n
11
x
1
n
31
x
3
+
n
11
n
31
+
------------------------------- x
2
=
y
i
x
1
y
1
x
i
x
k
y
i
y
k
Figure 3.10 Courbe de rgression de Y en x
P067-102-9782100549412.fm Page 89 Mercredi, 24. novembre 2010 9:53 09
90
X/Y
2
Y/ X
2
0 r
2
min
X/Y
2
;
Y/ X
2
( ) max
X/Y
2
;
Y/ X
2
( ) 1
Y/ X
2
0 =
X/Y
2
0 =
r
2
Y/ X
2
= y
i
r
2
Y/ X
2
= y
i
a bx
i
+ =
r
2
X/Y
2
=
f
ij
f
i
f
j
= n
ij
n
i
n
j
n
----------------- =
P067-102-9782100549412.fm Page 90 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES
91
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Dans le cas o les observations ne portent pas sur la population totale,
mais sur une partie de la population appele chantillon, on ne peut pas con-
clure lindpendance de X et Y par le seul examen des relations dindpen-
dance, leur non-vrification sur un chantillon pouvant tre due au fait que
les observations ne sont pas exhaustives ; autrement dit, il faut tenir compte
des fluctuations dchantillonnage.
La comparaison des effectifs thoriques (ou attendus ) sous lhypo-
thse dindpendance et des effectifs observs n
ij
donne une
ide de la dpendance entre X et Y. Mais pour tre plus prcis, il convient de
calculer lcart entre ces effectifs thoriques et observs.
Pour des raisons thoriques, la mesure usuellement adopte est celle du
2
(khi-deux) qui peut tre considre comme un coefficient dassociation
entre deux variables :
avec :
Le
2
est nul lorsque les effectifs thoriques et observs concident, et
plus les effectifs thoriques et observs diffrent, plus sa valeur
est leve.
Une autre mesure de la dpendance est le coefficient dassociation
2
(phi-deux) de Pearson gal . Ce coefficient ne dpend donc pas de la
taille n de la population :
Les valeurs de ces mesures d association entre deux variables peuvent
permettre de comparer plusieurs groupes dobservations sur un mme couple
de variables.
Reprenons les donnes du tableau 3.8 en considrant maintenant les varia-
bles X et Y comme des variables qualitatives et calculons les effectifs thori-
ques (ceux-ci sont crits entre parenthses dans le tableau 3.9) :
n
ij
*
n
i
n
j
n
----------------- =
( ,
, (
j \
2
n
ij
n
ij
*
( )
2
n
ij
*
------------------------
i j ,
n
f
ij
f
ij
*
( )
2
f
ij
*
-------------------------
i j ,
= = f
ij
f
i
f
j
n
ij
*
n
----- = =
2
n
-----
2
f
ij
f
ij
*
( )
2
f
ij
*
-------------------------
i j ,
=
P067-102-9782100549412.fm Page 91 Mercredi, 24. novembre 2010 9:53 09
92
2
n
ij
n
ij
*
( )
2
n
ij
*
------------------------
i j ,
100 = =
2
2
n
-----
f
ij
f
ij
*
( )
2
f
ij
*
-------------------------
i j ,
1 = = =
X/Y
2
0 =
Y/ X
2
1 =
P067-102-9782100549412.fm Page 92 Mercredi, 24. novembre 2010 9:53 09
DISTRIBUTIONS STATISTIQUES DEUX CARACTRES
93
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
O
n
n
o
u
b
l
i
e
r
a
p
a
s
l
e
s
d
i
f
f
r
e
n
t
s
m
o
d
e
s
d
t
u
d
e
s
d
e
l
a
l
i
a
i
s
o
n
d
e
d
e
u
x
v
a
r
i
a
b
l
e
s
s
e
l
o
n
l
e
u
r
n
a
t
u
r
e
N
a
t
u
r
e
d
e
s
v
a
r
i
a
b
l
e
s
e
t
p
r
s
e
n
t
a
t
i
o
n
d
e
s
d
o
n
n
e
s
t
u
d
e
d
e
l
a
l
i
a
i
s
o
n
e
n
t
r
e
d
e
u
x
v
a
r
i
a
b
l
e
s
X
e
t
Y
X
e
t
Y
q
u
a
n
t
i
t
a
t
i
v
e
s
:
n
c
o
u
p
l
e
s
(
x
i
,
y
i
)
,
o
u
t
a
b
l
e
a
u
d
e
c
o
n
t
i
n
g
e
n
c
e
C
a
l
c
u
l
d
u
c
o
e
f
f
i
c
i
e
n
t
d
e
c
o
r
r
l
a
t
i
o
n
l
i
n
a
i
r
e
:
a
v
e
c
:
+
1
C
a
l
c
u
l
e
t
r
e
p
r
s
e
n
t
a
t
i
o
n
g
r
a
p
h
i
q
u
e
d
e
s
d
e
u
x
d
r
o
i
t
e
s
d
e
s
m
o
i
n
d
r
e
s
c
a
r
r
s
:
E
l
l
e
s
s
e
c
o
u
p
e
n
t
a
u
p
o
i
n
t
m
o
y
e
n
Y
q
u
a
n
t
i
t
a
t
i
v
e
e
t
X
q
u
a
l
i
t
a
t
i
v
e
k
m
o
d
a
l
i
t
s
(
o
u
q
u
a
n
t
i
t
a
t
i
v
e
a
v
e
c
k
c
l
a
s
s
e
s
d
e
v
a
l
e
u
r
s
)
P
o
u
r
c
h
a
q
u
e
m
o
d
a
l
i
t
x
i
d
e
X
,
o
n
d
i
s
p
o
s
e
d
e
:
n
i
=
n
b
r
e
d
e
v
a
l
e
u
r
s
d
e
Y
a
s
s
o
c
i
e
s
{
X
=
x
i
}
m
o
y
e
n
n
e
c
o
n
d
i
t
i
o
n
n
e
l
l
e
p
o
u
r
{
X
=
x
i
}
C
a
l
c
u
l
d
u
r
a
p
p
o
r
t
d
e
c
o
r
r
l
a
t
i
o
n
d
e
Y
e
n
x
:
S
i
X
e
s
t
u
n
e
v
a
r
i
a
b
l
e
q
u
a
n
t
i
t
a
t
i
v
e
c
l
a
s
s
e
,
g
r
a
p
h
i
q
u
e
d
e
l
a
c
o
u
r
b
e
d
e
r
g
r
e
s
s
i
o
n
d
e
Y
e
n
x
q
u
i
j
o
i
n
t
l
e
s
p
o
i
n
t
s
(
x
i
,
)
X
e
t
Y
q
u
a
n
t
i
t
a
t
i
v
e
s
c
l
a
s
s
e
s
:
t
a
b
l
e
a
u
d
e
c
o
n
t
i
n
g
e
n
c
e
C
a
l
c
u
l
d
e
s
r
a
p
p
o
r
t
s
d
e
c
o
r
r
l
a
t
i
o
n
d
e
Y
e
n
x
e
t
d
e
X
e
n
y
:
e
t
G
r
a
p
h
i
q
u
e
s
d
e
l
a
c
o
u
r
b
e
d
e
r
g
r
e
s
s
i
o
n
d
e
Y
e
n
x
q
u
i
j
o
i
n
t
l
e
s
p
o
i
n
t
s
(
x
i
,
)
,
l
e
s
v
a
l
e
u
r
s
x
i
t
a
n
t
o
r
d
o
n
n
e
s
,
e
t
d
e
l
a
c
o
u
r
b
e
d
e
r
g
r
e
s
s
i
o
n
d
e
X
e
n
y
q
u
i
j
o
i
n
t
l
e
s
p
o
i
n
t
s
(
,
y
j
)
,
l
e
s
v
a
l
e
u
r
s
y
j
t
a
n
t
o
r
d
o
n
n
e
s
.
X
q
u
a
l
i
t
a
t
i
v
e
,
Y
q
u
a
l
i
t
a
t
i
v
e
:
t
a
b
l
e
a
u
d
e
c
o
n
t
i
n
g
e
n
c
e
C
a
l
c
u
l
d
u
k
h
i
-
d
e
u
x
:
r
c
o
v
X
Y
,
(
)
s
X
s
Y
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
=
y
y
r
s
Y
s
X
-
-
-
-
-
x
x
(
)
=
y
y
1r -
--
s
Y
s
X
-
-
-
-
-
x
x
(
)
=
x
y
,
(
)
y
i
Y
/
X
2
n
i
i
1
=
k
y
i
y
(
)
2
S
C
t
o
t
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
S
C
i
n
t
e
r
S
C
t
o
t
-
-
-
-
-
-
-
-
-
-
-
-
-
-
--
=
=
y
i
Y
/
X
2
X
/
Y
2
y
i
x
j
2
n
i
j
n
i
j
*
(
)
2
n
i
j
*
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
--
i
j
,
n
f
i
j
f
i
j *
(
)
2
f
i
j *
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
--
i
j
,
=
=
P067-102-9782100549412.fm Page 93 Mercredi, 24. novembre 2010 9:53 09
94
95
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
a) ce tableau est un tableau de contingence
b) la variable X a une moyenne gale 0,5
c) on peut mesurer la liaison entre X et Y par un rapport de corrlation
d) si les profils en colonne taient tous identiques, alors X et Y seraient indpendantes
6. Le tableau suivant donne la distribution de deux variables statistiques X et Y :
a) la moyenne conditionnelle est gale 1/3
b) les moyennes conditionnelles de X sobtiennent partir du tableau des profils en
colonnes
c) la moyenne est gale la somme des moyennes conditionnelles
d) les moyennes conditionnelles de Y sobtiennent partir du tableau des profils en
lignes
7. Le tableau suivant donne la distribution conjointe de deux variables
quantitatives X et Y :
a) si a = 20 et b = 5, alors le coefficient de corrlation linaire r est nul
b) si a = 0 et b = 0, alors r = 1
c) si a = 0 et b = 10, alors r = 1
d) si a = 10 et b = 10, alors r = 0
8. Pour dfinir un tableau de contingence deffectif total n k lignes et
l colonnes :
a) il suffit de connatre les effectifs marginaux
b) il suffit de connatre k (l 1) lments du tableau
c) il suffit de connatre k (l 1) lments du tableau et les sommes en lignes
d) il suffit de connatre ( k 1) (l 1) lments du tableau et ses marges
Y
X
0 3 4
0 20 20 0
1 10 40 10
Y
X
0 1
1 a 10
1 10 b
x
1
x x
1
P067-102-9782100549412.fm Page 95 Mercredi, 24. novembre 2010 9:53 09
96
97
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Exercice 3.1
Une tude mene par un groupe de compagnies dassurances auprs de 30 000 assu-
rs pour le risque vhicules moteur a permis de dterminer les proportions (en
pourcentage) dassurs correspondant la puissance fiscale , note X, du vhicule
assur et au kilomtrage parcouru au cours de la dernire anne, not Y. Les rsultats
sont reports dans le tableau suivant :
1. Prcisez la population tudie, les caractres tudis et leur nature.
2. Donnez la distribution du kilomtrage parcouru. Comment sappelle cette
distribution ? Calculez sa moyenne et son cart-type en supposant que tous les
assurs ont fait au moins 2 000 km et au plus 50 000 km. Dterminez la mdiane.
3. Donnez la distribution, en pourcentage, du kilomtrage parcouru par les posses-
seurs dune voiture dune puissance fiscale dau plus 6 CV. Quel est le type de
cette distribution ?
Calculez sa moyenne et son cart-type.
Exercice 3.2
Dans une entreprise, on tudie la rpartition de 100 salaries femmes ( cf. tableau 1)
et 140 salaris hommes ( cf. tableau 2) selon le salaire mensuel brut X exprim en
euros et lanciennet Y exprime en annes.
Y (milliers de km)
X (chevaux
fiscaux)
< 10 [10 ; 20[ [20 ; 30[ [30 ; 40[ 40
4
5 6
7 8
9 10
> 10
4,4
7,2
2,4
1,6
8,2
7,2
4,0
13,6
2,4
2,6
14,4
11,6
4,4
4,4
6,0
5,6
Tableau 1 Salaries femmes
Y
X
[0 ; 4[ [4 ; 8[ [8 ; 12[ [12 ; 20[ [20 ; 28]
[1 200 ; 1 800[ 12 10 10 8
[1 800 ; 2 200[ 8 14 5 4 4
[2 200 ; 3 000[ 6 5 6 3
[3 000 ; 4 200] 2 3
Exercices (corrigs page 300)
P067-102-9782100549412.fm Page 97 Mercredi, 24. novembre 2010 9:53 09
98
99
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
2. Peut-on considrer qu'il y a approximativement une liaison linaire entre les indi-
ces de volume du PIB et de la Consommation prive ? Calculez lquation de la
droite des moindres carrs expliquant lindice de la Consommation prive en fonc-
tion de lindice du PIB.
Reprsentez le nuage des 21 points avec la droite des moindres carrs.
Quelle est la part de variation de l'indice de la consommation prive explique par la
relation linaire ?
3. Calculez le coefficient de corrlation linaire entre les variations du PIB et de la
Consommation prive. Calculez lquation de la droite des moindres carrs expli-
quant la variation de la Consommation prive en fonction de la variation du PIB.
Reprsentez le nuage des 20 points avec la droite des moindres carrs.
4. Vous semble-t-il plus intressant d'analyser la liaison entre les variations du PIB
et celles de la Consommation prive qu'entre les indices du PIB et de la Consom-
mation prive ? Si oui, pourquoi ?
Exercice 3.4
Une entreprise a effectu un sondage auprs de sa clientle pour connatre son appr-
ciation sur le service livraison. Les rsultats ont t les suivants :
1. Calculez le pourcentage total de clients plutt satisfaits ou trs satisfaits.
2. Calculez le pourcentage de clients de plus de 2 ans danciennet parmi les clients
plutt satisfaits ou trs satisfaits.
3. Donnez le tableau des profils en ligne.
4. Donnez le tableau de contingence obtenu en regroupant :
dune part les clients pas du tout satisfaits et plutt pas satisfaits ;
et dautre part les clients plutt satisfaits et trs satisfaits.
5. Si les 2 caractres taient indpendants, combien aurait-on de clients de plus de
2 ans danciennet dans la catgorie plutt satisfait ou trs satisfait ?
Daprs examen de juin 2001, GEA 1
re
anne Paris IX-Dauphine.
Exercice 3.5
Lobservation des quantits offertes sur un march de raisin de table et des prix de
vente a donn les rsultats suivants :
Pas du
tout
satisfait
Plutt
pas
satisfait
Plutt
satisfait
Trs
satisfait
Clients de plus de 2 ans danciennet 10 50 245 195
Clients dau plus 2 ans danciennet 40 90 205 165
Quantit X la vente (tonnes) 100 120 84 78 87 80 110 95
Prix moyen Y par kg (euros) 1,60 1,40 1,95 2,10 1,75 2,25 1,50 1,80
P067-102-9782100549412.fm Page 99 Mercredi, 24. novembre 2010 9:53 09
100
101
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
9 933 F/uc/mois), quel pourcentage habite dans un quartier hupp ou dans un
quartier technique trs qualifi .
6. Calculez la distribution (en %) du niveau de vie en F/uc/mois des mnages appar-
tenant aux communes et quartiers techniques trs qualifis ou aux quartiers
hupps .
Exercice 3.7
Le tableau suivant donne la distribution de 200 tudiants selon leur note dexamen X
en conomie et leur note dexamen Y en Statistique.
1. Calculez les rapports de corrlation de Y en x, et de X en y.
2. Tracez la courbe de rgression de Y en x.
3. Peut-on calculer une autre mesure de la liaison des variables X et Y ?
Exercice 3.8
Reprenons les donnes relatives aux 21 eaux minrales gazeuses (cf. tableau 3.5). On
recode la variable X (fluorures) en trois classes et la variable Y (sodium) en quatre
classes, de la faon suivante :
1. crire un tableau qui a pour premire colonne les eaux minrales, pour deuxime
colonne la variable X
C
(variable X recode) gale au numro de classe dans le
recodage de X, et pour troisime colonne la variable Y
C
(variable Y recode) gale
au numro de classe dans le recodage de Y.
Y
X
[5 , 7[ [7 , 9[ [9 , 11[ [11 , 13[ [13 , 15[ [15 , 17[ [17 , 19]
[5 , 7[ 7 3 2
[7 , 9[ 2 12 12 2
[9 , 11[ 1 10 18 8 2
[11 , 13[ 7 15 21 10 1
[13 , 15[ 11 12 13 5
[15 , 17[ 1 3 10 7 1
[17 , 19] 1 1 2
C1
X
[0 ; 1[ C1
Y
[0 ; 100[
C2
X
[1 ; 2[ C2
Y
[100 ; 300[
C3
X
[2 ; 9] C3
Y
[300 ; 500[
C4
Y
[500 ; 2 000]
P067-102-9782100549412.fm Page 101 Mercredi, 24. novembre 2010 9:53 09
102
103
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
4. S
ries chronologiques
et prvision
ne srie chronologique ou chronique
est constitue par une
suite ordonne dobservations dune grandeur au cours du
temps. Ltude de ces sries intresse tous ceux qui dsirent
dcrire, expliquer, contrler, prvoir des phnomnes voluant au cours
du temps.
I.
lments constitutifs dune srie chronologique
Ltude dune srie chronologique {
x
t
,
t
= 1, ,
T
} consiste dissocier les
diffrents mouv ements qui la composent et les analyser . Cette dcom-
position est une construction de lesprit puisque les sries composantes sont
des concepts abstraits et ne peuv ent pas tre directement observes. Une
reprsentation graphique simpose en dbut danalyse de toute chronique an
de faire apparatre les lments fondamentaux.
Les intervalles entre deux observations successives sont supposs de
mme longueur. Dans la pratique, cette hypothse est rarement ralise.
Pour des sries mensuelles de productions, de ventes, le nombre de jours
ouvrables de chaque mois varie : le nombre de dimanches dans le mois, les
jours de certaines ftes mobiles ne sont pas les mmes chaque anne. Pour
que ces variations ne soient pas intgres dans la composante rsiduelle du
modle, on corrige les donnes en adoptant une correction proportionnelle
qui consiste pour des donnes mensuelles, par exemple, ramener chaque
mois un mme nombre thorique de jours.
A. L
a tendance long terme
La
tendance long terme
ou
trend,
note
f
t
, est le f acteur reprsentant
lvolution long terme de la grandeur, et traduit laspect gnral de la srie :
U
P103-130-9782100549412.fm Page 103 Mercredi, 24. novembre 2010 10:14 10
104
INTRODUCTION LA MTHODE STATISTIQUE
croissance de la consommation dlectricit, croissance du trac arien,
diminution de la population rurale, par exemple.
Pour de longues sries, un
mouvement cyclique
peut se superposer la
tendance. La composante cyclique lie la succession des phases du cycle
conomique (prosprit, dpression, reprise), a donn lieu jusquau milieu du
XX
e
sicle de multiples travaux, mais nest plus actuellement lobjet dun
intrt aussi marqu.
B. L
e mouvement saisonnier
Le
facteur saisonnier
, not
s
t
, se rpte intervalles de temps gaux avec une
forme peu prs constante. Il peut tre d au rythme des saisons ou des
facteurs humains. Sa priode est de 12 pour des sries mensuelles, de 4 pour
des sries trimestrielles
Si
p
dsigne la priode du mouvement saisonnier :
s
t
= s
t + p
=
s
t +
2
p
=
Le facteur saisonnier est donc totalement dtermin par
p
coefficients
saisonniers :
s
1
,
,
s
j
, ,
s
p
C. L
es irrgularits
Cette composante, appele aussi
mouvement rsiduel
et note
e
t
, regroupe
tout ce qui na pas t pris en compte par la tendance et le f acteur saisonnier.
Elle est la rsultante de uctuations irrgulires et imprvisibles dues des
facteurs perturbateurs non permanents ; ces uctuations sont supposes de
faible amplitude
et de
moyenne nulle
sur un petit nombre dobserv ations
conscutives.
D. L
es perturbations
Les
perturbations
sont des uctuations ponctuelles de forte amplitude. Elles
sont dues, par e xemple, une grv e, des conditions mtorologiques
exceptionnelles pour lagriculture, un krach nancier Il con vient de les
liminer
avant tout traitement de la srie
.
Les mthodes pour le f aire sont
simples ; pour
faire comme si
ces vnements na vaient pas eu lieu, les
instruments pri vilgis sont
linterpolation
et
la rgle de tr ois
. La
reprsentation de la srie chronologique des Voyageurs RATP de 1995
2002 (
cf.
gure 4.1) montre une baisse importante du nombre de v oyageurs
en dcembre 1995 due une longue grv e. Avant destimer les composantes
de cette chronique, il est ncessaire de corriger la v aleur 0,19 milliard de
voyageurs-km de ce mois de dcembre en la remplaant, par e xemple par la
P103-130-9782100549412.fm Page 104 Mercredi, 24. novembre 2010 10:14 10
SRIES CHRONOLOGIQUES ET PRVISION
105
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
moyenne des mois de dcembre 1994 et 1996 (resp. 1,06 et 0,95 milliards de
voyageurs-km), soit 1 milliard de voyageurs-km.
On traite gnralement des sries deux composantes : tendance et mou-
vement rsiduel, ou trois composantes : tendance, mouvement saisonnier
et mouvement rsiduel. Les observations dune chronique possdant une
composante saisonnire peuvent tre disposes dans un tableau selon les
deux dimensions du temps, annuelle et mensuelle (ou trimestrielle), comme
pour les tableaux 4.1, 4.2 et 4.4. Cette prsentation, introduite par C. Buys-
Ballot en 1847, est appele table de Buys-Ballot .
II. L
es modles de composition dune srie
chronologique
La dcomposition dune srie chronologique possdant un mouv ement
saisonnier peut seffectuer selon trois types de modles :
modle additif
x
t
=
f
t
+
s
t
+
e
t
t
= 1, ,
T
modle multiplicatif
x
t
=
f
t
(1+
s
t
) (1+
e
t
)
t
= 1, ,
T
modle mixte
x
t
=
f
t
(1+
s
t
) +
e
t
t
= 1, ,
T
On choisit un modle multiplicatif ou mixte si le mouvement saisonnier
prsente des amplitudes proportionnelles la tendance.
Notons quune transformation logarithmique du modle multiplicatif
ramne au modle additif :
puisque
Nous nenvisagerons de mthodes de dcomposition que pour les modles
additif et multiplicatif.
Pour le mouvement saisonnier de priode
p
, on fait lhypothse dune
compensation exacte sur une priode entre les variations saisonnires positi-
ves et les variations saisonnires ngatives, sinon, le partage entre le facteur
saisonnier et la tendance serait indtermin :
Quand on analyse une srie chronologique, le premier problme est le
suivant : la srie prsente-t-elle des variations saisonnires et si oui, quel est
le schma de composition le mieux adapt ?
x
t
( ) log f
t
1 s
t
+ ( ) 1 e
t
+ ( )
( ,
j \
log f
t
( ) log 1 s
t
+ ( ) log e
t
+ + =
1 e
t
+ ( ) log e
t
s
j
j=1
p
0 =
P103-130-9782100549412.fm Page 105 Mercredi, 24. novembre 2010 10:14 10
106
107
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Pour
choisir le modle de composition
, on peut relier par une courbe (ou
plutt par une ligne brise) les maxima distants dune priode
p
et faire de
mme avec les minima.
Si ces deux courbes sont peu prs parallles, alors le facteur saisonnier
a des amplitudes peu prs constantes, cest--dire quil affecte la ten-
dance indpendamment de son niveau, et le schma additif est adapt.
Figure 4.1 Reprsentation graphique de la chronique du tableau 4.1
Figure 4.2 Reprsentation graphique de la chronique du tableau 4.2
P103-130-9782100549412.fm Page 107 Mercredi, 24. novembre 2010 1:08 13
108
INTRODUCTION LA MTHODE STATISTIQUE
Cest le cas de la chronique des Voyageurs RATP de 1995 2004
(
cf
. figure 4.1).
Sinon, on reprsente la chronique sur un papier
ordonne logarithmique
(chapitre 2, IV.A). Si les deux courbes reliant les extrema sont peu prs
parallles, alors le facteur saisonnier a des amplitudes peu prs proportion-
nelles la tendance, cest--dire que les effets des variations saisonnires
sont
proportionnels
au niveau atteint par la tendance, et le schma multipli-
catif est adapt. Cest le cas de la chronique des Indices de valeur des
produits alimentaires
de 1995 2004 (
cf.
figures 4.2 et 4.3).
Le modle multiplicatif convient dans la plupart des cas puisque dune
part, leffet saisonnier est gnralement proportionnel la tendance, et que
dautre part, dans le cas dune chronique tendance faiblement croissante ou
faiblement dcroissante, les deux schmas sont quasiment quivalents. Cest la
raison pour laquelle on nvoque bien souvent que le modle multiplicatif.
III. A
nalyse de la tendance
A. A
justement de la tendance par une fonction analytique
Les logiciels spcialiss (SPSS), mais aussi les tableurs (Excel
),
proposent des fonctions analytiques pour ajuster la tendance, lajustement se
Figure 4.3 Reprsentation de la chronique du tableau 4.2
avec une ordonne logarithmique
P103-130-9782100549412.fm Page 108 Mercredi, 24. novembre 2010 1:09 13
SRIES CHRONOLOGIQUES ET PRVISION
109
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
faisant par la mthode des moindres carrs (mthode qui minimise les carts
quadratiques entre modle et observ ations). Citons quelques-uns de ces
modles :
modle linaire : y(t) = a + b t
modle quadratique : y(t) = a + b t + c t
2
modle exponentiel : y(t) = exp (a + b t), ce type de modle convient
des quantits voluant taux constant puisque y(t + 1) = exp(b) y(t)
( y (t + 1) = c y(t) o c est constant)
modle logarithmique : y(t) = a + b ln (t)
modle S (courbe sigmode ) : y(t) = exp(a + b/t), ce type dajuste-
ment convient la description du cycle de vie de certains produits.
Ces mthodes analytiques sont simples, mais reposent sur lhypothse
dune tendance voluant selon une fonction analytique dtermine, hypothse
quon ne peut pas frquemment faire, mme la suite dune transformation
de variable.
En labsence de rfrence un modle prcis pour la tendance, on prf-
rera utiliser une mthode non-paramtrique qui filtre la tendance en liminant
le facteur saisonnier tout en rduisant les irrgularits. Dans la suite, nous
appellerons filtre une sorte de bote noire rgularisant une chronique X en
la transformant en une chronique Y qui est une approximation de la compo-
sante tendancielle de la chronique X :
Nous tudierons deux des principaux filtres linaires qui sont la moyenne
mobile et le lissage exponentiel simple. Un filtre linaire est une application
linaire de lensemble des chroniques dans lui-mme transformant la chroni-
que X en une nouvelle chronique Y de la faon suivante :
avec et
Le choix du filtre linaire appropri certains objectifs se fait par linter-
mdiaire du choix de ses coefficients
k
B. Dfinition dune moyenne mobile
On appelle moyennes mobiles centres de longueur p (p < T) de la srie
{x
t
, t = 1, , T} les moyennes successives calcules en fonction de la parit
de p selon les formules qui suivent.
X Y
y
t
k
x
t k +
k K
= K
k
k K
1 =
filtre
P103-130-9782100549412.fm Page 109 Mercredi, 24. novembre 2010 10:14 10
110
=
M
p
t ( )
1
p
---
x
t m
2
----------
x
t k +
k m 1 + =
m 1
x
t m +
2
----------- + +
( ,
, (
j \
=
1
2p
------
1
p
---
1
2p
------
1
p
---
1
p
---
1
p
---
1
2p
------
p
p p
p
y
t p +
1
2m+1
--------------
x
t p k + +
k = m
+m
1
2m
+1
--------------
x
t k
+
k = m
+m
y
t
= = =
P103-130-9782100549412.fm Page 110 Mercredi, 24. novembre 2010 10:14 10
SRIES CHRONOLOGIQUES ET PRVISION
111
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
X
est gale la longueur de la moyenne mobile (
p
' =
p
), les moyennes mobi-
les forment alors une suite de termes constants gaux la moyenne des ter-
mes de la srie
X
sur une priode.
La moyenne mobile centre de longueur
p
rend
constantes
les sries
priodiques de priode
p
.
Deux chroniques ont la mme suite de moyennes mobiles centres de
longueur
p
si leur diffrence est une srie priodique de priode
p
dont la
somme des termes sur une priode est nulle.
Exemple
La chronique {
x
t
,
t
= 1, ,12} du tableau 4.3 est priodique de priode
p
= 4 ; les suites des moyennes mobiles de longueur 2, 3, 5 sont aussi
de priode 4, et la suite des moyennes mobiles de priode 4 est une suite
de termes constants gaux -1/4, moyenne des termes sur une priode.
Tableau 4.3 Calcul de moyennes mobiles
Soit
C
, la courbe joignant les points (
t , x
t
). Si la concavit de
C
est
tourne vers le haut, alors
y
t
est suprieur
x
t
pour tout
t
; dans le cas
contraire,
y
t
est infrieur
x
t
pour tout
t
. Si
C
est une droite,
y
t
est gal
x
t
pour tout
t
.
En conclusion, la moyenne mobile centre transforme une srie aligne
en elle-mme et plus gnralement, une srie monotone faible cour-
bure en une srie peu diffrente.
La moyenne mobile transforme des carts dus des irrgularits ind-
pendantes, de moyenne nulle sur un petit nombre de dates successives
(par hypothse) et de mme variance en carts de variance plus faible ;
on dit quelle a un effet de rabot , ou aussi quelle lisse la chro-
nique, en ce sens que la srie Y est moins disperse que la srie initiale
X. Mais les nouvelles irrgularits qui sont corrles entre elles, peuvent
faire apparatre des oscillations parasites qui ne figuraient pas dans la
srie initiale (effet de Slutsky-Yule).
P103-130-9782100549412.fm Page 111 Mercredi, 24. novembre 2010 10:14 10
112
113
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
IV. Correction des variations saisonnires
Si on tudie une chronique a vec variations saisonnires, lv aluation de la
tendance chaque date t par la mo yenne mobile centre de longueur
adquate, conduit pour chaque coefcient saisonnier plusieurs valeurs quil
faut rsumer. Pour bien comprendre toutes les oprations successi ves pour la
dtermination des coef cients saisonniers et de la srie corrige des
variations saisonnires, on se reportera lexemple trait au paragraphe 5.
A. Modle additif
Le modle est le suivant : x
t
= f
t
+ s
t
+ e
t
On approxime la tendance f
t
par la moyenne mobile centre y
t
.
Soient n le nombre dannes et p la priode du facteur saisonnier :
T = np observations np p = p (n 1) moyennes mobiles si
p est pair ( cf. tableau 4.5).
Les coefficients saisonniers tant priodiques de priode p, on dispose
pour chacun des p coefficients saisonniers de ( n 1) valeurs qui sont ( n 1)
diffrences {x
t
y
t
}. On rsume ces ( n 1) valeurs par leur moyenne arith-
mtique, ou leur mdiane, ou leur moyenne arithmtique aprs limination
de la valeur la plus faible et de la valeur la plus leve (le logiciel SPSS
utilise ce dernier rsum).
Si la somme des coefficients saisonniers nest pas nulle sur une priode,
on corrige les coefficients saisonniers obtenus de faon avoir une somme
nulle :
s
t
avec
On appelle srie corrige des variations saisonnires (srie CVS) la srie
des diffrences :
Pour toutes les dates pour lesquelles on dispose de la valeur de la
moyenne mobile, et donc dune valuation de la tendance, on peut calculer
lcart entre le modle et lobservation :
e
t
= x
t
y
t
= y
t
Si le modle est adapt, les valeurs absolues des carts ne doivent pas tre
leves, et leur somme voisine de zro.
s
t
*
s
t
s = s
1
p
---
s
t
t 1 =
p
=
x
t
*
x
t
s
t
*
=
s
t
*
x
t
*
P103-130-9782100549412.fm Page 113 Mercredi, 24. novembre 2010 10:14 10
114
=
x
t
*
x
t
1 s
t
*
+
-------------- =
y
t
1 s
t
*
+ ( )
e
t
x
t
y
t
1 s
t
*
+
( ,
j \
---------------------------- 1
x
t
*
y
t
----- 1 = =
x
t
y
t
1 s
t
*
+ ( ) y
t
1 s
t
*
+ ( ) e
t
=
P103-130-9782100549412.fm Page 114 Mercredi, 24. novembre 2010 10:14 10
SRIES CHRONOLOGIQUES ET PRVISION
115
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
C. Autres approches
On peut chercher amliorer lv aluation de la tendance en repassant un
ltre mo yenne mobile sur la srie CVS. On choisit gnralement une
longueur assez faible pour cette nouvelle suite de moyennes mobiles : 5 ou 7
dans le cas dune srie de priode 12, et 3 dans le cas dune srie de priode
4. Avec cette nouvelle valuation de la tendance, on dtermine de nouv eaux
coefcients saisonniers et une nouv elle srie CVS. Cette mthode itrati ve
pourrait videmment tre poursui vie, mais le gain devient peu prs nul au-
del de deux tapes.
On peut aussi remplacer la moyenne mobile centre par la mdiane mobile
centre qui est un filtre non linaire : au lieu de synthtiser une suite de valeurs
de la srie par une moyenne pondre, on les rsume par leur mdiane (par-
ticulirement aise dterminer la main avec p = 3). Les mdianes mobiles,
dveloppes par Tukey, sont robustes puisqutant fondes sur lutilisation
de statistiques dordre, elles liminent les valeurs singulires (chapitre 1,
III.B.4). Elles constituent des lisseurs aux proprits complmentaires des
moyennes mobiles. Certaines mthodes de dsaisonnalisation reposent sur
une association de ces deux types de lisseurs.
Disposant des coefficients saisonniers, on peut ajuster la srie CVS par
une fonction, faire une prvision pour la tendance en extrapolant cette fonc-
tion dajustement ou en utilisant une mthode de lissage exponentiel sur la
srie CVS ( VI). Mais, il ne faut pas oublier que ce mode de prvision ne
peut tre envisag que sur du court terme puisquil suppose une volution
future non perturbe par des changements sur lenvironnement.
V. Un exemple de dcomposition dune srie
chronologique
Pour dterminer la tendance et les coef cients saisonniers dune chronique,
on peut actuellement utiliser un logiciel ou un tableur.
Nanmoins, une bonne comprhension des mthodes demande de les
avoir appliques. On va montrer les tapes successives du traitement de la
chronique des ventes trimestrielles en France dessences aviation
(cf. tableau 4.4).
P103-130-9782100549412.fm Page 115 Mercredi, 24. novembre 2010 10:14 10
116
117
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
colonne C : moyennes mobiles de longueur 4 valuant la tendance
C4 =(B2/2 + SOMME(B3 : B5) + B6/2)/4, puis recopier vers le bas
colonne D : diffrence entre valeurs observes et tendance
D4 = B4 C4, puis recopier vers le bas
colonne E : E4 = (D4 + D8 + D12) / 3
E5 = (D5 + D9 + D13) / 3
E6 = (D6 + D10 + D14) / 3
E7 = (D7 + D11 + D15) / 3
premires valeurs des 4 coefficients saisonniers quon reporte sur
toute la colonne laide du collage spcial , option coller
valeurs , puis recopier vers le bas
colonne F : calcul des coefficients saisonniers normaliss : F2 = E2
puis recopier vers le bas
colonne G : calcul de la srie CVS
G2 = B2 F2, puis recopier vers le bas
colonne H : calcul de la srie des carts ( IV.A)
H4 = G4 C4, puis recopier vers le bas
Tableau 4.5 Dcomposition de la chronique du tableau 4.4 avec le schma additif
s
P103-130-9782100549412.fm Page 117 Mercredi, 24. novembre 2010 10:14 10
118
119
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
colonne F : calcul des coefficients saisonniers normaliss : F2 = E2 ,
puis recopier vers le bas
colonne G : calcul de la srie CVS
G2 = B2 / F2, puis recopier vers le bas
colonne H : calcul de la srie (1 + e
t
)
H4 = G4 / C4, puis recopier vers le bas
colonne I : calcul de la srie e
t
I4 = H4 1, puis recopier vers le bas
colonne J : calcul de la srie des carts ( IV.B)
J4 = C4 F4 I4, puis recopier vers le bas
Les sries CVS induites par les deux modles de composition sont presque
confondues (cf. figure 4.6).
La reprsentation des sries des carts (colonne H du tableau 4.5 et
colonne J du tableau 4.6) permet de comparer les ajustements entre les deux
modles et les observations ( cf. figure 4.7). On constate que les deux sries
des carts sont presque confondues.
s
Figure 4.6 Sries CVS
P103-130-9782100549412.fm Page 119 Mercredi, 24. novembre 2010 10:14 10
120
121
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
que le recours la moyenne arithmtique des observations conduirait sous-
valuer les valeurs futures. Il convient de donner aux observations les plus
rcentes un poids prpondrant.
La prvision faite par la mthode de lissage exponentiel simple la
date T pour lhorizon h, cest--dire pour la date T + h, est la suivante :
avec
Le paramtre est la constante de lissage. Si T est lev, la somme des
pondrations est peu diffrente de 1, en effet :
et la prvision apparat comme la moyenne pondre des valeurs
x
1
, , x
T
. Cette prvision ne dpendant pas de lhorizon h, nous la noterons
dsormais
Cette mthode de prvision repose sur lide que les observations influen-
cent dautant moins la prvision quelles sont loignes de la date T. En
outre, on suppose cette dcroissance exponentielle. Plus la constante de
lissage est proche de 0, plus linfluence des observations passes remontera
loin dans le temps et plus la prvision sera rigide , cest--dire peu sensi-
ble aux fluctuations conjoncturelles. Au contraire, plus la constante de
lissage est voisine de 1, plus la prvision sera souple , cest--dire prin-
cipalement influence par les observations rcentes.
1) Autres interprtations de la mthode
On voit aisment que :
(1)
La prvision apparat comme la moyenne pondre entre la prvision
faite la date T 1 et la dernire observation x
T
, le poids donn cette
observation tant dautant plus fort que est plus lev.
Dans le cas o est gal 1 : , ce qui signifie que la prvision
est gale la dernire valeur observe, on parle de prvision nave .
On peut encore crire :
(2)
La prvision apparat alors comme gale la prvision la date prc-
dente corrige dun terme proportionnel la dernire erreur de prvision.
Dans ces deux formules qui fournissent des mthodes lmentaires de
mise jour de la prvision, linformation apporte par le pass est rsume
dans
x
T
h ( )
x
T
h ( ) 1 ( )
i
i 0 =
T 1
x
T i
= 0 1 < <
1 ( )
i
i 0 =
T 1
1 1 ( )
T
----------------------------- 1 1 ( )
T
1 = =
x
T
h ( )
x
T
x
T
1 ( ) x
T 1
x
T
+ =
x
T 1
x
T
s
T
=
x
T
x
T 1
+ x
T
x
T 1
( ) =
x
T 1
P103-130-9782100549412.fm Page 121 Mercredi, 24. novembre 2010 10:14 10
122
x
T 1
a ( )
2
a
1 ( )
i
x
T i
i 0 =
T 1
1 1 ( )
T
------------------------------------------ x
T
=
x
t
t 1 = , T , ,
x
t
t 1 = , T , ,
x
1
x
1
x
1
x
x
1
P103-130-9782100549412.fm Page 122 Mercredi, 24. novembre 2010 10:14 10
SRIES CHRONOLOGIQUES ET PRVISION
123
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
soit l
Erreur Quadratique Moyenne de prvision
:
soit l
Erreur Absolue Moyenne de prvision
:
Il ne faut pas manquer dexaminer aussi l
Erreur Moyenne de prvision
qui peut indiquer dans certains cas une sous-valuation ou une survaluation
systmatique de la prvision qui sobserve dailleurs lexamen des graphi-
ques des sries initiales et lisses :
La minimisation de ces critres peut tre faite sur toute la srie des
erreurs de prvision ou sur un pourcentage donn de ses derniers termes
(dans ce cas, on prend souvent le dernier tiers de la srie, tableau 4.7). Cer-
tains logiciels proposent actuellement les mthodes de lissage avec une
constante
dtermine par la minimisation dun critre. Le logiciel SPSS
calcule la constante optimale en minimisant lErreur Quadratique Moyenne
de prvision.
EQM
1
T 1
------------ x
t 1 +
x
t
( )
2
t 1 =
T 1
=
EAM
1
T 1
------------ x
t 1 +
x
t
t 1 =
T 1
=
EM
1
T 1
------------ x
t 1 +
x
t
( )
t 1 =
T 1
=
Figure 4.8 Chronique du tableau 4.6 et srie obtenue par LES avec = 0,4
P103-130-9782100549412.fm Page 123 Mercredi, 24. novembre 2010 10:14 10
124
INTRODUCTION LA MTHODE STATISTIQUE
Le tableau 4.8 donne, selon la constante de lissage
variant par pas de
0,1, les valeurs des critres
EM
,
EQM
et
EAM
pour le
LES
appliques la
srie de la figure 4.8, ces critres ayant t calculs sur le dernier tiers de la
srie, cest--dire avec les cinq dernires erreurs de prvision.
Le critre
EQM
est minimum pour
= 0,4, le critre EAM pour = 0,5
et la valeur absolue de lerreur moyenne est minimum pour = 0,5
Tableau 4.7 Prsentation des calculs du LES avec les critres calculs
sur le dernier tiers de la srie
= 0,4 = 0,5
t x
t
LES e
t
ABS (e
t
) (e
t
)
2
LES e
t
ABS (e
t
) (e
t
)
2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
130
121
120
127
122
129
124
120
139
136
135
134
136
133
138
133
130,00
126,40
123,84
125,10
123,86
125,92
125,15
123,09
129,45
132,07
133,24
133,55
134,53
133,92
135,55
134,53
9,00
6,40
3,16
3,10
5,14
1,92
5,15
15,91
6,55
2,93
0,76
2,45
1,53
4,08
2,55
9,00
6,40
3,16
3,10
5,14
1,92
5,15
15,91
6,55
2,93
0,76
2,45
1,53
4,08
2,55
81,00
40,96
9,99
9,63
26,39
3,68
26,53
253,12
42,85
8,57
0,57
6,02
2,33
16,67
6,50
130,00
125,50
122,75
124,88
123,44
126,22
125,11
122,55
130,78
133,39
134,19
134,10
135,05
134,02
136,01
134,51
9,00
5,50
4,25
2,88
5,56
2,22
5,11
16,45
5,22
1,61
0,19
1,90
2,05
3,98
3,01
9,00
5,50
4,25
2,88
5,56
2,22
5,11
16,45
5,22
1,61
0,19
1,90
2,05
3,98
3,01
81,00
30,25
18,06
8,27
30,94
4,92
26,11
270,45
27,28
2,60
0,04
3,62
4,20
15,81
9,07
EM =
0,64
EAM =
2,27
EQM =
6,42
EM =
0,12
EAM =
2,23
EQM =
6,55
Tableau 4.8 Valeurs des critres calculs sur le dernier tiers de la srie du tableau 4.7
Valeur de EM EQM EAM
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
4,548
2,931
1,545
0,643
0,125
0,148
0,280
0,339
0,369
25,311
14,068
8,151
6,421
6,547
7,361
8,436
9,670
11,095
4,548
3,101
2,495
2,274
2,227
2,449
2,648
2,833
3,012
P103-130-9782100549412.fm Page 124 Mercredi, 24. novembre 2010 10:14 10
SRIES CHRONOLOGIQUES ET PRVISION
125
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
B. Le lissage exponentiel double
Le lissage e xponentiel double est une gnralisation du lissage e xponentiel
simple au cas dune chronique tendance localement linaire ; on suppose
que la srie peut tre ajuste par une droite au voisinage de T :
x
t
= a
1
(T) + a
2
(T) ( t T)
Les coefficients a
1
(T) et a
2
(T) sont choisis de faon minimiser la quan-
tit suivante qui est lanalogue de la quantit (3) minimise pour le lissage
exponentiel simple :
On obtient la solution suivante :
avec
ce qui conduit la prvision :
La quantit S
1
(T) rsultant du lissage exponentiel simple de la srie
{x
t
, t = 1, ,T} et la quantit S
2
(T) du lissage exponentiel simple de la
srie {S
1
(t), t = 1, ,T } do le nom de lissage exponentiel double, on
dispose pour leurs calculs des formules de mise jour du LES :
Linitialisation de ces formules de mise jour peut tre :
1 ( )
i
x
T i
a
1
T ( ) a
2
T ( ) + i ( )
( ,
j \
( ,
, (
, (
j \
2
i 0 =
T 1
a
1
T ( ) 2S
1
T ( ) S
2
T ( ) =
a
2
T ( )
1
------------ S
1
T ( ) S
2
T ( )
( ,
j \
=
S
1
T ( ) 1 ( )
i
i 0 =
T 1
x
T i
=
S
2
T ( ) 1 ( )
i
i 0 =
T 1
S
1
T i ( ) =
x
T
h ( ) a
1
T ( ) a
2
T ( ) + h =
S
1
T ( ) x
T
1 ( ) + S
1
T 1 ( ) =
S
2
T ( ) S
1
T ( ) 1 ( ) + S
2
T 1 ( ) =
S
1
1 ( ) x
1
=
S
2
2 ( ) S
1
2 ( ) =
127
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Il y a au moins une rponse exacte par question.
1. Pour une chronique 12 termes :
a) on peut calculer 8 moyennes mobiles centres de longueur 4
b) on peut calculer une moyenne mobile centre de longueur 12
c) on peut calculer 10 mdianes mobiles centres de longueur 3
d) on peut calculer 2 moyennes mobiles centres de longueur 11
2. Identification du modle de dcomposition adapt :
a) si le facteur saisonnier est proportionnel la tendance, on choisit le modle additif
b) si les deux courbes joignant respectivement les maxima et les minima sont quasi-
parallles sur un graphique ordonne logarithmique, on choisit le modle multipli-
catif
c) si les maxima de la courbe reprsentative de la chronique sont distants de 5 dates,
on choisit le modle additif
d) on peut toujours ramener un modle multiplicatif un modle additif
3. Si une chronique X a une composante saisonnire de priode p, alors :
a) les moyennes mobiles centres de longueur 2 p liminent la saisonnalit
b) on peut approximer la tendance par la suite des moyennes mobiles centres de
longueur p
c) la somme de p termes successifs de X donne une approximation de la moyenne de
la tendance
d) on peut toujours calculer ( T p) moyennes mobiles centres de longueur p si elle
a T termes
4. Une prvision par lissage exponentiel simple :
a) tient dautant plus compte des valeurs rcentes de la srie que la constante est
faible
b) peut senvisager pour une chronique possdant une composante saisonnire
c) ne peut pas senvisager pour une chronique possdant une tendance la hausse
d) sadapte dautant plus rapidement un changement de niveau de la chronique que
est leve
Testez-vous (les rponses sont donnes page 286)
P103-130-9782100549412.fm Page 127 Mercredi, 24. novembre 2010 10:14 10
128
129
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Exercice 4.3
Le tableau suivant donne la srie chronologique bimestrielle du transport des voya-
geurs sur le rseau Air France International (en milliards de passagers-km) de 2002
2005.
Source : www.insee.fr
1. On choisit de modliser cette chronique par un schma additif. Justifiez ce choix.
2. Dterminez la tendance de cette chronique par la suite des moyennes mobiles de
longueur adapte, et reprsentez-la sur le mme graphique que la srie initiale.
3. Calculez les coefficients saisonniers.
4. Calculez la srie corrige des variations saisonnires. Ajustez cette chronique par
une droite en utilisant la mthode des moindres carrs.
5. Au vu des rsultats, quelles prvisions pouvait-on faire fin 2005 pour janvier-
fvrier, mars-avril et mai-juin 2006 ?
6. Sachant quon a observ 17,2 milliards de passagers-km en janvier-fvrier 2006,
18,5 en mars-avril et 18,6 en mai-juin, calculez lerreur absolue moyenne de pr-
vision.
Exercice 4.4
1. Voici pour ses trois premiers mois douverture, le nombre de places x
t
vendues
par semaine par le cinma PARADISO (t dsignant le numro de la semaine varie
de 1 12) :
1. Reprsentez cette chronique graphiquement. A-t-elle une composante saisonnire ?
Si oui, de quelle priode ?
2. Calculez la suite des moyennes mobiles de longueur approprie pour valuer la
tendance de la srie chronologique. Reprsentez cette suite sur le graphique pr-
cdent.
3. On choisit un modle multiplicatif. valuez les coefficients saisonniers.
4. Calculez la srie corrige des variations saisonnires (srie CVS) et reprsentez-la
sur le graphique prcdent. Calculez la srie des rsidus.
5. Ajustez la srie CVS par une droite en utilisant la mthode des moindres carrs.
Reprsentez cette droite sur le graphique prcdent.
6. Donnez une prvision pour le nombre de places vendues pendant les deux pre-
mires semaines du quatrime mois.
Janv.-Fv Mars-Avril Mai-Juin Juil.-Aot Sept.-Oct. Nov.-Dc.
2002
2003
2004
2005
13,3
13,8
14,4
15,4
15,1
14,2
16,0
16, 8
14,8
14,1
16,2
17,4
16,3
17,0
18,5
19,9
14,8
15,2
16,2
17,9
14,2
14,8
15,3
17,4
t 1 2 3 4 5 6 7 8 9 10 11 12
x
t
3 428 3 295 3 376 3 195 3 573 3 334 3 434 3 300 3 703 3 411 3 545 3 327
P103-130-9782100549412.fm Page 129 Mercredi, 24. novembre 2010 10:14 10
130
131
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
5. M
odle probabiliste
et variable alatoire
Il ne faut donc pas se demander si nous percevons vraiment un monde, il faut se dire au
contraire : le monde est cela que nous percevons.
Phnomnologie de la perception
, Maurice Merleau-Ponty (1908-1961)
a statistique descriptive permet de rsumer les mesures dune ou
plusieurs grandeurs obtenues sur les individus dun chantillon ou
dune population par un classement (tri simple dans le cas dune
seule variable, tri crois dans le cas de plusieurs variables). Une grandeur
est alors dcrite par sa distribution, qui est dtermine partir des obser-
vations, justifiant ainsi le nom de
distribution empirique
de la grandeur
(ou de la variable). Cest la reprsentation de base pour apprcier
une grandeur aprs quelle a t classe.
Lobservation de nombreuses distributions empiriques montre pour cer-
taines dentre elles des analogies de formes, et des caractristiques voi-
sines. Ceci conduit dfinir des
distributions thoriques
afin de disposer
dinstruments plus formels regroupant les proprits. Ces distributions
thoriques sont une abstraction destine non pas simplement prsen-
ter les donnes, mais les interprter ou les expliquer. Ce paralllisme
entre lobservation et la reprsentation thorique se retrouve galement
au niveau de lobservation individuelle quon replace dans un ensemble
potentiel dobservations supposes homognes. Les variations entre dif-
frentes observations sont considres comme des fluctuations non attri-
buables une cause identifie (contrlable ou non), et on dit alors
quelles sont le rsultat du
hasard
.
Il est ncessaire de disposer dun outil thorique permettant de consid-
rer globalement les diffrentes observations provenant dune mme
population en tenant compte dune part, de lhomognit lie leur
origine commune et dautre part, des fluctuations entre observations.
Cest le concept de
variable alatoire
qui remplit ce double rle. Son
intrt dpend des proprits gnrales quon pourra lui associer, et de
leur fiabilit.
Le
calcul des probabilits
(puis son
axiomatique
) est le support formel de
cette reprsentation. Il a t introduit initialement au
XVII
e
sicle pour
L
P131-178-9782100549412.fm Page 131 Mercredi, 24. novembre 2010 10:19 10
132
INTRODUCTION LA MTHODE STATISTIQUE
tudier les jeux de socit (ds, cartes, roulette), et son dveloppement
a permis une approche intgrant les lments fluctuants et non perma-
nents des phnomnes physiques, sociaux ou encore psychologiques. Les
probabilits se fondent sur la notion d
exprience alatoire
, cest--dire
dont les conditions dexcution bien que parfaitement dfinies, ne per-
mettent pas de sassurer priori de lissue de lexprience.
contrario les expriences, dites
dterministes
, celles dont le rsultat est
matris par les conditions initiales, ont un seul rsultat possible, en
ngligeant les ventuelles erreurs de mesure. Ces situations sopposent
celles o le hasard intervient dans le rsultat attendu et pour lesquelles
on parle d
incertitude
. Cest pour ce dernier contexte qua t fond le
calcul des probabilits. Sous le terme de hasard, on a longtemps rsum
les facteurs considrs comme mineurs
1
dans ltude dun phnomne.
On pourrait plutt dire actuellement quentre dterminisme et incerti-
tude repose toute la notion de ce qui chappe au contrle, ou encore de
linformation non disponible.
Le caractre alatoire dune grandeur peut tre partie intrinsque du
phnomne tudi. Cest le cas du rsultat dun jet de d, ou bien de la
quantit de fuel consomm annuellement en France. Dans dautres cas,
il nen est pas ainsi. Si on sintresse la distance moyenne parcourue sur
une autoroute par les automobilistes passant un poste de page
donn, un certain jour, on peut interroger tous les automobilistes se pr-
sentant au page et calculer la moyenne. On peut aussi chercher cette
information en interrogeant un chantillon dautomobilistes se prsen-
tant ce page. La valeur moyenne observe sur cet chantillon va
dpendre de lchantillon retenu qui nest pas lui-mme fix lavance
(il y a beaucoup dchantillons possibles), et peut tre considr comme
le rsultat dune exprience alatoire (le choix de lchantillon dauto-
mobilistes). Ainsi, alors quinitialement le problme se posait en termes
dterministes, la procdure surajoute de choix de lchantillon introduit
un lment alatoire. La grandeur tudie (moyenne) nest pas elle-
mme alatoire, mais les donnes recueillies sur lchantillon le sont
puisque le contenu de lchantillon nest pas dtermin par son mode de
tirage.
Lobjectif du calcul des probabilits est lanalyse et lexplication des ph-
nomnes non dterministes. Ses fondements thoriques, et en particulier
l
axiomatique de Kolmogorov
, lui donnent une valeur scientifique rela-
tivise toutefois par la signification de la notion de probabilit.
1. Historiquement, ces facteurs mineurs ont t dabord restreints la notion derreur.
P131-178-9782100549412.fm Page 132 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
133
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
I.
lments de calcul des probabilits
Le calcul des probabilits est bas, comme nous lavons dj vu, sur la notion
dexprience alatoire. On associe une telle exprience
lensemble de
tous les rsultats possibles, appel
ensemble
fondamental
, quon dsigne
communment par
. Chaque rsultat possible est une partie de
.
Lensemble fondamental associ une preuve non dterministe peut
contenir un nombre fini dlments (de la forme {
1
,
2
, ,
n
}) ou bien
tre de type infini dnombrable
1
ou enfin tre de type infini non dnombra-
ble. On assimile, comme dans la thorie classique des ensembles, un v-
nement, donc une partie de
, la proprit qui le caractrise au sein de
lensemble fondamental, cest--dire la ralisation de cette proprit. On
dsigne par
le rsultat qui sera observ lissue de lexprience alatoire,
et on crit
G
(avec
G
)) lorsque la situation dcrite par
G
est
le rsultat de la ralisation de lpreuve E. La non-ralisation de lvne-
ment
G
est note
(o
dsigne lensemble complmentaire
2
de
G
dans
)
.
La notation et le vocabulaire ensembliste sont tout fait adapts la des-
cription des situations alatoires, et lvnement dont on a la certitude de la
ralisation est dsign par
(vnement certain), tandis que lvnement
dont on sait quil ne se produira pas est dsign par
(vnement impossi-
ble). La runion ensembliste
G
H
correspond la ralisation dau moins
un des vnements
G
et
H
. Lintersection ensembliste
G
H
correspond
la ralisation des deux vnements
G
et
H
. Lincompatibilit de
G
et
H
se
traduit par
G
H
=
. Enfin, la diffrence ensembliste
G
H
correspond
la ralisation de
G
et la non-ralisation de
H
, ou encore lintersection
G
.
La reprsentation ensembliste justifie la caractrisation des issues dune
preuve alatoire au sein dune structure mathmatique sur laquelle on pourra
dfinir une probabilit. Cette structure est celle dune algbre de Boole (cas
fini), ou dune
-algbre (cas infini).
A. N
otion de probabilit
Soit
lensemble fondamental associ une preuve alatoire et
)
lensemble des parties de
.
1. Cest--dire pouvant tre mis en bijection avec tout ou partie de lensemble
des entiers naturels.
2. Le complmentaire de lensemble
G
est not indiffremment
ou
G
c
.
G G
G
H
P131-178-9782100549412.fm Page 133 Mercredi, 24. novembre 2010 10:19 10
134
INTRODUCTION LA MTHODE STATISTIQUE
On dit que
) est une
algbre de Boole
si les deux conditions
suivantes sont vrifies :
C1 : G
C2 : G et H G H
Cette structure dalgbre de Boole correspond la traduction ensembliste
de la logique des vnements dans le cas o lensemble fondamental est fini.
On dit que () est une -algbre de Boole (ou plus simplement
une -algbre) si les deux conditions suivantes sont vrifies :
C1 : G
C2 : G
i
pour i
La notion de -algbre tend la correspondance entre la logique vne-
mentielle et la thorie des ensembles au cas dpreuves alatoires dont
lensemble fondamental est infini.
On notera que si E est un vnement quelconque de , = {, , E, }
est une -algbre.
Lorsquon a dfini une -algbre dvnements de , on dit que le
couple (, ) est un espace probabilisable dans le sens o il ne reste plus
qu prciser la probabilit de chaque vnement de .
Les premires fondations de la notion de probabilit
1
visaient dfinir une
chelle ordonne des chances de russite certains jeux. Lapproche frquen-
tiste qui en a rsult est construite sur lobservation et le dnombrement de
situations dites lmentaires, cest--dire reprsentant toutes les issues diff-
rentes de lpreuve alatoire. Ce point de vue ne peut sappliquer qu des
cas o lensemble fondamental associ est fini.
On suppose tout dabord que les vnements lmentaires ont une chance
gale de ralisation, contexte dit d quiprobabilit, ce qui implique ladditi-
vit des chances. Pour cette hypothse et pour un ensemble fondamental de
type fini, on dfinit la probabilit dun vnement comme lanalogue dune
frquence relative afin davoir une chelle de valeurs comprise entre 0 et 1,
et de disposer dune mesure additive : pour des vnements lmentaires
quiprobables, la probabilit dun vnement quelconque est sa frquence
relative dapparition dans lensemble fondamental. Ce point est connu sous
le nom de rgle de Laplace.
1. Blaise Pascal et Pierre de Fermat correspondent en 1654, sur la rpartition quitable des
enjeux dans les jeux de hasard ; et Christian Huyghens, en 1657, formule et rsout le problme
dit de la ruine du joueur.
G
G
UG
i
i
E
P131-178-9782100549412.fm Page 134 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
135
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Donnons-en un exemple dapplication, en calculant la probabilit de faire
apparatre les chiffres 4, 2 et 1 en lanant trois ds parfaitement quilibrs.
Chaque d possde 6 faces, ce qui implique que lensemble fondamental
possde 6
3
= 216 lments. Dans cet ensemble fondamental form des figu-
res 3 chiffres entre 1 et 6, celles qui permettent de reconstituer 421 sont
toutes les 3 ! = 6 permutations des trois chiffres 1, 2 et 4. La frquence rela-
tive de la figure 421 ou probabilit de lvnement obtention des chif-
fres 4, 2, 1 est gale 1/36
Ds lors que lensemble fondamental nest pas fini et/ou que lquiproba-
bilit nest pas assure sur les vnements lmentaires de , on ne peut plus
appliquer cette rgle du nombre de cas favorables sur nombre de cas possi-
bles. On doit gnraliser cette dmarche et dfinir abstraitement la probabilit
pour quelle concide avec la rgle de Laplace lorsque cette dernire sappli-
que. On utilise alors la reprsentation ensembliste des vnements pour dfi-
nir une probabilit sur un espace probabilisable ( , ).
On dit alors que le triplet (, , P) est un espace probabilis. Il est cons-
truit sur une preuve alatoire dont on se donne lensemble fondamental ,
tous les vnements simples ou complexes tant dcrits par , sur laquelle
on se donne lchelle des chances P.
1
De cette dfinition, ou axiomatique de Kolmogorov, on dduit les propri-
ts suivantes :
1. Si G , alors P( ) = 1 P(G)
En effet, on a : G et G = , ce qui donne :
P() = 1 = P (G ) = P(G) + P( )
2. La probabilit de lvnement impossible est nulle : P() = 0
Il suffit dappliquer la proprit prcdente en posant G =
Soit (, ) un espace probabilisable. Une probabilit
1
P sur cet espace
est une application de valeurs dans lintervalle [0;1] vrifiant :
i) P () = 1
ii) pour des vnements {G
i
, i } incompatibles (i j G
i
G
j
= ) :
=
1. On dit encore une mesure de probabilit pour bien faire rfrence aux qualits mtrologiques
de cette application. On dsignera indiffremment par la suite la probabilit par Pr ou par P.
P U
i
G
i
( ,
j \
P G
i
( )
i
G
G G
G G
P131-178-9782100549412.fm Page 135 Mercredi, 24. novembre 2010 10:19 10
136
137
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Cette modification sappelle un conditionnement, car elle correspond la prise
en compte dune condition supplmentaire sur la ralisation de lpreuve ala-
toire (ici le fait que le premier d doit tre lanc sparment et quil affichera la
valeur 2). On est ainsi conduit dfinir les probabilits conditionnelles.
Cette dfinition est bien videmment drive de lapproche frquentiste des
probabilits puisquen raisonnant avec la rgle de Laplace, on pourrait dire que
les cas favorables sont ceux o les vnements A et C sont tous deux raliss,
alors que les cas possibles sont ceux pour lesquels de toutes faons lvnement
C est observ. Il faut noter quune probabilit conditionnelle na de sens que si
la condition est ralisable (de probabilit non nulle). La notion de probabilit
conditionnelle, ou encore de conditionnement des probabilits, revient modi-
fier lensemble fondamental puisque lvnement C se trouve tre rap-
port une probabilit gale un. Ainsi, sur la figure 5.1, par conditionnement
la probabilit de A devient ramene la seule part de A incluse dans C.
On peut vrifier que lapplication qui tout A associe est
bien une mesure de probabilit.
Dfinition 1
Soit (, , P) un espace probabilis et soit C un vnement par-
ticulier, appel condition, de probabilit non nulle. Pour tout vnement
A , on appelle probabilit conditionnelle de A sachant C , note
, la quantit :
=
Proprit
Si A
1
, A
2
, , A
n
sont n vnements quelconques dune -algbre
dun espace probabilis ( , , P), on peut crire :
P A C ( )
P A C ( )
P A C ( )
P C ( )
------------------------
A
C
A
C
139
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Cette notion dindpendance stend plus de deux vnements.
Des vnements mutuellement indpendants sont indpendants deux deux
(simple application particulire de la dfinition), mais des vnements A
1
, A
2
, ,
A
n
qui sont indpendants deux deux ne sont pas toujours mutuellement ind-
pendants.
Cette notion dindpendance sera tendue plus loin au cas des variables alatoi-
res, et peut aussi tre gnralise plusieurs preuves (ou expriences alatoires).
La mise en uvre des probabilits conditionnelles a conduit une rflexion
trs importante sur le concept de probabilit lui-mme, ce que nous verrons plus
loin. Cest certainement lapport de Thomas Bayes
1
qui en a reprsent le point
de dpart. Nous donnerons donc dabord le rsultat connu sous le nom de tho-
rme de Bayes, pour examiner ensuite le dbat sur la notion de probabilit.
En effet, on sait que :
et dautre part que
Dfinition 3
Soient n vnements dun espace probabilis ( , , P). On dit quils
sont mutuellement indpendants si quels que soient A
1
, A
2
, , A
k
choisis
parmi ces n vnements, on a :
1. Le rvrend Thomas Bayes (1701-1761) est lauteur de An Essay Towards Solving a Pro-
blem in the Doctrine of Chances qui ne fut publi quen 1763, aprs sa mort.
Thorme de Bayes
Soit (, , P) un espace probabilis, et soient A
1
, A
2
, , A
n
un ensem-
ble dvnements deux deux incompatibles vrifiant = (on dit
que les A
k
forment un systme complet dvnements). Pour tout vne-
ment B, on a alors : pour i = 1, 2, , n
P A
1
A
2
A
k
( ) P A
1
( ) P A
2
( ) P A
k
( ) =
n
UA
k
k = 1
P A
i
B ( )
P B A
i
( ) P A
i
( )
P B A
k
( ) P A
k
( )
k 1 =
n
------------------------------------------------- =
P A
i
B ( )
P A
i
B ( )
P B ( )
-------------------------
P B A
i
( ) P A
i
( )
P B ( )
-------------------------------------- = =
B B B
n
UA
k
k =1
( ,
, (
, (
j \
n
U
k =1
B A
k
( )
= = =
P131-178-9782100549412.fm Page 139 Mercredi, 24. novembre 2010 10:19 10
140
INTRODUCTION LA MTHODE STATISTIQUE
Les vnements tant incompatibles deux deux puisque les
A
k
le
sont, on en dduit que :
et la formule de Bayes est dmontre.
On dit frquemment que les vnements
A
i
, qui forment une partition de
, sont les causes. Une autre dnomination, trs courante, consiste nommer
probabilits
a priori
les valeurs
P
(
A
k
), et probabilits
a posteriori
les valeurs
. En effet, la formule de Bayes permet dobtenir une valeur rvise
des probabilits des vnements
A
i
une fois connue la ralisation de
lvnement
B
.
On notera que lapplication de la formule de Bayes demande lvaluation
des probabilits dites
a priori
P
(
A
k
) ainsi que des probabilits de
leffet
B
connaissant chacune des causes.
Exemple
Pour un systme de crdit la clientle on distingue trois types de
dossiers : les dossiers aboutissant en contentieux, les dossiers dif cults
temporaires ou lgres et les dossiers sans dif cults de paiement. On a
valu sur la base de xpriences antrieures les proportions respecti ves
des trois catgories 1/5, 3/10 et 1/2. Dautre part, on dispose pour
chaque dossier dun score dapprciation global du client rapport lune
des deux modalits sui vantes : lev ou bas. Enn, on sait que 90 % des
dossiers en contentieux correspondaient un score bas, que 60 % des
dossiers difcults lgres correspondaient un score bas, et que 85 %
des dossiers sans difcults correspondaient un score lev. Si on tire un
dossier au hasard pour lequel le score est bas, quelle est la probabilit
quil ait abouti en contentieux ? (resp. quil nait donn lieu aucune
difcult de paiement ? quil ait engendr des difcults lgres ?)
Les trois vnements
A
1
= aboutir en contentieux ,
A
2
= difcults
lgres et
A
3
= aucune difcult forment un systme complet. On
dispose des probabilits
a priori
:
P
(
A
1
) = 0,2
P
(
A
2
) = 0,3
P
(
A
3
) = 0,5
ainsi que des probabilits conditionnelles pour les vnements
B
= score bas et = score lev
do :
B A
k
P B ( ) P B A
k
( ) = P B A
k
( ) P A
k
( )
k
1
=
n
k
1
=
n
=
P A
k
B ( )
P B A
k
( )
B
P B A
1
( ) 0,9 = P B A
2
( ) 0,6 = P B A
3
( ) 0,15 =
P B ( ) P B A
1
( ) P B A
2
( ) P B A
3
( ) + + =
P B A
1
( ) P A
1
( ) P B A
2
( ) P A
2
( ) P B A
3
( ) P A
3
( ) + + =
0,435 =
P131-178-9782100549412.fm Page 140 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
141
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
On en dduit :
ainsi que : et
Ce calcul montre que linformation complmentaire
le dossier tudi
correspond un score bas
a permis une augmentation de la probabilit
associe au de venir
contentieux
(0,414 au lieu de 0,2) et de la
probabilit associe au de venir
difcults lgres
(0,414 au lieu de
0,3), et une forte diminution de la probabilit associe au de venir
aucune difcult (0,172 au lieu de 0,5).
On nomme aussi probabilits rvises, les probabilits
a posteriori
.
Le thorme de Bayes est lorigine de nombreux dveloppements for-
mant ce quon a appel la statistique baysienne. Les domaines dapplication
sont trs varis : gestion financire, prvisions, diagnostic,
Cependant, son utilisation est trs conteste, notamment en raison de la
ncessit dune valuation
a priori
, subjective, de probabilits. De plus les
causes
A
k
se trouvent affectes de probabilits, ce qui peut apparatre
paradoxal si on se rfre la notion dterministe de causalit. Pour ceux qui
contestent la statistique baysienne, un phnomne est, ou nest pas, cause
(ventuellement partielle) dun autre, et ne saurait donc tre muni dune pro-
babilit sur cette causalit
1
.
De nombreuses difficults persistent autour de la notion de probabilit, et
particulirement celle du choix des probabilits quon affecte aux vne-
ments rapports une preuve alatoire. Lanalyse combinatoire et lappro-
che frquentiste offrent une solution, dite objectiviste . Cependant, ce
point de vue se heurte :
quelques contradictions logiques : le lien entre la probabilit et la fr-
quence relative, qui permet dvaluer une probabilit, est relativiser par
la loi faible des grands nombres (
cf. infra
), donc par une probabilit ; on
dfinit concrtement une probabilit en se basant sur une autre probabilit
qui demande tre value, et ainsi de suite ;
quelques paradoxes : le paradoxe de Bertrand
2
montre 3 solutions dis-
tinctes, 1/4, 1/3 et 1/2 (toutes par lapproche frquentiste) au calcul de la
probabilit que la longueur dune corde dun cercle soit suprieure au ct
du triangle quilatral inscrit dans ce cercle ; le paradoxe de St Peters-
1. On ne vise pas, dans ce livre, prendre parti pour ou contre loptique baysienne, mais
donner au lecteur des lments simples sur les arguments en prsence. Le dbat nest pas
encore clos !
2. Prsent en dtail, par exemple, dans le livre de G. Saporta, pages 11,
op. cit
.
P A
1
B ( )
P A
i
B ( )
P B ( )
-------------------------
P B A
1
( ) P A
1
( )
P B ( )
----------------------------------------
0,9 0,5
0,435
------------------- 0,414 = = = =
P A
2
B ( ) 0,414 = P A
3
B ( ) 0,172 =
P A
k
B ( )
P131-178-9782100549412.fm Page 141 Mercredi, 24. novembre 2010 10:19 10
142
143
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Exemple
On jette deux ds non pips ; lensemble fondamental associ cette
exprience alatoire est form de 36 vnements lmentaires quipro-
bables :
= ({1,1} ; {1,2} ; {2,1} ; ; {6,6})
Si on sintresse la somme des points marqus par les deux ds, on
dnira sur cet espace probabilis une v .a. X gale cette somme ;
lensemble de ses valeurs possibles est :
{2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}
Pour obtenir la probabilit dune v aleur quelconque de X, il suf t de
dnombrer les vnements lmentaires de qui ralisent cette valeur;
ainsi :
On dit que la variable alatoire X est :
discrte finie si lensemble X() est fini, discrte infinie si lensemble
X() est infini dnombrable,
continue si lensemble X() est un intervalle de non rduit un point
(ou une runion dintervalles de ).
On retrouve une classification analogue celle rencontre pour les varia-
bles statistiques (chapitre 1), la notion de probabilit remplaant la notion de
frquence ; la loi des grands nombres ( V) permet dtablir un lien entre ces
deux notions.
Remarque
Pour une variable alatoire continue X, il faut complter la dfinition
en ajoutant que limage rciproque de tout intervalle ] , x] doit
appartenir la -algbre :
X
1
(],x]) =
La probabilit tant dfinie sur la famille des parties de formant
une -algbre, cette condition permet de dterminer la probabilit de
tout intervalle de .
Notons que cette condition est gnrale puisquelle est ralise pour
les variables alatoires discrtes ; pour ces variables alatoires, limage
rciproque de tout intervalle de est une partie de laquelle est
associe une probabilit.
P X 4 = ( ) P 1,3 2,2 3,1 ( ) =
P 1,3 ( ) P 2,2 ( ) P 3,1 ( ) + + 3/36 1/12 = = =
x X ( ) ( ) x ( )
P131-178-9782100549412.fm Page 143 Mercredi, 24. novembre 2010 10:19 10
144
X ( ) x
1
, , x
i
, x
k
, =
x
i
1 i k ( )
p
i
P X x
i
= ( )
F x
1
( ) pour i 1 =
F x
i
( ) F x
i 1
( ) pour i 2 k , , =
= =
P131-178-9782100549412.fm Page 144 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
145
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Exemple 1
Loi de probabilit de la v.a. discrte nie
X
gale la somme des points
marqus lors du lancer de deux ds non pips :
Inversement, on calcule aisment la fonction de rpartition partir de la
connaissance des
k
couples (
x
i
,
p
i
) :
Lorsque la v .a. est
discrte innie
, lensemble
X
(
) est inni
dnombrable, et on peut, comme dans le cas ni, calculer les
probabilits de chaque v aleur possible partir de la fonction de
rpartition ; en sens inverse, on peut dduire la fonction de rpartition de
la connaissance des valeurs possibles et des probabilits associes.
Exemple 2
Loi de probabilit de la v .a. discrte innie
X
gale au nombre de jets
ncessaires dune pice de monnaie non pipe pour obtenir la f ace
pile :
On verra au chapitre 6 ( II.C) que
X
suit une loi gomtrique de
paramtre 0,5
Valeur de
X
x
1
x
i
x
k
Probabilit
p
1
p
i
p
k
Valeur de
X
2 3 4 5 6 7 8 9 10 11 12
Probabilit
Valeur de
X
1 2 3
i
Probabilit
p
i
i 1 =
k
1 =
1
36
------
1
18
------
1
12
------
1
9
---
5
36
------
1
6
---
5
36
------
1
9
---
1
12
------
1
18
------
1
36
------
F x ( )
0
p
j
j 1 =
i
=
si x x
1
<
si x
i
x x
i 1 +
< pour 1 i k 1 ( )
si x x
k
1
2
i
----
i 1 =
1 =
1
2
---
1
2
2
-----
1
2
3
-----
1
2
i
----
P131-178-9782100549412.fm Page 145 Mercredi, 24. novembre 2010 10:19 10
146
147
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Toute fonction vrifiant ces cinq proprits peut tre considre comme
la fonction de rpartition dune variable alatoire absolument continue.
La drive de F
X
, note f
X
, est appele densit de probabilit de la varia-
ble alatoire X.
Une fonction f, dfinie sur tout , peut tre considre comme la densit
de probabilit dune variable alatoire absolument continue si elle possde
les trois proprits suivantes :
1
La fonction de densit est une reprsentation trs utile de la loi de proba-
bilit dune variable alatoire continue. On peut dfinir la loi de probabilit
dune variable alatoire continue, soit par sa fonction de rpartition, soit par
sa fonction de densit, et on a la relation fondamentale suivante :
La probabilit relative un intervalle se calcule laide de la fonction de
rpartition ou de la fonction de densit ( cf. figure 5.4) :
1.
2. f continue presque partout
1
3.
1. Cest--dire que la fonction f peut ne pas tre continue sur un ensemble dnombrable de
points de ; on dit encore que f est continue par morceaux ; mentionnons que les points de
non-drivabilit de F correspondent aux points de discontinuit de f
f x ( ) 0 x
f x ( ) x d
+
1 =
x F x ( ) f t ( ) t d
=
P a X b < ( ) F b ( ) F a ( ) f x ( ) x d
a
b
= =
f(x)
a b x
Figure 5.4 Reprsentation de la probabilit dun intervalle
P131-178-9782100549412.fm Page 147 Mercredi, 24. novembre 2010 10:19 10
148
f x ( ) x d
a
b
f x ( )
0 pour x 0
1
2
x
---------- pour 0 x < 1
0 pour x 1 >
=
f x ( ) x d
+
1
2
--- x
1 2
x d
0
1
x
1 2
0
1
1 = = =
P131-178-9782100549412.fm Page 148 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
149
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Calculons sa fonction de rpartition :
pour
x
0
F
(
x
)
pour 0 <
x
1
F
(
x
)
pour
x
>1
F
(
x
)
On vrie aisment que cette fonction
F
possde les proprits de la
fonction de rpartition dune v.a. continue
1
.
On peut calculer la probabilit de tout interv alle ou runion dintervalles,
par exemple :
P
(0,16 <
X
< 0,25) =
F
(0,25)
F
(0,16) = 0,5 0,4 = 0,1
C. L
oi dune fonction de variable alatoire
Si
est une fonction dfinie sur
valeurs dans , lapplication
X,
note Y = (X) est une variable alatoire dont on peut dterminer la fonc-
tion de rpartition et donc la loi de probabilit partir de celle de X.
1) Changement de variable Y = aX + b
Les paramtres a (a 0) et b sont des nombres rels. Connaissant la fonction
de rpartition de X, on peut calculer la fonction de rpartition F
Y
de la v.a. Y :
pour a > 0 :
1. On peut remarquer que les deux points de discontinuit de la fonction de densit { x = 0} et
{x = 1} correspondent aux deux points de non-drivabilit de la fonction de rpartition.
0
x
dt 0 = =
0
0
dt
1
2 t
---------
0
1
dt + =
t
0
x
x = =
0
0
= dt
1
2 t
---------
0
1
dt + 0
0
x
dt + 1 =
F
Y
y ( ) P Y y ( ) P aX b y + ( ) P = = = X
y b
a
-----------
( ,
j \
F
X
y b
a
-----------
( ,
j \
=
P131-178-9782100549412.fm Page 149 Mercredi, 24. novembre 2010 10:19 10
150
y b
a
-----------
( ,
j \
si X est une v.a. continue
1
P
X
y a
a
-----------
<
( ,
j \
si X est une v.a. discrte
=
F
Y
y ( ) P Y y ( ) P X
1
y ( ) ( ) F
X
1
y ( ) ( ) = = =
F
Y
y ( ) P Y y ( ) P X
1
y ( ) ( ) = =
1 F
X
1
y ( ) ( ) si X est une v.a. continue
1
P
y
( ) < ( ) si X est une v.a. discrte
=
F
Y
y ( )
0
F
X
lny ( )
=
pour y 0
pour y 0 >
f
Y
y ( )
0
1
y
--- f
X
lny ( )
pour y 0
pour y 0 >
0 si y 0 <
P y
X
+ y
( )
F
X
y
( )
F
X
y
( ) si y 0 =
P131-178-9782100549412.fm Page 150 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
151
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
III. C
ouple de variables alatoires
A. F
onction de rpartition dun couple alatoire
Soient deux variables alatoires
X
et
Y
dfinies sur le mme espace probabi-
lis (
,
P
) ; on appelle
fonction de rpartition du couple alatoire (X,Y)
,
la fonction
F
dfinie sur
2
par :
(
x
,
y
)
2
Caractrisation dune fonction de rpartition dun couple alatoire (X,Y
)
B. L
oi dun couple alatoire discret
Les variables alatoires discrtes finies
X
et
Y
sont dfinies sur le mme
espace probabilis ( ,,P). Leurs valeurs, supposes distinctes, sont ran-
ges dans lordre croissant :
X() = {x
1
, , x
i
, , x
k
} et Y() = {y
1
, , y
j
, , y
l
}
La loi du couple alatoire ( X,Y) est dfinie par les probabilits p
ij
asso-
cies tout couple de valeurs possibles ( x
i
, y
j
) (cf. tableau 5.1) :
1. F croissante par rapport chacune des variables x et y
2. lim F(x , y) = 1 et lim F(x , y) = 0
3. Continuit droite : lim F(x , y) = F(x
0
, y
0
)
F x y , ( ) P X x ( ) Y y ( )
( ,
j \
=
x
y
x +
y +
x x
0
+
y y
0
+
p
ij
P X x
i
= Y y
j
= , ( ) = p
ij
1 =
i
1
=
k
j
1
=
l
P131-178-9782100549412.fm Page 151 Mercredi, 24. novembre 2010 10:19 10
152
INTRODUCTION LA MTHODE STATISTIQUE
On notera lanalogie du tableau 5.1 avec le tableau dune distribution con-
jointe en statistique descriptive (chapitre 3, I.A).
On a :
Les couples (
x
i
,
p
i
) constituent la
loi marginale de X
et les couples
(
y
j
,
p
j
) constituent la
loi marginale de Y.
Si la probabilit que
X
prenne la valeur
x
i
nest pas nulle (
p
i
0), on peut
calculer la
probabilit conditionnelle
p
j
/
i
de
Y
=
y
j
sachant que
X
=
x
i
:
Les couples (
y
j
,
p
j/i
) constituent la
loi conditionnelle
de
Y
lie par
X
=
x
i
On note cette v.a. { =
x
i
}, et on prsente sa distribution comme celle de
toute v.a. une dimension :
Il y a
k
lois conditionnelles de
Y
sachant que X prend une valeur donne.
De mme, si la probabilit p
j
nest pas nulle :
Tableau 5.1 Distribution de probabilit dun couple alatoire (X,Y)
Valeur de Y
Valeur de X
y
1
y
j
y
l
Loi marginale
de X
x
1
.
.
.
x
i
.
.
.
x
k
p
11
.
.
.
p
i1
.
.
.
p
k1
.
.
.
.
.
.
p
1j
.
.
.
p
ij
.
.
.
p
kj
.
.
.
.
.
.
p
1l
.
.
.
p
il
.
.
.
p
kl
p
1
.
.
.
p
i
.
.
.
p
k
Loi marginale
de Y
p
1
p
j
p
1
1
Valeur de Y y
1
. y
j
. y
l
P(Y = ) p
1/i
. p
j/i
. p
l/i
p
i
p
ij
j 1 =
l
P X x
i
= ( ) = =
p
j
p
ij
i 1 =
k
P X x
i
= ( ) = =
p
j i
P Y y
j
X x
i
= = ( )
p
ij
p
i
------ = =
Y X
p
j/i
1 =
j 1 =
l
y
j
X x
i
=
p
i j
P X x
i
Y y
j
= = ( )
p
ij
p
j
------ = =
P131-178-9782100549412.fm Page 152 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
153
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Les couples (x
i
, p
i/j
) constituent la loi conditionnelle de X lie par Y = y
j
:
{ = y
j
}
Il y a l lois conditionnelles de X sachant que Y prend une valeur donne.
Les deux formules prcdentes entranent
1
:
Indpendance
Les variables alatoires X et Y sont indpendantes si pour tout couple
(x
i
, y
j
), on a la relation :
P((X = x
i
) (Y = y
j
)) =
En cas dindpendance, les lois conditionnelles sont gales la loi mar-
ginale correspondante :
et
ce qui signifie que la connaissance de la valeur prise par X napporte aucune
information sur la valeur de Y, et inversement.
La loi de probabilit dun couple alatoire (X,Y) permet de calculer les lois
marginales des deux variables X et Y. En revanche, la connaissance de ces
lois ne permet pas de dterminer la loi conjointe, sauf si les variables X et Y
sont indpendantes.
Mentionnons lanalogie existant entre les notions de lois de probabilit
marginales et conditionnelles dfinies pour un couple alatoire et celles de
distributions marginales et conditionnelles rencontres en statistique descrip-
tive (chapitre 3).
Toutes les notions dveloppes pour les couples de variables alatoires dis-
crtes finies peuvent tre gnralises des variables alatoires discrtes infinies.
La loi de probabilit dun couple alatoire discret peut aussi tre dfinie
par sa fonction de rpartition.
Pour {x
i
x < x
i+1
} et {y
j
y < y
j+1
}:
1. Les probabilits conditionnelles p
j/i
et p
i/j
sont aussi parfois notes et
X et Y indpendantes pour tout couple (i , j)
Y X
p
j
i
p
i
j
p
ij
p
i
p
j i
p
j
p
i j
= =
P X x
i
= ( ) P Y y
i
= ( )
p
ij
p
i
p
j
=
p
j i
p
ij
p
i
------ p
j
= = p
i j
p
ij
p
j
------- p
i
= =
F x y , ( ) P X x ( ) Y y ( ) ( )
n 1 =
j
p
mn
m 1 =
i
= =
P131-178-9782100549412.fm Page 153 Mercredi, 24. novembre 2010 10:19 10
154
INTRODUCTION LA MTHODE STATISTIQUE
C. L
oi dun couple de variables alatoires continues
La fonction de rpartition dun couple (
X
,
Y
) de variables alatoires continues pos-
sde en sus des trois proprits dj nonces, les deux proprits suivantes :
Toute fonction vrifiant les cinq proprits peut tre considre comme la
fonction de rpartition dun couple de variables alatoires continues.
La
densit
f
du couple (
X
,
Y
) est donne par : (
x
, y)
La loi de probabilit dun couple de variables alatoires continues peut
tre dfinie, soit par la fonction de rpartition, soit par la fonction de densit,
et on a la relation fondamentale suivante :
(x , y)
2
La probabilit relative un sous-ensemble de du type [ a ; b] [c ; d]
est gale :
Plus gnralement, la probabilit que
le couple alatoire ( X,Y) appartienne
un domaine
2
est gale :
Les densits marginales g de X et h de Y sont respectivement :
et
Exemple
Un couple (X, Y) de variables alatoires continues suit une loi uniforme
sur si sa densit de probabilit est la suivante :
4. F
est une fonction continue sur
2
5. F
est drivable presque partout
f x y , ( )
2
F
xy
------------ =
F x y , ( )
f u v , ( ) u d v d
2
P X Y , ( ) a b ; [ ] c d ; [ ]
( ,
j \
c
d
f u v , ( ) u d v d
a
b
=
P X Y , ( )
f x y , ( ) x d v d
=
g x ( ) f x y , ( ) y d
= h y ( ) f x y , ( ) x d
=
0 ; 1 [ ] 0 ; 1 [ ]
F x y , ( )
0
1
=
pour tout
pour tout
x y , ( ) 0 ; 1 [ ] 0 ; 1 [ ]
x y , ( ) 0 ; 1 [ ] 0 ; 1 [ ]
P131-178-9782100549412.fm Page 154 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
155
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Connaissant la fonction de densit, on peut calculer la probabilit de
tout sous-ensemble de
:
Considrons le domaine
de ainsi dni :
= {(
x
,
y
)
2
x
> 0,
y
> 0 et
x + y
< 1},
alors
P
{
X
,
Y
} =
Le lecteur peut vrier que les
lois marginales de
X
et
Y
sont des
lois uniformes continues sur
[0 ; 1] (chapitre 7, I.A).
Indpendanc
e
Plus gnralement, un
n
-uplet de variables alatoires (
X
1
,
X
2
, ,
X
n
) de
densit de probabilit
f
est un
n
-uplet de variables alatoires indpendantes si
et seulement si la densit
f
du
n
-uplet est le produit des
n
densits marginales
f
i
:
IV. I
ndicateurs des variables alatoires
Une diffrence entre la statistique descriptive et la thorie des probabilits
rside dans le fait que la premire discipline vise reprsenter les donnes
de faon les rendre plus lisibles , tandis que la seconde a pour objectif
de fournir des modles adapts au traitement mathmatique, donc abstraits,
qui se veulent des images, la fois idales et approches de ces donnes.
Lutilisation simultane de ces deux dmarches doit permettre de faire
apparatre les lois susceptibles de rgir les phnomnes dont proviennent les
donnes, puis de les exprimer de manire plus prcise et maniable grce au
formalisme mathmatique qui en dgage les proprits essentielles.
Les variables alatoires
X
et
Y
sont indpendantes si et seulement si
(
x , y
)
:
f
(
x
, y) = g(x) h(y)
2
P X 0,3 < ( ) 0,1 Y 0,8 < ( )
( ,
j \
0,1
0,8
0
0,3
1 x d y d 0,21 = =
2
0
1
0
1 u
1 u d v 0,5 = d
x
1
1
0
2
f x
1
x
2
, x
n
, , ( ) f
1
x
1
( ) f
2
x
2
( ) f
n
x
n
( ) =
P131-178-9782100549412.fm Page 155 Mercredi, 24. novembre 2010 10:19 10
156
INTRODUCTION LA MTHODE STATISTIQUE
Il est naturel, comme on la fait en statistique descriptive, de dfinir et dtu-
dier des indicateurs (ou caractristiques) des variables alatoires. La motivation
est la mme : la loi de probabilit constitue une grande quantit dinformations,
et est souvent trop riche pour tre apprhende dans sa globabilit. Il est donc
utile den rsumer certains aspects (les mmes que ceux envisags en statisti-
que descriptive) par des valeurs numriques convenablement choisies.
Des indicateurs relatifs aux trois aspects principaux des lois de probabilit
sont dfinis, savoir :
la tendance centrale ;
la dispersion ;
la forme (asymtrie et aplatissement).
Les outils mathmatiques qui interviennent dans la dfinition de ces indi-
cateurs varient dun type de loi lautre. Les lois discrtes finies utilisent les
mmes outils que ceux ncessaires la dfinition des indicateurs des varia-
bles statistiques. Pour les lois discrtes infinies, quelques connaissances sur
les sries numriques (et parfois sur les sries entires) sont utiles. Pour les
lois absolument continues, des notions sur lintgration sont utilises. Cepen-
dant, la signification de ces indicateurs ne dpend pas du type de loi de pro-
babilit considre, ni des techniques mathmatiques utilises.
A. M
ode
Le
mode
dune variable alatoire est la valeur pour laquelle le diagramme en
btons ou la courbe de densit prsente son maximum. On appelle
mode rela-
tif
une valeur correspondant un maximum local du diagramme en btons
ou de la courbe de densit, mais en gnral, le mode est unique. Le mode est
un indicateur de tendance centrale.
B. E
sprance mathmatique
Lesprance mathmatique dune variable alatoire
X
est aussi appele
moyenne ou valeur moyenne de
X
. Elle est gnralement note
m
.
1) Cas discret
Soit
X
une variable alatoire discrte finie :
Valeur de
X
x
1
.....
x
i
.....
x
k
Probabilit
p
1
.....
p
i
.....
p
k
P131-178-9782100549412.fm Page 156 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
157
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
On appelle
esprance mathmatique
ou
moyenne
E
(
X
) de
X
:
titre dillustration, le lecteur peut vrifier que la v.a. de lexemple 1 du
II.B a une moyenne gale 7. On peut remarquer la similitude des dfini-
tions de lesprance mathmatique et de la moyenne arithmtique dune
variable statistique discrte. On a remplac dans la formulation de cette der-
nire les frquences par les probabilits.
Lesprance mathmatique est un nombre rel, mais souvent, pour une
variable alatoire discrte, sa valeur ne correspond pas une des valeurs pos-
sibles de cette variable alatoire.
Exemple
Une loterie comporte 1 000 billets et un seul lot de 10 000
. Si tous les
billets ont t v endus et si le tirage se f ait au hasard , lesprance
mathmatique de la valeur V dun billet sera :
Mais, en f ait, aucun billet ne rapporte 10 : chacun rapporte 0 ou
10 000 . Cependant, si on achte un billet chaque tirage de cette
loterie (en supposant quelle ait lieu rgulirement dans les mmes
conditions), la moyenne des gains sera voisine de 10 au bout dun
grand nombre de tirages ; ce rsultat qui f ait limportance du concept
desprance mathmatique se rfre la loi des grands nombres ( V).
La moyenne dune variable alatoire X a ainsi la signification dun indi-
cateur de tendance centrale de X.
Dans le cas dune variable alatoire X discrte infinie :
sous rserve que la srie de terme gnral x
i
p
i
soit absolument convergente
1
,
sinon, et mme si elle est simplement convergente, on dira que la v.a. X na
pas desprance mathmatique.
1. La srie est absolument convergente si la srie est
convergente.
E X ( ) x
i
p
i
i 1 =
k
=
E V ( ) 10 000
1
1 000
------------- 0
999
1 000
-------------
10
= =
E X ( ) x
i
p
i
i 1 =
=
x
i
p
i
i 1 =
+
x
i
p
i
i 1 =
+
x
i
p
i
i 1 =
+
=
P131-178-9782100549412.fm Page 157 Mercredi, 24. novembre 2010 10:19 10
158
INTRODUCTION LA MTHODE STATISTIQUE
Lesprance mathmatique de la v.a. discrte conditionnelle { =
x
i
},
dfinie au III.B. est appele
esprance conditionnelle
de
Y
sachant que
X
=
x
i
. Elle a pour expression :
De mme :
2) Cas continu
La variable alatoire
X
tant continue de densit
f
, on appelle esprance
mathmatique
E
(
X
) de
X
:
Cette dfinition suppose lintgrale du second membre
absolument con-
vergente
1
, sinon et mme si elle est simplement convergente, on dira que
la v.a.
X
na pas desprance mathmatique.
Remarque
Lesprance mathmatique dune variable
certaine
X
, cest--dire une
v.a. ne prenant quune seule valeur, note
b
, avec la probabilit 1, est
gale cette valeur : E(b) = b. Notons quune telle variable ne mrite
pas exactement le nom de variable alatoire puisquelle peut tre iden-
tifie la constante b.
On appelle variable alatoire centre une variable alatoire dont
lesprance mathmatique est nulle.
3) Proprits de lesprance mathmatique
1. Si a et b sont deux nombres rels : E(aX + b) = a E(X) + b
si une v.a. X possde une esprance mathmatique m, alors la variable
alatoire Y = X m est la variable alatoire centre associe X.
1. Lintgrale est absolument convergente si lintgrale est
convergente.
Y X
E Y X x
i
= y
j
p
j/i
j 1 =
l
=
E X Y y
i
= x
i
p
i/ j
i 1 =
k
=
E X ( ) x f x ( ) x d
+
=
x f x ( ) x d
+
x f x ( ) x d
+
159
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
2. Soit une fonction dfinie sur valeurs dans , alors si X est une v.a.,
(X) est une v.a. ( II.C) dont on peut calculer lesprance sans avoir dter-
miner sa loi.
Cas discret
en supposant toujours que la srie du second mem-
bre est absolument convergente. En particulier :
Cas continu
en supposant toujours lintgrale du second
membre absolument convergente. En particulier :
3. Lesprance dune somme de variables alatoires est gale la somme des
esprances :
E(X + Y) = E(X) + E(Y)
1
re
consquence :
E(X Y) = E(X) + E( Y) = E(X) E(Y)
2
de
consquence :
Soient n variables alatoires X
1
, X
2
,, X
n
ayant la mme esprance math-
matique m. Lesprance de leur somme est gale :
si on dsigne par leur moyenne : , on obtient :
4. Esprance dun produit de variables alatoires
Cas discret
Soit (X, Y) un couple de v.a. discrtes, on a, si la srie du second membre
est absolument convergente :
E X ( ) ( ) x
i
( ) p
i
i
=
E X
2
( ) x
2
p
i
i
=
E X ( ) ( ) x ( ) f x ( ) x d
R
=
E X
2
( ) x
2
f x ( ) x d
R
=
E X
i
i 1 =
n
( ,
, (
j \
E X
i
( )
i 1 =
n
n m = =
X X
1
n
--- X
i
i 1 =
n
= E X ( ) m =
E X Y ( ) x
i
y
i
p
ij
i j ,
=
P131-178-9782100549412.fm Page 159 Mercredi, 24. novembre 2010 10:19 10
160
=
p
ij
p
i
p
j
=
X et Y indpendantes E(X Y) = E(X) E(Y)
var X ( ) E X m ( )
2
=
var X ( ) =
1
2
---
1
4
---
1
4
--- 6
1
3
---
1
2
---
1
6
--- 148
P131-178-9782100549412.fm Page 160 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
161
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Proprits de la variance
1. var(X) est la valeur minimale de , car on montre que :
De cette formule, on dduit :
{var(X) = 0 X est une variable certaine}
la relation usuelle :
2. laide de cette dernire expression de la variance, on montre sans
difficult :
a et b ,
3. La variance dune somme de deux variables alatoires indpendantes
X et Y est gale la somme des variances :
var(X + Y) = var(X) + var(Y)
en effet :
pour deux variables indpendantes, le dernier terme est nul
var(X + Y) = var(X) + var(Y)
1
re
consquence
X et Y indpendantes var(X Y) = var(X) + var( Y) = var(X) + var(Y)
2
de
consquence
Soient n variables alatoires X
1
, X
2
, ,X
n
mutuellement indpendantes
et de mme variance
2
, la variance de leur somme est gale n
2
:
Si on dsigne par leur moyenne : , on obtient :
E X b ( )
2
( ,
j \
E X b ( )
2
( ,
j \
var X ( ) E X ( ) b
( ,
j \
2
+ =
var X ( ) E X
2
( ) E X ( )
( ,
j \
2
=
var aX b + ( ) a
2
var X ( ) =
aX b +
a
X
=
var X Y + ( ) E X Y E X Y + ( ) + ( )
2
( ) =
E X E X ( ) (Y E Y ( ) + ( )
2
=
E X E X ( ) ( )
2
( ) E Y E Y ( ) ( )
2
( ) + =
2E X E X ( ) ( ) Y E Y ( ) ( ) ( ) +
var
X
( )
var Y
( )
2E X E X
( )
( )
Y E Y
( )
( )
+ + =
var X
i
i 1 =
n
( ,
, (
j \
i
1
=
n
var X
i
( ) n
2
= =
X X
1
n
--- X
i
i 1 =
n
=
var X ( )
2
n
----- =
P131-178-9782100549412.fm Page 161 Mercredi, 24. novembre 2010 10:19 10
162
INTRODUCTION LA MTHODE STATISTIQUE
Une variable alatoire
rduite
est une variable alatoire dont lcart-type
est gal 1. Si
X
a une moyenne
m
et un cart-type
, on peut lui associer
une variable alatoire
Y
centre rduite
:
D. C
ovariance de deux variables alatoires,
coefficient de corrlation linaire
On appelle
covariance
dun couple de variables alatoires
X
et
Y
la quantit :
var(
X
+
Y
) = var(
X
) + var(
Y
) + 2cov(
X
,
Y
)
On dduit de la proprit 4 de lesprance mathmatique :
Des proprits de la covariance, on dduit que le coefficient de corrlation
linaire est
invariant
par changement dorigine et dchelle
et quil est com-
pris entre 1 et + 1. On peut montrer quil est gal
+
1 si et seulement si
X
et
Y
sont lies par une relation linaire. Dautre part, si
X
et
Y
sont indpen-
dantes, leur coefficient de corrlation linaire est nul, mais la rciproque nest
pas vraie. On retrouve lanalogie de ce coefficient
avec le coefficient de
corrlation linaire
r
dfini entre deux variables statistiques au chapitre 3, II.A.
X
et
Y
indpendantes cov(
X
,
Y
) = 0
Proprits de la covariance
1.
cov(X,Y) = cov(Y, X)
2. cov(X, X) = var(X)
3. a, b, c et d :
4. , cette ingalit est une consquence
de lingalit de Schwarz.
On appelle coefficient de corrlation linaire entre X et Y le rapport :
Y
X m
-------------- =
cov X Y , ( ) E X E X ( ) ( ) Y E Y ( ) ( ) E XY ( ) E X ( ) E Y ( ) = =
cov aX b cY , d + + ( ) ac cov X Y , ( ) =
var aX bY c + + ( ) a
2
var X ( ) b
2
var Y ( ) 2ab cov X Y , ( ) + + =
cov X Y , ( ) var X ( ) var Y ( )
cov X Y , ( )
------------------------ =
P131-178-9782100549412.fm Page 162 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
163
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
E. Moment, fonction gnratrice des moments
1) Moment
On appelle moment m
k
dordre k (k entier positif) dune variable alatoire X
lesprance mathmatique de X
k
si elle existe :
Lesprance mathmatique nest autre que le moment dordre 1.
On appelle moment centr
k
dordre k (k entier positif) dune variable
alatoire X lesprance mathmatique de ( X E(X))
k
, si elle existe :
La variance nest autre que le moment centr dordre 2 ; le moment centr
dordre 1 est toujours nul.
2) Moment factoriel
On appelle moment factoriel
[k]
dordre k (k entier positif) dune variable
alatoire X lesprance mathmatique de si elle
existe :
Le moment factoriel dordre k est une combinaison linaire des moments
non centrs m
1
, m
2
, , m
k
Relations entre moments et moments factoriels jusqu lordre 4 :
3) Fonction gnratrice des moments
La fonction gnratrice des moments va tre prsente en se restreignant
une variable alatoire discrte valeurs possibles entires non ngatives.
Cette fonction caractrise la loi dune variable alatoire, et elle permet de
plus dobtenir les moments factoriels par drivation.
m
k
E X
k
( ) =
k
E X E X ( )
( ,
j \
k
=
X X 1 ( )..... X k 1 + ( )
k [ ]
E X X 1 ( )..... X k 1 + ( )
( ,
j \
=
1 [ ]
m
1
=
2 [ ]
m
2
m
1
=
3 [ ]
m
3
3m
2
2m
1
+ =
4 [ ]
m
4
6m
3
11m
2
+ 6m
1
=
m
1
1 [ ]
=
m
2
2 [ ]
1 [ ]
+ =
m
3
3 [ ]
3
2 [ ]
1 [ ]
+ + =
m
4
4 [ ]
6
3 [ ]
7
2 [ ]
11
1 [ ]
+ + =
P131-178-9782100549412.fm Page 163 Mercredi, 24. novembre 2010 10:19 10
164
INTRODUCTION LA MTHODE STATISTIQUE
On appelle
fonction gnratrice
g
X
des moments dune variable alatoire
X
discrte, valeurs possibles
entires non ngatives
, lesprance mathma-
tique de
u
X
,
u
tant compris entre 0 et +1 :
pour
Cette proprit de la fonction gnratrice est utilise pour le calcul des
moments factoriels qui permettent de calculer les moments non centrs, puis
centrs.
F. I
ndicateurs de forme
Ces indicateurs donnent des informations sur la forme de la loi de
X
, et en
particulier, ils la comparent la loi normale (chapitre 7, II.B). Ils sont direc-
tement inspirs des coefficients dasymtrie (en anglais
skewness
) et dapla-
tissement (
kurtosis
) dfinis en statistique descriptive.
Fisher a dfini les coefficients dasymtrie et daplatissement dune varia-
ble alatoire
X
, dont les premiers moments existent, par :
coefficient dasymtrie
coefficient daplatissement
3
Les moments centrs dordre impair tant nuls pour une distribution
symtrique,
1
est nul si la distribution de
X
est symtrique par rapport la
Proprits de la fonction gnratrice des moments
1.
Pour , la fonction
g
X
est continue, car la srie qui la dfinit
est uniformment convergente en
u
:
2.
g
X
(0) = 0 et
g
X
(1) = 1
3.
Si le moment factoriel dordre
k
de
X
existe, on montre que pour
u
compris entre 0 et 1:
en notant la drive dordre
k
de la fonction
g
X
u ( ) E u
X
( ) u
i
p
i
i 0 =
+
= = 0 u 1
0 u 1
g
X
u ( ) u
i
p
i
i 0 =
+
p
i
i 0 =
+
1 = =
g
X
k ( )
u ( ) i i 1 ( )..... i k 1 + ( )u
i k
[ ] p
i
i k =
+
= g
X
k ( )
1 ( )
k [ ]
=
g
X
k ( )
g
X
2
3/2
-------- =
2
2
----- =
P131-178-9782100549412.fm Page 164 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
165
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
moyenne m, mais la rciproque nest pas vraie :
1
peut tre nul sans que la
loi de X soit symtrique. Si la distribution de X est unimodale tale vers la
droite,
1
est positif. Dans le cas contraire,
1
est ngatif.
Le coefficient daplatissement
2
est nul pour une variable distribue selon
une loi normale, mais l encore, la rciproque nest pas vraie. Selon que la
loi de X est plus ou moins aplatie que la loi normale,
2
sera positif ou ngatif.
Plus que laplatissement, ce coefficient mesure limportance des queues
dune distribution.
Ces coefficients
1
et
2
sont invariants par changement dorigine et
dchelle.
G. Quantiles
Comme pour les variables statistiques, on dfinit pour les variables alatoires
les quantiles, encore appels fractiles, qui sont indicateurs de position partir
desquels on peut dfinir des indicateurs de tendance centrale et de dispersion.
On appelle quantile dordre (0 1) dune variable alatoire X de fonc-
tion de rpartition F toute valeur x
) = ( P(X x
) = )
Notons que si F est continue et strictement croissante, le quantile x
, pour
donn, existe et est unique. Si F nest pas continue et strictement crois-
sante, il peut ne pas exister ou il peut y avoir plusieurs solutions possibles.
La mdiane Me dune v.a. X est le quantile dordre 1/2 : Me = x
0,5
Le premier quartile , not Q
1
, est le quantile dordre 1/4. Le troisime
quartile, not Q
3
, est le quantile dordre 3/4. La mdiane est le second quar-
tile. On dfinit aussi les dciles : le i
me
dcile D
i
est le quantile dordre i /10
(1 i 9).
Comme en statistique descriptive, on peut dfinir plusieurs indicateurs
partir des quantiles :
des indicateurs de tendance centrale comme par exemple, la mdiane
Me ou encore le milieu de lintervalle interquartile :
des indicateurs de dispersion comme, par exemple, ltendue interquar-
tile (Q
3
Q
1
) ou lesprance mathmatique des carts absolus la mdiane :
des indicateurs de forme comme, par exemple :
1
2
--- Q
1
Q
3
+ ( )
E X Me min
b
E X b = ( )
Q
3
Q
1
2Q
2
+
Q
3
Q
1
-----------------------------------
P131-178-9782100549412.fm Page 165 Mercredi, 24. novembre 2010 10:19 10
166
P X
n
x = ( )
n
lim P X x = ( ) =
P131-178-9782100549412.fm Page 166 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
167
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Plus restrictive que la convergence en loi, la convergence en probabilit
est dfinie ainsi :
Dans le cas de la convergence en probabilit vers une v.a. certaine, on
peut se ramener des conditions portant sur les deux premiers moments des
v.a. X
n
. Pour passer au cas gnral de la convergence de X
n
vers X, on con-
sidre alors la convergence vers 0 de la suite { X
n
X}.
Pour le montrer, nous allons dabord tablir un rsultat intermdiaire.
Ingalit de Bienaym-Tchbychev
Soit Z une v.a. de moyenne et dcart-type , on a alors pour tout nom-
bre rel k :
Supposant la variable Z continue, soit lensemble des valeurs z de Z
tels que , on peut crire, en partant de la dfinition de la
variance de Z :
et lingalit sen dduit. La dmonstration pour une v.a. discrte, identique
dans son principe, est laisse au lecteur.
Appliquons maintenant ce rsultat dans le contexte de la convergence en
probabilit dune suite de v.a. Z
n
vers 0. En posant alors k = , lingalit
de Bienaym-Tchebychev scrit :
On voit par consquent que si la suite des moyennes E(Z
n
) converge vers
0, et si la suite des variances var( Z
n
) converge aussi vers 0, alors on a :
ce qui montre que la suite de v.a. { Z
n
} converge en probabilit vers la v.a.
certaine 0.
Une suite X
n
de v.a. relles converge en probabilit vers la v.a. X, si on a :
pour tout > 0
On crit alors ou galement plim X
n
= X
P X
n
X > ( )
n
lim 0 =
X
n
X
P
P Z k > ( )
1
k
2
----
Z k >
2
var Z ( ) z ( )
2
f z ( ) dz z ( )
2
f z ( ) dz
>
R
= =
2
k
2
2
f z ( ) dz
k
2
2
f z ( ) dz
k
2
2
P Z k > ( ) = =
P Z
n
E Z
n
( ) >
( ,
j \
var Z
n
( )
2
------------------
P Z
n
> ( )
n
lim 0 =
P131-178-9782100549412.fm Page 167 Mercredi, 24. novembre 2010 10:19 10
168
169
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
notera aussi que la convergence en probabilit nimplique pas la convergence
en moyenne dordre 1, cest--dire la convergence des moyennes.
Lensemble de ces trois modes de convergence est donc hirarchiquement
ordonn.
Mais il existe dautres modes de convergence, quil est plus difficile de
placer dans une telle squence hirarchique.
Ainsi, la convergence presque sre est dfinie comme suit.
La suite de v.a. relles X
n
converge presque srement vers la v.a. relle
X si on a :
Ce mode de convergence implique aussi la convergence en probabilit,
donc galement la convergence en loi. Il nest pas li la convergence en
moyenne dordre p, mais les deux modes de convergence peuvent cependant
exister simultanment pour une suite de v.a. relles X
n.
Le diagramme de la figure 5.9 montre les relations que lon peut tablir
entre les diffrents modes de convergence.
Dautres modes de convergence (dont ltude est en dehors du cadre de
cet ouvrage) sont utiliss pour obtenir certaines proprits en thorie des pro-
babilits, parmi lesquelles on citera :
la convergence complte ;
la convergence uniforme presque sre.
P X
n
X ( )
n
lim 0 =
( ,
j \
1 =
Convergence
en moyenne dordre p
Convergence
en moyenne dordre q < p
Convergence
en probabilit
Convergence en loi
Convergence
presque sre
Figure 5.9 Hirarchie des diffrents modes de convergence
P131-178-9782100549412.fm Page 169 Mercredi, 24. novembre 2010 10:19 10
170
n
lim m =
1
n
2
-----
i
2
i
1
=
n
n
lim 0 =
1
n
--- X
i
m
P
i 1 =
n
1
n
--- m
i
i 1 =
n
n
lim m =
i
2
i
2
------
i
1
=
n
n
lim <
1
n
--- X
i
m
p. s
i 1 =
n
P131-178-9782100549412.fm Page 170 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
171
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
O
n
n
o
u
b
l
i
e
r
a
p
a
s
:
C
a
s
d
i
s
c
r
e
t
C
a
s
c
o
n
t
i
n
u
L
o
i
o
u
d
i
s
t
r
i
b
u
t
i
o
n
d
e
p
r
o
b
a
b
i
l
i
t
u
n
e
v
a
r
i
a
b
l
e
a
l
a
t
o
i
r
e
r
e
l
l
e
L
e
s
n
e
m
e
n
t
s
m
e
n
t
a
i
r
e
s
s
o
n
t
:
{
X
=
x
i
}
,
x
i
,
i
I
,
I
a
v
e
c
:
P
(
X
=
x
i
)
=
p
i
>
0
e
t
L
a
l
o
i
d
e
p
r
o
b
a
b
i
l
i
t
e
s
t
d
f
i
n
i
e
p
a
r
l
e
s
c
o
u
p
l
e
s
:
{
x
i
,
p
i
}
,
i
a
,
b
,
a
<
b
:
P
(
X
[
a
;
b
]
)
a
v
e
c
P
(
X
)
=
X
p
r
e
n
d
s
e
s
v
a
l
e
u
r
s
d
a
n
s
u
n
i
n
t
e
r
v
a
l
l
e
(
o
u
u
n
e
r
u
n
i
o
n
d
i
n
t
e
r
v
a
l
l
e
s
)
d
e
,
o
u
d
a
n
s
t
o
u
t
e
n
t
i
e
r
D
e
n
s
i
t
d
e
p
r
o
b
a
b
i
l
i
t
f
X
:
P
(
X
=
x
)
=
0
a
,
b
,
a
<
b
:
P
(
X
[
a
;
b
]
)
=
P
(
X
[
a
;
b
[
)
=
P
(
X
]
a
;
b
]
)
=
P
(
X
]
a
;
b
[
)
=
E
s
p
r
a
n
c
e
m
a
t
h
m
a
t
i
q
u
e
s
i
s
i
M
o
m
e
n
t
d
o
r
d
r
e
k
:
m
k
=
E
(
X
k
)
s
i
s
i
p
i
i
I
1
=
p
i
i
I
*
=
I
*
i
I
x
i
[
a
;
b
]
(
)
=
]
a
b
]
;
P
X
b
(
)
P
X
a
(
)
F
X
b
(
)
F
X
a
(
)
=
1
.
f
x
(
)
0
2
.
f
p
r
e
s
q
u
e
c
o
n
t
i
n
u
e
p
a
r
t
o
u
t
3
.
f
x
(
)
x
d
1
=
F
X
b
(
)
F
X
a
(
)
f
x
(
)
x
d
a b
=
E
X
(
)
x
i
p
i
i
I
=
x
i
p
i
+
<
i
I
E
X
(
)
x
f
x
(
)
x
d
=
x
f
x
(
)
x
d
+
<
m
k
x
i k
p
i
i
I
=
x
i
k
p
i
i
I
<
m
k
x
k
f
x
(
)
x
d
=
x
k
f
x
(
)
x
d
+
<
P131-178-9782100549412.fm Page 171 Mercredi, 24. novembre 2010 10:19 10
172
INTRODUCTION LA MTHODE STATISTIQUE
Il y a
au moins
une rponse exacte par question.
1. Dans lensemble des classes Terminales dun lyce, 14 % des lves tu-
dient le russe, 68 % ntudient ni le russe ni lespagnol, 2 % tudient ces deux
langues :
a) 20 % des lves tudient au moins lespagnol
b) 16 % des lves tudient seulement le russe
c) 18 % des lves tudient seulement lespagnol
d) 32 % des lves tudient le russe ou lespagnol
2. Soient deux vnements
A
et
B
dun mme espace de probabilit tels que :
A
B
=
a)
P
(
A
B
) = 0
b)
A
et
B
sont deux vnements incompatibles
c)
A
et
B
sont deux vnements indpendants
d)
A
et
B
sont la fois incompatibles et indpendants
3. Soient deux vnements
A
et
B
dun mme espace de probabilit tels que :
P
(A) = 0,3 P(B) = 0,2 et P(A B) = 0,09
a) P( ) = 1,50 et P( ) = 0,60
b) P( ) = 0,30 et P( ) = 0,45
c) P( ) = 0,45 et P( ) = 0,30
d) P( ) = 0,27 et P( ) = 0,18
4. Soient deux vnements indpendants A et B dun mme espace de probabilit
tels que : P(A) = 0,3 et P(B) = 0,2
a) P(A B) = 0,5
b) P(A B) = 0,06
c) P(A B) = 0,06
d) P(A B) = 0,44
5. Trois chasseurs visent simultanment un mme livre et tirent en mme
temps. Soient p
1,
p
2,
p
3
les probabilits respectives de toucher le livre pour cha-
que chasseur, alors la probabilit que le livre soit touch par au moins un des
chasseurs :
a) peut tre infrieure p
1
b) est gale ( p
1
+ p
2
+ p
3
)
c) est gale (1 (1 p
1
)(1 p
2
)(1 p
3
))
d) est comprise entre ( p
1
p
2
p
3
) et (p
1
+ p
2
+ p
3
)
Testez-vous (les rponses sont donnes page 286)
A B B A
A B B A
A B B A
A B B A
P131-178-9782100549412.fm Page 172 Mercredi, 24. novembre 2010 10:19 10
MODLE PROBABILISTE ET VARIABLE ALATOIRE
173
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
6. Soient deux vnements A et B dun mme espace de probabilit tels que :
P(A) = 0,6 P(B) = 0,5 et P(A B) = 0,1
a) les vnements A et B sont indpendants
b) les vnements A et B sont incompatibles
c) lvnement A B est certain
d) P( ) = 0,2
7. Si X est une variable alatoire continue, on a, quelque soient les nombres rels a
et b :
a) P(X = a) = 0
b) P(a < X < b) = P(a < X b)
c) P(a < X < b) P(a X < b)
d) P(X > a) = 1 P(X < a)
8. Une fonction de rpartition :
a) est une fonction strictement croissante
b) est dfinie sur tout
c) prend ses valeurs dans lintervalle [0 ; 1]
d) est toujours continue et drivable
9. La loi de probabilit dune variable alatoire :
a) est entirement dfinie par la fonction de rpartition
b) est entirement dfinie par la fonction de densit
c) est entirement dfinie par lesprance mathmatique et la variance
d) est associe un espace probabilis
10. Lesprance mathmatique dune variable alatoire relle :
a) est toujours gale lune des valeurs possibles de la variable alatoire
b) est un nombre rel
c) est gale la mdiane si la distribution de probabilit est symtrique
d) existe toujours si la variable alatoire est discrte
11. Soient X une variable alatoire, a et b deux nombres rels :
a) E(aX + b) = aE(X) + b
b) var( X + b) = var(X) + b
c) P(X > E(X)) = 0,5
d) Y = aX + b F
Y
(y) =
A B
F
X
y b
a
-----------
( ,
j \
P131-178-9782100549412.fm Page 173 Mercredi, 24. novembre 2010 10:19 10
174
175
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
16. La loi jointe des deux variables alatoires X et Y est donne dans le tableau
suivant :
a) le coefficient dasymtrie de la v.a. X est nul
b) var(X) = 0,25
c) E( = 0) = 1
d) X et Y sont indpendantes
17. La loi jointe dun couple ( X, Y) de variables alatoires discrtes finies :
a) est entirement spcifie par le tableau donnant les x
i
, y
j
et p
ij
b) est entirement spcifie par les k lois conditionnelles { = x
i
}
c) est entirement spcifie par les l lois conditionnelles { = y
j
}
d) est entirement spcifie par les esprances, variances de X et Y et leur covariance
Y
X
0 1 2
0 0,15 0,20 0,15
1 0,10 0,25 0,15
Y X
Y X
X Y
P131-178-9782100549412.fm Page 175 Mercredi, 24. novembre 2010 10:19 10
176
177
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Exercice 5.6
La demande journalire X dun bien fabriqu par une entreprise est une v.a. qui suit
la loi suivante : P(X = 0) = 1/6 P(X = 1) = 1/6 P(X = 2) = 1/2 P(X = 3) = 1/6.
On suppose que le profit, fonction de la demande et du cot, vrifie la relation :
(X) = p.X C, p tant le prix unitaire du bien fix 600 , C tant le cot suppos
indpendant de la demande et gal 800 .
1. Calculez lesprance et lcart-type du profit. Quelle est la signification de lesp-
rance du profit ?
2. Dterminez la fonction de rpartition du profit et tracez son graphe.
Exercice 5.7
Une compagnie dassurances admet pour lanne venir et pour un certain type de
contrat, que 60 % des assurs nauront pas de sinistre. Par ailleurs on suppose que le
cot moyen de rglement des accidents est de 500 avec une probabilit de 0,25, de
1 500 avec une probabilit de 0,1, de 2 500 avec une probabilit de 0,05. Un
assur dclare au plus un sinistre de ce type dans lanne.
1. Pour esprer un bnfice moyen de 50 par assur, quel doit tre le montant de
la cotisation ?
2. Quelle est la probabilit pour que le cot de rglement total de deux assurs pris
au hasard nexcde pas le montant encaiss de leurs cotisations (au tarif dtermin
au 1) ?
Exercice 5.8
Dans une banque, un systme de guichet automatique a t mis en place et permet de
faire des oprations bancaires courantes : extrait de compte, remise de chque, retrait.
Le nombre de clients utilisant le guichet automatique dans un intervalle de temps de
5 minutes est une v.a. X telle que :
P(X = 0) = 0,3, P(X = 1) = 0,3 et P(X = 2) = 0,4
1. Calculez E(X) et var(X).
2. On suppose que les nombres de clients utilisant le guichet automatique sur deux
priodes de 5 minutes ne se chevauchant pas sont indpendants. Soit Y la v.a.
gale au nombre de clients utilisateurs sur une priode dune heure. La v.a. Y peut
scrire :
o X
i
dsigne le nombre de clients utilisateurs au cours de i
e
intervalle de 5 minutes
lorsquon dcoupe lheure en 12 intervalles de 5 minutes ; chaque X
i
suit la mme loi
que X.
Quelles sont les valeurs possibles de Y ?
Calculez E(Y), var(Y) et P(Y = 0).
3. Chaque client ne peut effectuer plus de 2 oprations au guichet automatique. La
banque a constat que chaque client effectue :
3 fois sur 10 : 2 oprations
6 fois sur 10 : 1 opration
1 fois sur 10 : 0 opration (compte non approvisionn, par exemple)
Soit Z, le nombre doprations effectues dans un intervalle de temps de
5 minutes.
Y X
i
i 1 =
12
=
P131-178-9782100549412.fm Page 177 Mercredi, 24. novembre 2010 10:19 10
178
179
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
6. L
es principaux
modles statistiques
discrets
Notion de modle
Par modle on entend une reprsentation simplifie dun processus,
dun systme.
Dans les domaines des sciences conomiques et de gestion, on cherche
disposer de modles pour analyser, prvoir et dcider. La nature mme
des facteurs intervenant en gestion et en conomie explique le caractre
alatoire, cest--dire non dterministe, donc non contrlable totale-
ment du modle quon cherche dfinir pour reprsenter le systme
tudi.
Dans la plupart des cas, on dispose dun ensemble fragmentaire de don-
nes partir desquelles on cherche une reprsentation globale. Cest l
une des dmarches classiques en statistique, dduire des informations
fournies par un chantillon une ou plusieurs caractristiques concernant
la population do lon extrait lchantillon ; il sagit l de l
infrence sta-
tistique
.
La construction dun modle est destine donc analyser, prvoir ou
dcider partir dun support rigoureux et fiable ; sa recherche est ainsi
un travail formel. Pour laborder il est ncessaire de dfinir avec prcau-
tion tous les lments dont on dispose :
la
population
pour laquelle le modle est destin ;
l
individu
, ou unit lmentaire de la population ;
le
caractre
tudi sur chacun des individus, et qui dfinit le phno-
mne tudi ;
la nature de ce caractre (qualitatif, quantitatif, discret ou continu).
partir de l, on peut associer par une dmarche analogue celle vue
en statistique descriptive une variable alatoire chaque individu de
la population. Cest cette variable alatoire et sa distribution de proba-
bilit qui vont constituer les lments du modle ; on dit que cette varia-
ble alatoire est la variable gnrique de la population (on dit aussi
P179-210-9782100549412.fm Page 179 Jeudi, 18. novembre 2010 12:09 12
180
INTRODUCTION LA MTHODE STATISTIQUE
variable parente) puisque tout individu tant quon ne connat pas ses
caractristiques individuelles peut tre reprsent par une variable
alatoire de mme loi quelle. Il sera alors possible dtudier un ensem-
ble dindividus extrait de la population gnrale comme un ensemble de
variables alatoires ayant toutes comme loi, la loi de la variable
gnri-
que
de la population. Lorsque ces variables sont indpendantes entre
elles, on dit quelles forment un chantillon de la variable
parente
; cette
condition dindpendance est quivalente un tirage avec remise des
individus formant lchantillon au sein de la population.
Modles empiriques (ou exprimentaux)
Ce sont des modles qui sont construits sur lobservation dune srie sta-
tistique. Leur validit dpend tout particulirement de la taille de la
srie statistique des observations. On recherche ici les caractristiques
essentielles de la srie observe (moyenne, mdiane, mode, quartiles,
symtrie ou non). Parmi les reprsentations en lois de probabilit con-
nues, on en cherche une qui soit cohrente avec les donnes observes,
du point de vue de ces caractristiques. On procde par analogie.
Modles thoriques (ou analytiques)
On tudie le phnomne en essayant de le dcomposer en composantes
lmentaires directement reprsentes et de faon naturelle par une loi
de probabilit (telle que la loi de Bernoulli ou la loi uniforme).
Le schma binomial comme le schma hypergomtrique (
infra
II.B et
II.C), ou encore la loi gomtrique ( II.D) sont des exemples de cette
approche.
Classification des modles
On doit distinguer les
modles discrets
pour lesquels les diverses occu-
rences sont ponctuelles et parfaitement bien isoles (spares) les unes
des autres, des
modles continus
pour lesquels les occurences sont beau-
coup trop nombreuses pour pouvoir tre isoles ponctuellement et ne
peuvent tre tudies que par classes de valeurs. lintrieur des mod-
les discrets, on distingue encore les modles discrets finis (cest--dire
dont le domaine des valeurs est de cardinal fini) des modles discrets
infinis dnombrables.
Il existe dautres classifications mais qui concernent des modles qui ne
sont pas abords dans ce cours du fait de leur plus grande complexit et
de leur utilisation moins frquente.
De trs nombreux modles (discrets ou continus) ont t construits pour
correspondre des situations pratiques dtermines. Nous prsentons
dans ce chapitre et dans le suivant ceux qui sont le plus frquemment
utiliss, mais bien entendu il ne faudra pas croire que tout phnomne
puisse tre rapport aux quelques modles dcrits ici.
P179-210-9782100549412.fm Page 180 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS
181
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
I. L
es modles lmentaires
A. L
e schma de Bernoulli
Toute preuve alatoire nayant que deux rsultats possibles peut tre consi-
dre comme une situation dalternative : si lun des deux rsultats ne se ra-
lise pas, cest que lautre le sera obligatoirement. En dautres termes, dans
une telle situation, les deux rsultats possibles sont complmentaires lun de
lautre, la somme de leurs probabilits tant gale 1.
Il sagit l dune situation extrmement frquente puisque ds quon cherche
mettre en vidence la prsence dun caractre particulier pour les individus
dune population, tout individu de cette population peut tre dcrit selon une
telle alternative : ou bien il prsente ce caractre ou bien il ne le prsente pas.
Ainsi par exemple lorsquon cherche valuer limpact dune campagne
publicitaire sur les achats dun nouveau produit, on peut associer chaque
individu sond (parmi ceux ayant acquis ce produit aprs la campagne publi-
citaire) trois variables alatoires :
la premire met en vidence si lindividu possdait dj auparavant ce produit ;
la seconde met en vidence si lindividu a t touch par la campagne
publicitaire ;
la troisime dcrit si lacquisition du produit a t induite par la campa-
gne publicitaire.
Il sagit l dune possibilit de formalisation (et bien entendu ce nest pas
la seule !), mais chacune de ces trois variables correspond bien une situa-
tion dalternative. Ltude des effets ventuels de cette campagne publicitaire
met en uvre les outils appropris de lanalyse statistique.
Dans ces situations de dualit, lune des deux issues est celle que privil-
gie ltude, elle correspond la positivit dun index, la prsence du carac-
tre pour chaque individu de la population faisant lobjet de ltude, par
opposition son absence. Les alas quon peut dfinir dans ces cas tant des
alas qualitatifs, il faut trouver le codage le plus appropri. Cest cet aspect
de prsence/absence qui limpose, et on code par 0 et 1 les deux issues pos-
sibles,
celle quon cherche mettre en vidence tant code
1.
On dfinit ainsi une variable alatoire qui ne peut prendre que
deux valeurs, savoir 0 et 1. Elle porte alors le nom de
variable alatoire de
Bernoulli
1
, et possde alors une loi de probabilit trs simple pour laquelle
p
1. Jacques Bernoulli (1654-1705), scientifique suisse a beaucoup contribu au dveloppement
du calcul des probabilits (loi des grands nombres) et aux statistiques.
P179-210-9782100549412.fm Page 181 Jeudi, 18. novembre 2010 12:09 12
182
INTRODUCTION LA MTHODE STATISTIQUE
reprsente la probabilit de lissue quon veut mettre en vidence (notation
conventionnelle). On note souvent
q
= 1
p
la probabilit de lautre terme
de lalternative. Le terme de variable alatoire de Bernoulli est synonyme de
celui de
variable alatoire
indicatrice
(indiquant la ralisation ventuelle de
lvnement de probabilit
p
). Il faut bien se souvenir quune variable de
Bernoulli est dfinie par les 2 valeurs 0 et 1 (et celles-l seulement ; toute
autre paire de valeurs ne permet plus lappellation de variable de Bernoulli ;
ceci se justifie comme on le verra dans la suite pour la construction des
modles binomial, hypergomtrique et de Pascal). Le tableau de la loi de
probabilit dune telle variable est parfaitement connu ds que
p
lest.
La loi
de Bernoulli dpend du seul paramtre p
.
Le diagramme en btons et le graphe de la fonction de rpartition dune
variable de Bernoulli (
cf.
figure 6.1) sont particulirement simples.
Lesprance dune variable de Bernoulli de paramtre
p
est gale
p
. En
effet :
E
(
X
) = 0 (1
p
) + 1
p
=
p
Le moment dordre 2 est gal aussi
p
, puisque :
E
(
X
2
) = 0
2
(1
p
) + 1
2
p
=
p
Par consquent, la variance est gale
pq
:
var(
X
) =
E
(
X
2
) (
E
(
X
))
2
=
p
p
2
=
p
(1
p
) =
pq
On remarquera au passage que la fonction
x
(1
x
) dont la drive est gale
(1 2
x
) a un maximum pour
x
= 1/2, maximum gal 1/4. Par consquent,
Valeur de
X
0 1
Probabilit
q
= 1
p p
1p
p
1p
1 1
0 1 0 1
Diagramme en btons Fonction de rpartition
Figure 6.1 Loi de Bernoulli
P179-210-9782100549412.fm Page 182 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS
183
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
la variance dune variable de Bernoulli est au plus gale 1/4, et lcart-type
est au plus gal 1/2.
En conclusion, on retiendra que toute situation alatoire dalternative
peut tre reprsente par une variable de Bernoulli dont le paramtre
p
,
gal la probabilit de lissue quon cherche mettre en vidence, est
gal lesprance, la variance tant gale
p
(1
p
)
.
B. L
a loi uniforme discrte
Un exemple particulier de loi de Bernoulli est celui pour lequel
p
=
q
= 1/2.
Dans ce cas, les deux termes de lalternative pouvant se prsenter lissue
de lpreuve alatoire sont quiprobables.
Cette situation dquiprobabilit
correspond souvent des situations dans lesquelles on ne dispose daucune
information permettant de mieux apprhender lvnement auquel on sint-
resse
.
La loi uniforme discrte en est la gnralisation. On suppose cette fois que
lexprience alatoire possde
k
issues distinctes, possdant chacune la mme
chance dtre ralise. On dfinit alors dans ce contexte une variable alatoire
X
pouvant prendre toutes les valeurs entires comprises entre 1 et
k
, chacune
de ces valeurs tant associe lune des
k
issues de lpreuve alatoire. On
peut donc crire dune part :
et dautre part,
P
(
X
=
i
) tant constante, on peut la dsigner par
p
.
On en dduit :
et la probabilit commune
p
est gale 1/ k
La loi de probabilit de cette variable alatoire est rsume dans le tableau
suivant :
On dduit les caractristiques essentielles :
Valeur de X 1 2 k
Probabilit 1/ k 1/ k 1/ k
P X i = ( )
i 1 =
k
P
k
U
i =1
X i
=
( )
( ,
, (
, (
j \
1
= =
1 P X i = ( )
i 1 =
k
p k =
i 1 =
k
p = =
E X ( ) i
1
k
---
i 1 =
k
1
k
--- i
i 1 =
k
1
k
---
k k 1 + ( )
2
--------------------
k 1 +
2
------------ = = = =
P179-210-9782100549412.fm Page 183 Jeudi, 18. novembre 2010 12:09 12
184
INTRODUCTION LA MTHODE STATISTIQUE
autrement dit, lesprance de cette variable alatoire se situe lexact milieu
des valeurs possibles. Ce rsultat est tout fait naturel compte tenu de lqui-
probabilit.
Dautre part :
do lexpression de la variance :
En ce qui concerne ces rsultats, on notera quils sont obtenus pour une
loi uniforme discrte dont les valeurs sont les entiers compris entre 1 et
k
(au
sens large). Par consquent, ils peuvent sappliquer toute situation alatoire
k
issues quiprobables ds que celles-ci peuvent tre codes par les nom-
bres 1, 2, ,k. Si on doit adopter un autre codage, les valeurs de lesprance
et de la variance (comme de tout autre moment) seront modifies puisquelles
dpendent des valeurs possibles de la variable alatoire.
On peut encore donner la fonction gnratrice des moments de cette varia-
ble alatoire uniforme discrte. On a :
ce qui permet dobtenir les moments successifs, mais aussi de retrouver les
rsultats prcdents. On constate aussi par ailleurs que les moments factoriels
dordre strictement suprieur
k
sont nuls :
[
n
]
(
X
) ds que
n
>
k
On ajoutera simplement pour terminer que le diagramme en btons de
cette loi est form de btons de mme hauteur, et que le graphe de la fonction
cumulative est form de marches descalier galement espaces (lespace
entre deux dentre elles tant de 1/
k
) et de mme largeur (lunit).
II. L
es schmas de Bernoulli itratifs
Le schma de Bernoulli est le plus simple des modles probabilistes, cependant
il est fondamental. Ceci est d au fait que le plus grand nombre de situations
alatoires peuvent se dcomposer en successions dpreuves lmentaires de
Bernoulli. On nenvisagera ici que la situation o le rsultat du phnomne
complexe initial est gal la somme des rsultats des preuves lmentaires
de Bernoulli.
E X
2
( ) i
2
1
k
---
i 1 =
k
1
k
--- i
2
i 1 =
k
1
k
---
k k 1 + ( ) 2k 1 + ( )
6
----------------------------------------
k 1 + ( ) 2k 1 + ( )
6
------------------------------------- = = = =
var X ( ) E X
2
( ) E X ( ) [ ]
2
k 1 + ( ) 2k 1 + ( )
6
-------------------------------------
k 1 + ( )
2
4
-------------------
k
2
1
12
------------- = = =
g
X
u ( ) E u
X
( ) u
i
i 1 =
k
1
k
--- = =
P179-210-9782100549412.fm Page 184 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS
185
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Dans ce cadre, on tudiera une succession dpreuves de Bernoulli :
en nombre fix, et avec indpendance schma binomial,
en nombre fix et sans indpendance schma hypergomtrique,
en nombre alatoire, jusqu ce que lon ait obtenu pour la 1
re
fois
lissue recherche de lalternative ainsi rpte schma gomtrique,
en nombre alatoire, jusqu ce que lon ait obtenu pour la k
me
fois
lissue recherche de lalternative ainsi rpte schma de Pascal.
Les deux premiers cas sont de nature totalement diffrente des deux der-
niers, car le nombre des itrations du modle lmentaire de Bernoulli est,
pour les premiers, connu au dpart, alors quil est la quantit alatoire pour
les derniers.
A. Le schma binomial
Soit par exemple, une population dans laquelle une proportion p dindividus
prsente un caractre donn. On se pose la question de savoir si un chan-
tillon
1
de n individus choisis au hasard dans la population a de grandes chan-
ces de contenir k individus ayant le caractre.
Chaque individu de la population (et donc de lchantillon) est prsent
dans ce problme par une alternative : il possde le caractre tudi ou non.
Il est parfaitement justifi de lui associer une variable de Bernoulli prenant
la valeur 1 sil a le caractre tudi, et la valeur 0 sinon. Cette variable ainsi
dfinie pour chaque individu est la variable gnrique de la population (ou
encore la variable parente). Si on la note X, on a P(X = 1) = p, et donc aussi
P(X = 0) = 1 p = q. Les n individus (1, 2, n) de lchantillon seront ainsi
reprsents par n variables de Bernoulli X
1
, X
2
, , X
n
ayant toutes la mme
loi de probabilit, celle de X, une loi de Bernoulli de paramtre p. On peut
supposer toutes ces variables indpendantes pour la simplicit du problme,
ce qui correspond par exemple un tirage des n individus avec remise, ou
bien un taux de sondage n / N infrieur 10 %, N tant la taille de la popu-
lation (ce point important sera revu au II.C avec la loi hypergomtrique).
Dfinition
Une variable alatoire est dite suivre une loi binomiale de paramtres
n et p, note (n ; p), si elle peut tre considre comme la somme de n
variables alatoires de Bernoulli, indpendantes et de mme paramtre p.
1. Ce terme dchantillon se rfre la fois au sens usuel, et galement une collection de
variables alatoire indpendantes et de mme distribution.
P179-210-9782100549412.fm Page 185 Jeudi, 18. novembre 2010 12:09 12
186
n
k
( ,
j \
n!
k! n k ( )!
------------------------ =
n
k
( ,
j \
p
k
1 p ( )
n k
1 p ( )
n
np 1 p ( )
n 1
n
2
( ,
j \
p
2
1 p ( )
n 2
n
k
( ,
j \
p
k
1 p ( )
n k
P179-210-9782100549412.fm Page 186 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS
187
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Les caractristiques dune loi binomiale (n ; p) sont trs faciles calcu-
ler si on utilise la dcomposition en somme de variables de Bernoulli ind-
pendantes. En effet :
et par consquent :
Pour le calcul de la variance, la proprit dadditivit, toujours vraie pour
lesprance, suppose que les variables de Bernoulli X
i
sont indpendantes, et
cette hypothse est fondamentale pour la validit du rsultat :
On obtient le rsultat :
On pourra comparer ce dernier rsultat avec celui du II.B obtenu pour
une loi hypergomtrique, cas dune somme de variables alatoires de Ber-
noulli non indpendantes.
La proprit suivante est intressante en pratique.
En effet, Y tant la somme de n
1
variables de Bernoulli indpendantes de
mme paramtre p, et Z tant la somme de n
2
variables de Bernoulli indpen-
dantes de mme paramtre p, la v.a. Y + Z est la somme de (n
1
+ n
2
) variables
alatoires de Bernoulli indpendantes de mme paramtre p, et suit une loi
binomiale (n
1
+ n
2
;
p).
Une seconde proprit trs utilise est la suivante.
Proprit 1
Si Y et Z sont deux variables alatoires indpendantes, respectivement
distribues selon des lois binomiales (n
1
; p) et (n
2
; p), leur somme
Y + Z suit une loi binomiale (n
1
+ n
2
; p)
Proprit 2
Si Y suit une loi (n ; p), alors n Y suit une loi (n ; 1 p)
E Y ( ) E X
1
X
2
X
n
+ + + ( ) =
E X
1
( ) E X
2
( ) E X
n
( ) + + + =
n E X ( ) =
E Y ( ) np =
var Y ( ) var X
1
X
2
X
n
+ + + ( ) =
var X
1
( ) var X
2
( ) var X
n
( ) + + + =
n var X ( ) np 1 p ( ) = =
var Y ( ) npq =
P179-210-9782100549412.fm Page 187 Jeudi, 18. novembre 2010 12:09 12
188
189
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Les calculs relatifs aux distributions binomiales peuvent se faire laide
de tables statistiques ( cf. annexe IV). Ces tables donnent pour quelques
valeurs de n et de p, les probabilits cumules de telles rpartitions. Le nom-
bre des valeurs de n et de p envisages est forcment trs limit. Grce la
proprit 2, on peut dduire les probabilits dune loi (n ; 1 p) de celles
dune loi (n ; p). Au lieu de recourir des interpolations linaires (parfois
causes dimportantes erreurs dapproximation), on utilisera plutt la formule
de rcurrence suivante (rappele lannexe II), entre les probabilits de deux
valeurs successives k et (k + 1) dune distribution binomiale (n ; p) :
Cette formule permet de calculer successivement les probabilits indivi-
duelles, en partant de P(X = 0) = (1 p)
n
Exemple
Aprs une lection deux candidats A et B, cest A qui lemporte avec
un score de 52 %. On suppose que le nombre dlecteurs qui se sont
exprims est lev.
On cherche dterminer la probabilit quun sondage prlectoral
portant sur 50 lecteurs ait donn une majorit de suffrages pour B
(cest--dire un rsultat loppos de la ralit des intentions de vote de
la population).
0 1 2 3 4 5 6 0 1 2 3 4 5 6
1 1
Diagramme
en btons
Fonction
de rpartition
Figure 6.2 Loi binomiale (6 ; 0,5)
P X k 1 + = ( )
P X k = ( )
--------------------------------
n
k 1 +
( ,
j \
p
k 1 +
1 p ( )
n k 1
n
k
( ,
j \
p
k
1 p ( )
n k
------------------------------------------------------------
n!
k 1 + ( )! n k 1 ( )!
----------------------------------------------- p
n!
k! n k ( )!
------------------------ 1 p ( )
--------------------------------------------------- = =
n k ( ) p
k 1 + ( ) 1 p ( )
---------------------------------- =
P179-210-9782100549412.fm Page 189 Jeudi, 18. novembre 2010 12:09 12
190
191
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
B. Le schma hypergomtrique
Dans le schma binomial, on rpte une preuve de Bernoulli n fois, mais de
telle faon que les preuves soient indpendantes.
Cette condition peut paratre peu raliste. En pratique lorsquon tire un
chantillon de taille n dans une population de taille N(n < N), le bon sens veut
quon ne prenne pas 2 fois le mme individu, ce qui quivaut tirer lchan-
tillon sans remise (on parle encore de tirage exhaustif). Les variables ala-
toires de Bernoulli associes aux diffrents lments de lchantillon, et
indicatrices de la prsence ou de labsence dun caractre donn, sont, du fait
du tirage sans remise, mutuellement dpendantes.
La variable alatoire Y gale au nombre dindividus de lchantillon pos-
sdant le caractre considr est dans ce cas somme de n v.a. de Bernoulli
dpendantes, et de mme paramtre.
Notons p, la proportion dindividus dans la population (dont on dsigne
la taille par N) possdant le caractre tudi, et tudions la loi de cette varia-
ble alatoire Y dabord en ce qui concerne les valeurs possibles, puis pour ce
qui est des probabilits associes.
Le nombre dindividus de la population possdant le caractre tudi est
gal Np, et le nombre de ceux qui ne le possde pas est gal Nq. Le nombre
maximum dindividus de lchantillon possdant le caractre tudi ne peut
tre suprieur ni la taille de lchantillon, ni Np. Par consquent, la valeur
maximum de Y est gale min( n, Np). Le nombre minimum dindividus de
lchantillon possdant le caractre tudi est, bien entendu, au moins gal 0,
mais aussi au moins gal ( n Nq). En effet, si le nombre dindividus ne
possdant pas le caractre tudi, soit Nq, est plus petit que la taille n de
lchantillon, on aura au moins (n Nq) individus qui possderont le caractre
tudi dans lchantillon. Il sensuit que le nombre minimum dindividus de
lchantillon possdant le caractre tudi est gal max(0, n Nq).
La variable alatoire Y peut prendre toutes les valeurs entires comprises
entre :
max(0, n Nq) et min(n, Np)
Pour le calcul de P(Y = k), k tant lune des valeurs possibles entre
max (0, n Nq) et min(n, Np), on peut utiliser la mthode combinatoire clas-
sique et calculer le rapport du nombre des occurences favorables au nombre
des occurences possibles.
Les occurences possibles sont reprsentes par le nombre dchantillons
de taille n quon peut extraire sans remise dune population de taille N, cest-
-dire .
N
n
( ,
j \
P179-210-9782100549412.fm Page 191 Jeudi, 18. novembre 2010 12:09 12
192
193
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
C. La loi gomtrique et la loi de Pascal
On se place dans une optique totalement diffrente, les conditions de base
restant inchanges, cest--dire quil y a toujours une succession dpreuves
de Bernoulli de mme paramtre p, mais dont on ne connat pas le nombre
de rptitions : on ne sarrte que lorsque le rsultat auquel on sintresse est
obtenu pour la l
re
fois (cas de la loi gomtrique) ou pour la K
e
fois (loi de
Pascal).
chaque preuve lmentaire, est associe une variable de Bernoulli X
i
qui prend la valeur 1 si le rsultat auquel on sintresse sest ralis, et la
valeur 0 sinon. On pose :
P(X
i
= 1) = p et P(X
i
= 0) = 1 p = q
On suppose que les preuves sont rptes indpendamment les unes des
autres. On dsigne par Y le nombre total dpreuves ralises jusqu
lobtention du premier rsultat lmentaire de probabilit p. Il est clair
que Y peut prendre toute valeur entire au moins gale 1 (cest--dire stric-
tement positive), et que ces valeurs peuvent tre aussi grandes que lon veut.
Nous rencontrons ici pour la premire fois une variable alatoire dont le nom-
bre de valeurs possibles est infini.
Cette dfinition doit tre bien comprise, car dans certains cas on sint-
resse au nombre Z dpreuves prcdant la premire ralisation du rsultat de
probabilit p, et on a bien sr : Z = Y 1
Pour ce qui concerne la variable alatoire Y, si le rsultat cod 1 se produit
pour la 1
re
fois la k
e
preuve, cela signifie que les (k 1) premires preuves
ont produit le rsultat complmentaire cod 0 de probabilit q. En raison de
lindpendance des preuves on a :
(k 1) fois
Cette variable alatoire a la mme esprance np que la variable binomiale
qui serait obtenue dans un contexte dindpendance, mais sa variance est
plus petite, diminue dans un rapport
appel facteur dexhaustivit. Dans le cas dune trs grande population ou
plus gnralement dun taux de sondage faible (infrieur 0,1), on peut
supposer les tirages indpendants et remplacer la loi hypergomtrique
(N ; n ; p) par la loi binomiale (n ; p)
N n
N 1
-------------
P Y k = ( ) q q q p q
k 1
p = =
}
P179-210-9782100549412.fm Page 193 Jeudi, 18. novembre 2010 12:09 12
194
p q
k
k 0 =
n 1
p
1 q
n
1 q
-------------- 1 q
n
= = = =
k q
k 1
p
k 1 =
p = k q
k 1
k 1 =
p
d
dq
------ q
k
( )
k 1 =
=
E Y ( ) p
d
dq
------ q
k
( )
k 1 =
p
d
dq
------
q
k
k 1 =
( ,
, (
j \
= =
p
d
dq
------
q
1 q
------------
( ,
j \
p
1
1 q ( )
2
-------------------
1
p
--- = = =
E Y
2
( )
k
2
q
k 1
p
k 1 =
p . k
2
q
k
1
k
1
=
= =
p
k k
1
( )
k
+
( ,
j \
q
k
1
k
1
=
p
k k
1
( )
q
k
2
q
k
1
=
p kq
k
1
k
1
=
= =
p
k k 1 ( )q
k 2
q
k 1 =
p q
k k 1 ( )q
k 2
k 1 =
=
p q
k k 1 ( )q
k 2
k 2 =
p q
d
2
dq
2
-------- q
k
( )
k 2 =
= =
p
k k 1 ( )q
k 2
q
k 1 =
p q
d
2
dq
2
--------
q
k
k 2 =
( ,
, (
j \
=
p q
d
2
dq
2
--------
q
2
1 q
------------
( ,
j \
p q
2
1 q ( )
3
-------------------
2q
p
2
------ = = =
P179-210-9782100549412.fm Page 194 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS
195
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
et par consquent :
On dduit la variance dune variable alatoire de loi gomtrique :
Dans ltude de la modlisation des situations concrtes de ce type, on
doit faire trs attention de prciser si on sintresse au nombre total Y
dpreuves alternatives ralises jusqu lobtention du premier rsultat l-
mentaire de probabilit p (cas tudi), ou si on sintresse au nombre Z
dpreuves lmentaires de probabilit (1 p) ralises jusqu lobtention
du premier rsultat de probabilit p.
Comme nous lavons dj mentionn Z = Y 1. Les valeurs possibles de
Z sont toutes les valeurs entires positives ou nulle, alors que les valeurs pos-
sibles de Y sont toutes les valeurs entires strictement positives. La relation
entre Y et Z implique quon peut calculer les probabilits associes Z par-
tir de celles de Y :
Lesprance mathmatique de Z est gale celle de Y diminue dune
unit :
alors que les variances de Y et Z sont gales :
La loi de Pascal est la gnralisation de la loi gomtrique lorsquon
recherche lobtention pour la K
e
fois du rsultat considr. Une variable ala-
toire de Pascal Y dpend de deux paramtres p et K et peut prendre toutes
valeurs entires au moins gales K.
En rsum
La loi gomtrique de paramtre p caractrise le nombre dpreuves de
Bernoulli indpendantes quil faut raliser pour obtenir pour la 1
re
fois le
rsultat (de lpreuve de Bernoulli) auquel on sintresse (cod 1). Lesp-
rance est gale et la variance
E Y
2
( )
2q
p
2
------
1
p
--- +
2q p +
p
2
----------------
q p q + +
p
2
----------------------
q 1 +
p
2
------------ = = = =
var Y ( )
q 1 +
p
2
------------
1
p
2
-----
q
p
2
----- = =
P Z k = ( ) P Y k 1 + = ( ) q
k
p = =
P Z n ( ) P Y n 1 + ( ) 1 q
n 1 +
= =
E Z ( ) E Y 1 ( ) E Y ( ) 1
1
p
--- 1
1 p
p
------------
q
p
--- = = = = =
var Z ( ) var Y 1 ( ) var Y ( )
q
p
2
----- = = =
1
p
---
1 p
p
2
------------
P179-210-9782100549412.fm Page 195 Jeudi, 18. novembre 2010 12:09 12
196
197
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
probabilit quune pice prise au hasard soit dfectueuse est gale 0,05
(chapitre 5). On peut supposer les tirages indpendants en raison de la
grande taille de la population (ici la production).
Le schma binomial est ici adapt puisquon recherche la probabilit
dun nombre donn de dfectueux sur un chantillon de taille fixe.
Pour cette loi (20 ; 0,05), on a P(X = 0) = (0,95)
20
= 0,3585
Si dautre part, on cherche calculer la probabilit que le premier dfec-
tueux ne soit pas lune des 20 premires pices, on gardera la modlisa-
tion des units statistiques par les alas de Bernoulli de paramtre 0,05
toujours supposs indpendants pour les mmes raisons. Mais le nom-
bre de pices tudies ntant plus donn, ce nombre devient lala dont
on a besoin de dterminer la loi de probabilit.
Soit Y le nombre de pices observes jusqu lobtention de la premire
pice dfectueuse. La variable alatoire Y est une variable alatoire dis-
tribue selon une loi gomtrique de paramtre 0,05 ; par consquent :
Lesprance mathmatique de cette variable alatoire Y tant gale 20,
on doit tirer en moyenne 20 pices pour en observer une dfectueuse,
cest--dire quavant de tirer une pice dfectueuse, on tire, en
moyenne, 19 pices qui ne le sont pas.
La relation entre tous ces rsultats est laisse au lecteur.
Si on stait intress au nombre de pices examiner pour en tirer deux
dfectueuses, on aurait une loi de Pascal desprance mathmatique
gale 40. Ici encore, on laisse au lecteur le soin de comparer les deux
derniers rsultats.
Ces deux lois, loi gomtrique et loi de Pascal, interviennent particulirement
en contrle de qualit, mais aussi dans la surveillance des vnements dont une
certaine frquence de survenue est interprte en terme de signal dalarme.
Les formules de la loi gomtrique sont suffisamment simples pour que les cal-
culs ne posent aucune difficult avec une petite calculatrice, et pour la loi de Pas-
cal, on peut recourir quelques pas de programme comme pour la loi binomiale.
Remarque
Les lois binomiale, hypergomtrique, gomtrique et de Pascal sont
donc toutes construites sur la base de la rptition dpreuves deux
P Y 21 ( )
0,95
k 1
0,05
k 21
0,05
0,95
k 1
k 21
0,05
0,95
j
j 20
= = =
P Y 21 ( ) 0,05 0,95
20
0,95
j
j 0
=
0,05 0,95
20 1
1 0,95
------------------- 0,95
20
0,3585 = = =
P179-210-9782100549412.fm Page 197 Jeudi, 18. novembre 2010 12:09 12
198
199
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
A. Dfinitions et proprits
1
On remarque tout de suite quune telle variable alatoire prsente une diff-
rence essentielle avec les variables de Bernoulli ou binomiales, car elle est
discrte, mais non finie (cest--dire ici que les valeurs possibles ne sont pas
limites suprieurement). Nous avons dj rencontr cette situation avec la
loi gomtrique et la loi de Pascal.
Il sagit bien dune distribution de probabilit car, il est facile de le constater que :
toutes les probabilits sont positives ;
la somme des probabilits est gale 1, compte tenu de lexpression de
la srie exponentielle :
Le calcul de la moyenne est assez simple :
car le premier terme de la somme est nul. Par consquent,
Dfinition
Une variable alatoire X ayant pour valeur possible tout nombre entier
positif ou nul, et telle que :
pour tout k 0 entier, est dite distribue selon une loi de Poisson
1
de para-
mtre m, m tant un nombre rel strictement positif.
1. Simon-Denis Poisson (1781-1840), mathmaticien, probabiliste et physicien franais, qui
on doit dimportant dveloppements sur la loi des grands nombres, sur les suites dpreuves
de Bernouilli, sur la loi de Poisson, mais aussi sur les applications des probabilits dans les
domaines du droit.
P X k = ( ) e
m
m
k
k!
------ =
P X k = ( )
k 0
e
m
m
k
k!
------
k 0
e
m
m
k
k!
------ e
m
. e
m
=
k 0
e
0
1 = = = =
E X ( ) k P X k = ( )
k 0
k e
m
m
k
k!
------
k 0
= =
e
m
k
m
k
k!
------
k 0
e
m
k
m
k
k!
------
k 1
= =
E X ( ) e
m
m m
k 1
k 1 ( )!
--------------------
k 1
m e
m
m
k 1
k 1 ( )!
------------------
k 1
= =
P179-210-9782100549412.fm Page 199 Jeudi, 18. novembre 2010 12:09 12
200
m e
m
e
m
m = = =
E X
2
( ) k
2
P X k = ( )
k 0
k
2
e
m
m
k
k!
------
k 0
= =
e
m
k
2
m
k
k!
------
k 0
e
m
k
2
m
k
k!
------
k 1
= =
E X
2
( ) e
m
k
2
m
k
k!
------
k 1
e
m
k k 1 ( ) k + ( )
k 1
m
k
k!
------ = =
e
m
k k 1 ( )
k 1
m
k
k!
------ k
m
k
k!
------
k 1
+
( ,
j \
=
E X
2
( ) e
m
. k k 1 ( )
m
k
k!
------ m +
k 1
e
m
k k 1 ( )
m
k
k!
------ m +
k 2
= =
e
m
m
2
m
k 2
k 2 ( )!
----------------------- m +
k 2
=
E X
2
( ) m
2
e
m
m
k 2
k 2 ( )!
------------------ m +
k 2
=
E X
2
( ) m
2
e
m
e
m
m + m
2
m + = =
var X ( ) E X
2
( ) E X ( )
( ,
j \
2
m
2
m m
2
+ m = = =
P179-210-9782100549412.fm Page 200 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS
201
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Ce rsultat a un intrt considrable, comme on le verra plus loin :
On peut aussi calculer la fonction gnratrice :
ce qui permet dobtenir le moment factoriel dordre r(r
*
) :
[r]
(X) = m
r
La proprit suivante est trs utile dans la construction des modles rgis
par des lois de Poisson.
En effet, la variable Y peut prendre toutes les valeurs entires, positives ou
nulle. Calculons la probabilit quelle prenne lune quelconque de ces valeurs.
donc :
soit :
Pour une distribution de Poisson, moyenne et variance sont gales (et
gales la valeur du paramtre).
Proprit 1
Si X
1
et X
2
sont deux variables alatoires indpendantes qui suivent des
lois de Poisson respectivement de paramtres m
1
et m
2
, alors Y = X
1
+ X
2
suit une loi de Poisson de paramtre m
1
+ m
2
g
X
u ( ) E u
X
( ) u
k
e
m
m
k
k!
------
k 0
e
m
um ( )
k
k!
--------------
k 0
e
m
e
um
e
m 1 u ( )
= = = = =
P Y k = ( ) P
i k =
U
i 0 =
X
1
i = X
2
k i = ( )
( ,
, (
j \
=
P X
1
i = X
2
k i = ( )
i 0 =
i k =
=
P X
1
i = ( ) P X
2
k i = ( )
i 0 =
i k =
=
P Y k = ( ) P X
1
i = ( ) P X
2
k i = ( )
i 0 =
i k =
e
m
1
m
1
i
i!
------ e
m
2
m
2
k i
k i ( )!
-----------------
i 0 =
i k =
= =
P Y k = ( ) e
m
1
m
2
+ ( )
m
1
i
m
2
k i
i! k i ( )!
----------------------
i 0 =
i k =
e
m
1
m
2
+ ( )
k!
--------------------
k!
i! k i ( )!
----------------------m
1
i
m
2
k i
i 0 =
i k =
= =
P179-210-9782100549412.fm Page 201 Jeudi, 18. novembre 2010 12:09 12
202
Remarque
Ce rsultat peut stendre une somme finie de variables alatoires
indpendantes distribues toutes selon des lois de Poisson.
Il existe une forme rciproque de cette proprit.
On ne dmontrera pas cette proprit trs utile. Il faut remarquer ici quon
na pas le moyen direct de dcomposer (pour cette proprit 2) le paramtre
de (X + Y) en deux paramtres, lun pour X et lautre pour Y.
Une proprit, elle aussi caractristique de la loi de Poisson, est celle qui
suit, obtenue aisment en crivant le rapport des probabilits et en simplifiant :
Cette proprit implique la croissance des probabilits ponctuelles
P(X = k) tant que k m, et la dcroissance (rapide puisquinversement pro-
portionnelle k) ds que k > m.
Dautre part si m est un entier, le rapport est gal 1. Ceci
signifie quil existe deux valeurs, m et m 1, qui ont mme probabilit. Cette
probabilit commune est la plus leve daprs ce quon vient de voir. Par
consquent, la loi de Poisson possde deux valeurs modales lorsque son
paramtre est un nombre entier .
Proprit 2
Si les variables alatoires indpendantes X et Y sont telles que la
somme (X + Y) est distribue selon une loi de Poisson, alors les variables
X et Y sont elles-mmes distribues selon des lois de Poisson.
Proprit 3
Si X suit une loi de Poisson de paramtre m, on a :
m
1
m
2
+ ( )
k
P Y k = ( ) e
m
1
m
2
+ ( )
m
1
m
2
+ ( )
k
k!
-------------------------- =
P X k = ( )
P X k 1 = ( )
--------------------------------
m
k
---- =
P X m = ( )
P X m 1 = ( )
---------------------------------
P179-210-9782100549412.fm Page 202 Jeudi, 18. novembre 2010 12:09 12
LES PRINCIPAUX MODLES STATISTIQUES DISCRETS
203
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
B. Abord statistique
Daprs les proprits qui viennent dtre montres, on remarque quil est
justifi denvisager une loi de Poisson comme un modle reprsentatif de
donnes statistiques discrtes pour lesquelles la variable ne prend que
des valeurs entires, positives ou nulle, et pour lesquelles :
la moyenne et la variance sont sensiblement gales ;
les rapports de 2 frquences conscutives sont inversement
proportionnels k
Il est frquent que cette dernire condition ne soit vrifie que pour les
faibles valeurs de k. Dans la pratique, on accorde moins dimportance aux
entorses cette proprit pour les queues de distribution.
Enfin, on prendra garde de bien noter quil ne sagit l que dune indication. Il
est indispensable de justifier le choix dun modle par un jugement dadquation.
C. Abord probabiliste
Il sagit maintenant de poser la loi de Poisson comme modle dune preuve
alatoire avec laide dune analyse raisonne de cette preuve. Un rsultat est
ncessaire cette dmarche.
Ceci implique que la loi de Poisson peut tre considre comme lapproxi-
mation dune loi binomiale qui reprsente la somme dun grand nombre
(n > 50) dalas de Bernoulli de faible paramtre ( p < 0,1).
On remarque ce sujet que si une variable alatoire est distribue selon
une loi binomiale (n ; p) pour laquelle n > 50 et p < 0,1, on aura q 1 et
par consquent np npq. Si on approxime cette loi binomiale par une loi de
Poisson (np), on imagine que les deux lois doivent tre assez proches pour
que les esprances mathmatiques, dune part, et les variances, dautre part,
soient voisines, sinon mme gales. Or, les esprances sont gales toutes
Proprit 4
Les probabilits dune loi binomiale (n ; p) peuvent tre approximes
par les probabilits dune loi de Poisson de paramtre np si les conditions
suivantes sont ralises :
n > 50 et p < 0,1
f
k
f
k 1
-----------
P179-210-9782100549412.fm Page 203 Jeudi, 18. novembre 2010 12:09 12
204
205
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Voici quelques exemples o cette loi est voque :
nombre de pices dfectueuses dans un chantillon de grande taille prlev
dans une production o la proportion des pices dfectueuses est faible ;
nombre de naissances de quadrupls, de quintupls, par an dans un pays
fix ;
nombre dappels intercontinentaux sur une ligne pendant une priode
donne.
Les formules des probabilits de lois binomiale et de Poisson montrent
bien lintrt de la seconde. Mme avec une bonne calculatrice, il nest pas
ais (et parfois pas possible directement) de calculer les probabilits dune
loi binomiale. Mais cependant, on ne recourra lapproximation par la loi de
Poisson que lorsquon ne peut aisment obtenir le rsultat exact, cest--dire
quon ne cherchera pas approximer la loi binomiale tant que le calcul est
simple.
(60 ; 0,01)
(0,6)
0,0
0,1
0,2
0,3
0,4
0,5
0,6
(60 ; 0,05)
(3)
0,00
0,05
0,10
0,15
0,20
0,25
(100 ; 0,1)
(10)
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
(100 ; 0,05)
(5)
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
0,16
0,18
0,20
Figure 6.3b Approximations correctes par la loi de Poisson
P179-210-9782100549412.fm Page 205 Jeudi, 18. novembre 2010 12:09 12
206
207
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Exercice 6.1
Des sondages permettent de constater que 10 % de la population est constitue de
gauchers. On considre donc, dans cet exercice, que la probabilit quun individu pris
au hasard soit gaucher est gale 0,1 et celle quil soit droitier est gale 0,9.
1. Calculez la probabilit quun groupe de 10 individus contienne :
au moins un gaucher ;
au plus trois gauchers.
2. Un atelier de couture est quip de 9 paires de ciseaux pour droitiers et de 3 paires
de ciseaux pour gauchers. Quelle est la probabilit que chacun des 10 membres du
personnel trouve une paire de ciseaux sa convenance ?
3. Soit Z la variable alatoire gale au nombre de personnes ayant trouv une paire
de ciseaux sa convenance. tablir un tableau donnant Z en fonction du nombre
Y de gauchers dans les 10 membres du personnel. En dduire la loi de probabilit
de Z.
Exercice 6.2
Une compagnie dassurances envisage de crer des polices dassurances individuelles
contre un certain type daccidents. Une enqute pralable du service statistique a per-
mis destimer quau cours dune anne, chaque personne a une chance sur 5 000 envi-
ron dtre victime dun accident couvert par ce type de police, et que la compagnie
pourra vendre en moyenne 10 000 polices dassurance de ce type par an.
Dterminez la probabilit que le nombre daccidents ne dpasse pas trois par an (on
supposera que chaque personne assure a au plus un accident par an).
Exercice 6.3
La socit Alpha a vendu deux machines de pesage la socit Beta qui est une
socit de prestations de services. La Socit Beta loue ces machines la journe. Le
prix de location lui laisse, par jour et par machine, une marge brute de 20 . Chaque
machine est immobilise 1 jour sur 10 au hasard, pour rglage et contrle.
1. Donnez, en la justifiant, la loi de la variable alatoire Y gale au nombre de machi-
nes disponibles un jour quelconque.
2. Par ailleurs, on admet que le nombre dentreprises dsirant louer une machine
pour une journe est une variable alatoire Z ainsi dfinie :
Cette loi de demande reste invariable au cours du temps et na aucune incidence
sur le planning des immobilisations pour vrification, car aucune rgularit tem-
porelle na t dcele. Une entreprise est satisfaite si elle repart avec une
machine. Soit N, la variable alatoire gale au nombre dentreprises satisfaites au
cours dune journe.
Valeurs de Z 0 1 2 3
Probabilit 0,1 0,2 0,4 0,3
Exercices (corrigs page 319)
P179-210-9782100549412.fm Page 207 Jeudi, 18. novembre 2010 12:09 12
208
209
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
3. Chaque matin, le stock est reconstitu 8 units pour le premier produit, et
220 units pour le second. Quelle est la probabilit de rupture de stock pour cha-
cun des deux produits ?
Exercice 6.7
Dans un grand magasin, des observations sur un grand nombre de jours ouvrables au
rayon des magntoscopes ont amen faire lhypothse selon laquelle le nombre de
magntoscopes X vendus au cours dun jour ouvrable quelconque suit une loi de
Poisson de paramtre 5. Les ventes sont supposes indpendantes.
1. Calculez la probabilit de chacun des vnements suivants :
la vente journalire de magntoscopes est au plus gale 2 ;
la vente journalire de magntoscopes est au plus gale 2 ou au moins gale
6 ;
la vente journalire de magntoscopes est au plus gale 6 sachant quelle est
au moins gale 2.
2. Donnez, en la justifiant, la loi de la somme des ventes de deux jours conscutifs.
Calculez la probabilit que la somme des ventes de deux jours conscutifs soit
gale 10.
3. Le directeur du magasin dcide de faire pendant une semaine une campagne publi-
citaire sur les magntoscopes.
Il estime que, pendant cette semaine, la vente journalire suivra toujours une loi de
Poisson et que son paramtre sera gal 6 avec une probabilit gale 2/3 ou
8 avec une probabilit gale 1/3.
Quelle est alors la probabilit que, pendant cette campagne publicitaire, la vente
journalire de magntoscopes soit au moins gale 3 ?
Exercice 6.8
Dans une grande ville, la rgie des transports urbains dispose de 1 000 autobus. Des
observations antrieures ont montr que la probabilit quun autobus tombe en panne
un jour donn est gale 0,0025. Soit Y le nombre dautobus en panne un jour donn.
1. Dterminez, en la justifiant, la loi de la variable alatoire Y. Calculez son esp-
rance et sa variance.
2. Donnez, en la justifiant, une loi approximative de la loi de la variable alatoire Y.
3. Calculez P (3 < Y < 7).
4. Quelle doit tre la capacit minimum du service de maintenance des autobus pour
que la probabilit que toutes les pannes soient traites dans la journe, soit au
moins gale 0,998 ?
5. Le service de maintenance peut, en fait, rparer 6 pannes par jour. Calculez la
probabilit que, un jour quelconque, ce service soit dans lincapacit de rparer
tous les autobus tombs en panne.
6. Soit Z, le nombre de jours de lanne (anne de 365 jours) pour lesquels la main-
tenance est insuffisante. Dterminez, en la justifiant, la loi de la variable alatoire
Z, ainsi quune loi approche. En dduire la probabilit que la maintenance soit
suffisante tous les jours de lanne.
Daprs examen de juin 2000, GEA 1
re
anne Paris IX-Dauphine
P179-210-9782100549412.fm Page 209 Jeudi, 18. novembre 2010 12:09 12
210
211
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
7. L
es principaux
modles statistiques
continus
I. M
odles continus simples
A. L
a loi uniforme continue
Nous avons dj abord la notion dquiprobabilit dans les distributions sta-
tistiques discrtes au I.B du chapitre 6 avec la loi uniforme discrte. Nous allons
ladapter au cas dune variable alatoire continue. Pour une telle variable, on ne
peut pas parler de probabilit pour des valeurs isoles, et on imaginera la proba-
bilit comme une masse rpartie de faon diffuse. Il est clair alors que lquipro-
babilit se traduira par une probabilit dintervalle
proportionnelle
la longueur
de lintervalle. La probabilit cumule sur tout
tant limite lunit, on ne
pourra avoir de probabilit non nulle que sur un sous-ensemble born de
.
Compte tenu des proprits dune densit de probabilit, il rsulte que
k
> 0 et que :
Dfinition
Une variable alatoire
X
, absolument continue, suit une
loi uniforme
continue
sur lintervalle [
a
,
b
]
si sa densit de probabilit est donne par :
f
X
x ( )
k
0
=
si
si
x a b [ , ]
x a b [ , ]
1 f x ( ) x d
R
k x d
a
b
k b a ( ) = = = k
1
b a
------------ =
P211-282-9782100549412.fm Page 211 Mercredi, 24. novembre 2010 10:33 10
212
INTRODUCTION LA MTHODE STATISTIQUE
Lintervalle sur lequel la densit nest pas nulle est ncessairement fini.
Cette contrainte apparat tout fait naturelle si on interprte la probabilit
comme une masse.
Dautre part,
par consquent
F
X
(
x
) = 0 si
x
a,
alors que pour
x
]
a, b
[, on aura :
et enfin si
x
b
,
La densit de probabilit dune loi uniforme continue est donc constante
par morceaux, tandis que sa fonction de rpartition est linaire croissante par
morceaux (
cf.
figure 7.1, i et ii).
Pour ce qui concerne les moments de
X
:
et plus gnralement :
F
X
x ( ) f t ( ) t d
x
=
F
X
x ( ) f t ( ) t d
x
0 dt
a
1
b a
------------ t d
a
x
+
x a
b a
------------ = = =
F
X
x ( ) f t ( ) t d
x
0 dt
a
1
b a
------------ t d
a
b
0 dt
b
x
+ +
b a
b a
------------ 1 = = = =
a b
1/ (b-a)
0 a b 0
1
(i) (ii)
Figure 7.1 Densit (i) et fonction de rpartition (ii) de la loi uniforme continue
E X ( ) xf x ( ) x d
R
x
b a
------------ x d
a
b
1
b a
------------
b
2
a
2
2
----------------
b a +
2
------------ = = = =
E X
k
( )
1
b a
------------ x
k
x d
a
b
1
k 1 +
------------
b
k
1
+
a
k
1
+
b a
---------------------------- = =
P211-282-9782100549412.fm Page 212 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
213
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
ce qui donne en particulier :
et par consquent :
On note que la loi uniforme continue est symtrique, et que par consquent,
sa mdiane et sa moyenne sont confondues au milieu de lintervalle [
a, b
].
Comme pour la loi uniforme discrte, ce rsultat est naturel compte tenu de
lquiprobabilit. Le calcul du coefficient dasymtrie
1
de Fisher retrouve
cette proprit puisque
1
= 0. On notera que cette distribution na pas de
mode au sens strict.
Les fractiles de la loi uniforme continue sont trs aisment calculables,
comme pour toute distribution continue dont la fonction de rpartition
sexprime analytiquement, et ici le calcul est particulirement simple. En
effet le fractile
x
dordre
est dfini par
F
X
(
x
) =
. Il correspond :
, soit
On retrouve la valeur de la mdiane, gale la moyenne, soit :
Il faut remarquer que pour cette loi, la probabilit de voir une ralisation
appartenir un intervalle donn ne dpend que de la longueur de cet inter-
valle, et quelle ne dpend pas de la position de cet intervalle. Deux interval-
les de mme longueur auront la mme probabilit, condition quils soient
tous deux inclus dans [
a, b
], domaine de dfinition de
X
.
Compte tenu de la symtrie de cette loi, on peut aussi adopter la dfinition
suivante.
Une variable alatoire
X
est
uniforme continue
sur [
a h, a + h
] si sa
densit est dfinie par :
Lquivalence des deux dfinitions est laisse au lecteur. Cest, historique-
ment, cette seconde dfinition qui est lorigine dune grande utilisation de la loi
uniforme continue dans le domaine de la prise en compte des erreurs darrondi
1
.
1. On a ainsi pu tudier que la rpartition des erreurs darrondi suit une loi uniforme continue
dans de nombreux cas.
E X
2
( )
1
3
--- b
2
ab a
2
+ + ( ) =
2
X ( ) E X
2
( ) E X ( ) ( )
2
b a ( )
2
12
------------------- = =
x
a
b a
-------------- = x
a b a ( ) + =
x
0,5
a
1
2
--- b a ( ) +
b a +
2
------------ = =
f x ( )
1
2h
------
0
=
si x a h a h + [ , ]
si
x a h a h + [ , ]
P211-282-9782100549412.fm Page 213 Mercredi, 24. novembre 2010 10:33 10
214
INTRODUCTION LA MTHODE STATISTIQUE
Cette distribution uniforme recouvre trs naturellement la notion dquipro-
babilit dans le contexte de rpartitions continues, et elle a t probablement
utilise comme telle avant le
XVIII
e
sicle, date des premiers crits la concernant.
La loi uniforme continue est, en raison de son lien avec lquiprobabilit,
lorigine de multiples modlisations (en sociologie, conomie, gestion de flux,
gestion de stocks, biologie, physique). On doit galement mentionner son int-
rt pour la simulation
1
des modles, quel que soit le domaine dapplication. Le
rsultat fondamental sur lequel reposent ces simulations est le suivant.
En effet, la fonction
F
tant bijective et monotone, elle admet une rci-
proque quon note
F
1
. Si on crit la fonction de rpartition de
Y
, on obtient :
P
(
Y
<
y
) =
P
(
F(X)
<
y
) =
P
(
X
<
F
1
(
y
)) =
F
[
F
1
(
y
)] =
y
ce qui prouve le rsultat annonc.
Partant donc dune ralisation
y
de variable alatoire distribue selon une
loi uniforme sur [0 ; 1], on peut reconstruire une ralisation
x
de variable ala-
toire
X
de fonction de rpartition
F
donne en calculant
x
=
F
1
(
y
). Connaissant
des ralisations de loi uniforme discrte, il est possible dobtenir des ralisa-
tions pour une loi quelconque partir du moment o on connat sa fonction
de rpartition (analytiquement ou avec ses valeurs point par point).
Cette mthode extrmement simple dans son principe (et base sur un rsul-
tat lmentaire) permet une trs grande quantit dapplications, que ce soit
entre autres pour la simulation de modles rels (flux, stocks) ou pour ltude
de phnomnes alatoires dont la distribution nest pas connue
a priori
.
B. L
a loi exponentielle
Dans ce paragraphe, on prsente la loi exponentielle sous son aspect le
plus simple, sans tenir compte de la famille de lois dans laquelle elle se place.
Afin de ne pas donner un contexte trop abstrait et mathmatique, on ne par-
lera pas des
lois gamma
et des proprits qui en dcoulent pour la loi expo-
nentielle. Toutefois, en conclusion de ce paragraphe, on mentionnera les
relations de ce modle exponentiel avec des modles correspondant des
schmas prcis didentification. Le but de cette prsentation tant essentiel-
lement de comprendre la nature des phnomnes alatoires pour lesquels on
envisage une reprsentation de type loi exponentielle ou drive de ce type.
1. Une prsentation simple de la simulation, avec des exemples, est donne lannexe III.
Thorme
Soit
X
une variable alatoire continue dont la fonction de rpartition
F(x)
est suppose bijective. Alors la variable alatoire
Y = F(X) suit une loi
uniforme continue sur [0 ; 1].
P211-282-9782100549412.fm Page 214 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
215
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
La figure 7.2 montre lallure des courbes reprsentatives de la densit de
la loi exponentielle de paramtres et .
Les situations usuelles correspondent au choix de = 0, ce que nous gar-
derons pour la suite, en prenant pour densit la fonction :
qui est ainsi une distribution un seul paramtre. Le cas particulier o = 1
est dit loi exponentielle standard.
Un calcul lmentaire montre que la fonction de rpartition (si = 0) est
donne par :
Calculons les moments de cette distribution :
Dfinition
On dit quune variable continue X suit une loi exponentielle de
paramtres > 0 et lorsque sa densit est :
f x ( )
1
---e
x ( )/
0
=
si x
si x <
0
0,4
0,8
1,2
1,6
2
=1
=2
=2
=1
=0,5
Figure 7.2 Densits de lois exponentielles pour diffrentes valeurs de (1 et 2)
et de (0,5, 1 et 2)
f x ( )
1
---e
x/
0
=
si x 0
si x 0 <
F x ( )
0
1 e
x/
=
si x 0 <
si x 0
E X
k
( )
1
--- x
k
0
e
x/
dx =
P211-282-9782100549412.fm Page 215 Mercredi, 24. novembre 2010 10:33 10
216
--- =
E X
k
( )
1
--- t ( )
k
e
t
dt
0
k
t
k
e
t
dt
0
= =
I
k
t
k
e
t
dt
0
t
k
e
t
[ ]
0
k t
k 1
e
t
dt
0
+ k I
k 1
= = =
I
k
kI
k 1
k k 1 ( ) I
k 2
k k 1 ( ) k 2 ( ) 2 1 I
0
= = = =
E X
k
( ) k!
k
=
P211-282-9782100549412.fm Page 216 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
217
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Une situation trs classique aussi o on envisage un modle exponentiel
est celle o on sintresse au dlai de survenue dvnements alatoires dans
le temps (souvent appel dure de vie), et o on admet que le devenir X dun
individu (au sens statistique du terme) ne dpend pas de son ge :
,
On peut montrer que cette condition implique que X suit une loi de type
exponentiel.
Ces modles de dure de vie sont particulirement utiliss en conomie
du travail et dans ltude de lamortissement des investissements, mais aussi
bien entendu en fiabilit des matriels et en mdecine.
Parmi les autres domaines dapplication de la loi exponentielle, on citera
la dmographie et les files dattente.
Les deux proprits suivantes (donnes sans justification ni dmonstration)
peuvent tre utiles pour lidentification dune distribution exponentielle :
1. Si X
1
et X
2
sont deux variables indpendantes absolument continues tel-
les que V = min(X
1
, X
2
) et W = (X
1
X
2
) soient indpendantes, alors X
1
et X
2
sont des variables alatoires exponentielles de mme paramtre , mais pou-
vant avoir des carts-type
1
et
2
diffrents.
2. Si X
1
et X
2
sont deux variables de mme distribution absolument cont inue,
et si suit une loi uniforme continue sur [0 ; 1], indpendante
de ( X
1
+ X
2
)
,
alors X
1
et X
2
sont distribues selon une loi exponentielle de
mmes paramtres = 0 et .
Lcriture trs simple de la fonction de rpartition :
rend tous les calculs trs simples avec une petite calculatrice.
Ainsi pour la loi exponentielle de paramtre = 2, on peut calculer la
valeur du premier dcile D
1
tel que F(D
1
) = 0,1, do exp( D
1
/2) = 0,9 et
D
1
= 0,21072
De mme, la valeur du premier quartile Q
1
est telle que F(Q
1
) = 0,25, do :
exp( Q
1
/2) = 0,75 ou encore Q
1
= 2ln(0,75) = 0,57536
De mme encore, la valeur de la mdiane Q
2
est telle que F(Q
2
) = 0,5, do :
Q
2
= 2ln(0,5) = 1,386
P X x
0
x X x
0
> + ( ) P X x ( ) = x 0 > x
0
0 >
T
X
1
X
1
X
2
+
------------------ =
F x ( )
0
1 e
x/
=
si x 0 <
si x 0
P211-282-9782100549412.fm Page 217 Mercredi, 24. novembre 2010 10:33 10
218
=
P211-282-9782100549412.fm Page 218 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
219
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
II. La loi normale ou loi de Laplace-Gauss
On dit encore loi de Gauss ou loi gaussienne, ou plus simplement une gaus-
sienne (au lieu de variable alatoire distribue selon une loi de Gauss).
A. La loi normale centre rduite
Cette fonction de densit est une fonction paire, et son graphique admet
laxe des ordonnes comme axe de symtrie. Il y a un maximum pour x = 0
qui correspond au mode de cette distribution. Compte tenu de deux points
dinflexion, le graphique est simple tracer et prsente lallure caractristi-
que connue sous le nom de courbe en cloche (cf. figure 7.4).
Il nexiste pas de fonction analytiquement exprimable qui corresponde
une primitive de la fonction de densit f. La fonction de rpartition dune loi
normale centre rduite scrit :
Dfinition
Une variable alatoire suit une loi normale centre rduite si elle peut
prendre toute valeur relle et si sa densit de probabilit est donne par :
f x ( )
1
2
----------exp x
2
/2 ( ) =
0 -1 -2 -3 -4 2 1 3
Figure 7.4 Densit de la loi normale centre rduite
F x ( )
1
2
---------- exp t
2
/2 ( )dt
x
=
P211-282-9782100549412.fm Page 219 Mercredi, 24. novembre 2010 10:33 10
220
f(t) tant impaire, on a : E(X
2k +1
) = 0
Pour le calcul de la variance, on calcule dabord E(X
2
) par une intgration
par parties et on obtient :
Le premier terme de laccolade tant nul, il sensuit :
puisque le second membre nest autre que lintgrale de la densit sur
lensemble des rels.
Ce rsultat justifie le nom de variable rduite.
Cette distribution de probabilit possde une moyenne gale 0. Le gra-
phique tant symtrique par rapport laxe des ordonnes (parit de la den-
sit), on a une surface totale (gale 1) comprise entre la courbe et laxe des
abscisses, partage en deux parties gales par laxe vertical (soit 0,5 gauche
et 0,5 droite). La mdiane de cette distribution est aussi gale 0. Enfin, le
sommet de la cloche est au point x = 0
On verra au II.C, et au-del, limportance de cette proprit pour
lensemble des applications du calcul des probabilits lies la loi normale,
centre rduite ou non.
Par la suite cette v.a. normale centre rduite sera toujours note U
pour bien lidentifier.
B. La loi normale (m ; )
Une variable normale centre rduite U a pour moyenne 0 et pour variance 1.
Prenons alors une variable X telle que X = aU + b (avec a et b ). Il
est clair que :
E(X) = aE (U) + b = b et var (X) = a
2
var(U) = a
2
Proprit 1
Pour la loi normale centre rduite , la valeur 0 reprsente la fois la
moyenne, la mdiane et le mode.
t exp t
2
/2 ( ) dt
+
0 =
E X
2
( )
1
2
---------- t
+
2
exp t
2
/2 ( ) dt =
1
2
---------- t exp t
2
/2 ( ) [ ]
+
exp t
2
/2 ( )
+
dt +
=
E X
2
( )
1
2
---------- exp t
2
/2 ( ) dt
+
1 = =
P211-282-9782100549412.fm Page 220 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
221
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Mais on peut aller plus loin encore et dterminer la fonction de rpartition
de X puis sa densit :
On drive cette fonction par rapport x pour obtenir la densit de X :
Sur cette expression, on remarque que pour a = 1 et b = 0, on retrouve la
densit de la loi normale centre rduite. Dans le cas gnral, b reprsente la
moyenne et lcart-type.
Ceci conduit poser que X suit une loi normale de moyenne m et dcart-
type lorsque X prend toute valeur relle avec la densit :
et la loi normale centre rduite en est un cas particulier. Ce rsultat dune
importance pratique considrable, peut se prsenter sous la forme gnrale
suivante.
Ainsi que nous lavons vu, la densit dune variable normale, donc sa loi,
dpend de deux paramtres. On a montr que le premier paramtre nest autre
que sa moyenne tandis que le second correspond son cart-type. Une varia-
ble alatoire normale est entirement dtermine par sa moyenne et son
cart-type.
Proprit 2
Si X est une variable alatoire normale, alors toute fonction du
1
er
degr (fonction affine) de X suit aussi une loi normale.
F
X
x ( ) P X x < ( ) P aU b x < + ( )
P U
x b
a
----------- <
( ,
j \
1 P U
x b
a
----------- <
( ,
j \
= = =
si a 0 >
si a 0 <
F
X
x ( )
1
2
---------- exp t
2
/2 ( ) dt
x b
a
-----------
1
1
2
---------- exp t
2
/2 ( ) dt
x b
a
-----------
=
si a 0 >
si a 0 <
f
X
x ( )
1
a 2
-----------------exp x b ( )
2
/2a
2
=
a
f
X
x ( )
1
2
--------------exp x m ( )
2
/2
2
=
P211-282-9782100549412.fm Page 221 Mercredi, 24. novembre 2010 10:33 10
222
INTRODUCTION LA MTHODE STATISTIQUE
Dans le cas dune variable alatoire
X
distribue selon une loi normale
(
m
;
), la variable alatoire
Y
=
aX
+
b
suivant aussi une loi normale avec
E
(
Y
) =
am
+
b
et var(
Y
) =
a
2
2
(lcart-type de
Y
valant
),
Y
est distri-
bue selon une loi normale
(
am + b
;
).
En particulier, on peut construire la variable de moyenne nulle et
dcart-type gal 1 ; on dit alors que est la variable normale centre
rduite dduite de
X
. Cest elle qui permet de faire aisment tous les calculs
relatifs
X
( II.C).
Rciproquement, toute v.a.
X
distribue selon une loi de Gauss
(
m
;
)
peut scrire
X =
U
+
m
o
U
est une variable alatoire distribue selon une
loi de Gauss centre rduite.
Ltude de la densit
dune variable alatoire normale
(
m
;
) montre une courbe en cloche
avec un axe de symtrie vertical en
x = m
.
La valeur de la moyenne dtermine laxe de la courbe de densit. Pour
deux densits correspondant un mme cart-type, mais deux moyennes
diffrentes, on obtient deux courbes dcales (translates) lune par rapport
lautre.
Comme on le constate aisment, le sommet de la courbe en cloche a pour
ordonne :
Cette valeur inversement proportionnelle
signifie que plus grand est
lcart-type dune loi de Gauss, plus petit est le maximum de sa densit. tant
donn que la surface totale sous la courbe est constante (et gale lunit),
on en dduit que la courbe est dautant plus aplatie que lcart-type est
grand.
Au total, pour une valeur moyenne constante (sinon, il suffit de raison-
ner en translatant la courbe), plus lcart-type est grand (cest--dire plus
la dispersion de la distribution est leve), plus la densit aura des extr-
mits (aussi appeles
queues
de distribution) paisses, compensant ainsi un
sommet peu marqu. Inversement, plus lcart-type est petit (cest--dire
plus la distribution est concentre autour de sa moyenne) et plus le sommet
de sa densit sera lev, diminuant dautant lpaisseur aux extrmits
(cf. figure 7.5).
a
a
X m
--------------
X m
--------------
f
X
x ( )
1
2
--------------exp
x m ( )
2
2
2
--------------------
=
1
2
--------------
P211-282-9782100549412.fm Page 222 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
223
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Un cart-type petit correspond une distribution resserre autour de la
moyenne, cest--dire montrant par la finesse des queues de distribution que
la probabilit de scarter beaucoup de la moyenne diminue trs forte-
ment en sens inverse de lcart-type.
Nous avons dj dit quune loi de Gauss tait totalement caractrise par
sa moyenne et son cart-type. Nous voyons maintenant que, pour une telle
distribution, lcart-type donne une excellente apprciation de la dispersion.
Pour finir, prcisons ces notions de dispersion autour de la moyenne
laide de quelques rsultats exprims en terme de probabilit dobserver une
valeur scartant de la moyenne de plus de k carts-types (dispersion rela-
tive), pour plusieurs valeurs de k
En effet, soit X une v.a. distribue selon une loi (m ; ). Une valeur x
qui scarte de la moyenne m (dans un sens ou dans lautre, cest--dire vers
les valeurs infrieures ou vers les valeurs suprieures) de plus de k fois
lcart-type est caractrise par lingalit :
variance=0,25
variance=4
variance=1
Figure 7.5 Effet concentrateur de la diminution de la variance dune loi normale
x m k >
P211-282-9782100549412.fm Page 223 Mercredi, 24. novembre 2010 10:33 10
224
----------------- k >
( ,
j \
P
X m
-------------- k <
( ,
j \
X m
-------------- k >
( ,
j \
( ,
j \
= =
P X m k > ( ) P
X m
-------------- k <
( ,
j \
P
X m
-------------- k >
( ,
j \
+ =
X m
--------------
4 2 k k 0 2
Figure 7.6 Utilisation de la symtrie dune loi de Gauss
P X m k > ( ) P
X m
-------------- k <
( ,
j \
P
X m
-------------- k >
( ,
j \
+ =
1 F
U
k ( ) 1 F
U
k ( ) + 2 1 F
U
k ( ) ( ) = =
P211-282-9782100549412.fm Page 224 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
225
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Ceci permet dobtenir le tableau des probabilits cherches :
Ces calculs donnent des rsultats indpendants de m et de qui peuvent
tre convertis en dispersions absolues pour des valeurs donnes de comme
on le verra galement.
On note ainsi quil y a plus de 60 % des observations issues dune loi
(m ; ) qui scartent de la moyenne de plus dun demi cart-type, mais quil
ny a que 0,26 % (environ un quart de pour cent) qui scarte de la moyenne
de plus de 3 carts-types. En particulier pour une loi normale centre rduite,
cela signifie que 99,74 % des observations sont comprises entre 3 et + 3. On
remarquera encore que plus des deux tiers des observations issues dune loi
(m ; ) sont comprises dans lintervalle [ m ; m + ], alors quil ny en a
plus que 4,56 % (moins de 5 %) sortir de lintervalle [m 2 ; m + 2]. Tous
ces lments montrent bien la signification de lcart-type dune loi normale en
termes de concentration des valeurs autour de la moyenne. Ce point est tout fait
fondamental pour la pratique des applications (estimations et tests) des calcu ls
fonds sur la loi normale.
Pour finir de caractriser la loi de Laplace-Gauss, examinons les deux
coefficients
1
et
2
, caractrisant respectivement lasymtrie et laplatissement.
Puisque o les
k
dsignent les moments centrs, il sensuit
que
1
= 0. Ceci est tout fait naturel et cohrent puisque ce coefficient vise
rechercher les entorses la symtrie de la distribution.
Pour le coefficient daplatissement, qui caractrise un degr
de dcroissance aux extrmits de la distribution, le calcul (pour
4
on pro-
cde par intgration par parties successives et on obtient
4
= 3
2
)
donne
2
= 0. Ce coefficient daplatissement a t choisi afin davoir, par la
loi normale, un chelon daplatissement relatif la valeur 0.
Parmi les proprits essentielles de la distribution de Gauss, on doit
retenir :
k 0,5 1 1,5 2 2,5 3
0,6170 0,3174 0,1336 0,0456 0,0124 0,0026
La distribution normale est caractrise par sa symtrie par rapport la
moyenne et, moyenne, mdiane et mode sont confondus. Les coefficients
dasymtrie
1
et daplatissement
2
sont nuls.
P X m k > ( )
2
3/2
-------- =
2
2
----- 3 =
P211-282-9782100549412.fm Page 225 Mercredi, 24. novembre 2010 10:33 10
226
=
i
2
i 1 =
n
=
U
X m
-------------- =
P211-282-9782100549412.fm Page 226 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
227
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Par consquent la probabilit dun vnement li X peut toujours
sexprimer par la probabilit dun vnement li U. Les tables de la loi de
Gauss centre et rduite permettent ainsi de calculer les probabilits asso-
cies une loi de Gauss de moyenne et dcart-type quelconques.
Tout dabord examinons les utilisations de la table de la fonction de rpar-
tition de la loi (0 ; 1). Cest une table double entre par laquelle on dter-
mine la valeur de P(U < u) pour u [0 ; 3,5] donn.
On cherche :
i) la ligne correspondant la partie entire et au 1
er
chiffre dcimal de u ;
ii) la colonne correspondant au 2
e
chiffre dcimal de u ;
puis lintersection de cette ligne et de cette colonne, on lit la probabilit cher-
che.
Exemple
Par exemple si U suit une loi (0 ; 1), on lit directement lintersection
de la ligne correspondant 0,3 et de la colonne correspondant 0,08 :
P(U < 0,38) = 0,6480
et de mme lintersection de la ligne portant 1,9 et de la colonne
portant 0,06 :
P(U < 1,96) = 0,9750
Pour une loi normale quelconque X, la procdure est presque identique. Il
faut simplement se ramener une loi normale centre rduite U, selon
Lcart-type tant strictement positif :
si {X < a}, alors {X m < a m} et
mais aussi rciproquement si , alors {X < a}
Les vnements { X < a} et tant identiques, ils ont la mme
probabilit. On sest ramen une lecture de table de loi normale centre rduite.
U
X m
-------------- =
U
X m
--------------
a m
------------- < =
U
a m
------------- <
U
a m
------------- <
P211-282-9782100549412.fm Page 227 Mercredi, 24. novembre 2010 10:33 10
228
229
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Pour obtenir le rsultat, on relve dans la table :
F
U
(1,73) = 0,9582 et F
U
(1,74) = 0,9591
ce qui permet dobtenir F
U
(1,735) = 0,95865 par interpolation, et
P(X > 4,94) = 0,04135
Pour le calcul de la fonction de rpartition F
U
, il peut tre souvent nces-
saire dutiliser une formule approche, comme la formule de Hastings pr-
sente lannexe II. De nombreux calculs automatiques, par exemple ont
recours ce procd.
Parmi les autres utilisations de la table de la fonction de rpartition de la
loi de Gauss centre rduite, on retrouve souvent le calcul de probabilits
dintervalles. Ce calcul repose sur la formule tablie au chapitre 5,
P(a < X < b) = F(b) F(a) dans laquelle F dsigne la fonction de rpartition
de la v.a. continue X.
Prenons lexemple de la v.a. X distribue selon une loi ( 3 ; 2) et pour
laquelle on souhaite connatre P( 4 < X < 0). On centre et on rduit au
niveau des deux ingalits pour obtenir :
P( 4 < X < 0) = P( 0,5 < U < 1,5)
La probabilit cherche est gale :
F
U
(1,5) F
U
( 0,5) = F
U
(1,5) (1 F
U
(0,5)) = F
U
(1,5) + F
U
(0,5) 1
= 0,9332 + 0,6915 1 = 0,6247
Tous les autres calculs, comme par exemple ceux de probabilits condi-
tionnelles reposent de mme sur le passage une v.a. centre rduite, et ven-
tuellement sur les formules usuelles du calcul de base des probabilits.
Ainsi pour une variable alatoire X distribue selon une loi de Gauss
(1 ; 3), on crira pour calculer P(0 < X < > 2) :
On remarquera ce stade que pour les probabilits dintervalles, il est
indiffrent de considrer des intervalles ferms, ouverts ou mixtes puisque la
probabilit dun point pour une v.a. continue est nulle (comme on la vu au
chapitre 5, II.B).
2 X
P 0 X 2 X 2 > < < ( )
P 0 X 2 < < ( ) X 2 > ( )
( ,
j \
P X 2 > ( )
------------------------------------------------------------------
P 0 X 2 < < ( )
P X 2 > ( )
------------------------------- = =
P X 2 < ( ) P X 0 < ( )
1 P X 2 < ( )
--------------------------------------------------
F
U
2 1
3
------------
( ,
j \
F
U
0 1
3
------------
( ,
j \
1 F
U
2 1
3
----------------
( ,
j \
-------------------------------------------------------- = =
F
U
0,33 ( ) F
U
0,33 ( )
1 F
U
1 ( )
------------------------------------------------------
2F
U
0,33 ( ) 1
F
U
1 ( )
----------------------------------- 0,31 = =
P211-282-9782100549412.fm Page 229 Mercredi, 24. novembre 2010 10:33 10
230
231
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
il ny a que 4,56 % des observations dune loi normale qui scartent de la
moyenne de plus de 2 carts-types ;
il ny a que 0,26 % des observations dune loi normale qui scartent de
la moyenne de plus de 3 carts-types.
Dans ce domaine gaussien, la valeur 1,96 est retenir, car elle correspond
95 % des observations, ou par complmentarit,
La troisime table relative la loi de Gauss est celle des fractiles.
Rappelons tout dabord quon appelle fractile dordre (0 1) pour
une distribution de fonction cumulative F, la valeur x
a
telle que F(x
) =
Cest donc la valeur seuil x
le fractile dordre
(0 1) pour cette rpartition (0 ; 1).
Lutilisation de cette table des fractiles prsente une particularit : on peut
avoir la lire de deux faons diffrentes. En effet, la probabilit pour
laquelle on cherche le fractile se lit soit :
sur la colonne de gauche (2 premiers chiffres dcimaux de ) et la ligne
suprieure (3
e
chiffre dcimal de ) si < 0,5
sur la colonne de droite (2 premiers chiffres dcimaux de ) et la ligne
infrieure (3
e
chiffre dcimal de ) si > 0,5
Il ny a que 5 % des observations qui scartent de la moyenne de plus
de 1,96 fois lcart-type.
4 3 2 1 0 1 2 3
2,28 % (= 4,56 % / 2) 15,87 % (= 31,74 % / 2)
Figure 7.8 Dispersion de la loi normale
P211-282-9782100549412.fm Page 231 Mercredi, 24. novembre 2010 10:33 10
232
dordre , par :
la quantit tant le fractile u
dordre dune loi de Gauss centre
rduite.
On peut crire , soit x
= m + u
Ainsi par exemple, le fractile dordre 0,675 pour une loi (2 ; 0,5)
sobtient partir du fractile dordre 0,675 de la loi de Gauss centre rduite
lu sur la table, soit u
0,675
= 0,4538, et vaut :
2 + 0,5 0,4538 = 2 + 0,2269 = 2,2269
Par la mme mthode, le fractile dordre 0,333 pour une loi (-1 ; 2) vaut :
1 + 2 ( 0,4316) = 1,8632
Dans le premier cas, 32,5 % des observations issues dune population distri-
bue selon une loi (2 ; 0,5) sont suprieures 2,2269. Dans le second cas, on
peut constater quil y a une chance sur trois dobtenir une observation tire dans
une population distribue selon une loi ( 1 ; 2) qui soit infrieure 1,8632
Ces calculs de fractiles sont particulirement utiles pour lobtention
dintervalles de confiance et la ralisation de tests.
P X x
< ( ) P
X m
--------------
x
a
m
--------------- <
( ,
, (
j \
F
U
x
---------------
( ,
j \
= = =
x
a
m
---------------
u
x
a
m
--------------- =
P211-282-9782100549412.fm Page 232 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
233
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Enfin, nous mentionnons lexistence (et lutilisation) de la table dite de lcart-
rduit. Elle permet de lire les quantits , autrement dit les probabilits
pour quune gaussienne scarte de sa moyenne de plus de u fois son cart-type.
Cette table prsente un intrt limit, car elle ncessite quelques calculs
complmentaires ds lors que lintervalle auquel on sintresse nest pas
symtrique autour de la moyenne. De plus on sait que
et ces probabilits sont en fait immdiates obtenir partir de la table de la
fonction de rpartition sans justifier de table supplmentaire.
D. Abord statistique de la loi normale
On a vu dans le paragraphe prcdent que pour une variable normale,
moyenne, mdiane et mode sont confondus, et que la rpartition est totale-
ment symtrique par rapport cette valeur.
Cette proprit essentielle est souvent utilise devant des donnes obser-
ves pour poser une hypothse de normalit cest--dire pour envisager un
modle fond sur une loi normale.
Cest donc partir de lexamen de lhistogramme des donnes recueillies
et de ses caractres de symtrie que lon peut rechercher un modle gaussien.
Dans ce cas, on prendra tout de mme bien soin de vrifier quelques carac-
tristiques de la dispersion des donnes pour avoir une apprciation plus
complte. Pour cela, on examinera le pourcentage des observations qui
scartent de la moyenne de moins dun cart-type et de moins de deux
carts-types, et on comparera ces pourcentages aux valeurs thoriques qui
seraient obtenues si les observations taient purement gaussiennes, cest--
dire respectivement 68,26 % et 95,44 %. Trs grossirement, on recherche
des pourcentages pas trop loigns de 70 % et de 95 %.
Toutefois, mme lorsque des donnes vrifient la fois la symtrie et
cette proprit de dispersion, on ne peut conclure qu une apparence de
normalit (plus ou moins approximative selon les entorses la symtrie et
aux pourcentages de dispersion). Il sagit l, comme ce qui a t prsent
pour la loi de Poisson ou la loi exponentielle, dune mthode pragmatique
visant reconnatre grossirement un contexte possible de loi de Gauss.
Le diagramme quantile-quantile, prsent dans la plupart des logiciels sta-
tistiques et trs facile construire avec un tableur muni de possibilits de
reprsentations graphiques, permet une apprciation graphique de la concor-
dance entre une distribution observe et un modle thorique. Dans ce gra-
phe, laxe des ordonnes porte les fractiles de la distribution observe, tandis
que laxe des abscisses porte les fractiles correspondants de la loi thorique.
P U u > ( )
P U u < ( ) 2 1 F
U
u ( ) ( ) =
P211-282-9782100549412.fm Page 233 Mercredi, 24. novembre 2010 10:33 10
234
235
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Notons que le diagramme Quantile-Quantile ne sapplique pas seulement
pour un modle gaussien. On peut tracer un diagramme Quantile-Quantile
pour un ajustement par une loi continue dont la fonction de rpartition est
strictement croissante, cest--dire une loi dont la fonction de rpartition est
bijective sur lintervalle correspondant des valeurs non nulles de la fonction
de densit et ne prsentant pas de trous
1
.
Nous en montrerons lapplication pour la loi log-normale ( IV.A) et pour
la loi de Pareto ( IV.B).
Le diagramme Quantile-Quantile sutilise aussi pour comparer deux sries
dobservations.
E. Abord probabiliste de la loi normale
Cest comme loi approche quil est fait lusage le plus habituel de la loi
normale :
soit on la retient pour des arguments statistiques tels que ceux voqus
au paragraphe prcdent ;
soit on remplace la distribution relle (qui peut tre connue ou inconnue)
par une distribution gaussienne lorsquelle est une bonne approximation.
Cette recherche du recours une loi de Gauss est guide par deux
considrations :
dune part, les calculs relatifs des gaussiennes prsentent une grande sim-
plicit (notamment en raison de la symtrie) ;
1. Goldfarb B., Pardoux C., Comment faire les diagrammes Quantile Quantile ( Q Q) et
Probabilit Probabilit (P P) ? , La Revue de Modulad, n 33, juillet 2005 (www.modulad.fr,
ExcelEnse ).
Figure 7.9 Diagramme Quantile-Quantile
dune rpartition observe sensiblement normale
P211-282-9782100549412.fm Page 235 Mercredi, 24. novembre 2010 10:33 10
236
---------------
i 1 =
n
n
X
i
m
i
i
2
-----------------
P211-282-9782100549412.fm Page 236 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
237
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Sous cette dernire forme, on peut alors interprter la loi de Gauss
comme la loi approximative des phnomnes rsultant dun grand nombre
de petites causes indpendantes, et qui sadditionnent, sans quaucune
de ces causes ne soit prdominante. Cette apparente gnralit fait postuler
trop souvent une hypothse de normalit, en fait par dfaut dinformation
(et/ou danalyse) sur les causes dun phnomne que lon cherche
tudier.
Notons encore quun domaine dapplication particulier de la loi nor-
male par cette dernire approche est ltude de la variable alatoire
qui, lorsque les variables X
i
sont toutes de mme loi et indpendantes
1
,
porte le nom de moyenne empirique.
1. On parle alors de variables indpendantes et identiquement distribues (soit i.i.d. en abrg).
(100 ; 0,4)
(40)
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
(100 ; 0,4)
(40 ; 4,9)
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
(100 ; 0,25)
(25)
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
(100 ; 0,25)
(25 ; 4,33)
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
Figure 7.10a Approximations correctes par la loi de Gauss, incorrectes par la loi de Poisson
X
n
X
1
X
2
X
n
+ + +
n
------------------------------------------- =
P211-282-9782100549412.fm Page 237 Mercredi, 24. novembre 2010 10:33 10
238
239
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
La suite de ce chapitre (et notamment les lois du khi-deux, de Student,
et de Fisher-Snedecor) relativisera lgrement cette apparence. On ne doit
pas conclure tort quun phnomne est gaussien en raison des multiples
approximations. Nous avons dj vu par exemple que la loi binomiale
(n ; p) o n = 100 et p = 0,05 peut tre approxime par une loi de Pois-
son de paramtre 5, et non pas par une loi de Gauss. Le dernier paragraphe
de ce chapitre montrera plusieurs distributions de probabilit correspon-
dant des situations types non gaussiennes. Lune delles, la loi de
Pareto, dfinit un contexte probabiliste (univers partien) diffrent de celui
de la loi de Gauss.
On fera enfin particulirement attention ne pas donner le sens commun
du mot normal pour une population distribue selon une loi de ce type,
cette interprtation tant le plus souvent admise en mme temps que la gn-
ralisation abusive cite ci-dessus.
F. Correction de continuit
Une difficult se pose lors de lapproximation dune loi discrte (binomiale
ou Poisson par exemple) par la loi normale qui est continue. En effet, les
probabilits sont concentres en des points pour la loi discrte, alors que la
loi normale affecte la probabilit 0 tout point. Si on a une loi (100 ; 0,4),
comment calculer P(X = 50) partir de la loi normale ?
Lapproximation normale est ici totalement justifie (cest mme un des
meilleurs cas !). Cette probabilit P(X = 50) a une valeur exacte, difficile
calculer (dpassement de capacit), gale 0,0103 ; la loi binomiale, la loi
continue, lui affecte une valeur nulle !
On pallie cette difficult par une correction dite de continuit , de la
faon suivante.
Figure 7.11 Synthse des approximations par la loi de Gauss
P211-282-9782100549412.fm Page 239 Mercredi, 24. novembre 2010 10:33 10
240
--------------------------
( ,
j \
F
U
k 0,5 m
--------------------------
( ,
j \
=
X
n
X
i
i 1 =
n
n
------------- =
n
-------
Q
X
i
m ( )
2
i 1 =
n
2
------------------------------- =
P211-282-9782100549412.fm Page 240 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
241
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
joue aussi un rle essentiel. Pour des ralisations { x
i
, i = 1, 2, , n} de ces
variables X
i
, la variable alatoire Q prend la valeur
dans laquelle on reconnat la variance de la srie des ralisations. Au fac-
teur multiplicatif prs , la variable Q va dcrire les ralisations de la
variance des observations.
Ce rle de caractristique de la variance des observations est historique-
ment
1
celui qui a conduit son tude dtaille. Cette v.a. Q peut aussi
scrire :
cest--dire comme somme de n carrs de v.a. gaussiennes centres rduites
indpendantes. Cest cette distribution quon tudie sous le nom de loi du khi-
deux n degrs de libert, note (n). Elle apparat comme troitement lie
ltude de la variance. Dans ce paragraphe, nous prsentons seulement la
distribution du khi-deux, ses proprits essentielles, la pratique des calculs,
et sa place fondamentale dans lensemble des mthodes statistiques.
1. Par le mathmaticien, probabiliste et dmographe franais I. J. Bienaym (1796-1878) entre
1838 et 1852.
Dfinition
Si X est une v.a. distribue selon une loi (m ; ), alors la loi de la
v.a. est dite loi du khi-deux 1 degr de libert , note
Proprit
La densit de probabilit dune loi
2
(1) est donne par :
x
i
m ( )
2
i 1 =
n
2
-----------------------------
n
2
-----
x
i
m ( )
2
i 1 =
n
n
-----------------------------
n s
n
2
2
------------ = =
s
n
2
n
2
-----
Q
X
i
m ( )
2
i 1 =
n
2
-------------------------------
X
i
m
---------------
( ,
, (
j \
2
i 1 =
n
= =
2
X m
--------------
( ,
j \
2
2
1 ( )
1
2
----------e
x/2
x
1/2
0
si x 0 >
si x 0
P211-282-9782100549412.fm Page 241 Mercredi, 24. novembre 2010 10:33 10
242
INTRODUCTION LA MTHODE STATISTIQUE
En effet, si
Q
suit une loi , on peut crire
Q
=
U
2
o
U
est une v.a.
normale centre rduite. On crit la fonction de rpartition de
Q
comme suit :
La drive de cette dernire expression par rapport
x
donne la densit
cherche :
Bien entendu cette dernire expression est valable si
x
> 0. Compte tenu
du fait que
Q
est un carr, lvnement
Q
<
x
est impossible si
x
0, ce qui
implique
f
Q
(x)
= 0 si
x
0
Nous avons vu au chapitre 6 comment obtenir la loi dune somme de deux
v.a. discrtes indpendantes. Dans le contexte des v.a. continues, on admettra
le rsultat suivant.
Cette expression qui lie les densits
f
X
(x)
et
g
Y
(y)
des v.a.
X
et
Y
est appele
produit de convolution
de
f
X
et
g
Y
Appliquons ce rsultat la somme des v.a.
X
et
Y
indpendantes et suivant
chacune une loi :
Thorme
Si
X
et
Y
sont deux v.a. absolument continues indpendantes, de
densits respectives
f
X
(x)
et
g
Y
(y)
, alors la densit de probabilit de la
somme
Z
=
X
+
Y est donne par :
2
1 ( )
F
Q
x ( ) P U
2
x < ( ) P U x < ( )
1
2
----------e
t
2
/2
dt
x
+ x
= = =
1
2
----------e
t
2
/2
dt
+ x
1
2
----------e
t
2
/2
dt
x
=
f
Q
x ( )
1
2
----------e
x/2
1
2 x
----------
1
2
----------e
x/2
1
2 x
---------- + =
1
2x
-------------e
x/2
1
2
---------- x
1/2
e
x/2
= =
h
Z
z ( ) f
X
x ( ) g
Y
z x ( )dx
+
g
Y
y ( ) f
X
z y ( )dy
+
= =
2
1 ( )
f
X
x ( )
1
2
----------e
x/2
x
1/2
0
si x 0 >
si x 0
=
P211-282-9782100549412.fm Page 242 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
243
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Ces rsultats permettent dobtenir la densit de la somme
Z
de deux v.a.
distribues selon des lois :
La dernire intgrale a t obtenue avec le changement de variable
x = z t
, et le calcul usuel donne la valeur
. La premire intgration se fait
entre 0 et
z
puisque
f
X
(x)
= 0 si
x
< 0 et
g
Y
(z x)
= 0, si
z x
< 0, soit si
x
>
z
.
La densit de la somme
Z
est donne par :
Cette dernire expression nest autre que la fonction densit de la loi
exponentielle de paramtres
= 0 et
= 2.
En tenant compte du fait que
(1) = 1 et que
z
0
= 1, on peut crire la den-
sit de
Z
pour
z
> 0 sous la forme
1
:
pour
= 1
Cette formule :
1. Il est particulirement utile de se servir dans ce chapitre, de la fonction gamma, dfinie en
tout point
x
> 0 par avec ,
et !
g
Y
y ( )
1
2
----------e
y/2
y
1/2
0
si y 0 >
si y 0
=
h
Z
z ( )
1
2
------ x
1/2
e
x/2
z x ( )
1/2
e
z x ( )/2
dx
0
z
=
1
2
------e
z/2
x z x ( )
( ,
j \
1/2
0
z
dx =
1
2
------e
z/2
t 1 t ( )
( ,
j \
1/2
0
1
dt =
h
Z
z ( )
1
2
---e
z/2
0
si z 0 >
si z 0
=
x ( ) t
x 1
e
t
dt
0
=
1
2
---
( ,
j \
x = x ( ) x 1 ( ) x 1 ( ) =
n ( ) n 1 ( ) =
1
2
( )
------------------z
1
e
z/2
f x ( )
1
2
( )
------------------ x
1
e
x/2
0
si x 0 >
si x 0
=
P211-282-9782100549412.fm Page 243 Mercredi, 24. novembre 2010 10:33 10
244
INTRODUCTION LA MTHODE STATISTIQUE
reprsente dune part, lorsque
= 1/2, la densit de la loi , et dautre
part, lorsque
= 1, la densit dune somme de deux lois
On peut montrer plus gnralement pour toute valeur de
que cette for-
mule donne la loi dune somme de 2
v.a. distribues selon des lois
Ceci explique que, par extension, on appellera la loi suivie par la
somme de
n
carrs de variables alatoires gaussiennes centres rduites ind-
pendantes. La densit de cette loi , dite loi du
khi-deux n degrs de
libert
(
ddl
en abrg), est donne par la formule ci-dessus avec
=
n
/2
Pour une v.a.
X
suivant une loi , il est trs ais dobtenir les deux pre-
miers moments, puisque
X
=
U
2
o
U
est une v.a. gaussienne centre rduite :
E
(
X
) =
E
(
U
2
) = var(
U
) +
E
(
U
)
2
= 1
De mme, on peut crire :
var(
X
) =
E
(
X
2
)
E
(
X
)
2
=
E
(
U
4
) 1 = 3 1 = 2
Ces rsultats se gnralisent tout de suite au cas dune loi
puisquune telle distribution est la somme de n v.a. i.i.d. de loi . Par
consquent, pour une v.a. Y de loi , on a :
E(Y) = n et var(Y) = 2n
Cette loi est une loi asymtrique, qui concide avec la loi exponentielle
pour = 1, cest--dire pour 2 ddl.
On peut calculer les caractristiques de forme :
et
montrant bien lasymtrie, mais aussi la tendance ( cf. infra) vers une loi
symtrique (la loi normale) lorsque le nombre de degrs de libert augmente.
De faon tout fait vidente, ces deux coefficients tendent vers la valeur 0
quils prennent pour une loi de Gauss.
La figure 7.12 donne la forme des distributions pour quelques
valeurs de n.
2
1 ( )
2
1 ( )
2
1 ( )
2
n ( )
2
n ( )
2
1 ( )
2
n ( )
2
1 ( )
2
n ( )
1
8
n
--- =
2
12
n
------ =
2
n ( )
0
0,2
0,4
0,6
0,8
1,0
1,2
0 3 6 9 12 15
1 ddl
2 ddl
4 ddl
8 ddl
Figure 7.12 Densits de quelques lois de khi-deux ( 1, 2, 4 et 8 ddl)
P211-282-9782100549412.fm Page 244 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
245
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
On remarque sur cette figure que, pour 1 ddl, la densit se comporte en
au voisinage de x = 0, et quelle dcrot exponentiellement vers 0. Pour
2 ddl, il sagit de la densit de la loi exponentielle de paramtres = 0
et = 2. En dehors de ces deux cas particuliers, toutes les courbes partent de
lorigine (dautant moins rapidement que le nombre de ddl est lev), elles
prsentent un maximum et dcroissent lentement vers 0. Il faut noter que plus
le nombre de ddl est lev, plus la dissymtrie est attnue. La loi du
tant la loi dune somme de n v.a. i.i.d. (de loi commune), le rsultat
voqu au II.D, indiquant que la loi dune somme de v.a. i.i.d. peut tre
approxime par une loi de Gauss, montre bien que la loi du khi-deux n ddl
tend se comporter comme une loi de Gauss lorsque n devient grand.
Cette relation entre la loi du khi-deux et la loi normale est traduite num-
riquement par la formule de Wilson-Hilferty :
reliant la fonction de rpartition de la loi celle de la loi de Gauss
centre rduite qui est tabule. Cette formule est une excellente approximation
ds lors que le nombre n de ddl nest pas trop petit (en pratique ds que n > 10).
Une autre possibilit de calculs approchs pour la fonction de rpartition
de la loi est donne par la formule de Fisher :
plus simple, mais donnant une moins bonne approximation. On ne lutilise
que pour n > 30
Enfin la loi du khi-deux 2 n ddl prsente une relation trs intressante
pour les calculs avec la loi de Poisson. Si X suit une loi , et si Y suit
une loi de Poisson de paramtre x, alors :
La figure 7.13 met bien en vidence lallure dissymtrique de la courbe gn-
rale (cest--dire pour n > 2), tant que le nombre de ddl nest pas trop lev.
Pour les calculs relatifs la loi du khi-deux on dispose essentiellement de
la table de fractiles (annexe IV). Cette table est double entre. Dans la
colonne de gauche, on recherche la ligne correspondant aux degrs de libert
de la loi tudie et dans la ligne suprieure, on recherche la probabilit
cumule qui dfinira le fractile, not . Donnons quelques exemples :
1/ x
2
n ( )
2
1 ( )
P
2
n ( ) x < ( ) F
U
x
n
---
( ,
j \
1/3
1
2
9n
------ +
( ,
j \
9n
2
------
2
n ( )
2
n ( )
P
2
n ( ) x < ( ) F
U
2x 2n 1 ( )
2
2n ( )
P X 2x > ( ) P Y n 1 > ( ) =
2
2n ( )
0,5
2
5 ( ) 4,351 =
0,95
2
10 ( ) 18,307 =
0,01
2
8 ( ) 1,64 =
0,99
2
6 ( ) 16,812 =
0,5
2
30 ( ) 29,336 =
0,95
2
40 ( ) 55,76 =
0,01
2
40 ( ) 22,16 =
0,99
2
30 ( ) 50,892 =
P211-282-9782100549412.fm Page 245 Mercredi, 24. novembre 2010 10:33 10
246
2
n
1
n
2
+ ( )
P211-282-9782100549412.fm Page 246 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
247
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
B. La loi de Student
1
On peut montrer que la densit de la v.a. T
1. Student tait le pseudonyme choisi par le statisticien William Sealy Gosset (1876-1937). Il
fut lun des premiers statisticiens du monde de lentreprise, consacrant sa carrire lindustrie
agro-alimentaire (brasseries) au sein de laquelle il a toujours t reconnu la fois comme
industriel et comme scientifique. Trs associ aussi au monde universitaire, il a largement
contribu au dveloppement scientifique de cette priode.
2
( )
U
Y
---
--------
U
Y
------- =
f
T
v
t ( )
1
-------
1 +
2
------------
( ,
j \
2
---
( ,
j \
-------------------------
1
t
2
--- +
( ,
j \
1
+
2
------------
=
E T
( ) 0 =
E T
v
2
( )
var T
( )
2
------------ =
2
1 ( )
1
---
1
1 t
2
+
-------------
P211-282-9782100549412.fm Page 247 Mercredi, 24. novembre 2010 10:33 10
248
INTRODUCTION LA MTHODE STATISTIQUE
Cela est encore plus vident si on compare la loi de Cauchy la loi de
Gauss centre qui possde le mme maximum, soit 0,3183, ce qui correspond
un cart-type gal 1,2533. Dans cette comparaison, reprsente figure
7.15, on voit que la probabilit quune v.a. de Cauchy dpasse la valeur 1 est
gale 0,25 (1 est ainsi le troisime quartile, et par symtrie 1 est le premier
quartile de la loi de Cauchy), alors que la probabilit quune v.a. de Gauss
(0 ; 1,2533) dpasse la valeur 1 est gale 0,213. De mme, la probabilit
quune v.a. de Cauchy dpasse la valeur 2 est gale 0,1476, alors que pour
la v.a.
(0 ; 1,2533), cette probabilit est gale 0,055
Cette loi de Student 1 ddl, ou loi de Cauchy, prsente la particularit de
navoir aucun moment fini autre que son esprance mathmatique (qui est nulle).
On retiendra que cette situation nest pas du seul domaine de la thorie, mais
quelle correspond au rapport de deux gaussiennes centres rduites indpendantes.
3,5 2,5 1,5 0,5 0,5 1,5 2,5 3,5
Cauchy
(0 ; 1)
Figure 7.14 Loi de Cauchy et loi de Gauss centre rduite
3,5 2,5 1,5 0,5 0,5 1,5 2,5 3,5
Cauchy
(0 ; 1,2533)
Figure 7.15 Loi de Cauchy et loi (0 ; 1,2533) : comparaison des aplatissements
P211-282-9782100549412.fm Page 248 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
249
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Dans le cas gnral de la loi de Student
ddl, nous avons vu que la
moyenne est nulle, que la variance est suprieure 1 et se rapproche de cette
valeur au fur et mesure que
augmente. On a reprsent sur la figure 7.16, les
densits des lois de Student 1, 2, 5 et 15 ddl ainsi que la densit de la loi de
Gauss centre rduite. Il apparat clairement sur cette figure que la loi de Student
devient trs proche de la loi
(0 ; 1) lorsque son nombre de ddl augmente. En
pratique, cette approximation est de bonne qualit ds lors que
> 40
Sur cette figure, on constatera aussi la relation existant entre les fractiles
t
) et
u
de mme ordre a respectivement pour la loi de Student
T
k
et pour
la loi
(0 ; 1) :
De mme, on remarquera que la symtrie de la loi de Student lie les frac-
tiles
t
) et
t
1
) par la relation :
t
1
(
) = t
()
Le coefficient dasymtrie
1
est bien entendu nul puisque la densit tant
une fonction paire, tous les moments impairs sont nuls. Le calcul du coeffi-
cient daplatissement
2
est long, et nous admettrons le rsultat :
valable si > 4
Lensemble de ces deux rsultats montre bien laffinit de la loi de Stu-
dent avec la loi de Laplace-Gauss, mais aussi la limite de cette similitude. En
effet, on retrouve la symtrie de la loi et lallure en cloche de la densit,
mais cest laplatissement aux extrmits qui fait la diffrence (et nous
lavons explicit pour la loi de Cauchy). Cependant, la valeur du coefficient
1 ddl
2 ddl
0 1 2 3 4 1 2 3 4
0,2
5 ddl
25 ddl
Gauss
0,4
Figure 7.16 Convergence de la loi de Student vers la loi de Gauss centre rduite
t
( ) u
0 < <
t
( ) u
0 > >
si 0,5 <
si 0,5 >
2
6
4
------------ =
P211-282-9782100549412.fm Page 249 Mercredi, 24. novembre 2010 10:33 10
250
INTRODUCTION LA MTHODE STATISTIQUE
daplatissement de Fisher montre que cette diffrence sattnue au fur et
mesure que le nombre de ddl augmente.
Les calculs relatifs la loi de Student utilisent la table des
fractiles
(Annexe IV). Cette table se lit en recherchant :
i) dans la 1
re
colonne, la ligne correspondant aux ddl de la loi considre ;
ii) dans la 1
re
ligne, la colonne correspondant lordre
du fractile ;
et le fractile
t
) se lit lintersection de la ligne et de la colonne dtermins.
Ces fractiles sont donns pour des valeurs de
suprieures 0,5. Si
< 0,5
on utilise la symtrie de la loi de Student et la formule
t
) =
t
1
(
Exemples
le fractile dordre 0,9 dune loi de Student 5 ddl est gal 1,476
le fractile dordre 0,3 dune loi de Student 10 ddl est gal 0,542
le fractile dordre 0,975 dune loi de Student 15 ddl est gal 2,131
le fractile dordre 0,975 dune loi de Student 30 ddl est gal 2,042
le fractile dordre 0,025 dune loi de Student 100 ddl est gal 1,984
Dans les deux derniers cas, les fractiles correspondant de la loi de Gauss
centre rduite sont gaux 1,96 et 1,96. On retrouve bien que lapproxi-
mation de la loi de Student par la loi de Gauss est dautant plus valable lors-
que le nombre de ddl est lev (en particulier sil dpasse 40).
Comme pour la loi de Gauss et la loi du khi-deux, on dispose de formules
approches, pour la fonction de rpartition ainsi que pour les fractiles, utili-
ses notamment pour les calculs rpts sur ordinateur.
Pour les fractiles, on utilisera lapproximation dite de Fisher et Cornish :
qui donne de bons rsultats mme pour de faibles ddl. Ds que
> 30, on
pourra utiliser la formule beaucoup plus simple :
Pour la fonction de rpartition dans le cas gnral, cest--dire pour
> 2,
les formules sont fastidieuses crire. Elles nont dintrt que pour des pro-
grammes de calculs et de simulation. Dans lannexe II, nous indiquons les
formules valables pour 1 ddl (lerreur commise dans lapproximation par ces
formules nexcde pas 0,001).
t
( ) u
1
4
------ + u
2
1 + ( )
1
96
2
-----------u
5u
4
16u
2
3 + + ( ) +
1
384
3
--------------u
3u
6
19u
4
17u
2
15 + + ( ) +
t
( ) u
4
------ 1 u
2
+ ( ) +
P211-282-9782100549412.fm Page 250 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
251
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
On notera que pour 2 ddl, la fonction de densit sintgre sans difficults
et quon a la formule exacte pour la fonction de rpartition :
valable pour toute valeur de t > 0
La loi de Student est utilise principalement pour lestimation et les tests.
Dans ce qui suit, on justifie brivement ce rle.
Au paragraphe III.A, nous avons envisag les quantits alatoires et
Q dans le contexte de n v.a. X
i
(i = 1, 2, , n) de loi (m ; ). Ces deux v.a.
suivent respectivement des lois (m ; ) et . Nous pouvons crire :
o
la variable alatoire V
2
prenant la valeur correspondant aux observations {x
i
},
et pouvant tre calcule quand on connat la moyenne m.
De nombreuses situations ne correspondent pas ce cas. Il faut souvent
utiliser la v.a. :
pour reprsenter la variance, partir de sries obtenues par chantillonnage,
et remplacer la v.a. Q par :
Pour cette v.a. , on peut crire :
o
Ces v.a. Y
i
sont gaussiennes, mais ne sont pas indpendantes puisque lune
dentre elles sexprime en fonction des autres :
= . On ne peut donc pas dire que leur somme,
cest--dire , est distribue selon une loi . On montre quelle est en fait
distribue selon une loi , et quelle est indpendante de
P 0 T
2
t < < ( )
t
2 2 t
2
+
-------------------- =
X
n
n
-------
2
n ( )
Q
1
n
--- X
i
m ( )
2
i 1 =
n
2
-----
n
2
----- V
2
= = V
2
1
n
--- X
i
m ( )
2
i 1 =
n
=
S
n 1
2
1
n 1
------------ X
i
X
n
( ,
j \
2
i 1 =
n
=
Q
X
i
X
n
( ,
j \
2
i 1 =
n
2
---------------------------------
n 1 ( ) S
2
n 1
2
---------------------------------- = =
Q
Q
X
i
X
n
( ,
j \
2
i 1 =
n
2
---------------------------------
X
i
X
n
-----------------
( ,
, (
j \
2
i 1 =
n
Y
i
2
i 1 =
n
= = = Y
X
i
X
n
----------------- =
X
i
X
n
( ,
j \
i 1 =
n
X
i
nX
n
i 1 =
n
0 =
Q
2
n ( )
2
n 1 ( ) X
n
P211-282-9782100549412.fm Page 251 Mercredi, 24. novembre 2010 10:33 10
252
---------------- n
( ,
, (
j \
Q
n 1
------------
-----------------------------
X
n
m
S
n 1
---------------- n = =
U
X
n
m
---------------- n =
F
X
( ,
j \
Y
( ,
j \
---------------------
1
-----
X
Y
---- = =
P211-282-9782100549412.fm Page 252 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
253
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
On fera trs attention dans la pratique de cette distribution lordre des
degrs de libert. La loi de Fisher-Snedecor
1
1
et
2
ddl nest pas la mme
que la loi de Fisher-Snedecor
2
et
1
ddl.
En effet, on peut crire :
Si cette probabilit est gale , alors c nest autre que le fractile f
(
1
,
2
).
Par consquent, 1/c correspond au fractile f
1-
(
2
,
1
). On obtient ainsi la rela-
tion trs utile, notamment dans la lecture des tables :
On peut montrer, par un calcul dintgrales assez long, que la densit de
la loi de Fisher-Snedecor F(
1
,
2
) est donne par la formule :
expression dans laquelle () reprsente la fonction eulrienne gamma
( III.A).
Lorsque
1
= 1, la densit, comportant un terme en
admet laxe des ordonnes comme asymptote.
Lorsque
1
= 2, la densit dcrot rgulirement.
En dehors de ces cas, comme on le voit sur la figure 7.17, la densit de la
loi de Fisher-Snedecor prsente un maximum aprs une croissance dautant
plus rapide que les degrs de libert du numrateur sont peu levs, puis une
dcroissance lente. Cest une densit trs dissymtrique.
1. Ltude de cette loi en tant que rapport de deux lois de khi-deux rapportes leurs degrs
de libert est due au statisticien anglais Ronald Aymler Fisher (1890-1962), tandis que les
dveloppements numriques, et notamment ltablissement des tables ont t raliss par le
statisticien amricain George Waddel Snedecor (1881-1974).
P F
1
,
2
( ) c < ( ) P
1
-----
X
Y
---- c <
( ,
j \
P
2
-----
Y
X
----
1
c
--- >
( ,
j \
= =
1 P F
2
,
1
( )
1
c
--- <
( ,
j \
( ,
j \
=
f
1
2
,
1
( )
1
f
1
,
2
( )
------------------------- =
g
F
x ( )
1
/2
2
/2
1
2
+ ( ) 2 ( )
1
/2 ( )
2
/2 ( )
------------------------------------------------------------
x
v
1
2 ( ) 1
1
x + ( )
2
+ ( ) 2
--------------------------------------------
0
si x 0 >
si x 0 <
x
1/2
1
x + ( )
2
1 + ( ) 2
1
x
2
1
x + ( )
2
1 +
------------------------------------------ =
P211-282-9782100549412.fm Page 253 Mercredi, 24. novembre 2010 10:33 10
254
INTRODUCTION LA MTHODE STATISTIQUE
On remarquera que la loi de Fisher-Snedecor o
1
= 1 se ramne la loi
de Student. En effet, le numrateur de la dfinition tant le carr dune gaus-
sienne centre rduite, il sensuit quune telle loi
F
(1,
2
) est le carr dune
v.a. distribue selon une loi de Student
2
ddl.
On peut dduire une relation entre les fractiles de la loi
F
(1,
2
) et ceux
de la loi
T
(
2
), puisque :
soit encore :
Ceci revient crire :
et on obtient la relation entre fractiles :
qui est une traduction numrique de la proprit 1 ci-dessous.
Proprit 1
Si X est une v.a. distribue selon une loi de Fisher 1 et
2
ddl, alors
X est le carr dune v.a distribue selon une loi de Student
2
ddl.
0
0,4
0,8
1,2
0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5
(10; 4)
(10; 10)
(10; 50)
Figure 7.17 Densits de lois de Fisher pour
1
= 10 et quelques valeurs de
2
1 P F 1
2
, ( ) f
1
1
2
, ( ) <
( ,
j \
P T
2
2
( ) f
1
1
2
, ( ) <
( ,
j \
= =
1 P f
1
1
2
, ( ) T
2
( ) + f
1
1
2
, ( ) < <
( ,
j \
=
2P T
2
( ) + f
1
1
2
, ( ) <
( ,
j \
1 =
P T
2
( ) + f
1
1
2
, ( ) <
( ,
j \
1 2 =
f
1
1
2
, ( ) t
1 2
2
( ) =
P211-282-9782100549412.fm Page 254 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
255
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Le calcul des caractristiques de la loi de Fisher-Snedecor montre que :
i) , lesprance de cette loi ne dpend pas de
1
, et
nest dfinie que pour
2
> 2
ii) , la variance de cette loi nest
dfinie que pour
2
> 4
On notera une relation, trs utile au niveau des calculs, entre la loi de Fisher-
Snedecor dont les degrs de libert sont pairs et la loi binomiale (du type de
celle qui est mentionne au III.A entre la loi de Poisson et la loi du khi-deux).
Enfin, toujours pour la pratique au niveau des calculs, la formule suivante
est une approximation correcte des fractiles de la loi de Fisher-Snedecor lors-
que les degrs de libert sont tous les deux suffisamment grands (au moins
gaux 50) :
o u
2
, ( )
( ,
j \
2
2
-------------- =
var F
1
2
, ( )
( ,
j \
2
2
2
2
2 + ( )
2
2 ( )
2
2
4 ( )
---------------------------------------------- =
P X
1 p
p
------------
n
n r 1
-------------------- >
( ,
j \
P Y r ( ) =
f
2
, ( )
1
2
---
2
1
1
1
( ) u
1
2
---
1
1
2
1
+ ( ) +
P211-282-9782100549412.fm Page 255 Mercredi, 24. novembre 2010 10:33 10
256
--- X x
0
( ) m ln ( ) = =
P X x ( ) P X x
0
x x
0
( ) =
P X x
0
( ) ln m x x
0
( ) ln m [ ] =
P U
x x
0
( ) ln m
----------------------------------
( ,
j \
=
P X x ( )
1
2
----------e
x
2
/2
dx
A
= A
x x
0
( ) ln m
---------------------------------- =
P211-282-9782100549412.fm Page 256 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
257
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
et en drivant par rapport x, on obtient la densit dune loi log-normale :
La loi log-normale dpend de 3 paramtres, m, et x
0
. Les deux pre-
miers sont les moments de la loi normale associe, tandis que le dernier
est une caractristique de position puisque cest la valeur minimale de cet
ala.
On peut montrer que lesprance mathmatique et la variance de X sont
donnes par :
Dterminons maintenant la mdiane Me :
Plus gnralement, le fractile dordre dune loi log-normale
(m, , x
0
), not x
, sobtient de la faon suivante :
Le mode Mo de la distribution log-normale, correspondant au maximum
de la densit, est :
Puisque , on a et , ce qui implique
que le mode Mo, la mdiane Me et lesprance mathmatique E(X) vrifient :
Mo < Me < E(X)
La figure 7.18 donne lallure de la densit pour quelques valeurs de m et
de , avec
f
X
x ( )
1
2
---------- exp
A
2
2
------
( ,
j \
1
---
1
x x
0
( )
------------------ =
1
2 x x
0
( )
--------------------------------- exp
1
2
---
x x
0
( ) ln
------------------------
( ,
j \
2
=
E X ( ) x
0
exp m
1
2
---
2
+
( ,
j \
+ =
var X ( ) e
2m
e
2
e
2
1 ( ) =
F Me ( ) 0,5 = A
Me x
0
( ) ln m
--------------------------------------- 0 = = Me x
0
e
m
+ =
P X x
( ) P X x
0
( ) ln x x
0
( ) ln
( ,
j \
P U m x
x
0
( ) ln +
( ,
j \
= =
P U
x
x
0
( ) ln m
-------------------------------------
( ,
j \
= =
u
x
0
( ) ln m
------------------------------------- x
x
0
e
m u
+
+ = =
Mo x
0
exp m
2
( ) + =
2
0 > exp
2
( ) 1 < exp
2
2 ( ) 1 >
x
0
0 =
P211-282-9782100549412.fm Page 257 Mercredi, 24. novembre 2010 10:33 10
258
1
e
2
2 + ( ) e
2
1 =
0,2
0,4
0,6
0,8
1
1,2
1,4
1,6
0
0,5 1 1,5 2 2,5 3 3,5 4
= 0,1
= 0,2
= 0,3
= 0,5
= 0,8
Figure 7.19 Asymtrie de la loi log-normale (0, 1, ) en fonction de
P211-282-9782100549412.fm Page 258 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
259
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Cette dernire proprit fait de la loi log-normale un modle trs intressant
pour de nombreux phnomnes valeurs positives, et pour lesquels la loi de
Gauss donnerait des probabilits non nulles des domaines de valeurs ngati-
ves. Par consquent, lorsquune distribution gaussienne (respectant donc les
caractristiques de symtrie et daplatissement) apparat adapte la reprsen-
tation dun phnomne alatoire qui, toutefois, ne prend que des valeurs posi-
tives, on recherchera une loi log-normale dont les paramtres seront adapts.
Dans ce contexte, on trouve notamment des rpartitions de poids, de taille
La dure des communications tlphoniques est trs souvent un bon
exemple de modlisation par la loi log-normale. Dans tous les cas, lorsque
lhypothse de rpartition log-normale est adopte, il suffit de prendre le
logarithme de toutes les observations pour se ramener un contexte de loi
normale, et dappliquer alors toutes les proprits vues au II.
Les distributions de revenus sont souvent modlises par la loi log-nor-
male en raison de leur asymtrie, de leurs valeurs toujours bornes gauche,
et de leffet attnuateur de la transformation logarithmique.
Exemple
Illustrons ce propos en ajustant les distributions des salaires Ensemble
en 2000 (chapitre 1, tableau 1.5) par une loi log-normale.
Si X suit une loi log-normale (m , , x
0
),
alors suit une loi normale centre rduite.
Dans ce cas, les points de coordonnes { u
i
, ln(x
i
x
0
)} sont aligns, u
i
tant le fractile dordre i/10 de la loi (0 ; 1) si x
i
est le i
e
dcile
observ, et x
0
le salaire minimum (gal 6 200 en 2000).
Le rsultat de lajustement est prsent graphiquement ( cf. figure 7.20).
Les 9 points tant proches de lalignement sur le graphique,
lajustement par une loi log-normale peut tre retenu.
U X x
0
( ) m ( ) ln ( ) =
Figure 7.20 Distribution des salaires Ensemble en 2000 ajuste par une loi log-normale
P211-282-9782100549412.fm Page 259 Mercredi, 24. novembre 2010 10:33 10
260
x
0
----
x
0
x
----
( ,
j \
1 +
0
si x x
0
si x x
0
<
0
2,5
5
0 1 2 3 4
= 5
= 2
= 1
Figure 7.21 Densits de lois de Pareto, pour x
0
= 1, et plusieurs valeurs de
F
X
x ( )
x
0
----
( ,
j \
x
0
t
----
( ,
j \
1 +
x
0
x
dt
x
0
----
( ,
j \
x
0
1 +
dt
t
1 +
----------
x
0
x
1
x
0
x
----
( ,
j \
= = =
f
X
x ( ) =
1
x
0
x
----
( ,
j \
si x x
0
si x x
0
<
P211-282-9782100549412.fm Page 260 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
261
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
La probabilit dune valeur suprieure un seuil fix
x
, tel que
{
x
>
x
0
> 0}, est gale
Pareto
1
a introduit sa loi pour dcrire des units conomiques par des carac-
tres de taille (revenu, chiffre daffaires, budget dinvestissement). Pour de
telles grandeurs, on postule le plus souvent que le nombre dindividus dont le
caractre tudi dpasse un seuil
x
est donn par o
C
et
sont des
constantes. Lapplication de la loi de Pareto aux distributions de revenus est
une des plus usuelles, le paramtre
tant en gnral voisin de 2
Le calcul des moments est simple. On a dabord :
mais ce rsultat nest valable (convergence de lintgrale) que si
> 1 Remar-
quons quune v.a. distribue selon la loi de Pareto ne prend que des valeurs
positives (
x
0
> 0), ce qui implique que son esprance mathmatique est posi-
tive. Un rsultat correspondant
< 1, soit (
1) < 0, serait absurde.
Plus gnralement, on a :
1. La loi tudie dans ce paragraphe porte le nom de lconomiste italo-suisse Wilfrid Pareto
(1848-1923). Cest lui quon doit lhypothse, quil a suppose universelle , de la dcrois-
sance en
x
de la proportion des individus dont le revenu dpasse la valeur
x
.
x
0
x
----
( ,
j \
0
0,2
0,4
0,6
0,8
1,0
0 1 2 3 4
= 5
= 2
= 1
Figure 7.22 Fonctions de rpartition de lois de Pareto pour x
0
= 1 et plusieurs valeurs de
N
x
C
x
----- =
E X ( ) x
x
0
----
( ,
j \
x
0
x
----
( ,
j \
1 +
x
0
= dx x
0
dx
x
-----
x
0
x
0
1
------------ = =
E X
k
( ) x
k
x
0
----
( ,
j \
x
0
x
----
( ,
j \
1 +
x
0
= dx x
0
dx
x
1 k +
-----------------
x
0
x
0
k
k
------------ = =
P211-282-9782100549412.fm Page 261 Mercredi, 24. novembre 2010 10:33 10
262
x
0
2
2
------------
2
x
0
2
1 ( )
2
-------------------
x
0
2
2 ( ) 1 ( )
2
------------------------------------- = = =
P X x X x
1
( )
P x
1
X x ( )
1 P X x
1
< ( )
---------------------------------
x
0
x
1
( )
x
0
x ( )
x
0
x
1
( )
---------------------------------------------- 1 x
1
x ( )
= = =
X X x
1
( )
E X X x
1
( )
x
1
1
------------ =
F x ( ) 1
x
0
x
----
( ,
j \
=
1 F x ( ) ( ) ln x
0
( ) ln x ( ) ln =
x ( ) ln ; 1 F x ( ) ( ) ln
x ( ) ln ; 1 F x ( ) ( ) ln
1 F x ( ) ( ) ln x ( ) ln K + =
1 F x ( ) x
e
K
A x ( )
= = A
e
K
=
x
i
( ) ln ; 1 F x
i
( ) ( ) ln
P211-282-9782100549412.fm Page 262 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
263
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
lue de la pente de la droite (elle peut tre calcule par la mthode des moin-
dres carrs, chapitre 3).
Il faut remarquer que dans cette reprsentation graphique, on trouve en
ordonne les valeurs (sur une chelle logarithmique) de , cest--
dire de la proportion rsiduelle au-del de la valeur x. Ceci nous reporte
lintroduction de cette loi par Pareto, et lutilisation trs frquente des
chelles logarithmiques dans ltude des variables de type taille.
Exemple
Lexemple suivant illustre une modlisation par une loi de Pareto du
chiffre daffaire des 25 premiers groupes franais de lindustrie et des
services en 2001. Les donnes sont extraites des Tableaux de
lconomie Franaise 2003-2004.
Tableau 2.1 Tableau 7.1
Les points sont peu prs aligns (cf. figure 7.23).
Le calcul de la droite des m oindres carrs donne pour estimation des
paramtres du modle de Pareto = 1,646 et x
0
= 16 774.
1 F x ( )
x
i
( ) ln ; 1 F
i
( ) ln
P211-282-9782100549412.fm Page 263 Mercredi, 24. novembre 2010 10:33 10
264
e
Figure 7.24 Diagramme Quantile-Quantile (unit : milliards deuros)
Loi de Pareto de paramtres = 1,646 et x
0
= 16 774
P211-282-9782100549412.fm Page 264 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
265
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Pour terminer, on notera que la moyenne dune loi de Pareto de paramtres
et x
0
est gale x
0
/( 1), et que sa mdiane est gale x
0
2
1/
Pour lexemple, on peut comparer la moyenne observe gale 33 169
millions deuros la moyenne du modle thorique gale 42 740 millions
deuros, et la mdiane observe gale 25 353 millions deuros la mdiane
du modle thorique gale 25 558 millions deuros.
Les paramtres du modle de Pareto ont t valus laide de toutes les
observations avec une premire valeur particulirement leve. Ceci explique
la survaluation non ngligeable de la moyenne par le modle.
Dautre part, on notera que les mdianes (thorique et observe), plus
petites que les moyennes correspondantes, indiquent une distribution dissy-
mtrique, tale vers la droite (chapitre 1).
C. La loi de Weibull
Si X suit une loi de Weibull de paramtres a, b et c, alors suit
une loi de Weibull de paramtres 0, 1 et c. En effet :
et la densit de Y est gale la drive de cette dernire expression. Pour
a + by > a, soit si y > 0 :
et
On appelle loi de Weibull standard de paramtre c, note W(c), la loi de
lorsque X suit une loi de Weibull de paramtres a, b et c. On
Dfinition
Une v.a. continue X suit une loi de Weibull de paramtres a, b > 0 et
c > 0, si sa densit est donne par :
f x ( ) =
c
b
---
x a
b
-----------
( ,
j \
c 1
e
x a
b
-----------
( ,
j \
c
si x a >
si x a
Y
X a
b
------------- =
P Y y < ( ) P
X a
b
------------- y <
( ,
j \
P X a by + < ( )
c
b
---
x a
b
-----------
( ,
j \
c 1
e
x a
b
-----------
( ,
j \
c
x d
a
a by
+
= = =
f y ( ) b
c
b
---
a by a +
b
------------------------
( ,
j \
c 1
e
a by a
+
b
------------------------
( ,
j \
c
cy
c 1 ( )
e
y
c
= =
f y ( ) 0 si y 0 < ( ) =
Y
X a
b
------------- =
P211-282-9782100549412.fm Page 265 Mercredi, 24. novembre 2010 10:33 10
266
INTRODUCTION LA MTHODE STATISTIQUE
remarque que pour
c
= 1, la loi de Weibull standard correspond la loi expo-
nentielle. La figure 7.25 reprsente les densits de la loi de Weibull standard
pour les valeurs
c
= 1, 2, 3 et 5. On voit que cette densit est asymtrique, et
prsente un maximum si
c
> 1 pour :
Lorsque
c
> 1, le mode de la distribution de Weibull standard se rapproche de
1 lorsque
c
tend vers linfini. Dans le cas gnral de la loi de Weibull de para-
mtres
a
,
b
et
c
, le mode converge rapidement vers (
a
+
b
) lorsque
c
augmente.
Par contre si 0 <
c
< 1, le mode est en 0, car la densit est dcroissante.
La fonction de rpartition de la loi de Weibull standard est donne par :
F
(
x
) =
soit en posant : si
x
> 0
et naturellement
F(x)
= 0 si
x
0
Dans le cas gnral, posant
X
=
a
+
bY
, o
Y
suit une loi de Weibull stan-
dard, on a :
si
x
>
a
et
P
(
X < x
) = 0 si
x
a
Ceci nous montre que la mdiane est le point
w
0,5
tel que :
x
c 1
c
-----------
( ,
j \
1/c
=
0
0,5
1,0
1,5
2,0
0 1 2 3 4
W(1)
W(2)
W(5)
W(3)
Figure 7.25 Densits de la loi de Weibull standard
ct
c 1
e
t
c
dt
0
x
u t
c
= F x ( ) e
u
u d
0
x
c
e
u
[ ]
0
x
c
1 e
x
c
= = =
P X x < ( ) P a bY x < + ( ) P Y
x a
b
----------- <
( ,
j \
1 e
x a
b
-----------
( ,
j \
c
= = =
w
0,5
b 2 ln ( )
1 c
a + =
P211-282-9782100549412.fm Page 266 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
267
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Le calcul de la moyenne de la loi de Weibull standard donne :
obtenu en posant t = x
c
dans la premire intgrale, et en exprimant la seconde
intgrale laide de la fonction gamma ( III.A).
De mme, on peut calculer E(Y
2
) :
ce qui permet donc dcrire la variance :
Lexpression des moments dans le cas gnral de la loi de Weibull de
paramtres a, b et c provient de la relation X = a + bY :
La dissymtrie de la loi standard de Weibull, observe sur la figure 7.26,
varie avec la valeur du paramtre c. La moyenne tend vers 1 au fur et
mesure que c augmente, tandis que la variance dcrot. Les coefficients
dasymtrie et daplatissement de Fisher montrent que pour c peu prs gal
3,6 on obtient une courbe presque symtrique (
1
0), mais dont laplatis-
sement est lgrement moindre que celui de la loi de Gauss (
2
< 0).
E Y ( ) cx
c
e
x
c
dx
0
t
1/c
e
t
dt
0
1
1
c
--- +
( ,
j \
= = =
E Y
2
( ) cx
c 1 +
e
x
c
dx
0
t
2/c
e
t
dt
0
1
2
c
--- +
( ,
j \
= = =
var Y ( ) 1
2
c
--- +
( ,
j \
1
1
c
--- +
( ,
j \
2
=
E X ( ) a b 1
1
c
--- +
( ,
j \
+ =
var X ( ) b
2
1
2
c
--- +
( ,
j \
1
1
c
--- +
( ,
j \
( ,
j \
2
=
0
0,4
0,8
1,2
1,6
0 1 2 3 4
W(3)
W(3,6)
(0,9; 0,278)
Figure 7.26 Lois de Weibull standard et loi de Gauss
P211-282-9782100549412.fm Page 267 Mercredi, 24. novembre 2010 10:33 10
268
= = =
f x ( )
exp
x
------------
( ,
j \
1 exp
x
------------
( ,
j \
+
( ,
j \
2
--------------------------------------------------- =
P211-282-9782100549412.fm Page 268 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
269
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Un calcul trs simple montre alors que la fonction de rpartition est don-
ne par :
Si on pose , on obtient la forme rduite de la distribution
logistique, dfinie par la densit , et pour laquelle la fonction de
rpartition est . La densit de
Y
est symtrique puisque :
Ceci conduit constater que la variable
Y
est centre,
E
(
Y
) = 0, et que
E
(
X
) =
. Le paramtre
de la dfinition de la distribution logistique est
donc gal sa moyenne. Le calcul de la variance donne le rsultat
1
:
, ce qui donne :
La courbe reprsentative de la densit est encore une courbe en cloche,
en raison dune part, de la symtrie et dautre part, de lexistence dune
asymptote horizontale, dun maximum et de deux points dinflexion. La
comparaison de cette densit avec celle de la loi normale est justifie si lon
choisit des paramtres qui assurent lgalit des moyennes et lgalit des
variances. Compte tenu de ce qui prcde, il faut choisir la loi logistique
de paramtres :
et
On observe alors (
cf.
figure 7.27) que les deux densits sont assez pro-
ches. En raison de la symtrie, le coefficient dasymtrie
1
est nul, et la
comparaison entre le coefficient daplatissement
2
, gal 0 pour la loi de
Gauss centre rduite et 1,2 pour la loi logistique, traduit bien la limite de
leur ressemblance.
1. Le calcul passe par le dveloppement en srie de et lutilisation des fonctions eul-
riennes.
F x ( ) 1 exp
x
------------
( ,
j \
+
( ,
j \
1
=
Y
X
------------- =
e
y
1 e
y
+ ( )
2
-----------------------
1
1 e
y
+
----------------
e
y
1 e
y
+ ( )
2
-----------------------
1
e
y
( ,
j \
1
1
e
y
+
( ,
j \
2
--------------------------------
1
e
y
( ,
j \
(e
y
1)
e
y
+
( ,
j \
2
--------------------------------------
e
y
e
y
( )
2
e
y
1 + ( )
2
---------------------
e
y
1 e
y
+ ( )
2
--------------------- = = = =
1
1 e
y
+
-----------------
var Y ( )
2
3
----- = var X ( )
2
3
----------- =
0 =
3
------- 0,5513 =
P211-282-9782100549412.fm Page 269 Mercredi, 24. novembre 2010 10:33 10
270
271
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
V. Bilan
Les modles prsents dans ce chapitre et dans le prcdent sont ceux qui
sont le plus souvent utiliss dans ltude de situations alatoires concrtes. On
noubliera pas cependant que dautres modles prsentent un intrt certain
pour la modlisation. Ils ne peuvent tre prsents ici, mais on se doit de citer :
la loi binomiale ngative ;
la loi log-normale, la loi de Wald, les lois gamma et bta ;
les lois de khi-deux, de Student et de Fisher-Snedecor dcentres.
Dautre part, nous navons envisag que les lois de variables alatoires
valeurs relles. Les distributions de v.a. valeurs dans
n
nont pas t abor-
des. Leur utilisation est cependant frquente.
Lensemble de ce chapitre montre lintrt particulier de la loi de Gauss.
Approximation de lois discrtes ou de lois continues, mais aussi loi approche
des moyennes dchantillonnage, la distribution gaussienne est au centre de
ldifice statistique ds quon cherche modliser des situations alatoires.
Ses proprits (symtrie, stabilit aprs transformation linaire) et son uti-
lisation particulirement simple pour les calculs expliquent le recours trs
frquent cette loi. Cependant, on ne doit pas se laisser abuser, et nous avons
vu que plusieurs problmes spcifiques conduisent dautres lois, soit par
construction (cas des lois du khi-deux, de Student, de Fisher-Snedecor), soit
par ajustement (lois de Pareto, exponentielle, logistique, de Weibull).
Le sens de lhypothse de normalit merge de cette position centrale de la
loi de Gauss, comme aussi de son apparence. La loi de Gauss est celle qui
simpose lorsque le phnomne quon tudie ne prsente pas de dterminant
prdominant. En ce sens, la distribution normale correspond une rpartition
sans caractristique ou individualisation particulire. Elle serait donc presque le
modle utiliser si aucun autre ne simposait. Dailleurs, cest historiquement
ainsi quelle a merg pour reprsenter de faon universelle les phnomnes
au sens de la moyenne
1
(cest--dire observs comme moyennes arithmtiques).
On se gardera bien de vouloir tout prix poser une hypothse de normalit
dans une attitude descriptive. Rservant la loi de Gauss pour des phnomnes
agrgeant rellement de multiples causes indpendantes les unes des autres
sans cause prdominante, on recherchera toujours le modle (moins passe-
partout, mais donc plus savoureux et surtout plus riche) dcrivant vrai-
ment au mieux les observations. La controverse entre univers gaussien et uni-
vers partien en est une illustration.
1. Dabord par Laplace la fin du 18
e
sicle, puis par Gauss en 1809, et enfin par Galton en 1889.
P211-282-9782100549412.fm Page 271 Mercredi, 24. novembre 2010 10:33 10
272
-------------- 0 ;1 ( ) =
X
1
, X
2
, , X
v
1
gaussiennes centres rduites
Y
1
, Y
2
, , Y
v
2
gaussiennes centres rduites
toutes indpendantes
Z
1
X
i
2
1
( )
i 1 =
=
khi-deux
1
degrs de libert
loi dissymtrique
de moyenne
1
et de variance 2
1
Z
2
= Y
j
2
2
( )
j 1 =
khi-deux
2
degrs de libert
loi dissymtrique
de moyenne
2
et de variance 2
2
U (0 ; 1)
U et Z
1
indpendantes
T
1
U
Z
1
1
------
----------
est une v.a. symtrique,
centre :
=
loi de Student
1
degrs de libert
F
1
2
, ( )
Z
1
/
1
Z
2
/
2
--------------
1
-----
Z
1
Z
2
------ = =
est une v.a. dissymtrique :
loi de Fisher-Snedecor
1
et
2
degrs de libert
1
1 = ( ) F 1
2
, ( ) T
2
2
=
P211-282-9782100549412.fm Page 272 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
273
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
1. Une variable alatoire de Bernoulli :
a) a une loi de probabilit ne dpendant que dun seul paramtre
b) a une esprance gale son cart-type
c) a une variance maximum lorsque son paramtre est gal 0,5
d) est une variable indicatrice
2. Si X suit une loi binomiale
(
n
;
p
) :
a)
X
est la somme de n v.a. de Bernoulli de mme esprance mathmatique
b)
X
est la somme de n v.a. de Bernoulli indpendantes
c) lcart-type de
X
est gal
np
(1
p
)
d)
Y
=
X
+ 1 suit une loi binomiale
(
n
;
p
)
3. Soit X une variable alatoire binomiale (n ; p) et Y = n X :
a) pour toute valeur entire k comprise entre 0 et n, P(X = k) = P(Y = n k)
b) Y suit une loi binomiale (n ; 1 p)
c) X et Y ont mme esprance mathmatique
d) X et Y ont mme variance
4. Si X suit une loi de Poisson de paramtre 10 :
a) var(X) = 10
b) P(X = 10) = P(X = 9)
c) Y = 2X + 1 suit une loi de Poisson de paramtre 21
d) la fonction de rpartition de X est une fonction continue
5. Si X suit une loi gomtrique de paramtre p :
a) on peut aussi dire que X suit une loi de Pascal
b) X est une somme de v.a. de Bernoulli indpendantes de paramtre p
c) lesprance de X dpend du nombre de tirages
d) E(X) > var(X)
6. Si X est distribue selon une loi (n ; p) :
a) si n = 10 et p = 0,1, alors P(X = 4) = P(X = 5)
b) si n = 60 et p = 0,05, alors P(X 3) = 0,5768
c) si n = 4 et p = 0,01, alors P(X = 0) 0,96
d) si n = 50 et p = 0,08, alors P(3 < X 10) = 0,573
7. Pour une population distribue selon une loi de Gauss (1 ; 1) :
a) la mdiane est gale 1
b) la moyenne est gale 0
c) le quart des individus est caractris par une valeur suprieure 1
d) la moiti des individus est caractrise par une valeur infrieure 0
Testez-vous (les rponses sont donnes page 287)
P211-282-9782100549412.fm Page 273 Mercredi, 24. novembre 2010 10:33 10
274
275
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
15. Si X suit une loi exponentielle de paramtres = 0 et = 2
a) la fonction de rpartition de X est une fonction continue
b) lesprance de X est gale sa variance
c) la fonction de densit de X est une fonction qui admet un axe de symtrie
d) X ne prend que des valeurs suprieures 2
16. Soit Y une somme de n variables alatoires indpendantes X
1
, X
2
, X
n
:
a) si les X
i
sont des v.a. binomiales, alors Y suit une loi binomiale
b) si les X
i
suivent des lois de Gauss, alors Y suit une loi de Gauss
c) si les X
i
suivent des lois exponentielles, alors Y suit une loi exponentielle
d) si les X
i
suivent des lois de Pareto, alors Y suit une loi de Pareto
17. Si la demande hebdomadaire dun produit dans un magasin suit une loi bino-
miale (30 ; 0,45), alors si on suppose les demandes hebdomadaires indpendan-
tes entre elles, la demande annuelle de ce mme produit (1 an = 52 semaines) :
a) suit une loi binomiale (1560 ; 0,45)
b) suit approximativement une loi de Gauss (702 ; 19,65)
c) est une somme de v.a. de Bernoulli indpendantes
d) ne peut pas tre gale 1 600
18. Si la demande quotidienne dun produit dans un magasin suit une loi bino-
miale (40 ; 0,05), alors si on suppose les demandes quotidiennes indpendantes
entre elles, la demande de ce mme produit pour 25 jours de fonctionnement de
ce magasin suit :
a) peu prs une loi de Poisson (50)
b) peu prs une loi normale (50 ; 6,9)
c) une loi binomiale (40 ; 0,2)
d) une loi de Poisson (0,2)
P211-282-9782100549412.fm Page 275 Mercredi, 24. novembre 2010 10:33 10
276
277
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
2. Calculez les valeurs n
1
et n
2
telles que :
la demande journalire soit suprieure n
1
, 9 jours sur 10 ;
la demande journalire soit infrieure n
2
, 4 jours sur 10.
3. Dterminez un intervalle symtrique autour de m ayant 90 % de chances de
contenir la demande journalire.
Exercice 7.5
Un vigneron commercialise des vins de qualit diffrentes quil rpartit en deux
classes : la classe des vins courants dits du terroir , la classe des vins de qualit,
appels grand cru , et vendus 6 la bouteille. Malgr le soin apport lembou-
teillage, il subsiste des erreurs dtiquetage, et on admet quun acheteur de vin
grand cru aura une probabilit p = 0,12 davoir en fait une bouteille de vin ordi-
naire.
1. Un restaurateur achte 200 bouteilles grand cru au vigneron. Soit Y la v.a.
gale au nombre de bouteilles de vin courant parmi les 200 bouteilles achetes.
Dterminez la loi de probabilit de la v.a. Y, ainsi que son esprance et sa variance.
Donnez, en la justifiant, une approximation de la loi de Y.
2. Calculez : P(Y > 20) et P(Y < > 20).
3. Au fur et mesure de la consommation des 200 bouteilles, le restaurateur a pu dtec-
ter chacune des bouteilles de type courant. Il dcide alors de ne payer que les bou-
teilles de qualit effectivement livres et de refuser tout paiement pour les
bouteilles de vin ordinaire.
Calculez, dans cette hypothse, la probabilit dun bnfice nanmoins positif pour
le vigneron sachant que chaque bouteille de vin courant lui revient 1,5 et que
chaque bouteille de vin de qualit lui revient 3,5 .
Exercice 7.6
Lors la naissance de jumeaux, on note la probabilit quil sagisse de vrais jumeaux
et on fait les deux hypothses suivantes :
i) deux vrais jumeaux sont toujours de mme sexe, et la probabilit quils soient des
garons est gale 1/2 ;
ii) deux faux jumeaux ont des sexes indpendants et chacun des deux enfants est un
garon avec une probabilit gale 1/2.
Soit A, B et C les vnements suivants relatifs la naissance de deux jumeaux :
A = { 2 garons }
B = { 2 filles }
C = { 1 garon et une fille }
1. Calculez en fonction de les probabilits des vnements A, B et C.
2. Soit Y la variable alatoire gale au nombre de fois o on a eu un garon et une
fille sur 1 000 naissances de jumeaux.
Donnez en fonction de , et en la justifiant, la loi de probabilit de la variable
alatoire Y.
Donnez lesprance et la variance de Y en fonction de .
3. On suppose = 0,35 ; par quelle loi peut-on approximer la loi de Y ? (justifiez
votre rponse).
Dterminez les probabilits des vnements {Y > 300} et {310 Y > 300}.
30 Y
350 Y
P211-282-9782100549412.fm Page 277 Mercredi, 24. novembre 2010 10:33 10
278
=
P211-282-9782100549412.fm Page 278 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
279
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Exercice 7.9
Un appareil lectronique est soumis des impulsions spares par des intervalles de
temps variables, indpendants les uns des autres. On suppose que la dure Y (expri-
me en secondes) sparant deux impulsions successives est une v.a. dfinie ainsi :
Y = 2 + X
o est un paramtre strictement positif et X une v.a. exponentielle de paramtre 1.
1. Dterminez en fonction de :
E(Y) et var(Y) ;
la fonction de rpartition de la variable alatoire Y.
2. On suppose dans cette question le paramtre gal 5.
2.1. Calculez P(Y < 2) et P(2 Y 5).
2.2. Afin dtudier si la loi thorique retenue pour Y reprsente bien le phnomne
tudi, on a mesur de faon indpendante 10 dures sparant 11 impulsions
successives et on a obtenu les rsultats suivants en secondes :
2,3 3,5 3,9 4,7 5,1 6,8 7,9 9,6 13,1 15,5
Tracez le diagramme quantile-quantile pour juger la qualit de lajustement
de cette distribution observe par la loi retenue. Conclusion.
Exercice 7.10
Afin de mieux connatre sa clientle, le grant du cinma Paradiso fait procder un
sondage. Il obtient pour un chantillon alatoire de taille 100 la rpartition par ge
suivante :
1. Calculez la moyenne et lcart-type de cette distribution ; on supposera lge mini-
mum gal 10 ans et lge maximum gal 70 ans.
2. Calculez la mdiane de cette distribution.
3. On suppose que la distribution de lge des clients du cinma Paradiso suit une loi
normale de paramtres m = 28 ans et = 9,5 ans.
3.1. Quel est le pourcentage thorique des clients qui ont entre 18 et 35 ans ?
Calculez le pourcentage observ, partir de lchantillon de taille 100, pour
la mme classe dge.
3.2. Calculez lge thorique A tel que 75 % des clients ait un ge suprieur A.
Calculez, partir de lchantillon, lge A tel que 75 % des individus de
lchantillon ait un ge suprieur A. Comment sappelle cette valeur A ?
4. Tracez le diagramme quantile-quantile pour juger la qualit de lajustement de la
distribution observe par une loi normale de paramtres m = 28 ans et = 9,5 ans.
Lhypothse prcdente vous semble-t-elle justifie ?
Exercice 7.11
On considre que la dure du temps dattente T (mesur en minutes) du bus que doit
prendre Valrie pour se rendre lUniversit, est distribue selon une loi exponen-
ge < 15 ans [15 ; 20[ [20 ; 25[ [25 ; 30[ [30 ; 35[ [35 ; 40[ [40 ; 50[ 50 ans
Effectif 4 13 22 28 15 10 5 3
P211-282-9782100549412.fm Page 279 Mercredi, 24. novembre 2010 10:33 10
280
si t 0
sinon
P211-282-9782100549412.fm Page 280 Mercredi, 24. novembre 2010 10:33 10
LES PRINCIPAUX MODLES STATISTIQUES CONTINUS
281
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
2.
En dduire que lon peut ajuster la distribution de
X
par une loi de Pareto de
paramtres
et
x
0
quon valuera laide des rsultats prcdents.
Exercice 7.13 (suite de lexercice 3.9)
On choisit le modle quadratique puisque la part de variation de
Y non explique par
ce modle est plus faible quavec le modle linaire.
On envisage un ajustement de la distribution des rsidus du modle quadratique par
une loi de Gauss de paramtres
m
= 0 et
= 22.
1.
Calculez la srie des 12 rsidus de ce modle, et rangez-les par ordre croissant.
2.
Reprsentez le diagramme Quantile Quantile.
Quel jugement permet-il de porter sur la qualit de ladquation de cette distribu-
tion par la loi de Gauss envisage ?
Daprs examen de juin 2006, DUGEAD 1
re
anne Paris Dauphine
Exercice 7.14
Une socit de fabrication de boissons dcide de lancer une nouvelle boisson faible
teneur en sucre. Les tudes effectues montrent que la teneur
X
dune bouteille dun
litre de cette boisson suit une loi normale de moyenne 70 g et dcart-type 25 g.
1.
Calculez la probabilit que la teneur en sucre dune bouteille dun litre diffre de
la teneur moyenne dau plus 10 g.
2.
On choisit au hasard 25 bouteilles. Soient
X
1
,
X
2
, ... ,
X
25
les variables alatoires
associes. On les suppose indpendantes et identiquement distribues
X
.
Que reprsente la variable alatoire ? Donnez sa loi (justifier).
Calculez la probabilit que la teneur moyenne en sucre des 25 bouteilles diffre
de la moyenne
m
= 70 g dau plus 10 g.
3.
La socit dcide de modifier lgrement la fois la composition et le procd de
fabrication. La variable
X
suit maintenant une loi normale de moyenne
m
et
dcart-type
avec
m
et
inconnus. Les essais conduisent aux observations
suivantes :
Dterminez les fractiles
u
i
dfinis par
F
U
(
u
i
) =
F
i
o
F
U
dsigne la fonction de
rpartition de la loi normale centre rduite.
Reprsentez le nuage des points (
u
i
,
x
i
)
.
En dduire une valuation de chacun des nouveaux paramtres
m
et
en utilisant
la mthode des moindres carrs.
Teneur
x
i
40 50 60 70 80 90 100
F
i
0,11 0,23 0,40 0,60 0,77 0,89 10,96
X
1
25
------ X
i
i 1 =
25
=
P211-282-9782100549412.fm Page 281 Mercredi, 24. novembre 2010 10:33 10
282
283
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
R
ponses aux
questionnaires
Testez-vous
C
hapitre 1
1.
Bonnes rponses : b) et c)
Trois
quartiles sparent lintervalle de variation [min(
X
), max(
X
)] en quatre intervalles
contenant chacun le
quart
de leffectif, donc 75 % des observations sont suprieures au
1
er
quartile.
2.
Bonnes rponses : a), b) et d)
La bote de distribution contient 50 % des observations et la mdiane, gale la moyenne,
est le milieu de lintervalle interquartile.
3.
Bonnes rponses : c) et d)
On ne peut utiliser dans ce cas que des caractristiques indpendantes des units.
4.
Bonnes rponses : a) et b)
La mdiane de la srie des carts absolus la moyenne est une mesure de la dispersion ;
les quartiles
Q
1
et
Q
3
sont des indicateurs de position, mais non de tendance centrale.
5.
Bonnes rponses : c) et d)
Pour calculer la note moyenne et lcart-type des deux classes runies, il faut utiliser des
formules avec des pondrations ( III.B.1 pour la proprit 4 de la moyenne et III.C.4
pour la proprit 4 de la variance).
Lcart absolu moyen la mdiane est le plus petit cart absolu moyen ( III.C.3), dautre
part, lcart-type est toujours suprieur lcart absolu moyen la moyenne arithmtique
( III.C.4), donc, lcart absolu moyen des notes la mdiane est au plus gal 4 pour
la classe 1.
6.
Bonnes rponses : a) et d)
7.
Bonne rponse : c)
Se rfrer la moyenne gomtrique ( III.B.2).
P283-334-9782100549412.fm Page 283 Mercredi, 24. novembre 2010 10:57 10
284
INTRODUCTION LA MTHODE STATISTIQUE
8.
Bonnes rponses : b) et c)
9.
Bonnes rponses : a) et c)
C
hapitre 2
1.
Bonne rponse : b)
Lindice des prix actuellement calcul par lINSEE est un indice-chane de Laspeyres.
2.
Bonne rponse : c)
Un indice de Paasche est souvent un indice des quantits, mais il peut aussi tre un indice
des prix ( II.A).
Lindice de Paasche est souvent infrieur lindice de Laspeyres, mais les pondrations
de ces deux indices ntant pas les mmes, il est possible que cette proprit ne soit pas
vrifie ( II.C).
3.
Bonnes rponses : a), b) et c)
Un indice des
dpenses
ou du
cot de la vie
sert mesurer lvolution du niveau des
dpenses de consommation entre deux priodes distinctes.
Sagissant des sommes dbourser par un mnage compte tenu des prix, mais aussi des
quantits achetes, cest un indice de valeur qui est donc rversible et transitif.
4.
Bonnes rponses : a), b) et d)
Le taux annuel moyen de variation peut tre dtermin graphiquement en utilisant une
reprsentation graphique avec une ordonne logarithmique ( IV.A).
5.
Bonnes rponses : c) et d)
Le taux de croissance pour priode 1999-2001 est gal :
1,029
1,038
1,021 1
9 %
C
hapitre 3
1.
Bonnes rponses : a) et d)
2.
Bonnes rponses : a), b) et c)
On a deux variables lies par une relation linaire inverse, leur coefficient de corrlation
linaire est gal 1 et les pentes des deux droites des moindres sont ngatives.
P283-334-9782100549412.fm Page 284 Mercredi, 24. novembre 2010 10:57 10
RPONSES AUX QUESTIONNAIRES TESTEZ-VOUS
285
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
3.
Bonnes rponses : a) et b)
Le nuage de points est form de 2 points, et par 2 points, on peut faire passer une droite,
la reprsentation graphique nous montre que la droite est de pente positive, on a donc
r = +
1
4.
Bonne rponse : c)
Cette question a pour objectif de sensibiliser lattention qui doit tre ncessairement
porte la signification des variables ( II.E).
5.
Bonnes rponses : b), c) et d)
On a un tableau de profils en colonne.
6.
Bonnes rponses : a), b) et d)
La moyenne est une moyenne pondre des moyennes conditionnelles ( I.C) ; en ce qui
concerne les moyennes conditionnelles, elles sobtiennent partir du tableau de contin-
gence, ou partir du tableau des profils en lignes pour les moyennes conditionnelles de
Y
X
fix et du tableau des profils en colonnes pour les moyennes conditionnelles de
X
Y
fix.
7.
Bonnes rponses : a), b) et d)
Si
a =
20
et
b =
5, il y a indpendance puisque les profils en colonnes sont identiques
(
r =
0).
Si
a =
0 et
b =
0, alors on a seulement deux observations diffrentes sur deux variables
et dans ce cas,
r =
1 puisque le nuage de points est rduit deux points (ici
r =
1).
Si
a =
0
et
b =
10, il ny a ni indpendance, ni liaison linaire, donc
r
1 et
r
0 (en
fait
r =
0,5).
Si
a =
10 et
b =
10, il y a indpendance puisque les profils en lignes sont identiques.
8.
Bonne rponse : d)
Lorsquon connat les marges, il suffit de connatre (
k
1) (
l
1) effectifs du tableau
de contingencedu fait des liaisons entre les effectifs marginaux et les effectifs du tableau ;
le nombre (
k
1) (
l
1) est appele nombre de
degrs de libert
.
9.
Bonnes rponses : a), c) et d)
26 % des malades ont pris un somnifre
et
ont bien dormi.
10.
Bonnes rponses : a) et d)
On a un tableau de profils en colonnes. Si les deux variables nominales taient indpen-
dantes, les deux profils-colonnes seraient identiques.
Les pourcentages de deux lignes ne saditionnent pas. Pour calculer le pourcentage total
des salaris (hommes et femmes runis), il faut utiliser les effectifs (total des emplois).
On obtient pour les non-salaris :
(13,4
13 670 + 7,3
12 243)/(13 670 + 12 243) = 10,5 %
Et pour les salaris :
(86,6
13 670 + 92,7
12 243)/(13 670 + 12 243) = 89,5 %
x
P283-334-9782100549412.fm Page 285 Mercredi, 24. novembre 2010 10:57 10
286
INTRODUCTION LA MTHODE STATISTIQUE
C
hapitre 4
1.
Bonnes rponses : a), c) et d)
Il y a (
T p
+ 1) moyennes mobiles centres de longueur impaire
p
et (
T p
) moyennes
mobiles centres de longueur paire
p
.
2.
Bonne rponse : b) et d)
Si le facteur saisonnier est proportionnel la tendance, on choisit le modle multiplicatif,
et dans ce cas, la courbe joignant les maxima est peu prs parallle celle qui joint les
minima sur un graphique ordonne logarithmique ( II).
Des maxima distants de 5 dates peuvent indiquer une composante saisonnire de priode
5, mais cette seule information nest pas suffisante pour choisir le modle adapt.
3.
Bonnes rponses : a) et b)
La moyenne mobile centre de longueur
p
rend constante les sries priodiques de
priode
p
et de priode sous-multiple de
p
.
La moyenne mobile centre de longueur 2
p
liminent la composante saisonnire de
priode
p
puisque la somme des coefficients saisonniers sur une priode est nulle.
La somme de
p
termes successifs divise par
p
donne une valuation de la tendance pour
la date correspondant celle du terme du milieu des
p termes.
On peut calculer (T p) moyennes mobiles centres de longueur p si p est pair, et (T p + 1)
moyennes mobiles centres de longueur p si p est impair, on a donc toujours au moins ( T p)
moyennes mobiles centres.
4. Bonnes rponses : c) et d)
Le lissage exponentiel simple ne peut senvisager que pour une chronique sans saisonna-
lit et sans volution tendancielle ; la prvision tient dautant plus compte des valeurs
rcentes de la srie que la constante de lissage est leve.
Chapitre 5
1. Bonnes rponses : a) et d)
2. Bonnes rponses : a) et b)
3. Bonne rponse : c)
4. Bonnes rponses : b) et d)
Car P(AB) = P(A) + P(B) P(AB) et A et B tant indpendants, P(AB) = P(A) P(B)
P283-334-9782100549412.fm Page 286 Mercredi, 24. novembre 2010 10:57 10
RPONSES AUX QUESTIONNAIRES TESTEZ-VOUS
287
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
5. Bonnes rponses : c) et d)
Soit A lvnement le livre est touch par au moins un des chasseurs , alors
P(A) = 1 P
6. Bonnes rponses : c) et d)
7. Bonnes rponses : a), b) et d)
8. Bonnes rponses : b) et c)
9. Bonnes rponses : a) et d)
Seule la loi de probabilit dune variable alatoire continue est dfinie par une fonction
de densit.
10. Bonnes rponses : b) et c)
11. Bonne rponse : a)
La rponse d) est vraie si a est positif.
12. Bonnes rponses : a), b) et d)
13. Bonnes rponses : a) et c)
14. Bonnes rponses : a) et c)
15. Bonnes rponses : a), b) et c)
Puisque
on peut calculer la loi jointe ;
16. Bonnes rponses : a), b) et c)
17. Bonne rponse : a)
Pour spcifier la loi jointe, il faut connatre en sus des k lois conditionnelles {Y X = x
i
}
la loi marginale de X, ou en sus des l lois conditionnelles {X Y = y
j
} la loi marginale de Y.
Chapitres 6 et 7
1. Bonnes rponses : a), c) et d)
2. Bonnes rponses : a) et b)
3. Bonnes rponses : a), b) et d)
A ( )
P X x
i
= ( ) Y y
i
= ( ) P X x
i
Y y
i
= = ( ) P Y y
i
= ( ) =
P X 1 = ( ) P X 1 Y 1 = = ( ) P Y 1 = ( ) P X 1 Y 2 = = ( ) P Y 2 = ( ) + =
+ P X 1 Y 3 = = ( ) P Y 3 = ( ) 0,2 =
P283-334-9782100549412.fm Page 287 Mercredi, 24. novembre 2010 10:57 10
288
INTRODUCTION LA MTHODE STATISTIQUE
4.
Bonnes rponses : a) et b)
5.
Bonnes rponses : a) et b)
6.
Bonnes rponses : b), c) et d)
La loi
(60 ; 0,05) peut tre approche par une loi
(3)
P
(
X
3) = 1
P
(
X
2) = 0,5768
si
n
= 4 et
p
= 0,01 :
P
(
X
= 0) = (0,99)
4
0,96
si
n
= 50 et
p
= 0,08 :
P
(3 <
X
10) =
P
(
X
10)
P
(
X
3) = 0,573
7.
Bonne rponse : a)
8.
Bonne rponse : c)
9.
Bonnes rponses : b), c) et d)
P
(
X
= 2) = 0, car pour une variable alatoire continue, la probabilit dun point est nulle.
10.
Bonnes rponses : a) et b)
11.
Bonnes rponses : a), b) et c)
Les v.a.
X
et
Y
tant indpendantes, leur coeficient de corrlation linaire est nul.
12.
Bonnes rponses : b), c), et d)
13.
Bonnes rponses : a), c) et d)
On peut approcher la loi de
Y
par une loi de Gauss,
X
et
Y
tant indpendantes, la v.a.
(
X
+
Y
) suit approximativement une loi de Gauss puisque la somme de deux variables
alatoires gaussiennes indpendantes est gaussienne .
14.
Bonnes rponses : a), b) et c)
E
(
X
2
) = var(
X
) + (
E
(
X
))
2
= 10
15.
Bonne rponse : a)
Pour une v.a. exponentielle, lesprance est gale lcart-type et ses valeurs possibles
sont suprieures
, donc 0.
16.
Bonne rponse : b)
Une somme de variables alatoires binomiales indpendantes suit une loi binomiale si
tous les paramtres
p
i
sont gaux.
17.
Bonnes rponses : a), b), c) et d)
18.
Bonnes rponses : a) et b)
La demande du produit pour 25 jours de fonctionnement suit une loi
(1 000 ; 0,05), et on
est dans les conditions dapproximation par la loi normale et aussi par la loi de Poisson.
P283-334-9782100549412.fm Page 288 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES
289
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
1
Corrigs
des exercices*
Chapitre 1
Exercice 1.1
1. Population : forme des 5 sous-populations (non disjointes) de lensemble des familles
en France en 1968, 1975, 1982, 1990 et 1999 .
Unit statistique : une famille parmi cet ensemble de familles .
Caractre tudi : nombre denfants de 0 18 ans en milliers, caractre quantitatif discret.
2. Le nombre total de familles, le nombre de familles sans enfant, le nombre de familles
avec 1 enfant, le nombre de familles avec 2 enfants augmentent au cours de la priode
1968-1999, tandis que le nombre de familles de 4 enfants et le nombre de familles de
5 enfants ou plus diminuent. Le nombre total denfants augmente de 1968 1975, et
diminue ensuite.
3. Pour tracer les diagrammes en btons, il est prfrable dutiliser les distributions de
frquences (en %).
Mode de chaque distribution : 1 enfant
Le nombre de familles nombreuses diminuant, la dispersion autour de la valeur moyenne
diminue.
1968 1975 1982 1990 1999
Familles avec enfants 6 760 7 340 7 610 7 491 7 418
1 enfant
2 enfants
3 enfants
4 enfants
5 enfants ou plus
40,3
30,4
15,7
7,1
6,5
42,4
32,3
14,8
5,8
4,7
43,4
35,9
14,2
4,1
2,4
43,8
36,8
14,2
3,5
1,8
44,7
37,4
13,6
3,1
1,2
Total frquences 100 100 100 100 100
Nombre total denfants 14 569 14 826 14 294 13 748 13 308
Moyenne 2,16 2,02 1,88 1,84 1,79
cart-type 1,88 1,58 1,14 1,01 0,89
* Les onglets renvoient au chapitre du cours correspondant.
P283-334-9782100549412.fm Page 289 Mercredi, 24. novembre 2010 10:57 10
290
291
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
3.
Le niveau moyen a t particulirement lev en 2003.
Exercice 1.3
1. = 9,75 s
G
= 3,945 = 11,1 s
P
= 3,727
Me
G
= 10 Me
P
=
Pour une distribution symtrique, la moyenne est gale la mdiane.
2. = 0,3 + 0,7 = 10,695 10,7
3. Tous les indicateurs sont multiplis par 10
Exercice 1.4
1. Population : le personnel ouvrier dun secteur industriel.
Unit statistique : un homme ou une femme de ce personnel.
Caractre tudi : le salaire annuel net en euros, variable statistique continue.
2.
a) On peut en fait proposer 4 indicateurs de tendance centrale :
= 15 400 Me = 14 800
(Q
1
+ Q
3
)/2 = 15 205 (D
1
+ D
9
)/2 = 15 585
b) On peut en fait proposer 3 indicateurs de dispersion :
s
H
= 3 620 (Q
3
Q
1
) = 4 910 (D
9
D
1
) = 9 270
c) On peut en fait proposer 3 indicateurs de dispersion relative :
s
H
/ 0,235 (Q
3
Q
1
) / Me 0,332 (D
9
D
1
) / Me 0,626
3.
11 82 + 13 34 + 15 12 + 18 n
4
= 12 (128 + n
4
)
1 524 1 536
n
4
= 2 N = 130
4. s
F
1 509 s
F
/ 0,125
5. =
Anne 2000 2001 2002 2003 2004 2005 2006 2000-2006
Niveau moyen 3,6 3,7 3,7 4,1 3,6 3,6 3,7 3,7
x
G
x
P
10 2 +
25 10
25
------------------ 11,2 =
x x
G
x
P
x
H
x
H
x
F
x
180 x
H
130 x
F
+
310
---------------------------------------------- 13 974
P283-334-9782100549412.fm Page 291 Mercredi, 24. novembre 2010 10:57 10
292
293
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
3.2. et 3.3. Graphiques SPSS
4. Le diagramme branche et feuille ne peut senvisager que pour des distributions de
population de taille peu leve, contrairement lhistogramme o lhypothse dqui-
rpartition lintrieur des classes nest raliste quavec un effectif suffisant dans cha-
que classe. Cette reprsentation permet de plus de ne pas perdre linformation valeur
par valeur et aussi dtiqueter ventuellement les observations.
La bote de distribution met en vidence une valeur loigne (Carrefour) et une valeur
extrme (TotalFinaElf). Cette distribution asymtrique tale vers les valeurs leves
sera modlise par la loi de Pareto au chapitre 7, IV.B.
5.1. La srie tant ordonne selon le CA, il faut maintenant lordonner selon leffectif
n = 30 P(Me) = 15,5 Me = 120 510
P(Q) = 8 Q
1
= 82 892 et Q
3
= 173 329
5.2. et 5.3. Graphiques SPSS
La bote de distribution met en vidence trois valeurs loignes : Carrefour,
Vivendi Universal et La Poste.
Frequency Stem & Leaf
6,00 1 . 334444
4,00 1 . 5677
6,00 2 . 000123
4,00 2 . 5567
1,00 3 . 0
2,00 3 . 67
3,00 4 . 023
,00 4 .
1,00 5 . 1
1,00 5 . 7
2,00 Extremes (> = 69 486)
Stem width : 10 000
Each leaf : 1 case(s)
Frequency Stem & Leaf
5,00 0 . 02234
5,00 0 . 57899
11,00 1 . 00111222234
4,00 1 . 6789
2,00 2 . 02
3,00 Extremes (> = 313854)
Stem width : 100 000
Each leaf : 1 case(s)
P283-334-9782100549412.fm Page 293 Mercredi, 24. novembre 2010 10:57 10
294
INTRODUCTION LA MTHODE STATISTIQUE
Exercice 1.8
1.
Population
: ensemble des mnages en France en 1999 .
Unit statistique
: un mnage en France en 1999 .
Caractre tudi
: le revenu annuel en euros, hors revenus du patrimoine quantitatif
continu.
2.
3.
Les moyennes ntant pas gales aux centres des classes, lhypothse dquirparti-
tion nest pas justifie.
4.
Indicateurs de tendance centrale : ,
Me
=
D
5
= 20 631, (
D
9
+
D
1
)/2 = 26 973
Indicateur de dispersion :
D
9
D
1
= 39 338
Indicateur de dispersion relative : (
D
9
D
1
)
D
5
1,9
5.
Distribution asymtrique tale vers les valeurs leves, car la mdiane est infrieure
la moyenne (et on a aussi
Me
< (
D
9
+
D
1
)/2). Les distributions de revenus (ou de
salaires) sont toujours asymtriques et tales vers les valeurs leves.
6.
Indicateur de disparit des revenus :
D
9
/
D
1
= 6,4
les 10 % les mieux lotis peroivent plus de 6 fois plus que les 10 % les moins bien
lotis.
7.
16 % des revenus sont perus par les 4 diximes des mnages aux revenus les plus
faibles.
8.
Courbe de concentration ou courbe de Lorenz
F
i
(%) 10 20 30 40 50 60 70 80 90 100
R
i
(%) 12 15 10 16 23 32 43 56 72 100
x
1
10
------ x
i
25 255
i 1 =
10
=
x 25 255
0
10
20
30
40
50
60
70
80
90
100
0 20 10 40 30 60 50 80 70 100 90
P283-334-9782100549412.fm Page 294 Mercredi, 24. novembre 2010 1:12 13
CORRIGS DES EXERCICES
295
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Lindice de Gini mesure ici la concentration des revenus des mnages. Il est gal au
double de laire comprise entre la courbe de concentration et la bissectrice.
Cet indice est compris entre 0 et 1.
La valeur minimum 0 correspond au cas o la courbe est confondue avec la bissec-
trice et au cas de lquirpartition : tous les individus ont une part gale du revenu.
La courbe sloigne de la bissectrice lorsque lingalit saccrot.
A contrario, si un seul mnage dtient la totalit du revenu, tous les autres ayant un
revenu nul, lindice de Gini vaut 1. Dans cette situation, la courbe est confondue avec
les cts du carr : axe des abscisses et segment vertical reliant le point {100 ; 0} au
point {100 ; 100}.
Exercice 1.9
1. Population : les exploitations agricoles de France mtropolitaine en 1979, 1988, 2000
et 2005
Unit statistique : une exploitation agricole de France mtropolitaine en 1979, 1988,
2000 et 2005
Caractre tudi : la taille de la SAU, variable statistique continue
2. Soit c
1
, c
2
et c
3
les taux annuels moyens de variation au cours de chacune des
3 priodes :
(1 + c
1
)
9
= = (0,80522)
9
c
1
2,4 %
(1 + c
2
)
12
= = (0,65290)
12
c
2
3,5 %
(1 + c
3
)
3
= = (0,96127)
5
c
3
3,9 %
Le taux annuel moyen de variation c de 1979 2005 est une moyenne gomtrique
pondre des 3 taux c
1
, c
2
et c
3
: 1 + c =
1 + c = c
3,2 %
3.
Le nombre des exploitations agricoles diminue, la taille moyenne des SAU augmente,
ainsi que la taille moyenne des exploitations de 50 ha ou plus.
4. Le centre de la dernire classe tant par hypothse la SAU moyenne des exploitations
de 200 ha ou plus est gale en 2005 280 (= 4 762/17). On value ainsi la SAU maxi-
mum approximativement 360 ha.
1979 1988 2000 2005
SAU moyenne 23 28 142 50
SAU moyenne des exploitations de 50 ha ou plus 88 90 106 112
1 017
1 263
-------------
664
1 017
-------------
545
664
---------
1 c
1
+ ( )
9
1 c
2
+ ( )
12
1 c
3
+ ( )
5
26
545
1 263
------------- 26 0,96819
P283-334-9782100549412.fm Page 295 Mercredi, 24. novembre 2010 10:57 10
296
297
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
2
Chapitre 2
Exercice 2.1
1. I
A
(p) = 112,5 I
B
(p) = 140 I
C
(p) = 100
2. La moyenne arithmtique des indices lmentaires pondre par la part des dpenses
engages par lentreprise pour chacune des matires premires en 2000, est lindice
de Laspeyres des prix en 2004, base 2000.
Dpense 2000 = 8 000 + 2 000 + 3 000 = 13 000
L
04/00
(p) = 113,8
3. I
A
(q) = 60 I
B
(q) = 100 I
C
(q) = 160
L
04/00
(q) = 89,2
4. Dpense 2004 = 5 400 + 2 800 + 4 800 = 13 000 I
04/00
(v) = 100
5. Taux de variation des prix : 13,8 %
Taux de variation des quantits : 10,8 %
Taux de variation des dpenses : 0 %
La non-variation de la dpense totale sexplique par une compensation entre les vo-
lutions des prix et des quantits consommes : diminution de la quantit de matire
premire A dont le prix a augment, stagnation de la quantit de matire premire B
dont le prix a augment, et augmentation de la quantit de matire premire C dont
le prix a stagn.
Exercice 2.2
1. Soit c le taux annuel moyen de variation pendant entre 1980 et 2000 :
c = 6,1 %
2. CA
2000
= CA
1980
(0,95)
20
3,275 = CA
1980
1,174 I
2000/1980
(CA) = 117,4
Exercice 2.3
Soit c
1
le taux trimestriel moyen de croissance entre le 31 dcembre 1998 et le 30 sep-
tembre 2009 :
(1 + c
1
)
43
= 1,4145 (1,0081)
43
taux trimestriel moyen de croissance = 0,81 %
Soit c
2
le taux annuel moyen de croissance entre le 31 dcembre 1998 et le 30 septembre
2008 :
(1 + c
2
)
10
= 1,3908 = (1,0335)
10
taux annuel moyen de croissance = 3,35 %
Exercice 2.4
1. Indice de valeur de la production des Produits vgtaux
2008/2007
= 99,7
04/00 04/00
04/00 04/00
8 000
13 000
---------------- 112,5
2 000
13 000
---------------- 140
3 000
13 000
---------------- 100 + +
04/00
04/00 04/00
8 000
13 000
---------------- 60
2 000
13 000
---------------- 100
3 000
13 000
---------------- 160 + +
1 c + ( )
20
1,5
168
130
--------- 1 0,06 + ( )
9
3,275 1,061 ( )
20
= = =
P283-334-9782100549412.fm Page 297 Mercredi, 24. novembre 2010 10:57 10
298
299
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
3
3. et 4.
Pendant la priode 1970-1982, les points sont quasi aligns, le taux annuel de croissance
c de l'indice est donc quasi constant et gal la pente de la droite joignant les deux points
extrmes (cf. figure 1) :
Entre 1982 et 2000, lvolution nest plus exponentielle, mais quasi-linaire avec une
augmentation annuelle moyenne de lindice gale la pente de la droite joignant les deux
points extrmes (cf. figure 2) :
Lindice de la consommation mdicale est pass dune volution exponentielle avec
un taux annuel moyen de croissance de 16,6 % une volution quasi-linaire avec une
augmentation annuelle moyenne gale 70,5 %.
5. Tenir compte de la variation des prix permet de passer dun indice de valeur un
indice de volume et d'valuer le taux annuel moyen de croissance du volume de la
consommation entre 1970 et 1982 en s'affranchissant de l'illusion montaire :
Entre 1982 et 2000, lvolution nest plus exponentielle, mais linaire et on peut cal-
culer laugmentation annuelle moyenne de lindice de volume :
Indice de la consommation mdicale totale
base 100 en 1970
Indice de la consommation mdicale totale
base 100 en 1970
1970 1980 1990 2000 1970 1980 1990 2000
Figure 1 Ordonne logarithme Figure 2 Ordonne arithmtique
1 c + ( )
12
6,336 = c 6,336 1
12
= c 16,6 % =
a CM
2000
CM
1982
( ) CM
1970
( ) 100 18 1902,4 633,6 ( ) 18 70,5 % = =
IndiceCM
82 70
100 3,187 198,8 = c 1,988
12
1 5,9 % = =
( )
2000 1982
1970
82 / 70
00 / 70 82 / 70
82 / 70
1
' 100
5, 584 18
1
18 5, 584
1 1902, 4 633, 6
18 5, 584 3,187
340, 7 198,8 18 7, 9 %
CM CM
a CM
I
Indice CM Indice CM
I
j \
j \
, (
, (
, (
( ,
( ,
j \
, (
( ,
j \
, (
( ,
P283-334-9782100549412.fm Page 299 Mercredi, 24. novembre 2010 10:57 10
300
j
14 % 17 % 20 % 33 % 16 %
6 < 10 [10 ; 20[ [20 ; 30[ [30 ; 40[ 40
Frquence
(%)
41,4 35,0 14,3 9,3 0
y
50 31
20
------------------
Y X
11,6
28
---------- 100
( ,
j \
9,8
28
------- 100
( ,
j \
4,0
28
------- 100
( ,
j \
2,6
28
------- 100
( ,
j \
y
P283-334-9782100549412.fm Page 300 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES
301
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
3
3. Femmes : = 2 000 s
1
548
Hommes : = 2 508 s
2
697,50
Ensemble : = 2 296
4. Moyenne et cart-type de lanciennet des femmes (en annes) : = 9,8 s
Y
6,7
5. Graphe des frquences cumules : ligne brise qui joint les points ( y
i
, F
i
)
6.
7. = r = 0,45
Point dintersection : ( , ) = (2 000 ; 9,8)
y
i
0 4 8 12 20 28
F
i
(%) 0 20 50 70 90 100
1 800 [0 ; 4[ [4 ; 8[ [8 ; 12[ [12 ; 20[ [20 ; 28[
Frquence
(%)
13,3
(8/60)
33,3
(20/60)
16,7
(10/60)
20
(12/60)
16,7
(10/60)
x
1
x
2
x
n
1
x
1
n
2
x
2
+
n
1
n
2
+
-------------------------------------
y
Y X
a
s
Y
s
1
-----
6,7
548
--------- 0,0055 b
a
b
303
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
3
Pour obtenir et tracer avec Excel la droite des moindres carrs qui ajuste le nuage de
points :
Onglet Graphique , Ajouter une courbe de tendance , type Linaire , option
Afficher lquation sur le graphique , et Afficher le coefficient de dtermination
(R
2
) sur le graphique
4. Les variables indice de volume du PIB et indice de volume de la consommation prive
sont lies linairement au temps :
r
2
(indice PIB, temps) 0,974
r
2
(indice Consommation, temps) 0,964
La liaison linaire entre ces deux indices est due leur liaison linaire avec une mme
3
e
variable qui est le temps.
Ltude des variations relatives permet dliminer la tendance. On dit alors quon a
stationnaris les sries.
Exercice 3.4
1. 810 / 1 000 = 81 %
2. 440 / 810 = 54,3 %
3.
Profils en ligne en pourcentage :
Pas du tout
satisfait
Plutt pas
satisfait
Plutt
satisfait
Trs
satisfait
Total
> 2 ans danciennet 10 50 245 195 500
2 ans danciennet 40 90 205 165 500
> 2 ans danciennet 2 10 49 39 100
2 ans danciennet 8 18 41 33 100
P283-334-9782100549412.fm Page 303 Mercredi, 24. novembre 2010 10:57 10
304
y
R
x
------
R
x
------
P283-334-9782100549412.fm Page 304 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES
305
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
3
Profils en ligne
3. Quartiers hupps : Me = 9 933 F/uc/mois
4. On peut proposer comme indicateur de disparit : D
9
/D
1
3,76
Nombre sans dimension qui indique que le 9
e
dcile est 3,76 fois plus lev que le
1
er
dcile.
5. ((11 + 12)
.
0,15 + (13 + 28)
.
0,10)/0,25 = 30,2 %
6. = 0,0556 = 5,56 %
= 47,06 %
= 22,19 %
= 25,19 %
Niveau de vie
(en F/uc/mois)
Type socio-conomique
Infrieur
au 1
er
dcile
< 3 700
du 1
er
dcile
au 3
e
quartile
[3 700 ; 9 933[
du 3
e
quartile
au 9
e
dcile
[9 933 ; 13 900[
Au moins
gal
au 9
e
dcile
13 900
Ensemble
Communes agricoles
Communes et quartiers
ouvriers
Communes et quartiers des
classes moyennes tertiaires
Communes et quartiers
techniques trs qualifis
Quartiers hupps
18
11
8
5
6
70
71
65
51
44
8
12
17
25
20
4
6
9
19
30
100
100
100
100
100
Ensemble 10 65 15 10 100
Niveau de vie
(F/uc/mois)
< 3 700 [3 700 ; 9 933[ [9 933 ; 13 900[ 13 900 Total
Frquence (%) 5,56 47,06 22,19 25,19 100
0,05 0,07n 0,06 0,09n +
0,16n
----------------------------------------------------------------
0,51 0,07n 0,44 0,09n +
0,16n
----------------------------------------------------------------
0,25 0,07n 0,20 0,09n +
0,16n
----------------------------------------------------------------
0,19 0,07n 0,30 0,09n +
0,16n
----------------------------------------------------------------
P283-334-9782100549412.fm Page 305 Mercredi, 24. novembre 2010 10:57 10
306
2
=
2
=
2. La courbe de rgression de Y en x est une ligne brise qui joint les points ( x
i
, ), x
i
tant le centre de la i
e
classe de X.
X n
i
= 11,2
Sc
intra
= 656,32
Sc
inter
= 782,6
SC
tot
= 1438,92
[5 ; 7[
[7 ; 9[
[9 ; 11[
[11 ; 13[
[13 ; 15[
[15 ; 17[
[17 ; 19]
12
28
39
54
41
22
4
7,17
9,00
10,00
11,37
12,58
14,36
16,50
27,67
60,00
120,00
206,60
161,95
69,10
11,00
Y n
j
= 11,65
Sc
intra
= 756,24
Sc
inter
= 921,24
SC
tot
= 1677,48
[5 ; 7[
[7 ; 9[
[9 ; 11[
[11 ; 13[
[13 ; 15[
[15 ; 17[
[17 ; 19]
10
32
59
46
36
14
3
6,80
9,30
10,80
12,26
13,90
15,14
17,33
17,60
108,90
312,95
156,87
127,55
29,70
2,67
y
i
y
ij
y
i
( )
2
j 1 =
n
i
y
X/Y
782,6
1 438,92
--------------------- 0,5843 =
x
j
x
ji
x
j
( )
2
i 1 =
n
j
x
X/Y
921,24
1 677,48
--------------------- 0,549 =
y
i
P283-334-9782100549412.fm Page 306 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES
307
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
4
3. Les variables X et Y tant quantitatives, on peut mesurer leur liaison laide du coef-
ficient de corrlation linaire : r
2
= 0,542 = (0,736)
2
On retrouve : 0 r
2
min(
2
;
2
) max(
2
;
2
) 1
Exercice 3.8
1.
2. Distribution conjointe
Eau minrale X
C
Y
C
Arcens
Arvie
Badoit
Beckerich
Chteauneuf
Eau de Perrier
Faustine
La Salvetat
Perrier
Puits St-Georges
Pyrnes
Quzac
San Pellegrino
St-Diry
St-Jean
St-Pierre
St-Yorre
Vernet
Vernire
Vichy-Clestins
Wattwiller
2
1
2
1
3
1
3
1
1
1
1
3
1
1
2
2
3
2
1
3
2
3
4
2
1
4
1
2
1
1
3
1
2
1
3
2
3
4
2
2
4
1
Y
C
X
C
1 2 3 4
1
2
3
6
1
0
1
3
2
2
2
0
1
0
3
10
6
5
Total 7 6 4 4 21
X/Y X/Y X X/Y X/Y
P283-334-9782100549412.fm Page 307 Mercredi, 24. novembre 2010 10:57 10
308
c 10 %
2.
2.1. = 16,52 = 98,50
2.2. r = 0,90
Part de variation de Y non explique par le modle = 1 r
2
= 1 0,81 = 19 %
3.
Y
C
X
C
1 2 3 4
1 60 10 20 10 100
2 16,7 50 33,3 0 100
3 10 40 10 60 100
Profil
moyen
33,3 28,6 19,1 19 100
X
C
Effectif
C1
X
3
C2
X
2
C3
X
3
t
2
Nombre de contrats souscrits
111
114
119
116
125
136
149
164
181
100
121
144
117
178
149
189
145
173
170
223
223
281
285
339
b
309
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
4
3.1. = 1,3 = 135,45
3.2. r = 0,94
Part de variation de Y non explique par le modle = 1 r
2
= 1 0,88 = 12 %
4. Le modle quadratique est prfrable au modle linaire puisque le coefficient de cor-
rlation linaire est plus lev pour ce modle. On peut aussi dire que la part de varia-
tion de Y non explique est plus faible avec ce modle.
Chapitre 4
Exercice 4.1
1 et 2.
La moyenne mobile lisse la srie chronologique, et permet dvaluer la tendance.
Exercice 4.2
1.
b
P283-334-9782100549412.fm Page 309 Mercredi, 24. novembre 2010 10:57 10
310
311
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
4
Coefficients de la droite des moindres carrs ajustant la srie
CVS
:
= 0,16 = 13,82
Les erreurs de prvision tant toujours positives, lerreur absolue moyenne est
gale lerreur moyenne de prvision : = (0,5 + 0,7 + 0,6)/3 = 0,6
Pour tracer avec Excel la droite des moindres carrs qui ajuste la srie CVS : onglet
Graphique , Ajouter une courbe de tendance , type Linaire . On peut utiliser
ensuite longlet Options pour Afficher l'quation sur le graphique et pour
Afficher le coefficient de dtermination (R
2
) sur le graphique .
Exercice 4.4
1.
Sur la reprsentation graphique, on remarque une composante saisonnire de priode 4.
2. 6.
12
14
16
18
20
22
Jv-Fv 2002 Jv-Fv 2004 Jv-Fv 2003 Jv-Fv 2005 Jv-Fv 2006
M
6
(t )
Droite des moindres carrs
Prvision
b
y
t
0,16 t 13,82 + =
x
25
y
25
1,1 16,7 = = x
26
y
26
0,2 17,8 = = x
27
y
27
0,1 18 = =
P283-334-9782100549412.fm Page 311 Mercredi, 24. novembre 2010 1:16 13
312
:
= Index(Droitereg(F2:F13;A2:A13);1) = 21,6
= Index(Droitereg(F2:F13;A2:A13);2) = 3 270,8
= 21,6 t + 3 270,8
= (21,6 13 + 3 271) 1,062 = 3 771
= (21,6 14 + 3 271) 0,979 = 3 499
Exercice 4.5
1.
a
b
y
t
x
13
x
14
P283-334-9782100549412.fm Page 312 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES
313
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
5
Jusquau 6
e
mois inclus :
partir du 7
e
mois :
2.
Une constante de lissage leve jusquau 6
e
mois inclus permet un taux de rponse
plus rapide au changement de niveau du dbut de la chronique.
3.
Erreur moyenne = 0,56
Erreur absolue moyenne = 1,48
Erreur quadratique moyenne = 3,09
4.
Sous lhypothse dune srie sans tendance, la demande est suppose constante. Les
prvisions de la demande pour les mois 16, 17 et 18 sont gales 41,4 units.
Exercice 4.6
1.
Cette chronique a une composante saisonnire de priode 4 et une tendance approxi-
mativement constante sur la priode 2002-2005. Les deux schmas de composition
peuvent tre envisags. Nous choisissons le schma additif.
2.
Pour une chronique avec une composante saisonnire de priode 4, la moyenne
mobile de longueur 4 limine la saisonnalit et permet dvaluer la tendance.
x
t
0,6 x
t
0,4 x
t 1
+ =
x
t
0,3 x
t
0,7 x
t 1
+ =
80
90
100
110
120
130
140
1
er
trimestre 2003 1
er
trimestre 2005
M
4
(t)
P283-334-9782100549412.fm Page 313 Mercredi, 24. novembre 2010 1:17 13
314
INTRODUCTION LA MTHODE STATISTIQUE
3. 5.
La srie
CVS
pouvant tre considre sans tendance, on peut utiliser le lissage expo-
nentiel simple.
Aprs avoir resaisonnalis les prvisions obtenues avec le
LES
, on obtient les prvi-
sions de lindice trimestriel pour les deux premiers trimestres 2006 quon peut com-
parer aux observations.
On obtient :
Erreur moyenne de prvision = Erreur absolue moyenne de prvision = 1,55
t x
t
M
4
(
t
)
x
t
M
4
(
t
)
s
t
CVS LES
(
= 0,3) Prvision Erreur
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
94,2
105,3
103,5
127,5
98,3
103,8
115,7
125,5
100,9
110,7
106,6
126,3
98,7
109,8
110,8
129,4
108,12
108,44
109,78
111,06
111,14
112,34
112,07
111,03
110,30
108,78
107,71
107,46
4,65
19,03
11,48
7,30
4,56
13,16
11,17
0,30
3,70
17,52
13,48
2,20
12,04
3,26
1,26
16,57
12,04
3,26
1,26
16,57
12,04
3,26
1,26
16,57
12,04
3,26
1,26
16,57
106,3
108,5
104,7
110,9
110,3
107,0
117,0
108,9
112,9
114,0
107,9
109,7
110,8
113,0
112,1
112,8
106,3
107,0
106,3
107,7
108,5
108,0
110,7
110,2
111,0
111,9
110,7
110,4
110,5
111,3
111,5
17
18
100,8
110,8
111,5
111,5
1
99,9
108,6
0,9
2,2
80
90
100
110
120
130
140
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
LES
CVS
Prvision
P283-334-9782100549412.fm Page 314 Mercredi, 24. novembre 2010 1:18 13
CORRIGS DES EXERCICES
315
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
5
Chapitre 5
Exercice 5.1
a) 75/120 = 0,625
b) 50/120 0,417
c) 45/120 = 0,375
d) 100/120 0,833
Exercice 5.2
A = tre all en Espagne B = Avoir pris lavion
P(A) = 0,6
P(B) = 0,45
P( ) = 0,25
P( ) = P( ) = 1 P( )
= 1 (P(A) + P(B) P( )) = 0,2
Exercice 5.3
1. A = Lire Notre Campus B = Lire la Vie tudiante
P(A) = 23 522/32 564 0,722
P(B) = 18 859/32 564 0,579
P( ) = 11 422/32 564 0,351
a) P( ) = P( ) = 1 P( ) = 1 (P(A) + P(B) P( )) 0,05
b) P( ) = P(A) P( )) 0,371
2. a) 0,05
2
= 0,0025
b) 0,351 0,05 0,018
Exercice 5.4
n = 2 : 4 vnements lmentaires { P,P}, {P,F}, {F,P}, {F,F}
P(A) = 3/4 P(B) = 1/2 P( ) = 1/2 P(A) P(B)
A et B non indpendants
n = 3 : 8 vnements lmentaires
{P,P,P}, {P,P,F}, {P,F,P}, {P,F,F}, {F,P,P}, {F,P,F}, {F,F,P}, {F,F,F}
P(A) = 1/2 P(B) = 3/4 P( ) = 3/8 = P(A) P(B)
A et B indpendants
et si on continue, on peut montrer que A et B ne sont indpendants que pour n = 3
Exercice 5.5
1. Il y a 2
5
familles diffrentes de 5 enfants et familles de 5 enfants avec 3 filles et
2 garons. Par hypothse toutes les familles sont quiprobables :
A B
A B A B A B
A B
A B
A B A B A B A B
A B A B
A B
A B
5
3 ( ,
j \
P283-334-9782100549412.fm Page 315 Mercredi, 24. novembre 2010 10:57 10
316
(z)
0,2
0,4
0,6
0,8
1
1 000 800 600 400 200 0
0
200 400 600 800 1 000 1 200 1 400
z
P283-334-9782100549412.fm Page 316 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES
317
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
5
2. Le montant encaiss de la part de deux assurs est gal 900 .
Il faut quau plus un seul des deux assurs ait un sinistre, et le rglement de ce
sinistre ne peut pas dpasser 500
La probabilit demande est gale : 0,6
2
+ 2 0,6 0,25 = 0,66
Exercice 5.8
1. E(X) = 1,1 var(X) = 0,69 (utiliser les fonctions statistiques dune calculatrice)
2. valeurs possibles de Y : {0, 1, 2, , 24}
car les v.a. X
i
sont indpendantes
car les X
i
sont indpendantes
3.1.
3.2.
P(Z = 0) = P({(Z = 0) (X = 0)} {(Z = 0) (X = 1)} {(Z = 0) (X = 2)})
= 1 0,3 + 0,1 0,3 + 0,01 0,4 = 0,334
P(Z = 1) = 0,6 0,3 + 0,12 0,4 = 0,228
P(Z = 2) = 0,3 0,3 + 0,42 0,4 = 0,258
P(Z = 3) = 0,36 0,4 = 0,144
P(Z = 4) = 0,09 0,4 = 0,036
E(Z) = 1,32 var(Z) 1,39 (utilisation dune calculatrice)
Exercice 5.9
Appelons D lvnement :
{une pellicule tire au hasard dans la production est dfectueuse}
P(D) = P({D et machine A} {D et machine B} {D et machine C})
Z
X
0 1 2 3 4
0
1
2
1
0,1
0,1
2
0,01
0
0,6
2 0,6 0,1
0,12
0
0,3
2 0,3 0,1 + 0,6
2
0,42
0
0
2 0,6 0,3
0,36
0
0
0,3
2
0,09
Y X
i
i 1 =
12
=
E Y ( ) E X
i
( ) 12 1,1 13,2 = =
i 1 =
12
=
var Y ( ) var X
i
( ) 12 0,69 8,28 = =
i 1 =
12
=
P Y 0 = ( ) P X
i
0 =
i 1 =
12
( ,
j \
P X
i
0 = ( )
i 1 =
12
0,3
12
5,3 10
7
= = = =
}}}}}
P283-334-9782100549412.fm Page 317 Mercredi, 24. novembre 2010 10:57 10
318
319
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
6
Exercice 5.11
1.
Toutes les probabilits devant tre comprises entre 0 et 1, on doit avoir :
{
0 p 1
p 1/2
0 p 1/3
p 1/3
p 5/6
2. E(X) = 1/2 E(Y) = 4/3 E(X Y) = 2 ( p + 1/6)
cov(X, Y) = 2 ( p + 1/6) 2/3 = 2 p 1/3
E(X
2
) = 1/2 E(Y
2
) = 8/3 var(X) = 1/4 var(Y) = 8/9
(X, Y) =
Chapitre 6
Exercice 6.1
1. Au i
e
individu (i = 1 10), on associe une variable de Bernoulli :
X
i
=
{
1 si i
e
individu gaucher p = 0,1
0 sinon q = 0,9
Soit Y, le nombre de gauchers parmi les 10 individus :
Y est une somme de 10 v.a. indpendantes de Bernoulli de mme paramtre p = 0,1
Y = (10 ; 0,1)
On utilise les tables de la loi Binomiale pour calculer les probabilits :
P(Y 1) = 1 P(Y = 0) = 1 0,3486 = 0,6514 P(Y 3) = 0,9872
2. Pour que chacun des 10 membres du personnel trouve une paire de ciseaux sa con-
venance, il faut que le nombre de gauchers soit au plus gal 3 et au moins gal 1 :
P(1 Y 3) = P(Y 3) P(Y < 1) = P(Y 3) P(Y = 0) = 0,9872 0,3486 = 0,6386
Y
X
0 1 Loi de X
0
1
p
1/3 p
1/2 p
1/6 + p
1/2
1/2
Loi de Y 1/3 2/3 1
2p 1 3
1
2
---
2 2
3
----------
----------------------
6p 1
2
--------------- =
X
i
i 1 =
10
321
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
6
2.2.
P(N = 2) = P({Y = 2 Z = 2} {Y = 2 Z = 3})
= P({Y = 2 Z = 2}) + P({Y = 2 Z = 3)
= P(Y = 2) ( P(Z = 2) + P(Z = 3)) = 0,81 0,7 = 0,567
P'(N = 1) = 0,18 (0,2 + 0,4 + 0,3) + 0,81 0,2 = 0,324
P'(N = 0) = 1 0,324 0,567 = 0, 109
E(N) = 1,458 Marge brute moyenne = 29,16
3. Y dsigne maintenant le nombre de machines tombant en panne au cours de la 1
re
anne.
X
i
=
{
1 si i
e
machine en panne au cours de la 1
re
anne p = 0,05
0 sinon
(i = 1, , 60)
Hypothse : les 60 v.a. de Bernoulli sont indpendantes
Y est une somme de 60 v.a. indpendantes de Bernoulli de mme paramtre p = 0,05
Y = (60 ; 0,05) (3)
n > 50 et p < 0,1
i) On a en moyenne 3 pannes puisque E(Y) = 3. En cas de machines non garanties, le
cot moyen est donc gal : 3 200 = 600 .
Le discount tant de 1 200 , on choisit le discount.
ii) La remise est infrieure au cot de rparation si plus de 6 machines tombent en
panne :
P(Y > 6) = 1 P(Y 6) = 1 0,9665 = 0,0335 > 1 %
on choisit la garantie pour chaque machine.
Exercice 6.4
1. chaque essai, on peut associer une v.a. de Bernoulli de paramtre 0,95. Le nombre
dessais Y ncessaires pour se connecter 5 fois suit une loi de Pascal de paramtres
K = 5 et p = 0,95. Appliquons les rsultats du cours :
E(Y) = var(Y) =
2. Pour avoir {Y = 5}, il faut stre connect les 5 fois avec succs :
P(Y = 5) = (0,95)
5
0,774
La v.a. Y peut prendre toutes les valeurs entires au moins gales 5 :
P(Y > 6) = 1 P(Y = 5) P(Y = 6) = 1 0,774 5 (0,95)
5
0,05 = 0,0325
Exercice 6.5
1. Lorsque X
t
= x, le nombre de demandes satisfaites Y
t
peut prendre toutes les valeurs
entires de 0 x, et chaque demande est satisfaite avec une probabilit (1 ).
{ = x} (x ; 1 )
Valeurs de N 0 1 2
Probabilit 0,109 0,324 0,567
X
i
i 1 =
60
K
p
----
5
0,95
---------- 5,26 = =
K 1 p ( )
p
2
-------------------------- 0,277 =
Y
t
X
t
P283-334-9782100549412.fm Page 321 Mercredi, 24. novembre 2010 10:57 10
322
x
k ( ,
j \
1 ( )
k
x k
e
( )
x
x!
-----------
x k
e
x!
k! x k ( )!
------------------------ 1 ( )
k
x k
( )
x
x!
-----------
x k
=
e
1
k! x k ( )!
------------------------
1
------------
( ,
j \
k
( )
x
x k
e
k!
---------
1
------------
( ,
j \
k
1
x k ( )!
------------------ ( )
k
x k
=
e
k!
---------
1
------------
( ,
j \
k
( )
k
( )
x
x!
-------------------
x 0
e
1 ( ) ( )
k
k!
-------------------------------- e
=
e
1 ( )
1 ( ) ( )
k
k!
--------------------------------
( ,
, (
j \
X
i
i 1 =
30
X
i
i 1 =
450
P X 6 X 2
P 2 X 6 ( )
P X 2 ( )
-------------------------------
P X 6 ( ) P X 2 < ( )
1 P X 2 < ( )
--------------------------------------------------
0,7622 0,0404
1 0,0404
-------------------------------------- 0,7522 = = = =
P283-334-9782100549412.fm Page 322 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES
323
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
7
3. P(X 3) = P({X 3 = 6} {X 3 = 8} = P({X 3 = 6} + P({X 3 = 8})
= P({X 3 = 6} P( = 6) + P(X 3 = 8) P( = 8) = 0,938 2 / 3 + 0,9862 / 3 0,954
Exercice 6.8
1.
Y est somme de 1 000 v.a. de Bernoulli de mme paramtre p = 0,0025 quon sup-
pose indpendantes.
(1 000 ; 0,0025) E (Y) = 2,5 var (Y) 2,5
2. (1 000 ; 0,0025) (2,5)
n > 50 p < 0.1
P (3 < Y < 7) = P (Y 6) P (Y 3) = 0,9858 0,7576 = 0,2282
3. P (Y 8) = 0,9989 La capacit du service de maintenance doit au moins
gale 8 autobus pour que la probabilit que toutes les pannes soient traites dans la
journe, soit au moins gale 0,998.
4. P (Y > 6) = 1 P (Y 6) = 1 0,9858 = 0,0142
5. (365 ; 0,0142) (5,183)
n > 50 p < 0.1
P (Z = 0) = e
5,183
0,0056
Exercice 6.9
1. X
1
(3) X
2
(2)
X
1
et X
2
indpendantes Y = X
1
+ X
2
(5)
2. P (Y = 8) = 0,0653
3.
=
Exercice 6.10
1. Var (X) = 0,6079
2. Variable discrte :
les valeurs possibles sont les nombres entiers positifs ou nuls ;
la moyenne est peu diffrente de la variance.
X
i
1 si i
e
autobus en panne p 0,0025 =
0 sinon q 0,9975 =
=
Y X
i
i 1 =
1 000
=
Y X
i
i 1 =
1 000
=
Z X
i
i 1 =
365
=
P X
1
5 = Y 8 = ( )
P X
1
5 = x
2
3 = ( )
P Y 8 = ( )
---------------------------------------------------------------- =
P X
1
5 = X
2
3 = ( )
P Y 8 = ( )
--------------------------------------------------------------
0,1008 0,1804
0,0653
------------------------------------- 0,2785 = =
x 0,61 =
P283-334-9782100549412.fm Page 323 Mercredi, 24. novembre 2010 10:57 10
324
INTRODUCTION LA MTHODE STATISTIQUE
On a une variable discrte valeurs positives ou nulles avec une moyenne quasi-gale
la variance. On peut envisager une loi de Poisson
(0,61). La comparaison des
diagrammes en btons des distributions observe et thorique montre une excellente
adquation.
C
hapitre 7
Exercice 7.1
1.
X
(45 ; 4)
P
(
X
< 39) =
F
U
((39 45)/4) =
F
U
( 1,5) = 1
F
U
(1,5) = 1 0,9332 = 0,0668
P
(
X
48) = 1
P
(
X
< 48) = 1
F
U
(0,75) = 1 0,7734 = 0,2266
P
(39 <
X
< 48) =
P
(
X
48)
P
(
X
39) = 0,7734 0,0668 = 0,7066
2.
P
(
X
m
) =
P
(
m
m
+
) =
F
U
(1)
F
U
( 1) = 2
F
U
(1) 1 = 0,6826
(en fait, rsultat de cours : II.C)
3.
Puisque
m
= 45 et
= 4, on a : {41
49}
{
m
m
+
}
P
(41
49
X
39) =
P
({41
49}
{
X
39})/
P
(
X
39)
=
P
(41
49)/
P
(
X
39)
= 0,6826 / 0,9332 = 0,7315
Nombre de dcs
x
k
0 1 2 3 4 5 o u + Total
Cumul des annes
n
k
109 65 22 3 1 0 200
Probabilit
(0,61) 0,5434 0,3314 0,1011 0,0206 0,0031 0,0004 1
Nombre thorique
n
*
k
108,7 66,3 20,2 4,1 0,6 0,1 200
0
20
40
60
80
100
120
Observ
Thorique
1 3 2 5 ou + 4
P283-334-9782100549412.fm Page 324 Mercredi, 24. novembre 2010 1:19 13
CORRIGS DES EXERCICES
325
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
7
Exercice 7.2
1.
P
(
X
2 400) =
F
U
((2 400
m
)/
) = 0,0228
(2 400
m
)/
= 2
P
(
X
> 3 000) = 0,0446
P
(
X
3 000) = 0,9554
(3 000
m
)/
= 1,7
On rsout un systme de 2 quations 2 inconnues :
m
2 724
162
(2 724 ; 162)
2.
Soit
X
i
le gain du
i
e
mois, par hypothse, les
X
i
sont
iid
X
(
iid
pour indpendants
et identiquement distribus ).
La v.a.
Y
gale au gain pendant trois mois est une somme de 3 v.a. normales indpen-
dantes et par consquent, suit une loi normale :
Y
=
(3
m
;
), soit :
(8 172 ; 280,6)
3.
P
(
Y
> 8 700) = 1
F
U
(528/280,6) = 1
F
U
(1,88) = 1 0,9699 = 0,301
Exercice 7.3
1.
p
=
P
(
X
> 2,5) = 1
P
(
X
2,5) = 1
F
U
(1,67) = 1 0,9525 = 0,0475
0,05
2.
la
i
e
imprimante tire, on associe une v.a. de Bernoulli
X
i
de paramtre 0,05 :
X
i
=
{
1 si dure de vie > 2,5 millions de pages
0 sinon
Y
est une somme de 60 v.a. indpendantes de Bernoulli de mme paramtre
p
(les
X
i
sont considres indpendantes puisque les imprimantes ont t tires au
hasard dans une production suppose suffisamment importante pour avoir un taux de
sondage
n/N infrieur 10 %)
Y = (60 ; 0,05) (3)
n > 50, p < 0,1
3. En utilisant les tables de la loi de Poisson, on obtient :
P(Y = 6) = 0,9665 0,9161 = 0,0504
P(Y 3) = 1 P(Y 2) = 1 0,4232 = 0,5768
Exercice 7.4
1. P(75 X 125) = F
U
(1) F
U
( 1) = 0,6826
en fait : P(75 X 125) = P( X m )
P(X > 150) = 1 F
U
(2) = 1 0,9772 = 0,0228
en fait : P(X > 150) = P(X > 2)
2. P(X > n
1
) = 0,9 F
U
= 0,1 = 1,2816 n
1
68
P(X < n
2
) = 0,4 F
U
= 0,4 = 0,2533 n
2
94
X
i
i 1 =
3
3
X
i
i 1 =
60
n
1
100
25
--------------------
( ,
j \
n
1
100
25
--------------------
n
2
100
25
--------------------
( ,
j \
n
2
100
25
--------------------
P283-334-9782100549412.fm Page 325 Mercredi, 24. novembre 2010 10:57 10
326
INTRODUCTION LA MTHODE STATISTIQUE
3.
On cherche
a
tel que :
P
(
X
m
<
a
) = 0,9
a
= 41,125
[
m
a
;
m
+
a
] = [58,87 ; 141,13]
Exercice 7.5
1.
Soit
X
i
la variable alatoire de Bernoulli associe la
i
e
bouteille grand cru achete :
X
i
=
{
1 si
i
e
bouteille vin courant
p
= 0,12
0
q
= 0,88
i
= 1, , 200
Le nombre
Y
de bouteilles de vin courant parmi les 200 bouteilles achetes est gal
la somme des 200 variables de Bernoulli
X
i
:
Y
=
Les 200 bouteilles tant supposes tires au hasard dans lensemble des bouteilles
grand cru avec un taux de sondage infrieur 10 %, la v.a.
Y
suit une loi binomiale
B
(200 ; 0,12).
E
(
Y
) =
np
= 24 var(
Y
) =
npq
= 21,12
Puisque
npq
= 21,12 > 18, la loi de
Y
peut tre approche par la loi normale
(24 ; 4,6).
2.
Comme on approxime une loi discrte par la loi normale, on fait la correction de
continuit :
P(Y > 20) = 1 P(Y 20) = 1 F
U
{(20 + 0,5 24)/4,6} = 1 F
U
( 0,76) = 0,7764
P(Y < 30 Y > 20) =
P(Y<30 Y>20) =
3. Les bouteilles de type courant, en nombre Y, occasionnent une perte unitaire de 1,5 .
Les bouteilles rellement grand cru , en nombre (200 Y), crent un bnfice uni-
taire de 2,50 (= 6 3,5). Donc, au total :
Bnfice = 2,5 (200 Y) 1,5Y = 500 4Y P(Bnfice > 0) = P(Y < 125) 1
Exercice 7.6
1. Sachant que la probabilit dune runion de 2 vnements incompatibles est gale
la somme des probabilits de ces vnements, on a :
P(A) = P({vrais jumeaux et 2 garons} {faux jumeaux et 2 garons})
= P(vrais jumeaux et 2 garons) + P(faux jumeaux et 2 garons)
P(A) = P(2 G vrais jumeaux) P(vrais jumeaux) + P(2 G faux jumeaux) P(faux jumeaux)
P(A) = /2 + (1 )/4 = ( + 1)/4 = P(B)
P(C) = P({faux jumeaux} {1 garon et 1 fille})
= P(1 garon et 1 fille faux jumeaux) P(faux jumeaux) = (1 )/2
P
X m
-----------------
a
--- <
( ,
j \
0,9 = 2F
U
a
---
( ,
j \
1 0,9 =
F
U
a
---
( ,
j \
0,95 =
a
--- 1,645 =
X
i
i 1 =
200
P 20 Y 30 < < ( )
P Y 20 > ( )
-------------------------------------
P Y 30 < ( ) P Y 20 ( )
0,7764
-------------------------------------------------------- =
F
U
1,2 ( ) F
U
0,76 ( )
0,7764
----------------------------------------------------
0,8849 0,2236
0,7764
--------------------------------------- 0,8517 = =
P283-334-9782100549412.fm Page 326 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES
327
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
7
2.
la
i
e
naissance, on associe :
X
i
=
{
1 si
i
e
naissance avec 1
G
et 1
F
p
= (1
)/2
0 sinon
Y
est une somme de 1 000 v.a. indpendantes de Bernoulli de mme paramtre
p
Y
=
(1 000 ; (1
)/2)
E
(
Y
) = 500 (1
) var(
Y
) = 250 (1
2
)
3.
Si
= 0,35 :
Y
(1 000 ; 0,325)
(325 ; 14,8)
npq
>18
P
(
Y
> 300) = 1
P
(
Y
300)
1
F
U
=
F
U
(1,69)
0,9545
P
(310
350) =
P
(
Y
350)
P
(
Y
< 310)
=
F
U
(1,69)
F
U
( 1,01) = 0,9545 (1 0,8438) = 0,7983
P
(310
350
Y
> 300) =
P
({310
Y 350} {Y > 300})/P(Y > 300)
= 0,7983/0,9545 0,836
Exercice 7.7
1. Pour une variable statistique continue, on calcule une valeur approche de la mdiane
par interpolation linaire : Me [35 ; 40[ Me = 35 + 5 = 36,75
2.
X
i
i 1 =
1 000
300 325
14,8
------------------------
( ,
j \
100 86
40
---------------------
P283-334-9782100549412.fm Page 327 Mercredi, 24. novembre 2010 10:57 10
328
INTRODUCTION LA MTHODE STATISTIQUE
La loi normale
(37 ; 10) est adapte puisque le nuage des points ( ,
x
i
) est approxi-
mativement align le long de la premire bissectrice.
3.1.
reprsente la dure moyenne des
n
interviews
(
n
m
,
) puisque les v.a.
X
i
sont
iid
X
(
iid
pour indpendantes et identiquement distribues )
3.2.
P
(
35) =
F
U
( 0,2 ) =
F
U
( 0,49) = 1 0,6879 = 0,3121
3.3.
P
(
45) =
F
U
(8 /10)
0,99
0,8
2,3263
(2,3263/0,8)
2
= 8,46
9
Exercice 7.8
1.1.
Soit
Y
le nombre dactions en hausse parmi les 10 actions
X
i
=
{
1 si
i
e
action en hausee
p
= 0,7
0 sinon
q
= 0,3
Y
est somme de 10 v.a. de Bernoulli indpendantes de mme paramtre
p
= 0,7
Y
=
(10 ; 0,7)
Z
= 10
Y
(10 ; 0,3)
1.2.
P
(
Y
8) =
P
(
Z
2) = 0,3828
P
(
Y < 4) = P(Z > 6) = 1 0,9894 = 0,0106
2. Y = (100 ; 0,7) (70 ; )
npq = 21 > 18
P(Y 80) = 1 P(Y < 80) = 1 F
U
= 1 F
U
(2,07) = 1 0,9808 = 0,192
P(Y < 40) = F
U
= F
U
( 6,65) 0
Exercice 7.9
1. X suit une loi exponentielle de paramtre 1 : E(X) = 1 et var(X) = 1 (cf. cours)
E(Y) = 2 + E(X) = 2 + var(Y) =
2
var(X) =
2
La v.a. Y suit en fait une loi exponentielle de paramtres et = 2.
x
i
*
X
n
X
i
i 1 =
n
n
X
n
37 ;
10
n
-------
( ,
j \
X
6
6
X
n
n n
X
i
i 1 =
10
X
i
i 1 =
100
21
80 0,5 70
21
-------------------------------
( ,
j \
40 0,5 70
21
-------------------------------
( ,
j \
F
Y
(y) = P(Y y) = P = X
y 2
-----------
( ,
j \
{
1 e
(y 2)/
si y 2
0 si y < 2
P283-334-9782100549412.fm Page 328 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES
329
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
7
2.1. P(Y < 2) = F
Y
(2) = 0
P(2 Y 5) = F
Y
(5) F
Y
(2) = 1 e
3/5
0,45
2.2. y
i
*
= 2 5 ln(1 F
i
)
La loi exponentielle de paramtres = 5 et = 2 est adapte puisque le nuage des
points (y
i
*
, y
i
) est approximativement align le long de la premire bissectrice.
Exercice 7.10
1. = 28,1 s
X
= 9,375
2. Me = 25 + 5 = 26,96
3.1. P(18 < X < 35) = F
U
F
U
= F
U
(0,74) F
U
( 1,05) = 0,7704 1 + 0,8531 = 62,35 %
partir de lchantillon : 2 0,13/5 + 0,22 + 0,28 + 0,15 = 70,2 %
3.2. P(X > A) = 0,75 P(X A) = 0,25 = u
25 %
= 0,675
A = 28 9,5 0,675 = 28 6,4125 21,6
A' = Q
1
= 20 + 5 = 21,82 A' est le premier quartile
x
50 39
28
------------------
35 28
9,5
------------------
( ,
j \
18 28
9,5
------------------
( ,
j \
A 28
9,5
---------------
25 17
22
------------------
P283-334-9782100549412.fm Page 329 Mercredi, 24. novembre 2010 10:57 10
330
X
i
i 1 =
n
P283-334-9782100549412.fm Page 330 Mercredi, 24. novembre 2010 10:57 10
CORRIGS DES EXERCICES
331
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
7
4.1.
4.2.
E
(
Z
) =
E
(
Y
+
n
) = 1,8
n
var(
Z
) = var(
Y
+
n
) = var(
Y
) = 0,16
n
Exercice 7.12
1.
Calcul du coefficient de corrlation linaire et des coefficients de la droite des moin-
dres carrs avec Excel
:
r
= Coefficient corrlation (C2:C11;E2:E1)
= Index(Droitereg(E2:E11; C2:C11);1)
= Index(Droitereg(E2:E11; C2:C11);2)
r
= 0,94
r
tant voisin de 1, on peut considrer les 10 points approximati-
vement aligns : ln(1
F
i
)
1,128 ln(
x
i
) + 7,518
Pour tracer avec Excel la droite des moindres carrs : onglet Graphique , Ajouter
une courbe de tendance , type Linaire . On peut utiliser ensuite longlet Options
pour Afficher lquation sur le graphique et pour Afficher le coefficient de dter-
mination (R
2
) sur le graphique .
2.
La fonction de rpartition dune loi de Pareto est fonction de 2 paramtres
et
x
0
:
F
X
(x) = 1 1 F
X
(x) = ln(1 F
X
(x)) = (ln(x
0
) ln(x))
Les points {ln(x
i
) ; ln(l F
i
)} tant quasi-aligns (r = 0,94), lajustement de la dis-
tribution par une loi de Pareto est justifi, et on peut valuer ses paramtres :
= 1,128 ln(x
0
) 6,667 x
0
= e
6,667
786
Y 0 k n
Z = Y + n n n + k 2n
Probabilit 0,2
n
0,8
n
0,2
n k
0,8
n
n
k ( ,
j \
b
x
0
x
-----
( ,
j \
x
0
x
-----
( ,
j \
333
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
(1 750 ; 125) puisque les X
i
sont iid X de distribution (70 ; 25)
(iid pour indpendantes et identiquement distribues )
(cf. loi de la v.a. appele moyenne empirique, chapitre 7, III.A).
(70 ; 5) = 0,9544
Les points (u
i
, x
i
) tant aligns, on a :
Les u
i
tant les fractiles dune loi normale centre-rduite, on a :
Les paramtres de la droite des moindres carrs sont donc des valuations de la
moyenne et de lcart-type : m* 65 g et * 20 g
Exercice 7.15
1. Profondeur (Me) = 50,5 Me = 127
Profondeur (Q) = 25,5 Q
1
= 107 Q
3
= (144 + 146)/2 = 145
Trois indicateurs de tendance centrale :
Moyenne = 124,6 Me = 127 (Q
1
+ Q
3
)/2 = 126
Deux indicateurs de dispersion :
s
X
= 32 EIQ = 38
2.1 P(m X m + ) = F
U
(1) F
U
( 1) = 0,6826
P(m 2 X m + 2) = F
U
(2) F
U
( 2) = 0,9544
2.2
X
i
i 1 =
25
E X
25
( ) E X ( ) = var X
25
( ) var X ( ) 25 25 = =
X
25
P X m 10 < ( ) P X m 2
X
< ( ) =
x
i
au
i
b + =
u
i
x
i
m =
P X x
1
< ( ) 0,1 F
U
x
1
125
30
--------------------
( ,
j \
0,1 x
1
125 30 1,2816 x
1
86,552 = = = =
P283-334-9782100549412.fm Page 333 Mercredi, 24. novembre 2010 10:57 10
334
335
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
A
nnexes
I. F
ormulaire lmentaire de combinatoire
II. P
rincipaux modles de probabilits :
mthodes de calculs
III. I
ntroduction la simulation
des lois de probabilit
IV. T
ables
I. F
ormulaire lmentaire de combinatoire
Sous le nom de combinatoire, on regroupe ici les rsultats essentiels de
dnombrement sur les ensembles.
A. E
nsemble des parties dun ensemble
Soit
un ensemble de
N
lments. Lensemble
) des parties de
,
comporte 2
N
lments.
B. A
rrangements avec rptition
On sintresse un ensemble
de
N
lments, dans lequel on slectionne
k
individus, chacun pouvant tre choisi plusieurs fois (tirages avec rptition).
P335-360-9782100549412.fm Page 335 Mercredi, 24. novembre 2010 11:13 11
336
INTRODUCTION LA MTHODE STATISTIQUE
Le nombre de slections possibles de
k
individus de
, par un tel procd
(ou encore darrangements avec rptition) est de :
N
k
En effet, pour le premier individu on a
N
choix possibles. Chacun de ces
choix est associ nimporte lequel des
N
choix possibles pour le second. On
continue ainsi jusquau choix du dernier (
N
possibilits galement).
Cest par exemple le cas, pour le nombre de rsultats possibles pour une
suite de
N
preuves identiques ayant chacune les mmes
k
rsultats lmen-
taires possibles.
C. P
ermutations
Soit
un ensemble de
N
lments, on appelle permutation sur
une suite
de
N
lments de
. Ceci revient dire que lon a dispos
N
objets de
dans un ordre dtermin. Il faut remarquer que dans cette dfinition gnrale,
les objets peuvent ne pas tre distincts. Pour cette raison, on introduit la
notion de permutation sans rptition, dans laquelle les lments de
sont
distincts. Cette dernire dfinition revient donc dire quune permutation
(sans rptition) de
est un rangement particulier de ses lments.
Pour un ensemble
N
lments il existe
N
(
N
1) (
N
2) 2 1
permutations sans rptitions distinctes. Ce rsultat est simple montrer par
rcurrence. La valeur ainsi obtenue est appele factorielle
N
, et elle est note
N
!
Plus gnralement, si
N
1
,
N
2
,
N
k
sont les nombres de rsultats distincts
qui peuvent tre obtenus sur
k
preuves successives, alors le nombre de rsul-
tats distincts possibles lissue de la srie des
k
preuves est donn par :
N
1
N
2
N
k
On peut montrer aisment quil existe
N
N
permutations avec rptitions
de
N
lments.
Dans ce qui suit on ne parlera que de permutation sans rptition.
D. A
rrangements sans rptition
On se place donc encore dans le cas dun ensemble
N
lments distincts. Le
nombre de choix possibles ordonns de
k
objets de
est appel nombre darran-
gements sans rptition de
k
objets parmi
N
, et est dsign par . On a : A
N
k
A
N
k
N!
N k ( )!
-------------------- N N 1 ( ) N 2 ( ) N k 1 + ( ) = =
P335-360-9782100549412.fm Page 336 Mercredi, 24. novembre 2010 11:13 11
ANNEXES
337
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
En effet, aprs avoir choisi le premier lment (
N
choix possibles), il ne
reste plus que (
N
1) choix possibles pour le second. Chaque choix du premier
peut tre associ nimporte lequel des choix du second, et on a
N
(
N
1) choix
possibles pour les 2 premiers lments slectionns. En poursuivant le rai-
sonnement, on obtient le rsultat annonc.
Soit ainsi une tombola dote de 4 prix, pour laquelle 20 billets ont t
mis et tous vendus. Le nombre de rsultats posssibles correspond alors au
nombre de choix possible de 4 individus (les 4 gagnants) parmi 20 (les 20
possesseurs de billets), et lordre des gagnants est ici important puisque les
prix sont distincts et de valeurs en gnral trs diffrentes. On a
situations diffrentes observables lissue du tirage de la tombola.
E. C
ombinaisons sans rptition
Dans le cas prcdent, lordre dans lequel se trouvent les
k
individus slec-
tionns dans lensemble
est important, et il convenait de distinguer deux
slections dans lesquelles les individus tirs seraient les mmes mais ne
seraient pas affects aux mmes positions (ou rangs de tirage).
Nous considrons souvent aussi des cas o cet ordre na pas de significa-
tion prcise. Pour un ensemble
de
N
lments dans lequel on slectionne
k
individus sans rptition sans tenir compte de lordre, on dsigne alors le
nombre de choix possibles par , quon appelle nombre de combinaisons
de
N
individus pris
k
k
.
On sait que tous les choix rsultant aux mmes
k
individus donneront
donc une seule combinaison de
k
lments pris parmi les
N
de
. Tous ces
choix sont les permutations des
k
lments, et il en existe
k
!
Il en rsulte que le nombre de combinaisons est gal au nombre
darrangements divis par
k
! :
Dans lexemple prcdent de la tombola 20 billets vendus et 4 prix, si
les prix taient identiques, on parlerait de
A
20
4
20!
16!
-------- 17 18 19 20 116 280 = = =
N
k
( ,
j \
N
k
( ,
j \
A
N
k
N
k
( ,
j \
A
N
k
k!
-------
N!
k! N k ( )!
------------------------- = =
20
4
( ,
j \
20!
4! 16!
------------------
4 845 = =
P335-360-9782100549412.fm Page 337 Mercredi, 24. novembre 2010 11:13 11
338
INTRODUCTION LA MTHODE STATISTIQUE
rsultats possibles lissue du tirage (soit 4 ! = 24 fois moins que si les prix
sont diffrents).
Mentionnons quelques formules trs utilises relatives ce nombre de
combinaisons :
ainsi que :
dont lapplication trs connue est le triangle de Pascal qui est un tableau
triangulaire dont chaque ligne correspond une valeur de
N
et chaque
colonne une valeur de
k
(
k
= 0, 1, 2, ... ,
N
). Sa construction se dduit de la
formule ci-dessus. Ainsi pour les 8 premires lignes :
1
1 1
1 2 = 1 + 1 1
1 3 = 2 + 1 3 = 1 + 2 1
1 4 = 3 + 1 6 = 3 + 3 4 = 1 + 3 1
1 5 = 4 + 1 10 = 6 + 4 10 = 4 + 6 5 = 1 + 4 1
1 6 = 5 + 1 15 = 10 + 5 20 = 10 + 10 15 = 5 + 10 6 = 1 + 5 1
1 7 = 6 + 1 21 = 15 + 6 35 = 20 + 15 35 = 15 + 20 21 = 6 + 15 7 = 1 + 6
en se rappelant que les extrmes de chaque ligne sont toujours gaux 1.
Citons aussi la formule bien connue du binme de Newton :
dont un cas particulier est :
obtenu en prenant
a
= 1 et
b
= 1.
Enfin, on citera une formule de rcurrence permettant de calculer les nom-
bres de combinaisons par quelques pas de programme :
On retrouve son application lannexe II.
N
0
( ,
j \
1 =
N
1
( ,
j \
N =
N
k
( ,
j \
N
N k
( ,
j \
=
N
k
( ,
j \
N 1
k
( ,
j \
N 1
k 1
( ,
j \
+ =
a b + ( )
N
N
k
( ,
j \
a
k
b
N k
k
1
=
N
=
2
N
N
k
( ,
j \
k 1 =
N
=
N
k
( ,
j \
N k 1 +
k
----------------------
N
k 1
( ,
j \
=
P335-360-9782100549412.fm Page 338 Mercredi, 24. novembre 2010 11:13 11
ANNEXES
339
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
F. C
oefficients multinomiaux
Le nombre total de diffrents partages dun ensemble
N
lments en
k
sous-
ensembles disjoints, contenant respectivements
n
1
,
n
2
, ,
n
k
lments est
donn par le coefficient multinomial :
Cest une gnralisation du nombre de combinaisons, , o lon par-
tageait lensemble
N
lments en deux sous-ensembles, lun de
k
l-
ments et lautre des (
N
k
) lments restants.
II. P
rincipaux modles de probabilits :
mthodes de calculs
A. L
oi binomiale
La formule donnant les probabilits individuelles dune loi
(
n
,
p
) permet
de construire une procdure itrative. En effet, si
X
suit une telle loi :
N!
n
1
! n
2
! n
k
!
---------------------------------------------
N
k
( ,
j \
P X k 1 + = ( )
n
k 1 +
( ,
j \
p
k 1 +
1 p ( )
n k 1
=
n!
k 1 + ( ) n k 1 ( )!
--------------------------------------------- = p
k 1 +
1 p ( )
n k 1
n! n k ( )
k! k 1 + ( ) n k ( )!
----------------------------------------- = p
k
p
1 p ( )
n k
1 p ( )
-------------------------
n!
k! n k ( )!
------------------------ = p
k
1 p ( )
n k
n k ( ) p
k 1 + ( ) 1 p ( )
----------------------------------
n k ( )
k 1 + ( )
-----------------
p
1 p ( )
----------------- = P X k = ( )
P335-360-9782100549412.fm Page 339 Mercredi, 24. novembre 2010 11:13 11
340
u
2
2
-----
a
1
0,4361836 = a
2
0,1201676 = a
3
0,9372980 =
z
1
1 0,33267u +
-------------------------------- =
P335-360-9782100549412.fm Page 340 Mercredi, 24. novembre 2010 11:13 11
ANNEXES
341
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
b)
Lerreur commise est au plus gale 0,00025.
D. Loi du khi-deux
On utilise la formule, vue au chapitre 7, III.A, de Wilson-Hilferty :
la dtermination de la valeur de la fonction de rpartition de la loi de
Gauss centre rduite se faisant par lune des formules donnes ci-dessus.
E. Loi de Student
On a vu au chapitre 7, III.B, que la loi de Student 2 ddl possde une fonction
de rpartition simple permettant des calculs exacts. Dans le cas gnral, on
utilise deux formules dapproximation ; lune pour la fonction de rpartition,
lautre pour les fractiles. La premire formule est due Fisher et scrit, pour
t > 0 (pour t < 0, on utilise la symtrie) :
+
Lerreur commise est au plus gale 0,000005. Cest donc une excellente
approximation.
Dans le cas particulier de la loi de Student 1 ddl, on peut utiliser la for-
mule suivante qui donne un rsultat entach dune erreur au plus gale
0,001, mais qui ne ncessite pas de calcul de fonction de rpartition de la loi
normale.
F
U
u ( ) 1
1
2
--- 1 0,196854u 0,115194u
2
0,000344u
3
0,019527u
4
+ + + + ( )
4
P
2
n ( ) x < ( ) F
U
x
n
---
( ,
j \
1 3
1
2
9n
------ +
( ,
, (
j \
9n
2
------
( ,
, (
, (
j \
P T
v
t < ( ) F
U
t ( )
1
2
---------- e
t
2
2
----
1
4
---t t
2
1 + ( )
1
v
---
1
96
------t + 3t
6
7t
4
5t
2
3 ( )
1
v
2
----
(
j
=
1
384
---------t t
10
11t
8
14t
6
6t
4
3t
2
15 + + ( )
1
v
3
----
,
\
P335-360-9782100549412.fm Page 341 Mercredi, 24. novembre 2010 11:13 11
342
INTRODUCTION LA MTHODE STATISTIQUE
La formule suivante permet une approximation des fractiles de la loi de
Student partir de ceux de la loi de Gauss centre rduite. Elle est due
Fisher et Cornish :
F. L
oi de Fisher-Snedecor
Pour cette loi, on peut utiliser la formule suivante, due G.W. Cochran, et
qui donne les fractiles dune loi
F
(
1
,
2
) en fonction des fractiles de la loi
normale centre rduite :
o et
Cette formule est en fait drive de la formule de Wilson-Hilferty pour
chaque loi de khi-deux au numrateur et au dnominateur de la loi de Fisher-
Snedecor. On ne connait pas prcisment de borne suprieure de lerreur
commise avec cette approximation, mme si on peut considrer que cette
approximation est de bonne qualit.
P 0 T
1
t < < ( )
1
--- t
t
3
3
---
t
5
5
---
t
7
7
--- +
( ,
j \
P 0 T
1
t < < ( )
1
4
---
1
--- +
1
2
---
(
j
t 1 ( )
2
1
4
--- t 1 ( )
2
+
1
12
------ t 1 ( )
3
1
40
------ t 1 ( )
5
( ,
j \
P 0 T
1
t < < ( )
1
2
---
1
--- +
1
t
---
1
3t
3
-------
1
5t
5
-------
1
7t
7
------- +
( ,
j \
si 0 t 0,5
si t 1,5
si 0,5 t 1
t
v ( ) u
1
4
--u
2
1 + ( )
1
v
--
1
96
-----u
5u
4
16u
2
3 + + ( )
1
v
2
-----
1
384
--------u
3u
6
19u
4
17u
2
15 + + ( )
1
v
3
----- + + +
f
v
1
, v
2
( ) d 1
1
3
--- u
2
1 ( ) +
( ,
j \
+u
c 1
c
2
6
---- u
2
3 + ( )
( ,
j \
1 2
d
1
2
---
1
v
2
----
1
v
1
----
( ,
j \
= c
1
2
---
1
v
1
----
1
v
2
---- +
( ,
j \
=
P335-360-9782100549412.fm Page 342 Mercredi, 24. novembre 2010 11:13 11
ANNEXES
343
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
III.
Introduction la simulation
des lois de probabilit
A.
La place des mthodes de simulation
Les activits conomiques sont tributaires de contraintes et dinfluences com-
plexes, sources de variation importantes sur la ou les grandeurs tudies.
Dans certains cas, on peut obtenir une solution analytique au fonctionnement
dun systme complexe, mais le plus souvent il est ncessaire de recourir
ltude de scnarii sous la forme dune analyse de sensibilit, ou mieux
encore la simulation lorsque la partie alatoire peut tre dcrite par des dis-
tributions de probabilits. Ainsi, dans une modlisation de flux, la prise en
compte des interactions de toutes sortes gnre des modles mathmatiques
dlicats, de mme que pour ltablissement de valeurs (
pricing
), les calculs
sont bass sur des modles alatoires dont la rsolution complte nest pas
toujours ncessaire et/ou possible.
Toutes les mthodes scientifiques de gestion ont bnfici de lexplosion
des ressources de calcul des ordinateurs, qui ont donn loccasion dune large
diffusion des mthodes dites intensives comme la simulation. Les
tableurs actuels sont tous munis dun gnrateur de nombres pseudo-
alatoires de qualit suffisante pour la plupart des besoins courants. Avec
la mise disposition dune bibliothque de fonctions (mathmatiques, statis-
tiques, logiques, etc.), les mthodes de simulation sont devenues un ensemble
doutils daide la dcision trs largement accessible et rpandu. Quelques
bibliothques de programmes (comme le logiciel
R
) organises autour dun
langage trs simple compltent les instruments de base.
B.
Les principes de la simulation sur tableur
Simuler est une faon dimiter. Simuler le comportement dun systme com-
plexe consiste en reconstituer fictivement des ralisations. On parle de
simulation alatoire lorsque celles-ci sont obtenues laide de ralisations
fictives de variables alatoires de distributions connues.
Pour toute simulation, on part de ralisations artificielles de la distri-
bution uniforme continue sur lintervalle
]
0 ; 1
[
qui sont fabriques
(simules) au travers de la fonction ALEA(). Lappel de cette fonction dans
K
cellules dune feuille de tableur permet dobtenir ,
K
ra-
lisations indpendantes de la distribution uniforme continue sur ]0 ; 1[
x
i
i , 1,,K =
P335-360-9782100549412.fm Page 343 Mercredi, 24. novembre 2010 11:13 11
344
= =
si x <
si x
P335-360-9782100549412.fm Page 344 Mercredi, 24. novembre 2010 11:13 11
ANNEXES
345
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Pour toute valeur de y, nombre pseudo-alatoire gnr par la fonction
ALEA(), on obtient ainsi une valeur x dune loi exponentielle par un calcul
lmentaire.
La simulation de valeurs issues de distributions exponentielles permet de
simuler des systmes de files dattente gnrs par laccs alatoire dutilisa-
teurs une ressource partage (un guichet par exemple) o les intervalles
entre deux arrives successives sont distribus selon une loi exponentielle et
o les temps dutilisation de la ressource sont aussi distribus selon une loi
exponentielle (files notes M/M/C)
1
. Ltude de ces files dattente (ici M/M/1)
permet de montrer que le nombre darrives par intervalle de temps fixe est
alatoire et distribu selon une loi de Poisson. On retrouve donc ici une pos-
sibilit de simuler des valeurs issues dune loi de Poisson partir de la simu-
lation dune file dattente reposant sur des lois exponentielles.
Pour obtenir des ralisations simules dune distribution continue avec
une fonction de rpartition non inversible, on doit recourir des mthodes
plus labores, telles que la mthode dacceptation-rejet. Elles ne sont pas
prsentes ici, mais nous donnerons simplement deux mthodes trs utilises
pour simuler des valeurs de lois de Gauss.
Mthode 1 : faire la somme de 12 valeurs simules de loi uniforme con-
tinue sur ]0 ; 1[ obtenues avec la fonction ALEA(). Par application du tho-
rme central limite (chapitre 7, II.E), la distribution de la somme de 12
variables uniformes continues sur ]0 ; 1[ peut tre approxime par une loi de
Gauss (6 ; 1), et on obtient une loi de Gauss centre rduite en retranchant
6 au rsultat de cette somme de 12 valeurs de loi uniforme (il est conseill
de montrer ce rsultat en exercice).
Mthode 2 (Box et Mller) : simuler deux valeurs indpendantes x
1
et x
2
de
loi uniforme continue sur ]0 ; 1[ avec la fonction ALEA(). On obtient ensuite
deux valeurs indpendantes de loi de Gauss centre rduite en calculant :
Pour obtenir une valeur simule y dune loi de Gauss (m ; ), il suffit
davoir une valeur simule u dune loi de Gauss centre rduite (par une des
mthodes prcdentes par exemple) et calculer
Les liens tablis entre les diffrentes distributions continues montrent par
exemple encore que pour obtenir une valeur simule dune distribution du khi-
deux 2 degrs de liberts, il suffit de se donner deux valeurs simules ind-
pendantes de loi de Gauss centre rduite et de faire la somme de leurs carrs.
Or, en appliquant la mthode de Box et Mller en partant des valeurs x
1
et x
2
1. La lettre M fait rfrence au caractre sans mmoire ( memoryless) de cette distribution.
u
1
2 x
1
ln 2x
2
( ) cos =
u
2
2 x
1
ln 2x
2
( ) sin =
y u m + =
P335-360-9782100549412.fm Page 345 Mercredi, 24. novembre 2010 11:13 11
346
347
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Colonnes C et D, E et F, G et H, I et J, K et L, M et N, O et P, Q et R, S
et T, U et V, W et X remplies de manire similaire aux colonnes A et B.
Les colonnes B, D, F, H, J, L, N, P, R, T, V et X contiennent chacune une
suite de 25 valeurs (0 ou 1) ralisations de naissances simules, et modlisent
chacune une classe de CP de 25 enfants dont on obtient le nombre de filles
en faisant la somme de la colonne.
Ce nombre de filles est en thorie la somme de 25 alas de Bernoulli
indpendants de mme paramtre 0,48 ; il est distribu selon une loi bino-
miale (25 ; 0,48)
La moyenne thorique (25 0,48 =12) et la variance thorique (25 0,48
0,52 = 6,24) sont compares la moyenne et la variance des valeurs simu-
les (lignes 30 et 31 du tableau1).
Il est aussi possible de simuler presque instantanment un jeu de pile ou
face rpt 5 000, 10 000 ou mme 100 000 fois pour une pice pipe ou pour
une pice non pipe, et dobserver la convergence des frquences de pile vers
la probabilit thorique impose dans la simulation, ce qui illustre la loi des
grands nombres.
2) Simulation dune loi exponentielle
Le second exemple est celui des lois exponentielles. Dans les systmes file
dattente, une ressource en quantit disponible limite (guichet, serveur infor-
matique, imprimante, etc.) est soumise des demandes qui peuvent excder
ses capacits de rponse instantanes. Cest bien entendu ce que chacun a
dj vcu et observ la caisse dun magasin, dans une station-service, aux
guichets dun service public, par exemple.
Le modle simple de file dattente une seule ressource en partage est
celui o les demandes (ou arrives) sont alatoires, indpendantes, et arrivent
spares par des intervalles de temps distribus selon une loi exponentielle,
les temps de service (rponses aux demandes) tant eux aussi distribus selon
une loi exponentielle.
Ces deux variables alatoires (temps sparant deux demandes successives,
temps de service) ont t simules laide des nombres pseudo-alatoires
dExcel ; quelques calculs expliqus ci-dessous permettent de construire arri-
ves et dparts (par libration de la ressource), ainsi que les temps dattente
et le nombre de demandes en attente (longueur de la file).
Lexemple choisi ( cf. tableau 2), avec la minute pour unit de temps, est
celui o les temps sparant les arrives sont rpartis selon une loi exponen-
tielle de paramtre 1, et les temps de service sont rpartis selon une loi expo-
nentielle de paramtre 4/3. Autrement dit il y a en moyenne une demande par
minute, et le temps de service moyen est de 0,75 minute, soit 45 secondes.
P335-360-9782100549412.fm Page 347 Mercredi, 24. novembre 2010 11:13 11
348
349
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Colonne G : date de dbut du service du client, qui est :
sa date darrive si le guichet est libre ce moment ;
ou bien gale la date o le guichet est libr par le client en cours de
service
G3 = F3, puis G4 = MAX(F4 ;I3)
et le reste de la colonne par progression selon les valeurs de la colonne I.
Colonne I : date de libration du guichet (fin de service au client en cours).
Cest la somme de la date de dbut de service et de la dure de service du
client considr
I3 = G3 + H3 et le reste de la colonne par progression
Colonne J : temps dattente gal la date de dbut de service diminue de
la date darrive
J3 = G3 F3 et le reste de la colonne par progression
Colonne K : longueur de la file dattente lorsquun client arrive, qui est
gale au numro dordre de ce client diminu du numro dordre du client
qui sera servi :
si le client qui arrive est servi tout de suite, cette longueur est nulle ;
si le client qui est en cours de service est le prcdent, la file sera de
longueur 1, etc.
K5 = D5 EQUIV(F5;$G$3:G5;1)
Cette procdure par simulation permet de comprendre linfluence des
paramtres des lois exponentielles des temps entre demandes et des temps de
service.
En gardant constant le premier, on peut voir que laugmentation du second
(qui signifie que le temps de service moyen est diminu donc que le guichet
se libre plus vite) entrane des attentes moins longues et une file moins four-
nie, alors que sa diminution (qui implique que le temps de service moyen est
augment) allonge le temps dattente moyen et la longueur de la file. Ces
rsultats peuvent tre dmontrs rigoureusement pour la file M/M/1, mais le
recours la simulation est parfois ncessaire pour valuer le temps dattente
moyen, la longueur moyenne de la file, et comprendre le mcanisme et les
consquences dun systme impliquant une (ou plusieurs) file(s) dattente.
3) Simulation dune loi de Gauss
Nous avons dj indiqu au D de cette annexe ( cf. mthode 1) que le tho-
rme central limite (chapitre 7, II.E) justifiait lutilisation de la somme de
12 valeurs de la fonction ALEA() laquelle on retranche 6 pour obtenir une
valeur simule de loi de Gauss centre rduite.
Lexemple du tableau 3 porte sur 100 valeurs simules (dont nous mon-
trons les 25 premires) et illustre la qualit de cette mthode de simulation
laide dun diagramme Quantile-Quantile.
Pour obtenir les quantiles thoriques, les valeurs simules ont t tries
par ordre croissant, et dans la colonne situe gauche on a port le numro
P335-360-9782100549412.fm Page 349 Mercredi, 24. novembre 2010 11:13 11
350
351
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Le diagramme Quantile-Quantile obtenu sur pour 100 valeurs ( cf. figure 1)
justifie parfaitement lutilisation de cette mthode de simulation pour obtenir
des valeurs dune loi de Gauss centre rduite. Les valeurs peuvent servir
ensuite pour toute situation concrte o un phnomne alatoire est gouvern
par une loi de Gauss.
En effet, avec des valeurs simules u
i
dune loi de Gauss centre rduite,
on obtient des valeurs simules y
i
dune loi de Gauss quelconque (m ; )
en calculant y
i
= u
i
+ m
Il en est de mme pour la simulation dune loi log-normale en partant
dune loi de Gauss.
IV. Tables
lexception de la table des fractiles de la loi du khi-deux, les tables suivan-
tes sont extraites de l Aide-mmoire statistique (CISIACERESTA, 1999).
P335-360-9782100549412.fm Page 351 Mercredi, 24. novembre 2010 11:13 11
352
353
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
P335-360-9782100549412.fm Page 353 Mercredi, 24. novembre 2010 11:13 11
354
355
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
P335-360-9782100549412.fm Page 355 Mercredi, 24. novembre 2010 11:13 11
356
du P = =
P335-360-9782100549412.fm Page 356 Mercredi, 24. novembre 2010 11:13 11
ANNEXES
357
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
P335-360-9782100549412.fm Page 357 Mercredi, 24. novembre 2010 11:13 11
358
dx =
P335-360-9782100549412.fm Page 358 Mercredi, 24. novembre 2010 11:13 11
ANNEXES
359
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Cette table donne les valeurs des fractiles t
P
(v) de la loi de Student pour
P 0,60
Pour les valeurs P 0,40, on a t
P
(v) = (v) t
1 P
P P
P P
P
P335-360-9782100549412.fm Page 359 Mercredi, 24. novembre 2010 11:13 11
360
361
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
B
ibliographie
Ouvrages de base
E
SCOFIER
B., P
AGES
J.,
Initiation aux traitements statistiques, Mthodes, mtho-
dologie
, Presses universitaires de Rennes, 1997.
G
IARD
V.,
Statistique applique la gestion
, 8
e
d., conomica, 2003.
G
RAIS
B.,
Statistique descriptive
, coll. co sup , 3
e
d., Dunod, 2004.
G
RAIS
B.,
Mthodes statistiques
, coll. co sup , 4
e
d., Dunod, 2006.
M
ORINEAU
A., C
HATELIN
Y.-M.
et al.
,
Lanalyse statistique des donnes :
apprendre, comprendre et raliser avec Excel
, Ellipses, 2005.
Ouvrages gnraux
DODGE
Y.,
Statistique, Dictionnaire encyclopdique
, Springer Verlag, 2004.
D
ROESBEKE
J.-J., T
ASSI
P.,
Histoire de la statistique
, Que sais-je n 2527,
2
e
d., PUF, 1997.
INSEE, Pour comprendre lindice des prix ,
Insee-Mthodes
, n 81-82, 1998.
Ouvrages dapprofondissement
A
NTOINE
Ch.,
Les Moyennes
, coll. Que sais-je ? , n 3383, PUF, 1998.
D
ODGE
Y., M
ELFI
G.,
Premiers pas en simulation
, Springer Verlag, 2008.
S
APORTA
G.,
Probabilits, analyse des donnes et statistique
, 2
e
d., ditions Technip,
2006.
T
ENENHAUS
M.,
Statistique, mthodes pour dcrire, expliquer et prvoir
, 2
e
d.,
Dunod, 2007.
Sites Internet
Cours de statistique en ligne : www.agro-montpellier.fr/cnam-fr/statnet/
Module et mthodes de traitement : www.modulad.fr, onglet ExcelEnse
Logiciels
Excel 2007
, Microsoft.
PASW Statistics (2010), nouveau nom de SPSS version 18 pour Windows,
Mac OS ; SPSS, Chicago, Illinois, 2004.
JMP
(2009) version 8pour Mac OS, pour Windows ou pour Linux, produit par
SAS, SAS Institute Inc., Cary, NC, USA, 2004.
R
version 2.11.1 (2010). Logiciel libre multi plates-formes (CNU General Public
Licence), The R Foundation, www.r-project.org
P361-362-9782100549412.fm Page 361 Jeudi, 18. novembre 2010 12:17 12
P361-362-9782100549412.fm Page 362 Jeudi, 18. novembre 2010 12:17 12
LEXIQUE ANGLAIS/FRANAIS
363
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
L
exique anglais/franais
A
Arithmetic mean
Moyenne
arithmtique
B
Bernoulli trial
preuve de Bernoulli
Binomial distribution
Loi binomiale
Box plot
Bote de distribution, bote
moustache, bote pattes
Box-and-whisker plot
Bote de
distribution, bote moustaches,
bote pattes
C
Categorical variable
Variable
qualitative, variable nominale
Centered random variable
Variable
alatoire centre
Central limit theorem
Thorme
central-limite
Coefficient of kurtosis
Coefficient
daplatissement
Coefficient of skewness
Coefficient
dasymtrie
Coefficient of variation
Coefficient
de variation
Composite index number
Indice
synthtique
Conditional frequency
Frquence
conditionnelle
Correlation coefficient
Coefficient de
corrlation
Concentration index
Indice de
concentration
Conditional distribution
Distribution
conditionnelle
Conditional probability
Probabilit
conditionnelle
Contingency table
Tableau de
contingence
Continuous random variable
Variable alatoire continue
Convergence in distribution
Convergence en loi
Convergence in second-order mean
Convergence en moyenne
quadratique
Convergence in probability
Convergence en probabilit
Correlation ratio
Rapport de
corrlation
Covariance
Covariance
Cumulative function
Fonction
cumulative
Cumulative frequency
Effectif
cumul
Cumulative frequency curve
Courbe
cumulative
Cumulative distribution function
Fonction de rpartition
D
Decile
Dcile
Degree of freedom
Degr de libert
Depth
Profondeur
Discrete random variable
Variable
alatoire discrte
Dummy variable
Variable indicatrice
P363-374-9782100549412.fm Page 363 Vendredi, 26. novembre 2010 2:56 14
364
INTRODUCTION LA MTHODE STATISTIQUE
E
Equally probable
quiprobabilit
Equiprobability
quiprobabilit
Exhaustive sampling
Tirage exhaustif
Expected value
Esprance
mathmatique
Exponential smoothing
Lissage
exponentiel
F
Forecasting
Prvision
Frequency
Effectif
Frequency distribution
Distribution
observe
Frequency table
Tableau de
frquence
G
Gaussian distribution
Loi de Gauss
Geometric distribution
Loi
gomtrique
Geometric mean
Moyenne
gomtrique
H
Harmonic mean
Moyenne
harmonique
Histogram
Histogramme
I
Independence
Indpendance
Index number
Indice lmentaire
Individual
Individu
Interquartile range
Intervalle
interquartile
L
Law of large numbers
Loi des grands
nombres
Least-squares regression line
Droite
des moindres carrs
Line chart
Diagramme en btons
M
Marginal distribution
Distribution
marginale
Median
Mdiane
Mean
Moyenne
Mean absolute error of prediction
Erreur absolue moyenne de prvision
Mean deviation
cart absolu moyen
Mean square error of prediction
Erreur quadratique moyenne de
prvision
Measure of location
Indicateur de
position
Measure of shape
Indicateur de
forme
Measure of skewness
Indicateur
dasymtrie
Measure of variability
Indicateur de
dispersion
Modality
Modalit
Mode
Mode
Moving average
Moyenne mobile
Moving median
Mdiane mobile
N
Normal distribution
Loi normale
O
Observation
Observation
Outlier
Valeur loigne, valeur
extrme
P363-374-9782100549412.fm Page 364 Mercredi, 24. novembre 2010 11:19 11
LEXIQUE ANGLAIS/FRANAIS
365
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
P
Pair of random variables
Couple de
variables alatoires
Percentile
Centile
Pie chart
Diagramme circulaire
Population
Population
Probability
Probabilit
Probability density function
Fonction
de densit de probabilit
Probability distribution
Loi de
probabilit
Q
Quantile
Quantile, fractile
Quantile-Quantile plot
Diagramme
Quantile-Quantile
Quartile
Quartile
Quantitative variable
Variable
quantitative
R
Random component
Composante
alatoire
Random experiment
Exprience
alatoire
Random variable
Variable alatoire
Range
tendue
Regression curve
Courbe de
rgression
Relative frequency
Frquence
Response category Modalit
S
Sample chantillon
Sample space Ensemble fondamental
Sampling without replacement Tirage
exhaustif
Scatter plot Graphique de dispersion
Seasonal component Composante
saisonnire
Seasonally adjusted data Donnes
corriges des variations saisonnires
Skewness Asymtrie
Standard deviation cart-type
Standard normal distribution Loi
normale centre rduite
Standardized normal distribution Loi
normale centre rduite
Standardized random variable
Variable alatoire centre-rduite
Statistical unit Unit statistique
Stem and leaf diagram Diagramme
branche et feuille
T
Time series Chronique, srie
chronologique
Trend Tendance long terme
U
Uniform distribution Loi uniforme
V
Variance Variance
P363-374-9782100549412.fm Page 365 Mercredi, 24. novembre 2010 11:19 11
P363-374-9782100549412.fm Page 366 Mercredi, 24. novembre 2010 11:19 11
LEXIQUE FRANAIS/ANGLAIS
367
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Lexique franais/anglais
A
Asymtrie Skewness
B
Bote de distribution Box plot, box-
and-whisker plot
Bote moustaches Box plot, box-
and-whisker plot
Bote pattes Box plot, box-and-
whisker plot
C
Centile Percentile
Chronique Time series
Coefficient daplatissement
Coefficient of kurtosis
Coefficient dasymtrie Coefficient
of skewness
Coefficient de corrlation
Correlation coefficient
Coefficient de variation Coefficient
of variation
Composante saisonnire Seasonal
component
Composante alatoire Random
component
Convergence en loi Convergence in
distribution
Convergence en moyenne quadratique
Convergence in second-order
mean
Convergence en probabilit
Convergence in probability
Couple de variables alatoires Pair of
random variables
Courbe cumulative Cumulative
frequency curve
Courbe de rgression Regression
curve
Covariance Covariance
D
Dcile Decile
Degr de libert Degree of freedom
Diagramme branche et feuille
Stem and leaf diagram
Diagramme circulaire Pie chart
Diagramme en btons Line chart
Diagramme Quantile-Quantile
Quantile-Quantile plot
Distribution conditionnelle
Conditional distribution
Distribution marginale Marginal
distribution
Distribution observe Frequency
distribution
Droite des moindres carrs Least-
squares regression line
E
cart absolu moyen Mean deviation
cart-type Standard deviation
chantillon Sample
Effectif Frequency
Effectif cumul Cumulative
frequency
Ensemble fondamental Sample space
P363-374-9782100549412.fm Page 367 Mercredi, 24. novembre 2010 11:19 11
368
369
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Moyenne harmonique Harmonic
mean
Moyenne mobile Moving average
P
Population Population
Prvision Forecasting
Probabilit Probability
Probabilit conditionnelle
Conditional probability
Profondeur Depth
Q
Quantile Quantile
Quartile Quartile
R
Rapport de corrlation Correlation
ratio
S
Srie chronologique Time series
Srie corrige des variations
saisonnires Seasonally adjusted
series
T
Tableau de contingence Contingency
table
Tableau de frquence Frequency
table
Tendance long terme Trend
Thorme central-limite Central limit
theorem
Tirage exhaustif Exhaustive
sampling, sampling without
replacement
U
Unit statistique Statistical unit
V
Valeur loigne Outlier
Valeur extrme Outlier
Variable alatoire Random variable
Variable alatoire centre Centered
random variable
Variable alatoire centre-rduite
Standardized random variable
Variable alatoire continue
Continuous random variable
Variable alatoire discrte Discrete
random variable
Variable indicatrice Dummy variable
Variable nominale Categorical
variable
Variable quantitative Quantitative
variable
Variable qualitative Categorical
variable
Variance Variance
P363-374-9782100549412.fm Page 369 Mercredi, 24. novembre 2010 11:19 11
P363-374-9782100549412.fm Page 370 Mercredi, 24. novembre 2010 11:19 11
INDEX
371
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Index
A
Algbre de Boole 134
Analyse 270
Approximation 203, 236, 239
Arrangement avec rptition 335
Arrangement sans rptition 336
Asymtrie 27
B
Bayes 139
Binme de Newton 338
Bote moustaches 33
Bote de dispersion 33
Bote de distribution 33, 34
Bote--pattes 33
Box-plot 33
C
Chronique 103
Chronologique 103
Circularit 48
Coefficient daplatissement 28, 164
Coefficient dassociation 91
Coefficient dasymtrie 28, 164
Coefficient de corrlation linaire 74,
162
Coefficient de variation 29
Coefficient multinomial 339
Coefficient saisonnier 113, 114
Combinaison sans rptition 337
Concentration 30
Condition de Yule 13
Convergence 166
en loi 166
en moyenne quadratique 168
en probabilit 167
faible 166
Couple de variables alatoires 151
Courbe cumulative 9
Courbe de concentration 30
Courbe de Lorenz 30
Courbe de rgression 89
Covariance 73, 162
D
Dcile 22
Dflater 56
Degr de libert 255
Densit de probabilit 147
Diagramme branche et feuille 12
Diagramme en camembert 3
Diagramme en btons 5
Diagramme quantile-quantile 233
Dispersion relative 29
Distribution conditionnelle 69
Distribution conjointe 67, 152
Distribution marginale 69
Distribution statistique 7
Droite des moindres carrs 75
E
cart absolu moyen 24
cart-type 24, 160
cart-type conditionnel 70
P363-374-9782100549412.fm Page 371 Mercredi, 24. novembre 2010 11:19 11
372
373
D
u
n
o
d
.
L
a
p
h
o
t
o
c
o
p
i
e
n
o
n
a
u
t
o
r
i
s
e
e
s
t
u
n
d
l
i
t
.
Loi de Student 247
Loi de Weibull 218
Loi du khi-deux 240
Loi exponentielle 214
Loi faible des grands nombres 170
Loi forte des grands nombres 170
Loi gomtrique 193
Loi hypergomtrique 192
Loi logistique 268
Loi log-normale 256
Loi marginale 152
Loi normale centre rduite 219
Loi normale ou loi de Laplace-Gauss
219
Loi uniforme continue 211
Loi uniforme discrte 183
M
Mdiane 19, 165
Mdiane mobile 115
Mesure 91
khi-deux 91
Mesure de probabilit 135
Mthode de lissage exponentiel 120
Modalit 2
Mode 17, 156
Modle 179
Modle continu 180
Modle discret 180
Modle empirique 180
Modle thorique 180
Moment 163
Moment centr 27, 163
Moment factoriel 163
Mouvement saisonnier 104
Moyenne 156
Moyenne arithmtique 14
Moyenne conditionnelle 70
Moyenne empirique 237
Moyenne gomtrique 16
Moyenne harmonique 17
Moyenne mobile 109
P
Paradoxe de Bertrand 141
Paradoxe de St Petersbourg 141
Permutation 336
Perturbation 104
Population 1
Probabilit 135
Probabilit a posteriori 140
Probabilit a priori 140
Probabilit conditionnelle 136, 152
Probit 270
Profil en colonne 71
Profil en ligne 71
Profondeur 10
Q
Quantile 21, 165
Quartile 21
R
Rapport de corrlation 87
Rgle de Laplace 134
Rversibilit 48
S
-algbre 134
Schma binomial 186
Schma de Bernoulli 181
Srie corrige des variations
saisonnires 113, 114
Simulation 343
dune loi binomiale 346
dune loi de Gauss 349
dune loi exponentielle 347
Slutsky-Yule 111
Somme des Carrs Explique 79
Somme des Carrs Interclasse 87
Somme des Carrs Intraclasse 87
Somme des Carrs Rsiduelle 77
P363-374-9782100549412.fm Page 373 Mercredi, 24. novembre 2010 11:19 11
374