Documente Academic
Documente Profesional
Documente Cultură
2B-comdev
Syllabus
Sébastien de Valeriola
2
Table des matières
Contrat didactique 5
Organisation des séances de cours . . . . . . . . . . . . . . . . . . . . . . . 5
Modalités d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1 Introduction 7
1.1 Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Quelques outils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Lettres de l’alphabet grec . . . . . . . . . . . . . . . . . . . . . . . . 16
1.4 Sources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Statistique descriptive 19
2.1 Décrire des données : les tableaux . . . . . . . . . . . . . . . . . . . . 19
2.2 Décrire des données : les graphiques . . . . . . . . . . . . . . . . . . . 22
2.3 Décrire des données : les indicateurs . . . . . . . . . . . . . . . . . . 29
3 Probabilités 41
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2 Quelques rappels de théorie des ensembles . . . . . . . . . . . . . . . 42
3.3 Modèle probabiliste discret . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4 Quelques règles de calcul . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5 Analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.6 Probabilité conditionnelle et indépendance . . . . . . . . . . . . . . . 56
3.7 Probabilité totale et formule de Bayes . . . . . . . . . . . . . . . . . 58
3
Statistiques appliquées (2B-comdev, M. de Valeriola)
6 Théorèmes fondamentaux 93
6.1 L’inégalité de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6.2 L’inégalité de Bienaymé-Tchebychev . . . . . . . . . . . . . . . . . . 94
6.3 La loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . 96
6.4 La stabilité de la loi normale pour l’addition . . . . . . . . . . . . . . 97
6.5 Le théorème central limite . . . . . . . . . . . . . . . . . . . . . . . . 98
4
Contrat didactique
2. un syllabus d’exercices ;
Modalités d’évaluation
La matière d’examen correspond à tout ce qui a été couvert au cours, noté au
tableau ou pas.
L’évaluation prendra la forme d’un examen écrit composé des éléments suivants :
1. un ensemble de questions portant sur des points de théorie, pour ±20% du
total de l’examen ;
2. un ensemble d’exercices similaires à ceux qui ont été faits au cours (c’est-à-dire
des exercices où la méthode à appliquer est la même, mais dans des contextes
et avec des paramètres différents), pour ±60% du total de l’examen ;
3. un ensemble d’exercices légèrement différents de ceux qui ont été faits au cours
(mais bien entendu faisables), pour ±20% du total de l’examen.
5
Statistiques appliquées (2B-comdev, M. de Valeriola)
La durée de l’examen sera indiquée sur les feuilles ; elle ne correspond pas à la
durée de réservation de la salle dans laquelle l’examen se déroule.
Le matériel autorisé le jour de l’examen est le suivant, à l’exclusion de quoi que
ce soit d’autres :
Les couvre-chefs sont interdits le jour de l’examen, y compris les casques anti-
bruit. Il en va de même pour les écouteurs et les bouchons anti-bruit.
6
Chapitre
Introduction
Plutôt que de commencer par une définition aride de notre objet d’étude, intro-
duisons-le par un exemple motivant. Admettons que nous souhaitons étudier la po-
pulation belge sous toutes ses coutures, et que nous tentons de déterminer quel est
l’âge moyen des Belges.
Pour ce faire, il vient intuitivement a l’esprit deux méthodes, a savoir :
• les sondages sont élaborés pour estimer les tendances électives, ou pour prévoir
les résultats des élections ;
• les clients sont échantillonnés pour récolter des informations sur leurs produits
préférés ;
7
Statistiques appliquées (2B-comdev, M. de Valeriola)
• les chercheurs en médecine mènent des expériences pour détermine l’effet des
médicaments et de certains environnements sur l’homme, dans le but de dé-
couvrir comment traiter différentes maladies ;
• les appareils électroniques lancés sur le marché sont échantillonnés pour déter-
miner s’ils peuvent effectivement être envoyés aux clients ou s’il est nécessaire
de conserver le lot ;
• les économistes observent différents indices de santé économique sur une pé-
riode de temps et utilisent cette information pour prédire l’évolution future de
l’économie.
Les statisticiens eux-mêmes ne sont pas tous d’accord sur une définition univer-
selle de la statistique, comme le montrent ces quelques exemples :
Sans prétendre donner une définition qui réconcilie toutes celles-là, contentons-
nous d’en relever les éléments qui y reviennent le plus couramment. On peut ainsi
dire qu’il s’agit d’une discipline des mathématiques dont le principe est l’analyse d’un
ensemble de données réelles, raison pour laquelle on la qualifie parfois de théorie de
l’information..
Elle est composée de deux sous-disciplines. La statistique descriptive désigne l’en-
semble des méthodes qui permettent de représenter les données sous une forme
quelconque et de les résumer à l’aide de valeurs caractéristiques, afin de rendre ces
données immédiatement exploitables.
8
Chapitre 1
Probabilités Statistique
général −→ spécifique général ←− spécifique
population −→ échantillon population ←− échantillon
modèle −→ données modèle ←− données
Des milliards d’euros sont dépensés chaque année par les industries et les gouver-
nements de tous les pays du monde pour collecter des données, que ce soit via des
expériences, des sondages ou d’autres procédures. Ces montants gigantesques sont
dépensés dans l’unique but d’obtenir des informations à propos des phénomènes me-
surables dans tous les domaines (dans les sphères économiques, scientifiques, etc.),
et donc de mieux les comprendre.
Depuis les années 2000, ce fait est encore plus vrai : les ensembles de données
disponibles se multiplient, et avec eux les efforts déployés pour récolter celles-ci. Les
décideurs, depuis les entrepreneurs de PME jusqu’aux membres des gouvernements,
font face à des quantités formidables d’informations, qu’il s’agit de comprendre et
d’utiliser (voir par exemple la figure 1.1).
Les contributions de la statistique sont donc plus que jamais cruciales, et ce à
tous les niveaux de notre société.
9
Statistiques appliquées (2B-comdev, M. de Valeriola)
1.1 Vocabulaire
La grande collection d’objets, d’individus, d’éléments, etc. sur laquelle se porte
notre intérêt est appelée la population. Elle peut être réelle et finie (par exemple
l’ensemble des Belges) ou infinie et virtuelle (par exemple, toutes les pièces d’un
certain type qui seront produites par une usine donnée dans le futur). Ce processus
est illustré à la figure 1.2. Les éléments de celle-ci sont parfois appelés unités de
population.
Le sous-ensemble prélevé dans cette collection, et sur lequel les techniques statis-
tiques sont appliquées, est l’échantillon. L’effectif d’une population ou d’un échan-
tillon est le nombre d’éléments dont elle ou il est composé(e).
Une variable (ou un caractère statistique) est une propriété étudiée sur les in-
dividus d’une population donnée. Une série statistique est un ensemble de valeurs
observées relatives à une variable. Les variables seront notées par des majuscules
(X, Y, Z), les valeurs par des minuscules (x, y, z). Une modalité est une valeur que
peut prendre une variable.
On distingue deux types et quatre sous-types de variables :
10
Chapitre 1
Population d’effectif 16
1 2 3 4 Échantillon de cette
population, d’effectif 4
5 6 7 8 2 7
9 10 11 12 13 14
13 14 15 16
1. une variable qualitative décrit des qualités (les modalités ne peuvent être ad-
ditionnées) :
(a) une variable nominale a pour modalités des catégories ;
(b) une variable ordinale a pour modalités des numéros d’ordre ;
2. une variable quantitative décrit des quantités (les modalités peuvent être ad-
ditionnées) :
(a) une variable discrète a un ensemble de modalités fini ou infini dénom-
brable (on peut en faire une liste) ;
(b) une variable continue a un ensemble de modalités infini indénombrable
(on ne peut pas en faire une liste).
Quelques exemples :
• la couleur des yeux (dont les modalités sont « bleu », « brun », etc.) est une
variable qualitative nominale ;
• le rang obtenu par un sportif dans un tournoi (dont les modalités sont 1er ,
2ème , etc.) est une variable qualitative ordinale ;
• le résultat d’un lancer de dé (dont les modalités sont les nombres entiers de 1
à 6) est une variable quantitative discrète ;
• la température d’un malade (dont les modalités sont les nombres réels dans
l’intervalle [30; 42]) est une variable continue.
11
Statistiques appliquées (2B-comdev, M. de Valeriola)
Une statistique est une quantité calculée à partir des valeurs d’un échantillon. Par
exemple, la consommation moyenne de lait des ménages belges est une statistique
calculée à partir d’un échantillon de ménages belges prélevé au hasard au sein de la
population belge totale.
n+4 ∑j+4
n
1+4 2+4 n−1+4
+ + ... + + = .
11 22 (n − 1)n−1 nn j=1
jj
D’une manière plus générale, on note donc, pour une fonction f quelconque,
∑
n ∑
n ∑
n
f (1) + f (2) + ... + f (n − 1) + f (n) = f (j) = f (k) = f (θ).
j=1 k=1 θ=1
On ne saurait trop insister sur le fait que la somme est une quantité qui ne dépend
pas de la variable muette, raison pour laquelle nous pouvons librement modifier
celle-ci, comme dans la dernière expression. Elle dépend cependant bien de la valeur
maximale que prend la variable muette (n dans l’exemple).
Lorsque la somme porte sur plusieurs variables différentes, on utilise plusieurs
symboles de sommation et plusieurs variables muettes. Par exemple, pour calculer
la population européenne totale, on peut faire la somme de la population de chaque
âge dans chaque pays :
∑
28 ∑
125 ∑
125 ∑
28
pop(pays, âge) = pop(pays, âge),
pays=1 âge=0 âge=0 pays=1
12
Chapitre 1
où nous avons inversé les deux symboles de sommation, puisque sommer les âges
(pour chaque pays) puis sommer les pays est équivalent à sommer les pays (pour
chaque âge) puis sommer les âges.
Ajoutons enfin que le même genre de notation existe aussi pour le produit, qui
fonctionne exactement de la même façon :
∏
n
f (1) · f (2) · ... · f (n − 1) · f (n) = f (j).
j=1
1.2.2 Exponentielle
Lorsqu’un nombre réel est multiplié plusieurs fois par lui-même, on note ce nombre
de fois en exposant, c’est-à-dire en haut à droite de ce nombre. Ainsi, on écrit
25 = 2 · 2 · 2 · 2 · 2.
22 · 23 = (2 · 2) · (2 · 2 · 2) = 2 · 2 · 2 · 2 · 2 = 25
et
an · am = (a ... · a}) · (a
| · {z | · {z
... · a}) = |a · {z
... · a} = an+m ,
n facteurs m facteurs n+m facteurs
(an )m = an·m .
13
Statistiques appliquées (2B-comdev, M. de Valeriola)
1.2.3 Logarithme
Il est utile d’inverser la fonction exponentielle, par exemple, afin de déterminer
l’exposant qu’il est nécessaire d’appliquer à une quantité pour obtenir un résultat
donné :
ax = b ⇔ x = loga (b).
Le nombre x est le logarithme de b en base a s’il est la puissance à laquelle il faut
élever la quantité a pour obtenir b.
Puisque cette fonction est l’inverse de l’exponentielle, elle jouit de propriétés qu’on
peut considérer comme les transposées des caractéristiques de celles-ci :
loga (1) = 0,
loga (a) = 1,
( )
x
loga = loga (x) − loga (y),
y
logc (b)
loga (b) = .
logc (a)
Calculer loga (b) sur une calculatrice se fera donc en divisant ln b par ln a.
14
Chapitre 1
15
Statistiques appliquées (2B-comdev, M. de Valeriola)
xn+1
x (n ̸= 0, −1)
n
nx n−1
+C
n+1
1
− x12 log x + C
x
1
log x x log x − x + C
x
ex ex ex + C
α β γ δ ϵ ζ η θ
A B Γ ∆ E Z H Θ
I K Λ M N Ξ O Π
P Σ T Y Φ X Ψ Ω
1.4 Sources
Les principales sources utilisées pour la rédaction de ce syllabus sont les suivantes :
16
Chapitre 1
17
Statistiques appliquées (2B-comdev, M. de Valeriola)
18
Chapitre
Statistique descriptive
Table 2.1: Population d’objets produits par une usine et prêts pour expédition
19
Statistiques appliquées (2B-comdev, M. de Valeriola)
ni ∑
k
fi = , où N = nj est l’effectif total.
N j=1
3
rouge 3 15
= 0, 2
noir 7 7
15
≈ 0, 46
Dans le cas d’une variable quantitative discrète, on fait le même tableau (voir la
table 2.4).
Dans le cas d’une variable quantitative continue, dresser le même tableau n’aurait
pas beaucoup de sens, puisque beaucoup de modalités se retrouveraient toutes seules
et le tableau n’apporterait pas beaucoup d’information. C’est pour cette raison qu’on
regroupe les valeurs prises par la variable en m intervalles [a1 , a2 ], ]a2 , a3 ], ..., ]am , am+1 ].
Le tableau est ensuite dressé comme précédemment, avec une colonne supplémen-
taire donnant le centre de chaque intervalle (ai + ai+1 )/2 (voir la table 2.5).
On peut mentionner quelques règles qu’il est généralement bon suivre (mais qui
ne sont pas universelles) :
20
Chapitre 2
2 2 2
15
≈ 0, 13 7 7
15
≈ 0, 46
3 1 1
15
≈ 0, 06 8 8
15
≈ 0, 53
4 2 2
15
≈ 0, 13 10 10
15
≈ 0, 66
5 1 1
15
≈ 0, 06 11 11
15
≈ 0, 73
6 2 2
15
≈ 0, 13 13 13
15
≈ 0, 86
7 2 2
15
≈ 0, 13 15 15
15
=1
50 3 3
15
= 0, 20 7 7
15
≈ 0, 46
75 2 2
15
≈ 0, 13 9 9
15
= 0, 6
100 5 5
15
≈ 0, 33 14 14
15
≈ 0, 93
200 1 1
15
≈ 0, 06 15 15
15
=1
• les limites des intervalles ne doivent pas se retrouver dans les données (afin
d’éviter des ambiguïtés sur l’intervalle auquel appartient chaque donnée) ;
• le nombre d’intervalles doit être bien choisi : s’il est trop petit ou trop grand,
le tableau ne donne que peu d’information ; on construit le plus souvent entre
4 et 20 intervalles.
21
Statistiques appliquées (2B-comdev, M. de Valeriola)
0.5
0.375
150
0.25
100
0.125
50
0
22
Chapitre 2
3,6 3,4 3,2 4,0 3,8 4,6 4,4 3,6 3,6 2,8 3,6 4,0
donnés :
1. à la table 2.7 et la figure 2.2 pour la fréquence absolue ;
2. à la table 2.8 et la figure 2.3 pour la fréquence relative ;
3. à la table 2.9 et la figure 2.4 pour la densité.
Table 2.7: Tableau de l’histogramme de fréquence absolue pour les poids de bébés
23
Statistiques appliquées (2B-comdev, M. de Valeriola)
5
4
Fréquence absolue
3
2
1
0
poids [kg]
Figure 2.2: Graphe de l’histogramme de fréquence absolue pour les poids de bébés
2
]3,1 ; 3,5] 3,2 ; 3,4 12
= 16, 66%
5
]3,5 ; 3,9] 3,6 ; 3,8 ; 3,6 ; 3,6 ; 3,6 12
= 41, 66%
2
]3,9 ; 4,3] 4,0 ; 4,0 12
= 16, 66%
2
]4,3 ; 4,7] 4,4 ; 4,6 12
= 16, 66%
Table 2.8: Tableau de l’histogramme de fréquence relative pour les poids de bébés
Les histogrammes sont très couramment utilisés pour décrire des données. Leur
intérêt dépasse ce simple aspect exploratoire, puisqu’on peut en faire une interpré-
tation probabiliste. Puisque la somme des fréquence relatives vaut 1, on peut voir
le graphe comme une table de probabilités (la notion de probabilité sera développée
rigoureusement plus tard, mais nous pouvons nous contenter d’une définition naïve
pour l’instant). Si une donnée est sélectionnée au hasard dans la population, la pro-
babilité qu’elle appartienne à un intervalle donné est égale à la surface du rectangle
24
Chapitre 2
0.4
0.3
Fréquence relative
0.2
0.1
0.0
poids [kg]
Figure 2.3: Graphe de l’histogramme de fréquence relative pour les poids de bébés
16,66%
]3,1 ; 3,5] 3,2 ; 3,4 0,4
= 0, 4166
41,66%
]3,5 ; 3,9] 3,6 ; 3,8 ; 3,6 ; 3,6 ; 3,6 0,4
= 1, 0416
16,66%
]3,9 ; 4,3] 4,0 ; 4,0 0,4
= 0, 4166
16,66%
]4,3 ; 4,7] 4,4 ; 4,6 0,4
= 0, 4166
25
Statistiques appliquées (2B-comdev, M. de Valeriola)
1.0
0.8
0.6
Densité
0.4
0.2
0.0
poids [kg]
0.4
0.2
0
poids [kg]
26
Chapitre 2
0.30
0.25
Fréquence relative
0.20
0.15
0.10
0.05
0.00
2.75
2.85
2.95
3.05
3.15
3.25
3.35
3.45
3.55
3.65
3.75
3.85
3.95
4.05
4.15
4.25
4.35
4.45
4.55
4.65
poids [kg]
à 1. Ceci revient à dire que l’aire qui est située sous (et donc l’intégrale de) la
« courbe » formée des « côtés supérieurs » de ces rectangles est égale à 1. On peut
alors construire un autre type de graphe (figure 2.7) :
• on considère une série de taille infinie ;
• on trace des histogrammes en divisant l’axe des données en des intervalles de
plus en plus petits ;
• les rectangles ont donc des largeurs de plus en plus petites, mais la somme de
leurs aires est toujours égale à 1 ;
• à la limite (quand on considère un nombre infini d’intervalles), on obtient la
fonction de densité.
C’est un outil très important par lequel on caractérise des « familles » de populations
qui se comportent de manière similaire. Remarquons que l’intégrale de (ou l’aire
sous) la fonction de densité est égale à 1.
Notons qu’on peut construire des variations des histogrammes présentés jusqu’ici,
dont le principe est très similaire ; par exemple, on voit parfois des histogrammes
horizontaux, des histogrammes de fréquences cumulées et des polygones de fréquence
(figure 2.8).
D’autres types de graphes sont parfois utilisés, aussi bien dans le secteur privé que
dans la littérature scientifique. Par exemple, le graphe en camembert (en anglais pie
27
Statistiques appliquées (2B-comdev, M. de Valeriola)
●
J ●
8e+04
I
25000
H
G
F
15000
●
4e+04
E ●
D
C
5000
B ●
●
A
0e+00
● ● ● ●
0
0
5000
10000
15000
20000
25000
30000
A B C D E F G H I J A B C D E F G H I J
charts), où les fréquences relatives deviennent des secteurs angulaires, des « parts
de tarte ». On considère cependant généralement qu’ils sont à proscrire :
2. faire tourner un graphe en camembert change parfois la façon dont nous perce-
vons les données, par exemple en donnant l’impression que les secteurs situés
en bas sont plus gros ;
28
Chapitre 2
4. ...
Les choses deviennent pire encore lorsque des « effets » sont ajoutés au graphe (3D,
ombres, etc., voir figure 2.9).
0.30
27 %
B 17%
0.25
C 14% A 17%
0.20
17 % 17 %
14 % 14 %
0.15
G 5%
0.10
7% F 7%
5% D 27%
0.05
E 14%
0.00
A B C D E F G
B 17% B 17%
C 14% A 17% C 14% A 17%
G 5% G 5%
F 7% F 7%
D 27% D 27%
E 14% E 14%
29
Statistiques appliquées (2B-comdev, M. de Valeriola)
série, et d’étudier leurs propriétés. Ces indicateurs possèdent des propriétés proba-
bilistes qui nous permettront d’élaborer des inférences et d’estimer la qualité des
inférences élaborées.
On distingue plusieurs types d’indicateurs, qui répondent à des questions diffé-
rentes :
– mesures de position :
∗ quantiles ;
– mesures de dispersion :
∗ étendue ;
∗ écart interquartile ;
∗ variance ;
∗ écart-type ;
∗ coefficient de variation ;
– mesures de forme :
∗ coefficient de dissymétrie ;
∗ coefficient d’aplatissement.
1∑
n
y= yi .
n i=1
30
Chapitre 2
Puisqu’elle est la somme des valeurs de la série, la moyenne s’exprime dans les
mêmes unités que la série elle-même. La moyenne d’un ensemble de prix libellés
en € sera ainsi par exemple elle-même exprimée en €. On montre aisément que la
moyenne d’échantillon est linéaire : pour tous c, λ ∈ R
y+c=y+c ; λy = λy.
• la moyenne géométrique :
v
u n
u∏
y=t
n
yi
i=1
• la moyenne harmonique :
n
y= ∑
n
1
yi
i=1
∑
n ∑
n
w
y = wi yi avec wi = 1.
i=1 i=1
Elles ne nous intéressent cependant pas directement ici, raison pour laquelle nous
écrirons souvent simplement « moyenne » (en anglais, mean) pour désigner la
moyenne arithmétique.
Exemple(moyenne pondérée). Un cas classique de moyenne pondérée est celui
du calcul des indices des prix, qui modélisent l’évolution dans le temps de la valeur
d’un panier de biens de consommation x1 , x2 , ..., xn .
Considérons par exemple l’indice de Laspeyres, qui est utilisé par l’INSEE (Insti-
tut national de la statistique et des études économiques) pour le calcul de l’inflation
en France.
Soient πt (xi ) et κt (xi ) le prix et la quantité consommée du produit xi durant
l’année t. L’indice de prix de l’année T est alors égal à
∑
n
πT (xi ) π0 (xi )κ0 (xi )
IT = wi où wi = ∑
n .
π0 (xi )
i=1 π0 (xi )κ0 (xi )
i=1
31
Statistiques appliquées (2B-comdev, M. de Valeriola)
Définition 2.2 Le mode d’une série statistique (noté yM ), est la valeur ou les
valeurs de la variable qui correspond(ent) à l’effectif maximum.
densité
y1/2 = y(n+1)/2 .
Par exemple,
y1 y2 y3 y4 y5 y6 y7 y8 y9 y1/2
3 7 11 34 43 43 45 120 123 43
yn/2 + yn/2+1
y1/2 = .
2
Par exemple,
y1 y2 y3 y4 y5 y6 y7 y8 y9 y10 y1/2
7+11
0 0 2 5 7 11 24 25 40 40 2
=9
32
Chapitre 2
densité
Définition 2.4 Pour 0 < p < 1, le p-quantile d’une série statistique ordonnée
y1 ≤ y2 ≤ ... ≤ yn (noté yp ) est la valeur telle que le nombre d’observations de
la série ordonnée qui la précèdent est égal à ⌊n · p⌋, la partie entière de n · p
(c’est-à-dire le plus grand entier inférieur ou égal à n · p).
EI = y0,75 − y0,25 .
et = max yi − min yi
i i
33
Statistiques appliquées (2B-comdev, M. de Valeriola)
1∑
n
em = |yi − y| .
n i=1
Cet indicateur est néanmoins beaucoup moins utilisé que celui qui suit, la va-
riance, même s’ils se ressemblent fort au premier abord.
La mesure de dispersion la plus connue est la variance (en anglais, variance),
qui dépend directement des déviations (des distances) des données de la série par
rapport à leur moyenne.
1∑
n
2
s = (yi − y)2 .
n i=1
34
Chapitre 2
Lorsque la distribution d’un ensemble de données est connue, des calculs proba-
bilistes peuvent être effectués sur ces données. Les probabilités ont été présentées
comme des aires sous les histogrammes de fréquence. De la même manière, les pro-
babilités mentionnées dans la règle empirique correspondent aux aires sous la courbe
normale (figure 2.12).
Exemple. Illustrons l’utilisation de cette règle empirique par un exemple.
Supposons que les résultats des étudiants à un examen possèdent une distribution
normale de moyenne m = 13 et d’écart-type s = 2. Nous pouvons donc déduire de
la règle empirique qu’approximativement 68% des étudiants obtiennent un résultat
entre 11 et 15, 95% entre 9 et 17 et presque tous entre 7 et 19. La connaissance de
la moyenne et de l’écart-type donne donc une assez bonne idée de la distribution
des résultats.
Supposons qu’un étudiant est tiré au hasard parmi ceux qui ont passé l’examen.
Quelle est la probabilité que son résultat soit situé entre 11 et 15 ? Par la règle
empirique, on peut dire que 0,68 est une réponse approchée mais satisfaisante à
cette question. ♢
35
Statistiques appliquées (2B-comdev, M. de Valeriola)
Densité
Densité
68 % 95 % ~ 100 %
8
6
6
4
4
2
2
0
1 2 3 4 5 1 2 3 4 5
variance, mais sont fort différentes ! Intuitivement, l’une est symétrique, l’autre est
dissymétrique.
36
Chapitre 2
penche » :
• si γ1 > 0, la distribution est dissymétrique à gauche ;
• si γ1 = 0, la distribution est symétrique ;
• si γ1 < 0, la distribution est dissymétrique à gauche.
Notons que la division par s3 fait en sorte que cet indicateur est sans unités.
Même si les moyennes, variances et coefficients de dissymétrie de deux distribu-
tions sont égaux, ces distributions peuvent être différentes (figure 2.14).
15
15
10
10
5
5
0
1 2 3 4 5 1 2 3 4 5
37
Statistiques appliquées (2B-comdev, M. de Valeriola)
1∑
n
βr = (yi − y)r .
n i=1
7 10 16 22 33 34 43 50 52 57
58 58 63 71 75 82 82 84 95 97
38
Chapitre 2
X 1 1 3 5 5 8 8 10 13 13 15 16 16 17 20
Y 7 8 9 9 10 10 10 10 11 11 11 12
Z 5 7 8 11 12 12 13 14 14 14 14 15 15 15
X Y Z
De la même façon, la taille des moustaches permet de faire le même genre de déduc-
tions :
39
Statistiques appliquées (2B-comdev, M. de Valeriola)
40
Chapitre
Probabilités
3.1 Introduction
Dans la vie de tous les jours, le terme « probabilité » désigne une mesure de la
confiance qu’on a en la réalisation d’un événement futur. Si nous pouvons accepter
cette définition très intuitive comme une interprétation valable et pratique de cette
notion, elle est insuffisante pour comprendre pleinement le concept correspondant,
les calculs qui la font intervenir et la façon dont elle permet d’élaborer des inférences.
Le concept de probabilité est nécessaire pour manipuler des phénomènes phy-
siques, biologiques ou sociaux qui génèrent des observations qui ne peuvent être
prédites avec certitude. Par exemple, la pression artérielle d’une personne à un mo-
ment donné ne peut pas être prédite avec certitude, et nous ne connaissons jamais
la charge exacte qu’un pont pourra supporter avant de s’effondrer dans une rivière.
De tels événements ne peuvent être prédits avec certitude, mais la fréquence relative
avec laquelle ils se produisent dans une longue série d’essais est souvent remarqua-
blement stable. Les événements possédant cette propriété sont appelés aléatoires, ou
stochastiques.
Le rôle que joue la probabilité dans la réalisation des inférences sera discuté en
détail lorsque nous aurons donné une base adéquate à la théorie des probabilités.
Considérons un joueur qui souhaite déterminer si un dé à six faces est équilibré ou
pas. La population conceptuelle d’intérêt correspond ici à l’ensemble des résultats
qui seraient générés si le dé était lancé encore et encore, à l’infini. Si le dé était
parfaitement équilibré, un sixième des unités de population seraient des 1, un sixième
des 2, un sixième des 3, etc., c’est-à-dire la distribution suivante (figure 3.1).
En suivant la méthode scientifique, le joueur propose l’hypothèse selon laquelle
le dé est équilibré, et il cherche à produire des observations réelles pour contredire
la théorie, si elle est fausse. Un échantillon de dix lancers est généré en lançant
le dé dix fois ; les dix lancers donnent tous des 1. Le joueur considère cette série
d’événements et conclut que son hypothèse n’est pas conforme au monde réel et donc
que le dé n’est pas équilibré. Le raisonnement employé par le joueur suggère que la
probabilité joue un rôle dans l’élaboration d’inférences : il a rejeté son hypothèse (et
41
Statistiques appliquées (2B-comdev, M. de Valeriola)
Fréquence relative
1/6
0
1 2 3 4 5 6
a conclu que le dé était déséquilibré), non pas parce qu’il est impossible d’obtenir
dix 1 en dix lancers d’un dé équilibré, mais parce que ce résultat est très improbable.
Son évaluation de la probabilité était probablement subjective, c’est-à-dire que le
joueur n’a sans doute pas calculé la probabilité d’obtenir dix fois 1 en dix lancers,
mais il avait un sentiment intuitif que cet événement était très peu probable si le dé
était équilibré. Il convient de noter que sa décision était basée sur la probabilité de
l’échantillon observé.
La nécessité de disposer d’une théorie des probabilités qui fournisse une méthode
rigoureuse pour trouver un nombre (une probabilité) qui est en accord avec la fré-
quence relative réelle d’occurrence d’un événement dans une longue série d’essais est
évident si l’on imagine un résultat différent pour l’échantillon produit par le joueur.
Supposons, par exemple, qu’au lieu de dix 1, il ait observé cinq 1, deux 2, un
3, un 4 et un 6. Est-ce un résultat « suffisamment improbable » pour rejeter notre
hypothèse selon laquelle le dé est équilibré et conclure qu’il est déséquilibré (en faveur
du 1) ? Certains résultats expérimentaux sont incompatibles avec une hypothèse
donnée et conduisent à son rejet sans ambiguïté.
Cependant, de nombreux résultats expérimentaux tombent dans une « zone
grise » où une évaluation rigoureuse de la probabilité qu’ils se réalisent doit être
effectuée. C’est pour cette raison que doit être développée une théorie rigoureuse
des probabilités qui permet de calculer la probabilité d’observer des résultats don-
nés.
42
Chapitre 3
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)
Ensuite les règles de De Morgan :
A∩B =A∪B
A∪B =A∩B
43
Statistiques appliquées (2B-comdev, M. de Valeriola)
Définition 3.1 Une expérience est le procédé au cours duquel une observation
est effectuée.
Parmi les exemples d’expériences, citons les lancers de pièces et de dés, les me-
sures de score de QI d’un individu, ou la détermination du nombre de bactéries par
centimètre cube dans une portion d’aliment.
Lorsqu’une expérience est effectuée, elle produit un ou plusieurs résultats, qui
sont appelés événements (notés par des lettres majuscules).
Voici des exemples d’événements associés à l’expérience consistant à lancer un
dé à six faces : A : obtenir un résultat impair ;̃ B : obtenir un résultat < 5 ;̃ C :
obtenir un 2 ou un 3 ; E1 : obtenir un 1 ; E2 : obtenir un 2 ; E3 : obtenir un 3 ; E4 :
obtenir un 4 ; E5 : obtenir un 5 ; E6 : obtenir un 6.
Il existe une différence entre les événements mentionnés : si on observe l’événement
A (un nombre impair), on observe forcément E1 , E3 ou E5 . Ainsi, l’événement A, qui
peut être décomposé en trois autres événements, est appelé événement composé. En
revanche, les événements E1 , E2 , E3 , E4 , E5 et E6 ne peuvent pas être décomposés
et sont donc appelés des événements simples.
Un événement simple ne peut se produire que d’une manière, alors qu’un événe-
ment composé peut se produire de plusieurs manières distinctes. Certains concepts
de la théorie des ensembles sont utiles pour exprimer les relations entre les événe-
ments associés à une expérience. Parce que les ensembles sont des collections de
points, nous pouvons associer un point distinct, appelé un point d’échantillonnage,
à chaque événement simple associé à une expérience.
Définition 3.2 Un événement simple est un événement qui ne peut être décom-
posé. Chaque événement simple correspond à un seul et même point d’échan-
tillonnage. La lettre E avec un indice sera utilisée pour désigner un événement
simple ou le point d’échantillonnage correspondant.
Il est facile de voir que l’espace d’échantillonnage associé au lancer d’un dé est
composé de six éléments, qui correspondent au six résultats possible de ce lancer :
S = {E1 , E2 , E3 , E4 , E5 , E6 }.
44
Chapitre 3
45
Statistiques appliquées (2B-comdev, M. de Valeriola)
Dans ces conditions, il était naturel de considérer le rapport entre le nombre de cas
favorables au joueur et le nombre de cas possibles comme une mesure des chances
de gain du joueur :
nombre de cas favorables
P (A) = .
nombre de cas possibles
Cette définition est néanmoins insatisfaisante :
1. elle n’est utilisable que si l’espace d’échantillonnage est fini : si celui-ci est
infini, il est impossible de calculer le nombre de cas possibles (et parfois le
nombre de cas favorables) ;
2. elle ne convient que pour des cas où les événements simples sont équiprobables :
on ne peut dès lors pas calculer de probabilité dès qu’un événement simple a
plus ou moins de chances de se réaliser que les autres événements simples, une
situation qui se rencontre assez souvent (penser à un dé pipé, à la disparité
hommes/femmes, etc.).
0.25
1/6
0
Nombre de lancers N
Cette définition est une définition empirique : elle est utile pour comprendre la
notion et s’en forger une intuition, mais elle ne mène pas à grand chose mathéma-
tiquement. Pour obtenir une définition mathématiquement rigoureuse, nous allons
prendre le problème à l’envers :
47
Statistiques appliquées (2B-comdev, M. de Valeriola)
3. fixer (arbitrairement) une valeur à la probabilité qui soit en accord avec l’in-
tuition de fréquence relative.
En analysant la notion de fréquence relative, nous constatons que trois conditions
doivent être respectées :
1. la fréquence relative d’occurrence d’un événement doit être supérieure ou égale
à zéro. Une fréquence relative négative n’a pas de sens ;
2. la fréquence relative de l’ensemble de l’espace d’échantillonnage S doit être
égale à 1. Comme tout résultat possible de l’expérience est un point de S, il
s’ensuit que S doit se produire chaque fois que l’expérience est effectuée ;
3. si deux événements sont mutuellement exclusifs, la fréquence relative de leur
union est la somme de leurs fréquences relatives respectives.
Ces conditions se formalisent de la manière suivante :
1. P (A) ≥ 0.
2. P (S) = 1.
∑
∞
P (A1 ∪ A2 ∪ A3 ∪ . . . ) = P (Ai ).
i=1
Comme annoncé, cette définition n’explique pas comment fixer la probabilité d’un
événement particulier. Cela signifie que toutes les manières de fixer cette probabilité
sont conformes à cette définition mathématique ; cependant, celles qui ne reflètent
pas la notion de fréquence relative sont inutiles, puisqu’elles mènent à des résultats
qui n’ont rien à voir avec le monde réel.
Pour les espaces d’échantillonnage discrets, il suffit d’assigner des probabilités à
chaque événement simple.
Si un dé équilibré est utilisé pour l’exemple du lancer de dé, il semble raisonnable
de supposer que tous les événements simples auront la même fréquence relative à long
48
Chapitre 3
terme. Nous attribuerons donc une probabilité de 1/6 à chaque événement simple :
P (Ei ) = 1/6, pour i = 1, 2, . . . , 6. Cette attribution de probabilités est conforme à
la condition 1.
Pour voir que la condition 2 est satisfaite, calculons, à l’aide de la condition 3,
La condition 3 nous dit aussi qu’on peut calculer la probabilité d’un événement en
additionnant les probabilités des événements simples dont il est composé (rappelons
que des événements simples distincts sont toujours mutuellement exclusif). L’événe-
ment A (observer un nombre impair) est donc associé à la probabilité suivante :
1 1 1 1
P (A) = P (E1 ∪ E3 ∪ E5 ) = P (E1 ) + P (E3 ) + P (E5 ) = + + = .
6 6 6 2
Un grand nombre d’événements d’intérêt majeur dans le monde réel (que ce soit
pour le généticien, pour l’ingénieur ou pour l’homme d’affaires) s’expriment comme
des nombres, ce sont des événements numériques.
Ils incluent par exemple le nombre de patients présentant une mutation donnée
et développant une maladie particulière, le poids total qu’un pont peut supporter
avant de s’écrouler et la valeur du taux de change euro - dollar à un instant donné.
C’est la valeur que prend cette variable (disons Y ) qui nous intéresse, valeur
qui dépend du résultat d’une expérience aléatoire ; on formalise mathématiquement
cette notion comme suit.
Définition 3.8 Une variable aléatoire est une fonction Y : S → R qu’on peut
mesurer grâce aux éléments de S.
Dans ce cas, on s’intéresse donc à la probabilité que Y prenne une valeur donnée a
: par {Y = a} on désigne l’ensemble des points d’échantillonnage tels que la quantité
Y prend la valeur a. Cet ensemble de points d’échantillonnage peut être de taille
importante ; par exemple, on peut être intéressé par le résultat d’un seul des deux
dés lancés, auquel cas on aura
{Y = 1} = {(1, 1); (1, 2); (1, 3); (1, 4); (1, 5); (1, 6)}.
P (A) = 1 − P (A).
49
Statistiques appliquées (2B-comdev, M. de Valeriola)
A ∪ B = A ∪ (A ∩ B) et B = (A ∩ B) ∪ (A ∩ B).
P (A ∪ B) = P (A) + P (B).
3.5.1 Règle m · n
Le premier résultat combinatoire est direct :
m · n = 6 · 6 = 36.
51
Statistiques appliquées (2B-comdev, M. de Valeriola)
Le premier nombre de ce 20-uple peut donc être choisi librement, soit dans un
ensemble de taille 365 ; le second élément est lui aussi librement choisi, mais sous la
contrainte qu’il est différent du premier, et donc dans un ensemble de taille 364.
En répétant ce raisonnement, on obtient NA = 365 · 364 · ... · 346.
On obtient donc finalement la probabilité suivante :
3.5.2 Permutation
Les points d’échantillonnage associés à une expérience peuvent souvent être repré-
sentés symboliquement comme une suite de nombres ou de symboles. Dans certains
cas, il est clair que le nombre total de points d’échantillonnage est égal au nombre
de manières distinctes selon lesquelles ces symboles peuvent être disposés l’un à la
suite de l’autre.
Classer n objets distincts dans n catégories distinctes revient à faire une permu-
tation.
Pn = n! = n · (n − 1) · (n − 2) · ... · 2 · 1.
Preuve : En appliquant la règle m · n, nous voyons que le premier objet peut être
librement choisi parmi les n objets totaux. Après le premier choix, le second peut
être choisi parmi les (n − 1) restant, le troisième parmi les (n − 2), et le nème doit
être placé dans la dernière place. Par conséquent, le nombre total de permutations
distinctes est égal à n!.
P4 = 4! = 4 · 3 · 2 · 1 = 24.
52
Chapitre 3
3.5.3 Arrangement
Exemple. Les noms de 3 employés sont tirés au hasard d’un bol contenant les noms
des 30 employés d’une petite entreprise (on ne remet pas les noms déjà tirés dans le
bol).
La personne dont le nom est tiré en premier reçoit 100 €, et les personnes dont
les noms sont tirés en deuxième et en troisième reçoivent respectivement 50 € et
25 €. Combien de points d’échantillonnage sont associés à cette expérience ?
Puisque que les prix attribués sont différents, le nombre de points d’échantillon-
nage est le nombre d’arrangements ordonnés de r = 3 noms parmi le total de n = 30
noms possibles.
53
Statistiques appliquées (2B-comdev, M. de Valeriola)
3.5.4 Partition
Définition 3.11 Une partition de n objets distincts en k groupes est une façon
de diviser ces n objets en k groupes contenant chacun respectivement n1 , n2 , ..., nk
∑k
objets (avec ni = n).
i=1
Classer n objets distincts dans k catégories distinctes de telle sorte que chacune
reçoit nk de ces objets revient à faire une partition.
54
Chapitre 3
Une fois les quatre jeunes placés dans le chantier 1, il reste 16 ouvriers à répartir
dans des groupes de taille 2, 4, 5 et 5. On obtient donc
16!
NA =
2!4!5!5!
On obtient donc finalement la probabilité :
16!
NA 2!4!5!5! 16!6!
P (A) = = 20!
= = 0, 0031.
N 6!4!5!5!
20!2!
Il est donc très peu probable que la répartition ait réellement été faite de manière
aléatoire. ♢
3.5.5 Combinaison
P (A ∩ B)
P (A | B) = ,
P (B)
Exemple. Calculons par exemple la probabilité que le résultat du lancer d’un dé soit
1, sachant que ce résultat est impair ; intuitivement, puisqu’il existe trois nombres
impairs entre 1 et 6, on « ressent » que cette probabilité est égale à 1/3. En utilisant
la formule de la définition, on a
1
P (1 et impair) P (1) 1
P (1 | impair) = = = 6
3 = .
P (impair) P (1, 3, ou 5) 6
3
♢
Vérifions la cohérence de cette définition avec la notion de fréquence relative.
Supposons qu’une expérience est répétée un grand nombre N des fois, de telle sorte
que les événements A et B se produisent selon le tableau suivant :
56
Chapitre 3
B B total
A n11 n10 n11 + n10
A n01 n00 n01 + n00
total n11 + n01 n10 + n00 N
n11 n11
P (A | B) ≈ ; P (B | A) ≈
n11 + n01 n11 + n10
d’où on obtient
P (A ∩ B) P (A ∩ B)
P (A | B) ≈ ; P (B | A) ≈ .
P (B) P (A)
Il possible que la réalisation d’un événement A ne soit pas affectée par la réalisa-
tion ou la non-réalisation d’un événement B. Dans ce cas, il semble naturel de dire
que A et B sont indépendants.
P (A | B) = P (A)
P (B | A) = P (B)
P (A ∩ B) = P (A)P (B).
1. S = B1 ∪ B2 ... ∪ Bk ;
2. Bi ∩ Bj = ∅ pour i ̸= j.
L’un des intérêts de l’existence d’une partition de S réside dans le fait que les
sous-ensembles de S peuvent être décomposés selon cette partition :
A = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ ... ∪ (A ∩ Bk ).
Théorème 3.8 Soit {B1 , B2 , ..., Bk } une partition de S telle que P (Bi ) > 0
pour i = 1, ..., k. Alors, pour tout événement A, on a
∑
k
P (A) = P (A | Bi )P (Bi ).
i=1
58
Chapitre 3
Exemple. Un cours est donné à des étudiants inscrits dans deux filières différentes :
la A (40% des étudiants) et la B (60%). La probabilité de réussite à l’examen dépend
de la filière des étudiants : 80% de ceux qui sont inscrits en A et 75% de ceux qui
sont inscrits en B réussissent.
Calculons la probabilité qu’un étudiant choisi au hasard réussisse l’examen. Pour
cela, utilisons la formule de probabilité totale en utilisant la partition de la classe
en filières :
♢
Il est parfois nécessaire de « renverser » une probabilité conditionnelle, c’est-à-
dire de calculer P (A | B) alors que c’est P (B | A) qui est disponible. C’est en un
sens l’objet de la formule de Bayes.
Théorème 3.9 Soit {B1 , B2 , ..., Bk } une partition de S telle que P (Bi ) > 0
pour i = 1, ..., k. Alors, pour tout événement A, on a
P (A | Bj )P (Bj )
P (Bj | A) = .
∑
k
P (A | Bi )P (Bi )
i=1
P (Bj ∩ A) P (A | Bj )P (Bj )
P (Bj | A) = = k .
P (A) ∑
P (A | Bi )P (Bi )
i=1
59
Statistiques appliquées (2B-comdev, M. de Valeriola)
formule de Bayes :
0, 99 · 0, 005
=
0, 99 · 0, 005 + 0, 01 · 0, 995
= 0, 3322
60
Chapitre
Variables aléatoires
discrètes
Théorème 4.1 Soit Y une variable aléatoire discrète. Alors sa fonction de pro-
babilité satisfait
61
Statistiques appliquées (2B-comdev, M. de Valeriola)
0.6
●
0.4
0.2
● ●
0.0
● ● ● ● ● ●
−3 −2 −1 0 1 2 3 4 5
62
Chapitre 4
1∑
n
1.000.000 · 0 + 2.000.000 · 1 + 1.000.000 · 2
µ≈m= yi =
n i=1 4.000.000
1 1 1 ∑ 3
= ·0+ ·1+ ·2= y p(y).
4 2 4 y=0
♢
Bien souvent, nous ne voulons pas calculer l’espérance de Y , mais d’une fonction
de Y . Par exemple, un biologiste mesure la distance par rapport au nid à laquelle
il retrouve un aigle en train de chasser, mais ce qui l’intéresse vraiment, c’est l’aire
63
Statistiques appliquées (2B-comdev, M. de Valeriola)
totale du disque dans lequel cet aigle chasse : il observe une distance Y , mais veut
étudier πY 2 .
Bien évidemment, la fonction d’une variable aléatoire est aussi une variable aléa-
toire ; on peut donc lui appliquer tout ce qui a été défini pour les variables aléatoires.
On a notamment le résultat suivant.
Nous pouvons dès lors utiliser ce théorème pour définir la variance d’une variable
aléatoire.
population.
On désignera sous le nom de variable réduite une variable aléatoire dont la variance
est égale à 1.
Exemple. Calculons l’espérance, la variance et l’écart-type de la population dont
la distribution est donnée par le tableau suivant :
y 0 1 2 3
1 1 3 1
p(y) 8 4 8 4
∑
3
1 1 3 1
E [Y ] = µ = y p(y) = 0 · + 1 · + 2 · + 3 · = 1, 75
y=0
8 4 8 4
∑ 1 1
V [Y ] = σ 2 = (y − µ)2 p(y) = (0 − 1, 75)2 · + (1 − 1, 75)2 ·
y
8 4
3 1
+ (2 − 1, 75)2 · + (3 − 1, 75)2 · = 0, 9375
√ √ 8 4
V [Y ] = σ = 0, 9375 = 0, 97
♢
64
Chapitre 4
1. E [c] = c
2. E [cY ] = cE [Y ]
3. E [Y + c] = E [Y ] + c
Preuve :
∑ ∑ ∑
1. c = c p(y) = c p(y) = c puisque p(y) = 1
y y y
∑ ∑
2. E [cY ] = cy P (cY = cy) = c y P (Y = y) = cE [Y ]
y y
∑ ∑
3. E [Y + c] = (y + c) P (Y + c = y + c) = y P (Y = y) + c = E [Y ] + c
y y
1. V [cY ] = c2 V [Y ]
2. V [Y + c] = V [Y ]
3. V [Y ] = E [Y 2 ] − E [Y ]2
Preuve :
[ ] [ ] [ ]
1. V [cY ] = E (cY − E [cY ])2 = E (cY − cE [Y ])2 = E c2 (Y − E [Y ])2 =
c2 V [Y ]
[ ] [ ]
2. V [Y + c] = E (Y + c − E [Y + c])2 = E (Y + c − E [Y ] − c)2 = V [Y ]
∑ ∑ ∑ ∑
3. V [Y ] = (y − µ)2 p(y) = y 2 p(y) + µ2 p(y) − 2µ y p(y)
y y y y
= E [Y ] + µ − 2µµ = E [Y ] − µ
2 2 2 2
65
Statistiques appliquées (2B-comdev, M. de Valeriola)
L’espérance est ce qu’on peut attendre « en moyenne » d’une variable aléatoire :
lorsqu’on répète une expérience un très grand nombre de fois et qu’on calcule la
moyenne des résultats obtenus, cette moyenne est proche de l’espérance.
Exemple. Calculons par exemple l’espérance du résultat d’un lancer de dé à six
faces :
1 1 1 1 1 1 21
E [dé] = 1 · +2· +3· +4· +5· +6· = = 3, 5.
6 6 6 6 6 6 6
L’espérance des gains d’un jeu étant ce qu’on peut espérer de ce jeu, elle correspond
au « juste prix » de ce jeu.
Un joueur vous propose le jeu suivant : vous lui donnez 4 €, et en échange il vous
donne un montant correspondant, en €, au résultat d’un lancer de dé à six faces. Ce
jeu est-il équilibré ?
L’espérance de vos gains en € dans ce jeu est égale à
La prime pure de ce contrat d’assurance incendie est donc égale à 150 €. Notons
qu’à la prime pure l’assureur doit ajouter ses frais de fonctionnement (pour payer
les salaires, les guichets, etc.), ainsi qu’un montant lui permettant de « ne pas faire
faillite trop souvent ». ♢
Puisqu’une somme de variables aléatoires est elle-même une variable aléatoire, on
peut en calculer l’espérance.
E [X + Y ] = E [X] + E [Y ] .
66
Chapitre 4
= E [X] · E [Y ] .
67
Statistiques appliquées (2B-comdev, M. de Valeriola)
Définition 4.5 Une variable aléatoire Y qui peut prendre n valeurs y1 , y2 , ..., yn
possède une distribution uniforme si toutes ces valeurs sont équiprobables :
1
P (Y = yi ) = pour tout i = 1, 2, ..., n.
n
Exemple. Le résulta du lancer d’un dé (équilibré) à six faces est un parfait exemple
de variable aléatoire de distribution uniforme.
On a alors n = 6 et
1
P (Y = 1) = P (Y = 2) = P (Y = 3) = P (Y = 4) = P (Y = 5) = P (Y = 6) = .
6
Remarquons que ce n’est pas le cas de la somme des résultats du lancer de deux dés
à six faces, puisque certaines valeurs ont plus de chances de s’observer que d’autres
(par exemple dans ce cas P (Y = 7) = 1/6 alors que P (Y = 2) = 1/36). ♢
Définition 4.6 Une expérience binomiale est une expérience qui possède les
caractéristiques suivantes :
3. la probabilité de succès pour un seul essai est égale à une certaine valeur p
et reste le même d’un essai à l’autre. La probabilité d’un échec est égale à
q =1−p ;
68
Chapitre 4
S
| SESEEESE
{z S S E ... E E S E}
n essais, dont y succès et n−y échecs
Puisque ces essais sont indépendants et possèdent tous la même probabilité de succès
et d’échec, la probabilité d’assister au résultat donné ci-dessus est
S S E S S S E E … S E S
↓ ↓ ↓ ↓ ↓ ↓ ↓ ↓ … ↓ ↓ ↓
p p q p p p q q … p q p = py q n−y
Comme cette suite de succès et d’échecs n’est évidemment pas la seule à pouvoir
survenir, il faut(sommer
) sur toutes les possibilités, qui sont toutes équiprobables ; il
n
y en a en tout y . On obtient donc finalement
( )
n
P (Y = y) = py q n−y .
y
69
Statistiques appliquées (2B-comdev, M. de Valeriola)
Comme pour les autres distributions que nous verrons, il est possible d’obtenir
une expression pour les moments des variables aléatoires possédant une distribution
binomiale.
E [Y ] = np et V [Y ] = np(1 − p) = npq.
n = 10 ; p = 0,1 n = 10 ; p = 0,5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0.0
0.0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
n = 20 ; p = 0,5 n = 50 ; p = 0,8
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0.0
0.0
0 2 4 6 8 10 12 14 16 18 20 23 27 31 35 39 43 47
70
Chapitre 4
On a par exemple :
( ) ( ) ( )
2 2 2 2 2 2
(a + b) = a + ab + b = a2 + 2ab + b2
0 1 2
( ) ( ) ( ) ( )
3 3 3 3 2 3 2 3 3
(a + b) = a + a b+ ab + b = a3 + 3a2 b + 3ab2 + b3
0 1 2 3
( ) ( ) ( ) ( ) ( )
4 4 4 4 3 4 2 2 4 3 4 4
(a + b) = a + a b+ ab + ab + b
0 1 2 3 4
= a4 + 4a3 b + 6a2 b2 + 4ab3 + b4
Les termes de cette sommes ressemblent fort aux valeurs de la fonction de probabilité
de la distribution binomiale. En fait on peut écrire
∑n ( )
n n−y i ∑
n
n
1 = (q + p) = q p = P (Y = y).
y=0
y y=0
La planche de Galton (figure 4.2) est une expérience-exemple illustrant cette idée.
71
Statistiques appliquées (2B-comdev, M. de Valeriola)
Soit Y le nombre de personnes qui guérissent, une variable aléatoire qui possède
une distribution binomiale (n = 10, p = 0, 3). On calcule donc
P (Y ≥ 9) = P (Y = 9) + P (Y = 10)
( ) ( )
10 10
= 0, 3 · 0, 7 +
9
0, 310
9 10
= 0, 000138 + 0, 000006 = 0, 000144
Le résultat suggère donc que soit le médicament est inefficace et qu’on a observé un
événement très rare, soit le médicament est vraiment efficace. ♢
L’espérance des gains de ce jeu vaut donc, si on paie pour y jour un prix noté J,
Pour cette raison, on utilise des tables qui donnent les valeurs de P (Y ≤ y) en
fonction de y, de n et de p (figure 4.3).
73
Statistiques appliquées (2B-comdev, M. de Valeriola)
P (Y = y) = q y−1 p.
p = 0,5
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0 1 2 3 4 5 6 7 8 9 11 13 15 17 19 21
74
Chapitre 4
P (survie 2 heures) = P (Y ≥ 3)
= 1 − P (Y ≤ 2)
= 1 − P (Y = 1) − P (Y = 2)
= 1 − p − pq
= 1 − 0, 02 − 0, 02 · 0, 98
= 0, 964
P (Y = 5) = (1 − p)4 p.
L’exercice est ici inverse : nous avons observé que c’est le cinquième essai qui donne
le premier succès et nous voulons déterminer la valeur de p qui rend cette observation
la plus vraisemblable.
Puisqu’on connaît la probabilité que le cinquième essai donne le premier succès,
il faut maximiser cette fonction de p. Pour cela, cherchons à annuler sa dérivée :
d ( )
(1 − p)4 p = 0 ⇐⇒ −4 (1 − p)3 p + (1 − p)4 = 0
dp
⇐⇒ −4 p + (1 − p) = 0
1
⇐⇒ p=
5
Ce point correspond bien à un maximum, et nous avons donc calculé la valeur la
plus vraisemblable pour p. Dans ce cas, obtenir cette valeur est bien plus utile que
dans l’exercice illustrant le distribution binomiale, parce que p = 1/5 ne s’obtient
pas si facilement à partir des données du problème. ♢
75
Statistiques appliquées (2B-comdev, M. de Valeriola)
E [gains jeu 1] = n · p = 4 · 0, 5 = 2
1 1
E [gains jeu 2] = = = 2.
p 0, 5
Les deux jeux sont donc équivalents en termes d’espérance. Sont-ils pour autant
équivalents ?
Calculons leur variance, afin de voir si l’un est « moins risqué » que l’autre (une
variance plus importante signifie que les gains dévieront plus souvent de la moyenne,
et donc que le jeu est plus risqué) :
V [gains jeu 1] = n · p · (1 − p) = 4 · 0, 5 · 0, 5 = 1
1−p 1 − 0, 5
V [gains jeu 2] = = = 1.
p 0, 5
Les deux jeux sont donc similaires pour les deux indicateurs que nous avons calculés !
♢
76
Chapitre 4
λy −λ
P (Y = y) = e ,
y!
où e ≈ 2, 71828 est le nombre d’Euler.
E [Y ] = λ et V [Y ] = λ.
0.6
0.4
0.4
0.2
0.2
0.0
0.0
0 1 2 3 4 5 6 7 8 0 1 2 3 4 5 6 7 8 9 10 12
0.6
0.4
0.4
0.2
0.2
0.0
0.0
0 1 2 3 4 5 6 7 8 9 10 12 0 1 2 3 4 5 6 7 8 9 10 12
77
Statistiques appliquées (2B-comdev, M. de Valeriola)
toire de Poisson. En moyenne le quartier est parcouru par des agents deux fois par
heure.
Calculons la probabilité que le quartier ne soit pas du tout visité en une heure,
puis qu’il soit visité trois fois en une heure.
Le paramètre λ = 2 puisque c’est la moyenne de Y . On calcule :
20 −2
P (Y = 0) = e = 0, 1353.
0!
23
P (Y = 3) = e−2 = 0, 1804.
3!
De la même façon que pour la distribution binomiale, des tables sont données pour
calculer les valeurs de la fonction P (Y ≤ y). ♢
78
Chapitre
Variables aléatoires
continues
79
Statistiques appliquées (2B-comdev, M. de Valeriola)
variable discrète (6 valeurs différentes) variable discrète (12 valeurs différentes) variable discrète (30 valeurs différentes)
variable discrète (60 valeurs différentes) variable discrète (120 valeurs différentes) variable continue
Cette fonction existe évidemment aussi bien pour les variables aléatoires discrètes
que pour les variables aléatoires continues. Mieux que cela, d’après la « forme » de
sa fonction de répartition, on peut déterminer si une variable aléatoire est discrète
ou continue.
80
Chapitre 5
−1 0 1 2 3 4
81
Statistiques appliquées (2B-comdev, M. de Valeriola)
Théorème 5.2 Une variable aléatoire dont la fonction de répartition est une
fonction continue est elle-même continue.
82
Chapitre 5
5.4) : ∫ y
F (y) = f (x)dx.
−∞
densité f
F(y)
La fonction de densité n’a donc pas une valeur de probabilité : c’est l’aire sous
cette fonction qui correspond à une probabilité. Pour calculer la probabilité d’un
événement {Y ∈]x, y]}, il suffit de calculer des « écarts » de la fonction de répartition
(voir figure 5.5) :
P (Y ∈]x, y]) = P (x < Y ≤ y)
= F (y) − F (x)
∫ y
= f (x)dx
x
83
Statistiques appliquées (2B-comdev, M. de Valeriola)
densité f
F(y) − F(x)
F(x)
x y
Définition 5.3 Soient Y une variable aléatoire continue et 0 < p < 1. Le pème
quantile (ou quantile p) de Y est la plus petite valeur Qp telle que
F (Qp ) = P (Y ≤ Qp ) = p.
∫∞
E [Y ] (continu) = −∞
y f (y)dy
84
Chapitre 5
p ●
Qp
Figure 5.6: Visualisation du quantile sur le graphe de la fonction de répartition
Définition 5.4 Pour une variable aléatoire régulière et continue Y et une fonc-
tion réelle g, on définit
∫ ∞
E [Y ] = y f (y) dy
−∞
∫ ∞
E [g(Y )] = g(y) f (y) dy
−∞
∫ ∞
V [Y ] = (y − E [Y ])2 f (y) dy
−∞
La majorité des résultats concernant les moments et obtenus en discret sont aussi
vrais en continu.
85
Statistiques appliquées (2B-comdev, M. de Valeriola)
a+b (b − a)2
E [Y ] = et V [Y ] = .
2 12
1/(b−a)
Densité
0
a b
Exemple. Les arrivées des clients à un guichet suivent une distribution uniforme.
86
Chapitre 5
On sait que, pendant une période de 30 minutes donnée, un client est arrivé au
guichet.
Calculons la probabilité que le client soit arrivé durant les 5 dernières minutes de
la demi-heure en question.
L’heure d’arrivée est donc une variable aléatoire Y ∼ U(0, 30) (si on exprime le
passage du temps en minutes), de telle sorte que la fonction de densité est
{
1
30
si 0 ≤ y ≤ 30
f (y) =
0 sinon
On a donc
∫ 30 ∫ 30
1 5 1
P (25 ≤ Y ≤ 30) = f (y)dy = dy = = .
25 25 30 30 6
La distribution uniforme est très intuitive, et le résultat obtenu peut se déduire direc-
tement de l’énoncé, puisque les 5 dernières minutes de la demi-heure correspondent
à 1/6 de cette période. ♢
La distribution exponentielle est très utilisée pour modéliser des temps d’attente
ou des durées de vie : on peut montrer que l’intervalle de temps qui sépare l’appari-
tion aléatoire de deux « accidents » modélisés par un processus de Poisson possède
cette distribution.
On montre aussi que la distribution exponentielle est la version continue de la
distribution géométrique.
87
Statistiques appliquées (2B-comdev, M. de Valeriola)
lambda = 1
1.4
lambda = 1,4
lambda = 0,5
1.2
1
Densité
0.6 0.8
0.4
0.2
0
0 1 2 3 4 5
Il n’est donc pas nécessaire d’avoir recours à une table pour calculer les valeurs de
F dans ce cas.
Exemple. La durée de vie Y d’un processeur d’un type particulier utilisé pour des
calculs très lourds est une variable aléatoire exponentielle. On sait que la durée de
vie moyenne est de 2 ans. Quelle est la probabilité qu’un processeur de ce type cesse
de fonctionner durant sa première année de service ?
Avant de calculer cette probabilité, il faut déterminer la valeur du paramètre λ
associé à Y , ce qui peut se faire à partir de l’information donnée dans l’énoncé à
propos de E [Y ] :
1 1
2 ans = E [Y ] = ⇒ λ= .
λ 2
88
Chapitre 5
E [Y ] = µ et V [Y ] = σ 2 .
Comme c’est le cas pour certaines distributions discrètes, les calculs mettant en
œuvre certaines distributions continues nécessitent l’utilisation de tables de valeurs
de F .
C’est le cas de la normale, puisque
∫ y
1 1 x−µ 2
F (y) = √ e− 2 ( σ ) dx
−∞ σ 2π
n’est pas une « fonction usuelle », c’est-à-dire qu’on ne la trouve pas sur la majorité
des calculatrices (figure 5.10).
La table donne les valeurs de F pour une variable aléatoire normale centrée et
réduite, c’est-à-dire Z ∼ N (0, 1).
Pour l’utiliser il faut donc généralement transformer le problème auquel on veut
l’appliquer pour faire apparaître une normale centrée réduite :
Y −µ
Y −→ .
σ
Cette nouvelle variable aléatoire est centrée et réduite :
[ ] [ ]
Y −µ 1 Y −µ 1
E = (E [Y ] − µ) = 0 et V = 2 V [Y ] = 1.
σ σ σ σ
89
Statistiques appliquées (2B-comdev, M. de Valeriola)
0.7
mu = 0 ; sigma = 1
mu = 4 ; sigma = 1
0.6
mu = 0 ; sigma = 2
mu = 0 ; sigma = 0,8
0.5
0.4
Densité
0.3 0.2
0.1
0
−10 −8 −6 −4 −2 0 2 4 6 8 10
90
Chapitre 5
Y = eX ,
mu = 0 ; sigma = 1
1.4
mu = 1 ; sigma = 1
mu = 0 ; sigma = 2
1.2
mu = 0 ; sigma = 0,3
1
Densité
0.6 0.8
0.4
0.2
0
0 1 2 3 4 5
91
Statistiques appliquées (2B-comdev, M. de Valeriola)
dice boursier Euro Stoxx 50 peut être modélisé comme une variable aléatoire Y ∼
LN (0, 05; 0, 20). Calculons la probabilité qu’un investisseur double au moins son ca-
pital en investissant dans cet indice, ainsi que le rendement auquel il peut s’attendre
en moyenne.
Puisque Y est log-normale, on va faire apparaître la variable normale sous-jacente,
X = log Y ∼ N (0, 05; 0, 20) :
P (Y ≥ 2) = P (log Y ≥ log 2)
( )
X − 0, 05 log 2 − 0, 05
=P ≥
0, 20 0, 20
( )
X − 0, 05
=P ≥ 0, 9657
0, 20
= 0, 166.
92
Chapitre
Théorèmes
fondamentaux
Théorème 6.1 Soit X une variable aléatoire positive. Alors pour tout a > 0,
on a
E [X]
P (X ≥ a) ≤
a
E [X] ≥ E [a IX≥a ]
= a E [IX≥a ]
∫∞
=a IX≥a (x)fX (x)dx
0
∫∞
=a fX (x)dx
a
= a P (X ≥ a).
en supposant que X est continue ; si ce n’est pas le cas, la preuve est plus simple
encore.
93
Statistiques appliquées (2B-comdev, M. de Valeriola)
bas est égal à 0 ; supposons également que la classe est d’un niveau médiocre et que
le résultat moyen est 4.
Appliquons à X l’inégalité de Markov pour a = 10 :
4
P (X ≥ 10) ≤ = 0, 4.
10
On apprend donc de ce résultat que si la moyenne est 4, au plus 40% des étudiants
ont réussi l’examen.
Cette conclusion est dans ce cas-ci très intuitive : comme la moyenne est de 4, la
somme du résultat de tous les étudiants est égale à 400. Si 40% des étudiants (c’est-
à-dire 40 étudiants) ont 10/20, la somme de leurs résultats vaut 400 ; tous les autres
ont forcément obtenu 0 puisqu’il n’est pas possible d’obtenir un résultat négatif. Il
est donc absolument impossible que 41 étudiants aient obtenu 10/20, puisqu’alors
on ne pourrait pas avoir une moyenne de 4/20. ♢
Le résultat suivant donne une estimation similaire (bien que seulement sous la
forme d’une borne) sans faire aucune hypothèse sur la distribution.
Théorème 6.2 Soit Y une variable aléatoire régulière avec moyenne µ et va-
riance σ 2 . Alors, pour tout k > 0,
1 1
P (|Y − µ| < kσ) ≥ 1 − ⇔ P (|Y − µ| ≥ kσ) ≤
k2 k2
94
Chapitre 6
Fréquence
µ−σ µ µ+σ
Figure 6.1: Application (très peu convaincante) de la règle empirique dans le cas
d’une variable géométrique
1
P (|Y − 500| < k 50) ≥ 1 − .
k2
La valeur absolue à l’intérieur de la probabilité peut se réécrire :
95
Statistiques appliquées (2B-comdev, M. de Valeriola)
∑n
Preuve : Calculons l’espérance et la variance de la variable aléatoire Xn = i=1 Yi /n :
[ n ]
1 ∑ 1∑
n
nµ
E [Xn ] = E Yi = E [Yi ] = =µ
n n i=1 n
[ n
i=1
]
1 ∑ 1 ∑
n
nσ 2 σ2
V [Xn ] = 2 V Yi = 2 V [Yi ] = 2 = .
n i=1
n i=1 n n
Appliquons dès lors à Xn le théorème de Bienaymé-Tchebychev avec k = ϵ :
( )
Y1 + Y2 + ... + Yn σ2
P − µ ≥ ϵ ≤ 2 ,
n nϵ
d’où on obtient le résultat en passant à la limite.
Ce résultat appuie en quelque sorte a posteriori le choix de la définition fréquen-
tiste de la probabilité.
Pour voir cela, considérons un événement A quelconque, répétons l’expérience
associée à cet événement et nous considérons la suite de variable aléatoire définie
par {
1 si A s’est réalisé à la ième répétition de l’expérience,
Yi =
0 sinon.
L’espérance de Yi est égale à la probabilité que A se réalise :
∑
E [Yi ] = Yi (B)P (B)
tous les événements simples B
∑
= P (B) = P (A).
tous les événements simples B⊂A
96
Chapitre 6
X ∼ N (µX , σX
2
) et Y ∼ N (µY , σY2 ) ⇒ X + Y ∼ N (µX + µY , σX
2
+ σY2 )
0.12
X ~ N(2,9)
Y ~ N(5,16)
X+Y ~ N(7,25)
0.08
Densité
0.04
0.00
−10 0 10 20
Remarquons que ce théorème est vrai peu importe le lien qui unit X et Y : les
deux variables ne doivent pas nécessairement être indépendantes.
La preuve fait emploi de la fonction génératrice des moments, qui est aussi très
utile dans d’autres contextes.
Son nom provient du fait qu’elle permet de retrouver tous les moments de la
variable X en la dérivant :
∫ ∫ ∫
dn MX (t) dn ∞
tx
∞
dn ( tx ) ∞
= e fX (x)dx = e fX (x)dx = xn etx fX (x)d
dtn dtn −∞ −∞ dtn −∞
si bien qu’on a
∫ ∞
dn MX (t)
= xn fX (x)d = E [X n ]
dtn t=0 −∞
97
Statistiques appliquées (2B-comdev, M. de Valeriola)
et donc
dMX (t)
pour n = 1 : E [X] =
dt t=0
( )2
[ 2] d2 MX (t) dMX (t)
pour n = 2 : V [X] = E X − E [X] = 2
−
dt2 t=0 dt t=0
... ...
2 +σ 2 )t2
(σX Y
= eµX +µY + 2 .
Ce résultat, qui est connu depuis longtemps (démontré en 1733 pour un cas
particulier par De Moivre, puis dans le cas général en 1809 par Laplace), doit son
nom étrange à un article du mathématicien hongrois Pólya de 1920 intitulé Sur
le théorème central du calcul probabiliste, parmi ceux ayant rapport à la notion de
limite, et le problème des moments.
Comme nous le verrons dans les applications, ce résultat asymptotique est surtout
utilisé pour approximer la distribution de sommes d’un grand nombre de variables
indépendantes iid :
∑
n
Yi − nµ ∑
n
L
i=1
√ −
→ N (0, 1) ⇒ Yi ≈ N (nµ, nσ 2 )
nσ i=1
( n )
1 ∑
ou √ Yi − nµ ≈ N (0, 1)
nσ i=1
On a donc
n ( Y −µ ) ( )
∑ Yi −µ ( ) ( ( ))n
t √1 i
∏
n t √1 ∏
n
t t
n i=1 σ
MXn (t) = E e = E e n σ = M Yi −µ √ = M Y1 −µ √
i=1 i=1 σ n σ n
99
Statistiques appliquées (2B-comdev, M. de Valeriola)
0.5
0.5
0.5
0.5
1 lancer 2 lancers 3 lancers 4 lancers
0.4
0.4
0.4
0.4
Densité
0.3
0.3
0.3
0.3
0.2
0.2
0.2
0.2
0.1
0.1
0.1
0.1
0.0
0.0
0.0
0.0
2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12
Valeur de la somme
0.5
0.5
0.5
0.5
5 lancers 6 lancers 7 lancers 8 lancers
0.4
0.4
0.4
0.4
0.3
0.3
0.3
0.3
0.2
0.2
0.2
0.2
0.1
0.1
0.1
0.1
0.0
0.0
0.0
0.0
2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12
0.5
0.5
0.5
0.5
9 lancers 10 lancers 11 lancers 12 lancers
0.4
0.4
0.4
0.4
0.3
0.3
0.3
0.3
0.2
0.2
0.2
0.2
0.1
0.1
0.1
0.1
0.0
0.0
0.0
0.0
2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12 2 4 6 8 10 12
Exemple. Les durées nécessaires pour servir les clients qui se présentent à un guichet
sont des variables aléatoires indépendantes de moyenne 1, 5 minutes et d’écart-type
1 minute. Calculons une approximation de la probabilité que 100 clients puissent
être servis en moins de 2 heures.
Pour cela, définissons la variable aléatoire Yi qui représente le temps nécessaire
pour servir le ième client ; nous voulons calculer
( 100 )
∑
P Yi ≤ 120 .
i=1
100
Chapitre 6
♢
L’énoncé du théorème concerne une somme de variables aléatoires, mais il peut
facilement être transformé pour concerner la moyenne correspondante :
∑
n ∑
n
Yi − nµ 1
n
Yi − µ
i=1
√ = i=1
.
nσ √σ
n
Lorsqu’il s’agit d’estimer la moyenne d’une population, il peut donc nous servir à
choisir la taille de l’échantillon qui sera sélectionné pour inférer cette moyenne.
Dans ce cas, on prend le problème à l’envers, et on essaie de déterminer un n assez
grand pour que notre estimation soit assez précise. Cette application du théorème
central limite joue un rôle très important dans beaucoup de sciences expérimentales,
puisqu’elle indique au chercheur appliquant la méthode scientifique quelle est la
taille de l’échantillon qu’il doit considérer en fonction du degré de précision qu’il
veut atteindre avec une certaine probabilité.
Exemple. Considérons par exemple un biologiste qui désire calculer le taux de
croissance moyen d’un certain type de levure sous l’effet d’une réactif donné ; il sait
que l’écart-type de ses mesures est égal à 2 pm/jour. Il veut que son estimation
soit proche de la moyenne de population : il accepte que la déviation par rapport à
celle-ci soit plus petite que 0,5 pm/jour avec une probabilité de 95%. Calculons le
nombre de boîtes de Petri qu’il doit préparer pour obtenir une telle estimation.
Nous souhaitons donc déterminer pour quel n on a
( n )
1 ∑
P Yi − µ ≤ 0, 5 = 0, 95.
n
i=1
n 1
∑
n
Pour cela on écrit (en notant Y = n
Yi )
i=1
( )
( n ) ( ) −0, 5
n
Y −µ 0, 5
P Y − µ ≤ 0, 5 = P −0, 5 ≤ Y ≤ 0, 5 = P
n
≤ ≤
√σ √σ √σ
n n n
101
Statistiques appliquées (2B-comdev, M. de Valeriola)
102