Documente Academic
Documente Profesional
Documente Cultură
PREMIERE PARTIE
NOTIONS ELEMENTAIRES DE STATISTIQUE
PROBABILISTE
1. Définitions de la probabilité
Afin d'éviter des démonstrations très théoriques, nous donnons les définitions tirées de la norme NF
X06-002.
Lors de la réalisation d’un événement dont le nombre d’issues favorables peut être calculé au moyen
de l’analyse combinatoire (compte tenu de l’hypothèse d’équiprobabilité des issues), on définit la
probabilité de cet événement par le rapport du nombre d'issues favorables (h) au nombre d'issues
possibles (n) :
h
P=
n
C’est la définition classique que l’on utilise pour évaluer les issues d’un jeu de hasard.
Exemple : La probabilité pour obtenir "pile" après un lancé d’une pièce parfaitement symétrique est de
0,5.
Si après un grand nombre de réalisations d’une expérience (n réalisations) on observe h fois l’issue
souhaitée, la probabilité de cet événement est la limite de la fréquence des observations de l'issue
souhaitée :
h
P = n lim
→ ∞ n
2. Variables aléatoires
a) Définition
Exemple :
jeu de pile ou face :
Les issues du jeu sont "pile" ou "face".
On peut associer à "pile" X = 1 et à "face" X = -1 ou encore 0 et 1 ou tout autre nombre.
X est alors une variable aléatoire.
♦ Variable continue
C’est une variable qui peut prendre toutes les valeurs d’un intervalle fini ou infini. Cela signifie que
la différence entre deux valeurs voisines peut être aussi petite que l’on peut l’imaginer. C’est un
nombre réel.
On ne peut pas associer une probabilité à une variable aléatoire continue. La probabilité pour
que X prenne une valeur particulière x dans R (l'ensemble des nombres réels) est toujours nulle. Par
contre on peut associer à x une densité de probabilité f(x) et on peut associer à un intervalle [x,
x+∆x] une probabilité non nulle.
La densité de probabilité est définie de la même manière que la densité d’un milieu continu.
Fig.1
Si l’intervalle est assez petit pour qu’on puisse considérer f(x) comme constant :
On constate bien que cette probabilité tend vers 0 lorsque ∆x tend vers 0.
Exemple :
On s’intéresse à la taille des personnes d’un certain âge. Si la taille est considérée comme une
variable aléatoire continue, donc un nombre réel (un nombre réel est un nombre infiniment précis),
rien n’empêche d’examiner la probabilité pour rencontrer un individu de taille 1,7500 m ou même
1,7543 m.
La probabilité de rencontrer dans la population une valeur numérique aussi précise est nulle. Il est
d’ailleurs impossible de mesurer la taille d’une personne avec une telle précision. Par contre il existe
un certain nombre d’individus ayant une taille comprise entre 1,75 et 1,76 m si l’échantillon est
suffisamment grand. Il faut donc "discrétiser" une variable aléatoire continue pour pouvoir en définir
une probabilité non nulle.
a) Définition
Une loi de probabilité est une relation permettant d’associer une probabilité ou une densité de
probabilité à chaque valeur d’une variable aléatoire.
X
Fig. 2
Diagramme en bâtons
- Pour une variable continue on représente la fonction densité de probabilité (voir figure 1)
La courbe est encore appelée "courbe des probabilités cumulées". Dans le cas d’une loi continue F(x)
représente la surface délimitée par la courbe représentation de la loi entre - ∞ et l’abscisse x.
Fig. 3
Lois de probabilité et fonctions de répartition (variables discrètes et continues)
Dans le cas d’une loi continue le fractile t(α) est l’abscisse x telle que la surface délimitée par la loi de
probabilité entre - ∞ et t(α) soit égale à α. Les fonctions F(t) et t(α) sont des fonctions réciproques
l’une de l’autre.
P( X ≤ t α) = α P( X ≥ t α ) = 1 - α ou F(t α) = α
Fig. 4 Fig. 5
Fractile tα d’une loi statistique encore appelé Fractile t(1-α) d’une loi statistique encore appelé
“ fractile inférieur ” “ fractile supérieur ”
On s’intéresse également au fractile t(1-α) qui joue le même rôle que tα sur la partie des x élevés (Fig5).
On démontre que :
Les fractiles symétriques délimitent chacun une surface extérieure de α/2. La surface totale
intérieure à l’intervalle interfractile est 1-α.
Fig. 6
Fractiles symétriques
Remarques : les fractiles des lois de probabilités ont une importance considérable dans les
tests statistiques.
Les lois de probabilités discrètes n’ont pas de fractiles
a) Espérance mathématique
♦ Définition
Fig. 7
Signification physique de l’espérance mathématique
Par contre E(XY) = E(X) . E(Y) uniquement si les variables x et y sont indépendantes.
La variable Z = X - E(X) est appelée variable aléatoire centrée. Son espérance mathématique est
nulle.
b) Variance et écart-type
♦ Définitions
σ = V(X)
V(αX) = α2 V(X)
Les propriétés d’additivité ne s’appliquent qu’aux variances ; Elles ne s’appliquent pas aux écart-
types. (une somme σ(X) + σ(Y) n’a aucun sens statistique)
X − E( X )
La variable aléatoire Z = admet une espérance nulle et une variance de 1, Z est appelée
σ
variable centrée et réduite (ou variable normalisée).
♦ Définitions
M1 = E(X) , µ1 = 0 et µ2 = V(X)
Tous les moments centrés d’ordre impair (>1) donnent une indication sur la dissymétrie de la loi de
probabilité. On n’utilise que le moment d’ordre 3 et on appelle coefficient d’asymétrie le coefficient :
µ3 µ3
β = 3 2
=
µ2 σ3
Le coefficient d’asymétrie est une grandeur sans dimension, sa valeur donne une idée de l’importance
de la dissymétrie et son signe montre si la dissymétrie provient de valeurs élevées de X (dissymétrie à
droite ) ou des valeurs petites de X (dissymétrie à gauche).
Tous les moments centrés d’ordre pair sont des variables de dispersion. On n’utilise que le moment
µ4 et son coefficient associé, le coefficient coefficient de Kurtosis ou aplatissement comparé à la loi
Normale qui est également sans dimension:
µ µ
δ = 4 − 3= 4 − 3
µ 22 σ4
Ce facteur permet donc de montrer qu’une distribution est plus aplatie ou moins aplatie qu’une
distribution gaussienne, toutes choses égales par ailleurs (même espérance et même variance).
♦ Mode
Le mode est la valeur de X dont la probabilité est maximale. Cette valeur peut ne pas être unique.
Une distribution unimodale est une distribution n’ayant qu’un seul mode, sinon elle est bimodale,
trimodale ou multimodale.
♦ Médiane
1
La médiane Med est la valeur de x pour laquelle P (X ≤ x) = P (X ≥ x) =
2
Pour une distribution continue c’est la valeur qui sépare la courbe de densité de probabilité en deux
1
portions de surface égale. La médiane est le fractile d'ordre
2
a) Loi de Binomiale
♦ Réalisation
On fait n réalisations du jeu de façon que les épreuves soient indépendantes. On veut calculer la
probabilité pour avoir k issues favorables appelées S, sans tenir compte de l’ordre de leur réalisation.
(Si on n’associe pas n-k réalisations de S à k réalisations de S, le nombre total de réalisations est
variable et ne dépend pas de n, parce que l’ordre des réalisations est indifférent)
k
Nombre de combinaisons de k objets parmi n : C n
♦ Paramètres statistiques
E(X) = np
V(X) = np(1- p)
σ = np(1- p)
q−p
β=
npq
1 − 6pq
γ = 3+
npq
♦ Représentation graphique
On représente la loi binomiale à l’aide d’un diagramme en bâtons. Le diagramme est symétrique
lorsque p = q = 0,5 .
Dans ce cas, la médiane et le mode sont égaux à E(X). Lorsque p Ì et q Ê la dissymétrie augmente
et la médiane et le mode deviennent < E(X)
Nous verrons ultérieurement l’importance de cette propriété. La figure ci-dessous représente le
diagramme en bâtons de la loi binomiale pour n = 40 et p = 0,1 (m = 4, σ = 1,9)
Enfin, lorsque n est grand et p petit, les valeurs de P(X=k) diminuent très vite à partir d’une certaine
valeur de k, ce qui signifie que le diagramme en bâtons ne dépasse jamais une vingtaine de valeurs .
Fig. 8
Diagramme en bâtons de la loi binomiale
b) Loi de Poisson
On obtient la loi de Poisson à partir de la loi binomiale lorsque n est très grand et p très petit, le
produit np n’étant pas très grand, (1 < np < 20)
Exemple : p = 0,05 et n = 100 fournit une très bonne approximation d’une loi de Poisson.
mk −m
P(k) = e
k!
♦ Paramètres statistiques
On tire ces valeurs de la loi binomiale dont la loi de Poisson est une approximation. En posant np = m
dans les équations correspondantes de la loi binomiale on obtient :
E(X) = m
V(X) = m
σ = m
1
β =
m
1
γ = 3 +
m
♦ Représentation graphique
Le diagramme est toujours dissymétrique vers les valeurs élevées de X, la médiane et le mode sont
inférieurs à la moyenne.
Pour les grandes valeurs de n, β → 0 et γ → 3, la loi se rapproche d’une loi de Gauss.
La figure ci-dessous représente la loi de Poisson pour m = 3 (σ = 1,73).
Fig. 9
Diagramme en bâtons de la loi de Poisson
la loi de Poisson est la loi suivie par les désintégrations radioactives ainsi que par d’autres
événements rares comme les pannes sur les chaînes de fabrication ou les objets défectueux dans
une production. Les files d’attente suivent également une loi de Poisson.
La loi Normale est une fonction continue dépendant des deux paramètres m et σ
− (x− m)2
1 2σ 2
g(x) = e
σ 2π
x−m
Si on remplace x par la variable aléatoire réduite la fonction g devient :
σ
x2
1 −
g(x) = e 2
2π
♦ Paramètres statistiques
Fig.10
Représentation graphique de la loi Normale réduite et valeur des surfaces S(u)
+u
S(u) = ∫ f(x)dx = F(u) - F(-u)
-u
F est la fonction de répartition de g(x). Ces valeurs ont une importance majeure pour la
compréhension des tests statistiques.
Beaucoup de mesures physiques se distribuent suivant une loi Normale. Il existe des tests
statistiques permettant de prouver le caractère normal d’un ensemble de mesures et la normalité
d'une distribution expérimentale est souvent une condition nécessaire pour l'application des
tests statistiques sur les moyennes ou sur les variances.
b) Loi de Student
Elle est symétrique et a pour représentation graphique la famille de courbes dont quelques unes
sont représentées ci-dessous :
Fig. 11
représentation graphique de la loi de Student
Les courbes présentent la même allure qu’une courbe de Gauss mais elles sont plus aplaties.
Lorsque ν → ∞ (en pratique lorsque ν > 40) la loi de Student est quasiment équivalente à la loi de
Gauss.
Les valeurs des fractiles t(ν,α) et t(ν,1-α) de la loi de Student sont données dans les tables de
Student-Fisher. Puisque la loi est symétrique t(ν,α) = -t(ν,1-α).
Comme pour toute loi statistique, la valeur t(ν,1-α) à ν constant augmente lorsque α diminue, mais à α
constant les valeurs de t(ν,1-α) augmentent sensiblement lorsque ν diminue (voir fig 11 et 12).
Ceci s’explique facilement par l ‘augmentation de l’aplatissement de la courbe. En effet, plus une
courbe est aplatie, plus il faut prendre une abscisse t(1-α) élevée pour que l’intégrale :
t(1−α )
∫
−∞
f(x)dx
Fig. 12
Fractiles de la loi de Student (dispersion bilatérale)
en fonction de ν pour α = 10%, 5% et 1% et 0,5%
Remarque : Les tables de Student-Fisher sont présentées de différentes manières : les tables
de fractiles appelées encore "tables unilatérales" donnent t(1-α, ν) en fonction de
1-α et de ν pour des valeurs α < 0,5. Généralement on pose P = 1 - α (P > 0,5) et on
donne la table en fonction de P.
On trouve également des tables donnant la valeur de t(P) de façon que :
t(P)
∫
− t(P)
f(x)dx = P = 1 − α
∑ ( xi − m )
2
x−m
la grandeur où s = i
suit une loi de Student à ν = n - 1 degrés de liberté.
s n−1
n
Cette loi présente donc un intérêt considérable dans tous les tests statistiques relatifs aux
moyennes de petits échantillons.
c) Loi de Fisher-Snédecor
C’est la loi d’une variable aléatoire continue appelée F dont la densité de probabilité dépend de
deux paramètres ν1 et ν2 (nombre de degrés de liberté) :
Les représentations graphiques sont données à la figure 13 en fonction de ses deux paramètres ν1 et
ν2. La loi est dissymétrique et d’autant plus aplatie que ν1 et ν2 sont petits.
Fig.13
Représentation graphique de la loi de Fisher-Snedecor
Les tables donnent les valeurs des fractiles supérieurs F(ν1, ν2, 1-α) pour une valeur donnée de α,
c’est à dire que les deux entrées de la table sont ν1 et ν2. On prend généralement α = 0,05 ou α =
0,01 et on a toujours P = 1 - α
1
Les fractiles inférieurs peuvent être calculés sachant que F ( ν 2 , ν1 , α) = (attention
F ( ν1, ν2 ,1 − α)
à l’échange des degrés de liberté ν1, et ν2)
Comme pour toutes les lois statistiques, les fractiles deviennent infinis lorsque ν1 et ν2 sont nuls.
Numériquement, les valeurs sont très élevées lorsque ν2 < 3.
Par conséquent, la loi de Fisher-Snedecor intervient dans tous les problèmes qui font intervenir
des comparaisons de variances, c’est à dire les problèmes de précision et de qualité des
mesures physico-chimiques.
d) Loi du Khi-deux
♦ Densité de probabilité
fig.14
Représentation graphique de la loi du khi-deux
E(χ2) = ν V(χ2) = 2ν
Elle est dissymétrique et d’autant plus aplatie que ν est plus élevé (évolution contraire par
rapport aux autres lois.)
♦ Fractiles de la loi du χ2
Comme pour la loi de Fisher, α représente la surface de la courbe entre χ2 et l’infini. On représente
les fractiles soit en fonction de P, soit en fonction de α = 1 - P (α < 0,5 et P > 0,5).
Dans le cas d’un échantillon de ν observations indépendantes d’une grandeur X qui suit une loi
Normale N(m, σ), la somme :
n 2
x − m
∑ i σ suit une loi de χ2 à ν degrés de liberté.
1
La somme ci-dessus est d’autant plus petite que les valeurs de xi sont proches de la moyenne.
La loi du χ2 est donc utilisée dans les problèmes d’adéquation, c’est à dire lorsqu’il faut prouver que
des valeurs expérimentales xi sont proches de valeurs modèles (xi (théoriques).
Le logiciel EXCEL permet de calculer toutes les lois de probabilités classiques, leurs fonctions de
répartition et leurs fractiles. Toutefois les explications concernant ces lois sont souvent incomplètes ou
erronées.
STATISTIQUES PROBABILISTES
CE QU’IL FAUT ABSOLUMENT RETENIR