Documente Academic
Documente Profesional
Documente Cultură
Février 2008
2 M’hamed Eddahbi et Idir Ouassou
Table des matières
I Statistique 5
0.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Estimation et tests 29
2.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.1 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.2 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.1 Test d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.2 Test d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Statistique
7
0.1 Introduction
La statistique est une branche scientifique ayant divers applications dans plusieurs domaines
(biologie, génétique, finance, chimie, géologie physique etc...). Cette discipline est constitué par
un ensemble de méthodes mathématiques basée sur les observations d’événements réels à partir
desquelles on analyse les phénomènes auxquels on s’intéresse.
On distinguera essentiellement deux type de statistique
1. La Statistique Descriptive,
2. La Statistique Predictive.
L’étude statistique d’un phénomène peut être réaliser en trois étapes :
1. recueil de données,
2. classement et réduction de ces données (statistique descriptive),
3. analyse de ces données visant à la déduction de prévisions (statistique predictive).
8
Chapitre 1
On pourra toujours se ramener au cas où les poids sont “normalisés”, dans le sens où la somme
de ceux-ci est égale à 1 (si la somme des poids est différente de 1, on divise chaque pi par
cette somme).
Lorsqu’une série comporte un grand nombre de valeurs, on cherche à la résumer, si possible, à
l’aide de quelques nombres significatifs appelés paramètres.
Définition 1.1.1 Si tous les individus jouent des rôles de même importance, on dit que la popula-
tion est équipondérée.
Dans ce cas le poids de chaque individu est pris égal à 1 (le poids d’une partie est alors son
effectif), ou à N1 si la population comporte N individus (le poids d’une partie est la proportion des
éléments de cette partie par rapport à l’effectif total) ou encore à 100
N
(le poids d’une partie est égal
au pourcentage des éléments de cette partie).
En résumé, une population pondérée est la donnée d’un couple (Ω,P).
On distinguera le cas où les individus sont permutables du cas où ils sont naturellement
ordonnés (s’il s’agit de relevés temporels).
10
Valeurs x1 x2 ............ xk
Effectifs n1 n2 ............ nk
Fréquences f1 = nN1 f2 = nN2 . . . . . . . . . . . . fk = nNk
Définition 1.2.1 L’ensemble des couples {(yj , qj )j=1,...,n } forme la distribution du caractère X.
Selon la pondération choisie sur Ω, le poids qj de la modalité yj est son effectif, sa fréquence ou
son pourcentage.
Définition 1.2.2 Notons que l’opération pratique qui consiste à élaborer cette distribution, en parti-
culier, dans le cas de l’équipondération, à compter le nombre d’individus ayant fait la même réponse
yj est appelé un tri à plat.
Une seconde représentation graphique est alors possible : elle consiste à faire figurer sur un axe
horizontal gradué les modalités observées et à tracer, pour chaque modalité, un béton de longueur
égale à son poids (par exemple sa fréquence).
Proposition 1.2.1 La fonction de répartition est une fonction en escalier continue à droite et
admettant ses sauts aux points yj . Si les poids sont normalisés, c’est une fonction croissante de 0
à 1.
La distribution d’un caractère X est souvent présentée en tableau, comme pour l’exemple sui-
vant :
13
Exemple 1.2.1 Lors d’une enquête auprès des étudiants, on a posé à 50 de ceux-ci la question
suivante :
Combien de films avez-vous vu en salle de cinéma durant de mois de Septembre ?
Après avoir fait un tri à plat de cette question, on observe 7 modalités différentes dont les effectifs
et les fréquences sont donnés dans le tableau suivant :
Nombre de films 0 1 2 3 4 6 9
Effectifs 6 10 14 7 10 2 1
Fréquences 0.12 0.20 0.28 0.14 0.20 0.04 0.02
Cette présentation en tableau et cette représentation ne sont plus appropriées dés que le nombre de
modalités observées est élevé. Dans ce cas on procède à des regroupements de modalités.
Définition 1.3.2 On appelle effectif de cet intervalle pour le caractère X, le nombre des valeurs
ni qui se trouvent dans cet intervalle.
On appelle fréquence, la proportion de ces observations par rapport au nombre total d’individus.
Exemple 1.3.2 Dans l’exemple ci-dessus, l’effectif de la classe [0 − 200[ est 18 et sa fréquence est
de 18
50
= 0, 36.
Définition 1.3.3 On appelle densité d’effectif du caractère numérique X sur l’intervalle (a, b)
(avec bien entendu a < b) le rapport entre l’effectif de cet intervalle et son amplitude, à savoir
(b − a).
Exemple 1.3.3
18
- Sur l’intervalle [0 − 200[, la densité est de 200
= 0, 09.
- Notons que cette notion de densité est celle que l’on rencontre par exemple en géographie
humaine quand on parle de densité de population dans une région donnée : on calcule le rapport
entre le nombre d’habitants et la superficie de la région pour avoir le nombre d’habitants au
km2 .
Remarque 1.3.1 La densité de fréquence sur l’intervalle (0 − 200) est 0,36 200
= 0, 0018.
Notons que la densité de fréquence est déduite simplement de la densité d’effectif en divisant celle-ci
par le nombre total des individus (par exemple 50 dans l’exemple sur la population d’étudiants).
Pour chacun de ces intervalles, on détermine son effectif et on calcule sa densité d’effectif ; on
peut aussi calculer sa fréquence et sa densité de fréquence.
15
1.3.3 Histogramme
Définition 1.3.5 Un histogramme est la représentation graphique adaptée à l’étude d’un ca-
ractère numérique lorsque l’on a choisi une partition dans l’ensemble des modalités de ce caractère
et que l’on a calculé, pour chaque intervalle, sa densité : c’est le graphique qui permet de visualiser,
pour chaque intervalle, sa densité.
Face à une série statistique numérique, il est parfois utile de la synthétiser ou de la résumer à
l’aide d’une ou de deux valeurs que l’on appellera des indicateurs. Ceux-ci sont essentiellement de
deux types :
1. soit des indicateurs de valeurs centrales qui précisent le milieu de la série,
2. soit des indicateurs de dispersion qui mesurent le degré d’éparpillement ou d’étalement des
valeurs.
Le choix de ces indicateurs dépend bien entendu de l’usage que l’on veut en faire. Ils sont
quelquefois suffisants pour comparer deux séries ou pour suivre l’évolution d’un caractère au cours
du temps. Notons aussi que, comme tout indicateur statistique, leur utilisation nécessite du bon
sens et de la prudence car ils ne donnent qu’une information partielle sur les données recueillies.
1.5.1 Moyenne
Moyenne d’une série statistique
Si par exemple on mesure la taille (en mètres) de N individus on aura comme données, N
nombres réels x1 , x2 , . . . , xN . La valeur significative sera la valeur moyenne :
x 1 + x2 + · · · + xN
m= .
N
Mais cette taille moyenne n’est pas forcément à elle seule représentative de la distribution du
caractère étudié : si on a pris une population mélangée d’adultes et d’enfants, on peut obtenir la
même moyenne sans que pour autant le caractère taille soit distribué de la même manière dans les
deux populations.
Un renseignement supplémentaire sera fourni par des mesures de la dispersion du caractère. On
peut par exemple mesurer les écarts entre les tailles des individus et la moyenne :
puis faire la moyenne de ces écarts. On obtient ainsi l’écart moyen (é la moyenne)
N
1 X
e= |xi − m|
N i=1
Pour des raisons mathématiques, on préfère à l’écart moyen une autre mesure de la dispersion,
l’écart quadratique moyen, ou écart–type :
N
! 21
1 X
σ= (xi − m)2
N i=1
2 12
(de même qu’on préfère la distance euclidienne ( N
P PN
i=1 (xi − yi ) ) à la distance i=1 |xi − yi |.
On peut encore améliorer la connaissance de la répartition du caractère en calculant des écarts
d’ordre supérieur :
N
! k1
1 X
(xi − m)k (k ≥ 1).
N i=1
Exemple 1.5.1 Une section d’étudiants est partagée selon deux sous-sections : le groupe A formé
de 40 étudiants ; le groupe B formé de 220 étudiants. A chaque étudiant on associe sa note obtenue
lors d’un contrôle. La moyenne des notes des étudiants A est 14.5 ; la moyenne des notes des B est
de 11.2. La moyenne des notes des 260 étudiants est : x̄ = 14,5×40+11,2×220
260
= 11, 71
pour le calcul de la moyenne que toutes ces observations sont égales à la valeur centrale de la classe,
en général son milieu ck = bk−12+bk .
Dés lors on calcule la moyenne de la série pondérée (ck , nk )k=1,...,K .
On vérifiera par exemple que la dépense moyenne des 50 étudiants est de 352 DH.
Résumé sur les paramètres de position : les quartiles
Comme pour la médiane qui permet de partager l’effectif en deux effectifs égaux, intuitivement,
les quartiles sont des nombres qui partagent la série statistique en quatre parties qui ont toutes
”sensiblement” le même nombre de termes, c’est-à-dire 25% de l’effectif total.
1.5.2 Définitions
Définition 1.5.2
Le premier quartile Q1 est la plus petite valeur du caractère telle qu’au moins 25% des termes de la
série aient une valeur du caractère qui lui soit inférieure ou égale.
Le troisième quartile Q1 est la plus petite valeur du caractère telle qu’au moins 75% des termes de
la série aient une valeur du caractère qui lui soit inférieure ou égale.
Remarque :
Les définitions en statistique ne sont pas figées. . .certaines calculatrices et logiciels utilisent une
définition différente ce qui explique que les résultats obtenus à l’aide de la ”machine” soit différents
de ceux donnés par la définition 1.5.2
Pour une série statistique simple à caractère discret, la moyenne se calcule par la formule :
PK
ni xi
m = i=1
n
Pour une série statistique simple à caractère réel (ou continu), la moyenne est donnée par la formule :
PK
ni ( ai +a2 i+1 )
m = i=1
n
où K est le nombre de valeurs (respectivement classes Ci = [ai , ai+1 [) distinctes du caractère, ni
l’effectif associé à ces valeurs (respectivement classes) et n l’effectif total. Lorsque la moyenne est
nulle , la série est dite centré.
1.5.5 Médiane
La médiane est un indicateur de valeur centrale souvent plus utile que la moyenne, et qui répond
au souci de trouver une valeur du caractère telle qu’il y a “autant d’observations plus petites que
cette valeur que plus grandes que cette valeur”.
Définition 1.5.3 En théorie, la médiane est la valeur xi pour laquelle la fonction de répartition
vaut 0, 5, (50%).
Il y a autant d’individus pour les quels la valeur de caractère est inférieure à la médiane que d’in-
dividus pour lesquels la valeur du caractère est supérieure à la médiane. Mais lorsqu’on calcule les
fréquences cumulées croissantes, on tombe rarement exactement sur la valeur 0, 5.
Ceci ne constitue pas une définition car il est possible qu’une telle valeur n’existe pas. Aussi, au
lieu d’en donner une définition générale quelque peu rébarbative, nous définirons la médiane dans
les 4 cas suivants :
Exemple 1.5.2 Si on considère de nouveau la distribution du nombre de films vus par 50 étudiants
en septembre :
Nombre de films 0 1 2 3 4 6 9
Effectifs 6 10 14 7 10 2 1
a médiane du nombre de films est M = 2 à vérifier.
Exercice 1.5.1 On déterminera par la méthode de l’interpolation linéaire la médiane pour la dis-
tribution en classes déjà rencontrée.
med = X( n+1 )
2
Cas d’une série à caractère réel. Si la série est à caractère réel, il est impossible de connaı̂tre
exactement la médiane mais on peut la déterminer approximativement par une interpolation linéaire.
1. (a) Graphiquement :
Nous pouvons construire le diagramme cumulatif ou fonction de répartition. Nous savons
par définition, que la médiane a pour fréquence cumulée croissante 0, 5. il suffit donc de
tracer la droite d’ordonnée 0, 5. Cette droite coupe la fonction de répartition en un point
dont l’abscisse est la médiane.
(b) Par calcul :
Soit la première classe dont la fréquence cumulée soit supérieure ou égale à 0, 5. Notons
la Ci = [ai−1 , ai [ et appelons Fi se fréquence cumulées. Si Fi = 0, 5, la médiane est
évidemment ai+1 . Cela arrive rarement. Dans le cas contraire, Fi > 0, 5. Considérons
alors les points A := (ai , Fi−1 ) et B := (ai+1 , Fi ). (Fi−1 est la fréquence cumulée de la
classe précédente Ci si celle-ci existe, 0 sinon). La droite D déterminée par ces deux
points passe par un point d’ordonnée 0, 5 dont l’abscisse est la médiane. L’équation de
cette droite est
(ai+1 − ai )
D : x − ai = (y − Fi−1 )
(Fi − Fi−1 )
la médiane correspond à x lorsque y vaut 0, 5 donc elle vaut
0, 5 − Fai
med = ai + (ai+1 )
Fi − Fi−1
Autre méthode : utiliser le théorème de Thalès pour obtenir
med − ai 0, 5 − Fi−1
=
ai+1 − ai Fi − Fi−1
Dans l’exemple ci-dessus, nous avons : Ci =]40, 50] , Fi = 0, 487, Fi−1 = 0, 38. Donc la
médiane vaut :
0, 5 − 0, 38
med = 40 + (50 − 40) = 47, 797
0, 587 − 0, 38
On désire déterminer un écart “moyen” pour chaque correcteur. Mais pour ce faire on ne peut
utiliser la moyenne arithmétique des 10 écarts car la somme de ces écarts est nulle : c’est une
propriété de la moyenne ! Aussi on va utiliser ces écarts soit en valeurs absolues, soit en les élevant
au carré. L’indicateur le plus courant est basé sur le carré de ces écarts. Plus précisément on
appellera variance des valeurs de la série X (resp. Y ) la moyenne des carrés des écarts que l’on
notera V ar[X] (resp. V ar[Y ]) :
22 +(−6)2 +...+02
- pour le correcteur A : V ar[X] = 10
= 210
10
= 21
2 2
1 +(−3) +...+(−1) 2
- pour le correcteur B : V ar[Y ] = 10
= 76
10
= 7, 6
Au sens de cet indicateur, le correcteur A a donc bien une variance de notes plus grande que le
correcteur B.
Un autre indicateur peut être déduit de celui-ci, en prenant la racine carrée. Ce nouvel indicateur
est appelé écart-type de la série statistique et est noté traditionnellement par la lettre grecque σ.
Les valeurs de cet indicateur sont :
√
- pour le correcteur A : σ X = 21 = 4, 58
√
- pour le correcteur B : σ Y = 7, 6 = 2, 76
L’avantage de l’écart-type par rapport à la variance est que son ordre de grandeur est le même
que celui des valeurs elles-mêmes.
Exercice 1.5.2 A titre d’exercice, on calculera l’écart “moyen” en prenant la moyenne des valeurs
absolues des différents écarts et on comparera les deux écarts “moyens” ainsi obtenus. Pour ne pas
confondre cet indicateur avec l’écart-type, ce nouvel écart est appelé écart absolu moyen.
Définition 1.5.4 La variance de la série X est la moyenne pondérée des carrés des écarts à la
moyenne x̄ :
XN
V ar[X] = pi (xi − x̄)2 .
i=1
23
Il est parfois plus facile pour calculer cette variance -surtout si la moyenne n’est pas une valeur
entière- de transformer cette formule en utilisant le fait que (xi − x̄)2 = x2i − 2x̄xi + x̄2 . La formule,
après calcul, devient alors :
XN
V ar[X] = pi x2i − x̄2
i=1
Le calcul de la variance peut être facilité en utilisant les deux propriétés suivantes :
a) La variance n’est pas modifiée si on ajoute -ou retranche- la même valeur à tous les termes de
la série. En effet, dans ce cas, la moyenne est augmentée de la même valeur et donc les termes
xi − x̄ ne sont pas changés.
Exemple 1.5.6 Par exemple la variance de la série
(1005.5 1007.5 1012.5 1014.5 1016.5)
est la même que celle de la série
(5 7 12 14 16)
série obtenue en retranchant 1000.5 à toutes les valeurs.
b) Si tous les termes de la série sont multipliés par un nombre non nul a (cas d’un changement
d’échelle par exemple), il en est de même de la moyenne, et donc la variance est multipliée par a2 .
1. Exemple 1.5.7 Par exemple la variance de la série
(0.15 0.17 0.26 0.32 0.45)
est 10000 fois plus petite que la variance de la série
( 15 17 26 32 45)
série obtenue en multipliant tous les termes par 100.
Exemple 1.5.8 On vérifiera, à titre d’exemple, que la variance du nombre de films vus par 50
étudiants au cours du mois de Septembre est 3.08.
Notons que pour une distribution en classes c’est généralement la seconde formule qui est utilisée
pour calculer la variance. On considère en effet les centres de classe ck et on leur affecte comme
pondération les effectifs nk .
Exemple 1.5.9 On vérifiera, à titre d’exemple, que la variance des sommes dépensées par les 50
étudiants pour leurs activités culturelles est 63696.
Résumé
Pour une série statistique simple à caractère discret, la variance est l’indice de dispersion égal
à la somme des carrés des écarts entre les valeurs du caractère et la moyenne. Autrement dit, la
variance se calcule au moyen de la formule
PK 2
i=1 ni (xi − m)
V =
n
24
Données centrées-réduites
Il est parfois intéressant de transformer les données brutes en éliminant le rôle joué par la
moyenne et l’échelle utilisée pour le relevé des observations. Ce sera le cas quand on étudiera
simultanément des caractères statistiques dont l’unité de mesure est différente : prix en DH, temps
en secondes ou minutes, taille en centimètres...Cette transformation se fait en standardisant les
données de la façon suivante :
- on calcule pour la série sa moyenne x̄ et son écart-type σ X .
- à chaque valeur xi on associe la donnée centrée-réduite ou standardisée zi telle que :
xi − x̄
zi =
σX
On vérifiera sur les exemples traités que les données standardisées sont en général toutes comprises
entre -3 et +3.
25
La détermination des quartiles est analogue à la médiane (de même que tous les quantiles).
- Dans le cas d’une série statistique discrète, il faut ordonner les données et distinguer quatre
cas comme indiqué dans le tableau suivant :
Quartiles n = 4p n = 4p + 1 n = 4p + 2 n = 4p + 3
x(p) +x(p+1) x(p) +x(p+1)
Q1 2 2
x(p+1) x(p+1)
x(2p) +x(2p+1) x(2p+1) +x(2p+2)
Q2 = M ed 2
x(2p+1) 2
x(2p+2)
x(3p) +x(3p+1) x(3p+1) +x(3p+2)
Q3 2 2
x(3p+2) x(3p+3)
- Dans le cas d’une série à caractère réel, on reprend la méthode utilisée pour la médiane en
prenant 0, 25 (resp. 0, 75) comme fréquence pour le premier ( resp. troisième) quartiles.
Exemple 1.5.10 (Exemple de calcul du premier quartile) pour la série ci-dessus : l’équation
de la droite est
(40 − 20)
D : x − 20 = (y − 0, 098)
(0, 38 − 0, 098)
Le premier quartile correspond à x lorsque y vaut 0, 25 donc il vaut
(0, 25 − 0, 098)
Q1 = 20 + (40 − 20)
0, 38 − 0, 098)
k = 10 : les 9 déciles (0, 1, 0, 2, 0, 3, 0, 4, 0, 5, 0, 6, 0, 7, 0, 8, 0, 9)
Exemple 1.5.12 Pour la série discrete, le mode est 2 (enfant par ménage).
Pour la série continue, la classe modale est ]18, 19] ans.
26
1.5.9 Le milieu
Définition 1.5.8 Le milieu est le centre de l’intervalle compris entre les valeurs extrêmes de la
série.
1.6.1 L’étendue
L’étendue de la série est la différence entre les valeurs extrêmes de la série, c’est à dire :
e = max(xi ) − min(xi )
i = Q3 − Q1
Définition 1.6.2 Le coefficient de variation, qu’on note v, est le rapport entre l’écart-type et la
moyenne de la série statistique. Nous avons donc
s
v= .
m
Exemple 1.6.1 Pour la série discrète, nous trouvons s = 1, 96 enfants par ménage et v = 0, 634
Pour la série réelle, nous trouvons s = 1, 035 ans et v = 0, 054.
La signification de v n’intervient que dans le cas où les données sont toutes positives (ou toutes
négatives en prenant la valeur absolue).
En effet, lorsque les données sont à la fois positives et négatives, la division par la moyenne perd son
pouvoir de ramener les donnés de différentes séries statistiques entre elles. (Si v est plus élevé dans
la première que dans la seconde, la première a des données plus dispersées autour da la moyenne).
il manque de f igure
2. Si γ ∈ [2, 5, 3, 5], la série est en cloche ou mesokurtique (ni trop aplatie, ni trop pointue).
il manque f igure
il manque f igure
Conclusion : il s’agit d’une série aplatie , dissymétrique vers la gauche. Pour la série réelle, nous
avons
s3 = 0, 74, γ 3 = 0, 67, s4 = 3, 897, γ 4 = 3, 396
Conclusion il s’agit d’une série en cloche, dissymétrique vers la gauche.
Chapitre 2
Estimation et tests
2.1 Estimation
2.1.1 Estimation d’une proportion
Intervalle de confiance au risque α pour une proportion.
Quelle affirmation peut-on faire sur une proportion d’individus dans une population
après l’observation d’un échantillon ?
On suppose que l’on ignore la proportion p des gauchers dans la population toute entière et que
l’on veuille estimer cette valeur.
Pour ce faire, on prélève un échantillon de N = 140 individus supposés représentatifs de cette
population.
On note toujours n la variable aléatoire égale au nombre de gauchers dans cet échantillon et on
pose F = Nn .
Dans cet échantillon, on observe 12 gauchers, c’est-à-dire une proportion de gauchers de f = 0, 086.
Estimation ponctuelle
Définition 2.1.1 Un estimateur sans biais du paramètre p est une variable aléatoire Z telle
que E(Z) = p.
Mais dire que p appartient à un intervalle [p1 , p2 ] fait encore encourir un risque, celui de se
tromper en ce sens que p n’appartient pas en réalité à cet intervalle. On ne peut en général pas
annuler ce risque sauf si on prend l’intervalle maximum [0, 1].
Le problème que l’on se pose est de trouver le meilleur intervalle d’estimation (par exemple le plus
30
court possible) qui est associé à un risque fixé α que l’on ne veut pas dépasser.
La méthode consiste à définir pour toute valeur p̂ de l’estimateur de p un intervalle [p1 , p2 ] sus-
ceptible de contenir p̂ avec une probabilité 1 − α fixée a priori.
Une fois la valeur particulière de f de p̂ observée à partir de l’échantillon on peut déterminer les
bornes de l’intervalle de confiance recherché .
On peut montrer que pour une valeur f observée l’intervalle de confiance au niveau 1 − α est dans
le cadre de l’approximation normale (nf (1 − f ) ≥ 8) :
" r r #
f (1 − f ) f (1 − f )
[f1 , f2 ] = f − v α2 , f + v α2
n n
Application 2.1.2 De la même façon, donner pour p un intervalle de confiance au risque de 1%.
Réponse : On a : v0,005 = 2, 5758 et donc l’intervalle de confiance au niveau 99 % est [0, 025, 0, 147].
Dans le cas où l’approximation normale n’est pas satisfaite on utilise les abaques de confiance
bilatéral et une taille d’échantillon n l’abaque de la loi binomiale
Réponse :
On sélectionne sur l’abaque de la loi binomiale pour le niveau de confiance 0, 95% pour l’intervalle
bilatéral les 2 courbes n = 50, on indique en abscisse f = 0, 12 on trace la verticale passant par f ,
on obtient en relevant les 2 points d’intersection l’intervalle [0, 04, 0, 23].
Définition 2.1.3 Cet intervalle est appelé intervalle de confiance unilatéral à gauche ou à droite.
On peut montrer que pour une valeur f observée l’intervalle de confiance à gauche au niveau
1 − α est dans le cadre de l’approximation normale (nf (1 − f ) ≥ 8) :
" r #
f (1 − f )
[0, f2 ] = 0, f + vα
n
31
où vβ est le fractile supérieur d’ordre β de la loi normale centrée réduite, dans le cas d’un intervalle
de confiance unilatéral à droite au niveau 1 − α, l’intervalle de confiance est alors :
" r #
f (1 − f )
[f1 , 1] = f − vα ,1 .
n
Dans un centre agricole, on a constaté que la masse d’un oeuf choisi au hasard peut être
considérée comme la réalisation d’une variable aléatoire X de Laplace-Gauss de moyenne µ et
d’écart-type σ, ces paramètres a priori inconnus dépendant de l’alimentation. On suppose que la
masse d’un oeuf est indépendante de celle des autres. On prend au hasard 36 oeufs et on les pèse ;
les 36 valeurs relevées sont données dans le tableau suivant :
50.41 52.62 53.79 54.99 55.82 57.67
51.34 53.13 53.89 55.04 55.91 57.99
51.51 53.28 54.63 55.12 55.95 58.10
52.07 53.30 54.76 55.24 57.05 59.30
52.22 53.32 54.78 55.28 57.18 60.58
52.38 53.39 54.93 55.56 57.31 63.15
Cette série statistique ainsi obtenue, à savoir (x1 , x2 , . . . , xn ) est donc considérée comme la réalisation
d’un échantillon (X1 , X2 , . . . , Xn ) de la variable aléatoire X de loi N (µ, σ) , dite échantillon gaussien-
.
2. On suppose que ces valeurs sont des résultats de variables aléatoires notées x et v 2 .
Donner une estimation “sans biais” des paramètres µ et σ 2 de la loi de probabilité des
observations.
Pour la moyenne d’une loi
1
x = (x1 + x2 + · · · + xn )
n
est un estimateur sans biais de la moyenne tandis que l’estimateur empirique de la variance
1
σ 2n = ((x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2 )
n
n’en est pas un.
Pour obtenir un estimateur sans biais de la variance on définit un estimateur appelé variance
corrigée d’échantillon noté s2 ou
1
σ 2n−1 = ((x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2 ).
n−1
La raison de ce choix est liée au fait qu’é la fois la moyenne et la variance sont inconnues.
3. On peut en déduire une estimation s du paramètre σ.
n
Réponse : x = 55, 083 et s2 = n−1 v 2 = 7, 1951 et s = 2, 6824.
4. Si on connaı̂t exactement les paramètres µ et σ, la loi de probabilité de X est une loi normale
de moyenne µ et d’écart-type √σn .
Si on ne connaı̂t que l’échantillon et si on suppose que la dimension n de l’échantillon est
supérieure ou égale à 30, la loi approchée de X est une loi normale de moyenne x et d’écart-
type √sn .
Réponse :
Si l’on suppose que la dimension n de l’échantillon est supérieure ou égale à 30 on peut
considérer dans le cas où on ne connaı̂t que l’échantillon, qu’approximativement X ∈ N (55, 083, 0, 4471
Application 2.1.7 En supposant que l’écart-type est connu et vaut 3, 2g donner un intervalle de
confiance au niveau 95 % puis 98 % pour la moyenne de la masse d’un oeuf.
33
Réponse :
v0,025 = 1, 96 et [54, 038, 56, 128] pour le niveau de confiance 95% et v0,01 = 2, 3263 et [53, 842, 56, 323]
pour le niveau de confiance 98%.
Variance σ 2 inconnue
Si (X1 , X2 , . . . , Xn ) est un échantillon gaussien N (µ, σ) de moyenne µ inconnue et de variance σ 2
inconnue, on peut donner alors un intervalle de confiance au niveau 1−α pour la moyenne d’un oeuf
grâce à la formule suivante valable à condition que la taille de l’échantillon soit au moins égale à 30 :
s s
x − v α2 √ , x + v α2 √
n n
où s2 est la variance corrigée d’échantillon.
Application 2.1.8 En supposant que l’écart-type est inconnu et estimé donner un intervalle de
confiance au niveau 95% puis 98% pour la moyenne de la masse d’un oeuf.
Réponse :
v0,025 = 1, 96 et [54, 207, 55, 959] pour le niveau de confiance 95% et v0,01 = 2, 3263 et [54, 043, 56, 123]
pour le niveau de confiance 98%.
2.2 Tests
2.2.1 Test d’une proportion
Test d’une proportion -cas d’un test bilatéral-
Des études antérieures ont montré que le pourcentage des gauchers dans l’ensemble de la po-
pulation marocaine est de 10%. En d’autres termes, on suppose que si on choisit un individu au
hasard dans la population marocaine, la probabilité que cette personne soit gauchère est p0 = 0, 10.
On se demande si cette hypothèse est vérifiée pour les étudiants de Sciences.
On suppose que la proportion de gauchers parmi les étudiants de sciences est p (valeur inconnue de
nous ) et on veut tester si p est égal à p0 . ou différent de p0 .
On observe alors un groupe de n étudiants de DEUG-Sciences et on fait l’hypothèse que, pour ce
caractère de latéralité, cet échantillon est représentatif de la population marocaine (tout étudiant
de DEUG–Sciences est, indépendamment des autres étudiants, soit gaucher, avec la probabilité p
soit droitier, avec la probabilité 1 − p).
On prend un échantillon constitué de l’ensemble des étudiants présents actuellement dans la
salle où se tient ce cours (la taille N est donc à expliciter).
On note η (resp. F ) la v.a. égale au nombre (resp. à la proportion) de gauchers que l’on va trouver
dans cet échantillon : F = Nη .
Si la réalisation f de la variable F est voisine de p0 on aura tendance à accepter cette hypothèse,
si f est éloignée de p0 on sera amené à la refuser, on cherche donc un intervalle de la forme [f1 , f2 ]
contenant p0 tel que si f appartient à cet intervalle on accepte l’hypothèse sinon on la refuse.
1. Si p0 est la proportion de gauchers parmi les étudiants en sciences.
Quelle est la loi exacte de η puis la loi approchée de η et de F ainsi que l’espérance mathématique
de ces variables aléatoires.
34
Réponse :
N ∈ B(n, p0 ) pour les effectifs, F ∈ B(n, p0 ) pour les fréquences et dans le cadre de l’approxi-
mation normale (np0 (1 − p0 ) ≥ 8)
p
N ∈ N np0 , np0 (1 − p0 )
et r !
p0 (1 − p0 )
F ∈N p0 , .
n
2. p0 étant toujours la proportion de gauchers parmi les étudiants en sciences, soit α un nombre
positif compris entre 0 et 1.
On se place du point de vue des partisans de l’hypothèse H0 . Pour les faire changer d’avis, il faut
pouvoir les convaincre, c’est-à-dire que les faits observés contredisent nettement la validité de H0 .
Les partisans de H0 décident qu’ils ne sont pas prêts à accepter H1 que si la probabilité de se
tromper dans ce cas ne dépasse pas α que l’on peut choisir égal à 0, 05.
Si H0 est vraie, F a une probabilité supérieure à 1 − α d’être dans l’intervalle [f1 , f2 ].
Pour cette raison on met en oeuvre le test de la manière suivante :
Si la réalisation f n’est pas dans l’intervalle [f1 , f2 ], on dit alors que f est dans la région critique
notée C, on optera pour H1 avec une probabilité α de se tromper. Si la réalisation f est dans
l’intervalle [f1 , f2 ], on optera pour H0 faute de preuves suffisantes.
Réponse :
Dans le cadre de l’approximation normale :
" r r #
p0 (1 − p0 ) p0 (1 − p0 )
[f1 , f2 ] = p0 − v α2 , p0 + v α2 ,
n n
ce qui donne :
[f1 , f2 ] = [0, 063, 0, 137],
on remarque que f = 0, 12, f appartient à l’intervalle [f1 , f2 ].
On décide de conserver l’hypothèse H0 , mais rien ne dit que l’on ne se soit pas trompé. Si les
partisans de H1 ont raison, étant donné la règle de décision adoptée, on commettrait une erreur
chaque fois que la réalisation f est en dehors de [f1 , f2 ], c’est-à-dire que la probabilité de se tromper
est alors
PH1 (F ∈ [f1 , f2 ]),
c’est l’erreur de deuxième espèce .
Les 2 hypothèses ne jouent pas des rôles symétriques, f1 et f2 sont déterminés uniquement par
H0 et α.
L’erreur de première espèce est
Décision
Réalité H0 H1
H0 Conforme Erreur de 1ére espéce
H1 Erreur de 2ème espéce Conforme
Ces erreurs sont antagonistes, Car on diminue l’erreur de première espèce en diminuant le région
critique C, mais alors l’erreur de deuxième espèce augmente.
Hypothése à tester H0 : p = p0 ,
Hypothése alternative H1 : p > p0
Il s’agit ici d’un test unilatéral. La région de rejet C est toute entière située à l’extrémité droite de
l’intervalle [0, 1]
36
1. Soit α un nombre positif compris entre 0 et 1. Déterminer alors la région telle que P(F >
fc ) < α.
Réponse :
Dans le cadre de l’approximation normale :
r
p0 (1 − p0 )
fc = p0 + vα .
n
2. Expliciter le calcul avec α = 0, 05 et l’exemple précédent.
Réponse :
Dans le cadre de l’approximation normale :
v0,05 = 1, 6449
et
fc = 0, 131.
et parmi ces deux hypothèses, une seule est juste mais on ignore laquelle.
Le test consiste à définir sur quelle statistique on se base pour prendre cette décision de choix
entre H0 et H1 , et quelles sont les valeurs de cette statistique qui conduiront à rejeter H0 au bénéfice
de H1 .
On note encore F la variable aléatoire égale à la proportion de gauchers dans un échantillon de
taille n.
1. Quelle est la loi approchée de F sous chacune des hypothèses H0 et H1 ?
Réponse : p p
F ∈ N (0, 10, 0, 10(1 − 0, 10)/540) sous l’hypothèse H0 , F ∈ N (0, 10, 0, 04(1 − 0, 04)/540)
sous l’hypothèse H1 . On choisit le risque de première espèce α à 0,05, probabilité de décider
H1 si H0 est l’hypothèse vraie.
2. Dans quel intervalle [0, fc ] doit se situer le pourcentage observé f de gauchers sur les 540
étudiants pour rejeter H0 .
Quelle est donc la décision concernant p ?
Réponse :
On cherche fc le plus grand possible tel que PH0 (F < fc ) = 0, 05, le fractile inférieur 0, 05 de
la loi normale est égal à −1, 6459, on a donc fc = 0, 07876.
37
3. Quel est alors le risque de seconde espèce, c.é.d. la probabilité de décider H0 alors que H1 est
vraie ?
Réponse :
On calcule PH1 (F > fc ) = 1 − G(4, 59) ' 0.
H0 : µ = µ0 = 53g
contre
H1 : µ = µ0 = 56g
Il s’agit ici d’un test d’hypothèses simple au risque α. On détermine d’abord une valeur mc
la plus petite possible telle que
P(X > mc ) < α,
on accepte H0 si x ≤ mc et on refuse H0 dans le cas contraire.
On a
σ
mc = µ0 + vα √
n
puisque la variance est connue.
Réponse :
On a v0,05 = 1, 6459 et mc = 53, 878 pour le seuil 5% et v0,02 = 2, 0537 et mc = 54, 095 pour
le seuil 2%
On a x = 55, 0830 on refuse donc l’hypothèse aux 2 seuils.
2. Dans les mêmes conditions, tester au seuil 5% puis 2% l’hypothèse
H0 : µ = µ0 = 53g
contre
H1 : µ = µ0 6= 53g
Il s’agit ici d’un test bilatéral au risque α. On détermine un intervalle [m1 , m2 ] où m1 est la
valeur la plus grande possible telle que
α
P(X < m1 ) <
2
38
Phénotypes AB Ab aB ab
Eff.observés 100 18 24 18
Au seuil 5% et vu de cet échantillon, peut-on admettre que les lois de Mendel sont vérifiées pour
ces caractères ?
L’adéquation entre l’hypothèse H0 “la loi de Mendel est vérifiée” et l’observation est mesurée par
la distance entre la distribution théorique et la distribution observée, c’est-à-dire par une fonction
des écarts entre les modalité observées Ni et les modalités théoriques nπ i des différentes situations.
9
Par exemple NAB = 100 est l’effectif observé pour le phenotype AB, tandis que π AB = 16 est la
probabilité d’avoir un individu de ce type, n = 160 est l’effectif total de l’échantillon, on a donc
nπ AB = 90.
La fonction retenue parmi toutes celles qui sont possibles, est la somme, pondérée par l’inverse des
40
- Calculer la probabilité qu’une variable aléatoire X suivant la loi normale N (53, 3, 2) se réalise
dans l’intervalle [44 − 48[.
- En déduire le nombre moyen de réalisations parmi 250 qui se réalisent dans cet intervalle
(effectif théorique).
- Faire les mêmes calculs pour les 4 autres classes.
- Calculer l’indicateur du χ2 entre la répartition observée et la répartition théorique.
41
- Si on fixe le risque d’erreur α (risque de rejeter l’hypothèse de normalité alors qu’elle est vraie)
à 0.05, quelle conclusion doit-on prendre ?
Ce qui change ici c’est le calcul des effectifs théoriques qui sont obtenus en utilisant la loi normale.
Réponse : α = 5% , ∆ = 4, 37 , ν = 4 et c = 9, 49
On peut préciser que les effectifs théoriques obtenus avec la loi normale de moyenne 53g et d’écart-
type 3, 2g sont :
14.16 , 51.73 , 58.50 , 81.44 , 42.01 .
L’hypothèse est acceptée.
Ce qui change ici c’est le calcul des effectifs théoriques qui sont obtenus en utilisant la loi normale.
Réponse :
α = 5% , ∆ = 1, 18 , ν = 4 et c = 9, 49
On peut préciser que les effectifs théoriques obtenus avec la loi de poisson de paramètre λ = 6, 5
sont :
44.73 , 29.07 , 31.50 , 53.01 , 41.61 . L’hypothèse est acceptée.
Groupe sanguin A B AB O
en % 45.3 7.4 3.3 44
On a examiné un groupe de 360 individus et on a observé des pourcentages par groupe sanguin de :
Groupe sanguin A B AB O
% observés 43.2 8.2 6 42.6
Masse des oeufs Nb. d’oeufs Largeur des classes Densité des observations
(en g) (Effectifs) (amplitude) (en effectifs) (en probabilité)
(xi ) (ni ) (Li ) (Hi = Lnii ) Hi
(hi = 250 )
(hauteurs des rectangles)
[44 - 48 [ 19 4 4,75 0,019
[48 - 51 [ 42 3 14 0,056
[51 - 53 [ 58 2 29 0,116
[53 - 56 [ 83 3 27,67 0,111
[56 - 61 [ 48 5 9,6 0,038