Cours Stat Fevrier09

Introduction à la statistique descriptive
M’hamed Eddahbia et Idir Ouassoub

a
Université Cadi Ayyad, Département de Mathématiques
et d’Informatique, Faculté des Sciences et Techniques
B.P. 549, Guéliz, Marrakech, Maroc.
e–mail : eddahbi@fstg-marrakech.ac.ma
mhamed.eddahbi@gmail.com
b
Université Cadi Ayyad, École nationale des Sciences appliquées
Guéliz, Marrakech, Maroc.
e–mail : idir.ouassou@ensa.ac.ma
iouassou@yahoo.fr
Février 2008
2 M’hamed Eddahbi et Idir Ouassou
Table des matières
I Statistique 5
0.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1 Statistique Descriptive - Etude d’un caractère numérique 9

1.1 Éléments de base de la Statistique Descriptive . . . . . . . . . . . . . . . . . . . . . 9
1.1.1 Population - Individus, Pondération des individus . . . . . . . . . . . . . . . 9
1.1.2 Caractère statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.3 Classification des caractères . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.1.4 Caractère numérique défini sur une population statistique . . . . . . . . . . . 11
1.2 Distribution d’un caractère numérique . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Fonction de répartition de X . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Partition de R en classes d’intervalles . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.1 Fréquence d’un intervalle et densité des observations . . . . . . . . . . . . . 13
1.3.2 Choix du découpage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.3 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.4 Courbe cumulative ou fonction de répartition . . . . . . . . . . . . . . . . . 15
1.4 Valeurs centrales d’un caractère numérique . . . . . . . . . . . . . . . . . . . . . . . 15
1.5 Paramètres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.1 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.5.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.3 Caractère discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.4 Caractère continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5.5 Médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.6 Variance et Écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.5.7 Les quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.8 Le mode ou la classe modale . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.5.9 Le milieu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6 Les paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6.1 L’étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6.2 L’écart interquartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6.3 L’écart absolu moyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6.4 Le coefficient de variation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.6.5 Le coefficient d’asymétrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.6.6 Le coefficient d’aplatissement . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4 M’hamed Eddahbi et Idir Ouassou
2 Estimation et tests 29
2.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.1 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.2 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.1 Test d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.2.2 Test d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3 Ajustement à une loi théorique - Test du χ2 39

3.1 Test d’ajustement à une loi discrète connue . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Test d’ajustement à une loi normale de paramètres connus . . . . . . . . . . . . . . 40
3.3 Ajustement à une loi de Poisson de paramètre connu . . . . . . . . . . . . . . . . . 41
3.4 Comparaison d’une répartition observée et d’une répartition théorique . . . . . . . . 41
Première partie
Statistique
7
0.1 Introduction
La statistique est une branche scientifique ayant divers applications dans plusieurs domaines
(biologie, génétique, finance, chimie, géologie physique etc...). Cette discipline est constitué par
un ensemble de méthodes mathématiques basée sur les observations d’événements réels à partir
desquelles on analyse les phénomènes auxquels on s’intéresse.
On distinguera essentiellement deux type de statistique
1. La Statistique Descriptive,
2. La Statistique Predictive.
L’étude statistique d’un phénomène peut être réaliser en trois étapes :
1. recueil de données,
2. classement et réduction de ces données (statistique descriptive),
3. analyse de ces données visant à la déduction de prévisions (statistique predictive).
8
Chapitre 1
Statistique Descriptive - Etude d’un

caractère numérique
1.1 Éléments de base de la Statistique Descriptive

1.1.1 Population - Individus, Pondération des individus
Toute étude de statistique descriptive nécessite la donnée :
1. d’un ensemble Ω parfaitement défini, appelé population (animaux , personnes, voitures,
etc...) et dont les éléments sont appelés individus ou unités statistiques. On considère uni-
quement le cas où Ω est fini. Son cardinal N est la taille ou l’effectif de la population et on
posera Ω = {ω 1 , ω 2 , . . . , ω N }.
2. d’une pondération des individus : à chaque individu ω i on affecte une valeur positive pi , appelé
son “poids”. Cette valeur donne l’importance de cet individu au sein de la population. Le
poids d’une sous-population E est
X
P(E) = pi .
i/ω i ∈E
On pourra toujours se ramener au cas où les poids sont “normalisés”, dans le sens où la somme
de ceux-ci est égale à 1 (si la somme des poids est différente de 1, on divise chaque pi par
cette somme).
Lorsqu’une série comporte un grand nombre de valeurs, on cherche à la résumer, si possible, à
l’aide de quelques nombres significatifs appelés paramètres.
Définition 1.1.1 Si tous les individus jouent des rôles de même importance, on dit que la popula-
tion est équipondérée.
Dans ce cas le poids de chaque individu est pris égal à 1 (le poids d’une partie est alors son
effectif), ou à N1 si la population comporte N individus (le poids d’une partie est la proportion des
éléments de cette partie par rapport à l’effectif total) ou encore à 100
N
(le poids d’une partie est égal
au pourcentage des éléments de cette partie).
En résumé, une population pondérée est la donnée d’un couple (Ω,P).
On distinguera le cas où les individus sont permutables du cas où ils sont naturellement
ordonnés (s’il s’agit de relevés temporels).
10
1.1.2 Caractère statistique

Le but de la statistique descriptive est en général de décrire certaines caractéristiques ou pro-
priétés concernant les individus et ayant une certaine variabilité (tous les individus n’ont pas la
même valeur). Pour étudier une telle caractéristique, on a besoin d’un “instrument de mesure” de
celle-ci qui permet d’en relever les valeurs. Ces valeurs appartiennent à un certain ensemble M , fini
ou infini, dont les éléments sont des modalités.
A chaque individu, on associe alors une, et une seule, modalité ; ce qui définit un caractère
statistique ou une variable statistique comme une application X de Ω dans un ensemble M
dont les éléments sont les “modalités du caractère”.
Bien entendu, l’étude peut porter sur une ou plusieurs caractéristiques et on pourra faire l’étude
d’un seul caractère (statistique univariée) ou simultanément de deux ou plusieurs caractères (sta-
tistique bivariée ou multivariée). Dans ce dernier cas, l’observation se fait dans un espace produit
M1 × M2 × . . . × MN .
Au caractère X est donc associée la suite des valeurs (x1 , x2 , . . . , xN ) où xi = X(ω i ). De plus, si
l’individu ω i a le poids pi , on affecte ce poids à sa valeur xi .
Définition 1.1.2 La suite (xi , pi )i=1,...,N est appelée série statistique associée à X.
1.1.3 Classification des caractères

On classe souvent les différents caractères selon la “nature mathématique” de l’ensemble des
modalités M c’est-à-dire selon la structure connue de l’ensemble M . On retiendra le plus souvent
les trois cas suivants :
- Si l’ensemble M est fini et n’est muni d’aucune structure (en particulier pas de structure
d’ordre), le caractère X est dit caractère nominal. C’est le cas quand on demande à chaque
individu de répondre à une question en choisissant une et seule modalité d’une liste de possi-
bilités.
- Si l’ensemble M est fini et est muni d’une structure d’ordre naturelle, le caractère X est dit
caractère ordinal. C’est le cas en particulier quand, à chaque individu, est associée une
classe d’une partition de R (classe d’âge, de salaire ...) en classes ordonnées. Un tel caractère
ordinal est dit alors semi-quantitatif.
- Si l’ensemble M est un sous-ensemble de R muni de ses structures d’ordre et d’espace vectoriel,
le caractère X est dit caractère numérique ou quantitatif.
On distingue deux types de caractère :
RESUME
1. Caractère quantitatif : c’est un caractère auquel on peut associer un nombre c’est-à-dire,
pour simplifier, que l’on peut ”mesurer”. On distingue alors deux types de caractère quanti-
tatif :
(a) Caractère quantitatif discret : c’est un caractère quantitatif qui ne prend qu’un
nombre fini de valeurs. Par exemple le nombre d’enfants d’un couple.
(b) Caractère quantitatif continu : c’est un caractère quantitatif qui, théoriquement, peut
prendre toutes les valeurs d’un intervalle de l’ensemble des nombres réels. Ses valeurs
sont alors regroupées en classes. Par exemple la taille d’un individu, le nombre d’heures
passées devant la télévision.
11
2. Caractère qualitatif : Couleur, sexe, profession, nationalité, scort etc...
1.1.4 Caractère numérique défini sur une population statistique

Considérons un caractère numérique X défini sur une population (Ω, P) ; à chaque individu, on
associe un nombre considéré comme une vraie valeur numérique pouvant être soumise aux opérations
arithmétiques et non utilisé comme un code.
Cas de l’équipondération
- Si les individus sont équipondérés, la série statistique associée à X est définie par la suite
(x1 , x2 , . . . , xN ) de N nombres réels que l’on appellera série statistique simple.
- Si les individus sont permutables (c’est-à-dire s’il n’y a pas d’inconvénient à les ordonner selon
un ordre différent), il est possible d’associer à cette série statistique (considérée comme série
statistique brute) la série statistique ordonnée qui consiste à écrire les N nombres xi par
valeurs croissantes (ou décroissantes).
En général une série statistique à caractère discret se présente sous la forme :
Valeurs x1 x2 ............ xk
Effectifs n1 n2 ............ nk
Fréquences f1 = nN1 f2 = nN2 . . . . . . . . . . . . fk = nNk
Souvent on notera N l’effectif total de cette série donc

k
X
N= ni = n1 + n2 + . . . + nk .
i=1
On réécrire souvent ce tableau par le couple (xi , ni ).

Chaque série statistique simple (brute ou ordonnée) peut faire l’objet d’une première représentation
graphique souvent utile mais d’élaboration difficile si la taille de la population dépasse quelques di-
zaines d’individus : on place chaque individu sur un axe horizontal gradué, et on trace pour chaque
individu ω i une barre verticale de longueur égale à la valeur numérique xi .
première figure : diagramme en bâtons.
Définition 1.1.3 Le graphique obtenu est un diagramme en bâtons.
1.2 Distribution d’un caractère numérique

Le caractère X, application d’un ensemble pondéré Ω dans un ensemble M , définit sur cet espace
M une pondération image PX . Appelons Y l’ensemble des modalités observées au moins une fois,
c’est-à-dire :
Y = X(Ω) = {y1 , y2 , · · · , yn }
La pondération image est définie par les poids de chacune de ces modalités yj , à savoir :
PX ({yj )} = P[X −1 (yj )] = qj

12
Définition 1.2.1 L’ensemble des couples {(yj , qj )j=1,...,n } forme la distribution du caractère X.
Selon la pondération choisie sur Ω, le poids qj de la modalité yj est son effectif, sa fréquence ou
son pourcentage.
Définition 1.2.2 Notons que l’opération pratique qui consiste à élaborer cette distribution, en parti-
culier, dans le cas de l’équipondération, à compter le nombre d’individus ayant fait la même réponse
yj est appelé un tri à plat.
Une seconde représentation graphique est alors possible : elle consiste à faire figurer sur un axe
horizontal gradué les modalités observées et à tracer, pour chaque modalité, un béton de longueur
égale à son poids (par exemple sa fréquence).
1.2.1 Fonction de répartition de X

Définition 1.2.3 La fonction de répartition de X ou courbe cumulative à la distribution (yi , qi )i=1,...,n
de la variable X est la fonction F qui à tout x de R, associe le poids des observations inférieures
ou égales à x : X
F [X] = qi = PX [−∞, x] = P[X ≤ x]
i/yi ≤x
Proposition 1.2.1 La fonction de répartition est une fonction en escalier continue à droite et
admettant ses sauts aux points yj . Si les poids sont normalisés, c’est une fonction croissante de 0
à 1.
La distribution d’un caractère X est souvent présentée en tableau, comme pour l’exemple sui-
vant :
13
Exemple 1.2.1 Lors d’une enquête auprès des étudiants, on a posé à 50 de ceux-ci la question
suivante :
Combien de films avez-vous vu en salle de cinéma durant de mois de Septembre ?
Après avoir fait un tri à plat de cette question, on observe 7 modalités différentes dont les effectifs
et les fréquences sont donnés dans le tableau suivant :
Nombre de films 0 1 2 3 4 6 9
Effectifs 6 10 14 7 10 2 1
Fréquences 0.12 0.20 0.28 0.14 0.20 0.04 0.02
Cette présentation en tableau et cette représentation ne sont plus appropriées dés que le nombre de
modalités observées est élevé. Dans ce cas on procède à des regroupements de modalités.
1.3 Partition de R en classes d’intervalles

On peut toujours considérer une partition de R (ou d’une partie de R) en K classes ordonnées
{C1 , C2 , . . . , CK } (généralement des intervalles de type [a, b[) et l’application C qui à chaque valeur
yj associe sa classe.
De ce fait l’application C ◦ X, de Ω dans l’ensemble des classes Ck définit un caractère ordinal
parfois appelé caractère semi-numérique.
Définition 1.3.1 La distribution de ce caractère est donnée par l’ensemble {(Ck , nk )k=1,...,K } où nk
est le poids de la classe Ck . Elle est généralement présentée selon un “tableau de distribution en
classes”.
Exemple 1.3.1 Supposons que l’enquête précédente comporte comme autre question : Quelle somme
avez-vous dépensée pendant le mois de Septembre pour l’ensemble de vos activités culturelles :
cinémas, concerts, livres autres que scolaires, CD ... .
La série statistique brute des réponses comporte probablement 50 modalités différentes, ayant cha-
cune un effectif de 1. Il est préférable alors de regrouper ces réponses en commençant par déterminer
des “classes de dépense” : moins de 200 DH, de 200 à 500 DH, etc...
La distribution se présente généralement sous la forme suivante :
Dépenses mensuelles (en DH) Nombre d’étudiants
[0 − 200[ 18
[200 − 500[ 21
[500 − 900[ 8
[900 − 1000[ 3
Étudions plus en détails de telles distributions en classes.
1.3.1 Fréquence d’un intervalle et densité des observations

Considérons un intervalle (a, b) dans l’ensemble des modalités du caractère étudié, par exemple
la plage (200 − 500) si on étudie les dépenses culturelles. Notons qu’une telle plage porte parfois le
nom de classe (classe d’âge entre 25 et 35 ans) ou de tranche (tranche des salaires compris entre
4000 et 6000 DH).
Un tel intervalle (a, b) étant fixé.
14
Définition 1.3.2 On appelle effectif de cet intervalle pour le caractère X, le nombre des valeurs
ni qui se trouvent dans cet intervalle.
On appelle fréquence, la proportion de ces observations par rapport au nombre total d’individus.
Exemple 1.3.2 Dans l’exemple ci-dessus, l’effectif de la classe [0 − 200[ est 18 et sa fréquence est
de 18
50
= 0, 36.
L’effectif et la fréquence d’un intervalle dépendent de la longueur -l’amplitude- de cet intervalle :

si on augmente l’amplitude d’un intervalle, son effectif augmente. Pour une meilleure connaissance
de la localisation des observations, il est plus judicieux de s’intéresser au rapport entre l’effectif ou
la fréquence d’un intervalle et sa longueur.
Définition 1.3.3 On appelle densité d’effectif du caractère numérique X sur l’intervalle (a, b)
(avec bien entendu a < b) le rapport entre l’effectif de cet intervalle et son amplitude, à savoir
(b − a).
Exemple 1.3.3
18
- Sur l’intervalle [0 − 200[, la densité est de 200
= 0, 09.
- Notons que cette notion de densité est celle que l’on rencontre par exemple en géographie
humaine quand on parle de densité de population dans une région donnée : on calcule le rapport
entre le nombre d’habitants et la superficie de la région pour avoir le nombre d’habitants au
km2 .
Définition 1.3.4 On peut aussi définir la densité de fréquence ou fréquence unitaire en

divisant la fréquence d’un intervalle par l’amplitude de cet intervalle.
Remarque 1.3.1 La densité de fréquence sur l’intervalle (0 − 200) est 0,36 200
= 0, 0018.
Notons que la densité de fréquence est déduite simplement de la densité d’effectif en divisant celle-ci
par le nombre total des individus (par exemple 50 dans l’exemple sur la population d’étudiants).
1.3.2 Choix du découpage

Pour étudier la répartition des observations, il est commode de “découper” l’ensemble des moda-
lités en classes disjointes ; on réalise une partition de l’ensemble R des nombres réels en N intervalles
à l’aide de points de coupure -les bornes- (b0 , b1 , . . . , bK ).
Le choix du nombre K de classes et celui des bornes bi sont faits par l’utilisateur. En général,
on choisit pour plus petite borne b0 une valeur inférieure à la plus petite valeur observée et pour
plus grande borne bK une valeur supérieure à la plus grande des valeurs observées. Pour une plage
[b0 , bK ] fixée, si des observations sont extérieures à cet intervalle, cela signifie que l’on abandonne
les individus correspondants (valeurs aberrantes). Cette élimination de certains individus est dite
“extraction des valeurs extrêmes”.
Les bornes bi étant fixées, on réalise en pratique la partition en prenant les intervalles du type :
[b0 , b1 [, [b1 , b2 [, [b2 , b3 [, · · · , [bK−1 , bK ].
Pour chacun de ces intervalles, on détermine son effectif et on calcule sa densité d’effectif ; on
peut aussi calculer sa fréquence et sa densité de fréquence.
15
1.3.3 Histogramme
Définition 1.3.5 Un histogramme est la représentation graphique adaptée à l’étude d’un ca-
ractère numérique lorsque l’on a choisi une partition dans l’ensemble des modalités de ce caractère
et que l’on a calculé, pour chaque intervalle, sa densité : c’est le graphique qui permet de visualiser,
pour chaque intervalle, sa densité.
La construction pratique d’un histogramme nécessite donc les étapes suivantes :

1. Les bornes étant déterminées, on trace un axe horizontal sur lequel on fait figurer ces bornes.
Insistons sur le fait que cet axe est gradué suivant les valeurs du caractère étudié (en années
pour les âges, en DH pour un salaire, en centimètres pour une taille, en minutes pour un
temps...).
2. On calcule pour chaque classe sa densité en divisant l’effectif ou la fréquence de cet intervalle
par sa longueur.
3. On trace un axe vertical gradué de telle sorte que puissent y figurer toutes les valeurs des
densités ainsi calculées.
Notons que ces deux échelles correspondant aux densités d’effectif et aux densités de fréquence
ne différent que par un facteur N égal au nombre total des individus.
4. Sur chaque intervalle de la partition, on construit un rectangle dont la hauteur est égale à
la densité de cet intervalle. En d’autres termes la surface de chaque rectangle représente soit
l’effectif de la classe (si l’axe vertical est gradué selon la densité d’effectif), soit la fréquence
de la classe (si on a utilisé la densité de fréquence).
Remarquons que si tous les intervalles sont de même amplitude, égale à L, il suffit de représenter
en hauteur l’effectif de la classe car il y a alors proportionnalité entre les densités et les effectifs
(densité=effectif/L).
1.3.4 Courbe cumulative ou fonction de répartition

On peut aussi définir et tracer la fonction de répartition, fonction numérique F définie sur
R et telle qu’é tout x, on associe le nombre des observations inférieures ou égales à x. Comme on
ignore les valeurs individuelles, on suppose que les valeurs sont uniformément réparties dans chaque
classe.
La courbe représentative ou courbe cumulative est dans ce cas une courbe continue qui se
présente alors comme une succession de segments de droite. La valeur en une borne bk est égale
au cumul des valeurs des intervalles jusqu’é bk . Cette courbe passe donc par les points (bk , F (k)),
c’est-à-dire les points (“limite supérieure d’une classe, effectif cumulé”).
Dans l’exemple sur les dépenses culturelles, la courbe cumulative passe par les points ((0,0),
(200,18), (500,39), (900,47), (1000,50)). On complète par des segments de droite entre ces points.
1.4 Valeurs centrales d’un caractère numérique

Ils permettent de connaı̂tre l’ordre de grandeur des données, quelle est la tendance du caractère,
ceci par rapport à une unité choisie. Cela permet ainsi de positionner les données lorsque l’échelle
est déterminée.
16
Face à une série statistique numérique, il est parfois utile de la synthétiser ou de la résumer à
l’aide d’une ou de deux valeurs que l’on appellera des indicateurs. Ceux-ci sont essentiellement de
deux types :
1. soit des indicateurs de valeurs centrales qui précisent le milieu de la série,
2. soit des indicateurs de dispersion qui mesurent le degré d’éparpillement ou d’étalement des
valeurs.
Le choix de ces indicateurs dépend bien entendu de l’usage que l’on veut en faire. Ils sont
quelquefois suffisants pour comparer deux séries ou pour suivre l’évolution d’un caractère au cours
du temps. Notons aussi que, comme tout indicateur statistique, leur utilisation nécessite du bon
sens et de la prudence car ils ne donnent qu’une information partielle sur les données recueillies.
1.5 Paramètres de position

Ils permettent de connaı̂tre l’ordre de grandeur des données, quelle est la tendance du caractère,
ceci par rapport à une unité choisie. Cela permet ainsi de positionner les données lorsque l’échelle
est déterminée.
1.5.1 Moyenne
Moyenne d’une série statistique
Si par exemple on mesure la taille (en mètres) de N individus on aura comme données, N
nombres réels x1 , x2 , . . . , xN . La valeur significative sera la valeur moyenne :
x 1 + x2 + · · · + xN
m= .
N
Mais cette taille moyenne n’est pas forcément à elle seule représentative de la distribution du
caractère étudié : si on a pris une population mélangée d’adultes et d’enfants, on peut obtenir la
même moyenne sans que pour autant le caractère taille soit distribué de la même manière dans les
deux populations.
Un renseignement supplémentaire sera fourni par des mesures de la dispersion du caractère. On
peut par exemple mesurer les écarts entre les tailles des individus et la moyenne :
|x1 − m| , |x2 − m| , · · ·, |xN − m| ,
puis faire la moyenne de ces écarts. On obtient ainsi l’écart moyen (é la moyenne)
N
1 X
e= |xi − m|
N i=1
(on peut aussi mesurer l’écart moyen à une constante c i.e. N1 N

P
i=1 |xi − c|)
Si ce nombre e est “petit”, les tailles sont “assez proches” de la moyenne : la population est “assez”
homogène. En particulier si e = 0, |xi − m| = 0 et donc xi = m (pour i = 1, . . . , N ).
17
Pour des raisons mathématiques, on préfère à l’écart moyen une autre mesure de la dispersion,
l’écart quadratique moyen, ou écart–type :
N
! 21
1 X
σ= (xi − m)2
N i=1
2 12
(de même qu’on préfère la distance euclidienne ( N
P PN
i=1 (xi − yi ) ) à la distance i=1 |xi − yi |.
On peut encore améliorer la connaissance de la répartition du caractère en calculant des écarts
d’ordre supérieur :
N
! k1
1 X
(xi − m)k (k ≥ 1).
N i=1
Définition 1.5.1 étant donné un caractère numérique X ou la série statistique pondérée X =

(xi , pi )i=1,...,N définie par ce caractère, on appelle moyenne arithmétique -ou tout simplement
moyenne s’il n’y a pas d’ambiguı̈té sur le choix de l’indicateur- le nombre noté x̄ ou m[X] défini
par :
p 1 x1 + p 2 x2 + · · · + p N xN
x̄ =
p1 + p2 + · · · + pN
Plus généralement quand le caractère X est défini par sa distribution (yi , ni )i=1,2,...,n , cette moyenne
peut se calculer directement à l’aide de ces éléments :
n1 y1 + n2 y2 + · · · + nn yn
x̄ =
n1 + n2 + · · · + nn
On vérifiera, le cas échéant sur des exemples, les propriétés suivantes :

1. si toutes les valeurs d’un série statistique sont augmentées d’une quantité constante (positive
ou négative) a, la moyenne est augmentée de a.
2. si toutes les valeurs d’une série statistique sont multipliées par une constante non nulle b, la
moyenne est multipliée par b.
3. si une population est partagée en sous-populations, et si on connaı̂t la valeur moyenne d’un
caractère pour chaque sous-population, la moyenne du caractère pour l’ensemble des indi-
vidus est la moyenne pondérée des différentes moyennes, les poids étant les effectifs (ou les
pourcentages correspondant) des différentes sous-populations.
Exemple 1.5.1 Une section d’étudiants est partagée selon deux sous-sections : le groupe A formé
de 40 étudiants ; le groupe B formé de 220 étudiants. A chaque étudiant on associe sa note obtenue
lors d’un contrôle. La moyenne des notes des étudiants A est 14.5 ; la moyenne des notes des B est
de 11.2. La moyenne des notes des 260 étudiants est : x̄ = 14,5×40+11,2×220
260
= 11, 71
Calcul de la moyenne dans le cas d’une distribution en classes

La présentation des données sous forme de distribution en classes fournit un cas particulier de
série pondérée. En effet si on considère une classe (bk−1 , bk ) quelconque, son effectif nk correspond à
nk valeurs que l’on suppose implicitement réparties uniformément sur l’intervalle. On admet alors
18
pour le calcul de la moyenne que toutes ces observations sont égales à la valeur centrale de la classe,
en général son milieu ck = bk−12+bk .
Dés lors on calcule la moyenne de la série pondérée (ck , nk )k=1,...,K .
On vérifiera par exemple que la dépense moyenne des 50 étudiants est de 352 DH.
Résumé sur les paramètres de position : les quartiles
Comme pour la médiane qui permet de partager l’effectif en deux effectifs égaux, intuitivement,
les quartiles sont des nombres qui partagent la série statistique en quatre parties qui ont toutes
”sensiblement” le même nombre de termes, c’est-à-dire 25% de l’effectif total.
1.5.2 Définitions
Définition 1.5.2
Le premier quartile Q1 est la plus petite valeur du caractère telle qu’au moins 25% des termes de la
série aient une valeur du caractère qui lui soit inférieure ou égale.
Le troisième quartile Q1 est la plus petite valeur du caractère telle qu’au moins 75% des termes de
la série aient une valeur du caractère qui lui soit inférieure ou égale.
Remarque :
Les définitions en statistique ne sont pas figées. . .certaines calculatrices et logiciels utilisent une
définition différente ce qui explique que les résultats obtenus à l’aide de la ”machine” soit différents
de ceux donnés par la définition 1.5.2
1.5.3 Caractère discret

Dans ce cas, la définition 1.5.2 se traduit comme suit :
On commence par classer les valeurs xi par ordre croissant, chacune d’elles répétées autant de fois,
dans cette liste, que son effectif ni , alors :
– Si N4 est un entier, le premier quartile Q1 est le terme qui dans cette liste occupe le rang N4
et le troisième quartile est le terme de rang 3N 4
.
– Si N4 n’est pas un entier, le premier quartile Q1 est le terme de rang immédiatement supérieur
à N4 et le troisième quartile est le terme de rang immédiatement supérieur à 3N
4
.
1.5.4 Caractère continu

Dans ce cas on ne connaı̂t pas chaque valeur du caractère il est donc impossible de mettre en place la
définition. On se contente alors de valeurs approchées (sans connaı̂tre la précision . . .) des quartiles.
Pour cela différentes procédures sont possibles :
– On peut comme pour la médiane, tracer le polygone des fréquences cumulées croissantes et
on ”adopte” les valeurs suivantes :
– Q1 est la valeur correspondant à la fréquence cumulée croissante égale 0, 25.
– Q3 est la valeur correspondant à la fréquence cumulée croissante égale 0, 75.
Quelques fois la lecture peut se faire sur la tableau des effectifs ou des fréquences cumulées
croissantes. . .
– On peut aussi se contenter des classes contenant Q1 et Q3
– On peut, avec l’hypothèse que la répartition dans chaque classe est régulière, remplacer chaque
classe par son centre pour se ramener à un cas discret.
19
Pour une série statistique simple à caractère discret, la moyenne se calcule par la formule :
PK
ni xi
m = i=1
n
Pour une série statistique simple à caractère réel (ou continu), la moyenne est donnée par la formule :
PK
ni ( ai +a2 i+1 )
m = i=1
n
où K est le nombre de valeurs (respectivement classes Ci = [ai , ai+1 [) distinctes du caractère, ni
l’effectif associé à ces valeurs (respectivement classes) et n l’effectif total. Lorsque la moyenne est
nulle , la série est dite centré.
1.5.5 Médiane
La médiane est un indicateur de valeur centrale souvent plus utile que la moyenne, et qui répond
au souci de trouver une valeur du caractère telle qu’il y a “autant d’observations plus petites que
cette valeur que plus grandes que cette valeur”.
Définition 1.5.3 En théorie, la médiane est la valeur xi pour laquelle la fonction de répartition
vaut 0, 5, (50%).
Il y a autant d’individus pour les quels la valeur de caractère est inférieure à la médiane que d’in-
dividus pour lesquels la valeur du caractère est supérieure à la médiane. Mais lorsqu’on calcule les
fréquences cumulées croissantes, on tombe rarement exactement sur la valeur 0, 5.
Ceci ne constitue pas une définition car il est possible qu’une telle valeur n’existe pas. Aussi, au
lieu d’en donner une définition générale quelque peu rébarbative, nous définirons la médiane dans
les 4 cas suivants :
Cas d’une série statistique simple avec un nombre impair de valeurs.

On suppose que la série a été ordonnée par valeurs croissantes et comporte n = 2k + 1 termes.
La médiane est la valeur correspondant à l’indice k + 1.
Pour 9 termes, la médiane est la 5ème valeur.
Cas d’une série statistique simple avec un nombre pair de valeurs.

On suppose encore que la série ordonnée par valeurs croissantes et qu’elle comporte n = 2k
termes. La médiane est le milieu de l’intervalle formé par les valeurs d’indice k et k + 1. Pour 8
termes, la médiane est le milieu de l’intervalle formé par les 4ème et 5ème valeurs.
Cas d’une série statistique pondérée

On suppose que la série est pondérée (la somme des poids étant ramenée à 1) ou qu’elle est
présentée, après un tri à plat, sous forme d’une distribution en fréquences. La médiane M est la
valeur du caractère telle que la somme des poids (ou des effectifs) de toutes les modalités inférieures
à M est inférieure ou égale à 12 et de même pour la somme des poids des modalités supérieures à
M.
20
Exemple 1.5.2 Si on considère de nouveau la distribution du nombre de films vus par 50 étudiants
en septembre :
Nombre de films 0 1 2 3 4 6 9
Effectifs 6 10 14 7 10 2 1
a médiane du nombre de films est M = 2 à vérifier.
Cas d’une distribution en classes

On appelle b0 , b1 , . . . , bK les bornes qui servent à délimiter les différents intervalles, nk l’effectif
de l’intervalle (bk−1 , bk ) et N l’effectif total : N = n1 + n2 + . . . + nK .
A chaque borne bk on associe son effectif ou son poids cumulé sk à savoir le nombre d’observations
inférieures ou égales à bk : sk = n1 + n2 + . . . + nk et on trace la courbe cumulative.
Pour tracer la courbe cumulative, appelée aussi fonction de répartition, on procède dans un
système d’axes orthogonaux de la façon suivante :
1. l’axe horizontal est gradué selon les valeurs du caractère. On y fait figurer en particulier les
différentes bornes bk .
2. l’axe vertical est gradué de 0 à N .
3. pour chaque borne, on marque les points de coordonnées (bk , sk ) c’est-à-dire on associe à
chaque borne le nombre des observations inférieures ou égales à cette borne.
4. on relie ces points par des segments de droite (suivant l’hypothèse que les valeurs réellement
observées mais inconnues dans cette répartition sont uniformément réparties dans l’intervalle
qui les contient).
La médiane est la valeur du caractère qui correspond sur cette courbe cumulative à une ordonnée
égale à N2 .
Cette valeur peut être lue sur le graphique si celui-ci est précis, mais peut aussi être déterminée
exactement par une “interpolation linéaire” dans l’intervalle médian, c’est-é-dire l’intervalle qui
contient la médiane.
Exercice 1.5.1 On déterminera par la méthode de l’interpolation linéaire la médiane pour la dis-
tribution en classes déjà rencontrée.
Calcul pratique de médiane.

Cas d’une série à caractère discret. En comptant toutes les données (ni fois la valeurs xi ),
on obtient n valeurs (n effectif total) : X1 , X2 , . . ., Xn . Après avoir trié ces valeurs dans l’ordre
croissant, on obtient les données ordonnées X(1) , X(2) , X(3) , . . ., X(n) , il faut alors distinguer deux
cas :
1. (a) n est impaire : la médiane est alors la valeur
med = X( n+1 )
2
(b) n est pair : la médiane est alors la valeur

X( n ) + X( n +1)
2 2
med =
2
21
Exemple 1.5.3 14 - 7 - 11 - 10 - 4 - 6 - 8. Le tri donne 4 - 6 - 7 - 8 - 10 - 11 - 14 comme

n est impaire, la médiane est la quatrième valeur, soit med = 8.
Exemple 1.5.4 14 - 7 - 11 - 10 - 4 - 6 - 8 - 16. Le tri donne : 4 - 6 - 7 - 8 - 10 - 11 - 14 -
16. Comme n est pair, la médiane est med = (8 + 10)/2 = 9.
On peut retrouver ce résultat graphiquement sur le diagramme cumulatif.
Cas d’une série à caractère réel. Si la série est à caractère réel, il est impossible de connaı̂tre
exactement la médiane mais on peut la déterminer approximativement par une interpolation linéaire.
1. (a) Graphiquement :
Nous pouvons construire le diagramme cumulatif ou fonction de répartition. Nous savons
par définition, que la médiane a pour fréquence cumulée croissante 0, 5. il suffit donc de
tracer la droite d’ordonnée 0, 5. Cette droite coupe la fonction de répartition en un point
dont l’abscisse est la médiane.
(b) Par calcul :
Soit la première classe dont la fréquence cumulée soit supérieure ou égale à 0, 5. Notons
la Ci = [ai−1 , ai [ et appelons Fi se fréquence cumulées. Si Fi = 0, 5, la médiane est
évidemment ai+1 . Cela arrive rarement. Dans le cas contraire, Fi > 0, 5. Considérons
alors les points A := (ai , Fi−1 ) et B := (ai+1 , Fi ). (Fi−1 est la fréquence cumulée de la
classe précédente Ci si celle-ci existe, 0 sinon). La droite D déterminée par ces deux
points passe par un point d’ordonnée 0, 5 dont l’abscisse est la médiane. L’équation de
cette droite est
(ai+1 − ai )
D : x − ai = (y − Fi−1 )
(Fi − Fi−1 )
la médiane correspond à x lorsque y vaut 0, 5 donc elle vaut
0, 5 − Fai
med = ai + (ai+1 )
Fi − Fi−1
Autre méthode : utiliser le théorème de Thalès pour obtenir
med − ai 0, 5 − Fi−1
=
ai+1 − ai Fi − Fi−1
Dans l’exemple ci-dessus, nous avons : Ci =]40, 50] , Fi = 0, 487, Fi−1 = 0, 38. Donc la
médiane vaut :
0, 5 − 0, 38
med = 40 + (50 − 40) = 47, 797
0, 587 − 0, 38
1.5.6 Variance et Écart-type

Avant de donner une définition générale des indicateurs de dispersion les plus utilisés à savoir
la variance et l’écart-type, calculons-les sur l’exemple suivant :
Exemple 1.5.5 Une même épreuve a été posée à 10 élèves et a fait l’objet d’une double correction
par deux correcteurs A et B. Les notes mises sont les suivantes :
Eléve né 1 2 3 4 5 6 7 8 9 10
Correcteur A 12 4 7 14 18 10 9 14 2 10
Correcteur B 11 7 9 12 15 10 9 13 5 9
22
On note X et Y les séries statistiques des notes respectivement des correcteurs A et B.

Les moyennes x̄ et ȳ des deux séries de notes sont les mêmes et égales à 10 (é vérifier) mais
le comportement des correcteurs est malgré tout différent : le premier utilise une plage de notes
plus étendue que le second. On dit que le correcteur A a une variance de notes plus grande que
le correcteur B. On va élaborer un indicateur qui permet de quantifier cette dispersion des valeurs
d’une série statistique.
Pour cela on s’intéresse aux écarts -en valeurs algébriques- de chaque note à la moyenne des notes
de la série. Ces écarts sont :
Eléve né 1 2 3 4 5 6 7 8 9 10
Correcteur A 2 −6 −3 4 8 0 −1 4 −8 0
Correcteur B 1 −3 −1 2 5 0 −1 3 −5 −1
On désire déterminer un écart “moyen” pour chaque correcteur. Mais pour ce faire on ne peut
utiliser la moyenne arithmétique des 10 écarts car la somme de ces écarts est nulle : c’est une
propriété de la moyenne ! Aussi on va utiliser ces écarts soit en valeurs absolues, soit en les élevant
au carré. L’indicateur le plus courant est basé sur le carré de ces écarts. Plus précisément on
appellera variance des valeurs de la série X (resp. Y ) la moyenne des carrés des écarts que l’on
notera V ar[X] (resp. V ar[Y ]) :
22 +(−6)2 +...+02
- pour le correcteur A : V ar[X] = 10
= 210
10
= 21
2 2
1 +(−3) +...+(−1) 2
- pour le correcteur B : V ar[Y ] = 10
= 76
10
= 7, 6
Au sens de cet indicateur, le correcteur A a donc bien une variance de notes plus grande que le
correcteur B.
Un autre indicateur peut être déduit de celui-ci, en prenant la racine carrée. Ce nouvel indicateur
est appelé écart-type de la série statistique et est noté traditionnellement par la lettre grecque σ.
Les valeurs de cet indicateur sont :
√
- pour le correcteur A : σ X = 21 = 4, 58
√
- pour le correcteur B : σ Y = 7, 6 = 2, 76
L’avantage de l’écart-type par rapport à la variance est que son ordre de grandeur est le même
que celui des valeurs elles-mêmes.
Exercice 1.5.2 A titre d’exercice, on calculera l’écart “moyen” en prenant la moyenne des valeurs
absolues des différents écarts et on comparera les deux écarts “moyens” ainsi obtenus. Pour ne pas
confondre cet indicateur avec l’écart-type, ce nouvel écart est appelé écart absolu moyen.
Variance d’une série statistique pondérée

Soit X = (xi , pi )i=1,2,...,N une série statistique pondérée. On admettra que les poids pi sont
normalisés dans le sens où N
P PN
i=1 pi = 1 (sinon on remplace chaque pi par pi / i=1 pi ).
Définition 1.5.4 La variance de la série X est la moyenne pondérée des carrés des écarts à la
moyenne x̄ :
XN
V ar[X] = pi (xi − x̄)2 .
i=1
23
Il est parfois plus facile pour calculer cette variance -surtout si la moyenne n’est pas une valeur
entière- de transformer cette formule en utilisant le fait que (xi − x̄)2 = x2i − 2x̄xi + x̄2 . La formule,
après calcul, devient alors :
XN
V ar[X] = pi x2i − x̄2
i=1
Dans le cas de l’équipondération

1
Si tous les poids sont égaux, et donc égaux à N
puisque l’on considère les poids normalisés, la
variance s’écrit plus simplement :
N
1 X
V ar[X] = (xi − x̄)2
N i=1
Le calcul de la variance peut être facilité en utilisant les deux propriétés suivantes :
a) La variance n’est pas modifiée si on ajoute -ou retranche- la même valeur à tous les termes de
la série. En effet, dans ce cas, la moyenne est augmentée de la même valeur et donc les termes
xi − x̄ ne sont pas changés.
Exemple 1.5.6 Par exemple la variance de la série
(1005.5 1007.5 1012.5 1014.5 1016.5)
est la même que celle de la série
(5 7 12 14 16)
série obtenue en retranchant 1000.5 à toutes les valeurs.
b) Si tous les termes de la série sont multipliés par un nombre non nul a (cas d’un changement
d’échelle par exemple), il en est de même de la moyenne, et donc la variance est multipliée par a2 .
1. Exemple 1.5.7 Par exemple la variance de la série
(0.15 0.17 0.26 0.32 0.45)
est 10000 fois plus petite que la variance de la série
( 15 17 26 32 45)
série obtenue en multipliant tous les termes par 100.
Exemple 1.5.8 On vérifiera, à titre d’exemple, que la variance du nombre de films vus par 50
étudiants au cours du mois de Septembre est 3.08.
Notons que pour une distribution en classes c’est généralement la seconde formule qui est utilisée
pour calculer la variance. On considère en effet les centres de classe ck et on leur affecte comme
pondération les effectifs nk .
Exemple 1.5.9 On vérifiera, à titre d’exemple, que la variance des sommes dépensées par les 50
étudiants pour leurs activités culturelles est 63696.
Résumé
Pour une série statistique simple à caractère discret, la variance est l’indice de dispersion égal
à la somme des carrés des écarts entre les valeurs du caractère et la moyenne. Autrement dit, la
variance se calcule au moyen de la formule
PK 2
i=1 ni (xi − m)
V =
n
24
où m est la moyenne.

Pour une série à caractère continu ( ou réel), la variance se calcule en faisant intervenir le centre
des classes , ce qui donne la formule suivante :
PK ai +ai+1
i=1 ni ( 2
− m)2
V =
n
où m est la moyenne. En développant le carré dans la première formule, nous obtenons
PK 2
PK PK
i=1 ni xi i=1 ni xi 2 i=1 ni
V = − 2m +m
n n n
PK 2
i=1 ni xi
= − 2m2 + m2
n
PK 2
i=1 ni xi
= − m2
n
Cette dernière formule est plus pratique à utiliser. De même, nous obtenons dans le cas d’une série
réelle PK
ni ( ai +a2 i+1 )2
V = i=1 − m2 .
n
écart-type d’une série statistique

Définition 1.5.5 On appelle écart-type de la série statistique la racine carrée de la variance et on
écrit : p
σ X = V ar[X].
Notons que cette valeur est toujours positive. Elle n’est nulle que pour une série dont tous les
termes sont égaux.
Ses propriétés sont déduites de celles de la variance ; en particulier
σ aX = |a|σ X
Remarque 1.5.1 Certaines calculatrices possèdent des fonctions statistiques qui permettent de
calculer la variance et l’écart-type d’une série statistique. La plupart de ces machines proposent
alors 2 indicateurs notés σ n et σ n−1 . L’écart-type envisagé en statistique descriptive est celui noté
σ n . C’est le seul considéré ici comme correct.
Données centrées-réduites
Il est parfois intéressant de transformer les données brutes en éliminant le rôle joué par la
moyenne et l’échelle utilisée pour le relevé des observations. Ce sera le cas quand on étudiera
simultanément des caractères statistiques dont l’unité de mesure est différente : prix en DH, temps
en secondes ou minutes, taille en centimètres...Cette transformation se fait en standardisant les
données de la façon suivante :
- on calcule pour la série sa moyenne x̄ et son écart-type σ X .
- à chaque valeur xi on associe la donnée centrée-réduite ou standardisée zi telle que :
xi − x̄
zi =
σX
On vérifiera sur les exemples traités que les données standardisées sont en général toutes comprises
entre -3 et +3.
25
1.5.7 Les quantiles

Définition 1.5.6 Les quantiles sont les (k − 1) valeurs qui partagent la suite ordonnée des obser-
vations en k classes de même effectif. On peut déterminer graphiquement à l’aide de la fonction de
répartition ou diagramme cumulé.
k = 2 on trouve la médiane
k = 4 : les trois quantiles correspondent respectivement à des fréquences cumulées de 0, 25, 0, 5
(médiane), et 0, 75.
La détermination des quartiles est analogue à la médiane (de même que tous les quantiles).
- Dans le cas d’une série statistique discrète, il faut ordonner les données et distinguer quatre
cas comme indiqué dans le tableau suivant :
Quartiles n = 4p n = 4p + 1 n = 4p + 2 n = 4p + 3
x(p) +x(p+1) x(p) +x(p+1)
Q1 2 2
x(p+1) x(p+1)
x(2p) +x(2p+1) x(2p+1) +x(2p+2)
Q2 = M ed 2
x(2p+1) 2
x(2p+2)
x(3p) +x(3p+1) x(3p+1) +x(3p+2)
Q3 2 2
x(3p+2) x(3p+3)
- Dans le cas d’une série à caractère réel, on reprend la méthode utilisée pour la médiane en
prenant 0, 25 (resp. 0, 75) comme fréquence pour le premier ( resp. troisième) quartiles.
Exemple 1.5.10 (Exemple de calcul du premier quartile) pour la série ci-dessus : l’équation
de la droite est
(40 − 20)
D : x − 20 = (y − 0, 098)
(0, 38 − 0, 098)
Le premier quartile correspond à x lorsque y vaut 0, 25 donc il vaut
(0, 25 − 0, 098)
Q1 = 20 + (40 − 20)
0, 38 − 0, 098)
k = 10 : les 9 déciles (0, 1, 0, 2, 0, 3, 0, 4, 0, 5, 0, 6, 0, 7, 0, 8, 0, 9)
Exemple 1.5.11 (Exemple de calcul du second decile)

(0, 2 − 0, 098)
d2 = 20 + (40 − 20) = 27, 23
(0, 38 − 0, 98)
k = 100/ les 99 cetiles.
1.5.8 Le mode ou la classe modale

Définition 1.5.7 Dans le cas d’une série statistique à caractère discret, le mode est valeur du
caractère (ou variable) ayant l’effectif le plus important. (Remarque : il peut y en avoir plusieurs si
deux valeurs ont le même effectif qui est aussi le plus important.)
Dans le cas d’une série statistique à caractère continu (ou réel), la classe modale est la classe ayant
la densité la plus importante.
Exemple 1.5.12 Pour la série discrete, le mode est 2 (enfant par ménage).
Pour la série continue, la classe modale est ]18, 19] ans.
26
1.5.9 Le milieu
Définition 1.5.8 Le milieu est le centre de l’intervalle compris entre les valeurs extrêmes de la
série.
Il se calcule par la formule

min(xi ) + max(xi )
Mi = .
2
1.6 Les paramètres de dispersion

Ces paramètres permettent de décrire la dispersion des données autour de la moyenne.
1.6.1 L’étendue
L’étendue de la série est la différence entre les valeurs extrêmes de la série, c’est à dire :
e = max(xi ) − min(xi )
1.6.2 L’écart interquartile

L’écart interquartile est la différence entre le premier et le troisième quartile :
i = Q3 − Q1
1.6.3 L’écart absolu moyen

L’écart absolu moyen se calcul de la façon suivante :
- Pour une série à caractère discret :
PK
ni |xi − m|
E = i=1
n
ou m est la moyenne
- Pour une série à caractère continu (ou réel)
PK
ni ai +a2 i+1 − m

i=1
E=
n
1.6.4 Le coefficient de variation

Définition 1.6.1 L’écart-type d’une série statistique simple est la racine carrée de sa variance.
L’écart-type s vaut donc √
s= V
où V est la variance de la série statistique.
27
Définition 1.6.2 Le coefficient de variation, qu’on note v, est le rapport entre l’écart-type et la
moyenne de la série statistique. Nous avons donc
s
v= .
m
Exemple 1.6.1 Pour la série discrète, nous trouvons s = 1, 96 enfants par ménage et v = 0, 634
Pour la série réelle, nous trouvons s = 1, 035 ans et v = 0, 054.
La signification de v n’intervient que dans le cas où les données sont toutes positives (ou toutes
négatives en prenant la valeur absolue).
En effet, lorsque les données sont à la fois positives et négatives, la division par la moyenne perd son
pouvoir de ramener les donnés de différentes séries statistiques entre elles. (Si v est plus élevé dans
la première que dans la seconde, la première a des données plus dispersées autour da la moyenne).
1.6.5 Le coefficient d’asymétrie

Il s’agit d’un coefficient qui permet de mesurer l’asymétrie des données Exemples de séries
asymétriques et symétriques : Ce coefficient se calcul sur le modèle da la variance et du coefficient
de variation. Au lieu d’élever au carré la différence entre la valeur du caractère et la moyenne, on va
l’élever au cube afin de laisser le signe négatif apparaı̂tre. Il faut donc calculer d’abord une quantité
s3 :
PK PK ai +ai+1
i=1 ni (xi − m)
3
i=1 ni ( 2
− m)3
s3 = ou s3 =
n n
selon que la série est discrète ou réelle. m est la moyenne de la série.
Définition 1.6.3 Le coefficient d’asymétrie est alors donné par la formule

s3
γ3 =
s3
où s est l’écart-type de la série. On conclut alors de la façon suivante.
1. Si γ 3 < −0, 5, la série est dissymétrique vers la droite
2. Si γ 3 ∈ [−0, 5, 0, 5], la série est symétrique
3. Si γ 3 > 0, 5, la série est dissymétrique vers la gauche
1.6.6 Le coefficient d’aplatissement

Il s’agit d’un coefficient qui permet de mesurer l’aplatissement des données. Exemples de séries
aplaties et non aplaties. (DONNER UN EXEMPLE)
Au lieu d’élever au carré la différence entre la valeur du caractère et la moyenne, on va l’élever à
la puissance 4 afin de laisser apparaı̂tre les grands écarts. Il faut donc calculer d’abord une quantité
s4 :
PK PK ai +ai+1
i=1 n i (x i − m)4
i=1 ni (( 2
) − m)4
s4 = ou s4 =
n n
selon que la série est discrète ou réelle. m est la moyenne de la série.
28
Définition 1.6.4 Le coefficient d’aplatissement est alors donné par la formule :

s4
γ4 =
s4
où s est l’écart-type de la série ; On conclut alors de la façon suivante
1. Si γ < 2, 5, la série est pointue ou aigue ou leptokurtique (non aplatie) (figure 1)
il manque de f igure
2. Si γ ∈ [2, 5, 3, 5], la série est en cloche ou mesokurtique (ni trop aplatie, ni trop pointue).
il manque f igure
3. Si γ 4 > 3, 5, la série est aplatie ou platykurtique (fig2)
il manque f igure
Exemple 1.6.2 Pour la série discrète, nous avons
s3 = 6, 79, γ 3 = 0, 902, s4 = 56, 298, γ 4 = 3, 81
Conclusion : il s’agit d’une série aplatie , dissymétrique vers la gauche. Pour la série réelle, nous
avons
s3 = 0, 74, γ 3 = 0, 67, s4 = 3, 897, γ 4 = 3, 396
Conclusion il s’agit d’une série en cloche, dissymétrique vers la gauche.
Chapitre 2
Estimation et tests
2.1 Estimation
2.1.1 Estimation d’une proportion
Intervalle de confiance au risque α pour une proportion.
Quelle affirmation peut-on faire sur une proportion d’individus dans une population
après l’observation d’un échantillon ?
On suppose que l’on ignore la proportion p des gauchers dans la population toute entière et que
l’on veuille estimer cette valeur.
Pour ce faire, on prélève un échantillon de N = 140 individus supposés représentatifs de cette
population.
On note toujours n la variable aléatoire égale au nombre de gauchers dans cet échantillon et on
pose F = Nn .
Dans cet échantillon, on observe 12 gauchers, c’est-à-dire une proportion de gauchers de f = 0, 086.
Estimation ponctuelle
Définition 2.1.1 Un estimateur sans biais du paramètre p est une variable aléatoire Z telle
que E(Z) = p.
Dans le cas présent, on peut donc prendre Z = F .

Une estimation ponctuelle sans biais de la proportion p de gauchers dans la population est
12
la valeur prise par l’estimateur Z. On estimera ici le paramètre p par la valeur f = 140 = 0, 086.
Estimation par intervalle bilatéral

Plutôt que d’estimer p par une valeur unique, il est préférable de donner tout un intervalle de
valeurs [p1 , p2 ] qui devrait contenir la vraie valeur, inconnue, p.
Définition 2.1.2 Cet intervalle est appelé intervalle de confiance.
Mais dire que p appartient à un intervalle [p1 , p2 ] fait encore encourir un risque, celui de se
tromper en ce sens que p n’appartient pas en réalité à cet intervalle. On ne peut en général pas
annuler ce risque sauf si on prend l’intervalle maximum [0, 1].
Le problème que l’on se pose est de trouver le meilleur intervalle d’estimation (par exemple le plus
30
court possible) qui est associé à un risque fixé α que l’on ne veut pas dépasser.
La méthode consiste à définir pour toute valeur p̂ de l’estimateur de p un intervalle [p1 , p2 ] sus-
ceptible de contenir p̂ avec une probabilité 1 − α fixée a priori.
Une fois la valeur particulière de f de p̂ observée à partir de l’échantillon on peut déterminer les
bornes de l’intervalle de confiance recherché .
On peut montrer que pour une valeur f observée l’intervalle de confiance au niveau 1 − α est dans
le cadre de l’approximation normale (nf (1 − f ) ≥ 8) :
" r r #
f (1 − f ) f (1 − f )
[f1 , f2 ] = f − v α2 , f + v α2
n n
où vβ est le fractile supérieur d’ordre β de la loi normale centrée réduite.

Attention. Il faut vérifier cependant que l’on est toujours dans le cadre de l’approximation
normale c’est-à-dire que (nf1 (1 − f1 ) ≥ 8) et que (nf2 (1 − f2 ) ≥ 8).
Application 2.1.1 Donner l’intervalle associé à f au niveau de confiance 0, 95 pour p la valeur

observée étant f = 0, 086 .
Cet intervalle est appelé intervalle de confiance bilatéral au risque de 5%.
Réponse : On a : v0,025 = 1, 96 et donc l’intervalle de confiance est [0, 039, 0, 132].
Application 2.1.2 De la même façon, donner pour p un intervalle de confiance au risque de 1%.
Réponse : On a : v0,005 = 2, 5758 et donc l’intervalle de confiance au niveau 99 % est [0, 025, 0, 147].
Dans le cas où l’approximation normale n’est pas satisfaite on utilise les abaques de confiance
bilatéral et une taille d’échantillon n l’abaque de la loi binomiale
Application 2.1.3 On observe un échantillon de n = 50 étudiants dans la même population, on

observe N = 6 gauchers, donner un intervalle de confiance au niveau 0, 95% pour la proportion de
gauchers dans la population.
Réponse :
On sélectionne sur l’abaque de la loi binomiale pour le niveau de confiance 0, 95% pour l’intervalle
bilatéral les 2 courbes n = 50, on indique en abscisse f = 0, 12 on trace la verticale passant par f ,
on obtient en relevant les 2 points d’intersection l’intervalle [0, 04, 0, 23].
Estimation par intervalle unilatéral.

Il est parfois préférable de donner un intervalle de valeurs de la forme [0, p2 ] ou [p1 , 1] qui
devrait contenir la vraie valeur, inconnue, p.
Définition 2.1.3 Cet intervalle est appelé intervalle de confiance unilatéral à gauche ou à droite.
On peut montrer que pour une valeur f observée l’intervalle de confiance à gauche au niveau
1 − α est dans le cadre de l’approximation normale (nf (1 − f ) ≥ 8) :
" r #
f (1 − f )
[0, f2 ] = 0, f + vα
n
31
où vβ est le fractile supérieur d’ordre β de la loi normale centrée réduite, dans le cas d’un intervalle
de confiance unilatéral à droite au niveau 1 − α, l’intervalle de confiance est alors :
" r #
f (1 − f )
[f1 , 1] = f − vα ,1 .
n
Application 2.1.4 Donner un intervalle de confiance unilatéral à gauche au niveau de confiance

0, 95 pour le même exemple.
Réponse :
On a : v0,05 = 1, 6449 et donc l’intervalle de confiance à gauche au niveau 95% est [0, 0, 125].
Dans le cas où l’approximation normale n’est pas satisfaite on utilise les abaques de la loi bino-
miale.
On sélectionne pour un niveau de confiance 1 − α donné pour un intervalle de confiance unilatéral et
une taille d’échantillon n l’abaque de la loi binomiale correspondante, on porte en abscisse la valeur
f observée on trace la verticale passant par f et on obtient l’intervalle de confiance en relevant en
ordonnée le point d’intersection avec la courbe.
Application 2.1.5 On observe un échantillon de n = 50 étudiants dans la même population, on

observe N = 6 gauchers, donner un intervalle de confiance unilatéral à gauche au niveau 0, 95%
pour la proportion de gauchers dans la population.
Réponse :
On sélectionne sur l’abaque de la loi binomiale pour le niveau de confiance 0, 95% pour l’intervalle
unilatéral la courbe n = 50, on indique en abscisse f = 0, 12 on trace la verticale passant par f , on
obtient en relevant le point d’intersection l’intervalle [0, 0, 27].
2.1.2 Estimation d’une moyenne

Définition 2.1.4 Un estimateur Ĉ d’une caractéristique c est dit sans biais, si l’on a E(Ĉ) = c.
Dans un centre agricole, on a constaté que la masse d’un oeuf choisi au hasard peut être
considérée comme la réalisation d’une variable aléatoire X de Laplace-Gauss de moyenne µ et
d’écart-type σ, ces paramètres a priori inconnus dépendant de l’alimentation. On suppose que la
masse d’un oeuf est indépendante de celle des autres. On prend au hasard 36 oeufs et on les pèse ;
les 36 valeurs relevées sont données dans le tableau suivant :
50.41 52.62 53.79 54.99 55.82 57.67
51.34 53.13 53.89 55.04 55.91 57.99
51.51 53.28 54.63 55.12 55.95 58.10
52.07 53.30 54.76 55.24 57.05 59.30
52.22 53.32 54.78 55.28 57.18 60.58
52.38 53.39 54.93 55.56 57.31 63.15
Cette série statistique ainsi obtenue, à savoir (x1 , x2 , . . . , xn ) est donc considérée comme la réalisation
d’un échantillon (X1 , X2 , . . . , Xn ) de la variable aléatoire X de loi N (µ, σ) , dite échantillon gaussien-
.
Application 2.1.6 1. Calculer la moyenne x et la variance v 2 empirique notée aussi σ 2n .

Réponse : x = 55, 083 et v 2 = 6, 995
32
2. On suppose que ces valeurs sont des résultats de variables aléatoires notées x et v 2 .
Donner une estimation “sans biais” des paramètres µ et σ 2 de la loi de probabilité des
observations.
Pour la moyenne d’une loi
1
x = (x1 + x2 + · · · + xn )
n
est un estimateur sans biais de la moyenne tandis que l’estimateur empirique de la variance
1
σ 2n = ((x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2 )
n
n’en est pas un.
Pour obtenir un estimateur sans biais de la variance on définit un estimateur appelé variance
corrigée d’échantillon noté s2 ou
1
σ 2n−1 = ((x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2 ).
n−1
La raison de ce choix est liée au fait qu’é la fois la moyenne et la variance sont inconnues.
3. On peut en déduire une estimation s du paramètre σ.
n
Réponse : x = 55, 083 et s2 = n−1 v 2 = 7, 1951 et s = 2, 6824.
4. Si on connaı̂t exactement les paramètres µ et σ, la loi de probabilité de X est une loi normale
de moyenne µ et d’écart-type √σn .
Si on ne connaı̂t que l’échantillon et si on suppose que la dimension n de l’échantillon est
supérieure ou égale à 30, la loi approchée de X est une loi normale de moyenne x et d’écart-
type √sn .
Réponse :
Si l’on suppose que la dimension n de l’échantillon est supérieure ou égale à 30 on peut
considérer dans le cas où on ne connaı̂t que l’échantillon, qu’approximativement X ∈ N (55, 083, 0, 4471
Estimation par intervalle d’une moyenne

La méthode consiste à définir pour toute valeur de l’estimateur X un intervalle [x1 , x2 ] sus-
ceptible de contenir X avec une probabilité 1 − α fixée a priori.
Une fois la valeur particulière x de X̂ observée à partir de l’échantillon on peut déterminer les
bornes de l’intervalle de confiance recherché ; on distinguera les 2 situations estimation à variance
connue et estimation à variance inconnue.
Variance σ 2 connue
Si (X1 , X2 , . . . , Xn ) est un échantillon gaussien N (µ, σ) de même moyenne µ inconnue et de va-
riance σ 2 connue, on peut donner alors un intervalle de confiance au niveau 1 − α pour la moyenne
d’un oeuf grâce à la formule :

σ σ
x − v α2 √ , x + v α2 √ .
n n
Application 2.1.7 En supposant que l’écart-type est connu et vaut 3, 2g donner un intervalle de
confiance au niveau 95 % puis 98 % pour la moyenne de la masse d’un oeuf.
33
Réponse :
v0,025 = 1, 96 et [54, 038, 56, 128] pour le niveau de confiance 95% et v0,01 = 2, 3263 et [53, 842, 56, 323]
pour le niveau de confiance 98%.
Variance σ 2 inconnue
Si (X1 , X2 , . . . , Xn ) est un échantillon gaussien N (µ, σ) de moyenne µ inconnue et de variance σ 2
inconnue, on peut donner alors un intervalle de confiance au niveau 1−α pour la moyenne d’un oeuf
grâce à la formule suivante valable à condition que la taille de l’échantillon soit au moins égale à 30 :

s s
x − v α2 √ , x + v α2 √
n n
où s2 est la variance corrigée d’échantillon.
Application 2.1.8 En supposant que l’écart-type est inconnu et estimé donner un intervalle de
confiance au niveau 95% puis 98% pour la moyenne de la masse d’un oeuf.
Réponse :
v0,025 = 1, 96 et [54, 207, 55, 959] pour le niveau de confiance 95% et v0,01 = 2, 3263 et [54, 043, 56, 123]
pour le niveau de confiance 98%.
2.2 Tests
2.2.1 Test d’une proportion
Test d’une proportion -cas d’un test bilatéral-
Des études antérieures ont montré que le pourcentage des gauchers dans l’ensemble de la po-
pulation marocaine est de 10%. En d’autres termes, on suppose que si on choisit un individu au
hasard dans la population marocaine, la probabilité que cette personne soit gauchère est p0 = 0, 10.
On se demande si cette hypothèse est vérifiée pour les étudiants de Sciences.
On suppose que la proportion de gauchers parmi les étudiants de sciences est p (valeur inconnue de
nous ) et on veut tester si p est égal à p0 . ou différent de p0 .
On observe alors un groupe de n étudiants de DEUG-Sciences et on fait l’hypothèse que, pour ce
caractère de latéralité, cet échantillon est représentatif de la population marocaine (tout étudiant
de DEUG–Sciences est, indépendamment des autres étudiants, soit gaucher, avec la probabilité p
soit droitier, avec la probabilité 1 − p).
On prend un échantillon constitué de l’ensemble des étudiants présents actuellement dans la
salle où se tient ce cours (la taille N est donc à expliciter).
On note η (resp. F ) la v.a. égale au nombre (resp. à la proportion) de gauchers que l’on va trouver
dans cet échantillon : F = Nη .
Si la réalisation f de la variable F est voisine de p0 on aura tendance à accepter cette hypothèse,
si f est éloignée de p0 on sera amené à la refuser, on cherche donc un intervalle de la forme [f1 , f2 ]
contenant p0 tel que si f appartient à cet intervalle on accepte l’hypothèse sinon on la refuse.
1. Si p0 est la proportion de gauchers parmi les étudiants en sciences.
Quelle est la loi exacte de η puis la loi approchée de η et de F ainsi que l’espérance mathématique
de ces variables aléatoires.
34
Réponse :
N ∈ B(n, p0 ) pour les effectifs, F ∈ B(n, p0 ) pour les fréquences et dans le cadre de l’approxi-
mation normale (np0 (1 − p0 ) ≥ 8)
p
N ∈ N np0 , np0 (1 − p0 )
et r !
p0 (1 − p0 )
F ∈N p0 , .
n
2. p0 étant toujours la proportion de gauchers parmi les étudiants en sciences, soit α un nombre
positif compris entre 0 et 1.
(a) Déterminer alors 2 régions [0, f1 [ et ]f2 , 1] telles que

α
P(F < f1 ) <
2
où f1 est le plus grand possible et
α
P(F > f2 ) <
2
où f2 est le plus petit possible.
(b) Expliciter le calcul avec α = 0, 05.
Réponse :
Dans le cadre de l’approximation normale :
" r r #
p0 (1 − p0 ) p0 (1 − p0 )
[f1 , f2 ] = p0 − v α2 , p0 + v α2
n n
où vβ est le fractile supérieur d’ordre β de la loi normale centrée réduite.

On considère les 2 hypothèses :
Hypothése à tester H0 : p = p0 ,
Hypothése alternative H1 : p 6= p0
On se place du point de vue des partisans de l’hypothèse H0 . Pour les faire changer d’avis, il faut
pouvoir les convaincre, c’est-à-dire que les faits observés contredisent nettement la validité de H0 .
Les partisans de H0 décident qu’ils ne sont pas prêts à accepter H1 que si la probabilité de se
tromper dans ce cas ne dépasse pas α que l’on peut choisir égal à 0, 05.
Si H0 est vraie, F a une probabilité supérieure à 1 − α d’être dans l’intervalle [f1 , f2 ].
Pour cette raison on met en oeuvre le test de la manière suivante :
Si la réalisation f n’est pas dans l’intervalle [f1 , f2 ], on dit alors que f est dans la région critique
notée C, on optera pour H1 avec une probabilité α de se tromper. Si la réalisation f est dans
l’intervalle [f1 , f2 ], on optera pour H0 faute de preuves suffisantes.
Exemple 2.2.1 Pour α = 0, 05, n = 250, p0 = 0, 10 et N = 30. Déterminer f1 et f2 , N/n

appartient–il à l’intervalle [f1 , f2 ].
35
Réponse :
" r r #
p0 (1 − p0 ) p0 (1 − p0 )
[f1 , f2 ] = p0 − v α2 , p0 + v α2 ,
n n
ce qui donne :
[f1 , f2 ] = [0, 063, 0, 137],
on remarque que f = 0, 12, f appartient à l’intervalle [f1 , f2 ].
On décide de conserver l’hypothèse H0 , mais rien ne dit que l’on ne se soit pas trompé. Si les
partisans de H1 ont raison, étant donné la règle de décision adoptée, on commettrait une erreur
chaque fois que la réalisation f est en dehors de [f1 , f2 ], c’est-à-dire que la probabilité de se tromper
est alors
PH1 (F ∈ [f1 , f2 ]),
c’est l’erreur de deuxième espèce .
Les 2 hypothèses ne jouent pas des rôles symétriques, f1 et f2 sont déterminés uniquement par
H0 et α.
L’erreur de première espèce est
α = PH0 (F ∈ C) = P(F ∈ C tel que H0 est vraie)
L’erreur de deuxième espèce est
β = PH1 (F 6∈ C) = (F 6∈ C tel que H1 est vraie)
Décision
Réalité H0 H1
H0 Conforme Erreur de 1ére espéce
H1 Erreur de 2ème espéce Conforme
Ces erreurs sont antagonistes, Car on diminue l’erreur de première espèce en diminuant le région
critique C, mais alors l’erreur de deuxième espèce augmente.
Test d’une proportion -cas d’un test unilatéral-

On considère les 2 hypothèses :
Hypothése à tester H0 : p = p0 ,
Hypothése alternative H1 : p > p0
On construit fc le plus petit possible tel que
P(F > fc ) < α.
Il s’agit ici d’un test unilatéral. La région de rejet C est toute entière située à l’extrémité droite de
l’intervalle [0, 1]
36
1. Soit α un nombre positif compris entre 0 et 1. Déterminer alors la région telle que P(F >
fc ) < α.
Réponse :
r
p0 (1 − p0 )
fc = p0 + vα .
n
2. Expliciter le calcul avec α = 0, 05 et l’exemple précédent.
Réponse :
v0,05 = 1, 6449
et
fc = 0, 131.
Test d’une proportion -cas de H0 simple et H1 simple-

Parmi deux hypothèses en présence concernant la valeur inconnue p, laquelle doit-on retenir
comme bonne ?
Le QUID donne cette double information : le pourcentage de gauchers est de 10%, mais tombe
à 4% parmi les scientifiques. Mettant en doute cette information, on désire la tester au vu d’un
échantillon de n = 540 étudiants considérés comme scientifiques -les étudiants de DEUG !
On a donc en présence deux hypothèses concernant la proportion p de gauchers parmi les scien-
tifiques :
l’hypothése H0 H0 : p = 0, 10 (hypothése dite nulle -ou privilégiée-)

Hypothése alternative H1 : p = 0, 04 (hypothése alternative).
et parmi ces deux hypothèses, une seule est juste mais on ignore laquelle.
Le test consiste à définir sur quelle statistique on se base pour prendre cette décision de choix
entre H0 et H1 , et quelles sont les valeurs de cette statistique qui conduiront à rejeter H0 au bénéfice
de H1 .
On note encore F la variable aléatoire égale à la proportion de gauchers dans un échantillon de
taille n.
1. Quelle est la loi approchée de F sous chacune des hypothèses H0 et H1 ?
Réponse : p p
F ∈ N (0, 10, 0, 10(1 − 0, 10)/540) sous l’hypothèse H0 , F ∈ N (0, 10, 0, 04(1 − 0, 04)/540)
sous l’hypothèse H1 . On choisit le risque de première espèce α à 0,05, probabilité de décider
H1 si H0 est l’hypothèse vraie.
2. Dans quel intervalle [0, fc ] doit se situer le pourcentage observé f de gauchers sur les 540
étudiants pour rejeter H0 .
Quelle est donc la décision concernant p ?
Réponse :
On cherche fc le plus grand possible tel que PH0 (F < fc ) = 0, 05, le fractile inférieur 0, 05 de
la loi normale est égal à −1, 6459, on a donc fc = 0, 07876.
37
3. Quel est alors le risque de seconde espèce, c.é.d. la probabilité de décider H0 alors que H1 est
vraie ?
Réponse :
On calcule PH1 (F > fc ) = 1 − G(4, 59) ' 0.
2.2.2 Test d’une moyenne

Si (X1 , X2 , . . . , Xn ) est un échantillon gaussien N (µ, σ) de moyenne µ inconnue et de variance
2
σ connue ou inconnue suivant le cas, on peut alors effectuer des tests d’hypothèses comme pour
les proportions.
Dans le centre agricole, on avait constaté que la masse d’un oeuf suivait une loi normale de moyenne
53g et d’écart-type 3.2g.
Les mesures des masses des 36 oeufs ont été effectuées à la suite d’un changement d’alimentation.
On se demande si on peut admettre, au vu de l’observation de cet échantillon, que la moyenne est
toujours 53g (l’écart-type restant de 3.2g).
1. Tester au seuil 5% puis 2% l’hypothèse
H0 : µ = µ0 = 53g
contre
H1 : µ = µ0 = 56g
Il s’agit ici d’un test d’hypothèses simple au risque α. On détermine d’abord une valeur mc
la plus petite possible telle que
P(X > mc ) < α,
on accepte H0 si x ≤ mc et on refuse H0 dans le cas contraire.
On a
σ
mc = µ0 + vα √
n
puisque la variance est connue.
Réponse :
On a v0,05 = 1, 6459 et mc = 53, 878 pour le seuil 5% et v0,02 = 2, 0537 et mc = 54, 095 pour
le seuil 2%
On a x = 55, 0830 on refuse donc l’hypothèse aux 2 seuils.
2. Dans les mêmes conditions, tester au seuil 5% puis 2% l’hypothèse
H0 : µ = µ0 = 53g
contre
H1 : µ = µ0 6= 53g
Il s’agit ici d’un test bilatéral au risque α. On détermine un intervalle [m1 , m2 ] où m1 est la
valeur la plus grande possible telle que
α
P(X < m1 ) <
2
38
et m2 est la valeur la plus petite possible telle que

α
P(X > m2 ) < ,
2
on accepte H0 si x ∈ [m1 , m2 ] et on refuse H0 dans le cas contraire.
On a
σ σ
[m1 , m2 ] = [µ0 − v α2 √ , µ0 + v α2 √ ].
n n
Réponse :
On a v0,025 = 1, 96 et [m1 , m2 ] = [51, 955, 54, 045] pour le seuil 5% et v0,01 = 2, 3263 et
[m1 , m2 ] = [51, 762, 54, 237] pour le seuil 2%
On a x = 55, 0830 on refuse donc l’hypothèse au 2 seuils.
3. On suppose maintenant que le changement d’alimentation a aussi modifié l’écart-type. Tester
au seuil 5% puis 2% l’hypothèse
H0 : µ = µ0 = 53g
contre
H1 : µ 6= 53g
Il s’agit ici d’un test bilatéral au risque α. On détermine un intervalle [m1 , m2 ] où m1 est la
valeur la plus grande possible telle que
α
P(X < m1 ) <
2
et m2 est la valeur la plus petite possible telle que
α
P(X > m2 ) < ,
2
on accepte H0 si x ∈ [m1 , m2 ] et on refuse H0 dans le cas contraire.
On a
s s
[m1 , m2 ] = [µ0 − v α2 √ , µ0 + v α2 √ ]
n n
puisque la variance σ 2 inconnue est estimée par s2 . cette formule est valable à condition que
la taille de l’échantillon soit supérieure ou égale à 30 .
Réponse :
On a v0,025 = 1, 96 et [m1 , m2 ] = [52, 12, 53, 876] pour le seuil 5% et v0,01 = 2, 3263 et [m1 , m2 ] =
[51, 96, 54, 04] pour le seuil 2%
On a x = 55, 0830 on refuse donc l’hypothèse aux 2 seuils.
Remarque :
L’hypothèse que les variables aléatoires (X1 , X2 , . . . , Xn ) suivent des lois normales n’est plus
indispensable dés que n est supérieure ou égale à 30. Il suffit alors que les variables aléatoires
(X1 , X2 , . . . , Xn ) soient indépendantes, de même moyenne et de même variance.
Chapitre 3
Ajustement à une loi théorique - Test du

χ2
3.1 Test d’ajustement à une loi discrète connue

On dispose d’une population de plantes qui peuvent se différencier selon deux caractères héréditaires
A et B (par exemple la couleur des fleurs et l’aspect de la tige).
- Le caractère A admet deux modalités notées A (forme dominante) et a (forme récessive),
- Le caractère B admet deux modalités notées B (forme dominante) et b (forme récessive).
Bien entendu, pour chaque caractère, le génotype est défini par un couple de gènes ; par exemple
pour le caractère A la plante est de l’un des trois types (AA, Aa, aa). Elle est du phénotype A dans
les deux premiers cas et a dans le troisième cas.
On croise dans un premier temps des plantes (AA BB) avec des plantes (aa bb), ce qui donne
une première génération de plantes hybrides (Aa Bb). On croise entre-elles ces plantes de première
génération et on observe les plantes de seconde génération.
Cette deuxième génération fait apparaı̂tre 4 types de plantes, dont les phénotypes sont notés
AB, Ab, aB, ab.
Si les caractères se transmettent selon les lois de Mendel, les proportions théoriques des 4 phénotypes
sont 9/16, 3/16, 3/16, 1/16.
On observe un échantillon de 160 plantes et on obtient la répartition, selon les phénotypes, suivante :
Phénotypes AB Ab aB ab
Eff.observés 100 18 24 18
Au seuil 5% et vu de cet échantillon, peut-on admettre que les lois de Mendel sont vérifiées pour
ces caractères ?
L’adéquation entre l’hypothèse H0 “la loi de Mendel est vérifiée” et l’observation est mesurée par
la distance entre la distribution théorique et la distribution observée, c’est-à-dire par une fonction
des écarts entre les modalité observées Ni et les modalités théoriques nπ i des différentes situations.
9
Par exemple NAB = 100 est l’effectif observé pour le phenotype AB, tandis que π AB = 16 est la
probabilité d’avoir un individu de ce type, n = 160 est l’effectif total de l’échantillon, on a donc
nπ AB = 90.
La fonction retenue parmi toutes celles qui sont possibles, est la somme, pondérée par l’inverse des
40
effectifs théoriques, des carrés des écarts :

k
X (Ni − nπ i )2
∆=
i=1
nπ i
puisque la moyenne à observer d’individus de type i (AB) est nπ i (nπ AB = 90 )

On démontre en probabilité que, dans le cas où H0 est vraie, la fonction ∆ suit une loi du χ2 à ν
degrés de liberté, où ν est le nombre de modalités de la répartition diminué d’une unité, dans notre
exemple ν = 3, c’est le nombre de phénotypes diminué d’une unité.
Dans la formule précédente, la variable du χ2 mesure la distance entre les effectifs observés Ni et
les effectifs théoriques (nπ i ). une grande valeur de cette variable est symptomatique de la non-
concordance entre la distribution observée et le modèle théorique. En conséquence, il existe une
valeur c au delà duquel l’hypothèse H0 ne peut pas être retenue.
Lorsque α est fixé, ( α est le risque de rejeter l’hypothèse H0 alors qu’elle est vraie ), la valeur
critique c peut être lue dans la table des fractiles de la loi du χ2 à ν degrés de liberté.
Si ∆ > c cela signifie que l’on rejette l’hypothèse H0 , si non on l’accepte. Si l’on rejette H0 (∆ >
c ) cela signifie que les valeurs observés s’écartent significativement des effectifs théoriques que
permettait de prévoir la loi de Mendel.
Réponse : α = 5% , ∆ = 13, 51 , ν = 3 et c = 7, 81
L’hypothèse est rejetée, les effectifs observés différent significativement de ceux que la loi de Mendel
permettait de prévoir.
3.2 Test d’ajustement à une loi normale de paramètres

connus
On veut tester l’hypothèse, admise dans la fiche du chapitre 10, que la masse des oeufs est
distribuée selon une loi de Laplace-Gauss. Plus précisément on veut tester l’hypothèse que, le centre
agricole ayant choisi une certaine alimentation, la masse d’un oeuf suit une loi de Laplace-Gauss de
moyenne m = 53g et d’écart-type σ = 3, 2g.
Pour ce faire on considère un échantillon de 250 oeufs prélevés au hasard et pesés avec précision.
Les mesures sont données dans le tableau suivant :
Masse des oeufs (en g) Nb.d’oeufs
[44 − 48[ 19
[48 − 51[ 42
[51 − 53[ 58
[53 − 56[ 83
[56 − 61[ 48
- Calculer la probabilité qu’une variable aléatoire X suivant la loi normale N (53, 3, 2) se réalise
dans l’intervalle [44 − 48[.
- En déduire le nombre moyen de réalisations parmi 250 qui se réalisent dans cet intervalle
(effectif théorique).
- Faire les mêmes calculs pour les 4 autres classes.
- Calculer l’indicateur du χ2 entre la répartition observée et la répartition théorique.
41
- Si on fixe le risque d’erreur α (risque de rejeter l’hypothèse de normalité alors qu’elle est vraie)
à 0.05, quelle conclusion doit-on prendre ?
Ce qui change ici c’est le calcul des effectifs théoriques qui sont obtenus en utilisant la loi normale.
Réponse : α = 5% , ∆ = 4, 37 , ν = 4 et c = 9, 49
On peut préciser que les effectifs théoriques obtenus avec la loi normale de moyenne 53g et d’écart-
type 3, 2g sont :
14.16 , 51.73 , 58.50 , 81.44 , 42.01 .
L’hypothèse est acceptée.
3.3 Ajustement à une loi de Poisson de paramètre connu

On observe le nombre de fleurs par plant d’une certaine espèce. Peut-on dire que le nombre de
fleurs sur un plant suit la loi de Poisson de paramètre λ = 6, 5 si on a relevé les nombres suivants
sur un échantillon de 200 plants :
Nombre de fleurs Nombre de plants

de 0 à 4 48
5 25
6 33
7 ou 8 50
plus de 8 44
Ce qui change ici c’est le calcul des effectifs théoriques qui sont obtenus en utilisant la loi normale.
Réponse :
α = 5% , ∆ = 1, 18 , ν = 4 et c = 9, 49
On peut préciser que les effectifs théoriques obtenus avec la loi de poisson de paramètre λ = 6, 5
sont :
44.73 , 29.07 , 31.50 , 53.01 , 41.61 . L’hypothèse est acceptée.
3.4 Comparaison d’une répartition observée et d’une répartition

théorique
On admet que la répartition à Ouarzazate des individus selon leur groupe sanguin est la suivante :
Groupe sanguin A B AB O
en % 45.3 7.4 3.3 44
On a examiné un groupe de 360 individus et on a observé des pourcentages par groupe sanguin de :
Groupe sanguin A B AB O
% observés 43.2 8.2 6 42.6
- Traduire les pourcentages ci-dessus en effectifs.

- Peut-on admettre que le groupe observé est représentatif des individus vivant à Ouarzazate ?
42
Réponse : Il est indispensable de calculer avec des effectifs, on obtient :

α = 5% , ∆ = 8, 77 , ν = 3 et c = 7, 81
Les résultats obtenus conduisent à rejeter l’hypothèse.
Annexe : Calculs utiles pour tracer l’histogramme de l’exercice b
Masse des oeufs Nb. d’oeufs Largeur des classes Densité des observations
(en g) (Effectifs) (amplitude) (en effectifs) (en probabilité)
(xi ) (ni ) (Li ) (Hi = Lnii ) Hi
(hi = 250 )
(hauteurs des rectangles)
[44 - 48 [ 19 4 4,75 0,019
[48 - 51 [ 42 3 14 0,056
[51 - 53 [ 58 2 29 0,116
[53 - 56 [ 83 3 27,67 0,111
[56 - 61 [ 48 5 9,6 0,038

Cours Stat Fevrier09

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cours Stat Fevrier09

Încărcat de

Drepturi de autor:

Formate disponibile

Introduction à la statistique descriptive

M’hamed Eddahbia et Idir Ouassoub

1 Statistique Descriptive - Etude d’un caractère numérique 9

3 Ajustement à une loi théorique - Test du χ2 39

Statistique Descriptive - Etude d’un

1.1 Éléments de base de la Statistique Descriptive

1.1.2 Caractère statistique

1.1.3 Classification des caractères

2. Caractère qualitatif : Couleur, sexe, profession, nationalité, scort etc...

1.1.4 Caractère numérique défini sur une population statistique

Souvent on notera N l’effectif total de cette série donc

On réécrire souvent ce tableau par le couple (xi , ni ).

première figure : diagramme en bâtons.

Définition 1.1.3 Le graphique obtenu est un diagramme en bâtons.

1.2 Distribution d’un caractère numérique

PX ({yj )} = P[X −1 (yj )] = qj

1.2.1 Fonction de répartition de X

1.3 Partition de R en classes d’intervalles

Étudions plus en détails de telles distributions en classes.

1.3.1 Fréquence d’un intervalle et densité des observations

L’effectif et la fréquence d’un intervalle dépendent de la longueur -l’amplitude- de cet intervalle :

Définition 1.3.4 On peut aussi définir la densité de fréquence ou fréquence unitaire en

1.3.2 Choix du découpage

[b0 , b1 [, [b1 , b2 [, [b2 , b3 [, · · · , [bK−1 , bK ].

La construction pratique d’un histogramme nécessite donc les étapes suivantes :

1.3.4 Courbe cumulative ou fonction de répartition

1.4 Valeurs centrales d’un caractère numérique

1.5 Paramètres de position

|x1 − m| , |x2 − m| , · · ·, |xN − m| ,

(on peut aussi mesurer l’écart moyen à une constante c i.e. N1 N

Définition 1.5.1 étant donné un caractère numérique X ou la série statistique pondérée X =

On vérifiera, le cas échéant sur des exemples, les propriétés suivantes :

Calcul de la moyenne dans le cas d’une distribution en classes

1.5.3 Caractère discret

1.5.4 Caractère continu

Cas d’une série statistique simple avec un nombre impair de valeurs.

Cas d’une série statistique simple avec un nombre pair de valeurs.

Cas d’une série statistique pondérée

Cas d’une distribution en classes

Calcul pratique de médiane.

(b) n est pair : la médiane est alors la valeur

Exemple 1.5.3 14 - 7 - 11 - 10 - 4 - 6 - 8. Le tri donne 4 - 6 - 7 - 8 - 10 - 11 - 14 comme

1.5.6 Variance et Écart-type

On note X et Y les séries statistiques des notes respectivement des correcteurs A et B.

Variance d’une série statistique pondérée

Dans le cas de l’équipondération

où m est la moyenne.

écart-type d’une série statistique

1.5.7 Les quantiles

Exemple 1.5.11 (Exemple de calcul du second decile)

1.5.8 Le mode ou la classe modale

Il se calcule par la formule

1.6 Les paramètres de dispersion

1.6.2 L’écart interquartile

1.6.3 L’écart absolu moyen

1.6.4 Le coefficient de variation

1.6.5 Le coefficient d’asymétrie

Définition 1.6.3 Le coefficient d’asymétrie est alors donné par la formule

1.6.6 Le coefficient d’aplatissement

Définition 1.6.4 Le coefficient d’aplatissement est alors donné par la formule :

3. Si γ 4 > 3, 5, la série est aplatie ou platykurtique (fig2)

Exemple 1.6.2 Pour la série discrète, nous avons

s3 = 6, 79, γ 3 = 0, 902, s4 = 56, 298, γ 4 = 3, 81

Dans le cas présent, on peut donc prendre Z = F .