Sunteți pe pagina 1din 82

Cours de Statistique

Descriptive
Mme. Diouri
Statistique

Méthode d’analyse numérique des ensembles comportant un grand nombre


d’éléments.

 « Status »= Etat
Nombre d’habitants dans un pays.
Leur répartition par: âge , catégorie socio-professionnelle…
Evaluation des ressources de l’état.
 Médecine: - Evaluation de l’efficacité d’un médicament.
- Etat sanitaire d’une population.

 Agronomie: - Sélection des variétés.


- Rendement.

 Industrie: - Contrôle de qualité.


- Gestion de stock.
Population-Unités statistiques

 Ensemble des unités statistiques ou individus étudiés.

 INDIVIDU:
Objet concret: ouvrier, commerce…
Une quantité définie de matière: contenu d’un paquet, tranche horaire…
Une valeur observée: température…
 La population finie
infinie

 On fait un échantillonnage ( échantillon)


Caractères

 L’aspect particulier de l’individu auquel on s’intéresse.

 Mesurable: caractère quantitatif. ( discret – continu )


Exemple:le nombre d’enfants
le salaire
l'âge
 Non mesurable: caractère qualitatif.
Exemple: la situation matrimoniale
le lieu de résidence
Modalités

 Les différentes valeurs possibles d‘un caractère permettant de classer les


individus en sous-ensembles de la population.

 Deux propriétés importantes:


1. Incompatibles: un même individu ne peut appartenir à deux modalités du
même caractère.
2. Exhaustives: chaque individu doit appartenir à une modalité;
 Exemple:

Pour « la situation matrimoniale »


1. Deux modalités: marié – célibataire.
2. Quatre modalités: marié – célibataire – veuf – divorcé.
Etude d’un caractère statistique

 Première opération:
 Consiste à recueillir toutes les informations voulues. ( enquête)

 Deuxième opération:
 C’est le dépouillement des observations pour les présenter sous forme
d’un tableau.( plus accessible)
Les tableaux statistiques

Valeur de la variable (xi) Pointage Effectif du pointage (ni)


X1 □ n1
X2 _ n2
. .
. .
. .
Xk nk
Variable statistique ( xi ) Effectif ( ni )
X1 n1
X2 n2
. .
. .
Xk nk
Total n : effectif total=nombre total
d’individus
Caractère qualitatif

 C’est un caractère dont les modalités échappent à la mesure. Elles peuvent


seulement être constatées.

 Exemple:
- la nationalité.
- la profession.
- la situation matrimoniale.
Caractère quantitatif

 Un caractère est quantitatif lorsqu’il est mesurable.


Ils sont appelés aussi variable statistique.

 Variable discrète : elle ne peut prendre que certaines valeurs qui


généralement sont des valeurs entières.( peu nombreuses)

 Variable continue : elle peut prendre en théorie n’importe quelle valeur. Il


est nécessaire de grouper les données en classes.
 Le centre de la classe: xi = a+b
2

 L’amplitude de la classe: ai = b-a

 La densité de la classe: di = ni
ai

 L’effectif corrigé: ni’ = ni×ao


ai
CHAPITRE II:
Représentation graphique des séries
statistiques à un caractère
 Distribution d’une série: les effectifs, les effectifs cumulés.

 Répartition d’une série: les fréquences, les fréquences cumulées.


La fréquence
 La fréquence est généralement notée: fi
Le rapport de l’effectif de la modalité sur l’effectif total

fi = ni = ni
∑ni n

 La fréquence cumulée Fi est un cumul des fréquences; c.à.d.:


F1 = f1
F2 = f1 + f2

Fi = f1+ f2+ … + fi
Le pourcentage

 Le pourcentage est la fréquence multipliée par 100.

Pi = ni x 100 = fi x 100
∑ni

Remarque:
• Une fréquence cumulée ne doit pas dépasser 1.
• Un pourcentage ne doit pas dépasser 100.
Diagramme à bandes

 Ce diagramme est aussi appelé «Graphique en tuyaux d’orgue»

Le caractère étant qualitatif, on place:


• En abscisse: les modalités du caractère.
• En ordonnée: les effectifs ou les fréquences.

 Les modalités sont représentées par des bandes de même épaisseur et de


hauteur proportionnelle à l’effectif ou à la fréquence.
ni ou fi

Modalités
Diagramme à secteurs

 Appelé aussi «fromage» ou «camembert».

L’effectif total est représenté par:


• Un disque (360°)
• Un demi-disque (180°)

 Chaque modalité est représentée par un secteur circulaire dont la surface est
proportionnelle à l’effectif correspondant.
 Pour chaque modalité, on calcule l’angle αi = fi x 360 ; αi = fi x 180
Remarque:
 La surface d’un secteur circulaire étant proportionnelle à l’angle du centre:
seul la valeur de celui-ci est calculé.
Diagramme à secteurs
Diagramme en bâtons
On porte:
• En abscisse: les valeurs de la variable (x1, x2, …, xi)
• En ordonnée: les effectifs ou les fréquences correspondants (n i ou fi)

 Pour chaque valeur de la variable statistique, on trace «un bâton» dont la


longueur est proportionnelle à l’effectif ou à la fréquence.

ni ou fi

Xi
Diagramme cumulatif

 Appelé aussi «fonction de répartition».


 Le diagramme cumulatif n’est pas un schéma associant les effectifs
directement aux valeurs du caractère. Mais il permet de visualiser l’évolution
des effectifs cumulées ou des fréquences cumulées liées aux valeurs du
caractère.
Fi
C’est une fonction
1
en escaliers, c’est
une fonction
constante par
intervalles.

Xi
Histogramme

 Les classes sont représentées par des rectangles dont l’aire est
proportionnelle à l’effectif.

On porte:
• En abscisse: les extrémités des classes.
• En ordonnée: les effectifs ou les fréquences.
Classes d’amplitudes égales:

 Il suffit que chaque rectangle ait une hauteur proportionnelle à l’effectif ou à


la fréquence.

ni ou fi

Xi
Classes d’amplitudes inégales:

 Dans ce cas: Il faut construire les rectangles en fonction de la densité (d i) ou


des effectifs corrigés (ni’)
La densité de la classe: di = ni L’effectif corrigé: ni’ =
ni×ao
ni’ou ai ai
di

Xi
Polygone des effectifs
 C’est la ligne brisée reliant les points de coordonnées (xi, ni)
 xi désigne le centre de chaque classe.

ni ou fi

Xi
Courbe croissante et décroissante

Fi

Xi
CHAPITRE III:
L’analyse statistique élémentaire
Les propriétés de Yule

1. Être définie de façon objective: deux personnes différentes doivent aboutir


au même résultat numérique (ce qui exclut les estimations graphiques et
conduit à des définitions algébriques).

2. Dépendre de toutes les observations: de façon à caractériser toute la série


(si on fait varier une des observations, la caractéristique retenue doit refléter
cette variation).

3. Avoir une signification concrète: l’interprétation de la caractéristique doit


être simple et immédiate.
4. Être simple à calculer: dans ce cas on pourra être conduit à utiliser une
caractéristique théoriquement moins bonne qu’une autre plus facile à
calculer.

5. Être peu sensible aux fluctuations d’échantillonnage: cette condition est


essentielle lorsqu’il s’agit d’informations collectées par sondage.

6. Se prêter aisément au calcul algébrique.


Les caractéristiques de tendance
centrale

Le mode

La médiane

La moyenne
Le mode (Mo)

Définition:

 Le mode (Mo) d’une distribution est la valeur de la variable statistique pour


laquelle la fréquence ou l’effectif est le plus élevé.
Donc: c’est la valeur de la variable qui se rencontre le plus fréquemment.
Détermination pratique:
Variable discrète:
 Dans ce cas le mode est défini avec précision.
 Si 2 valeurs successives de la variables ont une fréquences maximales: il y a
un intervalle modale.

ni ou fi ni ou fi

Xi Xi
Mode Intervalle modale
Variable continue:
 On peut définir la classe modale (c’est la classe dont l’effectif est le plus
élevé). En fait ces valeurs dépendent du découpage adopté.
ni ou fi

Xi
Classe modale
 Lorsque les classes sont d’amplitudes différentes il travailler soit avec les
densités ou les effectifs corrigés.

La densité de la classe: di = ni
ai

L’effectif corrigé: ni’ = ni×ao


ai

 La classe modale est celle qui est représentée par le rectangle le plus haut
Mode = L1 + d1 .i
d1+d2

L1 = Limite inférieure de la classe modale


d1= différence entre l’effectif de la classe modale et l’effectif de la classe qui la précède
d2= différence entre l’effectif de la classe modale et l’effectif de la classe qui la suit
i= la taille de la classe
Exemple:
Soit la série suivante; déterminer son mode.

Classes Effectifs
[0,10[ 2
[10,20[ 3
[20,30[ 4
[30,40[ 1
Total 10
Avantages:
 Le mode est facile à calculer.
 Son interprétation est évidente.

Inconvénients:
 La détermination du mode est imprécise dans le cas de variables continues.
 Le mode ne convient pas au calcul algébrique.
La médiane (M)

Définition:
 La médiane (M) est la valeur de la variable telle que: l’effectif des valeurs
inférieures à M est égale à l’effectif des valeurs supérieures à M.

Donc: la médiane partage en deux effectifs égaux les individus de la population


supposés, rangés par ordre croissant ou décroissant (série ordonnée).
ni ou fi C’est la valeur M de la
variable statistique pour
laquelle la fréquence
cumulée est égale à ½
F(M) = ½
1/2
1/2
Xi
Médiane
Détermination pratique
Variable discrète:
 Nous avons deux possibilités:
1. Une série comportant un nombre impair d’observations, (c.à.d. 2K+1
observations). Il est facile de déterminer la médiane après avoir classé la
série en ordre croissant ou décroissant.

2. Une série comportant un nombre pair d’observations, (c.à.d. 2K


observations); dans ce cas il n’y a pas de médiane proprement parlé, mais un
intervalle médian.
Exemple:
Nous avons relevé dans une série les valeurs suivantes:
8, 15, 6, 4, 20, 12, 16, 13, 10.
Déterminer la médiane.
+ Ajouter 11 et recalculer la médiane.
Variable continue:
Détermination par le calcul (interpolation linéaire ou règle de trois).

Médiane = L1 + n/2 - c1 .i
fc

L1: limite inférieure de la classe médiane.


n: effectif total de la distribution.
c1: effectif cumulé jusqu’à la borne inférieure de la classe médiane.
fc: effectif de la classe médiane elle-même.
i: taille de la classe
Exemple:
Soit la série suivante représentant: la prime de 65 employés d’une entreprise.
Calculer la médiane.

Prime en dh ni
[1000, 1500[ 6
[1500, 2000[ 12
[2000, 2500[ 25
[2500, 3000[ 17
[3000, 3500[ 5
Total 65
Détermination graphique
Graphiquement, la solution à l’équation F(M)= ½ est très simple à partir des
fréquences ou des effectifs cumulés.

Fi

0,5

Xi
Médiane
Avantages:
1. Elle est définie objectivement et son interprétation est simple.
2. Son calcul est rapide.
3. Elle dépend de toutes les observations.

Inconvénients:
4. Elle est insensible à une modification des valeurs extrêmes.
5. Elle ne convient pas au calcul algébrique.
La moyenne arithmétique (X)

Définition:
 La moyenne arithmétique (X) d’une série statistique est égale à la somme des
valeurs de la variable divisé par l’effectif total.
Soit une série statistique comportant n observations dont les valeurs respectives
sont:
X1, X2, X3, ……, Xn
X = X1 + X2 + X3 + …… + Xn
n
n
X= 1 Σ xi La moyenne arithmétique
i=1 simple
n
Exemple:
Soit la série: 1, 2, 4, 8, 16, 32, 64
Calculer la moyenne.
Soit  une
 série statistique pouvant prendre les valeurs:
X1, X2, X3, ……., Xk
Auxquelles correspondent les effectifs:
n1, n2, n3, ……, nk
  

Moyenne Arithmétique pondérée


f1, f2, … = coéfficients de pondération
Exemple d’une série discrète:
Soit le nb. de commandes d’un échantillon de 50 clients.
Calculer la moyenne:

xi ni
0 7
1 16
2 13
3 6
4 4
5 3
6 1
TOTAL 50
Exemple d’une série continue:
Soit la série suivante:
Calculer la moyenne.

Prime en DH ni
[1000, 1500[ 6
[1500, 2000[ 12
[2000, 2500[ 25
[2500, 3000[ 17
[3000, 3500[ 5

TOTAL 65
Avantages:
1. Elle tient compte de toutes les valeurs de la série.
2. Elle a une signification concrète et se prête au calcul algébrique

Inconvénient:
3. Le calcul de la moyenne est un peu plus long que le calcul de la médiane,
mais on peut l’alléger en faisant un changement d’origine.
Changement d’origine pour le calcul de la moyenne

  Nouvelle origine : Xo. Mode


Médiane

 Variable auxiliaire: Xi’


Variable
   discrète
Comme nous avons:

Si nous ajoutons membre à membre les différentes égalités;


Si
 on
  divise par n:

Donc:
Exemple:
Soit la série suivante;
Calculer la moyenne en faisant un changement de variable.

xi ni
0 24
1 57
2 75
3 53
4 33
5 7
6 4
TOTAL 253
Variable
   continue
On fait en plus un changement d’unité de mesure (a).

Donc:

= PGCD: plus grand commun diviseur


variable auxiliaire
= nouvelle origine
Exemple:
Soit la distribution suivante;
Calculer la moyenne en faisant un changement de variable.

Classes ni
[900 ,1000[ 26
[1000, 1100[ 33
[1100, 1200[ 64
[1200, 1300[ 7
[1300, 1400[ 10
TOTAL 140
La moyenne géométrique (G)

Soit  une
 série statistique comportant n observations dont les valeurs respectives
sont:
X1, X2, X3, ……, Xn

G=

Moyenne géométrique simple

log (G) =
Soit  une
 série statistique pouvant prendre les valeurs:
X1, X2, X3, ……., Xk
Auxquelles correspondent les effectifs:
n1, n2, n3, ……, nk

G=

Moyenne géométrique ponderée

log (G) =
La moyenne harmonique (H)

Soit  une
 série statistique comportant n observations dont les valeurs respectives
sont:
X1, X2, X3, ……, Xn

H=

Moyenne harmonique simple


Soit  une
 série statistique pouvant prendre les valeurs:
X1, X2, X3, ……., Xk
Auxquelles correspondent les effectifs:
n1, n2, n3, ……, nk

H=

Moyenne harmonique ponderée


H=
La moyenne quadratique (µ ou Q)

C’est
   une moyenne d’ordre 2:

Moyenne quadratique ponderée


Propriétés comparées des différentes
moyennes
Quelque
   soit la série:

H<G< <µ

 Moyenne géométrique:
 Taux d’accroissement moyen des bénéfices d’une entreprise au cours d’une période
donnée.
 Taux de croissance démographique moyen d’une population.

 Moyenne harmonique:
 Le prix moyen.
 Le rendement moyen.
 Les vitesses moyennes.
Les caractéristiques de dispersion

L’étendue
L’intervalle interquartile
L’écart absolu moyen
La variance
L’écart type
Le coefficient de variation
L’étendue (W)

L’étendue
   (W) d’une série statistique est la différence entre la plus grande et la
plus petite des valeurs observées.

Avantages:
 La signification de l’étendue est claire, et son calcul est rapide.
Inconvénients:
 L’étendue dépend des valeurs extrêmes qui sont souvent exceptionnelles.
 Elle est sujette à des fluctuations considérables d’un échantillon à un autre.
L’intervalle interquartile (Q3 – Q1)

 Les quartiles partagent la série ordonnée en quatre groupes d’effectifs


égaux.
 Il y a trois quartiles:

Q1, Q2, Q3
¼ ¼ ¼ ¼

xmin Q1 Q2 Q3 xmax

 Un quart des observations ont une valeur inférieure à Q1.


 Un quart des observations ont une valeur comprise entre Q 1 et Q2.
 Un quart des observations ont une valeur comprise entre Q 2 et Q3.
 Un quart des observations ont une valeur supérieure à Q3.
Q1, Q2, Q3 sont les valeurs de la variable pour lesquelles la fréquence cumulée
est respectivement égale à ¼, ½, ¾ .

F (Q1) = 0,25
F (Q2) = 0,50
F (Q3) = 0,75

On appelle Intervalle interquartile: la différence entre les valeurs du 3e et 1e


quartile:

Q3 - Q1

Cet intervalle contient 50% des observations en laissant 25% à droite et 25% à
gauche.
Les déciles et les centiles
 Les déciles au nombre de 9, séparent la série en 10 parties égales.

D9 – D1 = Intervalle interdécile

Il contient 80% des observations centrales


_______________________________________________________
 Les centiles ou percentiles, au nombre de 99, partagent la série en 100
parties égales.

C99 – C1 = Intervalle intercentile

Il contient 98% des observations centrales


C1 D1 Q1 Q2 Q3 D9 C99
Q1 Q10 Q25 Q50 Q75 Q90 Q99

xmin
Intervalle Interquartile (50%)
xmax
Intervalle Interdecile (80%)

Intervalle Intercentile (98%)


Exemple:
Soit la distribution suivante;
Calculer l’intervalle interquartile:

Classes Effectifs (ni)


[1000, 1500[ 6
[1500, 2000[ 12
[2000, 2500[ 25
[2500, 3000[ 17
[3000, 3500[ 5
TOTAL 65
L’écart absolu moyen (e)

L’écart
   absolu moyen (e) est la moyenne arithmétique des valeurs absolues des
écarts à la moyenne à la moyenne arithmétique.

Soit une série statistique pouvant prendre les valeurs: X1, X2, X3, ……., Xk
Auxquelles correspondent les effectifs: n1, n2, n3, ……, nk

Ecart absolu moyen par rapport à la moyenne


  

Ecart absolu moyen par rapport à la médiane

Quelque soit la série:


Avantages:

 Sa signification est concrète et prend en compte toutes les valeurs.


 Le calcul est assez simple.

Inconvénients:

 L’écart absolu moyen ne convient pas au calcul algébrique car il fait


intervenir des valeurs absolues.
La variance V(x)
La
 variance
  V(x) de la variable x est la moyenne arithmétique des carrés des
écarts à la moyenne arithmétique.

Soit une série statistique pouvant prendre les valeurs: X1, X2, X3, ……., Xk
Auxquelles correspondent les effectifs: n1, n2, n3, ……, nk

V(x)

V(x)

V(x)
Variance: moyenne quadratique des écarts
Formule développée:

Si
 nous
  développons ce terme nous avons:
=
∑=∑

=∑
=∑

Si on divise par n:

V(x)
Variance: Théorème de Kœnigs
Avantages:

 Elle se prête très bien au calcul algébrique.

Inconvénients:

 La variance est un concept abstrait.


 La variance présente une certaine difficulté de calcul.
L’écart type σ(x)

L’écart
   type ou écart moyen quadratique σ(x) est égal à la racine carrée de la
variance.

σ(x)

Propriétés:
1. Il mesure la dispersion autour de la moyenne.
2. Plus l’écart type est grand plus la dispersion des observation autour de la
moyenne est importante.
3. L’écart type est important surtout lorsqu’il s'agit de faire des comparaisons
de deux ou de plusieurs distributions.
f(x)

Xi
Le coefficient de variation CV
Le
 coefficient
  de variation CV est le rapport de l’écart type à la moyenne.

CV =

 Le coefficient de variation est une quantité sans dimensions, indépendante


des unités choisies.
 Il permet de comparer des séries exprimées dans des unités différentes.
 On peut le considérer comme un indice de dispersion « absolu ».

S-ar putea să vă placă și