Documente Academic
Documente Profesional
Documente Cultură
Statistique descriptive
statistique inférentielle
• Utilisation de tests ou de lois
Statistique descriptive
• 1 - Distribution de fréquences
• 2 - Méthodes graphiques
• 3 - Mesures de tendance centrale
• 4 - Mesures de dispersion
• 5 - Mesures de positionnement
• 6 - Analyse exploratoire des données
1 – Distribution de fréquences
• Dans un tableau de données, les fréquences
représentent le nombre de fois où chaque
valeur apparaît
• Critères à définir :
– Nombre de classes
– Largeur des classes
• Fréquences relatives
• Fréquences cumulées
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données
données en vrac 28
• Détermination du nombre de classes (k) pour n valeurs,
par la règle de Sturges :
données en vrac 28
Classes 16
données triées
de fréquence
Exercice 1 : côtes sur coquille
d’Ammonites
• Tableau de données
données en vrac 28
Classes16
données triées
de fréquence
7 30%
6 25%
Nombre d'individus
Nombre d'individus
20%
4
15%
3
10%
2
5%
1
0 0%
17 20 23 26 29 32 35 17 20 23 26 29 32 35
Classes de fréquences Classes de fréquences
Histogramme des fréquences Histogramme des fréquences relatives
25
20
nombre d'individus
15
10
0
17 20 23 26 29 32 35
Classes de fréquences
Histogramme des fréquences cumulées
Importance du choix du nombre de classes
Nombre de côte
n
Exercice 2 – Hauteurs des
peupliers
Classes
de fréquence
Exercice 2 – Hauteurs des
peupliers
• 3 traitements :
– Nombre de classes avec n = 30
K = 1 + 3,322 log n
soit 5.907, arrondi à 6
- Largeur des classes :
6,8/6 = 1,1333
Choix de classes de 1 unité
Exercice 2 – Hauteurs des
peupliers
Tableau de fréquence
Classes
de fréquence
Exercice 2 – Hauteurs des
peupliers
50%
45%
40%
fréquence relative
35%
30% Contrôle
25% Irrigation
20% Irrigation et fertilisatio
15%
10%
5%
0%
1,9 2,9 3,9 4,9 5,9 6,9 7,9 8,9
Classes de hauteur (limites supérieures des classes)
Hauteur des plants de Peupliers en mètre ; distribution en fréquences relatives
en fonction du traitement.
2 – Méthodes graphiques
• Histogrammes des fréquences
• Polygones des fréquences
• Le Dotplot
• Le Tracé en tige et feuilles
• Le diagramme de bâtons
• Le diagramme circulaire
• Les séries chronologiques
Le polygone des fréquences
14
12
10
0
1 2 3 4 5 6 7 8 9 10
Courbe cumulative
60
50
40
30
20
10
0
1 2 3 4 5 6 7 8
Courbe cumulative (2)
I = point d’inflexion
Courbe cumulative (3)
25 60
50
20
40
15
i1 30
i
10
20
i2
5
10
0 0
1 2 3 4 5 6 1 2 3 4 5 6 7 8
6 12
5 10
4 8
3 6
2 4
1 2
0 0
1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 10
Le diagramme circulaire
4% 2% 6%
10%
1
15%
2
3
17% 4
5
6
7
25% 8
21%
Le diagramme en bâton
900
Le diagramme de dispersion
14
12
10
valeurs de y
0
0 5 10 15
valeurs des x
Le diagramme de dispersion
14
12
10
valeurs de y
4
Graphique en courbe
2
0
0 5 10 15
valeurs des x
Le diagramme de dispersion
14
12
10
valeurs de y
y = 0,4659x + 5,2198
8
4
Courbe de tendance
2 Corrélation
0
0 5 10 15
valeurs des x
La série chronologique
500
450
400
valeur marchande
350
300
250
200
150
100
50
0
1950 1960 1970 1980 1990 2000 2010
décades
Le Dotplot
Contrôle
1 2 3 4 5 6 7 8
Irrigation
1 2 3 4 5 6 7 8
1 2 3 4 5 6 7 8
Le tracé tige et feuilles
19
29
Exercice 3
sexe 76,0
M M
poids enfant 74,0
68,0
66,0
64,0
62,0
60,0
55 60 65 70 75
P o id s d e la m è re
Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 3 (2)
80,0
70,0
60,0
50,0
20,0
10,0
0,0
55 60 65 70 75
Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 3
sexe 76,0
M M
poids enfant 74,0
72,0
70,0
62,5 64,6
Poids de l'enfant
66,0
66
y = 0,3941x + 42,48
58
64,0
62,0
60,0
55 60 65 70 75
P o id s d e la m è re
Mise en évidence d’une relation entre le poids de la mère et celui des enfants masculins.
Exercice 4
35.5 35.7 39.2 39.6
41.1 Classe de f
41.2 41.3 41.4
34-35,9
70%
60%
50%
fréquence %
40%
36-37,9
30%
Histogramme
20%
des périmètres
10% crâniens des
0% enfants de deux
35 37 39 41 43
mois
classes de périmètre (cm)
Exercice 4 (2)
35 5,7
36
35 36 37
37
38 39 40 41 42 43
3 – Mesures de tendance centrale
• a) La moyenne
moyenne =
∑ x
n
• Ex : teneur en plomb dans l’atmosphère (norme = 1,5 µ g/m3)
x = 9,23 / 6 = 1,538
3 – Mesures de tendance centrale (2)
moyenne d’un échantillon
x=
∑ x
n
moyenne d’une population
µ=
∑ x
N
3 – Mesures de tendance centrale (3)
• b) La médiane : valeur du milieu
60%
fréquence % 50%
– multimodal 40%
30%
20%
10%
0%
35 37 39 41 43
classes de périmètre (cm)
3 – Mesures de tendance centrale (5)
• c) Le midrange
CONTRÔLE
IRRIGATION
moyenne
IRRIGAT & F
médiane
moyenne
3 – Mesures de tendance centrale (6)
• c) La moyenne pondérée
moyenne pondérée x=
∑ (ω.x)
∑ω
ω = coefficient
∑ ω = somme des coefficients
Exercice 7
Moyenne pondérée
Moyenne arithmétique
85 + 90 + 75
= 83,33
3
Exercice 8
Moyenne de fréquence
(50 x50) + (150 x30) + (250 x35) + (350 x3) + (450 x5)
=179,50
100
Avantages et i
Meure de Util
tendance
centrale
4 – Mesures de dispersion
• Ex : temps de file d’attente dans deux
cliniques : une ou 3 files d’attente
Trois files d’
• Variation ?
4 – Mesures de dispersion (2)
• 4.1 – L’étendue
• Premier cas : 7 – 4 = 3 mn
• Deuxième cas : 14 – 1 = 13 mn
Facilité d’utilisation
mais ne tient compte que des valeurs extrêmes
4 – Mesures de dispersion (3)
• 4.2 – L’écart type
∑ (x − x) 2
s=
n ∑ ( x) 2 − ( ∑ x) 2
s= ou n(n − 1)
n −1
• Premier cas
3(4 2 + 7 2 + 7 2 ) − (18) 2
342 − 324 18
s= s= = = 3 = 1,732
6 6
• Deuxième cas3 * 2
σ=
∑ (x − x) 2
N
4 – Mesures de dispersion (5)
• La variance
– Cas d’un échantillon : s2
– Cas d’une population : σ 2
• Le coefficient de variation CV
s σ
– Échantillon CV = 100%
Population
CV = 100%
x µ
4 – Mesures de dispersion (6)
• Interprétation de l’écart type :
– 1) valeur de s et dispersion
S1 > S2
s1 s2
s s
95 % des observations
4 – Mesures de dispersion (8)
• Interprétation de l’écart type :
– 3) estimation rapide de s
étendue
" s" =
4
– 4) minimum « usuel » et maximum « usuel »
IRRIGATIO
3,2 4,4
3,9 5,3
Exercice 17
A%
Lf%
Lg%
Exercice 10
IMC 19,
2
x 384,
moyenne 25,
2
4 – Mesures de dispersion (10)
• Ex 2 : périmètre crânien
70%
moye
60%
50%
fréquence %
40%
30%
20%
10%
0%
35 37 39 41 43
classes de périmètre (cm)
99,7 % à moins de 3 s
95 % à moins de 2 s
68 % à moins d’un s
µ −3 µ −2 µ −σ µ + µ +2 µ +3
σ σ σ σ σ
Exercice 12
• Ex
Tailles
Conclusion : la variation du poids est plus importante que celle de la taille
5 – Mesures de positionnement
relatif
Ex : Jordan m
• 5.1 - Le score-z : à combien d’écart type la
valeur se trouve-t-elle de la moyenne ?
Lobo mesure
z=
x−x
s
ou z=
x−µ
σ
5 – Mesures de positionnement
relatif (2)
x − µ 1,98 − 1,75
z= = = 3,23
σ 0,0711
Jordan
• La taille de Jordan se trouve à + 3,23 fois l’écart type de
la moyenne des hommes
x − µ 1,93 − 1,61
z= = = 5,04
σ 0,0635
• La taille de Lobo se trouve à 5,04 fois l’écart type de la
moyenne des femmes
-3 -2 -1 0 +1 +2 +3
5 – Mesures de positionnement
relatif (4)
• 5.2 – Quartiles et percentiles
– QUARTLIES
Q1 = premier q
%. 25 % des d
5 – Mesures de positionnement
relatif (5)
• 5.2 – Quartiles et percentiles
12
percentile de112 = 100 = 30
40
5 – Mesures de positionnement
relatif (7)
• 5.2 – Quartiles et percentiles
– Comment trouver la valeur qui correspond à un
percentile particulier k ? On cherche le localisateur L
d’une valeur particulière parmi n valeurs.
k
L= n
100
si L est une va
5 – Mesures de positionnement
relatif (8)
• 5.2 – Quartiles et percentiles
Ex : cotinine :
L=
68
100
40 = 27,2
5 – Mesures de positionnement
relatif (9)
• 5.2 – Quartiles et percentiles
– Q1 = P25 ; Q2 = P50 ; Q3 = P 75
75
L= 40 = 30
100
P20
1
L= 40 = 0,4
100
Distance Inte
25
L= 40 =10
100
Exercice 14 (suite)
Etendue 10 – 9
10
L= 40 = 4
100
90
L= 40 = 36
100
6 – Analyse exploratoire des
données
• 6.1 – Valeurs extrêmes
Q1 Q3
maximum
minimum
6 – Analyse exploratoire des
données (3)
• 6.3 - Boîtes à moustaches de Tukey
Valeurs Valeurs
anomaliques Valeurs normales anomaliques
inférieures supérieures
= =
outliers médiane outliers
Q1 Q3
maximum
minimum