Documente Academic
Documente Profesional
Documente Cultură
Chapitre 1 :
Introduction &
Statistiques Descriptives
Professeur Philippe CINQUIN
Année universitaire 2009/2010
Université Joseph Fourier de Grenoble - Tous droits réservés.
Statistiques Descriptives -
Probabilité - Estimation -
Intervalles de confiance
• Philippe.Cinquin@imag.fr
• TIMC-IMAG, équipe GMCAO
http://www-timc.imag.fr/gmcao
(UJF / CNRS)
• Département de Méthodologie de
l’Information de Santé & Centre d’Innovation
Technologique du CHU de Grenoble
(04 76 76 50 47)
• Centre d’Investigation Clinique - Innovation
Technologique (CIC-IT)
http://www.maxithec.com
Santé
• Observer
– Des faits « bruts » sur un patient
• Signes cliniques (palpation d’un foie, …)
• Signes biologiques (concentration de glucose dans
le sang, …)
• Signes physiques (diamètre d’une coronaire)
– Les même faits bruts sur des groupes de
patients et de personnes normales
• Collectionner ces faits bruts
L’information … pour l’action
• Latin status :
a - état de repos, repos, immobilité. - b - pose,
posture, attitude, contenance, maintien. - c -
position (de l'armée), attitude (du combattant). -
d - situation (des lieux). - e - position, situation,
état (des choses), bon état, situation prospère. -
f - état, condition sociale, rang. - g - taille; haute
stature, hauteur, grandeur. - h - maintien, salut,
conservation.état de repos, attitude, position,
situation, état (des choses), Etat (société), taille
Statistique
• Variable quantitative
– Toute variable qu’un instrument peut mesurer sous
forme numérique
• Taille, poids, glycémie, nombre d’enfants dans une fratrie, …
– Les valeurs possibles pour une telle variable sont
donc
• l’ensemble des réels,
• Plus souvent un sous-ensemble de l’ensemble des réels
– Entiers (naturels ou relatifs)
– Intervalle [a , b]
Types de variables
• Variable qualitative
– Toute variable caractérisée par un attribut qualitatif, et non par
une mesure numérique
• Couleur des yeux, sexe, présence d’un facteur de risque pour une
pathologie, …
– Les valeurs possibles pour une telle variables, encore
appelées les « modalités de réponse » sont donc
• Une liste de modalités de réponse :
– Pour la couleur des yeux : {noir ; bleu ; vert}
– Pour le sexe : {homme ; femme}
• Une liste de « codes » attribués à chaque modalité de réponse
– Pour la couleur des yeux : {N; B; V} ou {1 ; 2 ; 3} ou …
– Pour le sexe : {H ; F} ou Pour le sexe : {1 ; 2} ou …
– Attention : même « codée » numériquement, une variable qualitative
reste bien sûr qualitative…
Types de variables (suite)
• A) Introduction
• B) Statistiques descriptives
• C) Probabilités
• D) Estimation
• E) Intervalles de confiance
• F) Problème récapitulatif
• G) Résumé des objectifs
B Statistiques Descriptives -
1 Distribution d’une variable qualitative
2,06
0,34 6,09
Très insatisfait
Plutôt insatisfait
27,21
Plutôt satisfait
Très satisfait
64,29
Données
manquantes
Distribution d’une variable qualitative
• Diagramme en barres
Distribution des effectifs de la variable
– En abscisses, les "degré de satisfaction" dans une
fréquences) 500
Effectifs
– Veiller à choisir 400
317
l’origine des effectifs à 300
soient proportionnelles 0
4
à ce qu’on souhaite
t
it
s
t
t
i
te
fa
fa
fa
fa
an
t is
tis
tis
tis
représenter, ici les
sa
sa
qu
sa
sa
in
in
an
ès
ôt
ès
m
ut
effectifs)
Tr
ô
ut
Tr
Pl
es
Pl
né
on
D
Distribution d’une variable qualitative
• Diagramme en barres
– En abscisses, les Distribution des effectifs de la variable "parité"
dans une maternité
différentes valeurs
possibles 600
526
– En ordonnées, les 500
l= j
ECC j = ∑ n l
l=1
Distribution d’une variable quantitative discrète
• Représentation des
effectifs cumulés dans
le cas de l’exemple de
la parité Effectifs cumulés de la variable "parité"
dans une maternité
1400
1200
1000
800
600
400
200
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
parité
B Statistiques Descriptives -
3 Distribution d’une variable quantitative continue
F j = ∑ nl
l=1
• Histogramme
– En abscisses, les
différentes valeurs Distribution du poids de naissance dans
possibles une maternité
fréquences) 160
135
140 126
120 109
100
85
80
60 53
45
40 30 32
16
20 6 6
0 0 1 2 2 1 0 0 0
0
.
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
pl 0
..
0
us
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
ou 43
Poids de naissance
Distribution d’une variable quantitative continue
200 120,00%
180
100,00%
160
140
80,00%
120
Effectifs
Fréquence
100 60,00%
% cumulé
80
40,00%
60
40
20,00%
20
0 ,00%
00
00
00
00
00
00
00
00
00
00
pl 0
.
..
0
us
22
24
26
28
30
32
34
36
38
40
42
ou
Poids de naissance
B Statistiques Descriptives -
4 Paramètres d’une variable quantitative
• Comment aller encore plus loin dans la
« simplification » ou la « réduction »
– Tenter de résumer, en quelques valeurs
caractéristiques quantifiées , l’essentiel de
l’impression donnée par les graphiques précédents
• Soient X une variable d’intérêt quantitative dans
un échantillon de taille n, {xi, i=1,..,n} les
données brutes
– Paramètre = f ({xi, i=1,..,n})
• Paramètres de position / Paramètres de
dispersion
4.1 Paramètres de position d’une
variable quantitative
• Ils visent à résumer la zone des réels où
se trouvent les observations faites sur
l’échantillon
Moyenne
∑x i
i=1
x=
n
Moyenne
∑n j xj k
x= j=1
= ∑ f jx j
n j=1
Moyenne
• Avantage de la moyenne
– Facile à calculer
• Inconvénient :
– Sensible aux erreurs
• Dans l’exemple précédent (n = 25), supposons
qu’on ait remplacé un poids de naissance de
2500 g par 0 g : la moyenne se trouvera décalée
vers le bas de 2500/25 g = 100 g
Une intuition « mécanique » de la Moyenne
∑y i =0
i=1
Médiane
• Facile à
comprendre sur la Distribution du poids de naissance dans une
maternité
fréquences 180
100,00%
cumulées (exemple
160
140
80,00%
de naissance,
100 60,00%
% cumulé
80 50 %
mesuré sur un 60
40,00%
Médiane = 3263 g
échantillon de 1165 40
20,00%
nourrissons) :
20
0 ,00%
médiane = 3263 g
00
00
00
00
00
00
00
00
00
00
pl 0
.
..
0
us
22
24
26
28
30
32
34
36
38
40
ou 4 2
Poids de naissance
Médiane
• Avantage de la médiane
– Peu sensible aux erreurs
• Dans l’exemple des 25 nouveaux-nés, le
remplacemet d’un poids de naissance de 2500 g
par 0 g n’affecte pas la médiane
• Inconvénient (relatif avec les ordinateurs) :
– Nécessite de classer les données par ordre
Quantiles
QuickTime™ et un
décompresseur
sont requis pour visionner cette image.
Médiane. Ici, n = 25 (impair).
(n+1)/2 = 13; Médiane = x13 = 3140 g
Mode = maximum
135
140 126
120 109
100
85 local = 3400
80
60 53
45
40 30 32
16
20 6 6
0 0 1 2 2 1 0 0 0
0
.
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
pl 0
..
0
us
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
ou 43 Poids de naissance
2500 - 2699 4
140
2700-2899 19
2900-3099 57
120
3100-3299 124
3300-3499 148 100
3500-3699 110
3700-3899 66 80
3900-4099 87
4100-4299 88 60
4300-4499 69
4500-4699 24 40
4700-4899 4
20
0
00
00
00
00
00
00
00
00
00
00
00
00
00
00
00
.
..
us
22
24
26
28
30
32
34
36
38
40
42
44
46
48
50
pl
ou
Poids des enfants dans un sce de pédiatrie (n=800)
Maximum : 4180 g
a(symétrie)
250
200
150
100
50
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Q75=33
Q50=30
Q25=27
Q5=19
V=
∑ (x i − x ) 2
=
∑ (x 2
i − 2xx i + x 2 )
=
∑ x 2
i
− 2x
∑ x
+
nx 2
i
n n n n n
2
(∑x ) 2 i
x ) ∑x −
2
V=
∑ x 2
i
− x2 =
∑ x
−
(∑
2
i
= ni i
n n n2 n
Variance : formule de Huyghens
• Retenir que :
2
(∑x )
∑x − n
2 i
i
V=
n
• Deux échantillons
très différents 2,5
peuvent avoir la
2
même moyenne,
1,5
différents (1 pour la
bleue, 0.2 pour la
rouge)
Autres paramètres de dispersion
• Etendue : xmax - xmin
• Ecart inter-quartile : |Q75-Q25|
– NB cela peut être vu comme l’étendue des
données observées, après élimination des
25% des valeurs les plus faibles et des 25%
des valeurs les plus élevées (ce paramètre
est donc plus « robuste » que l’étendue, car
moins sensible aux données aberrantes,
« outliers »)
4.3 En résumé :
paramètres d’un échantillon
• Paramètres de position :
– Moyenne x = Σx /ni
– qème quantile (ou qème
percentile)= valeur au-dessous de laquelle
se trouvent q p. 100 de ces n observations (médiane = Q50)
– Extrema (minimum, maximum)
– Mode : valeur centrale d’une classe dont l’effectif est un
maximum relatif par rapport aux effectifs des classes adjacentes
• Paramètres de dispersion
– Variance : V = Σ(xi-m)2/n
– Etendue : xmax - xmin
– Ecart inter-quartile : |Q75-Q25|
Estimation des paramètres d’une variable
dans une population
L’utilisation de ce document est strictement réservée à l’usage privé des étudiants inscrits en 1ère
année de Médecine ou de Pharmacie de l’Université Joseph Fourier de Grenoble, et non destinée
à une utilisation collective, gratuite ou payante.
Ce document a été réalisé par la Cellule TICE de la Faculté de Médecine et de Pharmacie de Grenoble
(Université Joseph Fourier – Grenoble 1)