Documente Academic
Documente Profesional
Documente Cultură
ni correspond au nombre
d’observations (effectif) ayant
x2 n2 f2 comme valeur xi
fi correspond à la fréquence
… … … (pourcentage) d’observations
ayant comme valeur xi : f n
i
ni
xp np fp
S1 p n 1
Distributions non groupées
• Données ordinales et xi ni fi Ni Fi
quantitatives
discontinues. x1 n 1 f 1 N1 F 1
• x1 est la plus petite
valeur, xp la plus grande x2 n 2 f 2 N2 F 2
des valeurs observées.
• Effectifs cumulés. … … … …. …
– N2 = n2+n1
• Fréquences cumulées. xp n p f p Np F p
– F2 = f2+f1
S1p n 1
Distributions non groupées
Ni est l’effectif cumulé c’est dire le
xi ni fi Ni Fi nombre d’observations ayant des
valeurs inférieures ou égales à xi :
i
x1 n 1 f 1 N1 F 1 Ni n j
j1
S1p n 1
Distributions groupées
• Les valeurs sont mises en classes.
• Toutes les distributions relatives à des
variables continues doivent être considérées
comme des distributions groupées, puisque
l'infinité de valeurs admissibles est
condensée en un nombre fini de mesures en
fonction de la précision de la méthode de
mesure utilisée.
A propos des classes
• Leurs valeurs extrêmes sont appelées bornes des
classes.
• Les classes sont mutuellement exclusives.
• L'amplitude de la classe ou intervalle ou module de
classe :
D= borne supérieure - la borne inférieure.
• Le point central ou encore point médian est situé à mi
chemin entre les bornes.
– Ci = Binfi +Di/2
• Dans certains cas la limite inférieure de la première
classe ou supérieure de la dernière classe n'est pas
précisée. On parle de classes ouvertes. A éviter !...
A propos des classes
• L'intervalle de classe est généralement
constant, toutefois, on utilise parfois une
amplitude variable notamment pour les
classes des valeurs extrêmes.
• En cas de classes d'amplitudes différentes, la
densité de fréquence ni/ Di permet de
comparer les effectifs ou les fréquences d'une
classe à l'autre.
• la densité de fréquence est utilisée pour
tracer l’histogramme.
Données quantitatives
continues
• Remarques :
– Si l’on mesure le poids d’un nouveau né avec une
précision de 1g, l’enfant qui pèse 3500g a en fait
un poids compris entre [3499,5g et 3500,5g[.
3500g représente le centre de la classe.
– Si l’on mesure l’âge en années pleines des
individus, une personne de 20 ans a un âge
compris entre [20 ans (inclus) et 21 ans[ (exclu).
20 ans représente la borne inférieure de la classe.
Distribution groupée
• On remplace la colonne xi par une colonne qui
comprend soit les bornes de classes, soit le
centre de classe ou la borne inférieure de la
classe (données temporelles comme l’âge en
années pleines).
Exemple
Classe Ci ni fi Ni Fi
[140-160[ 150,0 10 0,05 10 0,05
[160-165[ 162,5 20 0,10 30 0,15 Pour les calculs, le
[165-170[ 167,5 30 0,15 60 0,30 centre de classe Ci est
utilisé en remplacement
[170-175[ 172,5 45 0,23 105 0,53 de xi sauf de façon
usuelle pour l’âge
[175-180[ 177,5 40 0,20 145 0,73 (données temporelles).
[180-185[ 182,5 35 0,18 180 0,90
[185-190[ 187,5 15 0,08 195 0,98
[190-200[ 195,0 5 0,03 200 1,00
Formules
ni
fi
n
n i 1 n i
p
p = nombre de valeurs différentes observées
p
f 1
i 1 i
(xi)
0 10 15
1 20
2 15 10
3 5
4 3 5
>4 0
0
0 1 2 3 4 >4
– …….
30
20
• Symétrie – Aplatissement. 10
0
1 2 3 4 5 6 7 8 9 10
Remarques
• Autres représentations :
– Diagramme de Pareto et courbe ABC ;
– Boite à moustache (Box-plot).
• Attention :
– Les tableurs comme Excel ou Calc ne permettent
pas facilement de faire des histogrammes.
Diagramme de Pareto
• Dans le domaine de la qualité, on étudie les
causes de dysfonctionnement d'un système.
• Quand il s'agit de variables qualitatives
binaires, on présente les résultats sous forme
de diagramme de Pareto et de courbe ABC.
• Objectif : Visualiser les causes les plus
fréquentes de défaut de qualité.
Exemple
• La tenue des dossiers médicaux fait l'objet de
textes règlementaires contraignants.
• l'évaluation de la qualité des dossiers fait
partie du processus de certification.
• Un dossiers peut avoir plusieurs anomalies.
• On a étudié les anomalies rencontrées sur 200
dossiers.
Résultats
Etude de la qualité du dossier du patient : anomalies Effectif % d'anomalies
rencontrées Dossier comportant des pièces
Nombre de dossiers analysés 200 non "signées" 180 39,74%
Effectif des Pourcentage Délai de la lettre de sortie non
anomalies de dossiers
respecté 150 33,11%
Dossiers non retrouvés 3 1,50%
Absence d'une pièce réglementaire 80 40,00%
Absence d'une pièce
Délai de la lettre de sortie non réglementaire 80 17,66%
respecté 150 75,00% Doosier ne permettant pas de
Dossier comportant des pièces non retrouver la démarche clinique 30 6,62%
"signées" 180 90,00% Dossier comportant des pièces
Dossier comportant des pièces sans
sans identification du patient 10 2,21%
identification du patient 10 5,00%
Dossiers non retrouvés 3 0,66%
Doosier ne permettant pas de
retrouver la démarche clinique 30 15,00% Total 453 100,00%
100,00%
90,00%
80,00%
70,00%
60,00%
50,00%
40,00%
30,00%
20,00%
10,00%
0,00%
Dos s ie r Dé la i d e la le ttre Ab s e n c e d ' u n e Doos ie r n e Dos s ie r Dos s ie rs n on
c om p orta n t d e s d e s ortie n oin p ié c e p e rm e tta n t p a s c om p orta n t d e s re trou vé s
p ié c e s n on re s p e c té ré g le m e n ta ire d e re trou ve r la p ié c e s s a n s
"s ig n é e s " d é m a rc h e id e n tific a tion d u
c lin iq u e p a tie n t
Les paramètres statistiques
• Paramètres de position Paramètres de l’échantillon
– Valeurs centrales
• Moyenne arithmétique E n
• Les autres moyennes s o
– géométrique
– harmonique
t i
– quadratique i t
• Médiane Le + souvent m a
• Mode
• Médiale a m
– Les fractiles t i
• Quartiles i t
• Percentiles
o s
• Paramètres de dispersion n E
– Amplitude ou étendue
– Ecart interquartiles
– Variance, Ecart type Paramètres de la population
– Coefficient de variation
• Paramètre d'aplatissement et de symétrie
Moyenne Arithmétique
Population m (mean) Echantillon x (average)
n = 6; T = 160+170+180+180+190+200 = 1080
1080
x 180 cm
6
Exemple
Le nombre de familles enquêtées
nombre nombre de
est de 53.
d'enfants familles Le nombre total d’enfants est
(xi) (ni) ni*xi de 77.
0 10 0
La moyenne du nombre d’enfants
1 20 20 par famille est de 77/53 = 1,45.
2 15 30
3 5 15 Attention aux arrondis ici si on
arrondit à une décimale la
4 3 12 moyenne est de 1,5 enfants par
Total 53 77 famille.
Exemple
• Les étudiants de première année de L1 santé sont répartis
dans 3 amphithéâtres avec les données ci-dessous. Quelle est
la moyenne de l’âge en L1 santé ?
• Rappel :
– Dans les distributions en cloche, unimodales
symétriques, mode, médiane et moyenne sont
confondus.
Fractiles
• Quartiles
– Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont
inférieures, 3/4 lui sont supérieures.
– Q2 = Médiane.
– Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui sont
inférieures, 1/4 lui sont supérieures.
• Détermination graphique.
• Interpolation linéaire (cf médiane).
• Percentiles
– 10ième percentile : xi tel que Fi = 0,10
Remarques
• On a :
– 50% des individus qui ont des valeurs en dehors de
l’intervalle Q1-Q3 et 50% à l’intérieur.
(x i x) 2
S2 i 1
n
• C'est par rapport à la moyenne que la somme des
carrés des écarts est la plus faible.
• La variance de l'échantillon est souvent notée S2.
• Ce n'est pas un bon estimateur de la variance de la
population souvent notée s2.
• L’estimation de la variance est notée s
^ 2.
Variance et écart type
• Le numérateur de la variance est appelé somme des
carrés des écarts et noté SCE.
• L'écart type est la racine carré de la variance. On
l'appelle également déviation standard (standard
deviation). Il est dans l'unité de la variable.
• Variance et écart type sont indépendants des
translations (changement d ’origine) mais pas des
multiplications (changement d'unité).
– Si y = a * x + b, on a Sy = |a| * Sx
• Pour les distributions en cloche, la variance calculée
à partir des classes est surestimée, certain réalise la
correction de Sheppard.
Formules
p p
n
n ni fi i f i 1
i 1 n i 1
n p p
T x
i 1
i n x
i 1
i i n fi
i 1
n p
U x
i 1
2
i n xi 1
i
2
i
p
T
x
n
f x
i 1
i i
N
T2
SCE (x i x) U 2
i 1 n
SCE
S
n
SCE
σ̂
n 1
Ecart type de la moyenne
• Si l’on considère plusieurs échantillons indépendants,
issus d’une population, on obtient plusieurs
moyennes.
• La distribution des moyennes a un écart type appelé
écart type de la moyenne ou erreur standard de la
moyenne (ESM) (standard deviation of the mean –
SDM).
σ̂
ES M̂
n
Représentation en Box Plot
• Résume la distribution en terme de
paramètres de position et de dispersion.
Coefficient de variation
• CV est le rapport écart type divisé par la
moyenne.
• CV est un nombre pur, sans unités.
• CV est totalement indépendant des unités.
• Le CV permet de comparer la variabilité de
distributions de variables qui ne sont pas dans
les mêmes unités.
Moments centrés d’ordre k.
Symétrie et aplatissement
• Moments centrés d'ordre k
– moyenne arithmétique des écarts à la moyenne élevée à la
puissance k.
– si k pair => paramètre de dispersion.
– si k impair => paramètre de symétrie.
• Coefficient de Pearson et de Fisher
– b1 pour caractériser la symétrie de la courbe; b2 pour caractériser
l'aplatissement.
– b1 = M32 / M23 : est voisin de 0 si la distribution est symétrique.
– b2 = M4 / M22 : est voisin de 3 si la distribution suit une loi normale
(plus aplatie qu'elle si b2 < 3).
– cf Loi Normale.
Statistique descriptive
à 2 dimensions
• Objectif : mettre en évidence les relations qui existent
entre deux séries d'observations.
– Nature des variables : les deux variables peuvent être
quantitatives, qualitatives ou l'une quantitative et l'autre
qualitative.
– Deux variables mesurées chez le même individu par exemple poids
et taille; poids et couleur des yeux, présence d’un cancer et
éthylisme...
• Situations :
– Séries appariées : même variable mesurée dans deux
circonstances :
• Avant - Après traitement.
• Cas - Témoins on apparie un témoin dépourvu de la maladie que l'on veut
étudier sur différents points que l'on sait lier au phénomène étudié (par
exemple pour une étude de la mortalité on apparie sur âge, sexe, ...
– Séries non appariées :
• Même variable mesurée dans des groupes différents.
Tableaux à 2 dimensions
• Série, distribution de fréquences : tables de
contingence.
Sujet Poids Taille Poids
1 70 170 Taille 60 65 68 70 73 75 80 83 90 Tot.
2 80 180 162 1 1
3 65 165 165 1 1 2
4 75 175 170 1 12 13
5 90 182 175 10 10
6 73 170 180 4 15 1 2 22
7 60 162 182 1 1
Tot. 1 1 1 5 12 25 1 1 3 48
8 68 165
9 83 180
…. … …
Table de contingence
• Nombre de mesures totale n
• Total de chaque ligne = li
• Total de chaque colonne = cj
• Effectif d'une cas = nij
• Fréquences relatives: Cheveux
– nij / li : % en ligne Yeux Blonds Bruns Autres Tot. (li)
– nij / cj % en colonne Clairs 50 20 30 100
– nij / n % Foncés 60 80 60 200
– li / n
Tot. (cj) 110 100 90 300
– cj / n
Attention
Cheveux
Yeux Blonds Bruns Autres Tot. (li)
Clairs 50 20 30 100
Foncés 60 80 60 200
Tot. (cj) 110 100 90 300
300 = Nombre total de mesures.
100 = Nombre d'individus ayant les yeux clairs.
110 = Nombre d'individus ayant les cheveux blonds.
50 / 300 = % d'individus ayant les cheveux blonds et les yeux clairs.
50 / 110 = % d'individus parmi les blonds ayant les yeux clairs.
50 / 100 = % d'individus parmi les yeux clairs ayant les cheveux blonds.
Représentation graphique 2
variables quantitatives
• Nuage de points
90
85
80
75
70
65
60
55
160 165 170 175 180 185
Covariance
Covariance
• Calcul
N Tx * T
S x * y -
i
y
Cov (x,y) =
i=1 i N
N
N
S xi * y
i
= Txy = somme des produits
i=1
Table de contingence de 2
caractères binaires
Journées réalisées
Taux d' occupation
Nombre de lits * durée de la période
Journées réalisées
Lits occupés
Durée de la période
Effectifs,
Equivalents temps plein
• Les effectifs correspondent au nombre de
personnes employées par la structure.
• Les équivalents temps plein (ETP)
représentent la force de travail. Une personne
travaillant à temps partiel est comptabilisée
en fonction de son temps de travail.
• Par exemple un hospitalo-universitaire compte pour 0,5
ETP.