Documente Academic
Documente Profesional
Documente Cultură
lUniversit de Paris 8.
STATISTIQUES DESCRIPTIVES
Rsums et exercices
Jean-Marc Meunier
Rfrence: R 2440 T
Classe 321
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
INTRODUCTION.
Cette introduction est surtout une mise en garde contre la tentation de croire que l'tude de
ce document puisse permettre de se dispenser de l'tude du cours proprement dit. Le
propos de ce document est de vous proposer une aide l'tude du cours. Il est organis
dans le respect de la structure de votre cours. Vous y trouverez :
Une dfinition simple des principaux concepts.
Un rsum du cours
Quelques exercices.
Les principaux piges viter.
Une foire aux questions.
. La ralisation des exercices proposs n'a aucun caractre obligatoire, mais est vivement
conseille surtout dans les parties du cours que vous avez du mal apprhender. Ces
exercices ne doivent pas tre envoy la correction. Pour chacun d'eux, vous trouverez un
corrig vous permettant de vous valuer.
Avant de commencer, voici succinctement quelques rappels d'algbre, pour ceux qui en
auraient besoin :
Rappels d'algbre.
Rgles de priorit des oprations.
Dans tous les cas, on commence par l'intrieur des parenthses. On doit raliser les oprations
en commenant par les lvations la puissance, puis les multiplications et les divisions, puis
les additions et les soustractions.
Addition de nombres rels :
Lorsque les deux nombres sont de mme signe, on fait la somme des deux nombres, le
rsultat est de mme signe que ces deux nombres :
(-2)+(-2)=-4 et (+2)+(+2)=+4
Lorsque les deux nombres sont de signes diffrents, on fait la diffrence des deux nombres et
le rsultat est de mme signe que le plus grand des deux nombres.
(-2)+(+5)=3 et (+2)+(-5)=-3
Produit de nombres rels:
Lorsque les deux nombres sont de mme signe, le rsultat est de signe positif (de ce fait un
carr n'est jamais ngatif).
Lorsque les deux nombres sont de signes diffrents, le rsultat est de signe ngatif.
Addition de fractions.
Pour additionner des fractions, il faut rduire au mme dnominateur et ensuite additionner
les numrateurs.
1 1 (1 * 3) (1 * 2) 3 2 5
+ = + = + =
2 3 (2 * 3) (3 * 2) 6 6 6
R2440T 2
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Produit de fractions
On multiplie en ligne les numrateurs entre eux et les dnominateurs entre eux.
1 1 1*1 1
* = =
2 3 2*3 6
R2440T 3
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
x i
veut dire qu'il faut faire la somme des valeurs de x
x 2
i veut dire qu'il faut lever chaque observation au carr, puis faire la somme de ces
carrs.
R2440T 4
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
RSUM
Les mthodes statistiques portent sur des ensembles d'individus statistiques. L'ensemble
d'individus tudis est appel "chantillon". Cet chantillon est un sous-ensemble d'un
ensemble plus large appel "population".
On tudie sur ces chantillons certaines dimensions appeles "variables". Les diffrentes
valeurs que peuvent prendre ces variables sont appeles modalits. Une variable a forcment
plus d'une modalit.
Une variable est caractrise par son chelle de mesure (nominale, ordinale, d'intervalle ou
numrique) et ventuellement son statut (variable dpendante vs1 variable indpendante). Les
variables indpendantes sont galement appeles "facteurs".
Une variable nominale est caractrise par le fait que ses modalits nentretiennent pas
de relation dordre.
Une variable ordinale est caractrise par des modalits ordonnes entre elles.
Une variable numrique a des modalits ordonnes et un intervalle constant entre
modalits.
Une observation est la mise en relation d'une modalit d'une variable avec un individu
statistique. L'ensemble des observations est appel "protocole".
Un protocole est caractris par l'ventuelle prsence d'une structure. Il sera dit structur si on
peut mettre en vidence une relation d'embotement ou de croisement entre les individus
statistiques et les facteurs.
Les objectifs de la mthode statistique sont :
Rsumer un protocole ou une distribution.
Situer un sujet dans une distribution.
Comparer des groupes d'observations.
valuer l'existence d'une relation.
Confondre les individus statistiques et les modalits de la variable. Il arrive parfois qu'une
lecture un peu trop rapide de l'nonc conduise les tudiants confondre ces deux notions.
1
note : vs signifie Versus, cest--dire par opposition .
R2440T 5
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Elles sont pourtant bien distinctes, puisque les modalits de la variable caractrisent les
individus statistiques et non l'inverse.
Confondre les modalits d'une variable avec les variables. Les variables sont des
dimensions qui servent caractriser les individus statistiques, les modalits sont les valeurs
que peuvent prendre ces dimensions. L'erreur qui consiste les confondre va souvent de pair
avec une autre erreur qui consiste dclarer comme variable une caractristique constante
chez les sujets. Pour l'viter, il faut toujours se demander, lorsqu'on croit avoir identifi une
variable, quelles sont les diffrentes valeurs que cette variable peut prendre. Si on ne peut pas
rpondre cette question en identifiant plus d'une valeur, c'est qu'on est en train de se
tromper.
Dclarer comme variable numrique une variable nominale dont les modalits sont
reprsentes par des chiffres. Pour des commodits de codage, il arrive souvent qu'on
reprsente les diffrentes modalits d'une variable nominale par des chiffres. C'est le cas par
exemple lorsqu'on fait passer un questionnaire et que les rponses sont codes par leur
numro. Pour viter ce genre d'erreur, il faut toujours se demander ce que reprsentent les
chiffres. Ce ne sont parfois que de simples tiquettes utilises parce qu'elle tiennent moins de
place dans un tableau que des mots ou des phrases.
Ne dclarer que des variables indpendantes ou que des variables dpendantes dans un
protocole multivari. Le statut d'une variable n'a de sens que par opposition l'autre statut. On
ne peut en effet avoir seulement des variables indpendantes (elles sont censes influencer
quelle variable ?) ou seulement des variables dpendantes (elles sont censes tre influences
par quelle variable?). Si, dans un nonc, vous trouvez une variable indpendante, alors il
existe forcment quelque part une variable dpendante, et inversement.
Dclarer une structure de protocole avec des facteurs qui n'ont pas t identifis au
pralable. Pour un enseignant, cette capacit de l'tudiant est surprenante. Elle signale un
dfaut du contrle de la cohrence de son propos. C'est le genre de chose qui passe facilement
la trappe sous la pression de l'examen. Elle consiste par exemple dclarer une structure
d'embotement, alors que le facteur embotant n'est pas identifi en tant que tel. La description
d'un protocole doit tre cohrent dans son ensemble. En gardant cela l'esprit, on vite
facilement ce genre d'erreur.
SENTRAINER
R2440T 6
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Pour chacun des comptes-rendus de recherche suivants, nous vous demandons de dcrire le
protocole (individus statistiques, variables et structure du protocole) et les objectifs
statistiques de la recherche.
Exercice 1.
Les performances en lecture de soixante-seize enfants bnficiant de deux mthodologies
didactiques contrastes (une approche ido-visuelle2 pure et une approche partiellement
phonique3) sont compares au terme d'une tude longitudinale de vingt-huit mois (de la fin de
grande section de maternelle au dbut du cours lmentaire 2me anne. Les lves bnficiant
d'une didactique4 ido-visuelle obtiennent des scores nettement infrieurs ceux des autres
lves lors des valuations nationales de CE2 malgr des performances initiales quivalentes
en fin de scolarit maternelle. Leurs vitesses d'identification des mots crits sont plus lentes
que celles des lves bnficiant d'une didactique phonique rnove. L'absence
d'enseignement du code grapho-phonologique5 apparat comme un obstacle l'apprentissage
de la lecture au cycle 2 et elle pnalise les lves quelque que soit leur appartenance sociale.
R. Goigoux (2000) Apprendre lire l'cole : les limites d'une approche idovisuelle.
Psychologie franaise, N45-3, 2000,233-243.
Exercice 2.
Il est admis que les conduites adaptatives des enfants lors de leur premire entre la
maternelle sont influences par des facteurs diffrentiels tels que l'ge, le sexe, la dure de la
journe scolaire. On tudiera ici le rle des expriences antrieures de sparation et celui des
habitudes de vie en collectivit partir des observations comportementales de trois groupes
d'enfants suivis durant leur premire anne de maternelle, dans la classe et dans la cour et
diffrencis selon leur mode de garde antrieur (mre, assistante maternelle, crche).
L'analyse statistique des modalits comportementales envers les enseignants, les pairs, le
matriel, fait apparatre une diffrence qualitative et surtout quantitative entre les trois
groupes; elle est surtout marqu dans le champ des comportements sociaux des enfants avec
leurs pairs, puis dans l'intrt pour le matriel. Les effets diffrentiels des modes de garde sont
particulirement nets au dbut de l'anne scolaire et dans la cour de rcration. Ils ont
tendance se maintenir au terme d'une anne scolaire et ce sont les enfants qui n'ont connu
que la garde au foyer qui ont le plus de difficults.
C. Sitbon-Zwobada (1997) Influence des modes de garde prscolaire lors de l'entre en
maternelle. Revue de psychologie de l'ducation, 1, 57-80.
2
Lapproche ido-visuelle, encore appele mthode globale, consiste aborder la lecture par
la reconnaissance de la forme visuelle des mots.
3
Lapproche phonique correspond ce que dautres auteurs appellent la mthode analytique.
Lapprentissage de la lecture y est abord par lidentification des sons composant le mot.
4
Dans ce contexte, didactique signifie mthode denseignement .
5
Le code grapho-phonologique est la correspondance entre lcriture et la prononciation des
syllabes ou des mots.
R2440T 7
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Exercice 3
Le but de cette tude est d'explorer l'influence de l'affect sur la rsolution de problme par
analogie. Quatre affects spcifiques, positif, neutre triste et agressif, sont induits partir
d'extraits musicaux et d'items d'imagerie. Les sujets doivent rsoudre soit des problmes bien
dfinis, soit des problmes mal dfinis. Le raisonnement analogique implique d'utiliser
l'information source avant l'induction de l'humeur afin de rsoudre un problme cible. Un
groupe Le contrle ne reoit pas d'information source. Une performance accrue est attendue
en condition humeur positive pour le problme mal dfini alors qu'elle devrait tre altre
pour les problme bien dfinis.
P. Cabrol (1998) Induction d'humeur et rsolution de problme par analogie. VIIe colloque de
l'association pour la recherche cognitive, Arc'98, 11 et 12 Dcembre 1998, Universit de Paris
8, Saint-Denis.
R2440T 8
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
RECODAGE DE VARIABLE.
RSUM
Lorsque sous leur forme originale, les donnes ne sont pas utilisables, ou lorsque le nombre
d'observations n'est pas au moins gal 5 fois le nombre de modalits de la variable, il faut
procder un recodage de la variable.
Le recodage est applicable tous types d'chelles de mesure.
On peut recoder une variable par regroupement de modalits. Dans ce cas, le recodage n'est
pas rversible.
Dans le cas d'une variable nominale, on regroupera les modalits par proximit de sens en les
dsignant par une notion plus gnrale.
Dans le cas d'une variable ordinale, on regroupera les modalits voisines en les dsignant par
une notion plus gnrale.
Dans le cas d'une variable d'intervalle ou numrique, on regroupe les modalits voisines en les
remplaant par la valeur centrale de la classe, c'est--dire la moyenne des valeurs appartenant
la classe.
On peut galement recoder une variable par transformation. Cette transformation nest rien
dautre que lapplication dune fonction mathmatique aux donnes. Dans ce dernier cas, le
recodage est rversible.
Constituer des classes non exhaustives : Lorsquon recode les variables par regroupement, il
est essentiel de veiller ce que toutes les observations trouvent une place dans les classes.
Constituer des classes non exclusives : dans un recodage par regroupement de modalits, il
faut que les classes soient exclusives pour quon puisse classer les observations sans
ambigut.
SENTRAINER.
R2440T 9
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Exercice 5. Sachant que pour l'exprience voque l'exercice 4, nous avons 40 observations,
ralisez un regroupement en classes en conservant un maximum de classes sans tendre
l'intervalle de variation.
R2440T 10
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
RSUM
Une premire faon de rsumer un protocole est de faire une distribution, c'est--dire le
dnombrement des observations pour chacune des modalits.
Le nombre d'observation pour chaque modalit est appel effectif. Il est not n(u). Le nombre
total d'observation est not n.
En divisant l'effectif par le nombre total d'observation on obtient la frquence. La frquence
d'une modalit est note f(u). f(u)=n(u)/n
En multipliant la frquence par 100, on obtient un pourcentage.
Pour les protocoles qui sont recods en classes, on peut calculer pour chaque classe sa densit
d'effectifs qui est gale l'effectif divis par le nombre de modalits regroupes dans la
classe.
On peut galement rsumer un protocole par une distribution cumule gauche (ordre
croissant) ou droite (ordre dcroissant).
On peut galement reprsenter une distribution, cumule ou non par un graphique (diagramme
en btonnets, en secteur ou histogramme).
Oublier les modalits pour lesquelles il n'y a aucune observation. C'est une erreur
frquente, surtout si on n'a pas pris la prcaution de lister l'ensemble des modalits.
R2440T 11
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
8
7
6
5
4
3
2
1
0
ie
re
e
el
e
ph
am
er
ff
uv
ei
rg
Lo
-d
io
ie
ur
re
tr
nc
Le
To
ot
de
co
N
La
c
Ar
Sur un tel graphique, on est tent de voir une distribution en cloche inverse, en apparence
symtrique. Mais comme il n'y a pas de raison pour ranger les modalits de cette faon, on
peut tout aussi bien les classer par ordre alphabtique. Le graphique de distribution devient
alors le suivant :
8
7
6
5
4 Srie1
3
2
1
0
re
ie
e
e
l
ffe
am
ph
er
uv
ei
om
rg
-d
Lo
ie
ur
re
tri
nc
Le
To
ot
de
co
N
rc
La
A
Confondre une distribution et une distribution cumule. Cela arrive lorsqu'il est
demand de travailler sur les deux types de distribution simultanment, et notamment sous
forme graphique. S'ensuivent alors des commentaires du genre "c'est la dernire modalit
qui constitue le mode" o "les effectifs augmentent en mme temps que les modalits. Dans
une distribution cumule gauche, l'effectif cumul de la dernire modalit est toujours le
plus important et les effectifs cumuls gauche croissent toujours dans le mme sens que les
modalits de la variable. Pour viter ce genre de pige, il faut jeter un petit coup d'il sur
l'chelle des effectifs, si l'effectif maximum correspond au nombre de sujets, c'est que vous
avez devant vous le graphique de la distribution cumule.
Orienter l'axe de la variable quand celle-ci est nominale ou que la liste des modalits
est exhaustive. Orienter un axe, c'est le terminer par une petite flche. Celle-ci signale que
les modalits sont ordonnes (ce qui n'est pas le cas des variables nominales, elle n'a donc
R2440T 12
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
dans ce cas pas de sens) et que la liste des modalits portes sur le graphique n'est pas
exhaustive (ce qui est souvent le cas des variables numriques pour lesquelles il peut exister
d'autres modalits observables au-del des modalits observes). La plupart des logiciels de
type "tableur" ignorent purement et simplement l'orientation de l'axe. Cette erreur est donc
surtout faite lorsqu'on doit faire le graphique la main (durant les examens par exemple)
alors avant de mettre la petite flche qui semble tant amliorer l'esthtique du graphique, il
faut s'interroger sur son sens.
Choisir une chelle des effectifs inapproprie. L'chelle de mesure doit tre en rapport
avec l'ordre de grandeur des effectifs. En choisissant une chelle de mesure trop petite, on a
tendance craser le graphique et minimiser des diffrences qui pourtant existent.
l'inverse, une chelle de mesure trop grande peut faire croire des diffrences qui en ralit
sont minimes. titre d'exemple, Comparez ces deux graphiques raliss sur une mme
distribution.
20 10
18 9
16 8
14 7
12 6
10 5
8 4
6 3
4 2
2 1
0 0
R2440T 13
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
SENTRAINER.
Exercice 6.
titre d'exemple, voici un protocole correspondant la passation, par un ensemble de 113
sujets d'un test (Faverge, 1966). Les individus statistiques sont les sujets. La variable
correspond au nombre de rponses correctes sur un ensemble de 50 items. Nous avons une
seule variable, l'chelle de mesure est une chelle d'intervalle. Nous avons donc ici un
protocole univari non structur. Ralisez la distribution de cette variable.
Exercice 7.
Reprsenter graphiquement la distribution du protocole de l'exercice prcdent.
Exercice 8.
Faire la distribution des notes au test en 7 classes d'intervalles gaux et en sarrangeant pour
que la valeur extrme de la dernire classe soit gale la modalit observe la plus leve.
Exercice 9.
Mme exercice que le 8, mais avec 9 classes.
R2440T 14
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
RSUM.
Pour rsumer une distribution, on calcule des indices de position ou de tendance centrale et
des indices de dispersion. Le choix des indices dpend de ce qu'on souhaite rsumer dans la
distribution et de l'chelle de mesure de la variable (se reporter au tableau suivant).
Les questions qu'on peut se poser sont :
Sur quelle(s) modalit(s) se concentre(nt) les observations (concentration) ?
Comment les observations se rpartissent-elles dans la distribution (rpartition) ?
Quel est le centre de gravit de la distribution et la variation moyenne autour de ce centre
(centre et variation) ?
Echelles de mesure
Questions Indices nominale Ordinale Numrique
Concentration de position mode mode mode
Mode secondaire Mode secondaire Mode secondaire
Rpartition de tendance centrale Mdiane Mdiane
de dispersion Quartile 1 et 3 Quartile 1 et 3
Centre et variation de tendance centrale Moyenne
de dispersion Ecart-type
La mdiane (ou quartile 2) est la modalit dont l'effectif cumul correspond n/2.
Le quartile 1 est la modalit dont l'effectif cumul gauche correspond n/4.
Le quartile 3 est la modalit dont l'effectif cumul gauche correspond n*3/4.
La moyenne est la somme des observations divise par le nombre d'observations. On la note
m. Elle reprsente le centre de gravit de la distribution : m=x/n
La variance est la moyenne des carrs des carts la moyenne. On la note s2 :
( x )2
(x m )2 x 2
n
s 2
= i
=
n n
L'cart-type est la racine carre de la variance. On le note s. Il reprsente la variation
moyenne des observations autour de la moyenne du protocole. On lutilise comme indice de
dispersion pour rsumer un protocole.
R2440T 15
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
La variance corrige est la somme des carrs des carts la moyenne pondre par n-1. On
2
la note scorr = varcorr :
( x )2
(x m )2 x 2
s2 * n n
= = =
2 i
scorr
n 1 n 1 n 1
L'cart-type corrig est la racine carre de la variance corrige. Il reprsente d'un point de
vue descriptif une mesure de la variabilit intersujet, et d'un point de vue infrentiel, une
estimation de l'cart-type de la population parente. On lutilise lorsqu on veut essayer de
gnraliser les observations faites sur lchantillon lensemble de la population dont il est
issu.
Dclarer un effectif cumul au lieu d'une modalit comme mdiane ou quartile. C'est
une erreur assez frquente qui consiste annoncer que la mdiane est gale n/2 au lieu
d'annoncer la modalit correspondante. Pour l'viter, il faut garder l'esprit que mdiane et
quartiles sont des coupures de l'chelle de mesure (et non de la distribution cumule). Ce
qu'on dsire savoir avec ces indices c'est sur quelles modalits se rpartissent les
observations et non la valeur de n/2.
Confondre la somme des observations avec la somme des modalits. Cette erreur trs
frquente rsulte d'une confusion entre le tableau de protocole et le tableau de distribution. Il
est donc tout fait essentiel de bien les diffrencier. Le moyen le plus efficace pour faire la
diffrence est de vous demander quoi correspondent les lignes du tableau. Si les lignes
correspondent aux individus statistiques alors vous travaillez sur le tableau du protocole. Si
les lignes correspondent aux modalits de la variable alors vous travaillez sur le tableau de
distribution. Pour vous y retrouver, il est impratif d'avoir au pralable identifi vos units
statistiques et vos variables.
R2440T 16
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
les puissances, on fait ensuite les multiplications ou les divisions et on termine par les
sommes et les diffrences).
Annoncer une variance ou un cart-type ngatif. La variance est une moyenne de carrs.
Un carr tant forcment positif (la multiplication de deux nombres relatifs de mme signe
donne un nombre positif), leur moyenne ne saurait tre ngative. Elle reprsente une
distance et une distance ngative n'a pas de sens.
Annoncer une moyenne qui sort de l'intervalle de variation de la variable. Cette erreur,
pour le moins tonnante, consiste a annoncer une moyenne qui est situe au del de la plus
petite ou de la plus grande des observations. La moyenne est le centre de la distribution, elle
est donc forcment situe entre les deux extrmes observs.
Annoncer un cart-type plus grand que la moyenne. Cette erreur rsulte d'une mauvaise
reprsentation de ce que sont un cart-type et une moyenne. L'cart-type reprsente la
distance moyenne qui spare les observations de la moyenne du protocole, la moyenne tant
le centre de la distribution de ce protocole. La plus grande distance qu'on puisse trouver
entre la moyenne et les deux extrmits de la distribution, c'est lorsque la moyenne est au
milieu de l'intervalle de variation. L'cart moyen entre les observations et cette moyenne est
alors au maximum de la moiti de l'intervalle de variation. L'cart-type est donc forcment
infrieur ou gal la moyenne (sauf si votre chelle de mesure comprend des nombres
ngatifs). Le cas d'galit entre la moyenne et l'cart-type est un cas extrme et rarissime. Il
suppose que la moyenne soit situe mi-chemin entre la plus grande et la plus petite valeur
observe et que toutes les valeurs observes soient situes uniquement sur les extrmits de
la distribution. Dans ce cas, on peut douter du caractre numrique de la variable (quel est le
sens de la notion d'intervalle si seulement deux modalits sont observes ?) et donc de la
pertinence du calcul de la moyenne et de l'cart-type.
R2440T 17
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
SENTRAINER.
Exercice 10.
Situez le mode de la distribution en classes sur la note au test (exercice du paragraphe
prcdent).
Exercice 11.
Situez la mdiane et les quartiles de la distribution aprs regroupement en 9 classes des
notes au test (exercice 9).
Exercice 12.
Calculer la moyenne et l'cart-type de la distribution des notes au test (exercice du
paragraphe prcdent).
R2440T 18
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
RSUM.
Pour situer un sujet dans une distribution, il faut des repres. Ces repres sont :
- Des coupures spcifiques (dciles ou centiles) rsumant la distribution.
- La moyenne et l'cart-type (note z ou note rduite).
On peut aussi combiner ces deux repres (normalisation).
Dcilage et centilage.
L'chelle de mesure doit tre ordinale ou numrique.
9 dciles partagent la distribution en 10 interdciles comprenant 10% des observations.
99 centiles partagent la distribution en 100 intercentiles comprenant 1 % des observations.
La procdure de dcilage ou de centilage est similaire la procdure permettant la
dtermination des quartiles.
Normalisation.
Une distribution normale est une distribution en forme de cloche centre sur le mode, la
mdiane et la moyenne. Dans une distribution normale, connaissant la moyenne et l'cart-
type, on peut dterminer la frquence des observations pour chacune des modalits.
La normalisation est un recodage par regroupement de modalits destin modifier la forme
de la distribution pour la centrer sur 0 (moyenne des notes z) et en faire une distribution
normale. L'chelle de mesure doit tre numrique. La procdure de normalisation est la
suivante :
Dtermination des limites de classes en note z (4 / (le nombre de classe-1)
Lecture des frquences cumules gauche p(z<u) dans la table du z
Calcul des effectifs cumuls : p(z<u)*n
Dtermination des coupures et des effectifs de chaque classe (procdure similaire au
dcilage).
R2440T 19
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Chercher dix coupures dans le dcilage. Cette erreur provient de la confusion entre les
coupures (les dciles) et les intervalles dlimits par ces coupures (les interdciles). Pour
viter cette erreur, on peut faire l'analogie avec le partage d'un gteau. Pour faire dix parts
(les classes) , il faut donner 9 coups de couteau (les coupures).
SENTRAINER.
Exercice 13.
Effectuez un dcilage sur la distribution des notes au test avant regroupement (paragraphes
prcdents). Situez par rapport ce dcilage un sujet qui aurait obtenu 25 au test.
Exercice 14.
Situez le mme sujet ayant obtenu 25 au test l'aide de la transformation en notes z.
Exercice 15.
Comment se situe ce mme sujet ayant obtenu 25 dans la distribution normalise des notes?
R2440T 20
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
RSUM.
(obs tho)2
2 = o obs est l'effectif observ et tho, l'effectif thorique. Tho est obtenu
tho
en divisant n par le nombre de modalits.
Confondre les effectifs (ou frquences) cumuls et les effectifs (ou frquences) non
cumuls. Dans la comparaison une distribution normale, on doit plusieurs reprises passer
de lun lautre, do le risque de les confondre. Pour viter cela, on regarde si les effectifs
augmentent dans le mme sens que les modalits. Il est, en effet, trs rare que les effectifs
non cumuls soient croissants en mme temps que la variable (ce qui est toujours le cas des
effectifs cumuls).
R2440T 21
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Prendre la valeur centrale de la classe au lieu de la limite de classe pour le calcul des
notes z. Cest une erreur relativement frquente. En effet, pour calculer la moyenne, on prend
la valeur centrale de la classe puisquon cherche la tendance centrale de la distribution. En
revanche, pour le calcul des notes z, il faut prendre la limite de la classe, puisque la table nous
donne des frquences cumules, cest--dire la proportion dobservation infrieure ou
suprieure (selon le sens du cumul) une valeur donne de z.
S'ENTRAINER.
Exercice 16.
Dans une exprience sur le raisonnement, on demande un ensemble de 40 sujets de choisir
parmi diffrentes conclusions de largument suivant celle qui convient :
La distribution des sujets sur ces trois rponses possibles est donne dans le tableau suivant :
Conclusions Effectifs.
Je suis riche. 25
Je ne suis pas riche. 20
On ne peut pas savoir. 15
Total 60
R2440T 22
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Exercice 17.
Dans cet exercice, vous reprendrez la distribution des notes au test en 9 classes utilise dans
les paragraphes prcdents. Peut-on dire que cette distribution est trs diffrente dune
distribution normale ? Pour plus de commodits, nous vous rappelons cette distribution ci-
dessous.
Valeur
Intervalle centrale Limites Effectifs
6-10 8 5,5 3
11-15 13 10,5 3
16-20 18 15,5 9
21-25 23 20,5 13
26-30 28 25,5 14
31-35 33 30,5 17
36-40 38 35,5 23
41-45 43 40,5 24
46-50 48 45,5 7
Total 113
R2440T 23
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
RSUM.
Pour effectuer une comparaison de groupes dobservations, il faut dterminer les groupes qui
vont tre compars et la base de cette comparaison, cest--dire sur quoi vont tre compars
les groupes. Il faut au minimum un protocole structur univari structur, cest--dire disposer
dau moins un facteur (variable indpendante) et dune variable observe (variable
dpendante).
Les bases de comparaison sont gnralement les moyennes, les mdianes et les frquences.
Cette liste nest pas exhaustive et dautres indices peuvent tre utiliss en fonction de la nature
des donnes. Le tableau ci-dessous indique pour quelle chelle de mesure, elles sont
utilisables. La procdure de comparaison consiste calculer ces indices pour chacun des
groupes dobservations et ensuite les comparer.
Calculer les frquences sur le total gnral. Le principe de la comparaison de groupes est
de ritrer lanalyse descriptive pour chacune des modalits du facteur. Le calcul des
frquences sur le total gnral ne permet pas de comparer les groupes. Nous verrons dans le
chapitre suivant que cela correspond plutt une tude de la liaison entre variables.
R2440T 24
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Calculer les frquences sur les totaux correspondant aux modalits de la variable
dpendante. Dans ce cas, les groupes dobservations sont les modalits de la variable
dpendante, et ce sont elles que vous comparez, ce qui nest, bien entendu, pas quivalent la
comparaison des groupes sur les modalits du facteur. Cette erreur rsulte du fait que les
donnes sont gnralement rsumes sous la forme dun tableau double entre croisant les
modalits du facteur et de la variable observe. Il faut alors considrer le tableau soit en ligne
soit en colonne selon le sens dans lequel il est dispos.
Reprer les quartiles en prenant, pour n, le nombre total dobservations et non le total
des observations de chaque groupe. Cette erreur est de mme nature que celle qui consiste
calculer les frquences sur le total gnral.
S'ENTRAINER.
Exercice 18.
Lors dune enqute sur les conditions de travail dans un centre hospitalier spcialis, on a
pos au personnel la question suivante : Pensez-vous que lemploi soit menac dans le
milieu hospitalier ? . Deux catgories de personnel ont t interroges, ceux qui travaillent
lhpital (Intra) et ceux travaillant sur dans des structure extra-hospitalire (extra). Voici la
distribution des rponses. Ralisez une analyse descriptive de ces donnes pour comparer les
deux groupes de personnel. Commentez.
R2440T 25
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Exercice 19.
Dans une enqute sur la perception des causes daccidents de la route, on a pos la question
suivante : Pensez-vous que les dfaillances mcaniques sont une source d'accidents ?
Les sujets avaient rpondre sur une chelle allant de 0 10 dans laquelle la note 0
correspond jamais , la note 5 parfois et la note 10 toujours . Sur les 160 sujets
interrogs, voici la distribution des rponses pour les hommes et les femmes. Ralisez une
analyse descriptive de ces donnes pour comparer les rponses cette question en fonction du
sexe. Commentez.
Jugement Notes Femmes Hommes
Jamais 0 1 2
1 3 2
2 8 4
3 10 4
4 9 8
Parfois 5 12 12
6 12 13
7 8 11
8 9 10
9 7 9
Toujours 10 1 5
80 80
Exercice 20.
Lors dune enqute, on relve, sur les registres dtat civil, lge de lpoux et lge de
lpouse au moment du mariage pour 39 couples. On se demande si les hommes et les femmes
se marient en gnral au mme ge. Les donnes sont prsentes ci-dessous sous la forme de
couples de chiffres dont le premier est lge de lpoux et le second lge de lpouse :
(20;20), (25;24), (25;22), (31;29), (18;20), (25;24), (32;31), (26;25), (22;21), (24;24), (24;22),
(25;26), (27;22), (20;18), (18;19), (23;21), (23;23), (34;35), (45;43), (23;22), (22;21), (20;22),
(21;22), (34;32), (21;20), (32;30), (45;44), (33;32), (31;30), (33;31), (36;35), (28;27), (27;26),
(29;28), (21;21), (22;20), (24;23), (31;29), (33;30),
Peut-on dire que les hommes se marient plus tard que les femmes ? Ralisez une analyse
descriptive des donnes pour rpondre cette question. Commentez.
R2440T 26
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
RSUM.
Pour tudier la liaison entre deux variables, il faut un protocole bivari, structur ou non,
cest--dire disposer de deux variables observes. La question pose nest pas alors de savoir
si les distributions des groupes dobservations sont similaires ou non pour chacune des
modalits dun facteur, mais si la connaissance de la modalit observe sur une des variables
pour un individu statistique permet ou non de dire quelque chose de la modalit quon devrait
observer sur lautre variable. On cherche alors prdire ce quon devrait observer sur une
variable partir de ce quon sait sur lautre variable. La procdure danalyse employer
dpendant de lchelle de mesure des variables.
Dans le cas des variables nominales, on analysera la distribution des effectifs conjoints en
calculant le carr moyen de contingence 2 (lire Phi-deux). Cet indice varie entre 0 et 1 et
reprsente la proportion dobservations observes qui scartent de la distribution
thorique quon obtiendrait si la liaison entre les variables tait nulle. 0 o une valeur
proche de 0 signifie que les variables sont peu ou pas lies. 1 ou une valeur proche de 1
signifie que les variables sont fortement lies. On est alors proche du cas de concordance,
cest--dire qu chaque modalit de premire variable correspond une seule modalit de
la seconde variable. Ce dernier cas autorise donc avec une marge de scurit satisfaisante
de prdire la valeur que prendrait une variable partir de lautre.
(n jk njk )2 njk
2 = *
(njk )2 n
Dans le cas des variables numriques, on analyse la relation entre les variables en
calculant le r de Bravais-Pearson. Cet indice varie entre 1 et 1. La valeur absolue de cet
indice indique la part de la variance explique par une fonction linaire : gal ou proche
de 0, la liaison est nulle ; gal ou proche de 1, il existe une relation de proportionnalit
entre les variables. Autrement dit on peut prdire une variable partir dune autre laide
dune quation de type y=ax+b, o y est la variable prdire et x la variable connue.
Graphiquement, les donnes salignent selon une droite. Le signe de cet indice indique le
sens de la liaison : liaison inverse pour les valeurs ngatives, variation dans le mme sens
pour les valeurs positives.
r=
( x m )( y m )
i x i y
(x m ) (y m )
i x
2
i y
2
R2440T 27
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Calculer les frquences sur leffectif total en ligne ou en colonne. Attention, contrairement
la comparaison de groupes dobservations, lvaluation de la relation entre deux variables
nominales ncessite un calcul des frquences sur le total des observations et non sur les totaux
marginaux.
S'ENTRAINER.
Exercice 21.
Pour cet exercice, nous reprendrons les donnes de lenqute sur la reprsentation de la
psychologie (voir les annexes de votre cours). Nous nous poserons la question de la relation
entre la profession et la rponse la question I : Pourquoi, votre avis les gens vont-ils voir
les psychologues ? . Nous donnons ci-dessous la distribution des effectifs conjoints (encore
appels effectifs observs).
Effectifs conjoints Cadre sup. Cadre moy. Ouvriers Prof. Lib. Total
Parce qu'ils se sentent dans un 1 7 3 6 17
tat anormal.
Par besoin d'aide, de conseil. 10 6 2 6 24
Par besoin de se connatre. 6 3 8 3 20
Pour des problmes 2 1 3 5 11
d'orientation.
Autres rponses ou absence de 1 3 4 0 8
rponses.
Total 20 20 20 20 80
Exercice 22.
Pour cet exercice, on reprendra les donnes de lenqute sur les registres dtat civil (exercice
3 du chapitre prcdent). La question quon se pose maintenant est : existe-il une relation
entre lge de lpoux et lge de lpouse au moment du mariage ? .
R2440T 28
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Voici, en vrac, quelques-unes des questions les plus frquemment poses. Si vous ne trouvez
pas de rponse votre question nhsitez pas contacter les enseignants lors de leur
permanence.
R2440T 29
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Est-ce que les erreurs de calculs comptent beaucoup dans les examens de statistiques ?
Bien sr ce que nous attendons des tudiants c'est qu'il intgrent la dmarche intellectuelle de
la recherche. Les erreurs de calculs ont donc moins d'importance que les erreurs
conceptuelles. Cependant, la bonne comprhension de la dmarche d'analyse des donnes
suppose l'acquisition d'un certain nombre de stratgie de contrle sur ce qu'on fait
(comprendre par exemple que la moyenne ne saurait sortir de l'intervalle de variation de la
variable ou encore qu'une somme des carrs est forcment positive). Par ailleurs une erreur de
calcul peut, et c'est souvent le cas des erreurs importantes, entraner une erreur dans la
conclusion.
Page 591, pour le trapze, n'est-ce pas la base, et non la hauteur qui a la valeur 0,50 ?
Par dfinition, un trapze est un quadrilatre possdant deux cots parallles et sa hauteur est
la distance entre ces deux droites parallles. 0,5 est donc bien la hauteur du trapze.
Par quel calcul, en utilisant quels chiffres, arrive-t-on aux rsultats 0.16 et 0.31 la page
592?
R2440T 30
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Les valeurs utilises p 592 ne sont pas calcules, mais lues dans la table de la page 594. ces
valeurs ont t arrondies. Pour z=-1, on lit dans la table 0,159 soit environ 0,16. Pour z=-0,5,
on lit dans la table 0,309 soit environ 0,31
Pourquoi calcule-t-on les taux de liaison partir des effectifs et non des frquences (on
gagnerait le calcul des effectifs thoriques...) ?
Dans le calcul du 2, on ne peut faire l'conomie du calcul des effectifs thoriques puisque
par dfinition 2 est la somme des carrs des diffrences entre les effectifs observs et les
effectifs thoriques pondrs par les effectifs thoriques. On peut les calculer partir des
effectifs marginaux en appliquant une simple rgle de trois (ligne* colonne/ effectif total), ce
qui revient indirectement calculer les frquences.
Quelle est la diffrence entre une variable ordinale et une variable numrique ?
Une variable ordinale est caractrise par un ordre entre les modalits, mais la notion
dintervalle entre les modalits na pas de sens. On ne peut pas calculer de moyenne sur de
telles donnes. Par exemple le niveau scolaire (primaire, secondaire, suprieur). Une variable
numrique est caractrise par un ordre et un intervalle. Cela a du sens de calculer une
moyenne sur ce type de variable. Cest par exemple la taille ou le poids dun individu.
R2440T 31
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
R2440T 32
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
CORRIGS
Exercice 1.
Dans cette recherche, les individus statistiques sont les 76 enfants.
Le facteur tudi est la mthodologie didactique. C'est une variable nominale dichotomique (2
modalits). Les sujets ne voient qu'une des deux mthodes, on a donc une relation
d'embotement.Les variables observes (variables dpendantes ou VD) sont :
La performance initiale en fin de maternelle.
Le score l'valuation nationale de CE2.
La vitesse d'identification des mots.
Aucune prcision n'est donne sur la nature des mesures et les chelles de mesure retenues
dans cette tude. Il sagit dun protocole multivari structur. L'objectif de cette recherche est
la comparaison des deux mthodologies didactiques. Le tableau reprsentant le protocole
serait alors le suivant :
Exercice 2.
Dans cette exprience, les individus statistiques sont les enfants. Ils sont rpartis dans trois
groupes caractriss par le mode de garde antrieure (on a donc une relation d'embotement
entre ce facteur et le facteur sujet).
La variable observe est constitue par les modalits comportementales. Aucune prcision
n'est donne sur l'chelle de mesure utilise. Les modalits comportementales sont observes
dans trois conditions (envers les enseignants, les pairs et le matriel). On a donc une relation
de croisement. Le protocole est donc un protocole univari structur.
L'objectif de cette recherche est l'valuation de la relation entre le mode de garde antrieure et
les modalits comportementales l'gard de l'environnement scolaire (enseignants, pairs et
matriel). Le tableau reprsentant le protocole serait alors le suivant :
R2440T 33
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Exercice 3.
Dans cette exprience, les individus statistiques sont les sujets.
Ils sont rpartis dans quatre groupes (positif, neutre triste et agressif). Cette variable
indpendante est une variable nominale 4 modalits. Nous avons une relation d'embotement
entre ce facteur et le facteur sujet.
Le facteur tudi (la variable indpendante) est le type de problme (bien dfini ou mal
dfini), variable nominale dichotomique. Les sujets ne voyant qu'un des deux types de
problme, il y a une relation d'embotement. La variable dpendante est la performance dans
la rsolution du problme cible. Aucune prcision n'est donne sur la nature de cette mesure.
Le protocole est donc un protocole univari structur. L'objectif de cette recherche est de
comparer des groupes d'observations. Le tableau reprsentant le protocole serait alors le
suivant :
Exercice 4.
Pour passer des temps exprims en soixantime de secondes des temps exprims en
milliseconde, il faut appliquer chaque modalit de la variable la transformation suivante:
x/60*1000.
20 soixantimes de secondes correspondent donc 20/60*1000=333 ms (les temps sont ici
arrondis pour plus de simplicit).
Exercice 5.
Dtermination du nombre de classes souhait et de l'intervalle de chaque classe:
Nous avons 40 observations, il nous faut donc au maximum 40/5=8 classes. On prfrera un
nombre impair de classe. L'intervalle de variation tant de 55-20=35 modalits, on optera
pour 7 classes parce qu'on a ainsi un nombre entier de modalits dans chaque classe (35/7=5
modalits dans chaque classe) et l'on vite d'tendre l'intervalle de variation.
Dtermination de la valeur centrale de la classe centrale.
((55-20)/2)+20=37,5
On arrondi 38
Dtermination des valeurs appartenant chaque classe.
Nos classes contiennent 5 modalits. Pour la classe centrale, on a donc
38-2=36 et 38+2=40. La classe centrale va donc de 36 40.
Pour la classe 3 : 36-5=31 Cette classe va donc de 31 35. On procde ainsi pour toutes les
autres classes.
R2440T 34
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
On calcule ensuite les valeurs centrales de chacune des classes en faisant la moyenne des
valeurs de chaque classe.
On calcule ensuite les limites de classes (somme des valeurs centrales divise par deux).
Le rsultat de ce recodage est synthtis dans le tableau suivant.
R2440T 35
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Exercice 6.
Concrtement, faire une distribution se fait en deux temps :
1) Lister l'ensemble des modalits observables. Si l'ensemble des modalits observables
n'est pas un ensemble fini, on se contentera de lister toutes les modalits entre la plus petite
et la plus grande modalit observe.
2) Une fois cette liste tablie, on compte pour chaque modalit le nombre de fois o elle
apparat dans le protocole. La distribution du prcdent protocole est la suivante :
Dans ce protocole, nous avons des observations entre 8 et 50, les modalits entre ces deux
valeurs ont donc t listes, y compris celles qui n'ont pas t observes. Pour chacune de ces
modalits nous avons compt le nombre de fois o elle a t observe.
Exercice 7.
On peut reprsenter une distribution sur les effectifs ou sur les frquences. Pour cela, on
construit un graphique o l'axe des abscisses reprsente les modalits de la variable et l'axe
des ordonnes reprsente l'chelle des effectifs ou des frquences. La distribution est
reprsente par des traits verticaux (btonnets) dont la hauteur est proportionnelle l'effectif
ou la frquence de chaque modalit. Pour des raisons d'esthtique, certains auteurs largissent
ces btonnets. Dans ce cas, il faut que tous les btonnets aient la mme largeur, puisque
l'intervalle des classes est le mme pour toutes les modalits, c'est--dire 1. Un tel graphique
R2440T 36
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
6
Effectifs n(u)
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Notes (modalits u)
Ce graphique est l'histogramme reprsentant la distribution des notes au test. On notera que
les modalits non observes sont galement reprsentes, et que chacune des barres une
largeur de 1, puisque nous reprsentons la distribution des notes avant regroupement.
Commentons maintenant ce graphique. On peut voir que la distribution est asymtrique. Les
observations sont en effet plutt concentres vers les notes hautes puisqu'une majorit des
observations se situe au-del du milieu de l'intervalle de variation. Par ailleurs certaines
valeurs sont mieux reprsentes que les autres (37, 41, 44). Nous avons donc ici une
distribution multimodale (plusieurs modes).
Exercice 8.
Lnonc nous donne comme contrainte de faire 7 classes en terminant par la plus
importante valeur observe soit 50. Les valeurs extrmes observes sont 8 et 50. Les notes
ce test tant des nombres entiers, nous avons 50-8+1 = 43 modalits dans lintervalle
observ. Nous prendrons donc comme intervalle de classe le plus petit multiple de 7 qui soit
suprieur 43 soit 49. Nous aurons donc comme intervalle de classe 49/7= 7.
R2440T 37
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Puisque nous devons terminer par 50, nous commencerons par la dernire classe. A la valeur
de la classe la plus leve, nous retranchons 7-1=6. La dernire classe va donc de 50 : 50-
6= 44
La classe prcdente se termine 43 et commence 43-6=37. Une autre faon de faire est
de retrancher lintervalle aux valeurs extrmes de la classe prcdente. Pour passer de la
dernire classe lavant-dernire on aura donc : pour la valeur suprieure : 50-7=43 et pour
la valeur infrieure, on aura 44-7=37. Lavant-dernire classe va donc de 37 43. On
procde ainsi pour toutes les autres classes.
Les limites de classes sont obtenues en additionnant la valeur la plus leve de la classe et
la valeur la plus basse de la classe suivante. On divise ensuite le total par deux. Pour la
classe 2-8 on a donc :
Valeur suprieure de la classe : 8
Valeur infrieure de la classe suivante : 9
Limite de la classe 2-8 : (8+9)/2=8,5
On fait ensuite la distribution sur les classes ainsi formes.
Valeur
Intervalle Limites Effectifs
centrale
2-8 5 8,5 1
9-15 12 15,5 5
16-22 19 22,5 12
23-29 26 29,5 22
30-36 33 36,5 26
37-43 40 43,5 31
44-50 47 50,5 16
Total 113
R2440T 38
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Exercice 9.
Nous avons faire un regroupement en 9 classes sur une chelle comptant 50 modalits.
Lintervalle de classe est donc de 50/9= 5,56. Nous prendrons donc un intervalle de 5
modalits. Pour le reste la procdure est la mme. Le rsultat de ce recodage est le suivant :
Valeur
Intervalle centrale Limites Effectifs
6-10 8 3
11-15 13 10,5 3
16-20 18 15,5 9
21-25 23 20,5 13
26-30 28 25,5 14
31-35 33 30,5 17
36-40 38 35,5 23
41-45 43 40,5 24
46-50 48 45,5 7
Total 113
Exercice 10.
Nous reproduisons ici cette distribution. Le mode correspond la modalit dont leffectif est
le plus lev. Dans notre exemple Il sagit de la classe 41-45. Leffectif de la classe 36-40
est trs proche. Cette classe constitue le mode secondaire.
Valeur
Intervalle centrale Limites Effectifs
6-10 8 5,5 3
11-15 13 10,5 3
16-20 18 15,5 9
21-25 23 20,5 13
26-30 28 25,5 14
31-35 33 30,5 17
36-40 38 35,5 23
41-45 43 40,5 24
46-50 48 45,5 7
Total 113
Exercice 11.
Dtermination de la mdiane
Pour dterminer la mdiane et les quartiles, il faut une distribution cumule gauche ou
droite ce qui implique que la variable soit ordinale ou numrique. Nous reprendrons la
mme distribution en classes pour exemplifier la dtermination de la mdiane.
R2440T 39
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
100
80
Srie1
60
Srie2
40
20
0
6-10 11-15 16-20 21-25 26-30 31-35 36-40 41-45 46-50
R2440T 40
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Exercice 12.
Commenons par la moyenne. On sait calculer une moyenne depuis l'cole primaire, Il s'agit
de la somme des observations divise par le nombre d'observations. Mais lorsqu'on a un
ensemble de donnes important, cela peut crer quelques difficults. Nous noterons la somme
des observations x, le total des observations n et la moyenne m.
On a donc m = x/n.
En pratique, pour calculer une moyenne, on peut partir du protocole ou de la distribution. Il
est tout fait important de bien diffrencier les deux, car la procdure n'est pas la mme. Il est
R2440T 41
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
rare que le protocole se prsente sous la forme d'une srie de donnes en vrac. On les prsente
en gnral sous la forme d'un tableau et c'est ce qui induit en erreur bon nombre d'tudiants
parce qu'ils ne savent pas diffrencier le tableau d'un protocole de celui d'une distribution.
Pour bien les diffrencier, il convient de se demander quoi correspondent chacune des
lignes. Dans un tableau de protocole les lignes correspondent aux individus statistiques, dans
une distribution, les lignes correspondent aux modalits de la variable. Bien rang, le tableau
de protocole correspondant notre exemple aurait l'allure suivante :
1 43
2 31
3 38
... ...
110 37
111 48
112 29
113 35
Concrtement, je viens de rsumer le protocole (votre bulletin scolaire) sous la forme d'une
distribution qu'on pourrait reprsenter sous la forme du petit tableau suivant :
R2440T 42
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Un peu de formalisme.
Appelons maintenant uk les modalits de la variable et nk les effectifs (pour faire simple, nous
interprterons k comme un renvoi une ligne du tableau de distribution sans tenir compte de
sa position en indice ou en exposant)
La somme des observations est alors nkuk , ce qui se lit somme des produits de nk par uk.
Et la moyenne est alors gale nkuk /n.
Concrtement sur l'exemple des notes au test, on construira le tableau suivant :
uk nk nk uk
6 0 0
7 0 0
8 1 8
... ... ...
... ... ...
47 1 47
48 2 96
49 2 98
50 1 50
Total 113 3723
Et la moyenne de 3723/113=32,95
R2440T 43
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
x2
( x) 2
s2 = n
n
R2440T 44
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
R2440T 45
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
On fait ensuite la somme de ces produits et on la divise par n soit s2=((uk - m)2*nk) / n.
s2=(0+0+622,35+...+515,40+290,81) / 113 = 10967,68/113 = 97,06
s2 =
x2
n
n
Cette deuxime formule signifie qu'il faut faire la diffrence entre la somme des carrs des
observations ( x2) et le carr de la somme des observations pondre par n soit (x)2/n) et
diviser ensuite cette diffrence par n.
Pour ceux que cela intresse, essayez de retrouver la suite de transformations algbriques qui
permettent de passer de l'une l'autre. Pour les autres, passons sa mise en application.
Encore une fois, nous devons diffrencier l'utilisation du protocole ou de la distribution
comme point de dpart des calculs.
R2440T 46
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
i xi xi2
1 43 1849
2 31 961
3 38 1444
4 40 1600
... ... ....
110 32 1024
111 36 1296
112 44 1936
113 37 1369
Total 3723 133629
Dans la mesure o l'application de la formule est la mme que l'on parte d'un protocole ou
d'une distribution, nous dvelopperons son application la fin.
R2440T 47
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Attention, il sagit bien ici de multiplier le carr de la modalit par son effectif et non de faire
le carrr du produit de leffectifs par la modalit. Ainsi, pour la note 48, on a bien :
482*2=2401*2=4802.
Et non de faire le carr du produit de leffectif par la modalit.
(48*2)2=9216
Si ce n'est dj fait lors du calcul de la moyenne, on calcule la somme des observations (x)
On multiplie chaque modalit par son effectif, par exemple
Pour u1, on a 6*0=0
Pour u2, on a 7*0=0
Pour u3, on a 8*1=8 etc.
On fait la somme de ces produits. Dans notre exemple, x=3723
6 0 36 0 0
7 0 49 0 0
8 1 64 64 8
9 1 81 81 9
... ... ... ... ...
47 1 2209 2209 47
48 2 2304 4608 96
49 2 2401 4802 98
50 1 2500 2500 50
Total 113 133629 3723
Le rsultat est bien sr identique celui que nous avions trouv prcdemment. En pratique,
ce n'est pas toujours le cas, notamment si on doit effectuer le calcul la main. Cela tient au
fait que dans l'utilisation de la formule de dfinition, on est amen faire beaucoup plus
d'arrondis (dans les diffrences avec la moyenne) ce qui entrane une perte de prcision. Il est
donc prfrable dutiliser la formule de calcul.
R2440T 48
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Exercice 13.
Pour faire un dcilage, il est ncessaire d'avoir suffisamment de modalits (au moins 20 ou
30) sinon les dciles vont se chevaucher et le rsultat ne sera pas trs informatif. L'chelle de
mesure de la variable doit tre ordinale ou numrique et on doit disposer d'une distribution
cumule ( gauche ou droite). Il est plus commode de partir d'une distribution cumule des
frquences plutt que des effectifs (pour ne pas avoir calculer chaque fois l'effectif cumul
correspondant). Les frquences cumules rechercher dans la distribution cumule des
frquences pour le protocole sont les suivantes.
R2440T 49
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Modalit Effectif Frq Frq cum. Coupure Modalit Effectif Frq Frq cum. Coupure
partir des dciles, on dfinit des classes (comprise entre deux dciles) appeles interdciles.
Dans notre exemple, les interdciles sont les suivants :
Interdcile N1 8-18
Interdcile N2 19-24
Interdcile N3 25-27
Interdcile N4 28-31
Interdcile N5 32-34
Interdcile N6 35-36
Interdcile N7 37-39
Interdcile N8 40-42
Interdcile N9 43-44
Interdcile N10 45-50
Voyons maintenant comment situer dans la distribution un sujet qui aurait eu une note de 25.
note est plutt faible, puisque le sujet appartient au 3me interdcile. Ce qui veut dire que 70 %
des sujets ont une note suprieure. Notre sujet a pourtant la moiti des points, mais sur ce test,
ce n'est pas beaucoup. La construction des interdciles correspond ce qu'on appelle un
talonnage en dciles. Elle est trs utilise dans la construction des tests. Elle permet ainsi de
R2440T 50
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
situer la performance d'un sujet par rapport aux rsultats obtenus dans un chantillon de
rfrence (voir le cours sur les mthodes et notamment la mthode des tests).
Exercice 14.
Ce calcul ne pose pas de problme particulier, Il s'agit d'une simple soustraction et une
division. Voyons ce que cela donne pour notre sujet qui a eu 25 au test. Rappelons que la
moyenne ce test est de 32,95 et l'cart-type de 9,85.
On voit que la note z est ngative. La distance la moyenne est donne par la valeur absolue
de la note z. Elle signifie, dans cet exemple, que notre sujet est situ 0,81 cart-type de la
moyenne. Le signe de la note z indique le sens de cet cart. Si la note est ngative, le sujet est
situ en dessous de la moyenne. Si le signe est positif, le sujet est situ au-dessus de la
moyenne. Dans notre exemple, il est en dessous. Concrtement qu'est-ce que cela veut dire ?
La note z exprime l'cart la moyenne en nombre d'cart-type. Cette note z de -0,81 veut dire
que notre sujet est moins d'un cart-type de la moyenne. Autrement dit, il ne diffre pas
beaucoup de la tendance gnrale de l'chantillon, mme si il est du ct des valeurs faibles.
Exercice 15.
Nous avons utilis deux moyens de situer notre sujet dans la distribution et ils nous apportent
des rponses un peu contradictoires. Notre sujet serait moyen et pourtant 70 % des sujets ont
une note suprieure. Pourquoi ? C'est que la moyenne et l'cart-type ne refltent pas la
rpartition des observations dans la distribution, mais seulement son centre de gravit et la
dispersion autour de ce centre. Sauf dans un cas, celui o l'on a une distribution normale. La
contradiction entre nos deux mthodes rsulte du fait que dans cet exemple, la distribution
n'est pas une distribution normale. C'est pourquoi nous allons la normaliser. Voici la
procdure :
Le point de dpart est une distribution cumule. Il vaut mieux le faire avec une distribution
cumule des frquences pour ne pas avoir calculer l'effectif cumul correspondant chaque
coupure. Mais titre d'exemple, nous montrerons comment faire partir des effectifs
cumuls. Concrtement, ce que nous allons faire est un recodage de la variable par
regroupement de modalits. Comme prcdemment, il est plus judicieux de choisir un nombre
impair de classes. En pratique on choisit une dizaine de classes. Les nombres les plus proches
de 10 sont 9 et 11, ce sont donc ceux qu'on utilise le plus, mais rien n'interdit, en fonction de
la finesse de l'chelle souhaite d'en choisir d'autres. Dans une distribution normale, 95,5 %
des observations sont moins de deux carts-types de la moyenne. C'est donc entre ces deux
bornes (m-2s et m+2s) qu'on situera notre distribution. L'intervalle de variation qu'on souhaite
obtenir est donc de 4.
R2440T 51
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
R2440T 52
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Dans le cas o plusieurs modalits correspondraient l'effectif cumul (effectif nul dans
plusieurs classes successives), on prend la premire modalit correspondant l'effectif
cherch.
R2440T 53
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Une autre procdure consiste calculer les limites de classe. Elles se calculent de la manire
suivante : Limite de classe = (n'+n")/2.
Dans notre exemple, la limite de classe 1/2 est de (11+12)/2=11,5, ce qui revient dire que
tout ce qui est avant 11,5 appartient la classe 1 (elle va donc de 0 11) et tout ce qui est
aprs appartient la classe 2 (elle commence donc 12). Cette procdure est plus facile si on
travaille sur des chelles de mesure continue avec plusieurs observations entre deux valeurs
entires. Les deux procdures sont quivalentes.
viii) On calcule enfin les effectifs correspondant chacune des classes. Cette distribution est
appele distribution normalise. Nous la rsumons dans le tableau ci-dessous.
N classe Limite (note p(z<u) effectif n' n" limites Classes Effectif
z) cumul
1 -1,8 0,036 4,068 11 12 11,5 0 11 4
2 -1,4 0,081 9,153 18 19 18,5 12 18 6
3 -1 0,159 17,967 22 23 22,5 19 22 8
4 -0,6 0,274 30,962 26 26 26 23 26 13
5 -0,2 0,421 47,573 32 32 32 27 32 16
6 0,2 0,579 65,427 36 36 36 33 36 19
7 0,6 0,726 82,038 40 40 40 37 40 16
8 1 0,841 95,033 43 43 43 41 43 15
9 1,4 0,919 103,85 44 45 44,5 44 44 7
10 1,8 0,964 108,93 48 49 48,5 45 48 6
49 50 3
Total. 113
R2440T 54
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Revenons notre sujet dont la note est de 25. Qu'en est-il ? Rappelons que la note z de notre
sujet est de :
z= xi-m / s = 25 - 32,95 / 9,85 = -0,81
me
Il appartient la 4 classe, celle qui comprend les notes de 23 26. On peut voir que
seulement 27 % des sujets ont une note infrieure notre sujet (il faut lire la colonne p(z<u)
dans le tableau). Bien qu'il ne soit qu' moins d'un cart-type de la moyenne, nous pouvons
donc dire que sa performance n'a pas t trs bonne. On remarquera la proximit des
conclusions tires partir de la normalisation et du dcilage, puisque prcdemment nous
avions conclu que 70 % des sujets avaient une note suprieure 25. Cependant il n'en va pas
ainsi de tous les sujets. Si nous prenons par exemple un sujet qui aurait eu 27, dans le
dcilage, il aurait appartenu la mme classe qu'un sujet qui aurait eu 25. Alors que dans la
distribution normalise, un tel sujet appartient la classe 5, pour laquelle nous avons 42 %
d'observations infrieures. Cela tient la fois au nombre de classe (ici nous en avons 11, alors
qu'il n'y en a que 10 dans le dcilage) et au fait que la rpartition des observations dans les
classes dpend de l'cart la moyenne aprs normalisation.
Exercice 16.
Dans cette petite exprience, nous avons une variable nominale, les individus statistiques sont
les sujets. Des rponses au hasard prsupposent que chaque rponse ait autant de chance que
les autres dtre choisie par les sujets. Ce qui revient faire lhypothse dune distribution
uniforme sur les trois rponses possibles. Nous allons valuer lcart entre la distribution
observe et une distribution uniforme en calculant la statistique 2.
La premire tape consiste calculer les effectifs thoriques. Dans le cas dune distribution
uniforme, ils correspondent au nombre dobservations divises par le nombre de modalits.
Dans notre exemple, on aura donc 60/3=20
On calcule ensuite la diffrence entre les effectifs observs et les effectifs thoriques. Pour la
premire modalit, on aura donc : 25-20=5
Chacune de ces diffrences est leve au carr. Pour la premire modalit, on aura donc 52=25
On fait ensuite la somme de ces carrs quon divise par leffectif thorique. Ce qui nous fait :
2=(25+0+25)/20=2,5
Bien que ce ne soit pas prsent dans votre cours, cette utilisation de X2 pose parfois quelques
problmes. Dabord parce que la statistique 2 est dpendante de leffectif total. Vous pourrez
vrifier titre dexercice que lorsquon double leffectif total, 2 double. Pour dcider si
R2440T 55
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
lcart entre la distribution observe et la distribution thorique est important, il faut donc le
rapporter leffectif total.
Le second problme, spcifique ce cas un peu particulier de la comparaison dune
distribution une distribution uniforme, cest que X2 varie galement en fonction du nombre
de modalits (pour ceux que cela amuse, regarder ce qui se passe lorsquon double le nombre
de modalits).
Il est donc ncessaire de pondrer 2 par leffectif total. Ce dernier indice est le carr moyen
de contingence 2 (Phi deux). Dans notre exemple, on aura donc : 2= 2,5/60= 0,042. 2
varie dans ce cas de 0 2, cest--dire le nombre de modalits moins un. On peut observer
que le carr moyen de contingence que nous avons calcul est trs proche de 0. On pourra
donc considrer que la distribution observe est proche dune distribution uniforme.
Exercice 17.
Le point de dpart est une distribution cumule. Nous choisirons de la cumuler gauche
puisque la table fournie dans votre cours est la table de fonction cumule gauche (p594).
Calcul des notes z correspondant aux limites de classes. Pour cela nous avons besoin de la
moyenne et de lcart-type. Nous pourrions reprendre les rsultats de nos prcdents
calculs sur la distribution avant regroupements, mais titre dexercice, vous les calculerez
sur la distribution aprs regroupement.
D-. Puisquon part dune distribution, il nous faudra calculer pour chaque ligne du tableau le
produit de la valeur centrale de la classe (uk ) et de son effectif (nk ) On aura ainsi
u1n1=3*8=24 ; u2n2=3*13=39 etc.
E-. On calculera ensuite le produit du carr de la valeur central par son effectif (uk2nk). Pour
u1, on aura ainsi 82*3=192 ; pour u2, 132*3=507 etc.
R2440T 56
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Le calcul des notes z pour chaque classe est obtenu en faisant la diffrence entre limite de
classe et la moyenne quon divise par lcart-type. On a ainsi pour la premire classe :
z=(10,5-32,91)/10=-2,24 ; pour la deuxime classe : z=(15,5-32,91)/10=-1,74 etc.
Dtermination des frquences cumules thoriques. Pour chacune des classes, on relve,
dans la table de la fonction z, les frquences thoriques correspondant la note z de la
classe. Dans la premire classe, z=-2,24 soit environ -2,2. Dans la table, au regard de cette
note z, on lit 0,014. De la mme manire, pour la classe 2, on lit pour z=-1,74 la valeur
0,041. On procde ainsi pour toutes les classes.
Calcul des effectifs thoriques non cumuls. Pour cela, on fait la diffrence entre leffectif
cumul de la classe et leffectif cumul de la classe prcdente.
Pour la classe 6-10, on a donc 1,582-0=1,582 (ici leffectif cumul prcdent est gal 0
puisquil ny a pas de classe prcdente).
Pour la classe 11-15, on a 4,633-1,582=3,501.
Pour la classe 16-20, on a 12,091-4,633=7,458 etc.
R2440T 57
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
comparaison graphique entre les deux distributions. On reprsente pour cela sur un mme
graphique la distribution (cumule ou non) observe et thorique. Nous donnons ici les
reprsentations graphiques sur les distributions cumules (graphique de droite) et non
120
100
80
Observ
60
thorique
40
20
0
1 2 3 4 5 6 7 8 9
30
25
20
Observ
15
thorique
10
0
1 2 3 4 5 6 7 8 9
R2440T 58
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Exercice 18.
Dans cet exercice, nous avons deux variables.
La premire est le facteur lieu de travail . Cest la variable indpendante. Lchelle est
nominale. Elle comprend deux modalit qui vont constituer les deux groupes
dobservations. Chaque sujet nappartenant qu une des catgories de personnel, la
structure du protocole est donc lembotement (groupes indpendants).
La seconde variable est la rponse. Cest la variable dpendante. Lchelle de mesure est
une chelle nominale trois modalits.
Il faut donc raliser une comparaison de deux groupes indpendants sur une variable
nominale. La base de comparaison sera donc la frquence.
Premire tape : calcul des frquences. Partant du tableau de distribution, il faut calculer les
frquences de chacune des rponses pour chacune des catgories de personnel. Attention, ce
quon cherche comparer ce sont les frquences des rponses dans chacun des groupes
dobservations. On doit donc calculer ces frquences sur leffectif total de chacun des
groupes. La frquence se calcule simplement en divisant leffectif de la case par leffectif
total.
Ainsi pour le personnel de lintra-hospitalier ayant rpondu oui , on aura 150/289=0,519.
De la mme faon, pour ceux qui ont rpondu non , on aura 116/289=0,401 etc. Le total
bien sr est gal 1 dans chacun des groupes. On peut galement exprimer ces frquences en
pourcentages.
intra extra
oui 0,519 0,367
non 0,401 0,544
NR 0,080 0,089
Total 1,000 1,000
0,600
0,500
0,400
intra
0,300
extra
0,200
0,100
0,000
oui non NR
R2440T 59
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Troisime tape : commentaires. Elle consiste pointer les principales diffrences entre les
deux groupes et en tirer une conclusion. On voit, dans notre exemple, que la rponse oui
est plus frquente pour le personnel intra , tandis que le personnel de lextra-hospitalier
rpond plus frquemment non . Il ny a pas de diffrence entre les groupes pour les non-
rponses. On peut donc dire que le personnel de lintra-hospitalier ressent plus une menace
sur les emplois que le personnel de lextra-hopitalier.
Exercice 19.
Dans cet exercice, nous avons deux variables. La premire est la variable indpendante
(facteur) sexe . Cest une variable nominale deux modalits. Comme dans les exercices
prcdents, cest le facteur qui sert de base la constitution des groupes dobservations. Ces
deux groupes sont, bien entendu, indpendants (relation dembotement) puisque les sujets ne
peuvent (sauf bizarrerie de la nature) appartenir qu un seul groupe.
La seconde variable est la variable dpendante jugement . Pour cette variable, les 11
modalits sont ordonnes, mais la notion dintervalle na pas de sens, bien que les modalits
soient exprimes par des chiffres. Cependant, sur ce type dchelle de jugement de
frquences, certains auteurs franchissent le pas et considrent quil existe une continuit et un
intervalle entre les modalits. Ce point de vue nest pas dnu de sens, mais demande tre
justifi. Dans le doute, on peut toujours considrer une chelle numrique comme une chelle
ordinale puisque la relation dordre est commune aux deux chelles. Linverse nest, bien
entendu, pas vrai. Nous considrerons donc que lchelle de mesure est une chelle ordinale.
Notre tche consiste ici comparer deux groupes indpendants sur une variable ordinale. La
base de la comparaison peut donc tre soit les frquences, soit la mdiane et les quartiles.
Dans la mesure o les effectifs des groupes sont quilibrs (mme nombre de sujets dans
chaque groupe), il est quivalent de comparer les effectifs ou les frquences. On peut donc
directement construire le graphique des distributions pour les deux groupes. Le graphique est
le suivant :
R2440T 60
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
14
12
10
8
Femmes
Hommes
6
Toujours
2
8
Jamais
0
10
Commentaires : On peut voir que ces deux distributions sont bi-modales (deux modes) qui
correspondent dans les deux distributions aux notes 5 et 6. Les rponses se concentrent, pour
les hommes et les femmes, sur un jugement moyen qui correspond parfois . Cependant,
on peut galement noter que la distribution des rponses chez les hommes est plutt dcale
vers la droite, cest--dire les notes hautes. Ce qui suggre que les hommes attribuent plus
frquemment la cause dun accident une dfaillance mcanique.
On peut voir dans cette premire analyse que ce qui diffrencie les deux groupes, cest surtout
la rpartition des rponses sur lchelle de mesure. Il est donc tout fait intressant de
rsumer cette rpartition. Les indices pertinents sont alors la mdiane et les quartiles.
Rappelons que pour les situer, il faut dabord construire une distribution (voir les rsums
dune distribution) et ce pour chacun des deux groupes, et reprer ensuite les modalits
correspondant n/4 pour Q1, n/2 pour Q2 et n*3/4 pour Q3. Attention, ici n est le nombre
total dobservations de chacun des groupes dobservations soit 80. Les distributions cumules
sont donc les suivantes :
Notes Femmes Hommes
0 1 2
1 4 4
2 12 8
3 22 12
4 31 20
5 43 32
6 55 45
7 63 56
8 72 66
9 79 75
10 80 80
R2440T 61
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Femmes Hommes
Quartile 1 3 4
Mdiane 5 6
Quartile 3 7 8
On peut voir sur ces rsums que les distributions sont galement tendues. Lcart entre le
quartile 1 et le quartile 3 est en effet de 4 pour les deux distributions. En revanche, la
distribution pour les hommes est dcale vers les notes hautes. Ils considrent donc que les
accidents sont plus frquemment dus une dfaillance mcanique que les femmes.
Exercice 20.
Dans cet exemple, il faut faire abstraction de la notion de couples pour rpondre la question.
Il sagit en fait de comparer le groupe des femmes et des hommes sur la variable ge au
moment du mariage . Les individus statistiques sont donc les personnes. Nous avons deux
variables : le sexe (variable nominale indpendante) et lge au moment du mariage (variable
dpendante numrique). Le protocole est structur par une relation dembotement (chaque
sujet est caractris par un seul des deux sexes). Nous avons donc comparer deux groupes
indpendants sur une variable numrique.
Une autre faon de voir ce protocole est de considrer que les individus statistiques sont les
couples. Dans ce cas, chaque couple est caractris par lge de lpoux et lge de lpouse
au moment du mariage. Ce sont deux variables observes et il ny a pas de facteur. Nous
avons donc un protocole bivari non structur. Un tel point de vue sur le protocole ne permet
pas de rpondre la question pose pour laquelle il faut disposer dun protocole structur. Il
permet en revanche de rpondre une autre question : Dans un couple, existe-il un lien
entre lge de lpoux et lge de lpouse ? .Cette question relve de ltude de la relation
entre variables qui sera traite au prochain chapitre.
Revenons la question pose : Peut-on dire que les hommes se marient plus tard que les
femmes ? . Nous pouvons utiliser comme base de comparaison la frquence, mais lchelle
de mesure est trs tendue (les observations vont de 18 45) ce qui va rendre difficile la
comparaison cause de la dispersion des observations sur les diffrentes modalits. Les
quartiles sont galement utilisables comme base de comparaison mais ltendue importante de
la variable rend ces indices moins discriminants. Nous choisirons donc la moyenne comme
base de comparaison. Nous ne reprendrons pas ici la procdure de calcul de la moyenne,
attention cependant, dans cet exercice, vous partez du protocole et non de la distribution. On
peut galement valuer la dispersion des observations dans chaque groupe en calculant les
carts-types. Le rsultat de ces calculs est le suivant :
R2440T 62
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Hommes Femmes
Moyenne 27 26
Variance 41,590 37,231
Ecart-type 6,449 6,102
Commentaires : On peut voir que les hommes se marient en moyenne un an plus tard que les
femmes. La dispersion dans les deux groupes est sensiblement la mme. Il ny a pas de plus
grande disparit de lge au moment du mariage dans lun ou lautre groupe.
Exercice 21.
Dans ce protocole, nous avons deux variables. La premire est la catgorie professionnelle.
Bien que les effectifs aient t galiss pour faciliter les comparaisons, cest bien une variable
observe. Lchelle de mesure est nominale (considrer que les catgories sont ordonnes fait
implicitement appel dautres variables comme que le niveau dtudes ou le salaire qui ne
sont pas forcment en concordance avec la catgorie professionnelle). La seconde variable est
la rponse la question I. Cest galement une variable nominale observe. Nous avons donc
un protocole bivari. Les variables tant nominales, cest le calcul de 2 qui nous permettra
danalyser la liaison entre les variables.
Premire tape : calcul des frquences. Le point de dpart de lanalyse est le tableau des
effectifs conjoints. partir de ce tableau, on calcule les frquences en divisant leffectif de la
case par leffectif total. Attention, contrairement la comparaison de groupes, on calcule ces
frquences sur leffectif total et non sur leffectif du groupe.
Un peu de formalisme avant daller plus loin. Nous allons appeler j les modalits de la
variable dispose en ligne et k les modalits de la variable dispose en colonne. La lettre f
dsigne toujours une frquence et la lettre n un effectif. La frquence dune case est donc :
fjk=njk/n.
Concrtement : f11 (lire f-1-1) dsigne la frquence de la premire modalit en ligne et de la
premire modalit en colonne cest--dire les cadres suprieurs ayant rpondu parce quils
se sentent dans un tat anormal .
f11=n11/n=1/80=0,013 ; f12=n12/n=7/80=0,088 etc.
R2440T 63
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
On remarquera dans ce tableau que les frquences marginales en colonne sont toutes gales.
Ce qui est normal, puisque les effectifs marginaux en colonne sont gaux. Le total gnral des
frquences est bien sr gal 1.
Deuxime tape : calcul des frquences-produits. partir du tableau des frquences, on va
calculer, pour chaque case le produit de ses frquences marginales (total des frquences en
ligne et en colonnes). Nous les noterons f. On aura ainsi fjk=fj*fk.
Concrtement : f11=0,250*0,213=0,053 ; f12=0,250*0,300=0,053 etc.
On remarquera que les frquences-produits marginales sont les mmes que dans le tableau
prcdent. On notera aussi que, pour une modalit de rponse particulire, les frquences-
produits sont les mmes pour chacune des catgories professionnelles. Cela tient au fait que
les effectifs marginaux en colonne sont les mmes. En fait le calcul des frquences-produits
revient calculer les frquences quon obtiendrait si les rponses des sujets se rpartissaient
de la mme faon pour chacune des catgories professionnelles, cest--dire sil ny avait
aucune liaison entre les variables. Dit autrement, sil ny a pas de relation entre les variables,
la distribution des frquences des rponses est la mme pour les quatre catgories
professionnelles. Cest cette distribution, que nous appellerons distribution thorique, que
nous venons de calculer. Pour la comparer la distribution observe, il nous faut connatre les
effectifs correspondant cette distribution des frquences.
R2440T 64
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Troisime tape : calcul des effectifs thoriques. Ils sobtiennent en multipliant les
frquences-produits par leffectif total. Leffectif thorique se note n. On aura donc
njk=fjk*n. Concrtement n11=f11*n=0,053*80= 4 ; n12=f12*n=0,053*80 etc.
Effectifs thoriques Cadre sup. Cadre moy. Ouvriers Prof. Lib. Total
Parce qu'ils se sentent dans 4,25 4,25 4,25 4,25 17,00
un tat anormal
Par besoin d'aide, de conseil 6,00 6,00 6,00 6,00 24,00
Par besoin de se connatre 5,00 5,00 5,00 5,00 20,00
Pour des problmes 2,75 2,75 2,75 2,75 11,00
d'orientation
Autres rponses ou absence 2,00 2,00 2,00 2,00 8,00
de rponses.
Total 20,00 20,00 20,00 20,00 80,00
On notera que les effectifs thoriques sont les mmes pour chacune des catgories
professionnelles, ce qui est normal puisque les effectifs totaux sont les mmes pour chacune
des colonnes. On notera galement que les effectifs marginaux thoriques sont les mmes que
les effectifs marginaux observs. Cest toujours le cas. En effet, les effectifs thoriques
correspondent une rpartition des observations proportionnelle aux effectifs marginaux, il
est donc normal de retrouver les mmes marges.
Quatrime tape : Calcul des taux de liaison. Si nos deux variables sont lies, alors les
effectifs observs scartent de manire importante des effectifs thoriques. On value ces
carts en faisant simplement la diffrence entre les effectifs observs et les effectifs
thoriques. Bien sr ces carts nont de sens que relativement aux effectifs attendus en cas
dabsence de liaison. Cest la raison pour laquelle on pondre ces carts par les effectifs
thoriques. Concrtement, le taux de liaison sobtient de la manire suivante :
Taux de liaison = njk-njk /njk.
Pour la premire case, on aura donc (1-4,25)/4,25= -0,765 ; Pour la seconde case, on aura (7-
4,25)/4,25= 0,647.
Le commentaire de ce tableau sappuiera sur le sens des carts et limportance de ces carts.
Les taux de liaison positifs indiquent les sur-reprsentations. Les taux de liaison ngatifs
indiquent les sous-reprsentations. La valeur absolue du taux de liaison rvle limportance de
lcart entre les effectifs observs et les effectifs thoriques. On observe ici que les cadres
R2440T 65
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
suprieurs ont tendance rpondre plus souvent Par besoin d'aide, de conseil et rpondent
moins souvent Parce qu'ils se sentent dans un tat anormal , contrairement aux cadres
moyens. Chez les ouvriers en revanche, cest labsence de rponses qui prdomine,
contrairement aux professions librales qui sabstiennent rarement de rpondre et pour qui la
consultation dun psychologue relve essentiellement de problmes dorientation.
Cinquime tape : calcul du carr moyen de contingence 2. Nous avons vu ltape
prcdente que les modalits de rponse sont lies la catgorie professionnelle des sujets. La
dernire tape consiste valuer globalement limportance de cette liaison. Cette valuation
se fait laide de la statistique 2. Pour chaque case, on calcule le carr du taux de liaison
quon multiplie ensuite par la frquence-produit correspondante. Concrtement pour la
premire case (cadres sup./rponse 1), on aura : -0,7652*0,053= 0,031 ; Pour la seconde case,
on aura : 0,6472*0,053= 0,022.
Carr moyen de contingence Cadre sup. Cadre moy. Ouvriers Prof. Lib. Total
Parce qu'ils se sentent dans un 0,031 0,022 0,005 0,009 0,067
tat anormal.
Par besoin d'aide, de conseil. 0,033 0,000 0,033 0,000 0,067
Par besoin de se connatre. 0,003 0,010 0,023 0,010 0,045
Pour des problmes 0,003 0,014 0,000 0,023 0,040
d'orientation.
Autres rponses ou absence de 0,006 0,006 0,025 0,025 0,063
rponses.
Total 0,076 0,052 0,086 0,067 0,281
La mthode que nous venons de prsenter est celle de votre cours, en pratique on ne procde
pas tout fait de cette faon. On ne construit quun seul tableau, en organisant les cellules de
la faon suivante :
On peut ainsi gagner tout le temps ncessaire la recopie des tableaux, et avoir sous les yeux
de manire synthtique tous les rsultats de lanalyse. Lautre intrt, cest que, pour chacune
des cellules du tableau, on enchane les calculs (il est donc inutile de saisir nouveau le
rsultat intermdiaire) et si on sait se servir de la mmoire de sa calculette, on peut calculer
paralllement le X2 quil ne reste plus qu diviser par leffectif total pour avoir 2.
R2440T 66
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Dans les marges du tableau, on note les effectifs totaux observs et dans le coin en haut
gauche de chaque cellule, on note les effectifs observs. On calcule ensuite les contributions
au X2 de chaque cellule de la manire suivante :
Exemple : Pour les cadres suprieurs ayant donn la premire modalit de rponse :
On calcule leffectif thorique en multipliant les marges et en la divisant par n soit
17*20/80=4,25. On note ce rsultat en haut droite de la cellule.
On calcule ensuite lcart brut. Pour ne pas avoir saisir nouveau leffectif thorique
sur la calculette, on soustrait leffectif thorique leffectif observ et on inverse le
signe. Dans notre exemple : 4,25-1=3,25. lcart brut est donc de 3,25. On le note en
bas gauche dans la cellule.
Puis on lve au carr lcart brut . Le rsultat est ensuite divis par leffectif
thorique. On note le rsultat de cette dernire opration dans le coin en bas droite.
Si votre calculette dispose dune touche mmoire (note gnralement M+ ), on
additionne ce dernier rsultat au contenu de la mmoire.
Puis on recommence pour chacune des cellules du tableau. Lorsque vous aurez fini, la
mmoire de votre calculette devrait contenir la somme des contributions au X2, cest-
-dire X2. On divise alors ce rsultat par n pour obtenir 2. Dans notre exemple,
X2=22,468 et donc 2=22,468/80=0,281
Profession
Rponses Cadre sup. Cadre moy. Ouvriers Prof. Lib. total
Parce qu'ils se sentent
dans un tat anormal. 1 4,25 7 4,25 3 4,25 6 4,25 17
-3,25 2,485 2,75 1,779 -1,25 0,368 1,75 0,721
Par besoin d'aide, de
conseil. 10 6 6 6 2 6 6 6 24
4 2,667 0 0 -4 2,667 0 0
Par besoin de se
connatre. 6 5 3 5 8 5 3 5 20
1 0,2 -2 0,8 3 1,8 -2 0,8
Pour des problmes
d'orientation. 2 2,75 1 2,75 3 2,75 5 2,75 11
-0,75 0,205 -1,75 1,114 0,25 0,023 2,25 1,841
Autres rponses ou
absence de rponses. 1 2 3 2 4 2 0 2 8
-1 0,5 1 0,5 2 2 -2 2
Total 20 20 20 20 80
Interprtation du rsultat.
Cet indice 2 peut tre vu comme la proportion de sujets scartant du cas dabsence de
liaison. Sa valeur varie entre 0 (absence de liaison) et 1 (concordance entre les modalits des
R2440T 67
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
variables). Dans notre exemple, 2 est plus proche de 0 que de 1, nous conclurons donc une
liaison faible entre les variables. Le cas de concordance correspond au cas o, pour chaque
catgorie professionnelle, on aurait observ quune seule modalit de rponse. Dans un tel
cas, on comprend bien que connaissant la rponse dun sujet la question, on connat
galement sa catgorie professionnelle. De la mme faon, si je connais la catgorie
professionnelle dun sujet, je sais, dans le cas de concordance, ce quil va rpondre la
question. Ce cas nest bien sr que trs rarement observ, mais sil existe une liaison entre les
variables, cest de cela quon se rapprocherait. On pourra, titre dexercice, calculer 2 pour
le cas de concordance et vrifier que sa valeur est de 1. De la mme faon, si la liaison entre
les variables est nulle, le tableau des effectifs observs serait le mme que celui des effectifs
thoriques. On peut alors vrifier que 2 est bien gal 0.
Exercice 22.
La question que lon se pose ici est trs diffrente de celle que nous avons examine dans le
chapitre prcdent. La question de la relation entre les variables demande de voir le protocole
diffremment. Ici, les units statistiques sont les couples et nous avons deux variables
numriques : lge de lpoux et lge de lpouse. On considre donc ici un protocole bivari
non structur. Lvaluation de la liaison se fera laide du r de Bravais-Pearson. Celui-ci est
en effet un bon indice pour valuer la liaison entre les deux variables puisquon peut voir sur
le graphique ci-dessous que les donnes suivent peu prs une droite.
50
45
40
35
Age des pouses
30
25
20
15
10
0
0 5 10 15 20 25 30 35 40 45 50
( x m )( y m )
i x i y
(x m )
i x
2
(y m )
i y
2
R2440T 68
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
La premire sobtient en calculant pour chaque couple et chaque variable lcart entre
lobservation et la moyenne et en faisant ensuite le produit de ces carts.
Par exemple, pour le premier couple, on aura : (20-27)*(20-26)=-7*-6=42 ;
Pour le second couple, on aura (25-27)*(24-26)=-2*-2=4.
Lorsque cela est ralis pour chacun des couples, on fait la somme de ces produits. Ici le total
est gal 1501.
Pour les deux autres quantits, on reconnat la formule du dnominateur de la variance. La
procdure de calcul est la mme. En pratique, les carts la moyenne ayant t calculs pour
la prcdente quantit, on les lve au carr et on fait ensuite la somme de ces carrs pour
chacune des variables. Dans notre exemple, nous avons :
(x i m x ) 2 = 1622 et (y m )
i y
2
= 1452
r=
( x m )( y m )
i x i y
=
1501
= 0, 978
(x m ) (y m )
i x
2
i y
2 1622 * 1452
R2440T 69
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Interprtation.
La valeur de r est trs proche de 1. On peut donc affirmer quil existe une relation linaire
positive entre lge de lpoux et lge de lpouse dans un couple. Dit autrement, les ges des
conjoints dans un couple sont proportionnels.
R2440T 70
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
cov xy =
(x i m x )( yi m y )
n
(x i m x )( yi m y )
cov xy n
r= =
sx * sy
(x i mx )2 (y m )
i y
2
n
On identifie aisment la simplification qui permet de passer la formule de dfinition du r de
Bravais-Pearson. Cette procdure de calcul est surtout intressante si on connat dj les
carts-types.
Concrtement, il faut :
Calculer pour chaque individu statistique et chaque variable, son cart la moyenne.
La moyenne pour lge des poux tant de 27 ans et la moyenne de lge des pouses
tant de 26 ans, on a pour le premier couple un cart la moyenne de 20-27=-7 pour
lge de lpoux et un cart de 20-26=-6 pour lge de lpouse.
On fait ensuite le produit de ces deux carts. Ainsi, pour le premier couple, on aura : -
7*-6=42.
On procde ainsi pour tous les couples (voir le tableau ci-dessous).
On calcule ensuite la moyenne des produits des carts aux moyennes (concrtement la
moyenne de la dernire colonne). Cette moyenne est la covariance. Dans notre
exemple, elle vaut 38,487.
On divise ensuite cette covariance par le produit des deux carts-types. On a donc :
6
Attention, n reprsente le nombre dindividus statistiques et non le nombre dobservations.
Nous avons 39 couples et 39*2=78 observations puisque nous avons deux variables.
R2440T 71
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
R2440T 72
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Bibliographie.
Plus de cours ?
Rouanet H., Le Roux B., Bert M.C. (1987) Statistique en sciences humaines, procdures
naturelles, Paris, Dunod.
Plus d'entrainement ?
Beauvois J.L., Dubois N. (1998) Exercices de psychologie, tome 2, bases et mthodes-, Paris,
Dunod, collection " Psycho sup ".
Et des liens...
SEL : http://www.inrialpes.fr/sel/telecharger.html
Statnet : http://www.agro-montpellier.fr/cnam-lr/statnet/
Mas11 : http://nte-serveur.univ-
lyon1.fr/nte/immediato/math2002/Mass11/cours/cours_table.htm
R2440T 73
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
StatNotes: http://www2.chass.ncsu.edu/garson/pa765/statnote.htm
R2440T 74
Statistiques descriptives : rsums et exercices IED/Universit de Paris8
Formulaire
Statistiques Formules
Densit Densit = effectif / tendue
Frquence n(u)
f (u ) =
n
Moyenne
m=
x i T nk u
= =
k
=
x n i i
n n n n
( xi )
2
Variance
(x m )2 x 2
i
n
Var = =
i
n n
Ecart-type Ecart type = var
( xi )
2
Variance corrige
(x m) 2
xi2 n
Varcorr = i
= = Var * n / n 1
n 1 n 1
Ecart-type corrig Ecart typecorr = varcorr
Note z xi m
zi =
cart type
Effectifs thoriques n *n
njk = j k
n
Taux de liaison n jk njk
Taux.de.liaison =
njk
2
Khi-deux (n * n )
n jk j k
(obs tho) 2
(n njk ) 2
n
2 = = jk =
tho njk (n j * nk )2
n
x y n
Coefficient de x y
corrlation r de r=
( x m )( y m )
i x i y
=
i i
Bravais-Pearson (x m ) (y m )
i x
2
i y
2
x ( x ) / n y ( y )
2
i
i
2
2
i i
2
/ n
Coefficient de 6 d 2
=1
corrlation par rang n3 n
de Spearman
R2440T 75