Statistiques Pour Statophobes

1
Statistiques
pour
statophobes

Une introduction au monde des tests statistiques
l'intention des tudiants qui n'y entravent que pouic
et qui dtestent les maths par dessus le march

Denis Poinsot

2004

La libre reproduction et la diffusion de ce document sont non seulement autorises mais les bienvenues du
moment qu'elles sont ralises dans un but pdagogique et non lucratif.

Pour citer ce document :
D. Poinsot, 2004. Statistiques pour statophobes. [en ligne : http://perso.univ-rennes1.fr/denis.poinsot]
2

Ce petit livre est ddi avec reconnaissance Ren Merckhoffer,
mon extraordinaire prof de maths de classe de seconde au lyce des
sept mares d'Elancourt en 1982, pour son humour pince sans rire,
mais surtout pour avoir russi m'arracher mme trs
momentanment du fond de l'abme mathmatique dans lequel
j'avais sombr sans espoir de revoir la lumire du jour. S'il n'avait pas
t l au bon moment je n'aurais tout simplement pas pu faire d'tudes
scientifiques.

DP

3

Avant Propos

Je suis biologiste, et non statisticien. Circonstance aggravante, j'ai collectionn les mauvaises
notes en mathmatiques sans interruption partir de la classe de 5me, litanie interrompue
seulement par l'obtention d'une thse de doctorat en biologie volutive
1
. Je pense donc tre
idalement qualifi pour expliquer les bases des mthodes statistiques aux tudiants en
biologie rfractaires aux maths. Si vous voulez bien mettre de ct une incrdulit trs
naturelle ce stade de votre lecture, vous raliserez que cela n'est peut tre pas si idiot que a
en a l'air. Bien sr, les manuels d'introduction aux statistiques pullulent, rdigs par de
vritables bio-mathmaticiens et statisticiens infiniment plus dous que moi dans leur
discipline. Et c'est justement l le problme. Malgr toute leur science, mes chers collgues
(dont j'envie sincrement les comptences) ne pourront jamais se mettre compltement la
place d'un tudiant ne comprenant rien aux maths, parce que, anciens tudiants "matheux", ils
n'ont jamais connu cette humiliante exprience eux-mmes. Moi, si. J'y suis mme
rgulirement confront chaque fois que je me heurte durement aux troites limites de mon
savoir dans cette discipline. Je sais tout de la frustration, voire de la rage que l'on peut
ressentir face l'"explication" d'une mthode dont on a besoin pour analyser ses rsultats,
mais que le manuel dcrit uniquement dans un langage mathmatique pur et dur. Soyons
clairs, je ne blme videmment pas les mathmaticiens pour l'utilisation d'un langage
symbolique prcis et rigoureux, il est indispensable leur discipline. Je souhaiterais
cependant qu'ils essayent davantage de comprendre que le pkin moyen ne lit pas cette langue
couramment.

Lorsque jai eu enseigner pour la premire fois sans bnficier de la prsence rassurante
dun collgue expriment, jtais un tudiant en fin de thse trs heureux de faire de la
biologie, ma passion depuis aussi longtemps que je me souvienne davoir t lcole. Bien
entendu, je devais utiliser les mthodes danalyse statistique pour les besoins de ma recherche,
mais mon directeur de thse, chercheur au CNRS, mapportait alors tout son soutien et sa
vaste exprience. Jutilisais en fait lpoque les techniques statistiques avec la foi enfantine
dun homme des cavernes regardant dans un microscope. Je savais en gros que lorsque mon
test rvlait que P < 0,05 il y avait un effet significatif dont je pouvais discuter, et que
sinon je devais tristement mabstenir de conclure. Or donc, j'eus la chance d'obtenir un contrat
d'enseignement de un an pour finir ma thse. Cest alors quon mannona que jallais y
assurer des travaux dirigs de... probabilits et statistiques, des tudiants de premire anne.
Je me souviens encore de la sensation que tout mon sang venait de se congeler dans mes

1
Une fois que vous tes docteur, plus personne n'ose mettre en doute vos comptences en mathmatiques en
vous obligeant passer des examens crits. C'est un des multiples avantages de notre beau mtier.
4
veines. Cependant, les prouesses dont ltre humain est capable lorsquil ne peut fuir et que le
combat est la seule issue sont vritablement tonnantes. Je parvint en effet assurer les
sances prvues, en les prparant videmment frntiquement, physiquement malade de
terreur avant chaque TD, et totalement puis la fin. Et ma grande surprise, je me mis
comprendre des choses qui mtaient pourtant passes des kilomtres au dessus de la tte
lorsque jtais tudiant..

Un an plus tard (c'tait vers la fin du XXme sicle), recrut luniversit de Rennes comme
matre de confrences (en biologie et non en stats, est il besoin de le prciser ?), j'ai eu a
nouveau l'opportunit d'enseigner les biostatistiques de base, cette fois des tudiants de
matrise de biologie devant les utiliser pour analyser des donnes de terrain. Jai alors pris une
folle dcision : crire pour ces tudiants le manuel de stats que jaurais aim avoir lorsque
jtais moi mme traumatis par cette matire maudite. Le rsultat est entre vos mains.
Jespre que ce petit ouvrage vous sera utile et mme quil vous plaira, parce que je pense
honntement quil est diffrent de beaucoup dautres livres de stats. Jen ai tant bav
2
pour
comprendre le peu que je sais dans cette discipline, que jai soigneusement vit les
"explications" telles que : soit (, F, p) un espace probabilis modlisant une esprance
finie qui mont toujours donn envie de possder un lance flammes. Ce livre est donc crit
en franais normal. Il contient mme nombre de remarques plus ou moins saugrenues, parce
que je suis viscralement incapable de rsister lenvie de dire (et d'crire) des btises, juste
pour rire. Depuis sa premire version, imprime sous forme de polycopi en octobre 1998, et
profondment remanie cet t, cet ouvrage a t test par environ 900 tudiants de matrise,
qui lont utilis pour analyser leurs donnes de terrain. Quelques uns ont eu la gentillesse de
men dire du bien. Quasiment tous mont fait remarquer que je parlais trop. Ils ont
videmment raison (au moins sur le second point). Je vous invite donc tourner la page.

Denis Poinsot,
Rennes le 11 octobre 2004

2
et je suis poli.
5
1. Pourquoi des stats en biologie?

Karl-Heinz vonVlapuk vous tes directeur de production du groupe Bercedes Mens pour
toute lEurasie.
Rigoureusement exact.
Pourriez vous nous dire quel est le poids total de votre dernier modle dcapotable 450 C ?
Le poids total de notre modle 450 C, rservoirs vides, est de 1251 kg exactement.
Et comment cela se compare til avec les caractristiques de sa principale rivale ?
Je prsume que vous faites rfrence la WMB 3.0i?
Bien entendu.
Et bien notre voiture pse prcisment 47kg de moins que sa concurrente, qui atteint en
effet 1298kg dans les mmes conditions.
Peut on en conclure que la Berceds-Mens 450 C est plus lgre que la WBM 3.0i ?
Cest lvidence mme.
Karl-Heinz vonVlapuk, je vous remercie.
Tout le plaisir a t pour moi.

Que de prcision, que de rigueur Ah ces Allemands tout de mme ! direz vous dun air
admiratif. Peut tre, cependant tout constructeur automobile naurait eu aucune peine faire le
mme genre de rponse ferme et dfinitive. Avant danalyser pourquoi, voyons dabord un
dialogue identique au prcdent dans sa structure, mais en fait fondamentalement diffrent

Robert Lebouvier vous tes lexpert mondial incontest de la race bovine charolaise.
Cest ce quon dit.
Pourriez vous nous dire combien pse un taureau Charolais de trois ans ?
Eh bien, disons entre 800 kg et 1,2 tonnes peu prs, mais certains arrivent mme tre
encore plus gros. Ils sont plus lgers bien sr si la pture na pas t bonne, et puis il faut
savoir qui taient le pre et la mre hein, parce que la gntique
Heu oui bien, et comment ces rsultats peuvent ils se comparer avec ceux de la race
Holstein ?
Les taureaux Holstein font plutt 700kg 1 tonne mais l encore a dpend du type
dlevage et de lalimentation qui
Certes, mais alors peut on dire que les taureaux Holstein sont plus lgers que les taureaux
Charolais ?
Ben en gnral peut tre quoique si par exemple vous prenez Lulu le Tarbais , qui
a t prim au dernier salon de
Je vois. Le temps qui nous tait imparti touche hlas son terme, merci beaucoup pour
cette intervention, et maintenant une page de publicit.
6

Robert Lebouvier est il vraiment lexpert quil prtend tre, lui qui est visiblement incapable
de donner une rponse claire et nette sur un sujet quil connat soi-disant fond ? Doit on
laccabler ? Non, videmment. Contrairement aux voitures, les taureaux ne sont pas construits
dans des conditions contrles et partir de pices qui sont automatiquement rejetes si elles
ne satisfont pas le cahier des charges. Rsultat : un produit non calibr. Il est impossible
dchapper cette marge dincertitude, intrinsque tout phnomne vivant. Chaque
caractristique dun organisme (quil sagisse de sa masse ou de son comportement un
moment prcis) rsulte de linteraction entre son gnome (plusieurs milliers de gnes, donc
une infinit de combinaisons possibles) et lenvironnement, lui mme fort variable. Le rsultat
final est ce que vous en connaissez : une myriade dindividus tous diffrents, mme sils
appartiennent la mme espce, mme sils ont le mme pre et la mme mre. Toute
exprience visant estimer la diffrence (ventuelle) entre deux groupes dindividus pour un
caractre donn (le poids moyen dans notre exemple, ou le temps de raction aprs un
stimulus) ne peut donc pas sappuyer sur un seul exemplaire de chaque groupe pris au hasard.
Cette approche tait pourtant valable pour comparer deux modles manufacturs (c'est le
principe du magazine Que Choisir ). En biologie, la grande variabilit des individus oblige
se baser sur des chantillons de plusieurs individus (et tant mieux sils sont nombreux).

Le problme quil faut bien avoir lesprit est que la variabilit du rsultat nen disparat pas
pour autant. Puisque tous les individus biologiques sont diffrents, il ny aura jamais deux
chantillons semblables !
Mais assez d'exemples thoriques, passons de vritables donnes scientifiques et voyons
si une personne raisonnable et comptente a vraiment besoin de tout un attirail mathmatique
pour les interprter. La figure 1.2 montre le rsultat d'une exprience d'cotoxicologie

A
B
Figure 1.1 Les mfaits des fluctuations d chantillonnage. A: Deux chantillons,
mme fort diffrents, ne proviennent pas ncessairement de deux populations diffrentes.
B : Deux chantillons, mme fort semblables, ne proviennent pas ncessairement de deux
populations semblables.
7
(Ishimata & Takahiro, 1967) dont le but tait d'tablir l'impact potentiel de la cyano-
cobalamine
3
(un puissant polluant cyanur issu de l'industrie minire ciel ouvert, frquente
l'poque) sur le rendement du riz.

Figure 1.2. Effect of cyano-cobalamine on rice yield in dry farming conditions. Means of three
replicates per treatment (kg per plot). D'aprs Ishimata & Takahiro, 1967, J. Tropical Rice Res.
12:459-463.

Cette figure montre la moyenne du rendement obtenu en comparant deux modalits (sol non
pollu vs sol pollu par la cyanocobalamine), avec trois rptitions (=trois parcelles
exprimentales) par modalit. Ces rsultats montrent de manire indiscutable que le
rendement moyen obtenu dans les trois parcelles pollues est infrieur au rendement moyen
obtenu dans les trois parcelles tmoin (non pollues). Ressentez vous le besoin irrsistible de
calculer quelques intgrales ou autres logarithmes avant d'interprter ces rsultats ? Non, bien
entendu. Il est clair que ce polluant a un impact ngatif sur le rendement du riz, et il n'y a
franchement rien d'tonnant l dedans.

Figure 1.3. Effect of pentacycline (20mg/kg) on survival rate (%) 24 hours post treatment in mice
inoculated with Salmonella sp.(intra peritoneal route). N=30 per treatment. (D'aprs Wilkins &
Fretwell 1998. J. Rodent Med. Assoc. 53:289-292).

La figure 1.3 montre le rsultat d'un essai antibiotique prliminaire (Wilkins & Fretwell,
1998) dans lequel soixante souris ont t inocules (par injection dans la cavit pritonale)
avec une souche potentiellement mortelle de Salmonella sp., bactrie tristement clbre pour
les nombreux cas d'intoxication alimentaire qu'elle provoque chaque anne. Aprs cette
injection, 30 souris tires au hasard (lot tmoin) sont laisses tranquille, tandis que les 30
autres (lot trait) reoivent une dose de Pentacycline (un antibiotique large spectre dont on
espre qu'il est actif in vivo sur cette souche de Salmonelle). On examine les sujets 24heures

3
DIMETHYL-5,6 BENZIMIDAZOLYL)-ALPHA CO-CYANO COBAMIDE
35
40
45
50
55
60
Control Cyano-cobalamine
0
10
20
30
40
50
60
70
Control Pentacycline
8
aprs. Comme vous pouvez le voir sur la figure 1.3, seules 37% des souris du lot tmoin ont
survcu, alors que cette proportion est de 60% dans le lot trait avec l'antibiotique. Il est
manifeste que l'antibiotique a eu un effet positif mme s'il est amliorable, il faudrait
probablement augmenter la dose sur le traitement de l'infection. Encore une fois, avez
vous ressenti une envie pressante de faire des mathmatiques compliques avant d'interprter
des rsultats aussi limpides ? Bien sr que non !
Et vous avez eu tort. Prcisons tout d'abord que les deux expriences dcrites ci-dessus
n'ont jamais eu lieu, que la cyanocobalamine n'est pas un puissant polluant cyanur de
l'industrie minire (il s'agit en fait de la vitamine B12, anti-anmique), que les noms des
chercheurs cits sont imaginaires, que la pentacycline n'existe pas (la ttracycline oui, et c'est
bien un antibiotique), que le Journal de l'Association Mdicale des Rongeurs (J. Rodent Med.
Assoc.) n'existe pas non plus, et prcisons enfin qu'aucune adorable petite souris n'a subi de
mauvais traitements pour les besoins de la rdaction de cet ouvrage. Donc, j'aurais invent ces
rsultats ? Pas exactement. Ils ont t gnrs alatoirement (tirs au hasard) par ordinateur.
Le prtendu "rendement moyen" de la pseudo exprience sur le riz a t obtenu en prenant la
moyenne de 30 nombres tirs au hasard entre 0 et 100. La figure 1.2 montre donc en fait les
moyennes obtenues lors de deux sries de 30 tirages alatoires chacune. La diffrence entre
ces deux moyennes (cette diffrence est relle, et on la voit trs bien sur la figure) est
videmment un pur hasard. J'ai galement utilis une astuce bien connue des professionnels
du marketing : l'chelle des ordonnes ne part pas de zro, ce qui permet de rendre la
diffrence de hauteur entre les barres de l'histogramme plus impressionnante que dans la
ralit. Si jamais vous voyez une chelle Y qui ne part pas de zro, mfiez-vous, on essaie de
vous vendre quelque chose (par exemple que les chiffres du chmage ont baiss de manire
spectaculaire).
De mme, le "taux de survie 24h" de mes deux lots de 30 souris virtuelles a t obtenu en
ralisant chaque fois 30 tirages alatoires avec comme rsultat possible 0 (souris morte) ou 1
(souris vivante), chacun ayant la mme probabilit (une chance sur deux), soit l'quivalent de
tirer 30 fois pile ou face. Le "taux de survie" est simplement le nombre de 1 obtenus, divis
par 30 et multipli par 100 pour permettre d'afficher un pourcentage. L encore, la diffrence
observe entre les deux pourcentages obtenus (cette diffrence est relle, on la voit bien sur la
figure) est due entirement au hasard.
Et alors ? A quoi rime ce canular de gamin ? Il dmontre mine de rien une chose
importante, qui est que le hasard peut trs facilement provoquer des diffrences notables
(mais videmment alatoires) entre des moyennes ou des pourcentages, en particulier lorsque
les chantillons sont de taille modeste (ce qui tait le cas ici). Ce phnomne sera
particulirement dangereux quand la diffrence ainsi produite va dans le sens que l'on
attendait (diminution du rendement par le polluant, amlioration de la survie par
l'antibiotique) car il est alors trs tentant de conclure que l'exprience "a march". Conclusion
: on ne peut pas se fier aveuglment une diffrence observe (entre deux moyennes, entre
deux pourcentages). Il est impratif de prendre en compte le fait que le hasard a forcment
jou un rle dans le rsultat obtenu. Il y a en fait deux possibilits :
1) la diffrence observe est due seulement au hasard
2) la diffrence observe est due au hasard et un effet rel
Le problme est videmment qu'il est impossible de dterminer, juste en observant une
diffrence, quelle part (obligatoire) est due au hasard et quelle part (ventuelle) est due un
9
vritable effet. Il est possible en revanche de calculer la probabilit d'observer par hasard une
diffrence aussi grande, voire plus grande que celle que vous avez obtenu. Telle est la tche la
plus utile des tests statistiques. Par ailleurs (et c'est trs important), il est possible de calculer
autour de chacune de vos valeurs observes (moyenne, pourcentage) une zone dans laquelle
se situe vraisemblablement la vritable valeur dans la grande population chantillonne. Cette
zone se nomme "intervalle de confiance". Enfin, il est galement possible de dterminer
quelle est la magnitude possible de l'effet que vous avez peut tre observ (la taille de la
diffrence), l encore en calculant un intervalle de confiance pour cette magnitude.
Comme tout ceci est assez flou pour l'instant, voici quoi cela pourrait ressembler dans les
deux cas fictifs dcrits ci dessus.

Analyse des rsultats concernant l'effet de la Cyanocobalamine (CCA) sur le rendement
du riz
4
. On suposera les observations suivantes : Tmoin {43, 57, 65 q/ha} soit une moyenne
de 55q/ha et Pollu {31, 43, 55qx/ha} soit une moyenne de 43q/ha

Intervalle de confiance des rendements observs :
Tmoin non pollu : [2783q/ha] (la vritable valeur a 95% de chances de se situer dans cet intervalle)
Sol pollu: [1373q/ha] (idem)
On peut observer que la prcision de notre estimation des rendements est catastrophique, ce
qui est d au petit nombre de donnes et une grande variabilit d'une parcelle l'autre.
probabilit d'observer un cart aussi grand (voire plus grand) entre les rendements obtenus
(ici l'cart observ est de 12q/ha) si seul le hasard entre en jeu :
P = 0,25 environ (une chance sur 4)
Si seul le hasard tait intervenu, on aurait donc observ dans prs d'un cas quatre un cart au
moins aussi important que celui que nous observons ici. De quoi doucher notre enthousiasme
si nous tions tents de conclure un effet clair de la CCA sur le rendement.
Magnitude de l'effet (apparent) de la CCA sur le rendement : 12q/ha, comme dj dit.
Ce rsultat est videmment relativiser trs fortement vu la facilit obtenir ce genre d'cart
sous l'effet du hasard !
Intervalle de confiance de la magnitude de l'effet (apparent):[ 49 +27q/ha]
En clair, vu la trs grande imprcision des estimations des rendements, il est certes possible
que la CCA ait un effet trs ngatif ( 49q/ha), mais il est galement possible que le PE ait au
contraire un effet... trs positif (+ 27q/ha), qui aurait t masqu ici par les fluctuations
d'chantillonnage !

Avec ces informations en main, vous voyez que nous sommes nettement mieux arms pour ne
pas foncer bille en tte sur une conclusion htive. Nous pouvons faire dire aux donnes ce
qu'elles peuvent dire, mais pas plus. Ici, la (modeste) conclusion serait grosso modo celle ci :
les valeurs de rendement ayant t estimes de manire extrmement imprcise (intervalle de
confiance trs large), il est impossible d'affirmer que le PE ait eu un effet ngatif sur le
rendement dans cette exprience, il est tout aussi impossible d'exclure qu'il ait eu un tel effet,

4
On verra naturellement dans les chapitres suivants comment on peut obtenir les chiffres en question
10
et on ne peut pas non plus exclure l'hypothse qu'il ait en ralit un effet bnfique sur le
rendement, qui aurait t masqu ici par les fluctuations d'chantillonnage. Le rsultat de cette
exprience nous laisse donc dans une totale incertitude concernant l'effet du PE sur le
rendement du riz. C'est un peu dsesprant, mais c'est ainsi. On peut cependant quand mme
tirer quelques conclusions, grce au calcul de l'intervalle de confiance de la magnitude de
l'effet possible du CCA
(1) si un effet ngatif de la CCA existe rellement la dose employe, il n'est
vraisemblablement pas plus svre que 49q/ha (ce qui serait dj catastrophique !),
(2) si au contraire la CCA a un effet positif la dose employe, cet effet n'est
vraisemblablement pas plus important que +27q/ha (ce qui en ferait un engrais de rve).
Ca n'est pas grand chose, mais c'est mieux que rien. La morale de cette histoire est qu'on peut
toujours tirer de l'information d'une exprience, mme si elle est entache d'une grande
incertitude.

Effet de la Pentacycline sur Salmonella sp. in vivo chez la souris Mus musculus. (en
pratique, 11 souris sur 30 ont survcu dans le lot tmoin, soit 37%, alors que 18 souris sur 30
ont survcu dans le lot trait, soit 60%)

Intervalle de confiance ( 95%) des taux de survie observs :
Tmoin : [2056%] (la vritable valeur a 95% de chances de se situer dans cet intervalle)
Pentacycline : [4177%] (idem)
On note au passage la trs mauvaise prcision de ces estimations (presque du simple au triple
pour la premire, presque du simple au double pour la seconde !)
probabilit d'observer un cart aussi grand (voire plus grand) si seul le hasard entre en jeu
(autrement dit, si l'antibiotique n'a en ralit aucun effet sur la survie)
(chi2=3.27 P = 0,12 (plus d'une chances sur 10)
Le fait qu'un placebo (un mdicament sans effet rel) puisse obtenir le mme type de rsultat
"seulement" une fois sur dix peut sembler encourageant premire vue concernant l'existence
d'un effet antibiotique de la pentacycline sur la salmonelle, mais cette possibilit resterait trs
inquitante s'il s'agissait de dcider de mettre cet antibiotique sur le march pour sauver des
vies !
magnitude de l'effet apparent sur le taux de survie : + 23% de taux de survie
Effet certes prometteur premire vue, mais relativiser comme vu plus haut dans la mesure
o, quand on teste un produit n'ayant aucun effet rel (et que seul le hasard joue) ce type
d'cart sera observ tout de mme une fois sur dix
5
.
Intervalle de confiance de la magnitude de l'effet de l'antibiotique : [2 +48%]
En clair, vu la trs mauvaise prcision de l'estimation des pourcentages de survie, il est mme
possible que l'antibiotique ait un faible effet ngatif sur la survie !

5
je simplifie. En ralit, si les deux traitements sont quivalents (un tmoin non trait, un traitement sans effet),
on observera 0,5 fois sur 10 un cart de +23% de survie (ou mieux) en faveur du traitement, et 0,5 fois sur 10 un
cart de +23% de survie (ou mieux) dans le tmoin non trait. Le "1 chance sur 10" est donc la probabilit
d'observer un cart de 23% (ou plus) quel que soit le sens de l'cart.
11
Ces informations tant connues, on peut maintenant tenter de conclure, et le moins que l'on
puisse dire est qu'il n'y a pas de quoi pavoiser. Tout au plus peut on dire ceci :
(1) il est impossible d'affirmer ni d'infirmer un effet antibiotique de la pentacycline sur
Salmonella dans les conditions de l'exprience.
(2) si l'effet antibiotique existe, il ne dpasse probablement pas +48% la dose utilise
(3) un effet ngatif modr de l'antibiotique sur la survie (2%) reste possible.
Il est videmment hors de question de lancer ce produit sur le march tout de suite. Ceci dit, si
j'tais coinc sur une le dserte et en proie une grave intoxication salmonelle, j'utiliserais
cet antibiotique sans hsiter, et au moins pour deux raisons videntes (i) parce qu'il est large
spectre d'action, (ii) parce qu'il a peut tre un effet trs positif (+48% de taux de survie) et que
dans le pire des cas il ne diminuerait mes chances que de 2%. Comme quoi, on peut voir du
bon mme dans les rsultats les plus douteux.

Rsum du chapitre 1.

1. Quand vous comparerez deux moyennes ou deux proportions (pourcentages) issus
d'une exprience de labo ou d'observations de terrain, vous observerez toujours une
diffrence entre elles.

2. Au moins une partie de cette diffrence (et peut tre mme la totalit !) sera due au
hasard, cause d'un phnomne nomm les fluctuations dchantillonnage. Les
fluctuations d'chantillonnage sont totalement invitables, aucune mthode, prire ni
juron ne pourra les faire disparatre. Les scientifiques passent, les fluctuations
d'chantillonnage restent.

3. Avant de se prcipiter vers la mauvaise conclusion, il est donc indispensable de
calculer la fiabilit de vos moyennes (ou pourcentage) en calculant leur intervalle de
confiance, et ventuellement de calculer la probabilit qu'un cart aussi grand puisse
tre observ simplement sous l'effet du hasard (test statistique).

4. Lusage des statistiques (une branche des mathmatiques accessible tous) est le
seul moyen connu actuellement deffectuer ces vrifications de manire objective, et
selon une procdure reproductible par les personnes qui auront examiner vos
rsultats et vos conclusions.

Voil pourquoi les biologistes ont imprativement besoin de connatre au moins les
bases des statistiques.

2. Prsentez vos donnes
Pour rsumer des donnes, la moyenne arithmtique semble tre un choix naturel.
Mme le pire des cancres sait calculer que les notes 7/20 ; 8/20 et 9/20 donnent une
moyenne de 8/20 en mathmatiques. Oui, la bonne vieille moyenne arithmtique est un
objet familier, et nous la choisissons spontanment pour rsumer une srie de donnes.
Les scientifiques rsument galement leurs donnes de cette manire lorsquils veulent
les prsenter. Cependant, ils veulent que le rsum de leurs donnes chrement acquises
soit le plus fiable possible, cest pourquoi ils nutilisent jamais une moyenne seule.
Voici pourquoi :
2.1 L'le de la tentation
Supposons pour les besoins de la dmonstration que vous soyez un tudiant de 22 ans
rvant de rencontrer lme sur lors de vos prochaines vacances dt. Nous
supposerons de surcrot que le cot du voyage et de lhbergement ne sont pas un
problme (ceci est presque un ouvrage de mathmatiques aprs tout alors autant
liminer tout ralisme et y aller carrment). Supposons cependant que, hlas, toutes les
destinations soient compltes et quil ne vous reste plus que deux possibilits de lieux
de vacances:
Choix 1. La Datcha du Corbeau Mort, une paisible pension de famille dans
la banlieue industrielle de Verkoansk (Sibrie).
Choix 2. Surf Island, une le paradisiaque baigne par des vagues superbes
quelques miles au large de Hawaii.
Rflchissez bien. Oh, avant que joublie, voici une autre information:
Moyenne dge des 252 htes de la Datcha du Corbeau Mort : 64 ans
Moyenne dge des 248 htes de Surf Island : 22 ans
Cest un choix difficile. Mais je suppose que vous tes parvenu vous dcider. Dans
lavion qui vous mne destination, vous dcouvrez linformation suivante, imprime
en tout petits caractres en bas de la brochure distribue par lagence :
Variance de l'ge des htes de la Datcha du Corbeau Mort : 1225 ans

(au carr)
Variance de l'ge des htes de Surf Island : 1209 ans (au carr)
De quoi peut il bien sagir ? Et que reprsentent ces units absurdes (des annes au
carr ?). Nous verrons plus loin comment on calcule une variance, mais pour le moment
il suffit de comprendre que la variance mesure la dispersion des donnes autour de leur
moyenne. Les valeurs ci dessus ne vous disent probablement rien, mais vous apprendrez
bientt reconnatre quelles sont anormalement leves. Elles nous informent du fait
1
que dans les deux lieux de villgiature dont il est question, lge dun hte pris au
hasard sera trs loign de lge moyen des htes. En dautres termes, les ges dans ces
deux lieux ne sont probablement pas trs regroups proximit de la moyenne. Serait il
possible (cela semble peine croyable) que lagence de voyage ne vous ait pas donn
une ide trs fiable de la situation relle ?
Lexplication est la suivante. La Datcha du Corbeau Mort est spcialise dans le
quatrime ge. La quasi totalit des pensionnaires a donc dpass les 90 ans.
Minute ! ferez vous remarquer il est donc impossible dobtenir un ge moyen de
64 ans ! . Vous avez videmment raison. La moyenne de 64 ans est atteinte grce aux
nues dinfirmires (et dinfirmiers) gs dune vingtaine dannes qui soccupent des
pensionnaires. Ce personnel dvou, sympathique, dbordant de jeunesse et d'nergie,
tue le temps comme il peut pendant les deux heures de sieste quotidienne de ses htes
(et pendant les longues soires, car les pensionnaires en question sont au lit vers 20h00).
Vous ne verrez cependant rien de tout ceci puisque ne mentez pas vous avez choisi
daller Hawaii, et votre petit avion-taxi est justement en train datterrir sur le charmant
terrain de terre battue de Surf Island. Vous dcouvrez alors de coquets bungalows et une
foule paisible de couples gs de 40 ans environ, et leurs trs jeunes enfants. Surf Island
est en effet spcialise dans les couples avec jeunes enfants (vous tes la seule
exception) do la moyenne dge de 21 ans. Souriez. Au moins vous allez chapper la
routine extnuante des vacances en bandes-de-jeunes-ftards, et pourrez retourner
luniversit plein de tonus pour tudier les sciences une anne de plus. Et puis, sur Surf
Island, il y a une vritable fortune faire en tant que baby-sitter.
Rappelez vous de vos vacances Surf Island la prochaine fois quon vous rsumera des
donnes en vous donnant seulement une moyenne. Ce rflexe de mfiance deviendra
automatique si vous vous lancez dans une carrire scientifique. Dans la vie de tous les
jours, nous baignons dans ce quun de mes collgues dcrit comme la culture de la
moyenne . En sciences (tout spcialement en biologie, car les phnomnes biologiques
sont si variables) vous rejoindrez la culture de la variance et deviendrez trs
circonspects face aux moyennes toutes nues .
Revenons nos moutons : comment prsenter des donnes de manire synthtique ?
Comme nous venons de le voir, il est crucial de ne pas se fier une moyenne seule, et
de prendre aussi en compte la variabilit des donnes, qui conditionne quel point leur
moyenne est fiable. Il est facile de comprendre que si les donnes sont troitement
groupes autour de la moyenne, celle ci est fiable : elle donne une bonne ide des
donnes. Par exemple, les ongles des mains poussent au rythme approximatif dun demi
millimtre par jour. Il ne sagit que dune moyenne, mais elle est fiable car la plupart
des cas individuels se situent immdiatement aux alentours de ce chiffre (personne na
dongles poussant de un centimtre par jour).
Au contraire, si les donnes sont largement disperses, alors leur moyenne donne une
assez mauvaise ide des donnes. Le cas extrme tant reprsent par leffet Surf Island,
2
dans lequel la plupart des donnes sont trs loignes de la moyenne ! Par exemple, si
on tient compte de toutes les espces, le poids moyen dun mammifre adulte doit se
situer aux environs de 1kg (et mme probablement moins). A lvidence, cette moyenne
ne rsume pas les donnes avec efficacit, car la masse dun mammifre adulte se situe
quelque part entre les 2 grammes de la musaraigne Suncus etruscus et les 150 tonnes de
la baleine bleue Balaenoptera musculus, ce qui laisse tout de mme une belle marge
dincertitude. Il se trouve que parmi les quelques milliers despces de mammifres, il y
a beaucoup despces de petite taille (des rongeurs en particulier), ce qui fait que le
poids moyen dune espce de mammifre est faible. Cette information moyenne ne serait
cependant pas suffisante vous rassurer compltement si, marchant en pleine nuit dans
une fort du Bengale, vous appreniez que "un mammifre" allait bientt vous sauter
dessus et vous mordre la nuque. Comment faire parvenir votre lecteur une information
claire sur la fiabilit de la moyenne que vous lui montrez, sans pour autant le noyer sous
lintgralit de votre jeu de donnes ? En utilisant un paramtre dcrivant avec
concision la dispersion des donnes autour de la moyenne. On peut imaginer plusieurs
possibilit de le faire.
2.2 L'tendue
Jai utilis lune de ces possibilits plus haut, lorsque jai indiqu la plus petite (2
grammes) et la plus grande valeur (150 tonnes) du jeu de donnes. Lcart qui les spare
se nomme ltendue (range, en anglais). Les tendues sont utiles car elles donnent une
premire ide approximative de la situation, et ne ncessitent aucun calcul labor. Leur
principal dfaut est quune tendue repose uniquement sur les deux donnes les plus
extrmes, et reste totalement aveugle tout ce qui se passe entre les deux. Pour
reprendre lexemple des mammifres, si toutes les espces animales pesaient 1kg lge
adulte sauf les musaraignes et les baleines bleues, ltendue des donnes resterait
identique ce quelle est aujourdhui, alors que la dispersion des donnes serait devenue
quasiment nulle. Pour cette raison, les tendues ne sont gure utilises autrement que de
manire descriptive et ne sont pas utilises pour les tests statistiques (elles sont trop
vulnrables linfluence dune seule valeur extrme, en particulier).
Si on nutilise pas ltendue, alors quoi ? Si vous deviez inventer brle-pourpoint un
indice qui rende compte de la dispersion de donnes autour de leur moyenne, vous
mesureriez probablement les carts entre les chacune des donnes et la moyenne. Pour
synthtiser toute cette information, il serait alors naturel de faire tout simplement la
moyenne de ces carts. Une moyenne faible indiquerait sans doute des valeurs groupes
et une moyenne leve des valeurs disperses ? A cette occasion, vous vous apercevriez
cependant que la somme algbrique de ces carts est... nulle (ce qui rappelle au passage
que la moyenne est situe en quelque sorte au barycentre des donnes). Vous
contourneriez videmment cet obstacle en un clin dil, en faisant la moyenne des
3
valeurs absolues des carts. Vous auriez ainsi rinvent la formule de l'cart moyen,
qui est bien le paramtre de dispersion le plus intuitif de tous :
e
moyen
= (|x
1
m|+|x
2
m|+...+|x
n
m|) / n
m moyenne des donnes de l'chantillon
n effectif de l'chantillon
Cette distance moyenne entre un point de donne et la moyenne des donnes utilise la
mme unit que la variable mesure. Dans le cas du Corbeau Mort par exemple, lcart
moyen aurait t denviron 35 ans (un hte choisi au hasard aurait en moyenne eu 35
ans de plus ou de moins que la moyenne dge, qui tait de 56 ans). Une indication
claire que beaucoup dhtes taient soit trs gs (56 + 35 = 91 ans) soit de jeunes
adultes (56 35 = 21 ans). Il est fort dommage que l'cart moyen n'ait pas d'application
statistique, car il a la mme unit que la moyenne (il sera exprim en kg si la moyenne
est en kg) et cette caractristique (en plus de son calcul trs simple) le rend
immdiatement comprhensible. Il n'en va pas de mme d'un autre paramtre de
dispersion moins vident a-priori mais bien plus utilis : la trs redoute variance.
2.3 La variance
La pauvre variance ne mrite vraiment pas sa rputation. Regardez sa formule :
2
= [(x
1
m)
2
+(x
2
m)
2
+...+ (x
n
m)
2
] / n
m moyenne des donnes de l'chantillon
n effectif de l'chantillon
Maintenant, comparez-l la formule de lcart moyen. Cest
quasiment la mme ! (pourquoi croyez vous donc que jai consacr du temps vous
prsenter lcart moyen ?). Dans le cas de la variance, le problme du signe des carts
la moyenne a t limin en levant ces carts au carr (donc le signe est
systmatiquement positif, plus besoin de traner des valeurs absolues). Dans le cas du
Corbeau Mort, on a donc une variance de l'ordre de (35 ans)
2
= 1225 annes au carr,
ce qui explique la fois le nombre lev et l'unit bizarre vue plus haut.
Ce traitement (la mise au carr juste pour se dbarrasser des signes ngatifs) semble un
peu excessif pour une question si banale, mais il sert en ralit faire apparatre des
proprits mathmatiques et gomtriques intressantes pour la suite des vnements
(traduire : la variance permet deffectuer des tests statistiques, pas lcart-moyen).
Pour finir, regardez nouveau la formule de la variance, en notant "CE" le carr de
l'cart entre une donne x et la moyenne m des donnes, la variance est gale :
(CE
1
+ CE
2
+ ...+ CE
n
) / n
Il semble que... mais oui, ma parole, la variance n'est rien d'autre qu'une banale...
moyenne arithmtique ! Cest la moyenne des (carrs des) carts sparant chacune des
donnes x
1
, x
2
(etc.) de leur moyenne m. Vous le voyez, rien de mystrieux l dedans,
4
rien de nouveau, juste une bonne vieille moyenne arithmtique mesurant la dispersion
des donnes. Franchement, la variance mrite t-elle vraiment dinspirer la terreur ?
Notez que pour des raisons expliques en Annexe 1, l'estimation s
2
(base sur un
chantillon) de la variance relle
2
(inconnue) d'une population utilise (n 1) et non
pas n au dnominateur. Vous utiliserez dont en pratique la formule suivante :
s
2
= [(x
1
m)
2
+ (x
2
m)
2
+...+ (x
n
m)
2
] / (n 1)
La variance souffre dun dfaut ingrat : son unit ne parle absolument pas. En effet,
la variance a la dimension dun carr par rapport lunit de la variable mesure. Par
exemple, si vous mesurez la masse de vos individus en grammes, la variance aura la
dimension g
2
(grammes au carr), ce qui nvoque pas grand chose pour un cerveau
humain normal. Pour faire face cet aspect un peu droutant de la variance on fait alors
appel a un paramtre de dispersion plus parlant , qui est lcart type (ne pas
confondre avec lcart moyen).
2.4 Lcart type
Cest simplement s, c'est dire la racine carre de la variance s
2
(ce qui permet de
retomber sur ses pieds en terme de dimensions). Lcart type sera ainsi exprim dans la
mme unit que la variable mesure (des kg, des annes etc.) ce qui est quand mme
plus confortable et facile interprter puisqu'on retrouve ( la racine de n prs) la notion
de l'cart moyen. Vous pouvez donc grosso modo considrer lcart type comme
lcart qu'on observera en moyenne entre une donne prise au hasard dans votre
chantillon (et, par extension, dans la population) et la moyenne des donnes. Lcart
type est donc un paramtre bien plus parlant que la variance.
2.5 Ecart type de la moyenne : lerreur standard
La racine carre de la variance permet de calculer lcart-type des donnes autour de
leur moyenne. Cependant, la synthse ultime de vos donnes consiste montrer vos
lecteurs lcart-type de la moyenne elle mme. Cet cart type reoit un nom spcial (qui
pemet de ne pas le confondre avec lcart type des donnes) et devient lerreur standard
de la moyenne (abrviation : e.s. en Franais et s.e. en Anglais). Si on appelle s
2
la
variance des donnes de la population, alors lerreur standard de la moyenne m obtenue
partir dun chantillon de n individus est :
erreur standard = racine(s
2
/n)
Daprs mon exprience, il est trs difficile de comprendre premire vue comment la
moyenne d'un chantillon (valeur unique, il y a videmment une seule moyenne par
chantillon) peut avoir un cart-type, puisque cette notion est base sur la moyenne de
plusieurs cart, (sans parler de la question existentielle un cart par rapport
quoi ? ). En consquence, beaucoup dtudiants confondent lerreur standard (cart-
type de la moyenne) avec lcart-type des donnes (dfini plus haut). Je comprend tout
fait leurs doutes, car cette notion nest pas intuitive. Aussi, lAnnexe 3 Lerreur
standard pour les dbutants a t rdig tout spcialement leur intention. Elle
5
traite de ce problme lentement et pas--pas. Nhsitez pas en faire usage, ou bien
faites moi une confiance aveugle pour linstant et continuez votre lecture tout de suite.
les erreurs standards sont trs importantes en sciences. Ce sont en effet les valeurs
reprsentes par les barres derreur que vous trouverez sur quasiment tous les
graphiques scientifiques professionnels. En voici un exemple.
Figure 2.1. Densit (individus/m2) d'une population de Littorina littorea sur l'estran
rocheux de Penvins (Morbihan) le long d'un transect en fonction des niveaux cotidaux.
Supra : supra littoral. Mdio : mdio littoral, Infra : intra littoral. Barres : erreur standard.
N = 528 individus.
Ce type de reprsentation donne vos lecteurs une ide du crdit que lon peut apporter
la prcision des moyennes prsentes sur le graphe. Plus la variance des donnes est
importante, plus lerreur standard (barre derreur du graphe) est grande, et moins la
moyenne prsente est fiable. D'aprs la figure ci-dessus par exemple, il serait
particulirement ridicule de prtendre qu'il existe une diffrence de densit entre le
mdiolittoral infrieur et le mdiolittoral suprieur.
2.6 Ecart-type dun pourcentage : une autre sorte derreur standard
Les pourcentages aussi ont leur cart-type. Son calcul est simple puisquil ne ncessite
que le pourcentage lui mme et leffectif sur lequel il est calcul :
erreur standard = racine (pq/n 1)
Comme dans le cas de la moyenne, il est a priori difficile de comprendre comment un
pourcentage (qui est unique) peut prsenter un cart-type, qui est bas sur la moyenne de
plusieurs mesures dcart (de plus on se pose encore une fois la question : "cart par
rapport quoi ?"). Vous avez parfaitement raison de vous poser ces questions, et vous
trouverez leur rponse dtaille dans lAnnexe 3 Lerreur standard pour les
dbutants .
Quoi quil en soit, vous pouvez ds maintenant calculer lerreur standard de nimporte
quel pourcentage, et vous en servir pour reprsenter les barres derreur sur vos
graphiques. Comme dans le cas des moyennes, vous pouvez choisir de reprsenter vos
6
0
10
20
30
40
50
60
supra mdio sup mdio inf infra
pourcentagess dans des tableaux ou directement dans le texte. Vous le ferez alors en
utilisant le format pourcentage s.e.. Par exemple, si le pourcentage en question est
de 10% avec une erreur standard de 2% vous crirez 10 2% ou bien 10% 2% .
Nous verrons plus tard (chapitre 6) que l'erreur standard, mme si elle a l'avantage d'tre
universellement utilisable et de dissiper l'illusion d'une valeur ponctuelle parfaite, donne
encore une impression trompeuse de prcision par rapport la ralit. En effet, la zone
(nomme intervalle de confiance), dans laquelle se trouve "presque certainement" la
vritable valeur du paramtre moyen (de la population tudie) est la plupart du temps
environ deux fois plus large que l'erreur standard.
Exemple 2.1 : Valeurs de lchantillon : 1, 2, 3, 6.
Effectif : n = 4
Moyenne : m = 3
somme des carrs des carts la moyenne (SCE) :
(1 3)
2
+ (2 3)
2
+ (3 3)
2
+ (6 3)
2
= 14
Variance de lchantillon : SCE/n = 14/4 = 3,5 (sans intrt pour nous)
Ecart type de lchantillon : 3,5 = 1,871 (sans intrt pour nous)
Variance estime de la population : s
2
= SCE/(n 1) = 14/3 = 4,667
Ecart type estim de la population : s = 4,667 = 2,160
Erreur standard de la moyenne : e.s. = (s
2
/n) = (4,667/4) = 1,08
On peut donc crire dans un tableau : m = 3 1,08
Exemple 2 : frquence observe de p = 0,20 sur 50 individus :
e.s. = [pq/(n - 1)] = (0,20 0,8/49) = 0,057
On peut crire dans un tableau : p = 0,20 0,057 (ou 20 5,7%)
Fonctions utiliser dans le tableur Excel . on suppose dans cet exemple que les 20
donnes de lchantillon sont ranges dans les cases C1 C20)
Paramtre calculer Ecrire dans la cellule du tableur
m = Moyenne des donnes de lchantillon (c'est la
meilleure estimation de la moyenne du caractre
tudi chez des individus de la population
=MOYENNE(C1:C20)
Ecart moyen =ECART.MOYEN(C1 :C20)
s
2
= estimation de la Variance du caractre tudi
chez des individus de la population
=VAR(C1:C20)
s = estimation de lEcart type du caractre tudi
chez des individus de la population
=RACINE(VAR(C1:C20))
il existe une formule plus directe mais celle ci vous
oblige retenir ce quest lcart-type
(s
2
/n) =Erreur standard de la moyenne =RACINE(VAR(C1:C20)/20)
on divise ici par 20 car n = 20 donnes
7
Rsum du chapitre 2.
Les moyennes ne donnent aucune information sur la dispersion des donnes. Cest
pourquoi elles doivent tre compltes par une valeur rendant compte de cette
dispersion, qui conditionne la fiabilit de la moyenne. Cette valeur est base sur le
calcul de la variance. La variance dune srie de donnes est la moyenne du (carr des)
carts sparant les donnes de leur moyenne, et elle est note s
2
. La racine carre de la
variance est lcart type. Lcart type dune moyenne est nomm erreur standard (voir
Annexe 3) et abrg e.s. . Cest la valeur reprsente par les barres derreur des
graphiques scientifiques. Dans les tableaux, ou dans le corps du texte, une moyenne sera
toujours accompagne de son erreur standard, sous la forme moyenne erreur
standard. Les pourcentages ne donnent pas non plus la moindre ide de leur degr de
fiabilit, car un pourcentage ne vaut que par leffectif sur lequel il est calcul. Il est donc
impratif den tenir compte. Dans le cas dun pourcentage p calcul sur n donnes, la
variance est p(1p)/(n 1) (voir Annexe 3). La racine carre de cette variance est lcart
type du pourcentage. Il sagit encore dune erreur standard, qui est utilise pour
construire les barres derreur sur les graphiques scientifiques reprsentant des
pourcentages. Dans les tableaux, ou dans le corps du texte, un pourcentage sera toujours
accompagn de son erreur standard, sous la forme pourcentage erreur standard.
L'erreur standard peut toujours tre calcule facilement (c'est son avantage). Son
inconvnient pour les observateurs non avertis est qu'elle donne encore une impression
trompeuse : les intervalles de confiance (cf chapitre 6) sont environ deux fois plus larges
que l'erreur standard en gnral.
8
3. Observons quelques variables alatoires sauvages
3.1 dfinition d'une variable alatoire
La dfinition d'une variable alatoire dans un manuel d'introduction aux statistiques
s'effectue traditionnellement en trois tapes hautement ritualises. Dans la premire
tape, une dfinition mathmatique rigoureuse est donne. Comme cette dfinition est
videmment incomprhensible (sauf pour un mathmaticien), une seconde tape est
consacre des exemples trs simples cherchant illustrer cette dfinition
incomprhensible. Ces exemples sont eux mme immuables et dbutent toujours par
l'une des deux options suivantes (1) la pice de monnaie, (2) le d six faces. On passe
enfin une troisime tape, dans laquelle on prsente des exemples scientifiques
ralistes. Comme le prsent ouvrage est rdig par un ancien lve polytraumatis par
les mathmatiques, je vais me contenter de dfinir trs vaguement une variable alatoire
comme "quelque chose dont il est impossible de connatre le rsultat l'avance". De
plus, j'mettrai l'hypothse selon laquelle vous savez dj qu'une pice de monnaie bien
quilibre a une chance sur deux de tomber sur pile, et qu'un d (a six faces) non pip
une chance sur six de donner le chiffre que vous avez choisi l'avance. Nous pouvons
donc passer directement la troisime tape.
En gros, les variables alatoires manipules en sciences appartiennent l'une des
catgories suivantes :
Toute grandeur physique qui peut tre mesure (mensurations et poids d'un organe ou
d'un individu, rendement d'une culture, densit d'un matriau, rsistance la flexion,
temprature, intensit lumineuse ou d'un champ magntique...)
Tout ce qui peut tre chronomtr (dure de dveloppement, longvit, temps de
raction aprs un stimulus, temps ncessaire pour accomplir une tche...)
Tout ce qui peut tre compt (nombre de ptales d'une fleur, nombre de bigorneaux
dans un cerceau lanc au hasard, nombre de petits dans une porte...)
Toute proportion (=pourcentage) rsultant d'un comptage d'individus (proportion
de gauchers, de mles, de juvniles, de malades, de survivants un traitement toxique).
ce type de proportion rsulte du comptage de n individus d'un type donn parmi un
grand ensemble de N d'individus). Cette sorte de proportion est fondamentalement
diffrente des proportions dcoulant d'une mesure physique. Par exemple la proportion
d'alcool ("degr d'alcool") dans un breuvage, ou le "pourcentage de protines" d'un
aliment sont estims grce une mesure physico-chimique, et non grce un comptage
d'units individuelles. Ce second type de "proportion" peut donc tre assimil une
mesure physique (voir le premier type de variable alatoire)
Tout critre qualitatif qui permet de hirarchiser les individus (exemple : "grand,
moyen, petit", " excellent, trs bon, bon, moyen, mdiocre, mauvais... ", "bon tat, tat
moyen, mauvais tat, entirement dtruit", "A, B, C, D, E"
1
Je dois sans doute en oublier, mais ces catgories permettent de ranger dj pas mal de
choses.
3.2 examen de quelques variables alatoires
Une variable alatoire peut tre synthtise par sa moyenne et sa variance, en tout cas
lorsqu'elle est numrique, mais ces indicateurs synthtiques ne remplacent pas les
donnes elles mmes. L'idal est d'observer la manire dont se rpartissent les valeurs
des diffrents individus de la population tudie ou, dfaut, comment se rpartissent
les valeurs obtenues dans l'chantillon sur lequel on travaille. Cette rpartition est
appele distribution de la variable alatoire.
3.2.1 l'ge des htes de Datcha du Corbeau Mort et de Surf Island
Voici par exemple (figures 3.1 et 3.2) la distribution des ges des htes de la Datcha
du Corbeau Mort ou vous auriez pu passer vos vacances, et la distribution de l'ge des
insulaires de Surf Island, ou vous avez finalement choisi de passer vos vacances (en
fondant malheureusement votre dcision sur une simple moyenne, une erreur que vous
ne commettrez jamais plus).
Figure 3.1. Distribution des ges des htes de la Datcha du Corbeau Mort
Figure 3.2. Distribution des ges des htes de Surf Island
Au vu de ces figures, la rpartition trs particulire des ges au sein de ces deux sites
nous saute littralement aux yeux. Techniquement parlant, ces distributions sont
bimodales (c'est dire qu'elles prsentent chacune deux pics, ou modes). On peut mme
2
0
5
10
15
20
25
30
35
18 23 28 33 38 43 48 53 58 63 68 73 78 83 88 93 98
Jeunes infirmiers
et infirmires
htes nonagnaires
moyenne = 64 ans
0
10
20
30
40
50
60
1 6 11 16 21 26 31 36
enfants
parents
vous tes
ICI
ge moyen
22 ans
difficilement faire plus bimodal que a, puisque les pics en question sont carrment
spars par un vaste no data's land. D'une manire gnrale, une distribution bimodale
attire notre attention sur le fait qu'il y a probablement deux sous-populations diffrentes
(en ce qui concerne le caractre mesur ici, l'ge) au sein de la population dans
laquelle nous avons chantillonn. Dans le cas de la Datcha du Corbeau Mort, les jeunes
infirmiers/infirmires constituent une sous-population clairement distincte de la sous-
population constitue par les pensionnaires trs gs de l'institution. Vous noterez que la
moyenne d'ge (64 ans) est dans ce cas particulirement peu informative : aucun des
individus chantillonn ne s'en approche, mme de loin...
Dans le cas de Surf Island galement, la rpartition des ges est bimodale jusqu' la
caricature. Cette fois, l'une des sous-population est constitue des enfants, l'autre des
parents. On remarque toutefois une donne trs particulire qui semble trangre l'une
et l'autre des sous-populations. Il s'agit naturellement de vous-mmes (si vous tes un
(e) tudiant(e) de 22 ans, comme je l'ai suppos titre d'exemple).
3.2.2 la taille dans l'espce humaine
Un exemple extrmement classique (et plus srieux) de distribution bimodale est la
distribution des tailles des adultes dans l'espce humaine. Parce que les femmes ont en
moyenne une taille infrieure celle des hommes, la distribution des tailles adultes, tous
sexes confondus, doit tre bimodale (un pic aux alentours de la moyenne des tailles des
femmes, un pic aux alentours de la moyenne des tailles des hommes). Cet exemple est
souvent employ dans les manuels d'introduction aux statistiques pour introduire la
notion de bimodalit, et je l'ai moi mme utilis pendant des annes avec bonheur, car il
est trs pdagogique et son bon sens saute aux yeux. Le seul problme est qu'il est faux.
J'aurais pourtant d m'en mfier, selon le dicton anonyme bien connu : "Si une chose a
t rpte souvent, partout, et toutes les poques, alors il s'agit probablement d'une
erreur". En effet, la distribution (=rpartition) des tailles adultes dans l'espce humaine
n'est pas bimodale, comme l'ont dmontr rcemment trois chercheurs iconoclastes
(Schilling et al. 2002)
1
qui ont tout simplement pris la peine d'examiner suffisamment
de donnes. Il ressort de leur tude qu'un mlange de deux distributions normales
2
ne
peut apparatre bimodale que si l'cart |m
1
m
2
| entre les moyennes (qui sont ici aussi les
modes) de chaque distribution dpasse nettement la somme (s
1
+ s
2
) des carts-types des
deux distributions
3
. Donc, on aura bimodalit seulement si
|m
1
m
2
| > (s
1
+ s
2
)
Or, lorsqu'on dispose de suffisamment de donnes, on constate que cette condition
n'est pas remplie dans l'espce humaine, et on ne peut donc voir qu'un seul pic. Encore
un mythe qui s'croule.
Comment tant de gens ont ils pu se faire abuser ? C'est encore la faute des
fluctuations d'chantillonnage. En effet, avec un chantillon suffisamment petit, les
fluctuations d'chantillonnage peuvent facilement faire apparatre deux pics, donnant
crdit la (fausse) notion selon laquelle la distribution des tailles dans la population
1
Schilling MF, Watkins AE & W Watkins, 2002. Is human height bimodal ? The American Statistitian 56:223-229.
2
on reviendra sur cette notion
3
En fait c'est un peu plus compliqu (a vous tonne ?). Il faut prendre en compte les proportions relatives de garons et de filles
dans l'chantillon, et le ratio entre les carts-types de chacune des distributions. Passons sur ces dtails (les curieux iront lire l'article
de Schilling et al. 2002).
3
adulte humaine est bimodale. Voyons ce qu'il en est avec les donnes dont je dispose,
qui m'ont t gracieusement transmises sur la base d'un questionnaire rempli par les
tudiants de matrise au cours des quelques annes pendant lesquelles j'ai eu le plaisir de
leur dispenser la bonne parole statistique. Nous retrouverons ces donnes un peu partout
dans cet ouvrage. Les figures 3.3 et 3.4 correspondent respectivement aux tailles auto-
dclares de ces tudiantes et tudiants gs de 22 ans environ, (donc ayant
normalement termin leur croissance).

Figure 3.3. tailles auto-dclares de 303 tudiants de matrise (garons) On observe
des "effets de seuils" nets, avec une frquence anormalement leve de dclarations
pour certaines tailles.
Figure 3.4. tailles auto-dclares de 305 tudiantes de matrise. On observe des
"effets de seuils" nets, avec une frquence anormalement leves de dclarations pour
certaines tailles.
Plusieurs choses sautent aux yeux. La premire est que ces tudiants trichent. Il est en
effet compltement anormal d'avoir tant de filles dclarant mesurer exactement 1m60
alors que presque aucune ne dclare mesurer 1m59, de mme le nombre de garons
mesurant soi-disant 1m80 est stupfiant quand on considre que aucun ou presque ne
dclare mesurer 1m79. L'accusation de tricherie est bien entendu un peu forte. Disons
que certains connaissent leur taille approximativement, et ont tendance donner un
chiffre "rond". On constate le mme phnomne dans les tudes anglo-saxonnes
(Schilling et al. 2002), avec une abondance suspecte de garons dclarant mesurer
exactement six pieds (environ 1m82). Si l'on fait abstraction de ces artefacts, on constate
que dans chaque sexe les tailles se rpartissent peu prs harmonieusement de part et
d'autre de la moyenne, qui est (en arrondissant au cm) de 1m66 chez les filles et 1m78
chez les garons. L'cart entre ces deux moyennes est donc de 12cm. Si on combine ces
4
0
10
20
30
40
50
60
164 166 168 170 172 174 176 178 180 182 184 186 188 190 192 194 196
taille (cm)
e
f
f
e
c
t
i
f
0
5
10
15
20
25
30
35
40
45
50
150 152 154 156 158 160 162 164 166 168 170 172 174 176 178 180 182
Taille (cm)
e
f
f
e
c
t
i
f
deux figures, on obtient la distribution des tailles tous sexes confondus (figure 3.5), qui
fait apparatre... damned ! Une distribution bimodale ! (videmment, il faut les yeux de
la foi pour reprer de la bimodalit dans ce fouillis, mais il est tout de mme difficile
d'ignorer l'norme pic 1m70 et le non moins norme pic 1m80)
Figure 3.5. tailles auto-dclares de 608 tudiants MBPE (303 garons et 305 filles).
On observe des "effets de seuils" nets (voir figures 3.1 et 3.2). ,
Vrifions le critre de Schilling. Les carts-types sont ici de s
1
=6,1cm chez les garons
et s
2
=5,8cm chez les filles, d'ou (s
1
+ s
2
) = 11,9cm. Or, l'cart entre les moyennes des
deux distributions originelles (178 166 = 12cm) est de justesse plus grand, ce qui
suffit effectivement faire apparatre une bimodalit. Alors, Schilling et ses
collaborateurs racontent ils n'importe quoi en prtendant que la taille des humains n'est
pas bimodale ? Bien sr que non. Nous sommes simplement le jeu des fluctuations
d'chantillonnage. En effet, nos chantillons sont de taille trs modeste compars
l'enqute d'envergure nationale sur laquelle s'appuient Schilling et al.. Nos estimations
de s
1
, s
2
, m
1
et m
2
sont seulement approximatives. Cette fois ci nous voyons apparatre
de la bimodalit, mais si j'avais utilis deux autres petits chantillons d'tudiants de
matrise peut tre aurions nous obtenu une courbe unimodale. Comme je sens que vous
tes dubitatifs (aprs tout, on voit bien les deux pics dans les donnes !), essayons
d'avoir une ide de la prcision de nos estimations en examinant les intervalles de
confiance 95% des paramtres estims :
IC
95%
de m
1
(en cm): [177,7 179,1]
IC
95%
de m
2
(en cm): [165,6 166,8]
En simplifiant (le calcul correct est malheureusement plus compliqu), l'cart rel entre
m
1
et m
2
pourrait tre en ralit aussi petit que 177,7 166,8 = 10,9 cm mais il pourrait
tre galement aussi grand que 179,1165,6 = 13,5 cm. En clair, nous ne connaissons
pas du tout la diffrence de taille moyenne entre les garons et les filles au dixime de
centimtre prs, comme on pouvait le penser, mais avec une incertitude de plusieurs
centimtres. Notre capacit affirmer avec force si |m
1
m
2
| > (s
1
+ s
2
) ou pas est
srieusement compromise.
3.2.3 la longueur des graines d'rable
La taille des individus (ou des organes) est souvent distribue selon une courbe
unimodale bien particulire appele "loi Normale", dans laquelle les donnes sont
5
0
10
20
30
40
50
60
70
80
150 153 156 159 162 165 168 171 174 177 180 183 186 189 192 195
Taille (cm)
E
f
f
e
c
t
i
f
rparties symtriquement de part et d'autre de la moyenne selon une courbe en cloche
bien connue, la moyenne tant elle mme le mode (la valeur la plus frquemment
observe). Ce fait est tellement habituel qu'on tendance faire cette hypothse de
"normalit" automatiquement chaque fois qu'on manipule une donne biomtrique, et on
a souvent raison. Mais pas toujours. La figure 3.6 vous prsente par exemple la
distribution des tailles de 204 graines ailes d'Erable (ces graines qui tombent comme
des hlicoptres), mesures par mes soins au mm prs avec un simple double dcimtre.
Figure 3.6. Distribution des tailles (mm) de 204 samares d'rable (Acer sp.). Il est clair
que la distribution ne suit pas la loi normale.

Lorsque j'ai commenc mesurer ces graines, je comptais en fait utiliser cet exemple
pour illustrer une distribution normale, mais comme d'habitude la ralit biologique a
t plus subtile que je l'anticipais. On constate en effet que la distribution n'est pas du
tout normale (au sens statistique), c'est dire qu'on a pas une courbe en cloche
symtrique
4
. Cette distribution n'est pas normale pour au moins deux raisons, dont la
premire est triviale (je m'en suis aperu trs rapidement lors de la mesure des graines),
alors que l'autre m'a pris compltement par surprise lorsque j'ai regard le graphe. La
premire raison pour laquelle cette distribution n'est pas normale est que certaines
graines avaient manifestement subi un gros problme de dveloppement, et restaient
rabougries (au point qu'on pouvait se demander si elles taient viables). Il s'agit du
groupe de valeurs entre 20 et 33 mm de long environ. Cependant, si jamais on limine
arbitrairement ces graines de la distribution, on ne rtablit pas la normalit de la
distribution pour autant. En effet, sur la droite de la distribution vous constatez un
deuxime phnomne spectaculaire : les effectifs s'effondrent brutalement lorsqu'on
dpasse 46 mm de long, alors qu'ils sont encore levs juste en de de cette valeur. Une
vritable distribution normale aurait vu une dcrue franche certes, mais progressive, ce
"coup de hache" est beaucoup trop brutal pour tre honnte. Je ne prtend pas avoir
l'explication, mais je souponne fortement une contrainte au del d'une certaine taille
limite de la graine. Je sais en particulier (pour l'avoir lu dans des articles sur le vol) que
la forme et la taille de ces graines volantes sont extrmement optimises. Je ne serais
donc pas surpris de l'existence d'une taille ne surtout pas dpasser. S'il y a des
botanistes parmi vous, qu'ils se manifestent. Quoi qu'il en soit, j'ai quand mme voulu
utiliser cette petite msaventure, car elle illustre bien l'intrt de regarder la distribution
des donnes pour vrifier si elles se conforment raisonnablement l'hypothse de
dpart, avant de se lancer bille en tte dans des calculs.
4
et obissant une quation bien prcise, sa majest la Loi Normale n'est tout de mme pas n'importe quelle courbe en cloche
symtrique
6
0
5
10
15
20
25
30
21 23 25 27 29 31 33' 35 37 39 41 43 45 47 49
Taille de la graine aile (mm)
E
f
f
e
c
t
i
f
moyenne
39,4mm
anormalit 2
anormalit 1
3.2.4 Temps de dveloppement de Drosophila simulans
Cela va peut tre constituer un choc pour certains d'entre vous, mais il y a plusieurs
dizaines d'espces de drosophiles en dehors de la clbre mouche du vinaigre
Drosophila melanogaster. Parmi elles se trouve D. simulans, qui est d'ailleurs l'espce
jumelle de D. melanogaster, et c'est elle que je dois ma thse. La figure 3.7 illustre un
des plus hauts faits d'armes de mon anne de DEA sur le riant campus de Jussieu
(Universit Pierre et Marie Curie) vers la fin du sicle dernier.
Figure 3.7. Distribution des temps de dveloppement de l'oeuf l'adulte chez
Drosophila simulans (N = 403 individus).
J'ai choisi ce jeux de donnes parce qu'il se comporte (enfin !) peu prs selon une
distribution "normalode", et aussi pour pouvoir taler mes prouesses nocturnes
5
. Cette
exprience hroque consistait mesurer le temps de dveloppement de diffrentes
souches de D. simulans selon qu'elle tait infeste ou pas par certaines bactries
symbiotiques
6
. D'aprs ce que j'avais lu dans la littrature, les mesures de temps de
dveloppement chez la drosophiles se faisaient en routine avec un relev toutes les 12
heures pendant la priode d'mergence (qui dure environ 48 heures 25C). Comme il
me fallait deux bonnes heures entre l'aller retour domicile/labo et le comptage des
mergents, c'tait tout ce qu'il me fallait. Mais vous ne connaissez pas mon (adorable)
directeur de thse, et je me retrouvais donc finalement faire des relevs toutes les 6
heures (24h sur 24, bien entendu) pendant cette fameuse priode de 48 heures. Je peux
donc tmoigner du fait que Jussieu vers trois heures du matin est encore plus sinistre
qu'en plein jour
7
. Rsultat des courses : tout a pour rien puisque je me suis aperu que
la bactrie en question ne modifiait pas du tout le temps de dveloppement (ou alors de
manire infime et sans intrt). Heureusement pour moi, ce rsultat "ngatif" tait
intressant en lui mme, puisqu'on s'attendait plutt au contraire.
Bref, le principal est que la distribution des temps de dveloppements est peu prs
symtrique autour de sa moyenne, avec une forme de courbe en cloche trs acceptable.
Nous avons enfin mis la main sur une variable qui se comporte (grosso-modo) en
suivant une loi normale. Une petite remarque au passage concernant la prcision
obtenue. L'incertitude de six heures sur la mesure peut sembler trs mdiocre (une
5
en tout bien tout honneur scientifique, naturellement.
6
Pour les curieux, il s'agit de la bactrie Wolbachia..
7
Et vous ai-je racont la fois ou le chien des vigiles du campus m'a attaqu ? Ah... c'tait le bon temps.
7
0
20
40
60
80
100
120
140
160
223 229 235 241 247 253 259
Temps moyen estim depuis la ponte (heures)
E
f
f
e
c
t
i
f
Moyenne :
238,7 heures
mouche compte au temps t pu merger jusqu' 6 heures plus tt), mais elle reprsente
seulement environ 2,5% du temps de dveloppement. Par ailleurs, voyez vous-mmes
l'intervalle de confiance ( 95%) de la moyenne : [238,3239,1 heures]. Autrement dit
(grce aux centaines d'individus), la prcision sur l'estimation de la moyenne est de
moins d'une heure !
3.2.5 Les graines de monnaie-du-pape
La monnaie du pape est ce vgtal bien connu formant des siliques plates et translucides
en forme de pice de monnaie et qui ne semble exister que comme fleur sche. C'est
pourtant une plante comme vous et moi, la preuve, il y en a dans mon jardinet. C'est tout
ce qu'il fallait pour me fournir facilement un exemple de plus. La monnaie du pape
comporte thoriquement six graines par siliques. En ralit, bien entendu, il n'en est
rien. Si on limine du comptage les graines avortes toutes ratatines et qui ne
donneront jamais rien, le nombre de vritables graines dans une silique de monnaie du
pape peut tre n'importe quel nombre entier entre zro et six. Voire plus. La figure 3.8
prsente la situation partir d'un chantillon de 210 siliques.

Figure 3.8. Distribution du nombre de graines dans une silique de de monnaie-du-pape
(N = 210 siliques examines).
Premier coup d'oeil la distribution : elle est nettement dissymtrique, en particulier
cause des valeurs relativement lev dans la partie gauche. Ca n'a rien de surprenant : on
savait l'avance que cette distribution tait borne de manire rigide droite (il ne peut
thoriquement y avoir plus de 6 graines), et on s'attendait donc bien observer une
"queue de distribution" tranant sur la gauche. On constate au vu de ces rsultats quel
point il peut tre difficile en conditions naturelles de former le nombre de graines prvu
par le manuel. Dans cet chantillon en tout cas, seules 14% des siliques sont parvenues
mener maturit le nombre thorique de 6 graines, et une bonne moiti des siliques ne
parviennent pas former plus de trois graines dignes de ce nom. On remarque aussi que
deux super-siliques ont russi aller l ou la thorie ne les attend pas, en formant 7
graines
8
. Les proportions cites ici ne sont videmment pas prendre au pied de la
lettre, vu la taille modique de l'chantillon, elles ne reprsentent que des estimations
vagues. Que pouvons nous dire sur la moyenne (qui est de 3,7 graines par silique) ?. En
premier lieu, bien sur, on peut dire qu'elle recouvre une ralit bien plus complexe.
Cependant, en tant que moyenne, elle reprsente un paramtre pratique utiliser. Quelle
8
ce qui me rappelle le fameux : "Ces imbciles ne savaient pas que c'tait impossible, alors ils l'ont fait"
8
0
5
10
15
20
25
30
35
40
45
50
0 1 2 3 4 5 6 7
Nombre de graines viables dans une silique
E
f
f
e
c
t
i
f
moyenne = 3,7 graines
est notre prcision dans l'estimation de cette moyenne dans la population dont son issues
ces monnaies du pape ? Son intervalle de confiance ( 95%) est [3,43,9 graines], donc
une prcision d'une demi graine. Pas si mal.
3.2.6 Les ptales des matricaires
Les matricaires, (Matricaria sp.) sortes de "marguerites" sauvages, sont
traditionnellement effeuilles
9
par les amoureux pour chanter la fameuse comptine "il
m'aime, un peu, beaucoup etc..."., Mais combien y a t-il de ptales sur une fleur de
matricaire ? La question est d'importance, puisque si on connat le mode de la
distribution, il est possible de commencer la comptine de manire maximiser ses
chances de tomber sur " la folie". Allons nous rester les bras ballants face un thme
de recherche aussi stratgique ? J'ai donc men une rapide enqute. Trop rapide,
d'ailleurs, on va y revenir. Allons nous trouver une belle loi normale ? La figure 3.9
vous dit tout.
Figure 3.9. Distribution du nombre de ptales chez les fleurs de matricaires (Matricaria
sp. (N = 139 fleurs examines). La courbe est bimodale, et donc la moyenne ne veut
pas dire grand chose
Caramba ! Encore rat ! Je vous avoue que j'anticipais une belle courbe en cloche qui
aurait illustr une loi normale approximative avec des nombres entiers
10
. Nous tombons
encore une fois sur une distribution bimodale de la plus belle eau, et je suis prt parier
que sur le bord de la route de Rennes Acign il pousse au moins deux espces de
matricaires, l'une ( vue de nez, la plus frquente) avec des fleurs une vingtaine de
ptales, et l'autre avec des fleurs avec une trentaine de ptales. Quoi qu'il en soit, les
amoureux anglo-saxons qui utilisent la comptine trs rudimentaire mais directe: "she/he
likes meshe/he likes me not" ont tout intrt effectivement commencer par "she/he-
likes me", puisque les deux modes observs dans la distribution (21 et 33)
correspondent des chiffres impairs. Je laisse le soin aux francophones de dterminer la
stratgie gagnante avec la comptine bien de chez nous si jamais vous effeuillez une fleur
de matricaire. Que dire de la moyenne observe dans ces conditions ? Qu'elle ne veut
pas dire grand chose. Nous sommes dans une situation assez "Surf Islandesque", et
d'ailleurs la variance leve (26,3 ptales au carr) le montre bien. L'intervalle de
confiance de la moyenne est thoriquement [23,425,1], mais je m'empresse d'ajouter
que s'il y a rellement (comme je le souponne) deux espces diffrentes sous cette
distribution bimodale, calculer cette moyenne et son intervalle de confiance n'a
9
avec les paquerettes, frquentes sur les pelouses alors que les matricaires affectionnent les talus.
10
la loi normale s'applique aux variables dites continues, c'est dire qu'on peut dcouper l'infini en tranches plus petites qu'une
unit ex: 0,845124 grammes.
9
0
5
10
15
20
25
30
13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
nombre de ptales de la fleur
e
f
f
e
c
t
i
f
mode 1
mode 2
(une autre espce ?)
moyenne
24,2 ptales
absolument aucun sens. Tout va fluctuer en effet en fonction des proportions relatives
de l'espce 1 et de l'espce 2 qui auront t chantillonnes. Un travail plus srieux
serait l'vidence de retourner sur le terrain avec une flore sous le bras, d'identifier
clairement les espces en prsence, et d'tudier la distribution des nombre de ptales
espce par espce : avis aux amateurs, je reste l'coute.
3.2.7 un nombre choisi au hasard
Chaque anne, je demande aux tudiants de matrise d'crire sur un papier un nombre
entier choisi au hasard entre zro et 10 (inclus), pour les convaincre que le cerveau
humain est strictement incapable de faire quoi que ce soit de manire alatoire. Chaque
anne, les tudiants ont donc le choix entre {0, 1, 2, 3, 4, 5, 6, 7, 8, 9 et 10}, et le jeu
consiste faire tourner une roulette mentalement et la stopper au hasard sur un chiffre.
Les chers petits se livrent chaque anne l'exprience en tant navement persuads
d'tre plus fort que ceux de l'anne prcdente (qui ont piteusement chou).
Prenons un point de rfrence, pour mieux goter le sel des rsultats que vous allez
voir. La figure 3.10 illustre ce qui se passe lorsqu'on demande un ordinateur de
s'acquitter de cette tche en tirant de manire alatoire 150 fois dans une distribution
uniforme comportant tous ces nombres, chacun ayant une chance sur 11 d'tre choisi
chaque tirage.
Figure 3.10 Distribution de 150 nombres entiers tirs alatoirement par ordinateur
entre zro et 10. Les diffrences d'effectifs observes sont dues uniquement aux
fluctuations d'chantillonnage.
Premire constatation, certains chiffres (comme 2 en particulier) sont sortis davantage
que la moyenne attendue (qui est de 14 fois environ, soit 150/11), et d'autres (comme 0)
semblent bouds. Les gens mal informs en concluraient que le tirage alatoire
informatique fonctionne mal. Les gens bien informs (donc, vous) savent en revanche
maintenant que ce phnomne est tout fait normal et se nomme "les fluctuations
d'chantillonnage". Il aurait t mme hautement suspect que tous les chiffres soient
tirs 14 fois exactement. Autrement dit, si je recommenais l'exprience avec un
nouveau lot de 150 tirages, j'obtiendrais autre chose. Tiens, pendant qu'on en parle,
faisons le (figure 3.11)
10
0
5
10
15
20
25
30
35
40
0 1 2 3 4 5 6 7 8 9 10
Figure 3.11 Distribution de 150 nombres entiers tirs alatoirement par ordinateur
entre zro et 10 (mme chose que figure 3.10 mais avec 150 nouveaux tirages). On
observe toujours des fluctuations d'chantillonnage avec certains chiffres sortant plus
que les autres, mais ce ne sont pas les mmes.
Vous tes maintenant convaincus que mon ordinateur n'a pas d'inclinaison particulire
vers le chiffre 2, et ne boude pas particulirement le chiffre 0 comme le tirage prcdent
pouvait le faire souponner. Mais en fait vous ne lisez pas ces lignes car vous vous tes
dj prcipits sur la spectaculaire figure 3.12 qui vous montre les tirages "alatoires"
obtenus par les promotions 1999 2001 de la matrise BPE de Rennes 1.
Figure 3.12 Distribution des nombres entiers choisis "au hasard" par des tudiants de
matrise BPE de Rennes 1 des promotions 1999 2002. On constate que la
distribution n'est manifestement pas uniforme, parce que les tudiants sont en fait
incapables de choisir vritablement "au hasard" (le chiffre 7 est tout particulirement
sur-reprsent) alors que les chiffres 0 et 10 sont visiblement vits.
Spectaculaire est le mot. Il saute aux yeux les moins avertis qu'il s'est pass quelque
chose de fondamentalement diffrent d'un tirage alatoire, car cette distribution s'carte
violemment de la distribution uniforme attendue. Sans en avoir conscience, ces
tudiants ont fait des choix non alatoires. L'expression "choisir de manire alatoire"
est d'ailleurs une contradiction absolue. On peut maintenant s'amuser faire de la
psychologie la petite semaine et essayer de comprendre ce qui a pu se passer dans
leurs ttes. Clairement, les bords sont bouds (peut tre l'ide que "si c'est au bord, c'est
un endroit spcial donc pas choisi au hasard". On remarque aussi que la valeur 5, qui
est "au milieu", est soigneusement vite, probablement en suivant le mme
11
1999
0
5
10
15
20
25
30
35
40
0 1 2 3 4 5 6 7 8 9 10
2000
0
5
10
15
20
25
30
35
40
0 1 2 3 4 5 6 7 8 9 10
2001
0
5
10
15
20
25
30
35
40
0 1 2 3 4 5 6 7 8 9 10
2002
0
5
10
15
20
25
30
35
40
0 1 2 3 4 5 6 7 8 9 10
0
5
10
15
20
25
30
35
40
0 1 2 3 4 5 6 7 8 9 10
raisonnement inconscient. Enfin, les valeurs impaires (qui ont un petit cot irrgulier,
donc "alatoire") sont prfres aux valeurs paires "quilibres". Rsultat, les "chiffres
de la chance", les "chiffres sacrs", le 3 et le 7 dans la plupart des civilisations, sont
plbiscits. Si de vritables psychologues lisent ces lignes, je serais heureux de recevoir
leur avis (videmment plus pertinent) sur la question. Mon propos tait simplement ici
de vous convaincre que nous ne sommes pas faits pour gnrer de l'alatoire. Ceci
explique peut tre que nous ayons parfois du mal analyser des phnomnes dans lequel
l'alatoire jour un rle important (l'analyse statistique des rsultats, pour prendre un
exemple "au hasard"). Dans le mme ordre d'ide, mes tudiants ont toujours rpondu
majoritairement "oui" une question qui tait "rpondez par oui ou par non au
hasard.". Ce phnomne est bien connu des hommes politiques, qui l'exploitent
chaque rferendum : vous ne verrez jamais de rfrendum dans lequel la rponse "oui"
ne soit pas celle qui arrange le gouvernement. En effet, quand nous sommes indcis ou
que nous n'avons pas la moindre ide de la rponse une question, nous avons tendance
en moyenne, y rpondre plutt par oui que par non...
Rsum du chapitre 3.
Les variables alatoires existent, et elles sont tout autour de nous. La manire dont les
valeurs de ces variables alatoires sont rparties se nomment distributions, et elles ne
prennent pas n'importe quelle forme. Certaines distributions sont assez frquentes en
biologie, et prsentent une courbe en cloche. La plus connue est la loi normale, mais il
ne faut pas croire que toute variable biologique sera automatiquement distribue selon
une loi normale. En effet, certaines contraintes peuvent tronquer la distribution et
provoquer un talement plus important vers les valeurs faibles ou fortes de la variable
alatoire. La prsence de plusieurs pics (ou modes) dans une distribution doit nous faire
souponner que plus d'une populations ont t chantillonnes. Enfin, retenez que
l'esprit humain est trs malhabile pour gnrer ou manipuler des vnements alatoires,
car il a toujours tendance rechercher ou crer des motifs particuliers, ce qui provoque
des choix (conscients ou inconscients) et non pas des tirages rellement alatoires. C'est
une des raisons pour lesquelles la randomisation (le tirage au hasard) est trs importante
en sciences, et c'est aussi la raison pour laquelle on utilise des mthodes statistiques
pour analyser les donnes au lieu de se fier uniquement nos premires impressions.
12
4.Tripatouillons les donnes
On a dit beaucoup de mal du tripatouillage de donnes. C'est un tort. Utilis bon
escient, c'est une pratique trs recommandable. Je ne connais pas de meilleur moyen de
comprendre comment se comportent les variable alatoires, et les paramtres que nous
calculons pour essayer de les cerner. Dans ce chapitre, nous allons donc tripatouiller les
donnes sans honte, et observer ce qui se passe, c'est dire rien de grave si c'est fait
dans les rgles.
Le tripatouillage de donnes est un sport, qui comporte des figures imposes. Parmi
celles ci, les principales sont (1) l'limination des donnes qui ne nous plaisent pas, (2)
(2) la transformation des donnes en ajoutant, en retranchant, en multipliant ou en
divisant par une constante C arbitraire (3) la transformation des donnes en utilisant un
traitement plus exotique (racine carre, log, arsinus racine etc.), qui ne sera pas aborde
ici. Une fois qu'on matrise ces gammes, on peut passer la vitesse suprieure, et se
mettre tripatouiller plusieurs variables alatoires la fois. Dans l'ivresse de la cration,
on peut ainsi crer de nouvelles variables alatoires en en combinant plusieurs autres de
diffrentes manires licites ou illicites.
4.1 Eliminons les donnes qui nous drangent
Commenons par la base du tripatouillage amateur : l'limination des donnes qui ne
nous plaisent pas. Pour comprendre d'o vient cette tentation, il suffit d'observer le
comportement de la moyenne et de la variance lorsqu'une donne extrme (dite
"aberrante") entre en jeu. L'chantillon A est puis au sein de l'exemple des graines
ailes d'Erable (il s'agit ici de longueur en mm) :
A = {21 36, 37, 38, 39, 40, 41, 44} ; m
A
= 37,0 mm | s
2
A

= 48,0 mm
2
La moyenne gnrale est m = 37,0 malgr le fait que la plupart des donnes dpassent
cette valeur. La responsable est videmment la valeur [21], anormalement faible, qui tire
la moyenne vers le bas. Ca n'est pas son seul crime. La variance de 48,0 mm
2
implique
un cart-type de 6,9 mm, ce qui est anormalement lev considrant que (mis part le
[21]) la plupart des donnes sont trs proches les unes des autres. Eliminons maintenant
[21] du jeu de donnes.
B = {21, 36, 37, 38, 39, 40, 41, 44}. mB = 39,3 mm | s
2
B= 7,2 mm
2
On obtient une moyenne nettement plus reprsentative du "coeur" de la distribution. La
variance s'effondre brusquement (elle est presque divise par neuf !) soit un cart-type
de s = 2,7 mm seulement. Cela montre bien l'influence totalement disproportionn de
l'unique point de donnes qui s'cartait nettement des autres. Cette influence est due au
fait que la variance repose sur la moyenne d'carts la moyenne levs au carr. Vis a
vis de la variance, il faut donc voir la distance sparant une donne de la moyenne
comme une sorte de bras de levier, qui dmultiplie l'influence de ce point sur la
variance globale. C'est pourquoi il suffit d'une donne vraiment extrme pour non
seulement dsquilibrer une moyenne mais surtout pour affoler la variance. En quoi est-
ce nfaste ? Examinons avec quelle prcision nous avons estim la moyenne de la
population dont est issu notre chantillon. Selon que [21] est inclus ou exclu des
donnes, les intervalles de confiance de m sont, respectivement :
IC95 (+21) = [32,2 41,8 mm], incertitude de 9,6 mm
IC95(21) = [37,341,3 mm], incertitude de 4 mm
La donne extrme [21], elle toute seule, multiplie par plus de deux l'incertitude sur la
moyenne gnrale de la population. Voil pourquoi il est tentant d'liminer les rsultats
dits "aberrants" des jeux de donnes, une pratique totalement condamnable, ou au
contraire... compltement justifie, selon l'origine de l'aberration, et la manire dont
l'limination est pratique.
La pire manire de procder est l'limination clandestine, arbitraire, effectue aprs
l'analyse statistique. Ce type de tripatouillage malhonnte consiste tout simplement
liminer une (ou plusieurs) donnes parce que a vous permet d'obtenir le rsultat que
vous espriez, sans aucune autre justification. C'est videmment inacceptable, et restera
toujours une affaire entre vous et votre conscience.
Une manire licite d'liminer des donnes extrmes consiste en revanche procder
lors de l'examen prliminaire des donnes brutes avant analyse. Cet examen des
donnes est du reste indispensable, et l'idal est de procder graphiquement. Ainsi, vous
pourrez reprer instantanment les valeurs vritablement aberrantes, c'est dire celles
qui rsultent manifestement d'une erreur de mesure ou de transcription (exemple : une
graine d'rable qui mesurerait soi-disant 315 mm au lieu de 31,5mm parce que la virgule
n'a pas t saisie). Ces donnes, rsultant d'une erreur grossire et manifeste sont les
seules que vous pouvez liminer avec la conscience tranquille ce stade tardif de l'tude
si vous n'avez plus accs aux individus eux mmes. Si vous avez encore accs aux
individus physiques constituant votre chantillon, rien ne vous interdit bien entendu de
vrifier matriellement la vracit des mesures qui vous semblent anormalement faibles
ou leves.
il est en revanche possible d'liminer n'importe quelle donne pour n'importe quelle
raison pour faire face une situation non anticipe apparaissant au cours de la collecte
des donnes, mais condition encore une fois de le faire au grand jour et selon un
critre clair (exemple : "cette graine a visiblement subi une dformation anormale en
cours de dveloppement, je l'limine (elle et les autres graines du mme type) de mon
jeu de donnes". Ce type d'approche vous obligera ventuellement revenir en arrire
pour r-examiner les individus prcdents. Bien entendu, il faudra signaler
explicitement lors de la prsentation des rsultats que les donnes de ce type ont t
limines (elles peuvent d'ailleurs tre non pas limines totalement mais traites
part).
Enfin, la meilleure manire d'liminer des donnes consiste le faire... avant la
collecte elle mme, en dcidant de critres d'exclusion a priori. Exemple : "toutes les
graines rabougries ayant manifestement subi de gros problmes de dveloppement ou
des attaques de parasites ne seront pas prises en considration". Cette approche sera
grandement facilite si vous avez effectu une tude pilote, ou une petite reconnaissance
sur le terrain avant de vous lancer dans la grande manip trs importante que vous
prparez.
En bref, liminer des donnes n'est pas forcment un tripatouillage diabolique
dmontrant une thique scientifique douteuse. Cela peut au contraire rsulter d'un choix
transparent et justifi, qui prouve que vous prenez soin de collecter des donnes adapte
la question prcise que vous vous posez. Le tout est d'annoncer clairement la couleur
sur ce que vous avez fait.
3.2 Transformons les donnes en utilisant une constante C
Ajouter ou retrancher une constante C aux donnes revient dplacer la distribution en
bloc le long de l'axe des abcisses. Multiplier ou diviser les donnes par une constante
quivaut changer d'unit de mesure (changement d'chelle). On peut mme combiner
les deux oprations. Ces changements auront bien sr une influence sur la moyenne et
ventuellement sur la variance. Pour lillustrer, on va re-utiliser nos 206 mesures de
longueur de graines ailes d'rable (variable alatoire "L"). Premier essai : on ajoute ou
on retranche une constante, disons 10mm, chacune des 206 longueurs mesures. Que
vont devenir la moyenne et la variance ? Rponse :
Variable alatoire Moyenne (mm) Variance (mm
2
)
L originale 39,4 25,3
L + 10mm 49,4 25,3
L 10mm 29,4 25,3
Le contenu de la colonne Moyenne ntonnera personne. En revanche, celui de la
colonne Variance peut surprendre et mrite dtre comment. Ajouter (ou soustraire)
aux donnes une constante C ne modifie pas la variance parce que cela quivaut
simplement dplacer la distribution en bloc , de C units le long de labscisse. La
dispersion des donnes autour de leur moyenne est inchange (puisque la moyenne s'est
dplace de C units dans le mme sens que les donnes), donc la variance reste la
mme.
On peut donc crire, d'une manire gnrale, pour une variable alatoire X de
moyenne et de variance
2
Variable alatoire Moyenne Variance
X
2
X + C + C
2
X C C
2
Supposons maintenant que la norme europenne EN2548-518/B, rgissant la taille
rglementaire des graines ailes d'rable
1
, stipule que cette longueur doive tre exprime
non pas en millimtres mais en dixime de millimtres, cependant que la norme
amricaine US24518-5681 exige que la longueur des graines d'rable soit exprime en
centimtres. Si nous voulons conserver nos crdits de recherche europens, tout en
pouvant exporter nos graines d'rable vers les USA, nous devons adapter nos donnes
en multipliant L respectivement par 10 (dans nos documents europens) et en le divisant
1
Elle n'existe pas encore, mais le temps travaille contre nous.
au contraire par 10 (dans les documents l'attention des douanes des USA). Que vont
devenir la moyenne et la variance ?
L
39,4 25,3
10 L
394,0 2530,0
L / 10
3,94 0,253
La moyenne se comporte comme attendu. Encore une fois, la surprise vient de la
troisime colonne. La variance semble ragir de manire exagre. Lorsque les donnes
sont multiplies par 10, la variance est multiplie par 100, et lorsque les donnes sont
divises par 10, la variance est divise par 100. Il suffit cependant de revenir la
dfinition de la variance (une moyenne d'carts levs au carr) pour comprendre
facilement pourquoi la constante C doit tre leve au carr dans le calcul de la nouvelle
variance
2
. Donc, de manire gnrale on peut crire :
X

2
C X C C
2

2
Ces principes de base tant poss, on peut alors remarquer que pour une variable
alatoire X donne, sa vritable moyenne et sa vritable variance
2
sont uniques, ce
sont donc des constantes. On peut donc les manipuler exactement comme la
constante C du tableau ci-dessus. Ceci permet de passer quelques cas particuliers trs
intressants pour la suite des oprations, en appliquant simplement les principes que
nous venons de voir :
X

2
X 0
2
X/ / 1
(X )/ 0 1
L'opration figurant sur la deuxime ligne consiste retrancher chaque donne la
moyenne et sappelle un centrage. Elle constitue simplement en un changement
dorigine, qui place la moyenne de la distribution au point 0 de l'axe des abcisses.
L'opration figurant sur la troisime ligne consiste diviser toutes les valeurs par
l'cart-type et sappelle une rduction. Elle reprsente un simple changement dunit :
les valeurs de X ne sont plus exprimes directement dans l'unit d'origine (des mtres,
des kg) mais en carts-types (). L'cart-type tant lui mme exprim en units
2
dtail du calcul en annexe II pour les incrdules
d'origine (mtres, kg etc...), la division des valeurs par l'cart-type rend le rsultat final
sans unit (kg/kg = sans dimension). Une consquence intressante de la rduction est
que la variance vaut automatiquement 1 (regardez dans le tableau prcdent en
remplaant C par 1/ et vous comprendrez rapidement pourquoi).
La combinaison du centrage et de la rduction (quatrime ligne du tableau) donne
une variable centre-rduite. Cette opration est particulirement intressante dans le
cas dune loi symtrique par rapport sa moyenne (cas de la loi normale par exemple)
car elle permet de ramener nimporte quelle loi de ce type une courbe unique calibre
sur laquelle on peut calculer des probabilits par simple lecture dans une table faite une
fois pour toutes.
Et maintenant osons ! Osons manipuler plus d'une variable alatoire la fois (
propos des mmes individus), et voyons si le ciel va nous tomber sur la tte.
On pose les deux variables XA suivant une loi quelconque de moyenne A et de
variance
2
A, et XB suivant une autre loi quelconque (pas forcment le mme type de loi
que XA) de moyenne B et de variance
2
B. On va de plus faire lhypothse que les deux
variables sont indpendantes. Cela signifie concrtement que connatre la valeur de la
variable XA chez un individu ne permet absolument pas de prdire quelle sera sa valeur
pour XB. Dans le cas contraire, on dit que les variables sont lies, ou corrles, et les
galits suivantes restent valables pour les moyennes mais doivent tre modifies en ce
qui concerne les variances (on doit y ajouter un terme qui est la covariance. On verra a
plus en dtails dans le chapitre traitant de la corrlation.
Variable Moyenne Variance
XA A
2
A
XB B
2
B
XA + XB A + B
2
A +
2
B
XA XB A B
2
B +
2
B
Tout ceci appelle bien sr quelques commentaires. Pourquoi additionner les
variances quand il s'agit d'une soustraction de deux variables alatoires ? Parce que la
nouvelle variable alatoire est certes le rsultat d'une soustraction, mais d'une
soustraction pour laquelle chacun des deux termes est alatoire. Le rsultat final ne peut
donc en tre que plus variable qu'au dpart (il serait proprement miraculeux que
retrancher une valeur au hasard d'une autre valeur alatoire diminue le caractre
alatoire de lensemble !).
Pour vous en convaincre, rflchissez la moyenne et la variance de la variable
alatoire "X1 X2" (autrement dit, la diffrence entre deux tirages successifs dans la
mme loi, exemple : entre deux lancers du mme d). Certes la moyenne de cette
variable "X1 X2" est bien zro, car chacun des deux tirages aura la mme moyenne en
esprance. Cependant, vous savez trs bien qu'on obtiendra la plupart du temps deux
valeurs de lancer diffrentes (sinon les casinos feraient faillite) donc x1 - x2 s'cartera en
gnral de la moyenne attendue qui vaut zro. Or, qui dit carts la moyenne dit
variance. Ainsi, la variance de "X1 X2" n'est clairement pas nulle, alors que cette
variable est constitue par une soustraction entre deux variables alatoires ayant
exactement mme moyenne et mme variance .
Histoire de bien enfoncer le clou, on peut ajouter que soustraire des variances entre
elles pourrait vous amener obtenir parfois des variances ngatives. Cela serait
particulirement ennuyeux quand on se souvient qu'une variance est forme de la
moyenne d'carts levs au carr, et plus encore si on a compris qu'elle mesure une
dispersion. A moins d'entrer dans la quatrime dimension, il parait difficile de se
disperser ngativement autour d'une valeur. Retenez donc ceci, a peut servir : une
variance ngative, a n'existe pas.
Une fois ces notions doprations sur les variables alatoires claires dans votre esprit,
la manipulation de la loi normale lendroit, lenvers et dans le sens des aiguilles
dune montre ainsi que les tests statistiques en gnral ne devraient plus vous poser de
problmes insurmontables. Vous avez donc intrt bien mditer ces oprations, qui
reposent en fait toutes sur la comprhension de deux notions simples : la moyenne et la
variance (qui est elle mme une simple moyenne d'carts levs au carr).
Rsum du chapitre 4.
Les tripatouillage des donnes (suppression de certaines donnes, troncature en de ou
au del d'une certaine valeur) est condamnable lorsqu'il est fait clandestinement.
Effectu au grand jour et de manire justifie, il peut au contraire tre utile. Changer
d'units, ajouter ou retrancher une constante ne posent aucun problme et peuvent
faciliter l'analyse : le centrage et la rduction sont des oprations non seulement licites
mais largement utilises et trs utiles. Les rgles de combinaison des variables alatoires
indpendantes constituent un cas particulier, d'o on peut retenir ces deux rgles : les
moyennes s'additionnent et se soustraient, les variances s'additionnent mais ne se
soustraient jamais. Les transformations plus complexes (passage au log, arcsinus racine
etc.) non abordes ici, ont galement leur intrt pour linariser des fonctions courbes
ou "normaliser" des donnes ne suivant pas la loi normale, et faciliter ainsi l'analyse.

5. Lois statistiques connatre en biologie
Ce chapitre est probablement le plus soporifique de tout cet ouvrage (c'est vous dire...).
Vous pouvez videmment le contourner et aller voir plus loin des choses plus concrtes
et importantes, par exemple comment on calcule les intervalles de confiance. Vous
raliserez cependant tt ou tard que vous avez besoin des informations qu'il contient.
5.1 La loi binomiale
Il y a en fait deux lois binomiales: la positive et la ngative. Lorsqu'on ne prcise pas de
laquelle on parle, il s'agit toujours de la loi binomiale positive. C'est la loi suivie par les
rsultats de tirages alatoires lorsqu'il n'y a que deux possibilits mutuellement
exclusives de rsultats (ex: mle ou femelle, vivant ou mort, fromage ou dessert
1
) et que
la probabilit d'obtenir chaque possibilit est constante au cours de l'exprience (ce qui
ne veut pas dire gale entre l'une et l'autre). Cela sera le cas dans deux sortes de
situation : soit quand la population est de taille infinie, soit quand on effectue le tirage
avec remise. En effet, s'il n'y a pas remise, le tirage d'un individu modifie la probabilit
de tirer un individu de ce type la fois suivante (puisqu'il y en a un de moins disponible).
Dans le cas de l'chantillonnage en situation relle sur le terrain, on peut presque
toujours faire l'hypothse d'une population infinie. La population n'est pas vraiment
infinie mais elle est tellement grande que l'approximation est suffisante.
A chaque tirage, la probabilit d'obtenir l'vnement "A" qui nous intresse (par
exemple "l'individu est fumeur" sera p, et celle d'obtenir l'vnement complmentaire
(ici, "l'individu est non-fumeur") sera (1 p) = q. Si on effectue n tirages alatoires, la
probabilit note P(X = k) d'obtenir au total k individus ou vnements de type "A", se
calcule au moyen d'une formule mathmatique qu'on assne trop souvent comme un
coup de massue alors quelle se dduit dun raisonnement. Ce raisonnement vous est
donc gratuitement fourni en ANNEXE II et vous tes cordialement invits l'examiner
l'occasion. Il en ressort que :
( )
k n k k
n
q p C k X P

= =
avec :
- Cn
k
= n! / [ k! (n k)! ]
- x! = x (x 1) (x 2) ... 3 2 1
C'est la formule bien connue
2
de la loi binomiale. Le calcul des probabilits pour les
diffrentes valeurs de k (k peut varier de zro n) permet d'tablir le graphe de
rpartition des frquences (ou distribution) des vnements suivant cette loi binomiale
positive B, dont les paramtres caractristiques sont n et p. Ces deux paramtres
suffisent eux seuls caractriser totalement la loi, puisqu'ils permettent de calculer
chacune des probabilits associes aux valeurs k possibles entre zro et n. On note une
1
dans le cas ou le menu vous impose l'un OU l'autre, naturellement
2
De ceux qui adorent perdre leur temps apprendre les formules par cur
8
loi binomiale positive de la faon suivante : B (n : p), o n est le nombre de tirages et p
est la probabilit de l'vnement qu'on cherche tudier. La figure 5.1 reprsente la loi
binomiale B (4 : 0,5), associe au nombre de filles attendue dans un chantillon de 4
individus tirs au hasard au sein d'une population dont le sex ratio est parfaitement
quilibr (50% de filles).
Figure 5.1. Distribution des nombres de filles possibles dans un chantillon alatoire
de 4 personnes prlev au sein d'une population dont le sex-ratio est parfaitement
quilibr (50% de filles) On remarque que le rsultat attendu en thorie (deux filles et 2
garons) est atteint dans moins de la moiti des cas.
Dans ce cas particulier, la distribution est symtrique. Cependant si p s'carte de 0,5 la
courbe est dissymtrique. La figure 5.2 reprsente cette situation avec la loi binomiale
B (10 : 0,1), suivie par le nombre de gauchers attendus dans un groupe de 10 personnes
s'il y a exactement 10% de gauchers dans la population.
Figure 5.2. Distribution des nombres de gauchers attendus dans un chantillon
alatoire de 10 personnes prlev au sein d'une population comportant exactement
10% de gauchers. On remarque que le rsultat attendu en thorie (un gauchers en 10
tirages) est atteint dans moins de la moiti des cas
Le dernier exemples (figure 5.3) reprsente les notes attendues lors d'un QCM de 20
questions (avec 4 rponses dont une bonne chaque fois) lorsque l'tudiant rpond
entirement au hasard (une situation absurde, jamais un tudiant ne rpondrait au hasard
une question, n'est-ce pas ?). On constate deux choses la lecture de ce graphique : la
note attendue en thorie (5/20 soit le quart des points) est obtenue dans moins de 20%
des cas. On constate galement (car il y a une morale) que la probabilit d'obtenir la
moyenne avec ce genre d'approche est heureusement trs faible.
9
0%
5%
10%
15%
20%
25%
30%
35%
40%
0 1 2 3 4
0%
10%
20%
30%
40%
50%
0 1 2 3 4 5 6 7 8 9 10
Figure 5.3. Distribution des notes attendues chez des tudiants rpondant au hasard
un QCM de vingt questions (1 point par bonne rponse) sachant qu'il y a quatre
rponses possibles dont une seule correcte chaque questions (probabilit de
rpondre correctement une question donnes : 0,25).
La moyenne d'une loi binomiale B (n : p), est en esprance, cest dire sur une
infinit de rptitions de n tirages :
= np
Exemple : en tirant au hasard dix individus dans une population comportant 10% de
gauchers, on attend en moyenne 1 gaucher, ce qui est bien gal np = 10 0,1 et
correspond au fait que le nombre de gauchers aprs 10 tirages suit une loi B (10 : 0,1).
Mais cela sera seulement vrai en moyenne. Dans la ralit, sur plusieurs expriences de
n tirages, on observera le phnomne dcrit sur la figure 5.2 : les nombres k obtenus
vont fluctuer autour de la moyenne thorique . Cette valeur thorique sera la valeur
individuelle la plus frquemment observe (c'est elle qui correspond au mode, c'est
dire au pic de la distribution), mais ce ne sera pas la plus frquemment observe au
total. Dans l'exemple des gauchers, on s'aperoit que la valeur thorique de 1 gaucher en
10 tirages sera observe seulement avec la probabilit C
10
1
(0,1)
1
(0,9)
9
= 0,387 soit
dans moins de 40% des cas.
La variance o
2
de la loi binomiale est :
o
2
= npq
Ceci dans le cas o la variable X tudie est le nombre x
A
d'vnements "A" obtenus en
n tirages. On peut aussi choisir d'utiliser comme variable la proportion observe p
A
des
vnements "A" obtenus en n tirages (=frquence =pourcentage des vnements "A").
Cela revient effectuer un changement de variable o la variable tudie n'est plus
directement X mais X/n (la variable X est multiplie par une constante C valant 1/n).
Or, pour des raisons expliques plus loin (TRIPATOUILLONS LES DONNES) si X est une
variable alatoire et C est une constante,
Variance de (CX) = C
2
Variance de (X)
Donc, puisque ici var(X) = o
2
x
= npq pour la variable X "nombre de tirages de type A",
on peut calculer la variance de la nouvelle variable p = (1/n) X ainsi :
10
0%
5%
10%
15%
20%
25%
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
n
pq
npq
n
pObs
= |
.
|
\
|
=
2
2
1
o
La loi binomiale positive tant la loi qui rgit le comportement des pourcentages, on
comprend qu'elle ait une importance toute particulire, et voil pourquoi elle occupe une
place centrale en sciences.
5.2 la loi de Poisson
(1)
:
La loi de Poisson est (entre autres) la loi vers laquelle tend la loi binomiale positive
lorsque p tend vers zro et n tend vers linfini. Elle rgit donc les cas o on doit
effectuer un grand nombre de tirages (ou de prlvements) pour pouvoir observer les
d'vnements qu'on tudie (exemple: l'observation d'individus mutants trs rares). Dans
ce cas, les calculs du C
n
k
de la binomiale deviennent extrmement lourds (essayez un
peu de calculer C
2000
50
avec votre si jolie calculatrice...). Lapproximation de la
binomiale par la loi de Poisson est alors la bienvenue car sa formule est moins lourde
(une seule factorielle) Cette formule approche est (mmes notations pour n, p, et k):
( )
( )
! k
np
e k X P
k
np
= =

Le produit np n'est autre que la moyenne (en esprance) de la loi, puisqu'on peut se
considrer ici comme dans un cas limite dune loi binomiale. Dautre part, la variance
de la loi de poisson est elle aussi gale np. Cette caractristique frappante se
comprend en remarquant que la variance de la loi binomiale (qui vaut npq) tend
forcment vers np (sa moyenne) lorsque q tend vers 1 (et donc lorsque p tend vers zro).
Une loi de Poisson est donc entirement caractrise en donnant simplement le produit
np. Pour cette raison, et aussi sans soute parce que ce produit apparat deux fois dans la
formule, on a donn le symbole particulier au produit np dans la cas de cette loi. Ce
paramtre est donc la moyenne et la variance de la loi, et la formule de la probabilit
que la variable soit gale une valeur entire k (la loi de poisson comme la binomiale
correspond uniquement des valeurs entires puisquelle compte le nombre de fois ou
un vnement est ralis )scrit habituellement :
( )
! k
e k X P
k
= =

La notation dune la loi de Poisson elle mme tant simplement : P(). Du fait qu'elle
reprsente les cas o p est faible (en reprenant lanalogie avec la binomiale), la loi de
Poisson est aussi appele "loi des vnements rares". Les cas typiques en biologie sont
le nombre d'individus atteint d'une mutation dans une bouteille de 100 drosophiles
soumises une exprience de mutagense par rayonnement ou encore le nombre de
colonies bactrienne par boite de Ptri aprs avoir ensemenc avec une culture trs
(trop !) dilue.
(2)
Formalise par Simon Denis POISSON. Etait il lass de calculer des factorielles pour la binomiale ? La science avance elle grce
aux paresseux (la roue tant larchtype de l'invention d'un flemmard) ? VoirePOISSON tait quand mme sorti major de
polytechnique, ce qui relativise un peu les choses
11
Retenez que pour avoir la possibilit d'utiliser la formule de Poisson pour calculer
des probabilits binomiales il faut avoir simultanment un effectif n important et une
valeur de p faible. Pour fixer les esprits, disons p < 0,1 et n > 30. Au fur et mesure
qu'on s'loigne de ces conditions, l'approximation devient de plus en plus mauvaise et il
faut revenir la formule gnrale de la loi binomiale. Vous tes cordialement invits
le vrifier par vous mme en calculant plusieurs probabilit P (X = k) en utilisant la
formule de la loi binomiale et celle de la loi de Poisson, dans un cas ou on peut faire
lapproximation (p petit, n grand) et dans un cas ou il ne faut pas la faire (p grand et/ou
n petit). La mmorisation du phnomne sera bien plus efficace si vous constatez les
choses suite votre propre calcul.
Figure 5.4. Distribution des nombres possibles d'individus albinos obtenus dans un
chantillon alatoire de 10 000 individus si la probabilit dtre albinos est de 1/10000.
La dissymtrie de la loi de Poisson est trs nette de part et d'autre de la valeur
attendue en thorie (un seul albinos).
5.3 La loi binomiale ngative, ou loi de Pascal
(1)
.
La situation de dpart est celle de la loi binomiale positive : seulement deux possibilits
A et B, mutuellement exclusives, et de probabilit respectives p et q constantes au cours
de l'exprience. La loi binomiale ngative est la loi suivie quand la variable tudie est
le nombre de tirages successifs ncessaires pour obtenir r vnements de type A (et non
pas le nombre d'vnements de type A obtenus en n tirages, comme dans le cas de la loi
binomiale positive). NB: On utilise la notation r au lieu de n pour ne pas introduire de
confusion ventuelle avec n, le nombre de tirages. La formule qui suit s'explique tout
aussi bien que celle de la loi binomiale positive (explication disponible en ANNEXE III).
En bref, la probabilit que le nombre de tirages ncessaire pour obtenir le dernier des r
vnements souhaits soit gal k est :
( )
r k r r
k
q p C k X P

= =
1
1
(1)
Car tudie par Blaise Pascal , Celui l mme qui avait peur du silence des espaces infinis (Pascal a vcu bien avant linvention
du priphrique).
12
0%
10%
20%
30%
40%
0 1 2 3 4 5
Figure 5.5. Distribution des nombres de tentatives avant d'avoir attrap trois proies
chez un prdateur russissant ses attaques en moyenne une fois sur quatre (P attraper
proie = 0,25 chaque attaque). Le nombre thorique attendu est de 12 tentatives
(3/0,25 soit "0,25 proie attrape par tentative") mais on constate que le prdateur sera
parfois trs chanceux... ou trs malchanceux. La longue "queue de distribution" vers la
droite et les valeurs extrmes est le trait typique d'une binomiale ngative.
Ce type de loi est illustre ici avec le nombre d'attaques que doit raliser un prdateur
avant d'avoir captur trois proies s'il russit ses attaques une fois sur quatre (ce qui serait
un excellent rendement, le tigre est largement en dessous de ces performances). On
constate que si, les jours de chances, trois attaques suffiront, il y aura aussi des journes
puisantes ou il faudra sonner la charge une bonne trentaine de fois voire plus pour se
caler l'estomac (la distribution est tronque ici 27 mais contine thoriquement
l'infini).
5.4 Sa Majest la Loi Normale.
5.4.1 prsentation sans mnagements
La loi normale est la loi continue dont la densit de probabilit est :
( )
( )
2
2
2
2
1
o
t o
x
e x f

=
Voil qui est envoy. En pratique, heureusement, vous n'aurez jamais toucher cette
formule. Sachez simplement que si on l'applique on obtient la fameuse courbe en
cloche, point la ligne.
Il est beaucoup plus important dinsister sur la notion de loi continue d'ou dcoule
celle de densit de probabilit. Les lois prsentes plus haut (Binomiales, Poisson)
s'appliquaient des valeurs entires (comptages), ou bien a des pourcentages issus de
comptages. Il tait donc toujours possible (et souvent intressant) de calculer la
probabilit exacte d'un rsultat particulier. La valeur obtenue pouvait tre
ventuellement faible, mais on pouvait la connatre. On a vu que la probabilit d'obtenir
exactement 1 gauchers en 10 tirages dans une population comportant 10% de gauchers
peut tre calcule, et elle vaut exactement 0,38742049 soit environ 39% des cas.
13
0%
2%
4%
6%
8%
10%
3 5 7 9 11 13 15 17 19 21 23 25 27
En revanche, pour une variable X continue (temps, taille, poids, temprature...), la
probabilit que X soit gal une valeur k prcise est impossible calculer, parce qu'elle
est infiniment faible. Il en est ainsi parce qu'il y a une infinit de valeurs possibles dans
n'importe quel intervalle choisi : il y a une infinit de tempratures possibles entre 10 et
11C, il y a une infinit de tailles possibles entre 50 et 51 millimtres. Calculer la
probabilit qu'il fasse exactement 20C en ce moment dans la pice ou je me trouve n'a
aucun sens parce que cette probabilit est infinitsimale
3
.
Cependant (et c'est l'intrt de la formule complique vue plus haut) on peut calculer
la probabilit que X soit compris entre deux valeurs a et b. Ce calcul est possible
condition de calculer une intgrale, et plus prcisment en intgrant la fonction de
densit de probabilit de la variable alatoire, note f(x), entre ces deux bornes a et b.
Cest le sens de la notion de densit de probabilit : f(x) est la fonction telle que :
| | ( ) ( )
}
= e
b
a
dx x f b a X P .
Pas de panique, vous n'aurez jamais faire ce calcul la main, les tables et les logiciels
sont l pour a. Retenez plutt la notion qu'il reprsente : il ny a probablement aucune
graine d'rable dans lunivers mesurant exactement 39 millimtres, au milliardime de
micron prs ( aucune = probabilit infiniment faible) mais la probabilit de trouver
une graine d'rable de taille comprise entre 38 et 40 millimtre est en revanche loin
dtre nulle (les modestes donnes de la figure 3.6 permettent mme de donner un ordre
de grandeur pour cette probabilit, qui pourrait tre grosso modo 20%).
5.4.2 le miracle du thorme central limite
La loi normale est sans contestation possible la reine des statistiques. Elle le doit un
thorme extrmement important, le thorme de la limite centrale (central limit
theorem), nomm selon la tradition Franaise "Thorme CentralLimite" (par la grce
d'une traduction assez rudimentaire). C'est le seul thorme mathmatique de tout ce
livre, promis jur. Que dit-il ?
3
et comme je rcris ce chapitre un premier aot dans le Vaucluse, je peux mme vous dire que la probabilit qu'il fasse 20C dans
cette pice n'est mme pas infinitsimale, elle est nulle.
14
"Thorme Central Limite"
Soient n variables alatoires X
1
, X
2
... Xn
- indpendantes deux deux
- distribues selon la mme densit de probabilit,
- ayant mme moyenne et mme variance o
2
.
On pose :
Y = X
1
+ X
2
+ + X
n

( )
2
o n
n Y
Z

=
Alors, Z N (0 : 1) quand n tend vers l'infini.

Il est fort possible (doux euphmisme) que la beaut de la chose ne vous apparaisse
pas du premier coup d'il. Analysons donc la situation posment. La variable Y est
simplement la somme de n variables X qui ont toutes la mme moyenne et la mme
variance o
2
. Selon les oprations sur les variables alatoires vues prcdemment
(Tripatouillons les donnes), et si les variables sont indpendantes les unes des autres
(la condition clairement pose par le thorme), alors :
- la moyenne
Y
de cette somme sera la somme des n moyennes,
Y
= + + ... (etc. n fois) = n
- La variance o
2
Y
de cette somme sera la somme des n variances,
o
2

Y
= o
2
+ o
2
+ o
2
... (etc. n fois) = no
2

Donc, ce stade, on peut dire que Y suit une loi de type inconnu mais ayant les
caractristiques (n : no
2
). Pour l'instant, rien de bien fabuleux, car on est toujours sans
la moindre information sur la loi suivie par les n variables indpendantes X
1
X
n
. La
trs grande nouvelle annonce par le thorme central-limite est que cela n'a pas la
moindre importance : quelle que soit la loi suivie par les n variables X
i
, leur somme suit
une loi normale quand n tend vers l'infini.
En effet, la seconde variable introduite, Z, consiste simplement retrancher chaque
valeur de Y sa moyenne n (c'est un centrage) et diviser par son cart-type \no
2
(c'est
une rduction). Z est donc une variable centre-rduite (sa moyenne vaut zro, et sa
variance 1), mais l'opration de centrage-rduction ne change pas la nature profonde de
la loi. Puisqu'on nous dit que Z est une loi normale centr rduite, c'est donc que Y tait
une loi normale non centre et non rduite (de moyenne n et de variance no
2
). A ce
stade, la question qui tourne comme un cureuil dans votre cerveau perplexe est bien
entendu "ET ALORS ????". En effet, vous tes en droit de vous demander sur quelle
plante tordue on peut esprer tomber par hasard sur une suite de n variables alatoires
ayant miraculeusement la mme moyenne et la mme variance. Vous pouvez aussi vous
demander quel intrt appliqu peut bien prsenter un thorme mathmatico-
15
philosophique qui ncessite de disposer d'une infinit de variables alatoires avant de
pouvoir en tirer quelque chose (une loi normale)?
Revenons donc sur terre, et examinons un humble objet beaucoup plus concret, le
pain noir quotidien du chercheur, une modeste moyenne calcule sur un chantillon de
taille non infinie de n individus. Comment calcule ton une moyenne, dj ? Ah oui, on
prend les n valeurs observes, et on les additionne (avant de diviser le tout par une
simple constante, qui est n). Et maintenant, posons quelques questions simples. Chacune
des n valeurs observes est elle connue l'avance ? Non. Il s'agit donc de n variables
alatoires, que l'on peut appeler par exemple X
1
, X
2
... X
n
. Connatre X
1
vous permet il
de connatre X
2
? Absolument pas. Donc ces n variables alatoires sont indpendantes
les unes des autres. Sont elles tires dans des distributions diffrentes ? A l'vidence
non, puisqu'elles sont tires dans la mme population, elles sont donc issues de la mme
distribution statistique et auront donc toutes la mme densit de probabilit. On peut en
dduire galement que X
1
ou X
2
ou X
n
auront la mme moyenne, que je peux appeler .
De mme, X
1
, X
2
ou X
n
auront la mme variance, que je peux appeler o
2
. Conclusion (je
pense que vous commencez voir vaguement ou je veux en venir ?), lorsque vous
calculez une moyenne, vous additionnez n variables alatoires indpendantes
distribues selon la mme densit de probabilit, de mme moyenne et de mme
variance. Vous tes donc dans les conditions du thorme central limite. En fait,
vous avez manipul le thorme central limite des centaines de fois depuis le CM2
(chaque fois que vous avez calcul une moyenne), et sans mme l'avoir appris. Vous
tes trs forts.
Bref, si la moyenne de votre variable alatoire est et sa variance o
2
, en appliquant
la rgle selon laquelle var(CX) = C
2
var(X) avec C = 1/n, vous pouvez en dduire que la
moyenne m que vous calculez sur votre chantillon de taille n suit une loi normale ayant
les caractristiques suivantes <donner le dtail du calcul en annexe> :
|
|
.
|
\
|
n
N m
2
:
o
Ceux d'entre vous qui ont suivi depuis le dbut devraient cependant mettre une
objection srieuse : le thorme central limite n'est valable que si n tend vers l'infini.
Voil quand mme une sacre contrainte du point de vue pratique. Mais ce n'est point
un hasard si le titre de cette partie est "le miracle du thorme central limite". En effet,
en statistiques, l'infini commence 30 (les statisticiens sont finalement des gens trs
raisonnables). En clair, mme si le thorme central limite n'est vrai dans sa parfaite
puret que lorsque n atteint l'infini, il est approximativement vrai largement avant, et la
valeur 30 suffit pour pouvoir l'utiliser dans la vie scientifique de tous les jours.
Une moyenne suit une loi approximativement normale ds lors quelle est tablie
partir d'un chantillons d'une trentaine d'individus ou plus
Cerise sur le gteau, il a t dmontr par la suite que ce thorme reste valable dans
une large palette de conditions car :
16
- la condition thorique n variables de mme moyenne et de mme variance
nest pas vitale tant que la variance de chaque variable est faible par rapport la
variance du total
- la condition dindpendance 2 2 des variables alatoires (rarement absolue en
biologie) peut supporter quelques entorses.
Il en rsulte que beaucoup de variables biologiques suivent des lois approximativement
normales avant mme de faire la moindre moyenne, car elles rsultent intrinsquement
de l'addition (approximative) de nombreux et petits effets alatoires, gntiques et
environnementaux, dont chacun apporte une contribution la variance qui est faible par
rapport la variance totale. On se retrouve ainsi presque automatiquement dans les
conditions du thorme centrale limite. Toutefois, mfiance mfiance, souvenez vous
des exemples biologiques que nous avons vus ensemble (dont l'incontournable taille des
graines d'rable) dont la distribution n'est pas du tout normale !
Quid du deuxime ingrdient formant le pain quotidien du biologiste, cest dire les
frquences (ou pourcentages) ? Bonne nouvelle : les frquences suivent aussi trs
rapidement des lois normales quand n grandit (rappelons le lien de parent entre
la loi normale et la loi binomiale, dont elle est une limite linfini). En effet, pour
calculer une frquence p, on additionne une suite de zro (l'vnement "A" n'est pas
ralis) et de 1 (l'vnement "A" est ralis) qui sont autant de variables binomiales
indpendantes de mme moyenne et de mme variance (le tout tant divise par une
constante, n le nombre de tirages). On retrouve les conditions du thorme central
limite, et il en ressort que si np > 5 et nq>5, on a avec une bonne approximation :
|
.
|
\
|
n
pq
p N p
Obs
:
Vous avez immdiatement remarqu que la condition sur la taille de lchantillon
nest plus ici directement n > 30 mais fait intervenir les produits np et nq. Cela est d au
fait que si p est proche de 0,5 la loi binomiale est presque symtrique et dj trs proche
de la forme dune loi normale. Il suffit donc de peu de rptitions pour aboutir une
forme normale. A la limite, si p = 0,5 vous pouvez constater quil suffit thoriquement
de 10 individus pour pouvoir appliquer le thorme central limite, car la loi B(n : 0,5)
est parfaitement symtrique. En revanche, si p est plus loign de 0,5 la loi binomiale
devient nettement dissymtrique, et il faudra ventuellement plus de 30 tirages pour
parvenir normaliser la somme des Xi. Les produits np et nq sont donc une faon
commode de prendre en compte ce phnomne. Il ne faut quand mme pas oublier que
le tirage binomial de base naccepte que deux valeurs : 0 ou 1. C'est une situation
vraiment extrme et il est apprciable que l'on puisse aboutir rapidement une loi
normale quand mme.
17
4. La confiance rgne (par intervalles)
Ce chapitre est probablement le plus important de tous
1
. Lisez le, relisez le, faites le lire
vos amis, dissimulezle aux yeux de vos ennemis, enseignezle vos enfants (s'ils
s'intressent aux statistiques). Bref, il contient des choses importantes qui peuvent vous
viter de dire et de faire bien des btises. Grce lui, vous allez pouvoir calculer quel
point, malgr vos efforts d'chantillonnage et vos exploits exprimentaux, vous
connaissez mal la ralit. Cette exprience est douloureuse, mais elle est ncessaire. Les
biologistes connaissant la valeur exacte de la moyenne et de la variance du caractre
quils tudient dans une population dorganismes vivants sont en effet comme les
orangers sur le sol irlandais : on nen verra jamais. En pratique, vous devrez donc
toujours vous contenter d'estimations de ces valeurs, bases sur une partie (gnralement
minuscule) de la population tudie. Remarque importante : "l'chantillon" dsigne ici
l'ensemble des individus chantillonns, et non pas un chantillon parmi d'autres sil y
en a plusieurs. Rappelez vous qu'il faut chercher tablir son estimation des paramtres
de la population sur le maximum de donnes possible.
La question cruciale qui se pose est maintenant la suivante : jusqu' quel point peut-
on se fier aux valeurs estimes partir dun simple chantillon ? La rponse sobtient
par le calcul des intervalles de confiance. Prcisons tout de suite ce qu'un intervalle de
confiance n'est pas. Il n'est pas l'intervalle dans lequel la vritable valeur du paramtre
se trouve avec certitude. En effet, la variable alatoire peut thoriquement prendre
toutes les valeurs possibles dans les limites des lois de la physique, ce qui fait quand
mme beaucoup. L'intervalle de confiance reprsente en fait la zone dans laquelle se
trouve trs probablement , et avec une probabilit qu'on choisit, la vritable valeur (
jamais inconnue) du paramtre que lon tudie dans la population. On utilise en pratique
les probabilit 0,95 ou 0,99 (respectivement : seuil de confiance 95% et 99%).
Sur quel paramtre peut-on calculer un intervalle de confiance ? Sur littralement
n'importe quoi de chiffr. On calcule le plus couramment les intervalles de confiance
des moyennes et des pourcentages observs, mais on peut calculer l'intervalle de
confiance d'une variance, l'intervalle de confiance d'une diffrence entre deux
moyennes ou pourcentages (magnitude de l'effet ou effect size), l'intervalle de confiance
d'un coefficient de corrlation, de la pente d'une droite de rgression, de la valeur d'un
indice quelconque, bref, les possibilits sont infinies. L'ide de base est toujours la
mme : "quelle est la prcision de mon estimation ?". Mais voyons d'abord ce dont vous
aurez besoin coup sr:
1
mais vous ne le comprendrez que si vous avez lu et assimil les prcdents. On a rien sans rien.
4.1 Intervalle de confiance d'une moyenne.
4.1.1 Grand chantillon (n > 30), loi quelconque
Selon le Thorme Central Limite
2
, si votre variable alatoire X suit une loi de
distribution quelconque avec pour moyenne et pour variance o
2
, alors, pour un grand
chantillon (n > 30), la moyenne m calcule sur cet chantillon suivra une loi
approximativement normale, de moyenne et de variance o
2
/n :
m N ( : o
2
/n)
Du fait que l'chantillon est grand, on peut sans dommages remplacer o
2
(inconnu) par
son estimation s
2
calcule sur l'chantillon, l'quation cidessus restera valable, donc:
m N ( : s
2
/n)
Or, une loi normale est ainsi faite que 95% des valeurs sont situes dans un intervalle de
1,96 carts-types autour de sa moyenne. L'cart-type de est ici estim par l'erreur
standard (racine carre de l'estimation de la variance de la moyenne s
2
m
= s
2
/n), donc :
s
m
=erreur standard = \ (s
2
/n)
On en dduit l'intervalle dans lequel la vritable valeur ( jamais inconnue) a 95% de
chances de se trouver :
n
s
m
2
96 , 1 =
Ainsi, se trouve trs probablement quelque part dans un rayon de 1,96 erreur-standard
autour de notre valeur calcule m. Cet intervalle est l'intervalle de confiance 95% de
m, et vous donne une ide sur la prcision de votre estimation.
Exemple 4.1 : Taille de 40 tudiants (garons) de la matrise BPE.
Moyenne observe : m = 178,025 cm. Variance estime : s
2
= 50,384. Quel est lintervalle de confiance
95% de la moyenne ?
Erreur standard : e.s. = \(s
2
/n) = \ (50,384/40) = 1,122 cm
Borne infrieure au seuil 95% : 178,025 1,96 1,122 = 175,82 = 175,8 cm
Borne suprieur au seuil 95% : 178,025 + 1,96 1,122 = 180,225 = 180,2 cm
2
voir lois connatre en biologie
IC 95% = [175,8 180,2 cm]
Amplitude : 4 centimtres
Exemple 4.2 : Taille de 228 tudiantes de la matrise BPE
Moyenne observe : m = 166,5 cm. Variance estime : s
2
95% de la moyenne ?
2
/n) = \ (33,1/228) = 0,4 cm
Borne infrieure au seuil 95% : 166,5 1,96 0,4 = 165,7 cm
Borne suprieur au seuil 95% : 166,5 + 1,96 0,4 = 167,2 cm
IC 95% = [165,7 167,2 cm]
Amplitude : 1,5 cm.
La meilleure prcision (par rapport l'exemple 4.1) est due la taille plus leve de l'chantillon, qui
rduit la taille de l'erreur standard. Vous noterez cependant que le gain de prcision n'est hlas pas
proportionnel l'augmentation de la taille de l'chantillon: En effet, la prcision s'amliore
proportionnellement la racine carre de n, et non pas proportionnellement n...
Exemple 4.3 : Longueur de 204 graines ailes d'Erable
Moyenne observe : m = 39,4 mm. Variance estime : s
2
95% de la moyenne ?
2
/n) = \ (39,4/204) = 0,4 mm
Borne infrieure au seuil 95% : 39,4 1,96 0,4 = 38,7 mm
Borne suprieur au seuil 95% : 39,4 + 1,96 0,4 = 40,1 mm
IC95% = [38,7 40,1 mm]
Amplitude : 1,4mm
4.1.2 Petit chantillon (n < 30), loi normale
Si la variable suit une loi normale, nul besoin d'invoquer le Thorme Central Limite,
toute moyenne de variables normales est une variable normale, donc la moyenne
observe m (variable alatoire de moyenne et de variance o
2
/n

par la seule application
des rgles des oprations sur les variables alatoires) est automatiquement normale,:
m N ( : o
2
/n)
Le hic survient au moment de remplacer o
2
(inconnu) par son estimation s
2
base sur
l'chantillon. En effet, l'approximation est trop grossire si l'chantillon est petit : la
sous-estimation de o
2
(probable quand on utilise un chantillon) risque d'tre ici trop
importante. Si on applique la formule habituelle : = m 1,96 \(s
2
/n) On risque de
sous-estimer la taille relle de l'intervalle de confiance (c'est dire que l'estimation de
va apparatre plus prcise qu'elle ne l'est en ralit). Heureusement, la loi suivie par la
variable centre-rduite :
n
s
m
t
2
=
a t tudie par un Anglais nomm William GOSSET qui a publi ses travaux en 1908
sous le pseudonyme de STUDENT
3
. Comme Sir R. A. FISHER (le pre des statistiques
modernes) a mis son nez dans cette loi par la suite, elle porte le nom de STUDENT-FISHER
et est dsigne (admirez la logique) par la lettre t. Le test statistique qui s'y rattache
(et qu'on verra au chapitre x) s'appelle le test t de Student. Deux dtails de pure forme: la
variable t est dsigne par une minuscule mais il faut une majuscule Student, car il
sagit dun nom propre, tout pseudonyme quil est (donc, crivez "t de Student" et non
pas "T de student").
Les valeurs critiques de la distribution du t de Student sont consignes dans une
table, mais la lecture de cette table diffre de celle de la loi normale car chaque effectif
n correspond une distributions du t de Student spcifique. Plus exactement, la table se lit
en fonction du nombre (n 1) qui dsigne le nombre de variables alatoires
indpendantes dans l'chantillon. Il ny a en ralit que n 1 variables alatoires parmi
les n individus car elles sont toutes lies par leur total. Il suffit en effet de connatre n
1 valeurs pour dduire la dernire partir du total. Ce nombre de variables alatoires
indpendantes est le nombre de degrs de libert (d.d.l.) de la variable alatoire t. La
notion de degr de libert
4
en statistiques est un pouvantail tudiants notoire, et elle
est en effet pleine de piges diaboliques. La lumire viendra de la pratique. On verra
dautres exemples o le nombre de d.d.l. interviendra.
Au final, la formule permettant le calcul de l'intervalle de confiance est la mme que
prcdemment, sauf qu'il faut remplacer la valeur |c| = 1,96 de la loi normale par la
valeur figurant dans la table du t de Student en fonction du risque o considr et du
nombre de degrs le libert. Pour un intervalle de confiance 95% on choisit o = 0,05:
( )
n
s
t m
ddl n
2
1
=
Voici donc rgl le cas o le caractre tudi suit une loi normale.
Exemple 4.4 : Taille de 10 tudiants (garons) fictifs (mais je reprend volontairement les mmes valeurs de
moyenne et de variance que dans lexemple 4.1).
Moyenne : m = 178,025 cm. Variance estime : s
2
= 50,384 Quel est lintervalle de confiance 95% de
la moyenne ?
L'chantillon est trop petit (n = 10) pour pouvoir utiliser le thorme central limite. Cependant, la taille
dans l'espce humaine est un caractre approximativement distribu selon une loi normale. La moyenne
m va donc tre distribue approximativement selon la distribution du t de Student avec (n 1) = 9
degrs de libert.
2
/n) = \ (50,384/10) = 2,24 cm
Valeur seuil de la table du t de Student pour o = 0,05 et 9 degrs de libert : t(o=0,05;9ddl) = 2,262
3
William Gosset n'a pas publi sous un pseudonyme parce qu'il avait honte de faire des statistiques, mais parce que son employeur
(les clbres bires Guiness), lui avait interdit de publier sous son vrai nom, pour des raisons qui m'chappent.
4
degrees of freedom, que vous trouverez dans les articles scientifiques abrg en "d.f."
Borne infrieure au seuil 95% : 178,025 2,262 2,24 = 172,958 = 173,0 cm
Borne suprieur au seuil 95% : 178,025 + 2,262 2,24 = 183,092 = 183,1 cm
IC95% : [173,0 183,1 cm]
Amplitude : 10 centimtres
A comparer avec l'amplitude de 4 centimtres de lexemple 4.1 : [175,8 180,2 cm]. Bien que la
variance estime pour le caractre soit artificiellement identique avec lexemple 4.1, lintervalle de
confiance de la moyenne est ici plus large (donc lestimation est beaucoup moins prcise). Deux
raisons cela : (i) lerreur standard est plus grande (car n est plus petit), et (ii) la loi du t de Student a
une plus grande variance (= est plus tale ) que la loi normale, do la valeur critique 2,262 au lieu
du 1,96 utilisable pour les grands chantillons.
4.1.3 Petit chantillon (n < 30), loi quelconque
Le calcul d'un intervalle de confiance en utilisant la loi du t de Student reste
approximativement valable mme si la loi suivie par la variable alatoire n'est pas
exactement une loi normale. L'important est (entre autres) que la distribution du
caractre ne soit pas trop dissymtrique. En pratique, ces conditions approches sont
souvent vrifies (regardez donc vos donnes), et vous pourrez alors utiliser le t de
Student mme sans avoir des courbes en cloche impeccables. Faites le cependant en
ayant conscience de l'approximation commise, et du fait que vous tes en train de
pousser une mthode dans ses limites.
En revanche, vous pouvez tre face une distribution qui s'carte fortement de la loi
normale : Loi de Poisson, binomiale ngative (voir chapitre lois stat), distribution "en
J" (grande partie des valeurs masses droite vers une valeur maximum) distribution
"en L" (toutes les valeurs masses gauche vers une valeur minimum) voire, l'horreur
absolue, distribution bimodale (Surf Island !)
5
et mme, encore pire, distribution "en U".
Il est alors hors de question d'utiliser la distribution du t de Student comme rfrence. La
solution consiste utiliser la technique de re-chantillonnage dite du bootstrap. Cette
technique vous est prsente plus loin, dans la section 4.5 Intervalle de confiance de
tout ce que vous voulez.
4.2 intervalle de confiance dun pourcentage
4.2.1 grand chantillon (np et nq > 5)
Comme dit plus haut, une frquence p est laddition de n variables correspondant
chacune a un tirage de type oui non (1 ou 0) dans une loi binomiale, le rsultat de
laddition tant divis par n (et multipli par 100 dans le cas dun pourcentage). Dans le
cas d'un grand chantillon, on peut alors appliquer le Thorme Central Limite. On sait
que la loi binomiale B (n : p) a pour variance pq/n si on considre non pas leffectif X
mais la frquence X/n. La loi normale quon lui substitue aura donc les mmes
paramtres : moyenne p et variance pq/n (avec q = 1 p).
Notre frquence observe suivra donc :
p
obs
N (p : pq/n)
5
voir le chapitre "comment prsenter vos donnes"
L'chantillon tant "grand", cette relation reste approximativement valable en
remplaant la variance exacte pq/n par son estimation p
obs
q
obs
/(n1), donc
p
obs
N (p : p
obs
q
obs
/(n1))
Rappel : la division par n 1 limine le biais de sous-estimation de la variance partir dun chantillon
En prsence dune loi normale de variance connue, nous sommes tirs daffaire et la
suite des oprations est exactement la mme que dans le cas du calcul de lintervalle de
confiance dune moyenne. Les mmes causes produisant les mmes effets, on en arrive
la mme formule pour lintervalle de confiance avec o = 0,05 :
1
96 , 1
=
n
q p
p p
obs obs
obs
Note : le fait dutiliser la frquence elle mme (varie de 0 1) ou le pourcentage (de 0
100) na aucune importance a condition videmment de ne pas faire de mlanges
audacieux dans la formule. Donc tout en pourcentages ou tout en frquences mais
restez homognes dans vos calculs !
Exemple 4.3 : Sur 146 tudiants de matrise BPE ayant fourni linformation, 20 taient gauchers ou
ambidextre (soit pobs = 13,698% et qobs= 86,302% droitiers). Quel est lintervalle de confiance du
pourcentage de la catgorie [gauchers & ambidextres] ?
Petite vrification prliminaire : npobs = 146 0,13698 = 19,99 >> 5 ; nqobs = 146 0,86302 = 126 >>
5. On a bien npobs >5 et nqobs >5, on peut donc utiliser le Thorme Central Limite.
Erreur standard : e.s. = \ [pobs qobs/(n1)] = \ [(0,136980,86302)/(146 1)] = 0,02845 = 2,845 %
Borne infrieure au seuil 95% : 0,13698 1,96 0,02845 = 0,081218 = 8,1%
Borne suprieur au seuil 95% : 0,13698 + 1,96 0,02845 = 0,192742 = 19,3%
IC95% : [8,1% 19,3%]
Cet intervalle est trs large, une parfaite illustration de la difficult estimer les frquences avec
prcision, mme avec des chantillons de taille respectable.
4.2.2 Petit chantillon (np et nq < 5)
Dans ce cas, lapproximation par la loi normale nest plus possible. Pour tout arranger,
lestimation de p par p
obs
nest pas suffisamment prcise non plus pour ne pas fausser
lestimation de la variance pq/n en lui substituant p
obs
q
obs
/(n 1), cette estimation tant
indispensable au calcul de lintervalle de confiance. Si de grands anciens ntaient pas
passs avant nous, il faudrait tout simplement revenir la base (cest dire au
niveau de la binomiale) et calculer une par une les probabilits P (X/n = pi) grce la
formule de la loi binomiale. Il faudrait ensuite liminer les 2,5% les plus extrmes de
la distribution de chaque cot et dterminer au bout du compte lintervalle de confiance
95%. Heureusement, dautres ont dj fait le sale boulot, et ils nous ont lgu une
table qui vous donnera directement lintervalle de confiance dun pourcentage dans le
cas des petits effectifs (voir TABLES). Comme quoi venir trop tard dans un monde trop
vieux na pas que des inconvnients.
Exemple 4.4 : sur 35 tudiants on observe 2 gauchers (soit pobs = 0,05714 soit 5,71%). Quel est
lintervalle de confiance de ce pourcentage bas sur un soi-disant "grand" chantillon (puisque n > 30) ?
Petite vrification (mais on connat le rsultat l'avance...)
npobs = 35 0,05714 = 2 < 5 ; on ne peut pas utiliser l'approximation par la loi normale.
La table de l'intervalle de confiance des pourcentages donne directement les bornes (ici par
interpolation approximative entre les valeurs concernant pobs = 5% et celles pour pobs = 10%) : Borne
infrieure au seuil 95% : 0,5% environ. Borne suprieur au seuil 95% : 19% environ
IC95% : environ [0,5 - 19%]
Selon une expression anglo-saxonne trs image, cet intervalle de confiance est suffisamment grand
pour qu'un vaisseau de guerre puisse y faire demi-tour. Abandonnez une bonne fois pour toutes l'ide
selon laquelle on peut estimer des pourcentages de faon fiable sans avoir beaucoup de donnes.
4.3 intervalle de confiance d'une diffrence entre deux moyennes
4.3.1 Grands chantillons (n
A
et n
B
> 30)
Si deux variables alatoires XA et XB suivent des lois de distribution quelconques de
moyennes A et B et de variances o
2
A
et o
2
B
(dont on possde les estimations s
2
A
et

s
2
B
,
bases sur deux grands chantillons A et B avec n
A
>30 et n
B
>30), alors, par la grce du
Thorme Central Limite, les moyennes m
A
et m
B
calcules sur ces deux chantillons
suivront des lois approximativement Normales ayant les caractristiques suivantes :
m
A
N (
A
: s
2
A
/n
A
)
m
B
N (
B
:

s
2
B
/n
B
)
En supposant que XA et XB sont indpendantes, les rgles d'opration sur les variables
alatoires nous permettent de dduire que la diffrence D = mA - mB suivra elle aussi une
loi normale, ayant pour moyenne A =
A

B
la vritable diffrence des moyennes et
comme variance la somme des variances (souvenez vous que les variances ne se
soustraient jamais), donc :
D = (m
A
m
B
) N (
A

B
: s
2
A
/n
A
+ s
2
B
/n
B
)
Or, on sait que 95% des valeurs d'une loi normale sont situes dans un intervalle de
1,96 erreurs standards de la moyenne. L'erreur standard tant l'cart-type de la moyenne,
donc la racine carre de la variance, on a ici
s
D
= \ (s
2
A
/n
A
+ s
2
B
/n
B
)
On en dduit l'intervalle de confiance de D:
A = D

1,96 \ (s
2
A
/n
A
+ s
2
B
/n
B
)
Exemple 4.5 : IC95% de la diffrence de taille entre les tudiants et les tudiants de MBPE
Les donnes relles sont les suivantes.
Etudiants : nA = 232 ; mA = 178,6 cm ; s
2
A = 36,9
Etudiantes: nB = 228 ; mB = 166,5 cm ; s
2
B = 33,1
diffrence observe : D = mA mB = 178,6 166,5 = 12,1cm. Quel est son IC95% ?
Les effectifs sont de grande taille, mA et mB suivent approximativement des lois normales de variances
respectives :
s
2
mA=s
2
A/nA = 36,9/232 = 0,159
s
2
mB = s
2
B/nB =33,1/228 = 0,145
La variance de D est donc s
2
D = s
2
mA + s
2
mB = 0,159 + 0,145 = 0,304
Son cart-type sD = \ s
2
D = \0,304 = 0,552
Borne infrieure de l'IC95 : 12,1 1,96 0,552 = 11,061 = 11,1 cm
Borne suprieure de l'IC95 : 12,1 + 1,96 0,552 = 13,224 = 13,2 cm
IC95% : environ [11,1- 13,2cm]
Amplitude : 2,1 cm
.
4.3.2 Petits chantillons (n
A
et n
B
< 30)
Si la distributions suivie par la variable alatoire qui vous intresse s'carte nettement de
la loi normale (Poisson, Binomiale ngative, distribution en J, en L, bimodale ou en U),
dirigez-vous tout de suite vers la section 4.5 intervalle de confiance de tout ce que vous
voulez. En revanche, si vous travaillez avec une variable alatoire raisonnablement
proche d'une distribution normale, ce qui suit vous concerne. Le raisonnement est le
mme que dans le cas des grands chantillons, sauf qu'on va utiliser les valeurs de la
table du t de Student au lieu du 1,96 de la loi normale.
Si deux variables alatoires XA et XB suivent des lois de distribution proches de la loi
normale, de moyennes A et B et de variances o
2
A et o
2
B, alors, les moyennes mA et mB
calcules sur des chantillons de tailles nA et nB suivront des lois du t de Student ayant
approximativement les caractristiques suivantes :
m
A
t (
A
: s
2
A
/n
A
) avec nA 1 degrs de libert
m
B
t (
B
:

s
2
B
/n
B
) avec nB 1 degrs de libert
En supposant que les deux chantillons sont indpendants, les rgles d'opration sur les
variables alatoires nous permettent de dduire que la diffrence D = mA - mB suivra elle
aussi une loi du t de Student, ayant pour moyenne A =
A

B
la vritable diffrence des
moyennes et comme variance s
2
D la somme des variances (car les variances ne se
soustraient jamais), donc :
D = (m
A
m
B
) t (
A

B
: s
2
A
/n
A
+ s
2
B
/n
B
)
Cette loi aura pour nombre de degrs de libert la somme des degrs de libert des deux
moyennes mA et mB :
(n
A
1) + ( n
B
1) = n
A
+ n
B
2
Or, par dfinition 95% des valeurs d'une loi du t de Student sont situes dans un
intervalle de t
(o=0,05; n)
carts-types autour de sa moyenne, avec t(o=0,05; n) la valeur lue
dans la table du t de Student pour un risque o=0,05 et n degrs de libert. L'cart-type de
la moyenne est comme d'habitude la racine carre de la variance, on a ici :
s
D
= \ (s
2
A
/n
A
+ s
2
B
/n
B
)
On en dduit l'intervalle de confiance de la diffrence mA mB en dterminant la valeur
du t dans la table du t de Student pour le seuil o choisi et nA + nB 2 ddl. (pour un
intervalle de confince 95%, on choisit o = 0,05:
A = D

t
(o, nA+nB 2 ddl)
\ (s
2
A
/n
A
+ s
2
B
/n
B
)
Exemple 4.6 : IC95% de la diffrence de taille entre des tudiants fictifs
Les donnes sont les suivantes (seuls les effectifs changent par rapport l'exemple 4.5).
Etudiants : nA = 7 ; mA = 178,6 cm ; s
2
A=36,9
Etudiantes: nB = 8 ; mB = 166,5 cm ; s
2
B = 33,1
D = mA mB = 178,6 166,5 = 12,1cm. Quel est l'intervalle de confiance de D 95% ?
Les effectifs sont trs petits mais la taille dans l'espce humaine est distribue approximativement de
manire normale, donc, mA et mB suivent approximativement des lois du t de Student avec
respectivement nA 1 = 6 ddl et nB 1 = 7 ddl
s
2
mA=s
2
A/nA = 36,9/7 = 5,271
s
2
mB = s
2
B/nB =33,1/8 = 4,138
La variance de D est donc s
2
D = s
2
mA + s
2
mB = 5,271 + 4,138 = 9,409
Son cart-type sD = \ s
2
D = \9,409 = 3,067 cm
La loi suivie par D est une loi du t de Student avec nA + nB 2 = 7 + 8 2 = 13 ddl
La valeur seuil de la table est t(o=0,05, 13ddl) = 2,16
Borne infrieure de l'IC95 : 12,1 2,16 3,067 = 5,475 = 5,5 cm
Borne suprieure de l'IC95 : 12,1 + 2,16 3,067 = 18,724 = 18,7 cm
IC95% : environ [5,5- 18,7cm]
Amplitude : 13,2 cm
La diffrence de taille relle dans la population dont ces chantillons sont issus est donc connue cette
fois avec une trs mauvaise prcision, qui reflte la petite taille des chantillons.
4.4 intervalle de confiance d'une diffrence entre deux pourcentages
4.4.1 grands chantillons (np et nq > 5)
Le raisonnement est strictement le mme que pour le calcul de l'intervalle de confiance
entre deux moyennes calcules sur de grands chantillons. Dans le cas des pourcentages,
cependant, souvenez-vous que la notion de grand chantillon est diffrente : il faut que :
n
A
p
A
> 5 et n
A
(1 p
A
) > 5
n
B
p
B
> 5 et n
B
(1 p
B
) > 5
avec les proportions p exprimes en frquences, c'est dire entre zro et 1.
Deux proportions observes pobsA et pobsB calcules sur des tels "grands"chantillons de
taille n
A
et n
B
suivent des lois de distribution approximativement normales de moyennes
pA et pB (les vritables valeurs des proportions dans les populations A et B) et de
variances p
A
q
A
/ (n
A
1) et p
B
q
B
/ (n
B
1),
p
obsA
N ( p
A
: p
A
q
A
/(n
A
1))
p
obsB
N (p
B
: p
B
q
B
/(n
B
1))
Les chantillons tant grands, ceci reste approximativement valable en remplaant les
valeurs inconnues p
A
et p
B
par les valeurs observes p
obsA
et p
obsB
dans le calcul des
variances :
p
obsA
N ( p
A
: p
obsA
q
obsA
/ (n
A
1))
p
obsB
N (p
B
: p
obsB
q
obsB
/ (n
B
1))
avec q = ( 1 p)
En supposant que pA et pB sont indpendantes, les rgles d'opration sur les variables
alatoires nous permettent de dduire que la diffrence observe D = p
obsA
p
obsB
entre
ces deux lois normales suivra elle aussi une loi normale,
(i) ayant pour moyenne A = p
A
p
B
la vritable diffrence des proportions:
m
D
= p
A
p
B
(ii) ayant pour variance la somme des variances (souvenez vous que les variances ne se
soustraient jamais) :
s
2
D
= p
obsA
q
obsA
/ (n
A
1) + p
obsB
q
obsB
/ (n
B
1)
En rsum :
D N (p
A
p
B
: p
obsA
q
obsA
/ (n
A
1) + p
obsB
q
obsB
/ (n
B
1))
Or, 95% des valeurs d'une loi normale sont situes moins de 1,96 carts-types de sa
moyenne. L'cart-type tant la racine carre de la variance, on a ici
s
D
= \ p
obsA
q
obsA
/ (n
A
1) + p
obsB
q
obsB
/ (n
B
1))
On en dduit l'intervalle de confiance de la diffrence D = pobsA pobsB :
A = D

1,96 \ p
obsA
q
obsA
/ (n
A
1) + p
obsB
q
obsB
/ (n
B
1))
4.4.2 petits chantillons (np ou nq <5)
Il y a plusieurs solutions. La plus sophistique est d'utiliser le Bootstrap (voir section 4.5
intervalle de confiance de tout ce que vous voulez), mais on peut employer des moyens
bien plus rudimentaires. Par exemple la mthode suivante, qui a l'inconvnient majeur
de vous fournir en fait un intervalle de confiance environ un pour mille.
En utilisant la table des intervalles de confiance pour les pourcentages estims sur les
petits chantillons, dterminez les bornes Ainf, A
sup
, Binf et B
sup
des intervalles de
confiance 95% des deux proportions. Ces IC95% seront sous la forme suivante :
IC95% de A :[Ainf A
sup
]
IC95% de B :[Binf B
sup
]
Le but est de construire l'IC de la diffrence D = A B, soit [D
inf
D
sup
]
Commenons par l'cart le plus grand, et supposons que A > B. Cet cart maximum se
produira si on a simultanment A > A
sup
et B < B
inf
. Or, par dfinition de l'intervalle de
confiance 95%, il n'y a que 2,5% de chances pour que A > A
sup
, de mme il n'y a que
2,5% de chances pour que B < B
inf
. La probabilit combine d'avoir les deux
simultanment est de 0,025 0,025 = 0,000625 soit 0,0625%. Voil dj dcrite la taille
de l'cart D qui n'a que 0,0625% de chances d'tre dpass sous l'effet du hasard.
Reste l'cart le plus petit (voire une cart dans l'autre sens, avec B > A si les IC95% se
chevauchent largement !). Cet cart se produira si on a simultanment A < A
inf
et B >
B
sup
. le mme raisonnement que prcdemment nous indique que cette probabilit
combine est de 0,0625%. Nous avons ainsi dfini l'cart minimum (voire inverse) que
peut avoir la diffrence entre A et B.
Le tout nous permet de tracer un intervalle de confiance plus de 99% pour D.
L'inconvnient est qu'il est trs large. Pour tracer par cette mthode un vritable IC95% de
D, il nous faudrait en fait partir d'IC70% des pourcentages observs, mais les tables ne
donnent pas ces IC, il faut donc les calculer partir de la loi binomiale, ce qui est assez
long. Quelques exemples seraient les bienvenus. Les voici.
Exemple 4.7.
A : 5 individus sur n = 10, donc A = 50% et IC95% [19% 81%] (table des IC pour petits effectifs)
B : 5 individus sur n = 50, donc B = 10% et IC95% = [1% 15%] (table des IC pour petits effectifs)
Ecart maximum pour D : si A > 81% et B < 1%. Alors D > 80%. Proba : 0,0625%
Ecart oppos pour D : si A < 19% et B > 15%. Alors D < 4%. Proba : 0,0625%
L'IC>99% de D est donc [ + 4% + 80%]
Exemple 4.8
A : 2 individus sur n = 10, donc A = 20% et IC95% = [3% 56%] (table des IC pour petits effectifs)
B : 5 individus sur n = 50, donc B = 10% et IC95% = [1% 15%] (table des IC pour petits effectifs)
Ecart maximum pour D : si A > 56% et B < 1%. Alors D > 55%. Proba : 0,0625%
Ecart oppos pour D : si A < 3% et B > 15%. Alors D < 12%. Proba : 0,0625%
L'IC>99% de D est donc [ 12 + 55%]
4.5 intervalle de confiance de tout ce que vous voulez
4.5.1 prsentation gnrale des mthodes de re-chantillonnage
Les mthodes de re-chantillonnage sont surprenantes. En fait, il n'existe probablement
pas d'autres procdures statistiques qui donnent autant l'impression de se moquer du
monde. Ne tentez jamais de les expliquer vos tudiants un 1
er
avril, ils croiraient
forcment que vous leur faites une blague. Vous pensez que j'exagre ? Alors imaginez
la situation suivante. Vous voulez acheter une voiture, et le modle que le vendeur est
en train de vous prsenter ne vous convient pas. Vous demandez donc voir une autre
voiture. Le vendeur vous rpond alors "mais naturellement, aucun problme", puis il
sort de sa poche une espce d'norme couteau multi-fonctions, dmonte le rtroviseur de
la voiture, puis vous la montre nouveau firement en vous disant : "En voil une autre,
qu'en pensez vous" ?
Vous rpondriez probablement quelque chose comme : "Vous me prenez vraiment
pour un abruti ? Ca n'est pas une nouvelle voiture, c'est la mme, vous avez juste enlev
le rtroviseur !". Et pourtant, les mthodes de rchantillonnage fonctionnent
exactement selon ce principe, et tout le monde trouve a normal. Lisez plutt :
4.5.2 La technique du Jackknife
Le Jackknife est un trs robuste couteau multifonctions amricain avec lequel on peut
par exemple scier une branche ou couper un fil de fer barbel (voire dmonter un
rtroviseur). C'est l'outil tout faire du bricoleur
6
. On a baptis de cette manire une
technique de rechantillonnage particulire parce qu'elle est, comme un Jackknife, trs
rudimentaire, mais efficace quand mme.
Le principe du Jackknife consiste crer de soi-disant nouveaux chantillons en se
servant... de votre propre chantillon dont on aura exclu chaque fois un
7
lment
6
le surnom du bricoleur est Jack-of-all-trades, d'o le nom du couteau
7
on peut exclure thoriquement n'importe quel nombre d'lment mais cela prsente peu d'intrt, la technique habituellement
employe consiste exclure un lment la fois.
diffrent ! Vous voyez maintenant l'analogie avec la voiture et son rtroviseur ? Donc en
gros la procdure est la suivante :
1. Prenez une voiture (=votre chantillon de n donnes)
2. Calculez la variable V qui vous intresse
3. Dmontez le rtroviseur (= enlevez une donne de votre chantillon)
4. re-calculez V, mais en utilisant ce "nouvel" chantillon
5. Remontez le rtroviseur (= remettez l'lment enlev dans l'chantillon)
6. Dmontez une roue (= enlevez une autre donne, ne touchez plus au rtroviseur)
7. re-re-calculez V, en utilisant ce "nouvel" chantillon
8. Remontez la roue (replacez dans l'chantillon la donne enleve)
9. persvrez jusqu' avoir dmont et remont entirement la voiture pice par pice
(= jusqu' avoir pass en revue les n "nouveaux" chantillons rsultant de
l'limination temporaire d'une des n donnes chaque fois).
Compltement fou n'est ce pas ? Et pourtant ce procd est correct, et il est dcrit dans
les ouvrages de statistiques les plus srieux (ou alors une vieille blague de premier avril
trane dans les manuels depuis plus de 30 ans). A la fin de cette procdure vous allez
avoir sur les bras (1 + n) estimations diffrentes de V, savoir :
- une estimation initiale V calcule sur l'chantillon complet des n individus
- n estimations (notes v1, v2 ... v
n
) calcules sur les n "nouveaux" chantillons de (n1)
individus chacun, crs par re-chantillonnage au sein de votre propre chantillon.
Les n "nouvelles" estimation va vous permettre de calculer autant de pseudo-valeurs u
selon la formule suivante :
u
1
= n V ( n 1) v
1
u
2
= n V ( n 1) v
2
...
u
n
= n V ( n 1) v
n
La distribution de ces n pseudo valeurs vous donnera une ide, imparfaite mais
exploitable, de la distribution du paramtre V dans la population dont votre chantillon
est issu, et ce mme si apparemment votre chantillon ne pouvait vous fournir qu'une
seule valeur de V. La technique du Jackknife, comme toutes les techniques de
reechantillonnage, permet en fait de simuler ce qui s'est produit lorsque vous avez
chantillonn dans la grande population, mais en utilisant votre propre chantillon pour
modle. Ainsi, par un tour de passe-passe (qui ressemble premire vue une
escroquerie intellectuelle), on parvient accder une distribution qui semblait hors
d'atteinte. Si vous avez peu d'individus, vous pourrez pratiquement considrer (de
manire prudente) que la gamme de pseudovaleurs trouves reprsente l'intervalle de
confiance. Si vous avez beaucoup de donnes, vous pouvez exclure les 10% les plus
hautes et les 10% les plus basses et crer ainsi un trs approximatif IC80%
Il faut noter que le Jackknife n'est d'aucune utilit pour calculer l'intervalle de confiance
d'une moyenne, car dans le cas particulier ou c'est m qui est calcule, les pseudo valeurs
du Jackknife ne font que reproduire... les valeurs de l'chantillon. Le Jackknife sera
donc surtout utile pour dterminer les intervalles de confiance de variances ou de choses
plus complexes (telles un indice de Shannon par exemple).
Exemple 4.5 : Jackknife d'une variance avec 15 quadrats
A = {0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 2, 5, 10, 25, 45}; mA = 6 ind/quadrat, s
2
A = 160,1
les 15 pseudovaleurs de la variance obtenues par Jacknife sont :
28,5 (7 fois) /15,8 (3 fois) / 5,5 / 0 (car valeur ngative) / 403 / 1742 (moyenne 160,3: es 115,9):
IC"95%" trs approximatif de la variance relle : (s
2
A 2 es) = [0 390]
4.5.3 La technique du Bootstrap
Les bootstraps sont les boucles de cuir souvent cousues en haut des bottes, et qui aident
les enfiler. L'expression anglo-saxonne "se soulever du sol en tirant sur ses
bootstraps" signifie "se tirer d'affaire tout seul avec les moyens du bord", mais fait
rfrence volontairement un acte impossible (se soulever du sol en tirant sur ses
bootstraps est aussi illusoire que faire avancer un bateau voiles avec une soufflerie
installe sur le bateau lui mme : a ne marche pas
8
!). Le bootstrap statistique, lui,
consiste effectivement se dbrouiller avec les moyens du bord, c'est dire l'chantillon
lui mme, et a marche. Le bootstrap est devenu LA mthode de re-chantillonnage (on
peut dmontrer que le Jackknife n'est jamais qu'une simplification extrme et trs
grossire du bootstrap). Le bootstrap peut tre utilis pour calculer l'intervalle de
confiance d'absolument n'importe quoi avec une prcision (apparente !) au pour-cent
prs. En ralit, naturellement, la vritable prcision du Bootstrap dpend de la taille de
l'chantillon. Une valeur de bootstrap calcule sur un petit chantillon n'est donc pas du
tout aussi prcise qu'elle en a l'air.
Le bootstrap est n de la capacit des ordinateurs effectuer des calculs rptitifs trs
rapidement. C'est l son seul inconvnient : il ncessite imprativement un ordinateur, et
si possible avec un logiciel appropri. On peut certes envisager d'effectuer un bootstrap
artisanal avec un tableur du type Excel et un peu de patience, mais cela restera
fastidieux mettre en place. Quant esprer faire un bootstrap avec une simple
calculatrice, c'est possible en thorie mais pas du tout en pratique.
La mthode est la suivante, (je garde initialement l'analogie de la voiture contenant n
pices dtaches).
8
Dans le cas du bateau, la pousse vers l'avant exerc par la soufflerie sur la voile est contrebalance par la pousse vers l'arrire
que reoit la soufflerie du fait de la raction de l'air mis en mouvement. En fait, comme la voile ne captera pas 100% de l'air qui est
souffl, le bateau aurait mme thoriquement plutt tendance reculer.
1. Prenez votre voiture (=votre chantillon de n donnes)
2. Dmontez une pice choisie au hasard (= tirez au hasard une donne de votre
chantillon)
3. obtenez une pice identique chez le fournisseur et mettez la de ct(=notez la valeur de
votre donne)
4. Remontez la pice d'origine sur la voiture (=les tirages se font avec remise)
5. Dmontez nouveau une pice choisie au hasard. Il peut donc s'agir ventuellement de
la pice que vous veniez juste de remonter, si le hasard est d'humeur taquine (c'est le
principe mme du tirage avec remise)
6. poursuivez la procdure de tirage avec remise jusqu' obtenir autant de pices dtaches
qu'il y en a dans votre voiture (=continuez jusqu' avoir tir n donnes, avec remise, au sein
de votre chantillon). Comme les tirages se font avec remise, ne vous tonnez pas d'avoir
trois volants mais une seule roue, c'est le hasard qui dcide (le mme individu peut tre tir
plusieurs fois, certains ne le seront pas du tout).
7. Calculez alors la valeur V de la variable qui vous intresse.
Attention, voici le moment pnible
8. recommencez ces 7 premires tapes... mille fois (c'est le nombre consacr, pour un
bootstrap). Vous comprenez maintenant pourquoi il vaut mieux avoir un logiciel prvu
pour.
Une fois que vous avez rassembl vos 1000 estimations diffrentes de V, chacune tant
tablie sur un chantillon de n donnes tires avec remise dans l'chantillon original,
dressez le graphe de la distribution de V obtenue. Eliminez les 2,5% de valeurs les plus
leves de la distribution, et les 2,5% de valeurs les plus basses (ce besoin de prcision
explique de devoir effectuer tant de rptitions). Les valeurs qui restent sont situes dans
l'intervalle de confiance 95%, il est donc enfantin de dterminer ses bornes. Enfin,
donnez une petite tape amicale votre ordinateur, il vient de vous conomiser des mois
de calcul prir d'ennui.
En l'absence de logiciel appropri, vous pouvez faire un bootstrap rudimentaire en
recommenant la procdure 100 fois seulement au moyen d'un simple tableur. La seule
"difficult" consiste faire un tirage avec remise. Pour cela :
1) copiez n fois dans une colonne chacune de vos n valeurs observes (si vous avez 10
individus votre colonne contiendra donc 100 chiffres, chaque valeur tant rpte 10 fois).
2) copiez la formule = alea() , c'est dire <signe gal>alea<suivi d'une parenthse ouverte
et ferme immdiatement> dans une colonne adjacente de mme hauteur. Cette formule
effectue dans chaque case un tirage alatoire dans une loi uniforme entre zro et un.
3) slectionnez vos deux colonnes et triez en fonction de la colonne contenant les nombres
alatoires.
Les 10 premiers chiffres de votre colonne initiale reprsentent autant de tirages avec
remise dans votre chantillon initial, et permettent de calculer le paramtre (moyenne,
variance etc.) dont vous voulez estimer l'intervalle de confiance. Avec un peu d'astuce,
vous pourrez rpter cette manoeuvre un grand nombre de fois sans trop d'efforts. En
liminant les 5 valeurs les plus leves et les 5 valeurs les moins leves parmi 100
rptitions, vous obtiendrez un IC90% rudimentaire.
Dans le cas ou vous voulez calculer l'IC de la diffrence D entre deux moyennes (ou
pourcentages) dans le cas de petits chantillons, les choses se corsent un peu puisqu'il
vous faudra simuler des tirages alatoires avec remise dans les deux chantillons, en
calculant chaque fois D, ce qui vous permettra d'obtenir une distribution d'une
centaine de D vous fournissant, selon le raisonnement ci dessus, un IC90% rudimentaire
de D.
Rsum du chapitre 6.
Vos moyennes, vos pourcentages et autres paramtres estims dans la population ne
sont, justement, que des estimations. Il est vital d'avoir une ide de la prcision avec
laquelle ces paramtres ont t estims. Le calcul des intervalles de confiance permet de
rpondre ce besoin. Les IC sont trs faciles calculer dans certains cas (grands
chantillons, lois normales) mais plus compliqus dans d'autres (petits chantillons de
loi inconnue). Leur connaissance est cependant imprative dans tous les cas, sous peine
d'avoir une fausse impression de prcision. Les intervalles de confiance permettent dans
un deuxime temps de connatre la magnitude de l'effet observ (dans les cas ou on
compare plusieurs populations), c'est dire la taille vraisemblable de la diffrence relle
entre les deux moyennes ou pourcentages observs. Ici encore, la simulation
informatique permet de traiter les cas les plus complexes, pour lesquels il n'existe pas de
solution analytique toute faite.
7. Les tests statistiques : une saga faite de risques,
d'erreurs et de rves de puissance
Le principe de base des tests statistiques est assez simple expliquer, et les tests eux-
mmes sont devenu dangereusement simples appliquer grce aux logiciels. Il est
cependant difficile de les comprendre vraiment. Quant en saisir toutes les finesses, il
suffit de voir comment les spcialistes se corrigent les uns les autres... Si vous tes
comme moi, vous allez vraisemblablement traverser des cycles de lumire et d'obscurit
(dont je ne vois toujours pas la fin) sous la forme "J'ai compris ! c'tait donc a !
quoique finalement non si, cette fois c'est bon ! mouais, sauf que dans ce cas
particulier, heu... eureka ! damned..." etc.
Je vais dans un premier temps prsenter la mthode standard utilise dans les
manuels d'introduction aux statistiques. Nous irons ensuite plonger dans l'origine
historique des tests, ou nous dcouvrirons que la ralit est plus... complexe. Le dcor
sera alors plant pour le coup de thtre spectaculaire du chapitre suivant
1
.
7.1 Principes de base
En trs bref
2
, un test statistique consiste :
(1) poser une hypothse, nomme Ho (H zro), ou "hypothse nulle" .
(2) calculer, dans la gamme des rsultats exprimentaux possibles, ceux qui sont
tellement loigns du rsultat moyen attendu selon Ho, que ces rsultats n'ont
presque aucune chance de se produire si Ho est vraie
(3) comparer ces rsultats avec celui qui a t rellement obtenu
(4) conclure que Ho est peu crdible (et donc la rejeter) si le rsultat obtenu
appartient aux rsultats qui n'avaient presque aucune chance de se produire si Ho
tait vraie. Donner le rsultat du test en indiquant la probabilit P d'observer des
rsultats encore plus loigns de Ho que celui qui a t observ dans l'exprience.
Ex : P = 0,001
(5) conclure que Ho reste crdible (et donc ne pas la rejeter) si le rsultat obtenu
appartient aux rsultats qui avaient une chance, mme relativement modeste, de se
produire si Ho tait vraie.
En sciences, le "presque aucune chance" se traduit par "dans moins de 5% des cas ou Ho
est vraie". Ou encore "avec une probabilit P < 0,05 sous Ho"

1
Voil qui s'appelle faire monter le suspense.
2
Exemple 7.1 O sont les hommes ?
(1) Ho : "Le pourcentage de garons chez les tudiants de la licence de Rennes 1 prparant au mtier de
professeur des coles (instituteur/trice) est de 50%".
(2) Si cette hypothse est correcte (donc si pgaron = 50%) alors sur une promotion de 50 tudiants on
observera un pourcentage de garons infrieur 36% ou suprieur 64% dans moins de 5% des cas (car
si p = 50% alors l'IC95% d'un pobs sur 50 individus est [36,0 64,0%]).
(3) Or, je constate qu'il y a seulement 5 petits veinards pardon, 5 garons et 45 filles dans la
promotion de cette licence, soit pobs= 10%.
(4) J'en conclus qu'il est peu vraisemblable que le pourcentage de garons soit vraiment de 50% dans la
population dont sont reprsentatifs les tudiant(e)s de cette licence (c'est dire la population des
tudiant(e)s choisissant de devenir instituteur/trice). Je peux mme affirmer (soyons audacieux) que ce
pourcentage est vraisemblablement infrieur 50%.
Remarque 1. On sait videmment depuis des lustres qu'il y a plus de filles que de garons dans ce
mtier, ce test statistique ne nous apprend donc rien d'intressant lui tout seul (ce qui est le cas de
beaucoup de tests statistiques, comme nous le verrons au chapitre suivant).
Remarque 2. Quel peut bien tre l'intrt de ce test par rapport au calcul de l'intervalle de confiance du
pourcentage de garons observ (qui est : [1,6 18,4%]) qui non seulement permet la mme
conclusion mais fournit une ide de la prcision de notre estimation et permet par la mme occasion de
calculer les bornes de l'intervalle de confiance de l'cart concret entre la valeur observe et la valeur
thorique de 50% [31,648,4%]? C'est une bonne question, dbattue galement dans le chapitre
suivant. Patience.
7.2 dtail des tapes d'un test statistique
7.2.1 Choix de Ho
Pour des raisons expliques plus loin, l'hypothse Ho sera habituellement soit du type
"rien signaler" (Ho : les moyennes A et B sont gales), soit une valeur ponctuelle
(Ho : p = 10%). Cette hypothse est choisie de manire pouvoir connatre la
distribution d'une certaine variable alatoire de test (que je nommerais T) si Ho est
vraie. On dira qu'on connat la distribution de T sous Ho. Cette variable alatoire T sera
base sur une moyenne, un pourcentage, une diffrence entre deux moyenne ou entre
deux pourcentage, peu importe, l'essentiel est qu'on connaisse sa distribution sous Ho,
donc si Ho est vraie. Pensez vous que si je rpte encore une demi douzaine de fois "si
Ho est vraie" vous comprendrez tous ds maintenant que la probabilit P que fournit un
test statistique est la probabilit d'observer un certain type de rsultat si Ho est vraie et
non pas la probabilit que Ho soit vraie ? J'en doute un peu. Ceci dit vous finirez par le
comprendre, mme si c'est probablement une des notions les plus retorses en stats (et a
n'est pas la comptition qui manque !).
Le choix de Ho est droutant pour les dbutants car il donne l'impression de fonctionner
l'envers. En effet, les expriences sont conues pour dtecter (et quantifier) des effets,
ou des phnomnes. On s'attend donc spontanment des hypothses du type "le rsultat
dans le groupe trait va tre diffrent de celui du groupe tmoin". Or, la mcanique des
tests statistiques utilise habituellement des hypothses Ho du type "le traitement n'a
aucun effet", que le test est capable de rejeter. Dans les tests statistiques tels qu'ils sont
enseigns de manire classique, l'hypothse Ho sera donc du type "rien signaler".
Exemples :
Ho : "la moyenne de la population est gale la moyenne thorique"
Ho : "il y a autant de mles que de femelles (i.e. 50%) dans la population"
Ho : "le pourcentage de gauchers est identique chez les hommes et les femmes"
Ho : "le coefficient de corrlation entre la taille et le poids est nul"
Ho : "l'azote n'a aucun effet sur le rendement du gougnafier fleurs bleues"
Il semblait pourtant raisonnable, si on souponnait un effet particulier, de poser les
hypothses de travail en supposant une direction de l'effet, par exemple :
Ho : "la moyenne de la population est suprieure la moyenne thorique"
Ho "il y a davantage de femelles que de mles dans cette population
Ho "le pourcentage de gauchers est plus lev chez les hommes"
Ho : "le coefficient de corrlation entre la taille et le poids est suprieur 0,8"
Ho "l'azote diminue (!) le rendement du gougnafier fleurs bleues"
Car bien entendu, ce sont ces possibilits l qui nous intressent, ce sont elles qui nous
disent qu'il "se passe quelque chose", ce sont pour elles que les expriences sont
ralises. Cependant, il est techniquement beaucoup plus facile de rejeter une hypothse
base sur un point (Ho : "50% de garons") parce qu'elle est largement contredite par les
rsultats (p
obs
= 10% de garons) que de valider une hypothse, surtout si elle est
constitue d'une multitude de possibilits. Une hypothse comme "il y a davantage de
femelles que de mles" est une hypothse compose d'une infinit de possibilits : elle
sera vraie si le pourcentage de femelles est en ralit de 51%, de 60%, ou mme de
99%. Comment calculer une gamme de rsultats qui n'auraient presque aucune chance
de se produire si Ho tait vraie s'il y a une infinit d'hypothses Ho? Que conclure par
exemple si p
obs
=49% de garons ? Clairement, vu les fluctuations d'chantillonnage,
cette observation serait trs compatible avec l'hypothse "51% de filles", mais serait
presque totalement incompatible avec l'hypothse "90% de filles"
En posant "Ho : le pourcentage de mles est de 50%" et que si le test rejette Ho, on
dispose de trois informations : (i) on sait que le sex-ratio est dsquilibr, (ii) on sait
dans quel direction il est dsquilibr, (iii) la probabilit associe au test nous permet de
savoir quel point
7. 2. 2 Calcul de la zone de rejet de Ho
Connaissant la distribution de T, on peut dterminer quelles sont ses valeurs les plus
extrmes, les plus loignes de la valeur moyenne attendue, autrement dit les valeurs
qui n'ont presque aucune chance d'tre observes si Ho est vraie. Notre connaissance
de la distribution de T sous Ho nous permet en particulier de calculer avec prcision les
gammes de valeurs extrmes qui seront observes avec une probabilit que nous
pouvons choisir librement. L'ide est bien entendu de choisir petit, car souvenez vous
que nous souhaitons connatre les valeurs qui n'ont presque aucune chance d'tre
observes si Ho est vraie. En sciences, le risque maximum que l'on consente est =
0,05 soit pas plus de 5% des cas. Supposons ici que = 0,05
Nous voil nantis de deux
3
, zones de rejet de Ho contenant /2=2,5% de la distribution
de T sous Ho. L'une de ces zones de rejet concerne les 2,5% des valeurs extrmes de T
"incroyablement leves" par rapport la valeur moyenne attendue sous Ho. L'autre
3
il peut n'y en avoir qu'une groupant 5% des valeurs elle seule, exemple : la distribution du Chi2
zone de rejet concerne les 2,5% des valeurs extrmes de T "incroyablement basses" par
rapport la valeur moyenne attendue sous Ho.
7.2.3 Calcul de la valeur de la variable de test
Avec les donnes observes, nous calculons la valeur de T. Soit Tobs cette valeur. Il est
videmment possible de calculer Tobs puisque T est choisie la base selon deux critres
(1) pouvoir tre calcul avec les donnes, (2) avoir une distribution connue sous Ho.
Maintenant, le moment de vrit
4
7.2.4 Verdict du test
Si T
obs
appartient une des deux zones de rejet de Ho, on... rejette Ho (logique) selon
l'argument que si Ho tait vraie, on aurait (presque) jamais pu observer une telle valeur
de T. Il est donc plus parcimonieux d'accepter l'hypothse selon laquelle Ho est
probablement fausse (ce qui expliquerait trs facilement le rsultat obtenu).
Si T
obs
n'appartient une des deux zones de rejet de Ho, on ne rejette pas Ho (toujours
aussi logique), ce qui signifie qu'on considre ne pas avoir d'lments suffisamment
solides pour la dclarer peu crdible. Il est de la plus extrme importance que vous
compreniez que cela ne signifie pas qu'on a dmontr que Ho est vraie. J'insiste, cela
signifie simplement qu'on a pas suffisamment de raison de souponner que Ho soit
fausse.
7.3 Les risques du mtier
Les dcisions que nous avons prises ne vont pas sans risque, et on peut en distinguer
deux : le risque d'avoir rejet Ho alors qu'elle tait vraie, le risque de ne pas avoir rejet
Ho alors qu'elle tait fausse. Restez bien assis : malgr tout ce que vous pourrez lire, il
n'y a (gnralement) aucun moyen de connatre ces risques. En revanche, on peut trs
prcisment en calculer d'autres. Le tableau suivant prsente la situation. la range du
haut prsente la ralit : peut tre que Ho est vraie (la probabilit en est p(Ho),
inconnue) mais peut tre qu'elle est fausse (et 1-p(Ho) est tout aussi inconnue). Les
lignes correspondent aux diffrentes dcisions possibles, qui sont bonnes ou mauvaises
selon la situation. Chaque case comporte une probabilit, qui n'est pas vraie dans
l'absolu mais conditionne la probabilit de la colonne dans laquelle elle se trouve.
Tableau 7.1 Les rgles de dcision lors d'un test d'hypothse
Dcision
Ralit ( jamais inconnue, habituellement)
Ho est vraie : P(Ho) Ho est fausse : [1 P(Ho)]
Ho rejete mauvaise dcision, risque bonne dcision, (1 ) = puissance
Ho non rejete bonne dcision mauvaise dcision, risque
On conclut de ce tableau que :
la vritable probabilit de rejeter Ho par erreur est P(Ho) et non pas
la vritable probabilit de ne pas rejeter Ho tort est [1 P(Ho)] et non pas
4
vrit " probable" seulement, hlas. En statistiques, vous ne serez jamais SUR de quoi que ce soit.
7.3.1 Le risque de premire espce,
Lorsque nous rejetons Ho parce que la valeur de Tobs se situe dans la zone de rejet, nous
savons que ce rsultat pouvait se produire dans (au maximum) 5% des cas si Ho tait
vraie. Nous matrisons donc totalement ce risque l, puisque c'est nous qui le
choisissons. Ce risque est nomm , risque de premire espce
5
. Sa dfinition correcte
est "le risque de rejeter Ho si elle est vraie". En revanche, il est presque
systmatiquement compris (incorrectement) comme "le risque de rejeter Ho alors
qu'elle tait vraie" ou "le risque de rejeter Ho par erreur". Ca n'est pas la mme chose.
Je vous avais prvenu, c'est subtil (et je me suis certainement fait piger moult fois
dire voire crire une chose pour l'autre). Le vritable risque de rejeter Ho par erreur est
inconnu tout simplement parce qu'il dpend de la probabilit que... Ho soit vraie, qui est
inconnue (en gnral). La bonne nouvelle est que cette erreur d'interprtation est sans
consquences : le vritable risque de rejeter Ho par erreur est forcment... infrieur
puisque la probabilit que Ho soit vraie est infrieure ou gale 1.
7.3.2 Le risque de seconde espce,
Nous voulons ne rejeter Ho qu'en tant srs de nous. Cela signifie que nous ne le ferons
que pour des valeurs de Tobs extrmes, des valeurs vraiment trs peu crdibles si Ho est
vraie. Si jamais une valeur de Tobs est assez peu crdible sous Ho mais pas trs peu
crdible, nous conservons Ho faute de preuves, par prudence. Vous voyez quel est le
problme : nous allons passer ct d'effets qui n'auront pas t suffisamment forts pour
provoquer une valeur de Tobs extrme. Ce risque, le risque de ne pas rejeter Ho si elle
est fausse est , le risque de seconde espce. Ce risque ne peut pas tre calcul sans
apporter d'autres lments que ceux qui figurent dans le tableau. En effet, Ho "A = B"
peut tre fausse de milliers de manires diffrentes (exemple : "A B = 2 " mais aussi
"A B = 2000 "...), et pour chacune d'elle il existe un risque spcifique. Le risque
global est donc la combinaison de l'infinit des possibilits d'carts Ho avec chacune
son risque spcifique. Inutile donc d'essayer de le calculer globalement, d'autant plus
que lui aussi dpend de la probabilit (inconnue) que Ho soit vraie.
7.3.3 La puissance du test, (1 )
Sachant que est totalement hors d'atteinte, s'intresser (1 ) semble un bon moyen
de compltement perdre son temps. Comme quoi les apparences sont trompeuses. Ce
paramtre est d'une importance capitale si on ne veut pas passer sa vie faire des
manips sans jamais pouvoir rejeter Ho. Il se nomme puissance (tout un programme), et
reprsente la probabilit de rejeter Ho si elle est fausse. Autrement dit, c'est la
probabilit de voir quelque chose quand il y a quelque chose voir. On conoit qu'un
chercheur ne puisse rester indiffrent un tel paramtre, et cherche en augmenter la
valeur par tous les moyens. Ces moyens, au nombre de trois, sont bien connus, mme
s'il n'est pas toujours possible de les utiliser tous les trois :
5
Type I error en anglais
Augmenter l'effectif Ce moyen est d'une efficacit vidente puisque la taille de
l'chantillon augmente la prcision de vos estimations (il diminue les intervalles de
confiance). Malheureusement, on a vu que cette augmentation de prcision est
proportionnelle la racine carre de l'effectif : si vous voulez une prcision dix fois
meilleure, il vous faudra... cent fois plus d'individus. Votre capacit d'augmenter la
puissance ainsi n'est donc pas illimite pour des raisons de cots, de temps, de matriel,
(sans mme parler des problmes thiques et rglementaires si ce sont des organismes
suprieurs voire des patients qui constituent l'chantillon).
Limiter la variance Le second moyen consiste planifier son exprience de manire
rduire au maximum les variations des facteurs autres que celui qui est test : utiliser
quand c'est possible des individus du mme sexe, du mme ge, gntiquement proches,
ayant grandi dans les mmes conditions, standardiser au maximum toutes les procdures
exprimentales, effectuer les observations dans la mme plage horaire, avec le mme
exprimentateur etc.
Favoriser les effets spectaculaires Ce moyen consiste, lorsqu'on manipule le
traitement librement, utiliser une "cause" de grande intensit, de manire maximiser
les chances de dceler un effet. Exemple : si vous souponnez que {la substance X/le
facteur F} a un effet, testez la/le d'abord forte dose/avec une forte intensit. Si un effet
est effectivement dcel, vous pourrez ensuite rduire la dose/l'intensit et tablir la
relation dose/intensiteffet.
La puissance est un thme si important qu'il fera l'objet d'un chapitre lui tout seul.
Pour que le dbat puisse tre plus concret, ce chapitre est plac en fin d'ouvrage, c'est
dire aprs vous avoir prsent l'utilisation des tests.
7.4 Les sources historiques d'un problme actuel
Sans vouloir dflorer le sujet du chapitre suivant, tout n'est pas rose et consensuel dans
le monde merveilleux des tests statistiques. Et a ne date pas d'hier. Mais au fait, d'o
viennent tous ces tests ?
7.4.1 King Fisher et les tests de significativit <citer la source biblio>
Le temple originel des tests statistique existe. Il s'agit de la station agronomique anglaise
de Rothamsted, ou travaillait un certain Ronald Aylmer Fisher, devenu par la suite Sir
R. A. Fisher par la grce de Her Majesty The Queen, pour services rendus la science.
Surmontant un lourd handicap de dpart (il venait des mathmatiques dites pures), RA
Fisher a su se mettre la porte des utilisateurs (de modestes ingnieurs agronomes, ou
leur quivalent anglais) et a dvelopp toute une srie d'outils mathmatiques
extrmement impurs, c'est dire utilisables par le chercheur moyen, qui sont
universellement en usage aujourd'hui. On lui doit le concept de l'hypothse nulle Ho, le
seuil compltement anecdotique = 0,05 (mme s'il ne l'appelait pas ni "risque de
premire espce"), seuil de 5% auquel Fisher n'accordait qu'une importance pratique et
non sacre. On lui doit aussi les fameuses valeur P fournies par les tests statistiques.
Dans l'esprit de Fisher, le but du test est de rejeter des hypothses nulles du type "pas
d'effet" de manire trier rapidement parmi des tas de traitements (agronomiques)
lesquels ont probablement un effet.
La procdure utilise par Fisher pour procder un test statistique est la suivante :
(1) fixer une hypothse nulle du type "pas d'effet"
(2) calculer la probabilit P d'observer des donnes encore plus loignes de Ho
que ce qui est effectivement observ lors de l'exprience
(3) considrer que plus P est faible, moins Ho est crdible.
Un point, c'est tout. En particulier, ne prendre aucune dcision sans avoir fait des
rptitions de l'exprience. Fisher utilise donc la probabilit P du test comme une
mesure des prsomptions qui psent l'encontre de l'hypothse nulle. Il nomme cette
prsomption la significativit. plus P est faible, moins l'hypothse nulle est crdible, et
plus la significativit est leve. Ce mot significativit renvoie la notion que l'ffet
observ signifie quelque chose, il a un sens, il n'est probablement pas d au seul hasard.
Fisher travaille dans un contexte d'exprimentation applique. Il ralise des sries
d'expriences, et cette notion est fondamentale. Le seuil de = 0,05 est un simple
premier crible. Lorsque P > 0,05 (test "non significatif") Fisher prfre passer autre
chose car il effectue un travail de dfrichage, il y a beaucoup d'effets dcouvrir et la
vie est courte, mais si P < 0,05, Fisher ne crie pas sur les toits "Hourrah ! Les amis, j'ai
dcouvert un effet !". Il se contente de conclure que ce traitement vaut la peine qu'on s'y
intresse, et lance une srie d'expriences pour essayer de rpliquer l'effet qu'il a peut
tre dcouvert. C'est seulement lorsqu'on connat un protocole tel qu'une probabilit
de P <0,05 est presque systmatiquement obtenue rptition aprs rptition de
l'exprience, qu'il s'estime satisfait. Cette attitude est des annes lumire de la manire
moderne d'utiliser les tests. Vous noterez que Fisher se moque apparemment comme de
son premier quintal de bl du risque bta et de la puissance. Non seulement ces notions
ne font pas partie de son vocabulaire, mais il va mme combattre avec acharnement les
thoriciens (on y vient tout de suite) qui vont les introduire. Fisher ne nglige pas ces
concepts parce qu'il se moque des chances de ne pas rejeter Ho si elle est fausse, mais
parce qu'il travaille dans des conditions appliques. A ce titre, il suit son feeling
d'exprimentateur et n'applique pas lui mme le critre = 0,05 avec rigidit. n'oubliez
pas que Fisher compte surtout sur la rptition des expriences pour avoir confiance
dans la ralit d'un effet rel. Malgr ses dfauts (qui n'en a pas ?) Sir R. A. Fisher reste
ce jour le plus grand statisticiens de tous les temps.
7.4.2 Neyman et Pearson (le fils de son pre)
Jerzy Neyman et Egon Pearson sont avant tout des mathmaticiens (Dieu les bnisse)
et non des exprimentateurs
6
. Ils trouvent probablement que la notion de test de
significativit mis sur pied par Fisher (dont ils respectent tout fait les grandes
comptences, qu'ils ne mettrons jamais en doute) est un peu trop empirique leur got.
Surtout, ils ont repr une faille dans son systme, qui est la ngligence du risque bta,
6
Je caricature outrageusement. Neyman a touch un peu tout en ralit.
le risque de ne pas rejeter Ho si elle est fausse. Ils remarquent galement au passage que
Fisher ne donne pas de nom l'hypothse selon laquelle Ho est fausse, et qu'il ne donne
pas de rgle de dcision fixe pour accepter ou rejeter Ho. Ils vont remdier tout a et
creer un cadre thorique solide dans lequel on puisse prendre des dcisions en utilisant
une rgle fixe qui permet de matriser alpha et bta long terme. On doit donc
Neyman et Pearson le tableau 7.1 et la notion de test d'hypothse (et non pas de test de
significativit), ce sont eux qui vont choisir les symboles alpha et bta et donc les
notions de risque de premire et de seconde espce. Enfin, contribution essentielle au
dbat, Neyman et Pearson introduisent la notion de puissance.
Le raisonnement de Neyman et Pearson est celui ci : en se fixant une rgle claire, et
tout en sachant trs bien qu'un test statistique isol ne peut pas dire le vrai et le faux, on
va pouvoir fixer notre risque alpha et bta long terme, c'est dire sur une infinit
d'expriences. La rgle du jeu devient donc la suivante
(1) choisir une hypothse Ho et une hypothse H1 explicite (H1 peut tre par
exemple que muB > muA). Cette hypothse H1 est nomme alternative
hypothesis, ce qui signifie en anglais "l'autre hypothse" mais qui a t mal traduit
en Franais "hypothse alternative".
(2) fixer l'avance un risque alpha ET un risque bta lorsque c'est possible, (ce
qui est le cas en particulier si l'hypothse H1 est une valeur fixe), et par l mme,
une puissance pour le test
(3) dterminer la zone de rejet de Ho.
(4) calculer la variable de test T
(5) si T tombe dans la zone de rejet, on rejette Ho au risque alpha = 0,05 et on
accepte donc H1.
(6) si T ne tombe pas dans la zone de rejet, on choisit Ho au risque bta
gnralement inconnu (sauf exceptions)
Si ce cadre est respect, sur une grande srie d'exprience, on rejettera Ho tort dans
une proportion alpha * p(Ho) et on conservera Ho tort dans une proportion bta (1-P
(Ho) ou bta est en fait la moyenne des diffrents gnralement inconnus.
Comme vous le voyez, selon le cadre thorique de Neyman et Pearson, chaque test
statistique amne une dcision : soit on choisit H1, soit on choisit H0. Bien entendu,
choisir Ho ne signifie pas qu'on a dmontr qu'elle est vraie, mais signifie qu'on
considre qu'elle est vraie, sachant qu'on a un risque de se tromper qui est bta * (1-p
(Ho). Par ailleurs, vous avez peut tre remarqu l'absence remarquable de P dans cette
histoire. C'est normal, Neyman et Pearson ne s'intressent P que trs indirectement :
pour dterminer si oui ou non T tombe dans la zone de rejet. Si T tombe dans la zone de
rejet de Ho avec P = 0,04 ou bien P = 0,000004 la dcision est la mme : on rejette Ho
au seuil alpha = 0,05. Je dis bien au seuil alpha = 0,05 et non au seuil alpha = 0,000004 :
selon la logique long terme de Neyman et Pearson, on ne s'amuse pas changer
d'objectif au gr des circonstances : si on s'est fix comme objectif long terme un
risque alpha de 5%, on colle ce seuil quoi qu'il arrive.
Les tres humains tant ce qu'ils sont, Fisher est immdiatement rentr dans le lard de
Neyman et Pearson. Ds la publication de leur premier article, il s'est mme mis tirer
boulets rouges sur leur systme, qui tait ses yeux totalement technocratique et digne
de la planification communiste, bref totalement dconnect de la manire dont la
science tait faite au jour le jour. Il y a eu par la suite une longue srie d'changes,
toujours sur le mode de l'agression, entre les deux quipes, et chacun camp sur ses
positions jusqu' la mort de tous les protagonistes. Se rajoute cela une histoire de
famille et de gros sous, cocasse avec le recul historique, mais qui a eu des consquences
internationales inattendues. Le pre de Egon Pearson tait le grand Karl Pearson
(l'inventeur du coefficient de corrlation, dont le nom complet est "r de Pearson"). Karl
Pearson tait l'diteur en chef de la revue de biostatistiques Biometrika, et avait refus
Fisher de reproduire dans son ouvrage certaines tables statistiques qui y figuraient, car il
vendait lui mme ces tables (il n'y avait ni photocopieuses ni videmment de logiciels
statistiques l'poque) et en tirait un petit revenu. En rtorsion, Fisher avait donc publi
ses propres tables dans lesquelles, pour des raisons pratiques, il utilisait les seuils de
alpha = 0,05 et alpha = 0,01. Egon Pearson devait noter par la suite avec humour que la
publication de ses tables avait fait beaucoup pour l'tablissement de standard
internationaux du risque de premire espce qu'ils dfendaient. Et voil pourquoi encore
ce jour les tables statistiques utilisent les seuils alpha = 0,05 et alpha = 0,01. J'ai moi
mme utilis ces seuils (parce qu'il n'y a pas d'autre moyens quand on imprime des
tables), mais ils constituent une survivance du pass. Dans les articles scientifiques
modernes, on tend de plus en plus indiquer la valeur exacte de P puisque c'est ainsi
que les logiciels procdent. Donner la valeur exacte de P est une trs bonne chose, car
cela tend dsacraliser le seuil de 0,05. Ceci dit, cette tradition change lentement, ce qui
est le propre des traditions.
7.6 L'approche moderne : le beurre, l'argent du beurre, et une belle bchamel...
Si vous relisez la section 7.1 qui dfinit les tapes d'un test statistique "moderne" vous
constaterez qu'il s'agit en fait d'une hybridation sauvage entre l'approche de Fisher et
celle de Neyman et Pearson. De Fisher on a conserv Ho et P, tout en prsentant les
dcisions sous l'angle de Neyman et Pearson (risques alpha et bta, puissance), mais en
faisant valser alpha selon ce qu'on trouve, puisqu'on accorde une grande importance la
valeur P, qui est la premire voire la seule chose que beaucoup de gens regardent
lorsqu'ils font un test statistique, et qui est fortement mise en valeur lors qu'on prsente
triomphalement les rsultats d'un tests, rsultats qui portent habituellement sur UNE
exprience, sur laquelle on tire quand mme des conclusions plus ou moins dfinitives.
En bref, tous les tests statistiques modernes sont effectus selon une mthode qui
aurait mis Fisher dans une colre noire et qui auraient dsol Neyman et Pearson par
leur aspect dcousu. Le gag est que personne n'est capable d'expliquer comment cette
synthse hybride s'est mise en place, puisque les deux approches se combattaient
farouchement. Toujours est il que nous faisons actuellement nos tests statistiques d'une
manire trange, qui n'a t valide par aucun des deux courants de pense ayant fond
le principe des tests statistiques. Cette situation est paradoxale, voire inquitante, ce qui
nous amne dcouvrir... le ct obscur de la force, dans le chapitre suivant.
D. Poinsot Statistiques pour statophobes

Deuxime partie
Sachez utiliser les tests statistiques
Avec Parsimoni et Abonessian
Les tests statistiques sont un sujet difficile, mais galement comme vous le dcouvrirez
peut tre avec surprise hautement polmique. J'ai donc fait appel deux fins experts, qui
interviendront tout au long de cette seconde partie, chaque fois qu'ils en ressentiront le
besoin. Ils se connaissent depuis longtemps et se chamaillent tout propos (comme il sied
des experts), mais savent toujours tomber d'accord sur l'essentiel.
Giuseppe Parsimoni occupe depuis de trs nombreuses annes la chaire d'conomie en
statistiques de l'universit mditerranenne de Chevapiano. Farouche partisan des
intervalles de confiance, sa vision des tests statistiques actuels est extrmement critique. Il
soutient que dans neuf cas sur dix, le calcul d'un intervalle de confiance autour des valeurs
estimes, ainsi que le calcul de la magnitude de l'effet observ (avec son intervalle de
confiance galement) sont largement suffisants (et suprieurs un test) pour rpondre
concrtement et intelligemment la question pose. Ses ouvrages majeurs incluent
Statistica al' economia, Testi i tutti quanti ma non tropo, ainsi que le lapidaire Data e
basta !. Son chef d'oeuvre est bien entendu Il principio di Parsimoni, traduit en 25 langues
et largement utilis en biologie volutive.
Tigran Abonessian dirige d'une main de fer le Black Sea Institute for the Wise Use of
Modern Statistics de Testanova, au bord de la Mer Noire. Tout en admettant volontiers le
bien fond de nombreuses critiques de son collgue Parsimoni, il soutient que les tests
statistiques gardent leur mot dire dans le monde scientifique moderne, condition de les
utiliser avec pertinence, et seulement pour ce qu'ils sont, et non comme des oracles
miraculeux. Il est l'auteur de plusieurs ouvrages sur l'usage inadapt des tests, dont ANOVA
is Not a dying star, Kurtosity killed the cat, ainsi que A test in need is a friend indeed. Son
oeuvre majeure est cependant On The Origin of Slopiness by Means of Statistical
Confusion.

8. La fin des tests statistiques ?
Il y a quelque chose de pourri au royaume du Danemark
SHAKESPEARE (Hamlet)
Viens, viens dcouvrir le ct sombre de la force, Luke.
DARTH VADOR (Star Wars)
Attention : si vous ne voulez pas perdre dfinitivement votre foi
dans l'infaillibilit de la Science, ne lisez surtout pas ce
chapitre ! Fuyez pendant quil en est encore temps !
Bon, vous laurez voulu.
Une information alarmante est habituellement passe sous silence dans lintroduction des
dizaines de manuels dintroduction aux tests statistiques qui garnissent les tagres des
bibliothques universitaires l'attention des dbutants (et des moins dbutants). Il sagit du
fait que lutilisation des omniprsents tests dhypothses (Z, t,
2
, ANOVA etc...) telle
qu'elle est pratique dans les revues de recherche scientifiques du monde entier (autrement
dit lapproche Ho contre H1, si P < 0,05 je rejette Ho ) est vigoureusement remise en
cause depuis plus d'un demi sicle. Plus perturbant encore, cette critique radicale (et de
plus en plus pressante) nest pas issue dun collectif anarchiste ou d'un ramassis de
feignants incultes allergiques aux mathmatiques et nayant jamais analys des donnes de
leur vie. Bien au contraire, la charge contre lutilisation traditionnelle des tests dhypothse
est mene depuis 1935 environ par des statisticiens chevronns et des chercheurs trs
expriments qui utilisent les statistiques dans leur travail de recherche. William Thomson,
un chercheur de la Colorado State University, a recens dans la littrature scientifique du
plus haut niveau plus de 400 articles et de chapitres d'ouvrages (voire d'ouvrages entiers)
sur ce thme
1
! les plus anciennes de ces protestations remontent aux annes 1930 et sont
apparues ds la mise au point des tests (autrement dit, on ne vient pas de sapercevoir du
problme !), la vague de critiques a cru et embelli dans les annes 50, 60, 70, 80, 90 (avec
la publication par un groupe de psychologues d'un ouvrage (contest) intitul sobrement
"What if there were no significance tests ?") et elle n'a rien perdu de sa vigueur, bien au
contraire. Un symposium portant entirement sur la question a rassembl des statisticiens
Buffalo en 1998, et une Task Force spciale comme seuls les amricains en ont le secret a
1
http://www.cnr.colostate.edu/~anderson/thompson1.html

t forme par la American Psychological Association pour dicter des recommandations
aux auteurs publiant dans ses plus prestigieuses revues scientifiques de cette discipline. Le
rapport de cette task force inclut un bon nombre des critiques acerbes pleuvant sur les tests
statistiques, et enjoint tout auteur dsireux de publier dans les revues de l'APA d'en tenir
compte.
Jai enseign les bases des statistiques des tudiants de matrise de biologie pendant
plusieurs annes, sans jamais honte moi avoir entendu parler de cette polmique
pourtant mondiale et ancienne, preuve quelle ne fait pas franchement partie des
enseignements traditionnels que j'ai moi mme reus, et je n'ai encore rien lu ce sujet
dans un manuel de statistiques. De l penser quil y a un complot mondial pour nous
cacher certaines choses il ny a quun pas. Il serait videmment grotesque de le franchir, et
400 articles scientifiques en accs libre dans de prestigieuses revues comit de lecture
sont l pour tmoigner du fait que ces problmes sont en fait identifis depuis longtemps,
mme s'ils semblent avoir du mal diffuser en dehors de la sphre des spcialistes. Je
remercie donc chaleureusement mon collgue le Pr. Jean-Sbastien Pierre (thologue et
vritable biomathmaticien, lui) de m'avoir fait dcouvrir le ct sombre de la force, c'est
dire cette polmique troublante sur la lgitimit des tests statistiques, qui m'a amen faire
ma petite enqute sur la question. Imaginez un instant mon dsespoir initial ("quoi, aprs
tout ce que j'ai souffert pour apprendre utiliser ces satans tests, maintenant on vient me
dire qu'il ne faut plus s'en servir ???")
Mais quelles sont ces critiques au juste ? Ecoutons le vnrable mais toujours nergique
Giuseppe Parcimoni vous les dcrire avec flamme :
G. Parcimoni Mes enfants, ne tombez pas dans le pige comme tous les moutons
de Panurge qui vous ont prcds. Mfiez vous des tests, leurs P qui veulent
simplement dire "Poudre aux yeux", et leurs "toiles" qui vous cachent le ciel et
pire encore vos propres donnes ! Remplacez-les chaque fois que vous pourrez
c'est dire presque tout le temps ! par de bon vieux intervalles de confiance. On a
jamais rien fait de mieux. Apprenez utiliser les intervalles de confiance, car ils sont
la base de tout et vous obligent regarder vos donnes. Un bon intervalle de
confiance vaut tous les tests du monde. Et si vous ne me croyez pas, mditez ceci :
(1) Dans l'crasante majorit des cas, les hypothses Ho utilises par les tests sont du
type "aucun effet". Or, elles sont presque forcment fausses (et parfois, on le sait
mme parfaitement ds le dpart !) car tout ou presque a un effet sur tout ou presque,
mme si l'effet en question est minusculissime. Le fait quun test soit statistiquement
significatif revient donc la plupart du temps enfoncer une porte ouverte. On se doute
bien que la substance X va avoir un effet sur le taux de division cellulaire. La vraie
question qu'on se pose est en fait : quelle est la magnitude de cet effet. Ce calcul
ncessite de se concentrer sur les valeurs obtenues avec ou sans la substance X, et sur
leur fiabilit, donc, sur leurs intervalles de confiance.
(2) puisqu'en gnral il y a toujours un effet (aussi minuscule soit il) il suffit d'un
chantillon suffisamment grand pour montrer que presque nimporte quoi est
statistiquement significatif. La belle affaire ! En revanche, le fait quun effet soit
statistiquement significatif napporte aucune information concrte sur la magnitude

de leffet en question (on ne peut donc pas mesurer son intrt scientifique) ni sur la
prcision avec laquelle il a t estim (on ne peut donc pas connatre la fiabilit de la
magnitude de l'effet observ). En revanche, calculer les intervalles de confiance
permet encore une fois de rpondre de manire naturelle ces questions
fondamentales.
(3) Avec un chantillons suffisamment petit, on peut obtenir au contraire un rsultat
non significatif sur nimporte quoi, par simple manque de puissance du test. Le fait
quun rsultat ne soit pas statistiquement significatif napporte donc aucune
information non plus si on s'en tient l (et 9 fois sur 10 on s'en tient justement l). Or,
en gnral, la puissance des tests est faible car l'habitude n'est pas encore prise de
d'estimer la puissance du test avant de lancer la manip, particulirement parce que
cela oblige rflchir en profondeur sur les objectifs de l'exprience et obtenir des
rponses prcises des questions difficiles. Le calcul d'un intervalle de confiance
autour d'une valeur estime vous protge automatiquement contre ce risque, car il
vous montre littralement la gamme de valeurs dans lesquelles se trouve
probablement la ralit. Observer que l'intervalle de confiance du pourcentage de
mles d'une population est [10 90%] vous empche de conclure comme un automate
"J'ai test l'cart la valeur thorique 50% par un chi2, mon test est non significatif
avec P = 0,85 donc le sex-ratio est srement quilibr", ce qui est une aberration.
Encore une fois, l'intervalle de confiance est bien plus pertinent et informatif que le
test.
(4) Le fait que Ho ne soit pas rejete (test non significatif) est trop souvent
abusivement interprt comme une confirmation (au moins implicite) de Ho (pas
d'effet), alors que dans la plupart des cas les rsultats seraient galement compatibles
avec des hypothses trs distinctes de Ho (justement cause du manque de puissance
du test). On passe ainsi ct d'effets intressants. La rponse : regardez donc la
taille de votre intervalle de confiance, et la sagesse reviendra immdiatement.
(5) Lorsque Ho est rejete (test significatif), beaucoup de chercheurs confondent la
probabilit P du test avec la probabilit que Ho soit vraie (par exemple, P =0,001 est
suppos signifier que la probabilit que Ho soit vraie est 0,001). Or, la probabilit P
est la probabilit d'observer les donnes (ou des donnes encore plus loignes de Ho)
si Ho est vraie. Il n'existe en fait aucun moyen de connatre la probabilit que Ho soit
vraie, que ce soit avant le test ou aprs, sauf cas trs particuliers. J'ajoute que la
probabilit P du test ne change pas de nature quand le test est significatif, puisque
c'est nous qui dcidons arbitrairement que le test devient "significatif" lorsque P <
0,05 ! Dans l'exemple du sex-ratio cit au point 4, la proba P = 0,85 ne signifie en rien
que le sex-ratio 85 chances sur 100 d'tre quilibr !
(6) La manire dont les rsultats sont prsents dans les articles scientifiques rend les
mta-analyses (la synthse entre plusieurs tudes, en combinant leurs rsultats pour
gagner en prcision) trs difficiles. En particulier, un effet peut tre jug non
significatif dans dix tudes de suite utilisant de trop petits effectifs alors mme que
les dix rsultats vont dans le mme sens, sans quil soit possible de synthtiser les
rsultats (ce qui permettrait de mettre en vidence quil y a bien un effet, et de le
quantifier). Les intervalles de confiance sont largement suprieurs cette approche,
car ils concentrent l'attention sur la valeur estime elle mme, qui est tout de mme la
base de tout ! Ils nous poussent comparer les valeurs concrtes, rellement
observes dans les diffrentes tudes, et pas le rsultat des "tests", qui sont
dsincarns.
(7) En bref, les scientifiques modernes shypnotisent beaucoup trop sur la
"significativit statistique" de leurs tests au lieu de se consacrer aux questions
importantes qui sont (i) quelle est limportance scientifique de l'effet mesur, qui est
fonction de la magnitude de l'effet (effect size) et du domaine scientifique considr

(en physique des particules, mme un effet infinitsimal peut avoir une importance
thorique trs grande), et (ii) avec quelle prcision (intervalle de confiance) cet effet a
t-il t mesur ?
Alors, faut il du pass faire table rase et envoyer les tests d'hypothses traditionnels aux
poubelles de lhistoire ? Certains chercheurs (en particulier dans le domaine de la
psychologie exprimentale) pensent que oui et lexpriment avec force. D'autres ont
protest contre cette ide, avec tout autant de force. En revanche, il existe entre les deux
camps un vaste consensus (y compris dans le monde des statisticiens purs et durs) sur le
fait que les tests statistiques sont souvent mal utiliss, qu'on attend d'eux des rponses pour
lesquels ils ne sont pas conus, et qu'on accorde leurs rsultats une importance si
exagre qu'elle va jusqu' clipser les donnes elles mmes. Cest pourquoi dautres
spcialistes plus modrs prchent plutt (ouf !) pour une approche moins mcanique
(voire "religieuse") des tests. Vous pouvez tlcharger sur internet des articles rcents qui
font le point trs clairement sur la question, et je vais juste ci dessous faire un petit tour
dhorizon des critiques listes plus haut, en m'efforant de faire la synthse de tout ce que
j'ai pu lire ce sujet. C'est le moment de laisser la parole Tigran Abonessian.
T. Abonessian Sacr Giuseppe ! Il tape dur, mais je dois admettre qu'il tape juste.
Disons simplement que, comme tous les gens du Sud, il exagre parfois un choua.
Voyons ses critiques d'un peu plus prs.
(1) les hypothses Ho du type "aucun effet" sont fausses ds le dpart.
Giuseppe est dans le vrai... la plupart du temps. Il a raison de souligner qu'il est
difficile d'imaginer un facteur qui russisse n'avoir aucun effet sur une variable
alatoire, en tout cas dans le cadre d'expriences relles, dans lesquelles on tudie des
facteurs qui peuvent tre raisonnablement souponns avoir un effet sur la variable
alatoire examine (personne ma connaissance ne cherche mettre en vidence par
exemple un effet de la production annuelle de betterave franaise sur la frquence des
taches solaires, ou un effet du signe astrologique sur la pression sanguine
quoique...). On peut se faire l'avocat du diable et "critiquer cette critique" en faisant
remarquer que l'hypothse Ho "l'effet de la transmission de pense est strictement
nul" est correcte jusqu' plus ample inform, et que le scientifique qui serait capable
de dmontrer un effet de ce type, aussi faible soit il, aurait fait grandement avancer
nos connaissances ! Il existe donc bien, certes exceptionnellement, des hypothses Ho
qui soient la fois scientifiquement intressantes rejeter et du type "pas d'effet du
tout". Elles sont cependant une minorit. La plupart des hypothses Ho que nous
rejetons sont des Hypothses Ho dont on sait ds le dpart qu'elles sont fausses (on se
doute qu'il y a un effet de A sur B, on veut surtout savoir s'il est ngligeable (car trs
petit) ou digne d'intrt (car suffisamment important). C'est pourquoi vous ne devez
surtout pas voir un test significatif comme une fin mais plutt comme une tape trs
prliminaire. Un test significatif n'est qu'un argument (et non une dmonstration
absolue) en faveur de l'existence (et surtout de la direction) de l'effet que l'on
souponnait. Il ne dispense pas d'estimer la magnitude de l'effet apparent (effect size)
et son intervalle de confiance, tapes qu'il faut de toute manire effectuer que l'effet
soit significatif ou non pour permettre de futures meta analyses. Le seul moyen de
dmontrer un effet de manire relativement certaine est d'tre capable de le rpliquer
un bon nombre de fois. Aucune tude ponctuelle, (mme si P<0,0001 !) ne possdera
jamais ce pouvoir, et il n'y a aucune raison de le lui donner. Les tests statistiques ont

t mis au point dans les annes 20 par R.A. Fisher dans le contexte de sries
d'expriences, pour faire le tri rapidement entre des effets significatifs (qu'il fallait
imprativement rpliquer) et des effets non significatifs (qu'il fallait se contenter de
ranger dans la catgorie "reste dterminer"). Cette philosophie a t pervertie par la
suite car le rsultat des tests a t utilis pour couler dans le bronze le rsultat d'tudes
ponctuelles. L'attitude raisonnable consiste donc non pas dboulonner ou brler les
idoles (les tests), mais les faire descendre de leur pidestal. Ce ne sont pas les tests
qui dcident du vrai ou du faux. Ils ne sont qu'un indicateur utile.
(2) Il suffit d'un chantillon suffisamment grand pour montrer que nimporte quoi est
statistiquement significatif.
Souligne de multiples fois par le pass, cette vrit est une vidence pour les
statisticiens professionnels, et elle ne peut piger en thorie que les amateurs. Le
problme est que nous sommes tous des amateurs. Mme les scientifiques, qui sont
videmment trs comptents dans leur domaine d'expertise (la biologie, l'cologie, la
mdecine...), ont bnfici au cours de leurs tudes d'une formation en statistiques
finalement assez modeste, voire sommaire, sauf exceptions. Bien entendu, chacun
d'entre nous peut se bercer de l'illusion de faire partie de ces exceptions, mais il ne
faut pas se voiler la face : les statistiques sont une discipline scientifique part
entire, une branche des mathmatiques avec ses propres revues de recherche et ses
congrs, et a n'est pas un hasard s'il existe des statisticiens professionnels ayant pass
une thse dans ce domaine.
Ironiquement, la meilleure protection des chercheurs contre le danger de dceler
des effets minuscules et sans intrt (bien que statistiquement significatifs) est
probablement... leur manque chronique de temps et de moyens. Je n'ai encore jamais
entendu de chercheur se plaindre du fait qu'il avait trop de donnes. En gnral,
lorsque nous dcelons un effet, a n'est pas un effet minuscule, tout simplement parce
que la taille de nos chantillons ne rend pas nos tests suffisamment puissants pour
cela ! En revanche, dans les rares cas ou l'on peut manipuler de grands voire de trs
grands jeux de donnes, il faut tre conscient du fait que nous devenons capables de
dceler des effets microscopiques, qui ne prsentent pas forcment d'intrt
scientifique ou pratique. C'est tout l'intrt du calcul de la magnitude d'un effet
mesurs (effect size), avec son intervalle de confiance pour pouvoir discuter de cet
aspect, et je suis pleinement en accord avec Giuseppe sur ce point.
(3) Avec un chantillons suffisamment petit, on obtenir au contraire un rsultat non
significatif sur nimporte quoi, par simple manque de puissance du test.
Cette remarque constitue le pendant vident de la remarque (2). Si votre chantillon
est trs (trop) petit, la puissance du test est faible, donc seulement les carts
quantitativement importants pourront tre dcels. Dans la pratique, ce risque est
largement plus lev que le prcdent, car le temps et les bras disponibles (sans parler
du budget) vous obligeront souvent travailler avec des tailles d'chantillons qui ne
sont pas aussi grande que vous le souhaiteriez. Donc, si votre exprience montre un
cart dans la direction attendue, mais sans atteindre le seuil magique de 0,05 c'est peut
tre qu'il n'y avait rien voir, mais c'est peut tre aussi parce que votre test manquait
de puissance. Il ne faut donc pas enterrer trop vite H1. Si vous croyez toujours votre
ide, il n'y a aucune raison de ne pas persvrer, cette fois avec un chantillon plus
grand. En revanche, sachez que calculer la puissance d'un test a posteriori (c'est dire
aprs le test) est compltement strile. Si le test est non significatif (et qu'il y avait
quand mme un effet), alors par dfinition sa puissance tait trop faible, et si le test
est significatif alors sa puissance tait suffisante. Un calcul de puissance, pour avoir
un sens, ncessite que vous dfinissiez a priori (donc l'avance) quelle est la
magnitude de l'effet que vous jugez scientifiquement intressant. C'est parfois

difficile, mais c'est seulement par rapport cet effet l que le calcul de puissance a un
sens.
Malheureusement, le manque de puissance attach aux petits chantillons peut
gnrer des effets pervers. En effet, il est parfaitement possible de choisir
volontairement une taille d'chantillon si faible qu'on a pratiquement aucune chance
de rejeter Ho. Mais franchement, qui ferait une chose pareille ? Eh bien la vrit n'est
peut tre pas si reluisante. Dans une mta analyse d'expriences en psychologie, il a
t not que la puissance moyenne des tests (la probabilit de rejeter Ho si elle tait
fausse) tait plus faible lorsque l'hypothse Ho tait l'hypothse privilgie par les
chercheurs que lorsque Ho tait une thorie qu'ils souhaitaient rejeter. S'il est
volontaire, ce comportement est videmment condamnable puisqu'il est malhonnte. Il
est (souhaitons le) inconscient. En clair, mme si vous pensez que Ho est vraie,
donnez sa chance H1 ! Pour cela, il faut une puissance raisonnable. Cette puissance
tant fonction de la magnitude de l'effet dceler, lui mme dpendant de la
discipline considre, il est cependant impossible de donner une rgle gnrale. Voir
la vaste littrature sur la puissance statistique pour une discussion approfondie de la
"bonne" taille des chantillons.
(4) Le fait que Ho ne soit pas rejete est trop souvent abusivement interprt comme
une confirmation (au moins implicite) de Ho.
Cette faute (conclure que Ho est vraie puisque le test est non significatif) ne devrait
jamais tre commise tant les mises en garde contre cette notion sont rptes toutes
les deux pages dans les manuels d'introduction aux statistiques mme les plus
lmentaires. Et pourtant, c'est une des choses les plus difficiles faire comprendre
aux tudiants quand on les initie la pratique des tests d'hypothse. On pourrait tre
tent sournoisement d'en dduire que les tudiants sont intellectuellement limits. Il
est plus raisonnable de conclure que la notion selon laquelle on ne peut jamais
accepter Ho est tout simplement difficile avaler (et n'oublions pas que les
chercheurs les plus brillants sont souvent d'anciens tudiants). Que penser alors
lorsque des "pros" se laissent glisser sur cette pente dangereuse en affirmant dans la
conclusion de leur article que "A n'a pas d'effet sur B" simplement parce que le test
tait non significatif ? Une explication raisonnable est qu'il faut lire ce genre de
dclaration entre les lignes, comme le raccourci plein de sous-entendus d'une phrase
beaucoup plus lourde qui serait "Je suis un chercheur comptent qui a ralis une
exprience en m'assurant que la taille de mon chantillon donnait suffisamment de
puissance mon tests statistique pour dceler avec une grande probabilit un effet
dont la magnitude serait digne d'intrt (et je sais videmment quelle magnitude est
digne d'intrt dans mon propre domaine de recherche), or aucun effet significatif n'a
t dcel, donc, si effet il y a, il n'est pas d'une magnitude digne d'intrt, en
conclusion je propose de dire qu'il n'y a "pas d'effet" parce que nous sommes entre
chercheurs donc vous voyez ce que je veux dire, chers collgues". Evidemment, cette
phrase est un peu plus longue. Sans tomber dans ce genre de formulation ridicule, il
est cependant utile de ne jamais donner l'impression qu'on a dmontr Ho, ne serait-ce
que parce que certains tudiants font l'effort de lire de vritables articles scientifiques
et que, ne sachant pas (encore) lire entre les lignes, ils risqueraient de prendre de
mauvaises habitudes.
(5) Lorsque Ho est rejete, beaucoup de chercheurs confondent la probabilit P du
test avec la probabilit que Ho soit vraie.
La tentation est effectivement irrsistible, lorsque votre test est significatif par
exemple P = 0,001, de conclure que la probabilit que Ho soit vraie est de une
chance sur mille. Malheureusement, a n'est pas ce que dit le test. Comme il est crit
dans tous les manuels, le test fournit en fait la probabilit d'avoir observ vos donnes

(ou des donnes encore plus loignes de Ho que les votres) si Ho est vraie. Donc, si
P = 0,001, tout ce qu'on peut dduire est que si Ho tait vraie, alors on observerait vos
rsultats (ou des rsultats encore plus loigns de Ho) une fois sur mille. Il n'existe
cependant aucun moyen au monde pour dduire de ces seules donnes la probabilit
que Ho elle mme soit vraie, aussi trange que cela puisse paratre. Il suffit pour s'en
convaincre d'tudier le rsultat d'un test pour lequel la diffrence observe entre le
tmoin et le trait est si petite que le rsultat est non significatif, avec P = 0,99. Qui
oserait en dduire que Ho (aucun effet) a 99 chances sur 100 d'tre vraie, alors qu'il
suffit que l'effet existe mais soit trs faible pour obtenir facilement le mme petit cart
entre le tmoin et le traitement ?
Pire encore, il existe des situations dans lesquelles malheureusement la probabilit
que Ho soit vraie est trs leve mme si le test est significatif. Cohen (1994) dcrit un
exemple difiant de situation dans laquelle un patient diagnostiqu comme
Schizophrne par un test clinique fiable 95% (95% des schizophrnes tests sont
dtects) et spcifique (97% des gens normaux tests sont jugs normaux) a une
probabilit de plus de 60% de ne pas tre schizophrne (alors que le test clinique le
diagnostique comme schizophrne !). Voir Cohen (1994) pour les dtails du calculs.
Prenons un autre exemple. Nous sommes en 1940. Monsieur Robert W. est un citoyen
amricain honnte de sexe mle, qui paye ses impts. On peut donc mettre
fermement l'hypothse Ho: "Robert W. est un homme". Il semble difficile de la
rejeter, mais nous allons quand mme essayer, au moyen d'un test statistique, bas sur
une variable de test T qui sera tout simplement sa taille, car on connat la distribution
des tailles dans l'espce humaine donc, en langage statistique, on connat la
distribution de T si Ho est vraie. En particulier, si Ho est vraie, la probabilit que T >
2,70 mtres est infrieure 10
9
(il y a moins d'une chance sur un milliard qu'un tre
humain mesure plus de 2,70 mtres), ce qui nous permet de dfinir une zone de rejet
pour notre test au seuil trs svre =10
9
(car exclure tort un tre humain de notre
espce est un acte grave, nous voulons tre sacrment srs de notre dcision !). Notre
rgle de dcision sera :
si T > 2,70, on rejette Ho au risque = 10
9
(un risque vraiment infinitsimal)
si T < 2,70 on ne rejette pas Ho, autrement dit on accorde a Robert W. le
bnfice du doute, et on refuse jusqu' preuve du contraire de l'exclure de l'espce
humaine.
On effectue alors l'exprience (c'est dire la mesure) : stupeur, Robert W. mesure
2,72 mtres! La raction bte et mchante serait : "Monsieur Robert W., j'ai le regret
de vous dire que vous n'tes pas un homme, un vrai. (P < 10
9
)", mais videmment
personne de sens ne dirait une chose pareille (en tout cas je ne m'y risquerais
certainement pas face un type qui fait deux mtres soixante douze !). L'intrt de cet
exemple est de montrer que la probabilit P associe au test n'est pas du tout la
probabilit que Ho soit vraie. Ici, on connaissait parfaitement la probabilit de Ho
avant mme d'effectuer le test. En effet, Robert W. tant un citoyen amricain de sexe
mle payant ses impts, la probabilit qu'il soit un homme tait certaine, elle tait de
100%, elle valait 1, et pas du tout 10
9
. Ca n'a pas empch le test de donner un P <
10
9
. A l'vidence, il peut donc exister un trs grand cart entre le P donn par le test
et la probabilit relle de Ho.
Rappelez vous bien une chose, c'est que le test nous dit ceci :
"Si Ho est vraie (donc, si le citoyen amricain de sexe mle Robert W. est un
homme), alors la probabilit que sa taille dpasse 2,72 m est P < 10
- 9
" (c'est
exact).
et non pas cela :
"Sachant que le citoyen amricain de sexe mle Robert W. a une taille de 2,72m,
la probabilit qu'il soit un homme est P <10
9
" (c'est faux)

Au passage, vous aviez peut tre reconnu Robert Wadlow [1918-1940], citoyen
amricain qui reste, ce jour, l'homme le plus grand de tous les temps.
En conclusion sur ce point, il est exact que plus la valeur P du test est faible, moins
l'hypothse Ho est vraisemblable, mais on ne peut pas aller plus loin que cette
relation "qualitative", et en particulier la valeur P du test ne permet en rien de
connatre la probabilit exacte que Ho soit vraie.
(6) La manire dont les rsultats sont prsents dans les articles scientifiques rend
souvent les mta-analyses (la synthse entre plusieurs tudes, en combinant leurs
rsultats pour gagner en prcision) trs difficiles.
C'est probablement moins vrai de nos jours, mais cette critique mrite qu'on s'y
attarde. Elle fait rfrence aux articles qui se contentent de citer les rsultats de
significativit des tests (les valeurs de P) sans donner les estimations des moyennes et
des effets observs eux mmes. Ce cas extrme rduisant toute la substance de
l'article au rsultat des tests effectus tait (d'aprs ses dtracteurs) semble til encore
courant il y a quelques annes. Exemple caricatural (et fictif): "L'apport de 50kg de
potasse/ha augmente le rendement du haricot par rapport un tmoin sans potasse (P
< 0,01)". Si c'est toute l'information disponible dans la partie "rsultats", on ne peut
effectivement pas en tirer grand chose. La question qui vient immdiatement l'esprit
est bien entendu "de combien le rendement est il augment ?" (magnitude de l'effet).
Si la rponse est "de 10 quintaux l'hectare", la question qui vient ensuite est alors
"quelle est la prcision de l'estimation de cet effet ?" (l'intervalle de confiance de
l'effet est il [9,510,5 q/ha] ou bien [218 q/ha] ?). On voudra aussi savoir par
ailleurs quel tait le rendement du tmoin (10q/ha ou bien 100q/ha ?), qui donne une
ide du niveau d'intensit de la culture.
Il est cependant difficile de croire que l'article (fictif) contenant cette phrase sur le
haricot ne mentionnerait pas les rendements obtenus concrtement dans le tmoin et
le traitement, avec leur erreur standard et les effectifs (nombre de rptitions). Ce sont
ces informations dont les meta-analyses ont besoin. Il ne serait pas tonnant en
revanche que cette phrase soit cite dans le rsum, et que les informations plus
concrtes (valeurs obtenues, magnitude) n'y figurent pas. C'est contre cette tendance
qui met trop en valeur les tests par rapport aux rsultats concrets qu'on peut essayer de
lutter, car les rsums sont trs utiles aux auteurs de mta-analyses, qui ont besoin de
pouvoir passer en revue un trs grand nombre d'articles le plus rapidement possible.
Pour garder notre exemple agricole, on pourrait vouloir effectuer une mta analyse
pour savoir par exemple quel est en gnral l'effet moyen d'une dose de 50kg de
potasse a l'hectare sur le haricot (sachant que de nombreux paramtres entrent en jeu :
varit utilise, climat, le type de sol, faon de mener la culture etc.). L'auteur de cette
meta-analyse va donc chercher passer en revue toutes les tudes dans lesquelles on a
test l'impact de l'engrais potassique sur le haricot. Si les seules informations qu'il y
trouve sont du type "l'engrais potassique a 50kg/ha a un effet positif, P < 0,01" on
comprend tout de suite qu'il n'y a rien en tirer en dehors d'un comptage lmentaire
du type "Sur les 500 tudes ralises, l'apport de potasse la dose de 50kg/ha avait
un effet positif significatif sur le rendement du haricot dans 495 tudes et un effet non
significatif dans 5 tudes". La seule "conclusion" qu'on pourrait dgager de cette
dbauche d'nergie serait alors "Cette fois mes petits gars, c'est certain, l'engrais
potassique 50kg/ha, c'est bon pour les haricots", ce dont on pouvait vaguement se
douter avant mme de se lancer dans la mta analyse ! Il est impossible d'accumuler
un savoir utile, donc chiffr, dans ces conditions. Cohen (1994) cite Tukey (1991),
qui faisait remarquer avec humour propos de la notion d'lasticit en physique :
Si, par exemple, la notion d'lasticit avait t restreinte "quand on
tire dessus, a s'allonge !", alors la loi de Hooke, la limite d'lasticit, la
plasticit et beaucoup d'autres thmes importants n'auraient pas pu

apparatre. Mesurer les bonnes choses sur une chelle communicable
nous permet de stocker de l'information propos des quantits
(7) En bref, les scientifiques donnent limpression de shypnotiser sur la
significativit statistique de leurs tests
C'est souvent vrai, mais ils y sont un peu forc aussi par la tyrannie des journaux
scientifiques qui ne souhaitent publier que des rsultats "significatifs". La publication
d'un article scientifique moderne est donc une frntique "chasse aux astrisques" (les
symboles d'un test significatif) l ou nos nobles anciens pouvaient prendre le temps de
solidement asseoir leurs thories en rptant de nombreuses fois leurs expriences,
sans subir l'obligation de publier rapidement, le nombre de publication tant
synonyme de vie (des crdits de recherche) ou de mort (pas de crdits de recherche).
Le rsultat est ce que nous en connaissons tous : un des plus prestigieux journaux
scientifique du monde, qui a bti sa rputation sur la publication des grands scoops
scientifiques du sicle (le plus clbre tant la description de la structure de l'ADN
par Watson et Crick) est oblig de publier presque dans chaque numro des dmentis,
"corrigendum" et autres "erratum" parce que certaines dcouvertes annonces dans le
numro prcdent avaient t faites un peu... prcipitamment. Les choses changeront
de toute manire lentement, mais il n'est pas interdit d'esprer que l'on revienne plus
de modration dans ce domaine en mettant plus les donnes et non les tests en
valeur, comme Giuseppe le souhaite si ardemment.
Rsum du chapitre 8.
Tout n'est pas rose et consensuel dans le monde des statistiques. En un sicle, les
sciences biologiques sont passes de l'absence totale d'analyse statistique (Pasteur,
Darwin, et plus prs de nous Konrad Lorenz) l'omniprsence obsdante des tests, y
compris dans des domaines loigns du laboratoire et du champ exprimental en
petites parcelles rigoureusement rpliques qui ont vu la naissance des tests, et pour
lesquels ils avaient t conus. La formation statistique des biologistes ayant trs
imparfaitement suivi le formidable dveloppement des mthodes statistiques (et c'est
bien normal, les biologistes sont avant tout des biologistes), le risque est grand pour
le praticien moyen d'utiliser les mthodes d'analyse de manire inadapte, et de trs
nombreuses voix se sont leves depuis les annes 20 pour dnoncer cette situation.
Il ne faut donc jamais hsiter aller consulter un vritable statisticien, si possible
avant de raliser l'exprience. Lui (ou elle) saura vous dire si votre protocole est
suffisamment simple, si votre puissance de dtection correspond ce que vous
esprez tre capable de dceler et si vos rsultats seront... analysables ! C'est son
mtier, qui a demand des annes de formations trs spcifiques, et il (elle) effectuera
forcment cette tche bien mieux que nous, simples biologistes.
Pour ma part, sauf dans les cas d'analyse les plus simples que je sais traiter, je
consulte systmatiquement des gens plus fort que moi (ce qui n'est pas difficile
trouver !) plutt que de faire des btises, et je pense que c'est la seule attitude
possible.
9. Comparaison de moyennes
9.1 Comparaison entre une moyenne observe et une moyenne thorique
Comme dans le cas des intervalles de confiance, les calculs sont diffrents selon qu'on a un
grand (n > 30) ou un petit chantillon, mais l'approche gnrale est trs similaire. Si vous
ressentez la lecture de ce chapitre une soporifique impression de dj-vu, cest plutt bon
signe puisquelle signifie que vous commencez bien connatre les raisonnements de base,
qui sont toujours les mmes.
9.1.1 L' chantillon est "grand" ( n > 30)
C'est le cas idal. En effet, notre ami le thorme de la limite centrale nous dit que si une
variable alatoire X suit une loi quelconque de moyenne et de variance o
2
, alors la moyenne
m calcule sur un grand chantillon de taille n suivra une loi approximativement normale
ayant la mme moyenne mais une variance n fois plus petite et valant donc o
2
/n. Comme
dj vu, dans le cas d'un grand chantillon, on commet une erreur tout fait ngligeable en
remplaant la valeur o
2
(inconnue en gnral) par son estimation s
2
calcule sur l'chantillon.
On a donc, avec une trs bonne approximation :
|
|
.
|
\
|
n
s
N m
2
:
Cette loi normale peut tre ramene la loi normale centre rduite N (0 , 1) par centrage-
rduction comme dhabitude d'ou, si on appelle Z la variable centre-rduite :
( ) 1 : 0
2
N
n
s
m
Z
=
Or, on sait que 95% des valeurs d'une loi normale quelconque sont situes dans un intervalle
de 1,96 carts-types autour de sa moyenne. Comme Z suit N (0 : 1), la valeur de Z va donc
tre comprise dans 95% des cas entre 1,96 et +1,96 puisque la moyenne vaut zro et l'cart
type vaut racine carre de 1 c'est dire 1. Si l'hypothse Ho "la moyenne du caractre dans la
population chantillonne est bien de " est vraie, la valeur absolue du Z observ devrait donc
95 fois sur 100 tre infrieure 1,96. Le principe du test va donc tre de rejeter l'hypothse Ho
chaque fois que l'cart Z observ est suprieur (en valeur absolue) 1,96 :
Si |Z| > 1,96 on rejette Ho au risque o = 0,05
Si |Z| < 1,96 on ne rejette pas Ho, au risque | inconnu, mais d'autant plus grand que
la valeur relle de la population est proche de .
La lecture dans la table de la loi normale N (0 : 1) permettra mme de dterminer si on peut
toujours rejeter Ho au risque o = 0,01 (si |Z| > 2,576) voire o = 0,001 (si |Z| > 3,29) etc.
C'est cette valeur o que vous nommerez "P" en donnant le rsultat de votre test.
Exemple 9.1. La taille moyenne des tudiants Franais de matrise de sexe mle tant suppose tre de 1,76 m,
peut on dire que la taille moyenne des tudiants de matrise BPE sen carte significativement ? On dispose
pour cela dun chantillon de n = 70 garons de matrise BPE (1998) ayant les caractristiques suivantes : m =
177,65 cm s
2
= 40,6.
96 , 1 17 , 2
70
6 , 40
176 65 , 177
> =
= Z
Au risque o = 0,05 on rejette lhypothse Ho de labsence de diffrence. Dans un rapport, on crira : La
taille des garons de matrise BPE 1998 tait significativement suprieure celle de la population franaise
des tudiants de matrise ( Z = 2,17 ; P < 0,05) . Notez cependant que (i) la valeur thorique de 1,76 est
purement invente, (ii) la valeur 1,77 rsulte dun simple interrogatoire et non dune mesure effectue la
toise. Il existe ici un biais exprimental important car de nombreuses personnes connaissent leur taille trs
approximativement.
L'opinion de Parsimoni & Abonessian
Parsimoni Voil bien le type mme du test compltement superflu et sans intrt !
Tout ce qu'il conclut est "la moyenne observe est diffrente de la valeur thorique,
P < 0,05". Il est beaucoup plus efficace de calculer directement l'intervalle de confiance
de la valeur observe. Non seulement voit-on immdiatement si la valeur thorique est
dans cet intervalle ou pas, mais on dtermine en un coup d'oeil la gamme des valeurs
plausibles de la valeur observe. Il est alors enfantin de calculer l'intervalle de confiance
de la diffrence entre l'observ et le thorique. On peut ensuite crire : l'intervalle de
confiance de la diffrence D entre OBS et THEO est [borne inf borne sup]. Faire un
test statistique de comparaison de moyennes dans ces conditions est une totale perte de
temps et apporte une information squelettique. De telles pratiques devrait tre interdites !
Abonessian Giuseppe exagre, c'est son ct latin. D'abord, quand on rend compte
des rsultats d'un test statistique, il ne faut pas crire simplement "machin est
significativement diffrent de truc" il faut prciser si "machin est significativement plus
grand (ou plus petit) que truc" : le test statistique s'intresse en premier lieu au sens de la
diffrence observe. Deuximement, l'utilisation des seuils du type P < 0,05 est une
survivance du pass (elle est lie l'utilisation de tables, qui datent des annes 1920).
Dans la pratique moderne des tests statistiques, on prfre maintenant indiquer la valeur
P exacte qui est donne par le logiciel d'analyse statistique. Plus cette valeur est faible,
plus on peut avoir confiance dans l'existence d'une diffrence entre OBS et THEO. Il est
donc intressant de connatre P. En revanche ce que dit Giuseppe sur l'intrt de calculer
l'intervalle de confiance de la moyenne est exact (cela permet de le reprsenter sur une
figure), et je suis galement d'accord avec le fait qu'il faille ensuite quantifier l'cart
observ entre OBS et THEO et avoir une ide de la taille maximum et minimum qu'il
peut avoir, car c'est cet cart qui nous intresse scientifiquement parlant.
9.1.2 L'Echantillon est trop petit ( n < 30) mais X suit une loi proche de la loi normale
Vous pouvez alors tranquillement appliquer le mme principe que ci-dessus avec la diffrence
que la valeur seuil ne va plus tre exactement de 1,96 pour un risque o = 0,05. En effet la
variable centre-rduite dans laquelle on remplace o
2
par s
2
va (parce que l'estimation s
2
est ici
peu prcise ) suivre une loi du t de Student, dont la variance est plus grande que celle de la loi
normale centre-rduite (les distributions de Student sont plus aplaties, plus "tales" que la
loi normale centre-rduite). Si on appelle cette variable t

et non plus Z, on va observer des
valeurs absolues de t en moyenne plus grandes que dans le cas prcdent. Pour ne pas
augmenter artificiellement ainsi le risque o c'est dire le taux de rejet erron de Ho, il faut
donc augmenter la taille de l'intervalle autour de pour lequel on ne va pas rejeter Ho. Il est
ici impossible de donner une valeur fixe comme 1,96 qui serait valable quel que soit n < 30,
car la distribution de la loi du t de Student varie en fonction de la taille de l'chantillon (trs
exactement en fonction du nombre de degr de libert = n 1). Il faut donc consulter la table
du t de Student et lire la valeur t figurant l'intersection de la ligne des ddl = n 1 et de la
colonne du risque o choisi (en gnral 0,05) cette valeur est la valeur critique du t. Le test
s'crit d'une faon gnrale :
( )ddl n
t
n
s
m
t
1
2

=
Si |t| > t
critique
, on rejette Ho, au risque o choisi.
Si |t| < t
critique
on ne rejette pas Ho, au risque | inconnu, mais dautant plus grand que la
valeur relle de la moyenne est proche du thorique.
Comme dans le cas du test Z, la table du t vous permettra de prciser o et donc la valeur "P"
de votre test.
Exemple 9.2. Mme problme que lexemple 9.1 mais on ne dispose plus que de 10 tudiants. On va supposer
(artificiellement) quon obtient la mme variance et la mme moyenne que prcdemment, do : m = 177,65
cm et s
2
= 40,6. La valeur thorique reste 176 cm.
262 , 2 82 , 0
10
6 , 40
176 65 , 177
< =
= t
La valeur 2,262 est la valeur seuil de la table du t pour 9 ddl et o = 0,05. Cette valeur ntant pas dpasse (et il
sen faut de beaucoup) on na pas de raison de rejeter Ho : pas de diffrence sur la base de ces donnes,
mais on a pas dmontr pour autant labsence de diffrence. La preuve : on a vu dans lexemple 5.1 quen
ralit il y a bel et bien une diffrence. La seule raison pour laquelle on narrive pas la mettre en vidence ici
est le manque dindividus. On crira dans un rapport : Sur la base de nos donnes, la taille des tudiants de
matrise BPE 1998 ne diffre pas significativement de la valeur nationale de 1,76 m (t = 0,82 ; 9 d.d.l. ;
NS
(1)
) . Toute personne sense aura cependant soin de relativiser la porte de ce jugement dans la phrase
suivante, en mettant en avant le faible pouvoir de dtection du test (= faible puissance), d la trs petite taille
de lchantillon.
Parsimoni tout ce que j'ai dit prcdemment concernant la supriorit du calcul d'un
intervalle de confiance (utilisant ici la valeur du t de Student) au lieu de se lancer dans un
test statistique, reste valable. Je maintiens que ce genre de test est superflu et que le
calcul d'un intervalle de confiance est plus riche d'informations.
Abonessian et je maintiens de mme que connatre P garde son intrt, mme si nous
sommes bien d'accord sur le besoin de calculer un intervalle de confiance et la magnitude
de l'effet ventuellement observ.
(1)
NS = Non significatif (quivaut crire P > 0,05 ). Utilis avec des majuscules ou des minuscules, selon les
gots.
9.1.2. L'chantillon est petit et la loi inconnue (ou connue pour tre loigne de la loi normale)
Il vous est alors impossible d'utiliser un test Z ou un test t de Student car ces tests sont bass
sur l'hypothse de la normalit de la variable ou au moins de la moyenne calcule sur
l'chantillon, le second cas ncessitant imprativement un grand chantillon. Cependant, tout
n'est pas perdu: au prix d'une (modeste) perte de puissance vous pouvez quand mme utiliser
une mthode non paramtrique, telle que le Boostrap, qui vous permettra de calculer
l'intervalle de confiance de la valeur observe. Si la valeur thorique se trouve en dehors de
cet intervalle, le test est significatif pour o = 0,05.
Parsimoni Ou l'on voit bien l'intrt des intervalles de confiance. Ceci dit, pour ne
pas se mettre dans ce genre de situation, il faut surtout travailler davantage de manire
avoir de grands chantillons !
Abonessian Avoir de grands chantillons n'est pas toujours possible Giuseppe, vous
le savez bien. Certains chercheurs travaillent sur des mutations rares, ou sur des
explosions de supernovae qui ne se produisent qu'une fois par million d'annes. On ne
peut tout de mme pas attendre la suivante pour augmenter l'effectif !
Parsimoni les jeunes n'ont plus aucune patience.
Abonessian . Face un petit chantillon d'une loi fortement loigne de la loi
normale, une mthode non paramtrique telle que le Bootstrap peut toujours tre
applique, mme si la fiabilit du rsultat sera videmment d'autant plus faible que
l'chantillon est petit. Ceci dit, dans les autres cas, les moyennes sont rapidement
distribues selon un t de Student et si vous avez plus d'une dizaine de donnes, vous
commettrez une erreur modre en utilisant la mthode classique du t de Student pour
utiliser un IC95%.
Parsimoni il est toujours piquant de constater que les grands statisticiens sont les
premiers tordre le cou de leurs propres rgles.
Abonessian en l'occurrence, je me fonde sur le rsultat de simulations informatiques
qui montrent que dans une vaste gamme de situations ralistes, les moyennes convergent
rapidement vers une distribution proche du t de Student.
Parsimoni Amen. Si c'est un modle informatique qui le dit, nous voil pleinement
rassurs.
Abonessian Pourquoi alors cet air sarcastique ?
9.2 Comparaison de deux moyennes observes
9.2.1. Les deux chantillons sont "grands" (n > 30)
Dans le cas dchantillons A et B de taille n
A
et n
B
> 30, on va appliquer encore une fois le
thorme de la limite centrale et en conclure que les moyennes m
A
et m
B
suivent des lois
approximativement normales N (
A
, o
2
/n
A
) et N(
B
, o
2
B/n
B
) avec le bonus supplmentaire
quon pourra (vu la taille des chantillons) remplacer sans problmes les valeurs o
2
A
et o
2
B
inconnues par leurs estimations s
2
A
et s
2
B
bases sur les chantillons. Notre hypothse Ho (qui
sera ventuellement rejete) sera quil ny a aucune diffrence significative entre m
A
et m
B
,
autrement dit que les eux chantillons proviennent dune seule et unique population de
moyenne
A
=
B
= . Lapproche va consister utiliser la diffrence observe m
A
m
B.
Rappelez vous cette occasion les rgles doprations sur les variables alatoires, on est ici
dans le cas Y = X
A
X
B
, avec, dans lhypothse nulle, deux tirages dans la mme loi. Donc, si
lhypothse Ho est correcte, la nouvelle variable devrait avoir une moyenne nulle (en
esprance) et une variance gale la somme des deux variances (rappel : les variances ne se
soustraient jamais). En pratique, bien sr, la diffrence m
A
m
B
observe ne sera jamais nulle
cause des fluctuations dchantillonnage. On sattend donc en ralit trouver une
diffrence mais, et cest a qui est fondamental, on connat la loi de distribution de cette
diffrence si Ho est vraie. NB : il ny a pas de covariance ici car les deux moyennes sont des
variables indpendantes (ce quon trouve dans un chantillon na aucune influence sur ce
quon trouve dans lautre). Bref,
|
|
|
.
|
\
|
+ =
B
n
B
s
A
n
A
s
B
m
A
m N Y
2 2
: 0
Cette loi normale tant dj centre automatiquement (si Ho est vraie) on va donc se
contenter de la rduire en divisant par son cart type gal \ (s
2
A
/n
A
+ s
2
B
/n
B
). Cette nouvelle
variable va tre :
( ) 1 : 0
2 2
N
B
n
B
s
A
n
A
s
B
m
A
m
Z
+
=
Revoici notre grande amie la loi normale centre rduite. La suite devrait maintenant vous
faire bailler distraitement tellement vous avez lhabitude :
Si |Z| > 1,96 on rejette Ho, au risque o = 0,05 (on conclut que les donnes ne sont pas
compatibles avec lhypothse que les deux chantillons proviennent dune population de
mme moyenne)
Si |Z| < 1,96 on ne rejette pas Ho, au risque | inconnu, mais dautant plus grand que les
valeurs relles des deux populations sont proches, au cas o elles seraient diffrentes.
Ce qui a t dit plus haut sur le moyen d'utiliser la table pour rechercher P reste valable.
Exemple 9.3 nA =71 garons et nB = 74 filles de la matrise BPE 1998 ont mesur leur main droite avec un
double dcimtre. Les rsultats sont les suivants : mA = 18,98 cm mB = 17,59 cm s
2
A = 1,26 s
2
B = 0,69. Les
tailles moyennes sont elles significativement diffrentes ?
96 , 1 45 , 8
74
69 , 0
71
26 , 1
59 , 17 98 , 18
>> =
+
= Z
Daprs la table de la loi normale, on peut rejeter trs confortablement lhypothse que les garons et les filles
aient la mme longueur de main moyenne : la valeur obtenue ici dpasse largement la valeur seuil pour o =
0,000 000 001 (qui est de 6,10). Autrement dit, si Ho tait vraie, il y aurait moins dune chance sur cent
millions dobserver une telle diffrence avec cette taille dchantillon. Dans un rapport, on crira : Les
garons de la matrise BPE 1998 ont une taille de main plus leve que celle des filles, cette diffrence tant
trs hautement significative (Z = 8,45 ; P < 0,001) . Remarque : inutile de mentionner la valeur 0,000 000
001 ; on considre en sciences que le seuil 0,001 est suffisamment convainquant pour ne pas en rajouter.
Parsimoni Le test Z prsente le dfaut majeur de tous les tests : il met l'accent sur le
fait qu'il y ait une diffrence (il y en a toujours une, aussi petite soit elle, car tout un
effet sur tout) au lieu de parler du vritable sujet : quelle est la taille vraisemblable
(magnitude) de cette diffrence. Seul la calcul de la magnitude de l'effet observ
rpondra cette question. Le P < 0,001 indiqu ci dessus ne dit rien de l'importance
pratique de l'cart dcel.
Abonessian Certes, mais le test Z a galement les qualits de tous les tests : il indique
si vous arrivez dceler la diffrence en question, dans quel sens elle se trouve, et vous
donne avec la probabilit P une mesure quantitative (approximative) de la fiabilit de
votre conclusion. Il est donc tout fait complmentaire du calcul des intervalles de
confiance et de la magnitude de l'effet observ.
Exemple 9.4 de combien papa est il plus grand que maman ?
Me basant sur les dclarations de nA =207 garons et nB = 203 filles de la matrise BPE ayant rpondu un
questionnaire sur (entre autres) la taille de leurs parents, j'ai calcul la diffrence de taille entre leur pre et leur
mre. D'aprs les 207 garons, leur pre est en moyenne plus grand que leur mre de 12,0 cm (s
2
= 45).
Cependant, d'aprs les 203 filles, cet cart est en fait de 14,7cm (s
2
= 45,6). Y a t-il un effet significatif du sexe
sur la perception de la diffrence de taille entre les parents ?
Le test donne Z = 2,7 (mme formule que dans l'exemple 9.3)
Daprs la table de la loi normale, on a largement P < 0,01. Dans un article, on crirait : Les filles de la
matrise BPE peroivent un cart de taille entre leur pre et leur mre significativement plus important que
les garons (Z = 2,7 ; P < 0,01) . Pourquoi cet cart, je l'ignore. Un examen des donnes suggre que les fils
semblent voir leur pre plus petit que ne le voient les les filles alors que les filles voient leur mre plus petite
que ne la voient les fils (je vois d'ici les interprtations freudiennes que l'on pourrait faire de ces rsultats...).
Ces carts ne sont pas significatifs (de justesse) lorsqu'ils sont considrs sparment, mais la diffrence
globale pre mre l'est largement. S'il y a des psychologues dans la salle, leur avis m'intresse.
9.2.2 Au moins un de vos deux chantillons est trop petit (n < 30) mais la loi suivie par X est
proche de la loi normale
Dans ce cas, aucun problme pour conclure que les moyennes m
A
et m
B
suivent une loi
approximativement normale (cest mme garanti) et le seul souci concerne la mauvaise
approximation faite lorsquon remplace les o
2
inconnus par leurs estimations s
2
A
et s
2
B
. Pour
amliorer la situation, et sachant quon part de lhypothse Ho que les deux chantillons
proviennent de la mme loi, on va estimer la variance du caractre dans la population sur
lensemble des deux chantillons en un seul bloc. Cette estimation est :
( ) ( )
2
1 1
2 2
2
+
+
=
B A
B B A A
n n
n s n s
s
Il s'agit d'une simple moyenne pondre, chaque estimation de variance (s
2
A
ou s
2
B
) tant
pondre par le nombre de ddl (n
i
1) de son chantillon. Cest cette estimation pondre de
s
2
quon utilise alors dans la formule centre rduite quivalente celle du Z des grands
chantillons :
B A
B A
n
s
n
s
m m
t
2 2
+
=

(notez bien lusage aux numrateurs de
s
2
lestimation pondre, et non pas s
2
A et s
2
B)
Tout est bien qui finit bien, car il se trouve que la loi suivie par la diffrence centre rduite
suivra alors quand mme une loi connue : la loi du t de Student. La seule chose retenir est
alors que le nombre de degrs de libert utiliser pour la lecture dans la table est la somme
des d.d.l. de chaque chantillon, soit :
(n
A
1) + (n
B
1) = n
A
+ n
B
2. Donc,
( )ddl n n
B A
t t
2 +
Comme dans le cas vu prcdemment, on compare la valeur du t calcule partir des donnes
avec la valeur seuil de la table pour le o choisi et n
A
+ n
B
2 degrs de libert.
Exemple 9.5 On reprend lexemple 9.3 des longueurs de main mais avec beaucoup moins de donnes : nA = 8
garons et nB = 7 filles de la matrise BPE 1998 ont mesur leur main droite avec un double dcimtre. les
rsultats sont les suivants : mA = 18,98 cm mB = 17,59 cm s
2
A = 1,26 s
2
B = 0,69 (jai gard les mmes valeurs
volontairement, pour que seule la taille des chantillon ait vari par rapport lexemple 5.4). Les tailles
moyennes sont elles significativement diffrentes ?
La variance pondre est :
( ) ( )
99 , 0
2 7 8
1 7 69 , 0 1 8 26 , 1
2
=
+
+
= s
16 , 2 70 , 2
7
99 , 0
8
99 , 0
59 , 17 98 , 18
> =
+
= t
La valeur obtenue dpasse la valeur seuil de la table du t de Student pour o = 0,05 et 13 ddl (qui est de 2,16).
On rejette donc encore mais sans tambours ni trompette cette fois lhypothse que les garons et les filles
aient la mme longueur de main en moyenne. Notez que la diffrence est ici suffisante pour pouvoir tre
dcele mme avec deux chantillons de taille trs faible. Qui a dit quil fallait de grands nombres pour faire
des stats ? On crira dans un rapport Sur la base de nos rsultats, les garons de la matrise BPE 1998 ont
des mains significativement plus longues que celles des filles (t = 2,70 ; 13 d.d.l., P < 0,05) .
Parsimoni Le test t prsente exactement les mmes dfauts que le test Z
Abonessian et exactement les mmes qualits.
9.2.3 Au moins un de vos deux chantillons est trop petit (n < 30) mais la loi suivie par X est
inconnue, ou connue pour tre loigne de la loi normale
Dans ce cas, lapproximation normale nest pas possible (air connu) et le remplacement de o
2
A
(ou o
2
B
) par son estimation s
2
A
(ou s
2
B
) nest pas satisfaisant non plus. Il devient ncessaire
dutiliser un test qui ne ncessite pas que X suive une loi normale, cest dire un test non
paramtrique comme le test U de Mann et Whitney ou le test W de Wilcoxon (qui sont
quivalents). Voir : chapitre 10. Tests non paramtriques.
9.3 Comment comparer plus de deux moyennes ?
Dans ce genre de situation, la tentation est grande de se lancer dans une srie de comparaisons
2 2 utilisant les tests dcrits plus haut, puis de classer les chantillons les uns par rapport aux
autres. Cette mthode souffre de deux inconvnients, surtout sil y a beaucoup dchantillons
(outre quelle est fastidieuse).
Dabord, multiplier les tests signifie que vous allez augmenter artificiellement la
probabilit de tomber sur un cas ou vous allez rejeter Ho tort. Selon la dfinition du risque
de premire espce o, si Ho tous les chantillons proviennent dune population de mme
moyenne est vraie, cette hypothse sera pour un test donn, rejete tort avec une
probabilit de o (avec en gnral o = 0,05). Multiplier les tests augmente donc artificiellement
les chances de dcouvrir une (fausse) diffrence significative.
Un moyen de contourner lobstacle est de se montrer plus exigeant chaque test, autrement
dit dabaisser o en prenant o = 0,05/k avec k le nombre de comparaisons 2 2 que vous faites
(cette prcaution s'appelle la correction de Bonferoni). Vous aurez alors une probabilit
globale de 0,05 de rejeter Ho tort mme si vous effectuez plusieurs tests. Le revers de la
mdaille est que, en vous montrant plus exigeant, vous risquez au contraire de passer cot de
diffrences relles (qui auraient peut tre t dceles en prenant o = 0,05 chaque test). La
vie est dure.
Le second dsavantage de lapproche multi-test est quelle utilise des estimations de la
variance de la population totale bases sur seulement deux chantillons par test, en ignorant
totalement les autres donnes. Cette perte dinformation a pour consquence une moins bonne
estimation de la variance relle au sein de la population. Plus prcisment, la variance estime
sur un chantillon ayant tendance sous estimer la variance de la population, chaque test va
pouvoir tre amen signaler comme anormalement levs (donc significatifs) des carts
entre moyennes qui auraient t jugs dans le domaine de variation attendu sous Ho par un
test global ayant une meilleure estimation de la variance totale (qui est probablement plus
leve). On peut donc amliorer la mthode dcrite prcdemment en utilisant comme
estimation de la variance une estimation portant sur tous les chantillons disponibles.
Les mthodes utilises en ralit pour comparer les moyennes de plusieurs chantillons
reposent sur un test englobant en une seule fois toutes les donnes. Le plus classique
historiquement est lANOVA (analyse de la variance) qui suppose pour tre applicable que les
distributions sont proches de la loi normale et que les variances des populations compares ne
sont pas significativement diffrentes. Si vous navez jamais utilis lANOVA, laissez tomber
cette solution pour linstant. Lautre option consiste raliser un test non paramtrique de
comparaison multiple appel test H de Kruskal-Wallis. Son principe est trs facile
comprendre (voir chapitre 10. Tests non paramtriques).
Ceci dit, si vous avez peu dchantillons comparer, lapproche la plus simple (mme si
elle a des dfauts) reste cependant la comparaison deux par deux dcrite plus haut, en
vous rappelant quil faut, pour lutiliser au mieux, prendre deux prcautions :
(i) utiliser un seuil o gal au plus 0,05/nombre de comparaisons ,
(ii) utiliser une estimation de la variance utilisant toutes les donnes disponibles, si vous
utilisez des tests t ou Z.
Exemple 9.6 On a trois chantillons dindividus de sexe mle provenant respectivement des matrises de BEP
(Biomathmatiques Extrmement Pures), BPE (Biologie des Populations et des Ecosystmes) et enfin SEB
(Sport Etudes Basket). Les donnes concernant la taille moyenne sont les suivantes : BEP (n1 = 15) : m1 =
175 cm, s
2
1 = 39,5 ; BPE (n2 = 12) m2 = 177 cm, s
2
2 = 40,3 ; SEB (n3 = 13) m3 = 198 cm s
2
3 = 45,3. Ces trois
chantillons proviennent ils de la mme population ? Si non, lesquels diffrent significativement entre eux ?
La taille tant une variable distribue normalement, on va effectuer des tests t. Notre estimation de la variance
sappuiera sur la totalit des individus (nb : en toute rigueur il faudrait dabord sassurer que les variances des
chantillons ne sont pas elles mmes significativement diffrentes, ne compliquons pas les choses). Il suffit
de calculer la variance pondre S
2
= (14 s
2
1 + 11 s
2
2 + 12 s
2
3)/(14 + 11 + 12). Rappel : on pondre par les d.d.l.
de chaque chantillon, soit n 1 chaque fois.
Application numrique : S
2
= 41,62
Les trois tests t effectuer seront alors (formule habituelle du t de Student, en utilisant la variance pondre S
2
calcule ci dessus):
BEP vs BPE : t = 0,335 ; (15 + 12 2 =) 25 d.d.l., NS (P > 0,9 !)
BEP vs SEB : t = 9,4 ; (15 + 13 2 =) 26 d.d.l. ; P < 0,001
BPE vs SEB : t = 8,13 ; (12 + 13 2 =) 23 d.d.l. ; P < 0,001
Rappel : les signes des valeurs de t nont aucune importance, seule la valeur absolue compte. On obtiendrait
par exemple t = + 0,335 en faisant BPE vs BEP au lieu de BEP vs BPE .
La valeur seuil dpasser (|t |= 2,5 environ, par interpolation) est la valeur de la table du t de Student
associe au risque de premire espce utiliser ici : o = 0,05/3 comparaisons soit o = 0,016 au maximum.
Cette valeur de t = 2,5 est largement dpasse (nb : en valeur absolue) dans les deux cas impliquant les joueurs
de basket mais nest mme pas approche dans la premire comparaison. On conclurait dans un rapport Les
tudiants de la matrise Basket sont significativement plus grands que les tudiants de Biomathmatiques (t =
9,4 ; 26 d.d.l., P < 0,001) et sont galement significativement plus grands que les tudiants de BPE (t = -
8,13 ; 23 d.d.l. ; P < 0,001). En revanche, il napparat, sur la base de nos donnes, aucune diffrence
significative de taille entre les tudiants de BEP et de BPE ( t = 0,335 ; 25 d.d.l. ; NS).
Parsimoni encore une fois, la supriorit des intervalles de confiance est clatante.
Que vous ayez deux moyennes ou cinquante, l'intervalle de confiance ne change pas, son
calcul est toujours aussi simple et naturel, la lecture de la figure obtenue est toujours
aussi intuitive. Quant la correction de Bonferoni dans l'approche multi-tests
(l'utilisation de o/nb comparaisons) elle est la fois une ncessit, une absurdit, et un
boulet. S'il y a beaucoup de moyennes comparer, o devient si faible que vous n'avez
plus aucune chance d'avoir quoi que ce soit de "significatif", alors que dans la ralit
chaque moyenne est forcment diffrente des autres (mme de manire infinitsimale).
Encore une fois, la vritable question n'est pas tant "qui est diffrent de qui" mais "quelle
est la taille de la diffrence vraisemblable entre A et B".
Abonessian La comparaison simultane de nombreuses moyenne est un vaste
problme qui n'a jamais t compltement rsolu. On est dans une situation que les
anglais appellent "catch 22" (pile je gagne, face tu perds) puisque chaque comparaison
le risque o intervient, ce qui nous pousse faire le moins de comparaisons possibles,
alors que si on fait peu de comparaisons on peut passer ct des "bonnes". En ralit, ni
l'ANOVA ni le H de Kruskall-Wallis ne rsolvent ce problme. Leur grand mrite est
cependant de signaler en un seul test qu'il y a des diffrences "quelque part" au sein d'un
ensemble de moyennes.
Parsimoni ceci prs que les conditions d'application de l'ANOVA sont drastiques
en thorie : normalit des distributions, galit des variances !
Abonessian mais assez souples en pratique. Giuseppe, vous savez bien que cette
histoire d'galit des variances est presque un conte pour enfant. C'est mme vous qui me
l'avez appris.
Parsimoni exact, et c'est bien la preuve que les manuels sont trop dogmatiques.
Abonessian et quand des donnes ne sont pas normales, certaines transformations
peuvent les normaliser : la transformation des pourcentages p en utilisant arcsinus racine
de p est un classique.
Parsimoni c'est un classique tellement classique que tout le monde l'utilise de
manire cabbalistique sans se donner le moins du monde la peine de vrifier si les
donnes ont bien t normalises par la transformation.
Abonessian l encore, Giuseppe, vous savez mieux que personne que les tests de
normalit sont presque inutiles : ils n'ont aucune puissance l ou on en a besoin (petits
effectifs) et sont trs puissants lorsqu'une normalit parfaite est totalement superflue
(grands effectifs).
Parsimoni je suis heureux de constater que tu as de bonnes lectures.
Abonessian l'approche actuelle est en fait de coller la distribution observe, et donc
d'utiliser les modles linaires gnraliss. Mais ils ne rglent pas le problme de la
comparaison multi-moyennes.
Parsimoni je ne te le fais pas dire.
Rsum du chapitre 9.
Pour comparer une moyenne une valeur thorique, on peut utiliser un test Z si
l'chantillon est grand (n > 30). Si l'chantillon est petit mais que la variable tudie suit une
loi proche de la loi normale, on peut utiliser un test t de Sudent. Ces deux tests sont en fait
quivalents calculer un intervalle de confiance autour de la valeur observe et examiner si la
valeur thorique se trouve dans cet intervalle. Si l'chantillon est petit et que la loi est
inconnue (ou connue pour tre loigne de la loi normale), on peut se reposer l encore sur le
calcul d'un intervalle de confiance, mais en utilisant une approche non paramtrique (le
bootstrap). Pour comparer deux moyennes entre elles, on retrouve les mmes tests (Z et t
de Student) et les mthodes non paramtriques (U de Mann et Whitney, W de Wilcoxon
dcrits dans le chapitre 14). Enfin, pour comparer plus de deux moyennes simultanment,
on peut utiliser l'ANOVA si les distributions sont normales et si les variances ne diffrent pas
significativement. Dans le cas contraire, on peut utiliser un test non paramtrique de
comparaison multiple, le test H de Kruskall-Wallis. La mthode la plus moderne repose sur
une approche nomme modle linaire gnralise. Remarque : l'ANOVA et le modle
linaire gnralis ne sont pas traits dans cet ouvrage d'introduction. La plus ou moins grande
robustesse de l'ANOVA face des situations ou ses conditions d'application ne sont pas
respectes est affaire de spcialiste, et ils ne sont pas forcment d'accords entre eux.
10. Les tests non paramtriques
10.1 De naturae testii non parametricii
Un test paramtrique est un test pour lequel on suppose que le caractre tudi (ou sa
moyenne) suit une loi dont la distribution est connue, et dont on estime les paramtres
(moyenne, variance) au moyen des donnes de l'chantillon. Le test Z et le test t de Student
vus dans les chapitres prcdemment sont tous deux des tests paramtriques, en effet :
(i) le test Z sappuie sur le Thorme de la limite centrale selon lequel, pour un grand
chantillon (n > 30), la moyenne du caractre suit approximativement une loi normale, quelle
que soit loi suivie par le caractre tudi lui mme.
(ii) le test t de Student, utilis dans le cas des petits chantillons (pour lesquels on ne peut pas
invoquer le TCL), ncessite que le caractre tudi lui mme suive une loi normale (on doit
au minimum avoir des arguments pour supposer que la loi suivie est proche de la loi normale).
Quand on compare deux petits chantillons observs il apparat d'ailleurs une condition
supplmentaire (dont le test Z peut se passer) : que les variances des deux chantillons ne
soient pas significativement diffrentes.
Ce sont ces hypothses qui permettent de faire le test : si on ne connat pas la loi de
distribution de la moyenne, comment calculer la probabilit que les carts observs soient dus
au hasard ? Tout simplement en s'affranchissant compltement du besoin de connatre la loi de
distribution de la moyenne. C'est le principe des tests non paramtriques, qui sont pour cette
raison qualifis de distribution-free en Anglais (quoique nonparametric tests soit le terme
habituel). Comme rien n'est gratuit en ce bas monde, l'abandon de toute connaissance sur la
loi de distribution de la moyenne s'accompagne d'une perte de puissance du test (voir le
chapitre 7), assimilable de la myopie (c'est dire qu'il faudra que l'cart entre deux
moyennes soit plus grand pour pouvoir dceler qu'il est significatif). Heureusement, cette
perte de puissance est modre. Selon la thorie, dans les conditions ou le test paramtrique
resterait applicable, un test non paramtrique conserve au moins 80% de la puissance du test
paramtrique (SCHWARTZ 1993)
1
. Dans le cas ou un test non paramtrique est seul applicable la
question ne se pose dailleurs plus, par manque de comptiteur !
10.2 Comparaison de deux moyennes : le test U de Mann et Whitney (et Wilcoxon)
Il existe deux tests non-paramtrique, utilisables indiffremment que lchantillon soit grand
ou petit (ils remplacent donc chacun la fois le test Z et le t de Student). L'un s'appelle le test
U de Mann et Whitney et l'autre le test W de Wilcoxon. Cette dualit n'est qu'apparente et ces
deux tests sont en fait rigoureusement quivalents puisquil suffit de connatre le rsultat
chiffr de l'un pour dduire automatiquement le rsultat donn par l'autre par une simple
formule de conversion. Une tendance rcente est dailleurs de mettre en avant leur gmellit
en parlant du test de Mann-Whitney-Wilcoxon.
1
Schwartz, D. 1993. Mthodes statistiques l'usage des mdecins et des biologistes (4me dition). Medecines Sciences, Flammarion. 314
pages.
En consquence, je prsenterai une seule de ces deux approches strictement quivalentes : le
test U de Mann et Whitney.
Voici vos deux chantillons A et B, d'effectifs n
A
et n
B
:
x
1
, x
2
x
nA
y
1
, y
2
x
nB
Pour traiter le cas gnral ou la taille des deux chantillons est diffrente, je vais supposer que
n
A
> n
B
.
Le test est bti sur le principe que si les individus proviennent en fait de la mme population
(hypothse Ho) alors la probabilit qu'un x pris au hasard soit suprieur un y pris au hasard
est de 0,5 (une chance sur deux). Si en revanche la moyenne est plus leve dans A que dans
B, on aura plus souvent x > y que l'inverse (et, si on ralise un classement on trouvera les x
prfrentiellement dans le haut du classement). Si la moyenne est suprieure dans B, on aura
l'inverse (quelle rvlation bouleversante), et ce sont les y qui occuperont plutt le haut du
classement.
Donc, si on examine mthodiquement toutes les comparaisons possibles entre les x et les y
(il y a n
A
n
B
comparaisons diffrentes possibles), la proportion des comparaisons pour
lesquelles on aura x > y doit tre (en esprance) de 0,5 (soit 50%). Le nombre de cas o on va
avoir x > y sera donc, toujours en esprance :
U
0
= (n
A
n
B
) / 2
U
0
est la valeur attendue de U si on rptait l'exprience une infinit de fois avec des effectifs
n
A
et n
B
dans deux populations de mme moyenne pour le caractre tudi.
Un moyen simple deffectuer rapidement toutes les comparaisons possibles est de raliser un
classement de ce type :
1. x
1
2. x
2
et x
3
(ex quo)
3. x
5
et y
1
(ex quo)
4. x
4
5. y
2
6. y
3 7. x
5
Il peut sembler ridicule de faire un test statistique sur des chantillons de taille aussi rduite
quici (n
A
= 6 et n
B
= 3). Ma rponse sera double (i) la limite basse dutilisation de ce test est
encore plus faible : on peut dceler un cart significatif ( = 0,05) entre deux chantillons
ayant chacun seulement 4 individus (!), il faut cependant pour cela que les 4 individus de A
aient tous une valeur plus leve que le meilleur individu de B), et (ii) le principe du test est
videmment plus facile prsenter avec peu dindividus.
Dans un premier temps, on va compter pour chaque x le nombre de y qui lui sont infrieurs
et on somme les rsultats obtenus pour tous les x (cela revient bel et bien passer en revue
toutes les comparaisons possibles entre les x et les y et noter le nombre de cas o x > y). Le
nombre obtenu est une variable U de Mann et Whitney, note dans ce cas prcis Uxy. Dans un
deuxime temps on fait alors de mme pour obtenir son alter ego Uyx, cest dire quon va
compter pour chaque y le nombre de x qui lui sont infrieurs, et on somme le rsultat pour
tous les y, obtenant ainsi la variable Uyx (cela revient faire une deuxime fois toutes les
comparaisons possibles mais noter cette fois ci le nombre de cas o y > x).
Vous aurez cependant remarqu une difficult : nous avons parmi nos donnes des valeurs
x et y qui sont ex-aequo. Que faire ? Notre exemple illustre plus prcisment deux cas
distincts, qui nappellent pas la mme rponse. Premier cas : x
2
et x
3
sont ex-aequo et
appartiennent au mme chantillon. Cela ne perturbe en rien le comptage : ces deux individus
comptabilisent chacun 3 individus y qui leurs sont infrieurs (y
1
, y
2
, y
3
). Deuxime cas : x
5
et
y
1
sont ex-aequo et sont adversaires . Dans le comptage concernant x
5
, lindividu y
1
va
compter seulement pour 0,5 (une demi part en quelque sorte). Le score obtenu par x
5
sera
donc : 0,5 ( cause de y
1
) + 2 (y
2
et y
3
sont strictement infrieurs x
5
) = 2,5. Ct y
1
, mme
raisonnement et son score sera donc 0,5 ( cause de x
5
) + 1 (pour x
6
, strictement infrieur y
1
)
= 1,5. NB : si un individu a plusieurs adversaires avec lesquels il est ex-aequo, le principe
restera le mme : il engrange 0,5 points par adversaire ex-aequo et fournit 0,5 points
chacun de ces adversaires ex aequo. Compliqu ? Voyez le tableau de rsultats :
A B
3pts x
1
3pts et 3pts x
2
, x
3
3pts x
4
2,5pts x
5
y
1
1,5pts
y
2
1pt
y
3
1pt
0 x
6
Uxy = 14,5 Uyx = 3,5
Vous remarquerez quon a bien comptabilis toutes les comparaisons possibles : Uxy + Uyx =
14,5 + 3,5 = 18, et on a bien n
A
n
B
= 6 3 = 18 (vous noublierez pas de faire cette
vrification en pratique, lexprience montre quil est trs facile doublier un demi point lors
du comptage). Le bout du tunnel se profile, car la distribution des variables U est connue et
tabule (cest la moindre des choses). Il ne reste plus qu aller lire dans la table du U de
Mann et Whitney, exercice quelque peu droutant au dbut.
En effet, pour une raison historique, on utilise pour le test la plus petite des valeurs calcule
entre Uxy et Uyx (ici, Uyx = 3,5) tout simplement parce que son calcul tait plus rapide du
temps ou l'addition des scores s'effectuait avec un papier et un crayon. La table traditionnelle
du U de Mann et Whitney est donc habituellement prsente lenvers par rapport la
logique des autres tables (loi normale, t de student, chi 2 etc). Le test est en effet significatif
si le plus petit (entre Uxy et Uyx) est infrieur (et non pas suprieur) la valeur de la table
(le test nest donc pas significatif quand on dpasse la valeur critique, ce qui est la conclusion
inverse de tous les autres tests que nous avons abords). Dans notre exemple, la plus petite
valeur calcule est donc Uyx = 3,5 et la valeur critique U de la table pour n
A
n
B
= 6 3 = 3
est : U
table
= 1. Ici, Uyx nest pas infrieur 1 donc on ne peut pas rejeter Ho les populations
dont ces chantillons sont tirs ont la mme moyenne et on conclut une diffrence non
significative.
En conclusion, en notant Min (Uxy, Uyx) la plus petite des deux valeurs U calcules, le
principe gnral de la lecture dans la table du U est le suivant :
Si Min (Uxy, Uyx) < U
table
, on rejette Ho, au risque choisi.
Si Min (Uxy, Uyx) > U
table
, on ne rejette pas Ho, au risque inconnu, mais dautant
plus grand que les moyennes relles sont proches, si elles sont diffrentes.
Remarque : le fait de classer vos valeurs dans lordre dcroissant et de compter les infrieurs ou dans
lordre croissant et de compter les suprieur est videmment strictement quivalent. Choisissez donc lordre
quil vous plaira !
Exemple 10.1.
On doit comparer deux sries de longvits d'animaux rares ns en captivit dans deux types de zoos qui
utilisent des mthodes d'levage diffrentes. La question est de savoir si un type de mthode d'levage est
meilleur que l'autre, en comparant 10 zoos utilisant la premire mthode et 8 zoos utilisant la deuxime
mthode. Ce type de naissance tant trs rare, on a pur observer un seul cas par zoo. La distribution des
longvits est une variable notoirement distincte de la loi normale (en particulier cause de la mortalit en bas
ge, qui peut tre particulirement leve). Les longvits (en annes) obtenues dans les deux types de zoos
sont les suivantes
Zoo de type A (nA = 10 naissances, dans 10 zoos) : 1, 1, 1, 1, 5, 6, 6, 8, 9, 12
Zoo de type B (nB = 8 naissances, dans 8 zoos) : 1, 7, 7, 8, 10, 13, 15
Le calcul donne Umin = 17,5 (voir dtail du calcul dans le tableau ci-dessous)
La valeur seuil pour = 0,05 et une taille d'chantillon A = 8 avec une diffrence nA nB = 2 est de 29, et elle
est de 21 pour = 0,01. Du fait que 17,5 est infrieur 21, le test est significatif au risque = 0,01. On peut
donc rejeter au risque = 0,01 l'hypothse Ho selon laquelle la longvit de cette espce d'animal est la mme
dans les deux types de zoos compars. On conclurait ventuellement dans un rapport :" la longvit moyenne
de l'espce X est significativement plus faible dans les zoos de type A, (U de Mann et Whitney, nA = 10, nB = 8,
U = 17,5; P < 0,01). En ralit, dans ce genre d'tudes, il est particulirement dlicat de conclure sur la cause
relle de la diffrence observe tant il est impossible de standardiser des "objets" tels que des zoos, qui ont
forcment des localisations gographiques, des quipes soignantes, des directeurs diffrents etc. Par ailleurs,
rien ne dit que les mres soient de la mme origine pour chaque type de zoo. Bref, cet exemple totalement
artificiel visait simplement montrer un cas pour lequel il est difficile d'avoir un grand chantillon (naissances
rares) et dans lequel la variable tudie (longvit) est largement loigne de la loi normale (test t de Student
peu pertinent).
score A B score
15 10
13 10
5 12
10 9
4 9
3,5 8 8 7,5
7 7
7 7
1 6
1 6
1 5
0,5 1 1 4 0,5 = 2
0,5 1
0,5 1
0,5 1
17,5 52,5
Bonne nouvelle, pour des effectifs n
A
et n
B
suprieurs chacun la dizaine, la variable U suit
une loi approximativement... normale (on n'y chappe dcidment pas !). Comme d'habitude,
on peut alors centrer-rduire la variable en question pour obtenir la loi normale centre-rduite
N (0 : 1). La variance de la loi suivie par U vaut :
2
U
= n
A
n
B
(n
A
+ n
B
) / 12
(NB : ne cherchez aucun rapport entre le "12" du dnominateur et l'effectif de A et de B, cette valeur est fixe).
Ainsi, quand n
A
et n
B
sont trop grand pour utiliser la table du U de Mann et Whitney (la table
fournie en annexe dclare forfait au dessus de n = 20) on retombe sur le test paramtrique
Z, aprs l'opration habituelle de centrage-rduction :
Z = (U U
o)
/ (
2
U
) N (0 : 1)
avec U = Umin ou Umax, peu importe, seule compte la valeur absolue de Z
Si |Z| > 1,96 on rejette Ho, au risque = 0,05.
Si |Z| < 1,96 on ne rejette pas Ho, au risque inconnu mais dautant plus grand que les
moyennes, si elles sont diffrentes, sont proches.
Exemple 10.2.
Mme exemple des zoos mais on a russi obtenir les donnes en provenance de quelques zoos
supplmentaires Les longvits (en annes) obtenues dans les deux types de zoos deviennent les suivantes
Zoo de type A (nA = 22 naissances, dans 22 zoos) : 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 5, 5, 6, 6, 7, 8, 9, 12, 12
Zoo de type B (nB = 12 naissances, dans 12 zoos) : 1, 7, 7, 8, 9, 10, 11, 12, 13, 14, 15, 15
Uo = (22 12) / 2 = 132
2
U = 22 12 (22 + 12) / 12 = 748
Umin = 38,5 (et Umax = 225,5). Remarquez que |Umin Uo| = |Umax Uo| = 93,5 il est donc indiffrent d'utiliser
Umax ou Umin dans le calcul de la variable Z. Juste pour viter un signe ngatif, j'utiliserai Umax
Z = (225,5 132)/748 = 3,41
D'aprs la table de la loi normale, on est au del de la valeur seuil pour = 0,001 (qui est de 3,29). On
conclurait ventuellement dans un rapport :" La longvit moyenne de l'espce X est significativement plus
faible dans les zoos de type A, (Z = 3,41; P < 0,001". Tout ce qui a t dit sur les problmes mthodologiques
de ce type d'tude (comment garantir que les deux groupes de zoos diffrent uniquement par le facteur "type
d'levage de l'espce X" ?) reste valable, et la plus grande prudence reste l'ordre du jour.
10.3 Comparaison de plus de deux moyennes par le test H de Kruskall etWallis
On a vu plus haut que multiplier les tests sur de petits chantillons au lieu de faire un test
global augmentait le risque et obligeait utiliser de mauvaises estimations de la variance
globale. La solution sil y a beaucoup dchantillons (ce qui obligerait multiplier les tests)
repose donc sur un test global mais non paramtrique. Notez au passage quon peut
parfaitement utiliser un test non paramtrique alors quon serait dans les conditions de
lutilisation dune ANOVA. Cest mme fortement prfrable se lancer dans une ANOVA
sans comprendre ce que lon fait ! ! ! Un quivalent non paramtrique de lANOVA est le test
H de Kruskal et Wallis.
Test H de Kruskall etWallis
On a k sries de valeurs (et non plus deux comme dans un U de Mann-Whitney). Si on appelle
A, B, C les chantillons, deffectifs n
A
, n
B
, n
C
on aura donc pour A les valeurs a
1
, a
2
, a
3
pour B les valeurs b

1
, b
2
, b
3
etc.
Comme pour le test U de Mann et Whitney, on va dabord classer toutes ces valeurs par
ordre croissant sans tenir compte de leur chantillon dorigine. Cependant, on va ensuite
attribuer chaque individu un rang, et cest ce rang qui sera utilis dans les calculs. Une fois
le classement effectu on soccupe des ex-aequo. Sil y a des ex-aequo occupant par exemple
les rangs 10, 11 et 12 on leur donnera tous le rang moyen 11 (sils occupent les rangs 10 et
11 on leur donnera chacun le rang 10,5). Notez que ceci est valable que les ex-aequos
appartiennent des chantillons diffrents ou pas. On calcule ensuite le rang moyen
thorique R, qui vaut (N + 1)/2 avec N le nombre total dindividus, puis on calcule les rangs
moyens r
A
r
B
r
C
lintrieur de chaque classe. Concrtement, le rang moyen r
A
de lchantillon
A sera la moyenne des rangs occups dans le classement gnral par les individus a
1
, a
2
a
3
etc
Si lhypothse Ho tous les chantillons proviennent de la mme population est vraie,
alors le rang moyen de chaque chantillon devrait tre trs proche du rang moyen thorique R.
Si elle est fausse, au moins un chantillon va scarter de la norme et le test doit le dtecter.
On calcule alors lindice H :
H = [ n
A
(r
A
R)
2
+ n
B
(r
B
R)
2
+ n
C
(r
C
R)
2
etc] / [ N(N + 1)/12 ]
Ou lon retrouve au dnominateur le mystrieux 12 du U de Mann et Whitney et du test de
Wilcoxon, le test de Wilcoxon tant dailleurs un cas particulier du H de Kruskall-Wallis avec
deux classes seulement.
Nous sommes au bout de nos peines, car il se trouve que H suit approximativement une loi
du
2
avec (k 1) degrs de libert (rappel : k est le nombre dchantillons comparer). La
lecture du test se fait donc exactement comme sil sagissait dun
2
.
Si le test H est non significatif, il est inutile (et absurde) de faire ensuite des comparaisons
deux par deux. En revanche si le test H est significatif, on est tent de savoir ce qui en est la
cause. On retombe alors dans le problme des tests multiples. Si vous voulez faire ces
comparaisons deux deux utilisez alors un seuil gal au maximum 0,05/nombre de tests.
Rsum du chapitre 10
Face de petits chantillons et une variable alatoire de loi inconnue (ou connue pour tre
loigne de la loi normale) on peut quand mme comparer deux moyennes observes en
utilisant le test U de Mann et Whitney (=test W de Wilcoxon), quivalent non paramtrique
du test Z et du test t de Student. Dans le cas de plusieurs moyennes comparer
simultanment, on peut utiliser le test H de Kruskall et Wallis, quivalent non paramtrique
de l'ANOVA. L'utilisation d'un test non paramtrique s'accompagnant d'une lgre perte de
puissance, ces tests ne sont utiliss que dans les cas ou on ne peut utiliser les tests
paramtriques, plus puissants.
11. Comparaisons de pourcentages.
11.1 comparaison entre un pourcentage observ et un pourcentage thorique : le (test
du) _
2
de conformit.
Ce sujet nest quun cas particulier dun problme plus gnral qui est la comparaison dune
rpartition observe de n objets rpartis en k classes avec une rpartition thorique. Notez qu'il
est ncessaire que les classes soient mutuellement exclusives (un individu ne peut pas
appartenir deux classes la fois).Par exemple, le pourcentage de gauchers dans un groupe de
n personnes est bas sur la rpartition des n observations en deux catgories (k = 2), savoir
obs
1
gauchers et de obs
2
droitiers, sachant qu'on ne peut pas tre gaucher et droitier la fois
1
.
Du fait que la rsolution du problme est aussi simple avec un nombre de catgories k
quelconque (cest dire suprieur ou gal 2), cest ce cas gnral quon va examiner.
Lapplication au cas dun seul pourcentage sera ensuite immdiate.
La rpartition observe de nos n individus au sein des k classes aura la forme suivante :
obs
1
, obs
2
, obs
3
obs
k
obsi leffectif observ de la classe i
obs1 + obs2 + ... + obsk = n
Notre but est de comparer cette rpartition observe avec une rpartition thorique (qui
correspondra notre hypothse Ho). Il y a plusieurs faons dobtenir cette rpartition
thorique, et on y reviendra car cela a de limportance dans linterprtation du test. Pour
linstant, on va ngliger les dtails et considrer simplement quon connat cette rpartition a
priori (par exemple, on sait que la clbrissime pice-de-monnaie-quilibre doit tomber sur
pile une fois sur deux en moyenne). La rpartition thorique de nos n individus en k classes (=
la rpartition si Ho est vraie) sera de la forme :
tho
1
, tho
2
, tho
3
tho
k
,
thoi leffectif observ de la classe i
tho1 + tho2 + ... + thok = n
Il serait videmment absurde de rejeter Ho chaque fois quil ny a pas accord parfait entre nos
observations et la thorie (qui considrerait la pice de monnaie comme fausse si elle tombait
deux fois sur pile en deux lancers ?), il faut tenir compte du fait que nos observations, bases
sur un chantillon, sont soumises aux incontournables fluctuations dchantillonnage. Il est
donc parfaitement normal dobserver des diffrences avec la thorie. Notre problme, comme
dans la comparaison de deux moyennes, consiste mesurer lcart entre lobservation et la
rpartition attendue sous Ho, puis dterminer si cet cart est trop grand pour tre expliqu
par la seule erreur dchantillonnage. On va donc encore une fois se construire une variable de
test, dont il faudra connatre la distribution sous Ho. On pourra alors calculer la probabilit
quon aurait dobserver lcart constat avec nos donnes si Ho tait vrai. Si cette probabilit
1
en fait si, on peut. Dans un cas pareil on devrait crer une troisime catgorie pour les ambidextres ou bien sparer les individus en
"purement droitier" et "non purement droitier" si on voulait seulement deux catgories mutuellement exclusives.
est trop faible, on rejettera Ho. Le premier mouvement spontan pour mesurer globalement un
cart entre deux distributions est simplement de mesurer les carts entre effectifs observs et
thoriques classe par classe, puis de faire la somme de ces carts. Autrement dit de calculer :
(obs
1
tho
1
) + (obs
2
tho
2
) + + (obs
k
tho
k
)
Ce calcul donne systmatiquement un rsultat gal zro. A la rflexion, on comprend que,
leffectif total tant fix, les individus se trouvant en excs dans une classe feront forcment
dfaut dans une autre, dou la somme nulle des carts. La solution semble simposer delle
mme : utiliser les valeurs absolues. Acceptons cette solution pour linstant. Notre mesure de
lcart global entre la rpartition observe et la rpartition thorique devient :
|obs
1
tho
1
| + |obs
2
tho
2
| + + |obs
k
tho
k
|
Cette mesure prendra indubitablement des valeurs dautant plus grandes que les rpartitions
diffrent, ce qui va dans le bon sens. Elle a cependant un dfaut gnant, qui est de traiter les
carts sur le mme pied dgalit sans considration pour la taille relative des classes. Or, il
est vident que par exemple un excs observ de 10 individus dans une classe qui en comporte
thoriquement 1000 (soit + 1%) mritera beaucoup moins dattention que le mme cart pour
une classe qui en comporte thoriquement 5 (soit + 200%). Il faut donc pouvoir relativiser les
carts observs, et le moyen le plus simple est de les diviser par leffectif thorique de leur
classe. On obtient une mesure de lcart global plus pertinente, qui est :
Il ne reste plus qua dterminer si cet cart est trop grand pour pouvoir tre expliqu par
lerreur dchantillonnage. Il faut pour cela connatre la loi de distribution de notre mesure si
Ho est vraie. Si lcart global que nous venons de calculer a une probabilit moindre que 0,05
dtre aussi important par hasard, nous rejetterons Ho en concluant que la distribution
thorique nest pas respecte. Dans le cas contraire, nous conclurons que Ho ne peut pas tre
rejete avec nos donnes.
Hlas, on ne connat pas la loi de probabilit de la mesure prsente ici. De quoi ? Tout a
pour rien ? ! Non, car de brillants esprits se sont attels au problme et ont videmment trouv
la solution. Il suffit de considrer non pas la valeur absolue des carts mais leur carr. Et
pourquoi donc ? Constatons dabord que cette modification naltre pas le comportement
gnral de notre indice de distance : lindice utilisant les carrs des carts sera toujours
dautant plus grand que lcart entre la rpartition observe et la rpartition thorique est
grand. Rjouissons nous ensuite de ne plus avoir traner comme un boulet toutes ces valeurs
absolues, diaboliques sources derreurs comme vous lavez appris douloureusement en classe
de 3me. Enfin, et cest videmment lintrt de la manuvre, on connat la loi de
distribution sous Ho de ce nouvel indice utilisant les carrs des carts. Des considrations
mathmatiques remplissant plusieurs pages permettent en effet de dmontrer que la variable :
k
k k
tho
tho obs
tho
tho obs
tho
tho obs
+ +
...
2
2 2
1
1 1
suit avec une excellente approximation une loi connue, qui est la loi du _
2
. Certes, la loi en
question est dfinie strictement parlant comme une somme de variables normales centres
rduites leves au carr, mais heureusement, sous certaines conditions souvent remplies
(voir 11.3 conditions d'application du chi2), notre somme des (obs tho)
2
/tho se comporte
de la mme manire qu'une "somme de variables normales etc.". Il y a des jours ou les dieux
sont avec nous. Toujours est il que la distribution du _
2
tant disponible sous forme de tables,
il suffit de lire dans la table si la valeur calcule dpasse la valeur de la table au seuil o choisi.
Si le _
2
calcul dpasse la valeur lue dans la table, on rejette Ho au seuil o choisi et on conclut
donc que la rpartition observe est significativement diffrente de la rpartition thorique.
Dans le cas contraire, on ne peut pas rejeter Ho. Reste maintenant un dtail rgler : sur
quelle ligne de la table doit on lire ? Ici, les choses se corsent, car il existe une infinit de
distributions du _
2
de mme quil existe une infinit de distributions du t de Student. Il y a en
effet une distribution pour chaque nombre de degrs de libert. Comment calculer ce
nombre ?
Premier cas (le plus simple) : les valeurs thoriques sont totalement indpendantes des
donnes observes. Ce sera le cas chaque fois quelles ont t calcules sur des donnes
antrieures, ou lorsquelles reposent sur un modle abstrait sans rapport avec les donnes
observes (exemple : la pice de monnaie qui doit donner a priori 50% de pile). Dans ce cas,
le nombre de ddl est gal au nombre de classes 1, cest dire k 1. On enlve 1 ddl
comme vu prcdemment car le nombre de ddl correspond au nombre de variables alatoires
indpendantes. Or, pour un total donn, la connaissance de k 1 valeurs va fixer
immdiatement la dernire par diffrence au total. Les k effectifs des k classes ne reprsentent
donc pas k mais k 1 variables indpendantes.
Exemple 11.1: Sur 80 individus rpartis en 4 classes, la rpartition observe est 40 ; 30 ; 6 ; 4 alors que la
rpartition thorique (connue a priori, donc indpendamment des donnes) donnerait avec cet effectif de 80
individus la rpartition : 35 ; 25 ; 10 ; 10. Nos donnes s'cartent elles significativement de la thorie ?
Le calcul du _
2
donne :
( ) ( ) ( ) ( )
91 , 6
10
10 4
10
10 6
25
25 30
35
35 40
2 2 2 2
2
=
= _
Il y a k = 4 classes donc 4 1 = 3 ddl. La table du _
2
donne pour 3 ddl la valeur seuil de 7,815 pour le risque o
= 0,05. La valeur seuil ntant pas dpasse, on ne peut pas rejeter Ho et on crira : Sur la base de nos
donnes, on ne constate pas dcart significatif par rapport aux proportions attendues (_
2
= 6,91 ; 3 d.d.l.,
NS).
Deuxime cas : les valeurs thoriques ont t au moins en partie dtermines partir des
donnes. Exemple classique entre tous : en gntique des populations, on vous fournit les
effectifs dindividus de gnotype AA, Aa et aa et on vous demande de dterminer sils
vrifient les proportions de Hardy-Weinberg. Si cest la seule information quon vous donne,
vous tes obligs dutiliser vos donnes observes pour estimer la frquence p de lallle A
k
k k
tho
tho obs
tho
tho obs
tho
tho obs
2
2
2
2 2
1
2
1 1
) (
...
) ( ) (
+ +

(la frquence q de lallle a se dduisant automatiquement du fait que p + q = 1). Ce
faisant, vos valeurs thoriques pour les effectifs AA, Aa et aa, bass sur la prdiction
thorique des proportions mendlienne "p
2
individus AA : 2pq individus Aa : q
2
individus

aa
"
ne sont plus indpendantes des donnes. Elles en sont en fait artificiellement rapproches, ce
qui va diminuer la valeur du _
2
calcule et rendre plus difficile le rejet de Ho. Pour tenir
compte de ce fait, il faut diminuer le nombre de ddl de 1. Ainsi, au lieu de lire dans la table
pour un nombre de 3 1 = 2ddl, il faudra utiliser la valeur correspondant 3 1 1 = 1 ddl.
Le premier ddl est enlev parce quil suffit de connatre le nombre de AA et de aa (par
exemple) pour connatre celui des Aa par diffrence au total. Le second ddl est enlev parce
quon a estim la frquence du gne A en utilisant les donnes observes.
Exemple 11.2. Dans un chantillon de 50 individus on observe pour un locus dialllique les effectifs des
gnotypes suivants : AA = 25 ; Aa = 20 ; aa = 5. Ces effectifs sont ils en accord avec lhypothse de Hardy-
Weinberg ?
On estime tout dabord les frquences allliques daprs les donnes : P(A) = p = P(AA)+1/2 P(Aa) =(25 +
20/2)/50 = 0,7 dou on dduit sans avoir se servir une nouvelle fois des donnes que P(a) = 1 p = 0,3. On
en dduit les proportions puis les effectifs thoriques des trois gnotypes en se basant sur la relation de Hardy-
Weinberg (hypothse Ho):
P(AA) = p
2
= (0,7)
2
= 0,49 effectif tho (AA) = 0,49 50 = 24,5
P(Aa) = 2pq = 2 0,7 0,3 = 0,42 effectif tho (Aa) = 0,42 50 = 21
P(aa) = q
2
= (0,3)
2
= 0,09 effectif tho (aa) = 0,09 50 = 4,5
On compare maintenant les effectifs observs avec les effectifs thoriques par un _
2
:
Le nombre de ddl est 3 1 (total) 1(estimation de p partir des donnes) = 1 ddl
( ) ( ) ( )
113 , 0
5 , 4
5 , 4 5
21
21 20
5 , 24
5 , 24 25
2 2 2
2
=
= _
La valeur seuil du _
2
pour o = 0,05 et 1 d.d.l. est de 3,84. Cette valeur ntant pas dpasse on ne peut pas
rejeter Ho. On crira Sur la base de nos donnes, on ne constate pas dcart significatif par rapport aux
proportions de Hardy-Weinberg (_
2
= 0,113 ; 1 d.d.l., NS). .
En conclusion sur ce type de _
2
(appell chi2 de conformit car il vrifie la conformit de
donnes observes avec un modle thorique), on va maintenant traiter trs facilement le cas
particulier dun seul pourcentage (donc le cas ou k = 2 classes):
Exemple 11.3. Sur 50 individus adultes capturs au hasard dans une population, il y a 32 mles (soit 64%).
Cette proportion de mles est elle trop leve pour accepter, au risque o = 0,05, lhypothse Ho que le sex-
ratio de la population est quilibr (ce qui supposerait 50% de mles ?)
Lerreur ne pas commettre ici est de ngliger les femelles et faire le test du _
2
sur la moiti des donnes. Il
sagit rappelons le de tester lcart entre deux rpartitions en k classes, et non pas simplement entre deux
effectifs dune classe considre isolment de lensemble. Les valeurs observes sont donc ici 32 mles et 18
femelles, les valeurs thoriques (totalement indpendantes des donnes) tant 25 mles et 25 femelles. Le
nombre de ddl est ici 2 (classes) 1 (total) = 1 degr de libert.
( ) ( )
92 , 3
25
25 18
25
25 32
2 2
2
=
= _
2
pour 1 ddl et o = 0,05 est de 3,84. Cette valeur tant dpasse (de justesse), on rejette Ho,
et on crira dans un rapport : Le sex ratio de cette population est dsquilibr en faveur des mles (_
2
=
3,92 ; 1 d.d.l., P < 0,05).
Parsimoni Dans le cas d'un pourcentage unique, voici encore un bel exemple de test
inutile. Pourquoi ne pas calculer directement l'intervalle de confiance du pourcentage
observ ? Pour le mme prix vous avez le test (si la valeur thorique est dans cet
intervalle, vous savez d'avance que le test sera NS) et la gamme de valeur vraisemblable
pour le pourcentage de la population relle.
Abonessian Dans ce cas prcis, effectivement, le test est quivalent au calcul d'un
intervalle de confiance autour du pourcentage observ. Mais encore une fois il vous
donne une probabilit P que le simple calcul de l'intervalle de confiance ne donne pas. Il
y a donc complmentarit entre les deux approches.
11.2 Comparaison entre plusieurs distributions observes : le _
2
dhomognit
Le _
2
de conformit compare une distribution observe avec une distribution thorique en
utilisant dans chaque classe les (carrs des) carts entre leffectif observ et leffectif
thorique. Que faire maintenant si on doit comparer entre elles plusieurs distributions
observes ? Bien que mesurer simultanment lhomognit de N distributions ne soit en fait
pas plus compliqu quen comparer seulement deux, ce dernier exemple est plus simple
suivre. On va donc commencer par essayer de comparer deux distributions
observes comportant k classes chacune :
obs
1
, obs
2
obs
k
et
obs
1
, obs
2
obs
k
Notez quil faut imprativement abandonner lide qui vient ventuellement lesprit
dutiliser une des deux distribution observe comme la distribution thorique et deffectuer
le mme calcul que pour un _
2
de conformit :
Outre quun tel calcul obligerait avoir des effectifs gaux dans chaque chantillon (une
contrainte importante dont on aime se passer), il constitue une erreur de raisonnement la
base. En effet, on a bien ici en prsence deux rpartitions observes, qui sont chacune soumise
aux fluctuations dchantillonnage. Il est donc fondamentalement erron den considrer une
comme fixe et parfaite.
La mthode correcte consiste comparer les effectifs de chaque classe des deux
distributions ce que chacun deux devrait tre sous Ho : les deux populations ne diffrent
pas . Pour viter un dbat trop abstrait, voici un exemple choisi totalement au hasard.
( ) ( ) ( )
k
k k
obs
obs obs
obs
obs obs
obs
obs obs
'
'
...
'
'
'
'
2
2
2
2 2
1
2
1 1

+ +

On doit comparer la rpartition entre mles adultes, femelles adultes et immatures non
sexables deux endroits diffrents de lestran de la pointe de P******, dans une espce de
mollusque gastropode qui a galement choisi de rester anonyme. Nos deux chantillons
comportent 20 mles, 20 femelles et 60 immatures pour le premier (n
A
= 100) ; 5 mles, 30
femelles et 90 immatures pour le second (n
B
= 125).
Parenthse utile : comme dans le cas de tous les autres tests dcrits dans ce document,
le fait que les deux chantillons naient pas le mme effectif na absolument aucune
importance et nempche en rien de les comparer. Je lance donc un appel tous les
tudiants de bonne volont : par piti arrtez une bonne fois pour toutes dinventer
cette rgle . Les stats sont suffisamment compliques comme a, non ?
Il nous faut maintenant rpondre la question suivante : sous lhypothse Ho les
chantillons proviennent en fait de la mme population et les diffrences de proportions
observes sont dues simplement lerreur dchantillonnage quels devraient tre les
effectifs thoriques des classes de ces deux distributions ? Il nous faut pour rpondre cette
question dterminer au mieux quelles sont les proportions relatives entre mles, femelles et
immatures dans la population unique de notre hypothse Ho. Il suffira ensuite dappliquer ces
proportions aux effectifs totaux de chaque chantillon pour dterminer les effectifs de chaque
classe.
Du fait mme que notre hypothse Ho stipule que les chantillons proviennent dune mme
population, lestimation des proportions dans la population se base videmment sur les deux
chantillons runis, donc sur les 225 individus disponibles. On obtient les proportions
suivantes :
mles : 25/225 = 0,111
femelles : 50/225 = 0,222
immatures : (par diffrence au total de 1) = 0,667.
En appliquant ces proportions chacun des deux chantillons, on obtient les effectifs
thoriques classe par classe, soit 11,1 mles ; 22,2 femelles ; 66,7 immatures pour
lchantillon A et 13,875 mles ; 27,75 femelles et 83,375 immatures pour lchantillon B. Le
calcul du _
2
est ensuite identique celui du _
2
de conformit, en appliquant pour chaque
classe la clbre formule (obs tho)
2
/tho:
Arrive maintenant le moment que vous adorez tous : il faut dterminer le nombre de degrs de
liberts pour pouvoir lire dans la table du _
2
. Je vous propose deux mthodes de raisonnement,
vous verrez par la suite celle qui vous convient le mieux (ceci est une pure clause de style,
tout individu normalement constitu prfre la mthode rapide, qui vite davoir rflchir).
( ) ( ) ( ) ( ) ( ) ( )
41 , 14
375 , 83
375 , 83 90
75 , 27
75 , 27 30
875 , 13
875 , 13 5
7 , 66
7 , 66 60
2 , 22
2 , 22 20
1 , 11
1 , 11 20
2 2 2 2 2 2
2
=
= _
Premire mthode : le raisonnement. Il y a dans le tableau de donnes observes deux
chantillons comportant chacun 3 effectifs qui sont des variables alatoires, mais il ny a pas 6
ddl pour autant dans notre _
2
car ces variables sont pas toutes indpendantes. Dans chaque
chantillon, il suffit de connatre deux effectifs pour dduire le troisime par rapport au total.
Ce troisime effectif napporte donc aucune variabilit lensemble et ne constitue pas un
degr de libert. Il ny a ainsi que 2 ddl par chantillon dou un total provisoire de 4 d.d.l.
dans le calcul de notre _
2
. Provisoire parce quil faut encore enlever des d.d.l. En effet on a
estim des proportions thoriques partir des donnes. Selon le principe expos
prcdemment (11.1 _
2
de conformit) Il faut enlever 1 d.d.l. supplmentaire pour chaque
paramtre estim partir des donnes. On perd donc 1 d.d.l. pour avoir estim la proportion
thorique des mles adultes partie des donnes et 1ddl pour avoir estim celle des femelles
adultes de la mme manire. En revanche, notez bien qu'on nenlve pas de d.d.l. pour la
proportion des immatures car cette proportion se dduit des deux autres par diffrence 1
cest dire sans avoir utiliser les donnes une troisime fois. Rsumons nous : 6 variables
au dpart 2 d.d.l. pour les totaux 2 d.d.l. pour avoir utilis deux fois les donnes = 2 ddl
pour notre _
2
.
Deuxime mthode (rapide). Le tableau ayant 2 colonnes et 3 lignes, le nombre de d.d.l. est
(2 1) (3 1) = 2 d.d.l.
Je vous avais bien dit que vous prfreriez cette mthode l.
Justification de la mthode rapide : notre tableau de donnes observes est un tableau
dit de contingence de C = 2 colonnes et L = 3 lignes. Les totaux de ces lignes et de ces
colonnes tant connus, combien de cases peut on faire varier librement ? Rponse : sur
chaque ligne on peut faire varier L 1 effectifs, ce qui fixe le dernier par diffrence au
total de la ligne. De mme on peut faire varier librement C 1 effectifs sur une colonne.
Le nombre de cases pouvant varier librement (= nombre de d.d.l.) est donc calcul
rapidement par le produit (L 1) (C 1 ), do ici (3 1) (2 1) = 2 ddl.
Si daventure (on voit de tout de nos jours) un(e) inconscient(e) vous dit avoir matris du
premier coup la notion de degr de libert en statistiques, ouvrez de grands yeux admiratifs
(a lui fera plaisir) mais ne vous privez pas de ricaner intrieurement. Pour votre part,
abordez ce sujet pineux avec la plus grande attention et prenez votre temps pour rflchir.
Le _
2
dhomognit est galement appel _
2
dindpendance, car il quivaut tester
(hypothse Ho) labsence de liaison entre les lignes et les colonnes. Dans lexemple ci
dessus, un _
2
significatif nous indique que la probabilit quun individu soit dun certain sexe
nest pas indpendante de lendroit ou on le prlve sur lestran. Ceci nimplique pas un
rapport de cause effet (= que le niveau sur lestran influence directement le sexe dun
individu). Il y a bien des possibilits pouvant expliquer un tel lien apparent, et il appartiendra
lexprimentateur de les examiner si (et seulement si) le _
2
dindpendance est significatif.
Exemple 11.4. La latralit est elle indpendante du sexe ?
D'aprs un sondage effectu sur 616 tudiants et tudiantes de la matrise BPE des promotions 1998 2001
(308 garons et 308 filles) j'ai observ 57 gauchers et ambidextres dclars parmi les garons (soit 18,5%) et
seulement 31 gauchres et ambidextres dclares chez les filles (soit 10,1%). Peut on accepter l'hypothse Ho
d'indpendance entre la latralit et le sexe au sein de cette population ?
Les proportions thoriques des catgories [gauchers & ambidextres] et [droitiers] se calculent sur la population
globale, et on obtient (57 + 31)/616 = 14,3% et 85,7% respectivement. Ces proportions nous permettent de
calculer les effectifs thoriques utiliss par le test du _
2
d'indpendance, soit 264 G&Aet 44 D. Il n'y aura ici
que 1 degr de libert : (2 1) lignes (2 1) colonnes.
Le calcul du chi2 donne : _
2
= 8,96
2
pour 1 ddl et o = 0,05 est de 3,84. Cette valeur est largement dpasse, et on lit dans la
table du chi2 que la valeur seuil pour o = 0,01 (qui est de 6,63) est elle aussi largement dpasse. On peut donc
rejeter Ho, au risque o = 0,01 et on crira dans un rapport : Le pourcentage de gauchers et ambidextres est
significativement suprieur chez les garons au sein de la population des tudiants de MBPE (_
2
= 8,96 ;
1 d.d.l., P < 0,01). . Ce rsultat suggre que le facteur "latralit" et "sexe" ne sont pas totalement
indpendants au sein de cette population. Peut-tre est-ce valable dans la population mondiale en gnral, peut
tre aussi que plus de garons gauchers que de filles gauchres sont attires par les tudes biologiques, il y a
toujours plusieurs manires d'interprter ce genre de rsultat.
11.3 Conditions dapplications du _
2
Le test du _
2
(quil soit de conformit ou dindpendance) nest pas applicable dans
nimporte quelles conditions. Il repose en effet sur une approximation (une de plus) puisque
les effectifs des classes suivent des lois binomiales (un individu appartient la classe avec la
probabilit p et ny appartient pas avec la probabilit q = 1 p) alors que la loi du _
2
est
stricto sensu la distribution dune somme de carrs de lois normales centres rduites. Pour
que lapproximation puisse tre faite, il est ncessaire que toutes les binomiales en prsence
soient suffisamment proches dune loi normale. On a vu (INTERVALLES DE CONFIANCE DUN
POURCENTAGE) que cette condition tait satisfaite pour une binomiale si np et nq > 5. En clair et
sans dcodeur, les effectifs thoriques de chaque classe doivent tre au moins de 5 individus.
Je dis bien les effectifs thoriques, pas les effectifs observs. Les effectifs observs peuvent
prendre n'importe quelle valeur y compris la valeur zro sans aucun problme. Confondre ces
deux aspects est une erreur frquemment commise, donc je me permets d'insister sur ce point.
Il existe par ailleurs une certaine tolrance vis vis de cette condition idale concernant les
effectifs thoriques, car le test du _
2
est relativement robuste. Cette tolrance est nonce dans
la rgle de Cochran, quon peut rsumer ainsi :
On peut effectuer un _
2
si au moins 80% des valeurs thoriques sont au
moins gales 5, et que toutes les valeurs thoriques sont suprieures 1
Traduit en dtails cela signifie que, pour utiliser la formule classique du chi2:
(i) dans le cas de deux effectifs thoriques, il faut imprativement des effectifs
thoriques de 5 ou plus
(ii) A partir de 5 effectifs thoriques, on peut admettre un effectif thorique faible
(entre 1 et 5)
(iii) A partir de 10 effectifs thoriques on peut en admettre deux faibles , etc
Soyez cependant conscient du fait quon touche l les extrmes limites des possibilits du test.
Que faire alors si vous vous trouvez coincs ? Il y a trois mthodes.
Mthode 1. Regroupez des classes entre elles. Vous aurez ainsi des effectifs thoriques plus
grands. noubliez pas de diminuer le nombre de d.d.l. en consquence (chaque regroupement
de deux classe fait disparatre un d.d.l.). Attention galement ce que votre regroupement
soit logique : ne regroupez pas entre eux pour faire masse les rares individus trs clairs
avec les rares individus trs sombres ! Inconvnient de cette mthode : vous perdez
videmment une partie de votre information.
Mthode 2. Utilisez une formule du chi2 adapte aux petits effectifs.
Achtung ! Cette mthode nest valable que pour le cas ou k = 2 classes, et si les effectifs
thoriques ne sont quand mme pas microscopiques (disons suprieurs 2). La correction
apporter la formule du chi2, due Yates, consiste diminuer la valeur absolue de chaque
diffrence obs tho de 0,5 avant dlever au carr. La formule du chi2 devient :
La lecture dans la table du chi2 se fait sans modification (le nombre de d.d.l. ne change pas).
Mthode 3. Utilisez un test indiffrent aux petits effectifs : le test exact de Fisher.
Ce test peut tre effectu (de manire fastidieuse) la calculatrice dans le cas ou k = 2 classes
(tableau de 2 2 cases), en revanche il demande imprativement un logiciel dans les autres
cas (rares sont d'ailleurs les logiciels qui fassent ce calcul, on peut citer SAS en particulier).
En effet, le test exact de Fisher consiste gnrer les milliers voire les millions de tableaux
possibles ayant les mmes totaux de lignes et de colonnes que le tableau de donnes
observes, puis de calculer la proportion exacte de ceux qui sont encore plus loigns de
l'hypothse Ho que le vtre. Si cette proportion est infrieure 5%, on peut dduire que votre
rsultat appartient une catgorie de rsultats trs improbables si Ho tait vraie, et on rejette
Ho en prenant un risque o de 5%. La procdure utiliser dans le cas d'un tableau de 2 2
cases est dcrite partout, et trs clairement dans Schwartz (1984), je vous renvoie donc ces
bonnes lectures si jamais vous devez utiliser un test exact de Fisher.
( )

=
tho
tho obs
Yates
2
2
5 , 0
_
Rsum du chapitre 11
La comparaison entre une distribution observe et une distribution thorique s'effectue au
moyen du test du chi2 de conformit. Dans le cas particulier d'un seul pourcentage, cette
approche est en fait quivalente au calcul d'un intervalle de confiance autour du pourcentage
observ, en dterminant si la valeur thorique appartient ou non cet intervalle. La
comparaison mutuelle de deux ou N distributions observes s'effectue au moyen d'un test du
chi2 d'homognit galement appel chi2d'indpendance (car il revient tester s'il existe
un lien entre les lignes et les colonnes du tableau de donnes). Les tests du chi2 ne peuvent
pas s'effectuer si certains effectifs thoriques sont infrieurs 5 individus, mais cette
obligation prsente en fait une certaine flexibilit, dlimite par la rgle de Cochran.
Lorsqu'on ne peut pas la respecter avec le tableau de donnes initial, il est possible soit de
modifier ce tableau en fusionnant des lignes ou des colonnes, soit d'utiliser la correction de
Yates (seulement dans les tableaux de 2 2 cases) soit en dernier lieu de faire appel au test
exact de Fisher, (ce qui ncessite imprativement un logiciel si le tableau dpasse 2 2
cases).
12. Corrlation n'est pas raison
12.1 corrlation ou rgression ?
Dans ce domaine plus que dans tout autre, une grande confusion rgne dans l'esprit des
dbutants, qui emploient indiffremment un mot pour l'autre et seraient bien en peine
d'expliquer la diffrence entre les deux. C'est parfaitement normal, puisque la corrlation et la
rgression poursuivent le mme but (caractriser la liaison statistique entre deux variables
quantitatives), peuvent s'appliquer aux mme donnes en fournissant la mme conclusion, et
sont souvent utilises... conjointement. Cependant, ce dernier fait illustre bien qu'elles posent
des questions un peu diffrentes. Pour faire court :
La corrlation cherche mesurer la force, la rigidit de la liaison statistique entre X et Y. Si
cette liaison est rigide, il sera en particulier possible d'avoir une bonne ide de Y en
connaissant seulement X, et vice versa. Exemple : s'il existe un bonne corrlation entre la
taille d'une dent et la taille de son propritaire chez les tyranosaures (Tyranosaurus rex) alors
il est possible de dduire de manire approximative la taille d'un spcimen fossile dont on a
juste retrouv une dent. Rciproquement, la dcouverte ventuelle d'un squelette de T. rex
sans tte (donc sans dents) permettrait quand mme d'estimer quelle tait la taille de celles-ci.
La rgression (linaire) cherche caractriser la pente de la droite pouvant rsumer au mieux
la relation entre X et Y une fois choisies des units de mesure pour X et Y. Exemple, si la
dose efficace d'un anesthsique est de 5mg/kg de poids de corps (pente de 5 pour 1 avec ces
units l), un gain de poids de 10kg chez un patient obligera pour le mme effet anesthsique
augmenter la dose de 10 5 = 50mg. Cependant (et c'est l ou corrlation et rgression
marchent main dans la main), la pente en question n'a d'intrt que si la relation entre la dose
efficace et l'effet est suffisamment rigide. Si cette relation est en ralit trs floue, le risque de
sous-doser ou de sur-doser l'anesthsique devient inquitant. D'o l'intrt de connatre la
force de la liaison en plus de sa pente.
En rsum, corrlation et rgression permettent toutes deux de rpondre la question "y a t-
il un lien statistique entre X et Y", quelle est la force de ce lien ventuel (corrlation) et quelle
est la pente de la relation ventuelle pour un jeu d'units donn (rgression):
Rgression Corrlation
Question 1. Y a t-il un lien statistique entre X et Y Question 1. Y a t-il un lien statistique entre X et Y ?
Question 2. Quelle est la relation numrique entre X et Y pour un
jeu d'units donnes ? (si X vaut telle valeur , dans les units
choisies pour exprimer X, quelle sera en moyenne la valeur de Y ,
dans les units choisies pour exprimer Y ?)
Question 2. S'il existe, quel est la rigidit de ce lien ? En particulier,
quelle est la fraction de la variance de Y qui subsiste si je fixe X ?
Test de la pente Test du coefficient de corrlation
Si test de la pente significatif, Si coefficient de corrlation significatif,
Il existe un lien, mais un test significatif est a lui seul insuffisant
pour dmontrer que cest X qui agit sur Y, sauf dans une situation
exprimentale dans laquelle tous les facteurs sont strictement
contrls et que lexprimentateur fait varier X.
Il existe un lien. L encore, impossible de dterminer la nature du
lien sur la seule base du test, sauf dans le cas exprimental dcrit ci-
contre, ou lon conclurait un lien causal.
Le calcul de l'quation de la droite de rgression est justifi et
permet de rpondre la deuxime question. cependant, le calcul du
coefficient de corrlation est utile car il est intressant de connatre la
force du lien entre X et Y
La valeur du coefficient de corrlation R et du coefficient de
dtermination R
2
ont un sens, et permettent de rpondre la question
2
Si test de la pente non significatif, Si coefficient de corrlation non significatif
Deux explications possibles (i) le lien existe mais il ny avait pas
suffisamment de donnes pour le mettre en vidence (ii) il ny a pas
de lien
Deux explications possibles (i) le lien existe mais il ny avait pas
suffisamment de donnes pour le mettre en vidence (ii) il ny a pas
de lien
Le prsent chapitre traitera de la corrlation (pour la rgression, voir Chapitre 13).
12.2 Corrlation n'est pas raison
La corrlation entre deux variables quantitatives X et Y est l'existence d'une liaison statistique
entre elles, quelle qu'en soit la raison. "Liaison statistique" signifie ici que les deux variables
ne semblent pas varier indpendamment l'une de l'autre : connatre la valeur de la variable X
(ou Y) pour un individu vous fournit une information sur sa valeur pour la variable Y (ou X) .
L'existence d'une liaison statistique ne signifie pas ncessairement l'existence d'une liaison
causale (c'est dire un lien de cause effet, une action de X sur Y ou de Y sur X). Si une
liaison statistique est dcele entre deux variables, l'existence d'une liaison causale directe
entre elles sera seulement une des possibilits explorer. Nous reviendrons en profondeur sur
cette notion, mais il tait important de la signaler tout de suite car la confusion entre "X et Y
sont corrles significativement" et "X a un effet sur Y (ou vice versa)" est probablement une
des erreurs les plus communes de toute l'analyse des donnes.
12.3 la notion de covariance (co-variance : "variance ensemble")
La covariance aurait pu galement tre nomme "covolution" (mais ce terme est dj utilis,
et avec un tout autre sens, en biologie volutive). En statistiques, lorsque deux variables
voluent dans le mme sens on dit quelles covarient de manire positive. Par exemple, la
taille et la longvit des mammifres varient globalement dans le mme sens : les espces de
grande taille vivent en gnral plus longtemps que les espces de petite taille. Il n'y a
cependant aucun lien de cause effet entre la taille et la longvit, comme l'examen des
longvits l'intrieur de n'importe quelle espce (la ntre y compris) permet de s'en
apercevoir : tre de grande taille ne vous dit rien sur vos chances de vivre vieux, on n'a
remarqu aucune tendance au gigantisme parmi les centenaires !
Lorsque deux variables voluent de manire oppose l'une par rapport l'autre, on dit quelles
covarient de manire ngative. Par exemple, plus une espce d'oiseau a une vitesse de
croisire leve, plus son rythme cardiaque au repos est lent. Cette relation paradoxale en
apparence s'explique tout simplement parce que les espces qui volent vite sont (sauf
exception) de grande taille alors que les petits passereaux volent assez lentement. Or les
grands animaux ont des rythmes cardiaques bien plus lents que les petits. D'ou une corrlation
ngative trs nette lorsqu'on raisonne au niveau de l'espce. Comme d'habitude en biologie,
cette rgle aura des exceptions remarquables (les oiseaux les plus rapides de tous sont... les
martinets, qui sont de petite taille et ont donc un rythme cardiaque trs lev). Il est donc
possible, connaissant la vitesse de vol typique d'une espce, de dduire quel sera
approximativement son rythme cardiaque au repos (et rciproquement). L encore, malgr la
corrlation ngative trs nettement observable, il n'y a aucun lien direct de cause effet. Il est
mme parfaitement vident que la vitesse en vol ne peut influencer le rythme cardiaque au
repos et rciproquement !
Enfin, lorsque deux variables sont (a priori) totalement indpendantes lune de lautre on dit
que leur covariance est nulle. On peut par exemple supposer que les fluctuations de
temprature 11000m au fond de la fosse des Mariannes et les fluctuations de temprature
au fond de vos fosses nasales sont indpendantes
1
. Si on avait l'ide saugrenue de mesurer
chaque jour ces deux donnes et de le reprsenter sous forme d'un nuage de points on
obtiendrait probablement un graphe dmontrant (mais tait-ce ncessaire ?) que votre
temprature nasale est superbement indpendante de ce qui se passe 11 000 mtres de fond
dans le Pacifique (et vice versa). Ainsi, la rare faune adapte ces profondeurs abyssales et
la temprature trs stable qui y rgne ne court aucun danger si vous piquez une bonne fivre.
La covariance entre deux sries de donnes X et Y (par exemple deux mesures quelconques
effectues sur n individus) peut videmment tre calcule de manire prcise, et sa formule
ressemble trs logiquement celle de la variance :
Cov(XY) = [(x
1
m
x
)(y
1
m
y
) + (x
2
m
x
)(y
2
m
y
) + +(x
n
m
x
)(y
n
m
y
)] / (n 1)
Avec :
n le nombre dindividus dans lchantillon
x1, x2xn les valeurs de X pour les individus 1, 2n
y1, y2yn les valeurs de Y pour les individus 1, 2n
mx la moyenne observe des valeurs X sur lchantillon
my la moyenne observe des valeurs X sur lchantillon
La covariance revient donc remplacer les carrs (x m) (x m) de la variance classique par
les produits (x m
x
)(y m
y
), ralisant ainsi une sorte de variance deux dimensions.
Fig 12.1 longueur de l'uf (mm) en fonction de la longueur de l'oiseau (cm)
chez 19 espces d'oiseaux d'Europe choisies au hasard. La croix est centre
sur le barycentre du nuage de points, de coordonnes (mX,mY)
On peut comprendre de quelle manire la covariance va se comporter en observant le nuage de
point de la figure 12.1, dans lequel on peut souponner une covariance positive puisque X et
Y semblent varier de concert (les plus gros oiseaux quelle surprise pondent les plus gros
ufs). Ce nuage de points a t dcoup en 4 secteurs centrs sur son barycentre de
coordonnes G = (m
x
, m
y
), les moyennes de X et de Y. Il est facile de deviner quel sera le
signe de la contribution apporte la covariance globale par un point de coordonnes (x,y)
selon le secteur dans lequel il se trouve :
1
Je pars videmment de lhypothse raisonnable que vous ne vous trouvez pas en ce moment au fond de la fosse des Mariannes, sous une
pression de plus de mille tonnes au cm
2
.
0
10
20
30
40
50
60
70
0 10 20 30 40 50 60 70 80 90
Sup G Sup D
Inf G Inf D
Secteur du point (x,y) Signe de
(x m
x
)
Signe de
(y m
y
)
Signe du
produit
(x m
x
) (y
m
y
)
Suprieur droit + + +
Infrieur gauche +
Infrieur droit +
Suprieur gauche +
Lorsque, comme ici, X et Y varient de concert, le nuage de point sincline le long dun axe
imaginaire partant du secteur infrieur gauche et se dirigeant vers le secteur suprieur droit, en
passant par le barycentre G des donnes. En consquence, la majorit des points sont situs
dans ces deux secteurs. Leur contribution (positive) la covariance est suprieure la
contribution (ngative) des points situs dans les deux autres secteurs (ici, il n'y en a qu'un,
color en noir). On obtient donc une covariance de signe positif, qui sera dautant plus forte
que le nuage est allong (et donc que la liaisons entre X et Y est franche). Si jamais les
variables X et Y avaient varies plutt en opposition lune par rapport lautre, le nuage de
point aurait t inclin au contraire vers le bas, et ce sont les points des secteurs suprieur
gauche et infrieur droit dont la contribution (ngative) la covariance auraient domins.
Comme vous le voyez, (1) le signe de la covariance permet bien de dceler si X et Y sont lies
de manire positive ou ngative, (2) la valeur absolue de la covariance mesure semble t-il la
force de la liaison.
Naturellement, il serait trop simple de pouvoir calculer la covariance partir de vos donnes
et de conclure directement. En effet, comme d'habitude, les fluctuations d'chantillonnage
vont entrer en jeu, et vous n'obtiendrez jamais une covariance nulle mme s'il n'y a pas la
moindre liaison entre vos donnes. Il faudrait tre capable de dterminer si la valeur de la
covariance s'loigne trop de zro pour que l'hypothse Ho "absence de liaison entre X et Y"
soit crdible. Cependant, il est impossible de savoir directement si la covariance est "trop
positive" ou "trop ngative" pour une raison simple : la valeur de la covariance dpend
entirement des units choisies pour graduer les axes X et Y ! La valeur de la covariance sera
videmment compltement diffrence selon que la taille de l'uf est mesure en millimtres
ou en annes-lumire. Pour contourner ce problme, il y a deux solutions. La premire sera
dcrite dans le chapitre 13 car elle concerne la notion de droite de rgression. La seconde
consiste utiliser le fait que la valeur maximale que peut prendre la covariance entre X et Y
est le produit des carts-types [s
X
s
Y
]. On peut donc crer un indice sans dimension en divisant
la valeur de la covariance observe (dimension : "unit-de-X unit-de-Y") par ce produit
(qui a les mmes units donc la mme dimension). Ce ratio, par construction, est donc sans
unit, varie de 1 + 1, et n'est autre que le coefficient de corrlation (ou R de Pearson).
12.4 Mon nom est Pearson
Comme vu ci-dessus, le coefficient de corrlation, invent par Karl Pearson et dsign par la
lettre R, se calcule de la faon suivante :
R = cov(X,Y) / (s
X
s
Y
)
avec
cov(X,Y) la covariance estime partir des donnes
sX et sY les carts-types des variables X et Y estims partir des donnes
La lettre R normalement utilise est le r minuscule, mais comme on le voit moins bien dans un
texte imprim j'utiliserai le R majuscule pour des raisons de lisibilit.
Totalement indpendant des units choisies, R varie entre 1 (liaison statistique ngative
totalement rigide) +1 (liaison statistique positive totalement rigide). La "rigidit" dont il est
question ici signifie que si R vaut 1 (ou 1) il est possible de connatre exactement la valeur de
X en connaissant celle de Y (et vice versa bien entendu). En revanche, si R est proche de zro,
connatre X ne donne qu'une trs vague indication sur la valeur de Y (et vice versa).

Cependant, l encore, pas question d'utiliser le R calcul partir des donnes directement
comme s'il reprsentait la vritable liaison existant dans la ralit. A cause des invitables
fluctuations d'chantillonnage, la valeur de R calcule partir de vos donnes n'est jamais
qu'une estimation de la vritable valeur (la lettre grecque rho), qui vaut peut-tre zro,
reliant (ou pas) les variables X et Y dans la ralit. Il nous faudrait donc connatre la
distribution du paramtre R sous l'hypothse Ho de l'absence de liaison entre X et Y.
Heureusement, on la connat.
12.5 test du coefficient de corrlation
La loi de distribution de R sous l'hypothse Ho "Aucune liaison statistique entre X et Y" est
connue, et ses valeurs seuils sont consignes dans une table qui se lit en fonction du nombre
de degrs de libert permettant le calcul de R partir de vos n couples de donnes. Ce nombre
est n 2 degrs de libert. On perd deux d.d.l. car on a au dpart n points de donnes, mais il
nous a fallu utiliser nos propres donnes deux fois pour estimer les moyennes m
x
et m
Y
(on en
avait en effet besoin pour estimer la covariance et des carts-types s
X
et s
Y
). Comme
d'habitude, cette manire de procder va avoir tendance rapprocher artificiellement notre
modle thorique de nos propres donnes. Cela revient dire qu'il y a en ralit dans notre
systme moins de variables alatoires indpendantes que les n donnes observes. Deux ddl
sont ainsi perdus, ce qui nous en laisse n 2.
Par exemple, si n = 20 (donc 18 d.d.l.), on lit dans la table du R de Pearson la valeur seuil
0,4438 pour un risque o = 0,05. Cela signifie concrtement qu'il y a seulement 5% de chances
que R sorte de l'intervalle [0,4438 : +0,4438] sous le seul effet du hasard dans un chantillon
de 20 individus. Donc, aprs avoir calcul R sur les donnes, on conclura partir de sa valeur
absolue | R | :
Si | R | > R
seuil
on rejette Ho. On conclut donc que les donnes indiquent un lien
statistique, mais pas forcment un lien de cause effet, entre les variables X et Y.
Cette dcision est associe au risque o choisi pour le test.
Si | R | < R
seuil
on ne peut pas rejeter Ho sur la base de ces donnes. On conclut donc
qu'on a pas de preuves suffisantes pour affirmer l'existence d'une liaison statistique
entre X et Y. Cette dcision est associe un risque |, inconnu mais dautant plus
grand que lchantillon est petit et que le lien entre X et Y, si il existe en ralit, est
faible.
La table du R de Pearson est limite n = 100 mais il existe une relation entre la loi de r et la
loi du t de Student (valable uniquement sous notre hypothse Ho que R = 0) qui permet
d'utiliser la table du t si l'effectif dpasse ce nombre. La voici :
2
2
1

n
r
r
suit une loi du t de Student (n 2) degrs de libert.
On pourra donc utiliser la table du t de Student quel que soit n (en lisant sur la ligne "infini"
pour les n > 100, sinon lire dans la table du R).
L'avis de Parsimoni et Abonessian.
Parsimoni Et voil, comme d'habitude, on se prcipite tte baisse sur le test statistique !
Abonessian C'est tout de mme comme a depuis Pearson, Giuseppe. Vous n'allez tout de mme pas
remettre en cause aussi le R de Pearson ?
Parsimoni Ai-je dit une chose pareille ? J'ai tout de mme le droit de me demander haute voix
pourquoi on utilise un test au lieu de calculer un intervalle de confiance autour du R observ !
Abonessian vous savez bien qu'il faut pour cela passer par une transformation de Fisher alors que la
table du R donne un rsultat immdiat, mme s'il est plus pauvre d'information. Vous devez aussi
reconnatre que la conclusion finale est la mme : si la valeur zro est contenue dans votre intervalle de
confiance, vous concluez que la corrlation n'est pas significative.
Parsimoni Toi et les autres testomanes compulsifs n'avez donc que le mot "significatif" dans votre
vocabulaire ? Je t'ai rpt mille fois que je n'accordais aucun statut magique la valeur zro ! Je veux
savoir quelle est la gamme de valeurs plausibles pour la vritable valeur de rho reliant X et Y dans la
ralit. Toute tude raisonnable entre deux variables X et Y va forcment concerner deux variables qui
ont une certaine liaison, mme faible, l'une avec l'autre. Je veux savoir quelle est la force vraisemblable
de la liaison. Je n'ai que faire de votre significativit !
Abonessian Je n'idoltre pas le seuil o = 0,05 Giuseppe, c'est juste une norme pratique, c'est tout. Il n'a
jamais t question d'radiquer les intervalles de confiance.
Parsimoni Encore heureux! Je note galement qu'on n'a toujours pas abord les choses srieuses : o
est R
2
, l'indispensable coefficient de dtermination dans tout a ? Comment mesurer de manire trs
concrte la force relle du lien entre X et Y avec un simple R ? Et pourquoi ne pas avoir dit tout de suite
que le coefficient de corrlation de Pearson se fait piger chaque fois que la relation entre X et Y n'est pas
une droite ou que les variables ne sont pas distribues selon une loi normale ?
Abonessian mais Giuseppe, le chapitre n'est pas encore fini !
12.6 ce qu'un coefficient de corrlation de Pearson ne sait pas voir
Le Professeur Parsimoni soulve avec sa fougue habituelle deux thmes importants que je
n'avais pas encore abords. Je vais commencer par le second. En effet, le coefficient de
corrlation de Pearson est conu pour mesurer prcisment la liaison statistique entre deux
variables qui voluent proportionnellement l'une par rapport l'autre et qui le font de manire
constante (on dit "monotone"). Si on s'loigne de cette condition, le coefficient de corrlation
sera artificiellement faible. Expliquons cela plus en dtail.
Relation proportionnelle Que la liaison entre X et Y soit rigide ou floue, le nuage de point
doit tendre s'aligner le long d'une droite imaginaire. S'il tend s'aligner le long d'une courbe
croissante (relation logarithmique, exponentielle) ou dcroissante (exponentielle ngative par
exemple) le R calcul sera artificiellement faible par rapport la vritable force de la liaison
entre X et Y. Dans les cas ou la relation entre X et Y est mathmatiquement connue, on peut
toutefois appliquer certaines transformations pour se ramener un cas linaire, et on en verra
un exemple plus loin avec les relations d'allomtrie.
Constance (monotonie) de la relation proportionnelle Le coefficient R se fera totalement
piger si la relation entre X et Y change de sens un moment donn (forme parabolique par
exemple). Dans ce cas, le R calcul pourra tre trs proche de zro alors que les points
exprimentaux suivent impeccablement une courbe parabolique. En termes techniques on dit
que la relation entre X et Y doit tre monotone (constamment croissante ou constamment
dcroissante) pour que le calcul de R soit correct. Conclusion : si une inspection visuelle de
vos donnes vous fait souponner une relation nettement non linaire voire non monotone
entre X et Y, le R de Pearson n'est pas l'outil appropri, en tout cas pas sur les donnes brutes.
12.7 R2 dit tout
2
.
Passons maintenant la deuxime remarque de G. Parsimoni, concernant l'aspect trompeur de
R. Il est en effet trs facile de se laisser bluffer par une valeur de R leve, et d'en conclure
avec enthousiasme que la liaison entre X et Y doit tre vraiment forte. C'est pourquoi il est
utile de se familiariser avec le grand frre de R, j'ai nomm R
2
(R au carr), le coefficient de
dtermination. Ce coefficient reprsente (attention, accrochez vous) la proportion de la
variance de Y qui disparat si on fixe X (ou vice versa). Si vous avez compris du premier
coup, vous tes trs forts. Reprenons. Supposons que X et Y soient lis de manire absolue
(connatre X permet de dduire Y exactement). Cela signifie que, mme si les valeurs de Y
sont diffrentes lorsque X varie (la variance globale de Y n'est pas nulle) elles ne varient pas
pour un X donn. Dans cette situation extrme, quelle est la variance de Y si on fixe X ? Elle
vaut videmment zro : si on fixe X, alors Y est fix aussi. Or, que vaut R dans ce cas ? il vaut
1, donc R
2
aussi. Un R
2
de 1 (soit 100%) signifie que si on fixe X, alors 100% de la variance
de Y disparat. Vous voyez, a marche. Prenons l'exemple oppos : l'absence totale de liaison
entre X et Y. Dans ce cas, R vaut zro donc R
2
aussi (donc 0%). Si on fixe X, quelle est la
fraction de la variance de Y qui est limine ? Rponse : 0% : la variance de Y n'est pas
2
il tait impossible de rsister l'envie de rendre hommage au sympathique petit robot de Star Wars
diminue d'un iota si on fixe X puisque Y se moque perdument de ce que fait X : il y a
indpendance entre X et Y. Passons maintenant des situations plus intressantes.
Supposons un coefficient de corrlation R = 0,7. En morphologie, c'est courant. En cologie,
ce type de coefficient de corrlation permettrait de sabler le champagne tant il est rare. Mais
que veut il dire au juste concernant la force de la liaison entre X et Y ? On peut en avoir une
ide avec le coefficient de dtermination R
2
, qui vaut donc 0,7 0,7 = 0,49 soit 49%. En clair,
si on fixe X, alors 49% de la variance de Y disparat. C'est dj bien, mais cela signifie quand
mme que la moiti de la variance de Y subsiste mme si on fixe la valeur de X. Connatre X
ne donne donc qu'une ide finalement trs vague de la valeur de Y. Donc, ne vous laissez pas
hypnotiser par les valeurs de R et ayez le rflexe de toujours calculer R
2
, c'est plus parlant.
Voil pourquoi Giuseppe Parsimoni accordait tant d'importance cette notion. Il nous faut
maintenant aborder sa critique sur test "Significatif" et ce qu'il implique concrtement.
Le fait que le test de R soit "significatif" veut dire simplement qu'il y a (vraisemblablement)
une liaison statistique entre X et Y. Ne tombez surtout pas dans l'erreur consistant croire que
le niveau de significativit du test (P < 0,05 ou P < 0,001) vous indique la force de la liaison.
Observez la table du R et vous constaterez en particulier qu'il suffit d'un effectif relativement
modeste (une quarantaine d'individus), pour que le test soit "significatif" ds que R dpasse
0,3. Vous savez maintenant comment avoir une ide un peu plus concrte de la force de la
liaison que cela traduit : il suffit de calculer R
2
. Celui ci vaut 0,3 0,3 = 0,09 soit 9%. En
clair, un coefficient de corrlation de 0,3 veut dire que pour un X fix, la variance de Y a
seulement t diminue de 9%. En d'autre termes, connatre X ne rduit quasiment pas
l'incertitude sur Y. Un coefficient de corrlation de 0,3 traduit une liaison trs faible, trs
floue, et a n'a pas empch le test d'tre significatif. Voyons plus loin. Supposons que vous
ayez beaucoup d'individus (disons mille). Alors, un coefficient de corrlation de R = 0,1 sera
"hautement significatif" et vous crirez triomphalement "X et Y sont corrles de manire
hautement significative, P < 0,001". Mais concrtement, quelle est la force de la liaison mise
jour ? Elle est tout simplement risible, puisque R
2
= 0,1 0,1 = 0,01 soit 1%. En clair, pour
un X fix, il restera encore 99% de la variabilit totale de Y. Dans ces conditions, connatre X
ou rien, c'est la mme chose. Conclusion : avec beaucoup d'individus, on est capable de
dceler une liaison statistique trs faible entre deux variables. C'est plutt une bonne nouvelle,
encore faut il tre conscient qu'un test peut tre "significatif" mme si la liaison statistique est
si faible qu'elle a un intrt pratique nul. Hlas, la capacit d'un coefficient de corrlation
"significatif" vous induire en erreur ne s'arrte pas l. Lisez plutt ce qui suit.
12.8 Interprtation prudente d'un coefficient de corrlation significatif
"Corrlation n'est pas raison" est un dicton statistique important. Il rappelle que le fait de
trouver une corrlation (mme "leve" et "hautement significative") entre la variable X et la
variable Y ne dmontre pas du tout qu'il y a un lien de cause effet entre X et Y (ou entre Y et
X). Dans une situation d'observation (cest dire en dehors dun dispositif exprimental dans
lequel tous les facteurs sont strictement contrls), si on constate une forte corrlation entre
deux variables, il faut donc imprativement rsister l'envie de proclamer tout de suite un lien
de cause effet. L'tablissement d'un tel lien ncessite une exprimentation en conditions
contrles ou une accumulation dautres observations dans diffrentes situations, qui
permette d'exclure les autres possibilits non causales. Un grand classique est la corrlation
observe systmatiquement entre deux variables X et Y lorsquelles sont toutes les deux
influences par la mme troisime variable Z. Le nombre Y de coups de soleil attraps sur une
plage est fortement corrle la temprature moyenne X de lair ce jour l. Naturellement, la
temprature X ninfluence pas Y
(3)
. En ralit, X et Y sont sous la dpendance de Z, la
vritable variable causale, cest dire la quantit de rayonnement solaire.
On peut galement observer une trs forte corrlation ngative entre la vitesse des ordinateurs
et leur prix entre 1945 et 2004. Ces donnes dmontreraient avec une clart aveuglante que
plus un ordinateur est rapide, moins il cote cher, s'il ne s'agissait d'une simple corrlation. La
variable explicative pertinente ici est bien videmment le progrs technique qui a
simultanment augment la vitesse et baiss les cots de fabrication des ordinateurs depuis
1945, avec la trs spectaculaire corrlation ngative qui en rsulte. N'ayons pas peur de le
rabcher : corrlation n'est pas raison.
12.9 Calcul de l'intervalle de confiance d'un coefficients de corrlation de Pearson
La distribution de R est complexe, et elle n'est tabule que sous l'hypothse que R = 0. De
mme, la relation entre la loi du R et la loi du t de Student n'est valable que dans cette
condition (R = 0). Calculer un intervalle de confiance autour d'un R observ serait donc
pnible, si Sir R. A. Fisher (cet homme ne dormait il donc jamais ?), n'tait pas pass par l. Il
nous a mitonn une transformation dite "de Fisher" qui permet d'obtenir une variable
auxiliaire Z suivant une loi normale de variance connue partir de la loi du R. Cette
transformation se prsente sous l'avenante forme suivante
Z = 0,5 [ln (1 + R) ln (1 R)]
avec :
R le coefficient de corrlation calcul sur vos n donnes
ln le logarithme nprien
Cette variable Z suit donc, comme dit plus haut, une loi approximativement normale. Sa
variance s
2
Z
est particulirement simple calculer :
s
2
Z
= 1/(n 3)
avec n le nombre de couples de donnes (x,y)
d'ou un cart type valant :
s
Z
= \[1/(n 3)]
3
les petits malins feront remarquer quen ralit X agit bien sur Y dans ce cas, mme si c'est indirectement : une
temprature leve pousse dcouvrir son piderme. Rien nest jamais simple en biologie.
Puisque Z suit une loi normale, on sait que 95% de ses valeurs sont situes dans un intervalle
de 1,96 carts types autour de sa moyenne. On peut alors estimer l'intervalle de confiance de Z
comme d'habitude :
IC
95
Z = [Z 1,96 s
Z
]
En clair, les bornes infrieures et suprieures de l'intervalle de confiance de Z sont :
Z
inf
= Z 1,96 s
Z
Z
sup
= Z + 1,96 s
Z
Il suffit maintenant de faire la manuvre inverse de la transformation de Fisher pour trouver
R
inf
et R
sup
les bornes de confiance de l'intervalle de confiance de R. On pose :
Z
inf
= 0,5 [ln (1 + R
inf
) ln (1 R
inf
)]
Z
sup
= 0,5 [ln (1 + R
sup
) ln(1 R
sup
)]
Quelques lignes de calcul (passionnants, comme d'habitude) plus tard, et en se souvenant que
e
ln(x)
= x, on obtient la transformation inverse permettant de trouver le R partir d'une valeur
de Z :
R = (e
2Z
1)/(e
2Z
+1)
Formule qui nous permet de retrouver R
inf
et R
sup
, les bornes de l'intervalle de confiance de R
que nous cherchions.
IC
95
R = [(e
2Zinf
1)/(e
2Zinf
+ 1) (e
2Zsup
1)/(e
2Zsup
+ 1)]
Ceux d'entre vous qui ont dfinitivement condamn les touches ln et e
x
de leurs calculatrices
en leur enfonant un pieu d'argent dans le cur pourront se baser sur une table de conversion
ZR (voir la fin de ce chapitre), ou bien ils utiliseront un logiciel statistique.
Il est grand temps de passer un exemple concret, en tudiant la relation possible entre la
taille du pre et la taille de la mre de 460 tudiants de la matrise BPE, d'aprs les tailles
fournies par les tudiants eux mme. Si nous dcelons une liaison statistique entre ces deux
valeurs, nous pourrons (par exemple) mettre l'hypothse que les individus tiennent compte de
la taille de leur partenaire pour former leur couple. Cet exemple nous permettra de passer en
revue l'utilisation de R, son test en passant par la loi du t de Student, le calcul de son intervalle
de confiance grce la transformation de Fisher, l'utilisation de R
2
et le calcul de son
intervalle de confiance. Tout un programme.
Voici d'abord le graphe obtenu en reportant la taille de la mre en fonction de la taille du pre.
Fig 12.2 Taille de la mre en fonction de la taille du pre chez 460 tudiants de la matrise MBPE.
Exemple 12.1 Corrlation taille de la mre/taille du pre
Les donnes de base sont les suivantes :
Pres : mX = 174,5 cm et s
2
X = 48,7 d'o sX = 7,0
Mres : mY = 163,2 cm et s
2
Y = 35,4 d'o sY = 5,9
Covariance (X,Y) = 3,938
R = cov(XY)/(sX sY) = 0,095
Faisons une petite pause ce stade : le graphe ne rvle aucune tendance qui saute aux yeux
(quelle que soit la taille des pres, celle des mres fluctue dans la mme gamme, et vice versa) et
le coefficient de corrlation que nous venons de trouver est vraiment trs faible. La cause semble
donc entendue : il n'y a aucune liaison significative entre X et Y. Pas si vite. Faisons maintenant
le test. Du fait que n >> 100 nous ne pouvons utiliser la table du R de Pearson (qui va jusqu'
100) mais il suffit de se ramener une loi du t de Student avec n 2 = 460 2 = 458 degrs de
libert. En pratique, ce nombre de ddl se confond avec l'infini, et nous allons en ralit comparer
la valeur obtenue avec les valeurs de la loi normale. Pour un seuil de significativit de P < 0,05
en particulier, cette valeur est le fameux 1,96. Si le t obtenu dpasse 1,96 alors il existera une
liaison statistique "significative" entre X et Y. Rappel, la liaison entre la loi du R et du t de
Student sous l'hypothse Ho 'R = 0" est :
t = [R/\(1 R
2
)]\(n 2)
Ici on obtient t = 2,0447... qui est suprieur 1,96 !
Enfer et putrfaction ! Le test est bel et bien significatif (mme si c'est de justesse) au risque
o = 0,05 ! Dans un article scientifique on crirait donc "La corrlation entre la taille des poux
est significative, (R = 0,0951, n = 460, P < 0,05)". Comment un tel miracle est il possible ? Tout
simplement parce que avec beaucoup d'individus il devient possible de dceler des liaisons
mme tnues entre X et Y. Cela ne veut pas dire que la liaison en question a un intrt biologique
quelconque. Pour s'en convaincre, il suffit de calculer R
2
, le coefficient de dtermination. ici,
R
2
= 0,009 soit moins de 1%. Traduction, si on fixe la taille du pre, la variance de la taille des
mres possibles diminue seulement de 1% par rapport la variance observe dans la population
totale. Autrement dit, n'essayez pas de deviner la taille d'une femme partir de la taille de son
mari (ou vice versa), cette tentative est voue l'chec !
Prcisons maintenant les choses en abordant, justement, la prcision avec laquelle nous avons
estim la vritable valeur (inconnue jamais) de Rho, le vritable coefficient de corrlation entre
X et Y dans la population. Nous pourrons videmment en dduire immdiatement la gamme de
valeurs plausibles pour R
2
. Il nous faut pour cela utiliser la transformation de Fisher dcrite dans
la section 12.9. On commence par dterminer la variance de Z qui vaudra 1/(n 3) soit
s
2
Z = 1/457 = 0,00219 d'o l'cart type sZ = 0,0468. Finalement :
Zinf = 0,0037138 d'o (par la manoeuvre inverse vue plus haut) Rinf = 0,0037137
Zsup = 0,1874 d'o Rsup = 0,1849
l'IC95% de R est ainsi environ [0,004 0,185]
l'IC95% de R
2
est donc environ [0,000014 0,034]
140
150
160
170
180
190
140 150 160 170 180 190 200
Dcodons. Premire constatation, la corrlation entre X et Y est peut tre nulle, mais elle est
peut-tre aussi substantiellement plus leve que ce que nous avions cru : l'intervalle de
confiance de R "monte" tout de mme jusqu' 0,185 ce qui ne serait pas ridicule en biologie.
Quoi qu'il en soit, mme cette valeur reprsenterait une liaison trs faible entre X et Y, puisque
le R
2
correspondant serait seulement de 0,034 (soit 3,4%). Ainsi, mme si la liaison tait "aussi
forte" que R = 0,185, connatre la taille d'un des poux permettrait seulement de restreindre de
3,4% la variance de la gamme des valeurs vraisemblables pour l'autre. Il serait toujours aussi
illusoire de prtendre deviner la taille d'un mari partir de celle de sa femme, comme le nuage de
donnes nous l'indiquait d'ailleurs fort clairement ds le dpart ! Ce rsultat tmoignerait du fait
que la taille du partenaire entre au mieux pour une trs petite partie dans le complexe processus
d'appariement qui permet de former les couples dans notre espce. Comme le disent si bien les
anglais "Size isn't everything".
12.9 Comparaison de deux coefficients de corrlation R
A
et R
B
La situation est la suivante : deux chantillons A et B d'effectifs n
A
et n
B
, provenant de deux
populations souponnes d'tre diffrentes dans la force de la relation entre X et Y. Sur
chacun de ces chantillons vous avez calcul le coefficient de corrlation de Pearson, et avez
donc obtenus deux valeurs qui sont R
A
et R
B
. Les valeurs obtenues sont videmment
diffrentes, mais la question est, comme d'habitude, sont elles suffisamment diffrentes pour
que le hasard puisse difficilement expliquer cette diffrence ? Il vous faut donc comparer R
A
et R
B
pour dterminer si la diffrence que vous observez est statistiquement significative.
Cette comparaison est trs facile grce la transformation du Fisher dcrite ci-dessus. En
effet, sous l'hypothse Ho habituelle qu'il n'y a en ralit aucune diffrence entre les deux
populations dont on veut comparer les coefficients de corrlation, on va avoir Z
A
= Z
B
, donc
leur diffrence D est une loi normale de moyenne nulle : D = Z
A
Z
B
= 0.
Par ailleurs, les variances ne se soustrayant jamais, la variance de D note s
2
D
est simplement
l'addition des deux variances de Z
A
et Z
B
notes s
2
ZA
et s
2
ZB
, valant respectivement :
s
2
ZA
= 1/(n
A
3)
s
2
ZB
= 1/(n
B
3)
donc : s
2
D
= s
2
ZA
+ s
2
ZB
d'ou on calcule l'cart-type s
D
= \ s
2
D
La variable alatoire D tant automatiquement "centre" (elle vaut zro) si Ho est vraie, il ne
reste plus qu' la rduire en la divisant par son cart-type pour obtenir une variable normale
centre-rduite Z
0
:
Z
0
= (Z
A
Z
B
) / s
D
Nantis d'une loi normale centre rduite, nous sommes sauvs et il ne reste plus qu' suivre
une procdure qui vous est maintenant familire :
Si |Z
0
| > 1,96 on rejette Ho. On conclut donc que les variables Z
A
et Z
B
, et donc les
coefficients de corrlation R
A
et R
B
, sont significativement diffrents au risque o =
0,05 (la table de la loi normale vous permettra d'affiner la probabilit en fonction
de la valeur de Z
0
observe, comme d'habitude.
Si |Z
0
| s 1,96 on ne rejette pas Ho. On conclut donc qu'on a pas suffisamment de
preuves pour conclure une diffrence entre R
A
et R
B
. Cette conclusion ne
dmontre en rien que Ho est vraie, notre conclusion tant associe un risque |
d'autant plus grand que l'cart entre R
A
et R
B
(s'il existe) est faible.
L'exemple qui suit va permettre de comparer la force de la liaison entre la taille d'un individu
et la longueur de sa main chez les garons et les filles de la promotion 1998 de la matrise
BPE. Cet exemple m'a t inspir au cours de ma thse par une conversation entre tudiants
comme il en existe dans tous les laboratoires pour se dtendre entre deux manips, et ou le
sujet tait tomb sur un grand classique : le sexe. Une des participantes notre dbat, qui avait
apparemment une certaine exprience, nous avait alors affirm mordicus qu'il tait facile de
deviner chez un homme quelle serait la longueur de ce fameux organe que les mles ont et que
les femmes n'ont pas, en regardant la longueur des mains du monsieur en question. Je lui avais
alors rpondu que a me semblait assez vident dans la mesure ou tous nos organes (que ce
soit la main, l'oreille, le foie ou cet organe si particulier) sont peu prs proportionns la
taille du bonhomme, et que donc elle aurait tout aussi bien pu prendre comme estimateur la
hauteur du crne ou beaucoup plus simplement la taille de l'homme "vis". Elle avait rtorqu
que non, pas du tout, que les mains taient un estimateur bien plus fiable. J'tais rest
dubitatif. Quelques annes plus tard, j'ai donc inclus innocemment dans le questionnaire
propos mes tudiants une question sur la longueur de leur... main. Nous allons donc voir
dj avec quelle prcision la taille d'un individu permet de dduire la longueur de sa main,
organe osseux qui fait partie du squelette, En effet, la taille d'un individu est grosso modo un
caractre osseux (c'est une combinaison de la longueur des os de nos jambes, de notre colonne
vertbrale et celle de notre crne). On peut donc mettre l'hypothse (que je n'ai videmment
pas pu vrifier) que la liaison qui existe entre la taille de la main et l'organe sexuel mle sera
plutt moins bonne que la relation qui existe entre la taille et la main, puisque le caractre
osseux est absent chez l'organe en question (sauf chez les ours, comme chacun le sait). Les
figures ci dessous prsentent le lien taille totale/taille de la main chez les garons et les filles
de la promotion 1998.
Fig 12.3 longueur de la main (cm) en fonction de la taille (cm) chez les 70 garons de MBPE 1998
16,0
17,0
18,0
19,0
20,0
21,0
22,0
160 170 180 190 200
Fig 12.4 longueur de la main (cm) en fonction de la taille (cm) chez les 73 filles de MBPE 1998
Et maintenant, analysons ces donnes
Exemple 12.2 comparaison des Corrlation taille (X)/longueur de main(Y)
Les donnes de base sont les suivantes :
Garons :
nA = 70 mX = 177,09 cm et s
2
X = 65,33 d'o sX = 8,08
mY = 18,98cm et s
2
Y = 1,27 d'o sY = 1,13
Covariance (X,Y) = 3,938 RA = 0,76 d'o R
2
A = 0,58
Filles :
nB = 73 mX = 165,51 cm et s
2
X = 31,5 d'o sX = 5,61
mY = 17,59cm et s
2
Y = 0,696 d'o sY = 0,834
Covariance (X,Y) = 3,18 RB = 0,679 = d'o R
2
B = 0,461
Commenons par le commencement : avant de comparer deux coefficients de corrlation, encore
faut il s'assurer qu'ils existent (autrement dit qu'ils sont significatifs). Aucun souci dans le cas
prsent, la table du R vous indique que pour n = 70 ddl un R est significatif pour P < 0,01 ds
qu'il dpasse 0,30. Or, on est largement au dessus. La transformation vers une variable du t de
Student vous indiquerait ici respectivement tA = 9,59 et tB = 7,73 soit dans les deux cas une
probabilit infrieure une chance sur un milliard d'observer un R si loign de zro simplement
sous l'effet du hasard. Il est donc bien clair qu'il existe une liaison entre la taille d'un individu et
celle de sa main quel que soit le sexe, et a n'a vraiment rien d'un scoop. Comparons maintenant
les deux coefficients RA et RB obtenus. Il nous faut pour cela utiliser la transformation de Fisher :
ZA = 0,71et s
2
ZA = 1/(70 3) = 0,0149 d'o sZA = 0,122
ZB = 0,83 et s
2
ZB = 1/(73 3) = 0,0143 d'o sZB = 0,119
finalement |Z0| = |0,71 0,83|/\(0,122+0,119) = 0,21
soit 0,83 < P < 0,84 d'aprs la table de la loi normale. Donc, si les coefficients RA et RB taient
identiques dans la ralit, on observerait sous l'effet du hasard un cart plus grand que celui que
nous voyons 8 fois sur 10 en utilisant des chantillons de cette taille. Il n'y a vraiment aucune
raison de souponner que la force de la liaison statistique entre la taille et la longueur de la main
soit diffrente chez les garons et les filles.
Ayant calcul ZA, ZB, sZA et sZB il est maintenant facile de calculer les intervalles de confiance
autour de RA, RB, R
2
A et R2B comme dj dcrit dans l'exemple 12.1. Rsultat :
IC95de RA [0,44 0,74] IC95 de R
2
A [0,19 0,55]
IC95de RB [0,53 0,79] IC95 de R
2
B [0,29 0,62]
Nous constatons prsent que notre estimation des R n'est pas d'une trs grande prcision (avec
des valeurs vraisemblables qui varient presque du simple au double). Quant aux R
2
, ils nous
indiquent que la fraction de la variance de Y qui disparat si on fixe X pourrait tre aussi faible
que 19% et ne dpasse trs probablement pas 62%. Autrement dit, prtendre deviner prcisment
15
16
17
18
19
20
140 150 160 170 180 190
la longueur de la main d'un individu en connaissant sa taille reste assez aventureux, comme la
dispersion des donnes sur les figures 12.3 et 12.4 nous le montrait dj. Je vous laisse en tirer
les conclusions qui s'imposent concernant la "fiabilit" des estimations que vous seriez tents de
faire en partant de la longueur de la main d'un individu pour deviner la taille d'un autre de ses
organes n'ayant aucun rapport avec le squelette...
12.10 Un cas particulier utilisant le R de pearson: la droite d'allomtrie ou droite de
Tessier
12.10.1 Calcul de la droite de Tessier
L'allomtrie est le rapport des proportions des mesures biomtriques que l'on peut effectuer
sur un organisme vivant (par exemple le rapport longueur/masse d'un animal, ou bien le ratio
longueur/largeur d'une feuille d'arbre). Ce genre d'tude peut tre utilis aussi bien entre
espces que l'intrieur d'une mme espce, en particulier pour tudier la variation des
proportions de diffrentes parties du corps au cours de la croissance. Il est bien connu dans
l'espce humaine que le rapport taille de la tte/taille du corps varie de manire spectaculaire
au cours de la croissance : la tte reprsente pratiquement la moiti de la longueur du corps
d'un foetus un certain stade, mais seulement environ 1/7me 1/8me de la longueur du
corps l'ge adulte.
Les relations d'allomtrie peuvent se modliser au moyen de courbes d'quation gnrale :
Y= B X
a
avec a et B des constantes propres l'espce
et aux dimensions Y et X considres.
Comme il est beaucoup plus pratique de manipuler des droites, on utilise les logarithmes pour
transformer cette fonction en droite, obtenant ainsi :
log (Y) = a log(X) + log (B)
Qui est bien une quation de droite, comme on le fait apparatre encore plus clairement en
changeant quelques noms : log(Y) = y, log(X) = x et log(B) = b, d'o finalement :
y = a x + b
Cette droite se nomme droite d'allomtrie ou droite de Tessier.
Si on trace une droite D quelconque passant par le centre de gravit du nuage de points, on
peut mesurer la distance d
y
entre un point de donnes et cette droite D, paralllement l'axe
des Y. C'est ce qu'on fait dans le cas d'une tude de rgression. Cependant, si les deux
variables X et Y sont considres de manire gale, il est tout aussi logique de mesurer la
distance d
x
sparant le point et la droite D, mais cette fois paralllement l'axe des X. Pour
tenir compte de ces deux distances, on va simplement les multiplier l'une par l'autre (sans tenir
compte de leur signe : on considre les valeurs absolues) et obtenir une distance combine
d
x
d
y
pour chaque point.
La droite d'allomtrie est la droite qui minimise la somme de ces distances combines
d
x
d
y
pour l'ensemble des points du nuage.
Elle a pour coefficient directeur a, vu plus haut, qui se trouve tre gal au ratio entre les carts
types concernant x et y (donc calcul sur les donnes transformes par le passage au log et non
pas sur les donnes originelles)
a = s
y
/s
x
Cependant, le a calcul sur nos modestes donnes n'est qu'une estimation du vritable
coefficient o reliant x et y dans la ralit. Ce n'est donc qu'une variable alatoire comme une
autre, possdant une variance, que l'on sait heureusement calculer. La variance de ce
coefficient directeur est :
s
2
a
= a
2
[1 R
2
/ (n 2)]
avec
R le coefficient de corrlation entre x et y les donnes transformes
n le nombre de couple de donnes (x,y)
Vous aurez not que le R de Pearson (sous la forme du coefficient de dtermination R
2
)
intervient dans cette quation, et il est important de le calculer sur les donnes transformes
(le nuage de points de coordonnes log(X),log(Y)) car si la relation entre X et Y n'est pas une
droite (ce qui sera le cas si jamais le coefficient a n'est pas gal 1) le calcul de R sur les
donnes originelles serait fauss par la courbure du nuage.
12.10.2 Calcul de l'intervalle de confiance de a
La variance de a (note s
2
a
) et donc son cart-type s
a
tant connus et sachant que a converge
rapidement vers une loi du t de Student puis une loi normale, l'intervalle de confiance 95%
de a se calcule partir des valeurs seuil du t de Student pour o = 0,05 et en dlimitant un
intervalle de t s
a
autour de lui. Par exemple, pour 20 valeurs donc 18 ddl la valeur seuil du t
de Student pour o = 0,05 utiliser est 2,101.
l'IC
95
serait : [a 2,101 s
a
a + 2,101 s
a
]
Ds que vous avez plus d'une trentaine de valeurs, vous pourrez utiliser la valeur 1,96 de la loi
normale au lieu de la valeur seuil de la table du t de Student.
12.10.3 Comparaison de deux droites d'allomtries
Comment comparer les pentes a
1
et a
2
mesures sur deux "populations" (par exemple, les
mles et les femelles capturs sur un estran) ?
On utilise pour cela la sempiternelle manuvre de centrage rduction, avec comme hypothse
Ho : "les deux populations compares ont en ralit la mme pente o".
Variable alatoire sa moyenne
sous Ho
sa variance
a
1 o
s
2
a1
a
2 o
s
2
a2
a
1
a
2
0 s
2
a1
+ s
2
a2
(a
1
a
2
)

/racine (s
2
a1
+ s
2
a2
) 0 1
La variable centre rduite suit thoriquement une loi du t de Student n
1
+ n
2
4 ddl.
Cependant, cette loi converge trs rapidement vers la loi normale centre rduite donc,
moins que vous ayez vraiment un petit chantillon, le tableau ci-dessus revient en fait faire
un test Z et juger par rapport la valeur 1,96 pour un risque o de 5% :
Si | Z | > 1,96 on conclut que la relation entre X et Y diffre entre vos deux
populations puisque les pentes sont significativement diffrentes au risque o
= 0,05 (donc, P < 0,05). La table de la loi normale vous permettra cependant
de prciser o, et vous serez alors peut tre en mesure d'crire que P < 0,01
voire P < 0,001.
Si | Z | < 1,96, on n'a pas suffisamment d'lments pour rejeter avec confiance
l'hypothse Ho selon laquelle les pentes seraient identiques (mais il n'y a
aucun moyen d'aller plus loin, vous ne connaissez pas le risque |), et on
conclut donc que la diffrence entre les pentes observes n'est pas
significative (ce qui ne veut pas dire "je suis certain qu'il n'y a absolument
aucune diffrence dans la ralit").
12.11 Comment tudier une corrlation quand on est pas dans les conditions
d'utilisation du coefficient de corrlation R de Pearson ?
Le coefficient de corrlation de Pearson est utilisable dans des conditions qui varient de
manire surprenante d'un ouvrage l'autre mais le minimum requis semble tre que la
distribution d'une des deux variables soit normale quand on fixe l'autre (pour un X fix, les Y
doivent tre distribus normalement). Si cette condition n'est manifestement pas remplie on
doit utiliser un autre coefficient de corrlation non paramtrique bas non sur les valeurs mais
encore sur les rangs, le coefficient de corrlation de Spearman.
Coefficient de corrlation de Spearman.
On a deux variables X et Y avec chacun des n individus ind
1
ind
n
caractris par un couple
de valeurs observes (x,y). On classe chaque individu selon sa valeur pour X (donc on obtient
un rang r
x
) et sa valeur Y (on obtient un autre rang r
y
). Bref, chaque individu ind
i
sera donc
caractris par un couple de rangs (r
x
, r
y
). La suite consiste calculer le coefficient de
corrlation paramtrique habituel (selon la formule de Pearson) mais sur ces nouvelles
variables alatoires rangs . Dans ces conditions ou seules les valeurs entires sont
possibles, la formule se simplifie (si on peut dire) en :
r = 1 6 [ (r
x1
r
y1
)
2
+ (r
x2
r
y2
)
2
+ + (r
xn
r
yn
)
2
] / n(n
2
1)
soit sous une forme compacte en appelant d
i
la diffrence (rx
i
ry
i
)
r = 1 - 6Ed
i
2
/ n(n
2
1)
Pour les tout petits effectifs (jusqu n = 10) il existe une table du r et cest celle l quil faut
utiliser. Au del de n = 10, la table du r paramtrique donne une valeur suffisamment
approche de r et on lit directement dans la table du r paramtrique . Toute la discussion
concernant la corrlation et la causalit reste videmment valable.

ICI
(mais seulement dans un certain temps)
se dressera firement le 13me (et probablement dernier) chapitre
de Statistiques pour Statophobes.

Il se nommera "Faites des progrs en rgression" et traitera bien
entendu de la rgression linaire.

Vu la trs faible probabilit qu'il apparaisse dans un dlai raisonnable
(puisque a fait quatre ans que je me dis "tiens, il faudrait vraiment que
je l'crive", je vous conseille cependant de ne surtout pas l'attendre et de
consulter les innombrables ouvrages expliquant cette technique (par
exemple Schwartz 1994 (4me ed), Mthodes statistiques l'usage des
mdecins et des biologistes)

Denis POINSOT, 29 fvrier 2008
Epilogue

Le Professeur Giuseppe Parsimoni me reoit dans son antique villa, perche sur les
hauteurs de Chevapiano. Il fait trs doux en cette fin d't et les cigales vont bientt se
taire pour la nuit. Je trouve sur la terrasse un petit bonhomme au menton napolonien
et aux yeux noirs incroyablement vifs, tranquillement install devant une table garnie de
trois normes assiettes fumantes de penne all arrabiata. Le soleil couchant fait
flamboyer ses cheveux blancs un peu en dsordre. La vue sur la baie de Valontano est
superbe.

DP Professore, vous me faites vraiment un grand honneur de me recevoir chez
vous ! Il y a encore des tas de sujets sur lesquels je rve de vous interroger ! (un trs
long silence s'installe) heu... vous ne dites rien ?
Parsimoni Santa Madonna ! Discutailler alors que la pasta est servie et commence
refroidir ? Il n'y a donc rien de sacr pour vous ?
DP je suis absolument confus !
Parsimoni allez plutt ouvrir la porte, je vois ce chenapan de Tigran qui monte le
chemin. Ce gamin n'a jamais t capable d'arriver l'heure. Je parie qu'il va encore
essayer de me tuer coup de cholestrol avec ses oeufs de poisson.

Quelques instants plus tard, la formidable silhouette de Tigran Abonessian, prcde
d'une non moins formidable barbe noire, se dcoupe dans l'embrasure de la porte. Il
tient ngligemment en quilibre trois normes boites de caviar Beluga.

Parcimoni tiens, qu'est ce que je vous disais !

La voix de Tigran clate dans la pice comme un coup de canon

Abonessian CIAO PEPE ! Ah, bonsoir dottore Poinsot. Bon voyage ? Tiens... je
vous imaginais beaucoup plus grand !
Parsimoni ne faites pas attention, Tigran a toujours t un ours.
Abonessian (hilare) Pepe sait de quoi il parle, c'est lui qui m'a lev.
DP lev ?
Abonessian J'ai fait une grande partie de mes tudes Chevapiano. Giuseppe tait
mon directeur de thse. Vous l'ignoriez ?
DP c'est dire... vous ne semblez pas toujours sur la mme longueur d'onde en
matire de statistiques.
Abonessian seulement sur certains dtails. Giuseppe m'a tout appris. Disons
simplement que j'ai continu apprendre par la suite.
Parsimoni mais rien de bon, je le crains. Allez, pose ces boites tu vas assommer
quelqu'un.
Abonessian Ah, mais cette fois il n'y en a que deux pour vous Maestro. La troisime
est pour le dottore francese (il me tend une des boites de caviar. Elle fait au moins un
kilo) Vous aimez ?
DP Je vous le dirai quand je saurais le got que a a. Merci beaucoup, en tout cas !
Abonessian (abasourdi) vous ne mangez jamais de caviar Beluga ? mais c'est
pourtant trs bon !
DP Nous discuterons du salaire des universitaires franais une autre fois si vous le
voulez bien. Maintenant que vous tes l, je voudrais votre avis tous les deux sur la
meilleure manire de clore ce petit livre.
Parsimoni Alors c'est trs simple. Il vous suffit de rappeler avec force qu'on a rien
invent de valable depuis les intervalles de confiance.
Abonessian qui sont aux statistiques modernes ce que la massue est au rayon laser.
Parsimoni (levant les yeux au ciel) Seigneur, pardonnez lui, ce garon a besoin d'un
ordinateur mme pour crire son courrier.
DP messieurs, s'il vous plat, de jeunes tudiants dsorients nous lisent en ce
moment mme. Ils ont peut tre dcouvert la lecture de ce petit opuscule et grce
vos interventions pugnaces que les tests statistiques n'taient pas forcment ce
monument de marbre qu'ils imaginaient, que certains aspects taient mme assez
polmiques. Ils savent pourtant qu'ils auront imprativement utiliser les statistiques
eux-mmes. Que leur dire pour les aider aller plus loin ? Pour calmer leurs angoisses
lgitimes face toute cette incertitude ? Comment faire en sorte que des mots tels que
ANOVA, analyse multivarie, modle linaire gnralis ne les fassent pas fuir toutes
jambes ?
Parsimoni d'abord, rappelez leur bien que les statistiques ne sont qu'une petite partie
de la science, et que l'crasante majorit des dcouvertes majeures, de la circulation du
sang la gravitation en passant par les ondes radio, la thorie de l'volution des espces
ou la structure de l'ADN s'en sont trs bien passes. De nos jours encore, les
mathmaticiens, les physiciens et les chimistes vivent trs bien sans elles et font de
l'excellente science.
Abonessian je m'excuse de rappeler que la physique quantique repose sur des
quations probabilistes et qu'elle reprsente une formidable avance conceptuelle.
Parsimoni (sarcastique) expliquer qu'un chat peut tre la fois vivant et mort est
effectivement une formidable avance conceptuelle. Ce Schrdinger tait vraiment un
sacr farceur.
Abonessian vous ne pouvez tout de mme pas nier l'apport majeur des statistiques
en agronomie, en biologie en gnral et en mdecine en particulier. Peut-on concevoir
aujourd'hui un essai clinique sans analyse statistique ?
Parsimoni non, mais on peut tout fait concevoir un mdecin qui dit son malade
qu'il n'a pas mal au genou parce qu'on ne voit rien sur le scanner. Les scientifiques
modernes s'loignent du concret d'une manire qui m'effraie parfois.
DP soyons concrets, alors. Faut il vraiment faire des statistiques en biologie, comme
je le prtend dans le premier chapitre ?
Parsimoni Bien entendu, mais il faut bien reconnatre que des pans entiers de la
biologie chappent sans problmes aux statistiques. Un biologiste molculaire ne vous
dira pas que l'enzyme QbumIII coupe tel ou tel plasmide "significativement". Elle le
coupe ou elle ne le coupe pas. De mme la description d'une nouvelle espce, lment
vital de l'tude de la biodiversit, s'effectue sans le moindre petit test. Il ne faut pas
confondre "science" et "analyse statistique"
Abonessian d'un autre ct, des domaines biologiques sortis du nant, comme la
gnomique (le dcryptage des gnomes et leur tude grande chelle) ont amen une
masse tellement colossale d'information dans les bases de donnes qu'elles ont stimul
la cration de mthodes d'analyse statistiques entirement nouvelles. Biologie
molculaire ne signifie pas non plus "pas de stats".

DP J'aimerais avoir votre avis sur l'utilisation de l'ANOVA pour comparer
simultanment plusieurs moyennes. C'est un sujet assez austre en gnral pour les
dbutants.
Abonessian (malicieux) je note d'ailleurs que vous l'avez soigneusement vit dans
cet ouvrage.
DP j'avoue en bloc. Je ne matrise pas suffisamment les finesses de l'ANOVA pour
me risquer sans crainte sur son territoire.
Parsimoni Tigran vous taquine, mais votre prudence vous honore. L'ANOVA fait
bien suffisamment de ravages comme a quand elle est explique par des gens qui la
"matrisent".
DP C'est tout de mme une mthode extrmement utilise.
Parsimoni Bien entendu. L'inertie du monde scientifique moderne est sans
quivalent. Quatre-vingt ans aprs avoir point du doigt les travers des tests d'hypothse
nulle, on continue d'en faire des milliers chaque anne, dont la plupart sont superflus et
peu informatifs.
Abonessian dont certains sont superflus et peu informatifs. L'ANOVA est une
mthode prouve, base sur des fondements thoriques solides et sur laquelle on a
accumul une trs grande exprience. Elle a rendu de fiers services et continuera le
faire, Giuseppe, reconnaissez le.
Parsimoni ah oui, vraiment, quel fier service de nous dire "Quelque part parmi ces
quinze moyennes, il y en a au moins une qui n'est pas comme les autres, P < 0,05". La
belle affaire que voil ! Je sais bien qu'au moins une de mes quinze moyennes ne va pas
tre comme les autres. C'est le contraire qui serait miraculeux ! Mais si c'est seulement
au niveau du deuxime chiffre aprs la virgule, je m'en moque compltement.
DP que faudrait il faire alors ?
Abonessian (plissant les yeux, comme frapp par une vision subite) tant un peu
mdium, je sens confusment que les mots "intervalle de confiance" ne vont pas tarder
tre prononcs.
Parsimoni mais parfaitement ! Nous voulons savoir quel point ces moyennes sont
diffrentes les unes des autres, nous voulons savoir lesquelles se dtachent du lot et de
combien, c'est la seule question scientifiquement valide, et cela implique efface ce
sourire de nigaud, Tigran de calculer leurs intervalles de confiance.
Abonessian Il existe pour cela des tests a posteriori, tel le test de Tukey, que l'on
effectue aprs l'ANOVA, lorsqu'elle est significative.
Parsimoni et on ne fait rien lorsqu'elle ne l'est pas, ce qui quivaut jeter la
poubelle le peu d'information contenu dans des donnes parfois durement acquises.
Quel gchis !
DP mais... si l'ANOVA est non significative, je ne vois pas comment...
Parsimoni cela indique simplement qu'on connat les moyennes trs
approximativement, et voil tout. Ca n'a jamais empch personne de calculer un
intervalle de confiance. Pensez vous rationnel de conduire en fermant les yeux
simplement parce que la visibilit est mauvaise ?
DP vu sous cet angle, videmment... je suppose que l'avantage de ce systme est
qu'il s'affranchit des conditions d'application assez strictes de l'ANOVA ?
Abonessian beaucoup moins strictes qu'on veut bien le dire. L'ANOVA est assez
robuste. De plus, traditionnellement, lorsque les conditions d'application de l'ANOVA
ne sont pas vraiment remplie, on effectue une transformation de variable, ou en dernier
recours on utilise un quivalent non paramtrique comme le H de Kruskal-Wallis dont
vous parlez au chapitre 10. Cependant, une approche plus moderne...
Parsimoni prparons nous un dluge de jargon prtentieux
Abonessian ... consiste utiliser le modle linaire gnralis (GLM) qui repose sur
la thorie de l'information et donc sur le concept de maximum de vraisemblance.
Parsimoni j'ai connu personnellement plusieurs calmars qui lanaient des nuages
d'encre beaucoup moins opaques.
Abonessian Giuseppe, allons, cela consiste simplement coller la vritable
distribution des donnes au lieu de vouloir toute force la faire rentrer au chausse-pied
dans le moule de la loi normale. Ce genre d'approche devrait pourtant vous plaire !
Parsimoni Malgr ce bel habillage, cela reste un test d'hypothse nulle de type "pas
d'effet".
Abonessian exact, mais il est trs puissant.
Parsimoni et donc particulirement dangereux, car il permet de monter en pingle
des diffrences minuscules sans aucun intrt pratique.
Abonessian dans ce cas il ne faut pas accuser le test mais duquer celui qui l'utilise.
Un test ne fait que vous donner une probabilit.
Parsimoni Je ne te le fais pas dire. Alors qu'un intervalle de confiance te donne du
concret : la zone d'ombre dans laquelle se cache vraisemblablement la vrit que tu
cherches, mme si nous devons nous contenter de cette ombre, tels les hommes de la
caverne dont parle Platon.
Abonessian changez vite le sujet, dottore, sinon pepe va nous faire une citation en
grec ancien
DP le professore Parsimoni est donc un fin connaisseur de Platon ?
Abonessian (anglique) bien entendu : ils sont de la mme gnration.
Parsimoni c'est a, fais le malin. Tu veux que je raconte la fois ou tu m'as crit une
pleine page de discussion pour commenter un pourcentage calcul sur douze individus ?
Abonessian pepe, j'avais vingt ans ! Il y a prescription !
Parsimoni (le visage de marbre) certains crimes sont imprescriptibles.

(sensuit un dner dlicieux)

DP Messieurs, le mot de la fin ?
Parsimoni Eh bien... surtout n'y voyez aucune offense, dottore... mais je pense
vraiment que les statistiques ne s'apprennent pas dans les livres.
DP Nulle offense professore, vous prchez un convaincu !
Parsimoni A la bonne heure. Dites donc bien vos tudiants qu'ils devront encore se
colleter avec des milliers et des milliers de donnes relles avant de commencer se
sentir vraiment l'aise. Je leur dirai ensuite ceci : aimez vos donnes, chrissez les.
traitez les comme elles le mritent : avec douceur et lenteur. Comment dites vous en
franais ? "Plus fait patience et longueur de temps..."
DP je vois ce que vous voulez dire. Et vous, professeur Abonessian, quel dernier
conseil donneriez vous un tudiant qui veut apprivoiser les stats ?
Abonessian je lui dirais la mme chose, et je lui dirais surtout qu'il a l'immense
chance d'tre n l'poque des ordinateurs...
Parsimoni j'aurai vraiment tout entendu dans ma longue vie.
Abonessian ... parce que grce l'informatique il n'a jamais t aussi facile et
ludique de s'entraner par simulation pour vraiment saisir de quoi l'alatoire est capable.
On trouve sur internet des dizaines de sites consacrs aux stats, des encyclopdies et des
cours en ligne. Enfin je dirai vos tudiants : allez donc sur http://the-r-project.org,
tlchargez le programme professionnel gratuit R une bonne fois pour toutes et
apprenez tranquillement vous en servir, votre rythme. Vous ne devriez plus jamais
avoir besoin d'utiliser grand chose d'autre.
DP et bien il me reste vous remercier tous les deux, j'ai pass une excellente soire.
Parsimoni tout le plaisir est pour moi. Sinon j'aurais d rester en tte tte avec
Tigran.
DP c'est donc si terrible ?
Parsimoni c'est bien simple : il ne parle que de statistiques !
Abonessian c'est un mensonge hont. Mais la soire n'est pas encore finie pour
vous pepe, je vous ai apport des diapos sur ma dernire partie de pche l'estrurgeon.
Parsimoni surtout pensez bien emporter vos oeufs de poisson dottore, j'en ai plein
mes placards.
Abonessian (moqueur) tiens donc. Il m'a pourtant sembl tout l'heure qu'il ne
restait pas grand chose de la cargaison apporte lors de mon dernier voyage.
Parsimoni (srieux comme un pape) Je les donne mes chats. Les chats aiment les
oeufs de poisson.

Je m'clipse sans faire de bruit. Le chemin du retour est obscur et sent bon le romarin et
la mer. Soudain, je me fige : deux yeux blancs me fixent dans la nuit. Une fraction de
seconde plus tard, il n'en reste que l'impression sur ma rtine. Je viens srement de
vivre un moment rare, la rencontre avec un chat quantique. Dans le lointain on entend
comme un roulement de tonnerre, mais je sais que c'est seulement le rire de Tigran.

F I N

ANNEXE 1

Pourquoi faut il utiliser :

s
2
= [ (x
i
- m )
2
] / (n -1)

et non pas

s
2
= [ (x
i
- m )
2
] / n

dans l'estimation de
2
partir d'un chantillon ?

Le problme vient du fait que m n'est pas la vritable valeur de , mais seulement son estimation base sur
les donnes de l'chantillon. Or, par dfinition, la moyenne d'une srie de donnes est la valeur qui minimise les
carts entre les donnes et cette valeur. Ceci reste vrai pour les carrs des carts. Il s'ensuit que le terme (x
i
- m
)
2
est le plus petit possible avec les valeurs x
i
de l'chantillon. Si on avait pu disposer de la vritable valeur de ,
le terme (x
i
- )
2
aurait forcment t plus grand (puisque est diffrent de m). Bref, procder en utilisant m
(la seule valeur dont on dispose en pratique !) amne un s
2
qui va systmatiquement sous estimer
2
.
Pour contrebalancer cet effet, il faut donc augmenter le numrateur (ou diminuer le dnominateur). Il a t
dmontr (brillamment je suppose) que la meilleure faon possible tait de remplacer n par (n - 1) au
dnominateur. Cette faon de procder a pour avantage que l'effet est sensible pour les petites valeurs de n (pour
lesquelles l'cart entre m et est probablement grand, donc la sous estimation importante) et il devient
ngligeable lorsque n grandit (la correction tant alors moins ncssaire car l'estimation de par m devient de
plus en plus fiable).

ANNEXE

pourquoi Var(aX) = a
2
Var(X) et non pas a Var (X)

Si X est une variable alatoire suivant une loi quelconque de moyenne
X
et de variance
2
X
. Pour une taille de
population N, on a par dfinition :

X
= x/N et
2
X
= ((x -
X
)
2
)/N

Si on pose Y = aX (ce qui revient remplacer chaque rsultat x par ax), on aura donc pour la nouvelle variable
alatoire Y

Y
= ax/N et
2
Y
= ((ax -
Y
)
2
)/N

En remplaant
Y
par son expression complte, on obtient :

2
Y
= [(ax - ax/N)
2
]/N

On peut alors remarquer que l'expression leve au carr contient des termes qui sont tous multiplis par a. Si on
met la constante a en facteur, on obtient successivement (les tapes sont dtailles au maximum volontairement
pour qu'on puisse bien suivre le mouvement):

2
Y
= [a (x - x/N)]
2
/N

2
Y
= a
2
(x - x/N)
2
/N

Tous les termes du premier sont multiplis par a
2
, donc on peut mettre a
2
en facteur :

2
Y
= a
2
(x - x/N)
2
/N

Or, x/N n'est autre que
X
, donc

2
Y
= a
2
(x -
X
)
2
/N = a
2

2
X

On a bien Var(Y) = a
2
Var(X), ce qu'il fallait dmontrer. Ce rsutat provient comme on le voit de la simple
application des dfinitions de la moyenne et de la variance (et le contraire aurait t plutt inquitant !). Notez
(maintenant que je vous ai assn cette belle dmonstration avec plein de lettres grecques) qu'on aurait pu
prvoir le rsultat intuitivement sans se fatiguer: il suffisait pour cela de se souvenir que la variance utilise une
unit (peu parlante) qui a la dimension du carr de celle utilise pour la variable (des mm
2
pour une longueur en
millimtres etc...). Si votre variable prend des valeurs a fois plus grandes il est donc parfaitement normal que sa
variance soit a
2
fois plus grande...

ANNEXE 2 : DOU VIENNENT LES FORMULES DES LOINS BINOMIALES ?

Formule de la loi binomiale positive
Soient deux types dindividus, type A (frquence p) type B (frquence q = 1 p) et n tirages
alatoires indpendants. Les n tirages peuvent tre conus comme deux ensembles de cases,
l'un de k cases o un individu A a t obtenu, et de (n - k) cases o un individu B a t obtenu.
Cependant, ces n cases sont susceptibles d'tre obtenues de bien des faons diffrentes. par
exemple, si n = 3 et k = 2 on aura AAB ou bien ABA ou encore BAA = 3 possibilits. Ce
genre de situation correspond une combinaison (au sens probabiliste du terme) dont le
nombre est de C
n
k
(dans l'exemple choisi on a bien C
3
2
= 3). Il faut garder ce facteur
multiplicatif en mmoire, il rapparat plus loin. Reste maintenant calculer la probabilit que
k cases contiennent un A et les (n - k) autres cases un B.

(i) La probabilit que k cases prises au hasard contiennent un A est gale : p
k

(ii) La probabilit que n-k cases prises au hasard contiennent chacune un B est gale : q
n - k

Ces deux probabilits sont totalement indpendantes (le fait d'avoir un A dans une case
donne est sans aucune influence sur le contenu de la case d'a cot). La probabilit d'avoir (i)
ET (ii) s'obtient donc en multipliant leurs probabilits, soit
P(k cases avec A et (n - k) cases avec B) = p
k
q
n - k
L'important est ici de se souvenir que, lorsqu'on effectue n tirages, il y a C
n
k
combinaisons
ayant cette probabilit, puisqu'il y a C
n
k
faons de ranger k lments quivalents parmi n
places (c'est ce qui a t calcul au dbut du raisonnement). On en dduit que la probabilit
d'obtenir k vnements de probabilit constante p au cours de n tirages est :

P (X = k) = C
n
k
p
k
q
n - k

Formule de la loi binomiale ngative
Rappel : on veut r individus se trouvant en frquence p dans la population o on effectue les
tirages et on sintresse la variable X nombre de tirages ncessaires pour obtenir le r
ime

individu dsir.

Au cours des k 1 premiers tirages sont apparus les r 1 premiers individus qui nous
intressent (ils ont pu apparatre trs tt ou trs tard dans cette srie, mais maintenant ils sont
l). Or, la probabilit dobtenir Z = r 1 individus de frquence p au cours dune exprience
de n = k 1 tirages suit une loi binomiale positive B ( n : p). On sait que cette probabilit vaut

P (X = Z) = C
n
Z
p
Z
q
n-Z
(voir raisonnement de la loi binomiale positive)

Soit en remplaant n et Z par leur valeur ici, une probabilit de C
k 1
r - 1
p
r - 1
q
k-r

Il nous faut dautre part que le

k
ime
tirage nous amne un individu qui nous intresse pour
en avoir r, et cette probabilit est p.

On a donc bien la probabilit totale : P (X = k) = C
k-1

r-1
p
r-1
q
k-r
p = C
k-1

r-1
p
r
q
k-r

1
Annexe 3 : L'erreur standard pour les dbutants

L'erreur standard (abrviation : e.s. en franais et s.e. en anglais) est simplement le
nom spcial donn l'cart-type d'un paramtre (moyenne, pourcentage, indice
de Shannon etc.) calcul partir de vos donnes. Prenons l'exemple le plus
courant, l'cart-type de la moyenne, et voyons en quoi cette "erreur standard" est
diffrente du simple "cart-type des donnes" (racine carre de la variance) qui est
calcul automatiquement par la touche des calculatrices statistiques.

Erreur standard d'une moyenne
L'erreur standard de la moyenne dpend du nombre n de donnes dans
l'chantillon. Plus l'chantillon est grand, plus l'erreur standard est petite. Elle
traduit donc la prcision dans l'estimation de la moyenne relle dans la population.
C'est pour cela qu'on utilise habituellement l'erreur-standard pour tracer les "barres
d'erreur" sur les graphes scientifiques. Plus spcifiquement, la taille de l'erreur
standard est inversement proportionnelle la racine carre du nombre n de donnes.
En pratique, si on multiplie courageusement la taille de son chantillon par 10 au
moyen d'un effort exprimental extnuant, l'erreur standard diminuera "seulement"
dans la proportion 10 (donc l'estimation sera environ trois fois plus prcise, et non
pas hlas dix fois plus prcise). Bref, dans le cas de la moyenne, le nom "erreur
standard" pourrait avantageusement tre remplac par "cart-type-de-la moyenne".
Alors pourquoi maintenir l'appellation "erreur standard" ?

Probablement parce que le terme "erreur standard" permet d'viter la confusion avec
l'cart-type des donnes (gal comme vous le savez la racine carre de la variance
des donnes). Ce cart-type estime la dispersion des donnes autour de la moyenne
dans la population chantillonne. Or, le fait que les donnes soient peu ou beaucoup
disperses autour de leur moyenne dans la population chantillonne ne dpend
videmment pas du nombre n de donnes dans votre chantillon. Au contraire,
on a vu que l'erreur standard de la moyenne calcule partit de votre chantillon
diminue mcaniquement lorsque la taille de l'chantillon augmente. Il s'agit donc
bien de deux notions diffrentes.
Pour rsumer : Lorsque la taille de votre chantillon grandit, l'erreur standard de
la moyenne diminue (un effectif plus grand permet une estimation plus prcise de la
moyenne), mais la dispersion des donnes autour de leur moyenne dans la population
d'origine (estime par la variance et l'cart-type de vos donnes) reste immuable.

On peut exprimer tout ceci en deux formules trs simples:

Ecart-type (d'une variable alatoire au sein d'une population d'individus) :

(immuable)

2
Erreur standard (d'une moyenne calcule sur n individus) :
/n = (
2
/n)
(diminue lorsque n augmente)

Et maintenant, revenons l'objet de cette Annexe 3, qui est de comprendre comment
la moyenne d'un chantillon, qui est premire vue une valeur unique, peut avoir un
cart-type (nomm erreur standard), puisque pour calculer un cart-type il faudrait
plusieurs valeurs de moyennes. O sont donc les autres valeurs qui permettraient de
calculer cet cart-type? L'explication est tout simplement que la moyenne dont on
calcule l'cart-type n'est pas la moyenne de votre modeste chantillon de n individus.
Il s'agit de l'cart-type d'une variable alatoire que l'on pourrait nommer : "moyenne
d'un chantillon de n individus tirs au hasard dans la population tudie". En effet,
rappelons que l'chantillon sert seulement accder une meilleure connaissance de
notre vritable objet d'tude : la population dont il est issu. Donc, la moyenne
calcule sur votre chantillon de n individus n'est jamais qu'un tirage alatoire parmi
l'infinit de moyennes d'chantillons de n individus que l'on peut raliser dans la
population tudie. Vous savez trs bien qu'en tirant deux chantillons de n individus
dans la mme population vous obtiendrez deux moyennes diffrentes ( cause des
invitables fluctuations d'chantillonnage). Donc, la "moyenne d'un chantillon de n
individus dans la population" est bien une variable alatoire. Qui dit variable
alatoire dit variance, et donc cart-type. Tout ceci tant encore un peu trop abstrait,
il serait plus parlant de le vrifier en pratique. C'est ce que nous allons faire par
simulation.

Grce au logiciel statistique R (trs puissant et complet, gratuit, tlcharger sur the-
r-project.org), on peut effectuer facilement des tirages alatoires dans une loi
quelconque. J'ai choisi ici la loi statistique rgissant le fameux QI (Quotient
Intellectuel) dans l'espce humaine, car elle est connue : il s'agit d'une distribution
approximativement normale, sa moyenne vaut 100 (par convention) et son cart-type
vaut environ 15 (on le sait pour avoir fait passer des centaines de milliers de tests de
QI sur tous les continents). Voici comment demander R de crer un premier
chantillon A de 10 individus en piochant dans cette distribution :

>A=rnorm(10, m=100, sd=15)

Ces instructions se dcryptent ainsi :

"Crer un objet nomm A, auquel il faut attribuer (=) des tirages alatoires (random)
dans une loi normale, je veux 10 tirages, la moyenne de cette loi vaut 100 et son
cart-type (standard deviation) vaut 15"

On obtient alors (par exemple) un chantillon comme celui-ci :

3
119, 95, 102, 99, 118, 113, 97, 107, 105, 89.
(donnes arrondies pour des raisons de lisibilit)

Moyenne : m
A
= 104,46 (calcule sur les donnes non arrondies)

On constate que, videmment, on n'obtient pas exactement la moyenne thorique de
100 points de QI, cause des fluctuations d'chantillonnage.

Et maintenant "recommenons l'exprience" en rclamant un chantillon B:

>B= rnorm(10, m=100, sd=15)

74, 125, 86, 123, 71, 97, 89, 97, 101, 102

Moyenne : m
B
= 96,55

On constate (toujours sans aucune surprise) que la seconde moyenne est diffrente de
la premire. Comme le second chantillon a t tir dans la mme population
statistique (mme loi de distribution normale N(100:15), cette diffrence s'explique
bien entendu uniquement cause des fluctuations d'chantillonnage.

Et maintenant, le grand jeu. On va obtenir par simulation l'erreur standard,
(autrement dit l'cart type) de la variable alatoire "moyenne du QI de 10 individus
choisis au hasard". Et avant de le simuler, on va d'abord essayer de le prdire.

Selon ce qui a t vu plus haut, on a ici :

cart-type des donnes = = 15 (c'est l'cart type de la "loi du QI")

Puisque erreur standard. = /n on peut prdire que ici, l'erreur standard (i.e. l'cart
type du QI moyen de 10 individus) sera "racine de dix fois" plus petite que 15. On
s'attend donc la valeur :

erreur standard = 15/10 = 4,743416. Soit environ 4,7.

Obtenir la valeur exacte 4,743416 par simulation est impossible, car il faudrait
effectuer une infinit de tirages. On va se contenter ici de vrifier si on obtient bien
une valeur proche de 4,7 en collectant mille chantillons de 10 individus, et en
calculant chaque fois la moyenne de l'chantillon. On se retrouvera donc avec mille
moyennes, et il ne restera plus qu' calculer l'cart-type de cette srie de mille
donnes. Si toute cette belle thorie de l'erreur standard n'est pas de la fumisterie, on
devrait tomber sur une valeur proche de 4,7

4
Dans R, voici la manuvre (le caractre # signale des commentaires):

> mille.valeurs=numeric(1000) #cration d'un tableau nomm
mille.valeurs qui servira
stocker les 1000 valeurs
numriques obtenues par la
simulation
> for(i in 1:1000) #On va faire 1000 rptitions en
faisant varier un compteur nomm
i de i=1 i=1000
{ #dbut de la boucle
mille.valeurs[i]=mean(rnorm(10,m=
100,sd=15))

#pour chacune des 1000
rptitions, ranger dans le
tableau mille.valeurs, dans la
case de rang [i], la moyenne
(mean) obtenue partir d'un
chantillon alatoire (random) de
10 individus tirs dans une loi
normale de moyenne 100 et
d'cart-type (standard deviation)
15
} #fin de la boucle

Voyons dj la moyenne gnrale du QI obtenue sur cette foule de gens :

> mean(mille.valeurs)
[1] 99.86966

A un pouillme prs, c'est exactement la valeur thorique de 100. Notre estimation
est trs prcise car on a tout de mme 10 000 individus au total (mille chantillons de
10 personnes).

Et maintenant le moment de vrit, rclamons grand cris l'cart-type de ces mille
moyennes d'chantillons (donc, la fameuse erreur standard) et voyons si on est
proche de 4,7. (Rappel : cart-type = standard deviation en anglais)

> sd(mille.valeurs)
[1] 4.714994

C'est pas beau a ?

On constate donc, par une exprience concrte (bien que in silico) que la relation
erreur standard = /n tient la route remarquablement bien.

Reparlons maintenant des barres d'erreur des graphes scientifiques. Vous
comprenez peut-tre maintenant pourquoi il est important d'apprendre faire la
5
distinction entre l'cart-type des donnes individuelles (ici, = 15) et celle de la
moyenne que vous prsenteriez sur le graphe si vous aviez utilis un chantillon de
10 individus (ici, e.s. = 4,71). Supposons en effet que votre exprience teste l'effet de
la grave malnutrition d'une femme enceinte sur le QI d'un enfant natre. Je ne
connais rien ce thme de recherche mais on va supposer sans prendre de grands
risques que la grave malnutrition d'une femme enceinte a peu de chances d'tre
positive pour la maturation du cerveau de son enfant. Supposons donc qu'une
malnutrition svre fasse perdre 5 points de QI en moyenne chez le futur enfant, mais
que personne n'en sache rien. Vous en avez pourtant l'intuition, et souhaitez le
dmontrer. Supposons encore que grce une tude trs grande chelle, vous soyez
parvenu rassembler deux chantillons de 1000 naissances correctement constitus
de manire ce que la malnutrition de la mre soit bien le seul critre les sparant (ce
qui me semble difficilement ralisable, soit dit en passant). Vous calculez les deux
moyennes de QI chez les enfants qui en sont issus, et le rsultat est : 101 chez le
groupe tmoin, 95 dans le groupe "malnutrition". Si vous utilisez pour les barres
d'erreur de votre graphe le simple cart-type des donnes (la racine carre de la
variance, donc ici =15), cela va donner ceci :

Un scientifique jetant un coup d'oeil ce graphe conclurait immanquablement (en
pensant avoir affaire de vritables barres d'erreur standard) que la diffrence
constate est non significative, et donc qu'on ne peut rien conclure de particulier sur
l'effet de la malnutrition des mres sur le QI de leurs enfants. Comme ce thme est
important, et que le groupe "malnutrition" obtient cependant un score infrieur, le
scientifique en question vous encouragerait peut-tre continuer vos recherches mais
avec une chantillon beaucoup plus grand pour rduire l'incertitude de vos mesure.
bref, de telles "barres d'erreur" trompent compltement le lecteur et donnent par
dessus le march une image de grande imprcision vos estimations mme
lorsqu'elles sont trs prcises. Un comble !

En revanche, si vous avez compris que mille individus permettent normalement une
estimation trs fiable, vous raliserez que la valeur correcte utiliser pour vos barres
d'erreur n'est pas le simple cart-type =15 mais bien l'erreur standard d'une
moyenne de mille individus, qui est racine de 1000 (soit 31) fois plus petit = c'est
dire 15/31=0,47. Et sur le graphe, a change tout :
QI
70
90
110
130
Tmoin Malnutri.
6

Cette fois, vous apercevez peine les barres d'erreur tant elles sont minuscules, et
pourtant j'ai donn un coup de zoom (regardez l'chelle des ordonnes). Ce
graphique indiquerait, sans mme faire de test statistique, qu'il existe une diminution
significative de plusieurs points de QI en cas de malnutrition. En effet, les intervalles
de confiance des moyennes sont environ deux fois plus larges que ces barres d'erreur
minuscules. On voit bien (en multipliant mentalement la taille des barres par deux)
qu'aucune des deux moyennes n'est situe dans l'intervalle de confiance de l'autre.
Les deux moyennes sont bien distinctes : la malnutrition diminue significativement le
QI (selon cette exprience fictive).

Erreur standard d'un pourcentage.
L'erreur standard d'un pourcentage est simplement son cart-type. Si on appelle p
o
le
pourcentage observ (exprim de 0 100) calcul sur n individus et q
o
= 1 p
o
son
complmentaire 100, alors on peut reprsenter l'erreur standard. de p
o
sur un
graphique en calculant :

es = (p
o
q
o
/ n)

Comme pour le cas des moyennes, on peut se poser la question suivante : "Mais
comment diable peut on prtendre calculer l'cart-type d'un pourcentage unique,
calcul sur mon seul chantillon de n individus ?". La rponse est similaire la
situation de la moyenne : vous calculez en fait l'cart-type d'une variable alatoire
que l'on pourrait nommer "pourcentage obtenu partir d'un chantillon de n
individus tirs au hasard dans cette population". Vous savez bien que deux
chantillons de n individus donneront deux pourcentages diffrents cause des
fluctuations d'chantillonnage. Le pourcentage que vous obtenez partir de votre
chantillon n'est donc qu'un tirage au sein de l'infinit des pourcentages que l'on
pourrait obtenir dans cette population en prlevant des chantillons de n individus.
Ces pourcentages fluctueraient autour du vritable pourcentage p, qui restera
jamais inconnu. Or, une variable alatoire possde une variance et un cart-type, et
c'est lui que vous calculez ici. Dmonstration par simulation.

QI
92
97
102
Tmoin Malnutri.
7
Si la proportion relle de gauchers dans une population est de p = 0,1 (soit 10%) d'ou
q = 0,9 =1 p, alors la variance de la frquence des gauchers dans la population
relle (qui mesure la dispersion autour de la valeur moyenne p = 0,1 gaucher par
tirage) est invariable et vaut pq soit 0,1 0,9 = 0,09. L'cart-type est donc 0,09 =
0,3. Ceci dcoule des proprits de la loi binomiale qui rgit les pourcentages, et
reste immuable quel que soit le nombre n d'individus dans votre chantillon. Il n'en
est pas de mme de l'erreur standard de votre pourcentage observ p
o
, qui traduit la
prcision avec laquelle ce pourcentage estime le vritable pourcentage p. En effet,
cette erreur standard sera d'autant plus petite que n sera grand. Il suffit pour s'en
convaincre d'tudier par simulation l'cart-type d'une grande srie de pourcentages
estims p
o
obtenus sur des chantillons de n individus. On s'attend ce que cet cart-
type (qui est une erreur standard) soit n fois plus petit que l'cart type rel dans la
population, qui vaut 0,3. Si on prend des chantillons de 9 individus par exemple,
l'erreur standard devrait tre (aux fluctuations d'chantillonnage prs) de 0,3/9 =
0,3/3 = 0,1. Vrifions si a marche.

> mille.valeurs=numeric(1000) #cration d'un tableau nomm
mille.valeurs qui servira
stocker les 1000 valeurs
numriques obtenues par la
simulation
> for(i in 1:1000) #On va faire 1000 rptitions en
faisant varier un compteur nomm
i de i=1 i=1000
{ #dbut de la boucle
mille.valeurs[i]=mean(rbinom(9,
size=1, p=0.1))

#pour chacune des 1000
rptitions, ranger dans le
tableau mille.valeurs, dans la
case de rang [i], la moyenne
(mean) obtenue partir d'un seul
(size=1) chantillon alatoire
(random) de 9 individus tirs
dans une loi binomiale de moyenne
p=0,1.
} #fin de la boucle

Il n'y a plus qu' calculer l'cart-type et voir si on est proche de 0,3/3 = 0,1.

> sd(mille.valeurs)
[1] 0.1009985

Suffisamment proche de 0,1 pour votre got ? Avec cet effectif, on peut donc
reprsenter le pourcentage observ dans notre chantillon avec une barre d'erreur de
0,1 units (ou 10%) de part et d'autre de la valeur observe.

Statistiques Pour Statophobes

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Statistiques Pour Statophobes

Încărcat de

Drepturi de autor:

Formate disponibile

1

pour B les valeurs b

D. Poinsot Statistiques pour statophobes

D. Poinsot Statistiques pour statophobes

S-ar putea să vă placă și